קשר סטטיסטי ומדדי קשר למשתנים שמיים
סטטיסטיקה
קשר סטטיסטי ומדדי קשר למשתנים שמיים
🔗 מהו קשר סטטיסטי?
קשר סטטיסטי בין שני משתנים קיים כאשר שינוי בערך של משתנה אחד מלווה בשינוי בערך של המשתנה השני.
⚠️ חשוב להבין:
קשר ≠ סיבתיות!
העובדה שיש קשר בין שני משתנים לא אומרת שאחד גורם לשני.
דוגמה: יש קשר בין מכירות גלידה לבין מספר מקרי טביעה - אבל גלידה לא גורמת לטביעה! שניהם קשורים למשתנה שלישי: הקיץ.
📊 סוגי קשר:
📈
קשר חיובי
כשאחד עולה - השני עולה
📉
קשר שלילי
כשאחד עולה - השני יורד
➖
אין קשר
אין תלות בין המשתנים
📏 סולמות מדידה - תזכורת
| סולם | תיאור | דוגמאות | מדד קשר |
|---|---|---|---|
| שמי (נומינלי) | קטגוריות ללא סדר | צבע, מין, עיר | למדה, קרמר, פי |
| סידורי | קטגוריות עם סדר | דירוג 1-5, השכלה | ספירמן |
| רווחי/מנתי | מספרים עם משמעות | גובה, ציון, הכנסה | אטא, פירסון |
📊 טבלת שכיחות דו-ממדית (טבלת הצלבה)
דוגמה: סקר על 200 אנשים - מין ועיסוק מועדף
| ספורט | מוזיקה | קריאה | סה"כ שורה | |
|---|---|---|---|---|
| גברים | 50 | 30 | 20 | 100 |
| נשים | 20 | 40 | 40 | 100 |
| סה"כ עמודה | 70 | 70 | 60 | n = 200 |
💡 סימונים:
- \(f_{ij}\) = השכיחות בתא (שורה i, עמודה j)
- \(R_i\) = סכום שורה i
- \(C_j\) = סכום עמודה j
- \(n\) = סה"כ תצפיות
- r = מספר שורות, c = מספר עמודות
χ² מדד חי-בריבוע (Chi-Square)
מדד בסיסי לבדיקת קשר בין משתנים קטגוריאליים:
\(\chi^2 = \sum \frac{(f_o - f_e)^2}{f_e}\)
💡 הסברים:
- \(f_o\) = שכיחות נצפית (מהטבלה)
- \(f_e\) = שכיחות צפויה (אם אין קשר)
חישוב שכיחות צפויה:
\(f_e = \frac{R_i \times C_j}{n}\)
✏️ דוגמה - חישוב שכיחויות צפויות:
עבור התא "גברים + ספורט":
\(f_e = \frac{100 \times 70}{200} = 35\)
נצפה: 50, צפוי: 35 → יש יותר גברים בספורט מהצפוי!
📊 טבלת שכיחויות צפויות מלאה:
| ספורט | מוזיקה | קריאה | |
|---|---|---|---|
| גברים | 35 | 35 | 30 |
| נשים | 35 | 35 | 30 |
\(\chi^2 = \frac{(50-35)^2}{35} + \frac{(30-35)^2}{35} + \frac{(20-30)^2}{30} + \frac{(20-35)^2}{35} + \frac{(40-35)^2}{35} + \frac{(40-30)^2}{30}\)
\(= \frac{225}{35} + \frac{25}{35} + \frac{100}{30} + \frac{225}{35} + \frac{25}{35} + \frac{100}{30}\)
\(= 6.43 + 0.71 + 3.33 + 6.43 + 0.71 + 3.33 = 20.94\)
⚠️ בעיה עם χ²:
הערך תלוי בגודל המדגם (n) ובגודל הטבלה - לא מנורמל!
לכן משתמשים במדדים מנורמלים: פי, קרמר, למדה
Φ מדד פי (Phi) - לטבלת 2×2
מדד קשר לטבלה עם 2 שורות ו-2 עמודות בלבד:
\(\phi = \sqrt{\frac{\chi^2}{n}}\)
💡 תכונות:
- \(0 \leq \phi \leq 1\)
- \(\phi = 0\) → אין קשר
- \(\phi = 1\) → קשר מושלם
📐 נוסחה ישירה לטבלת 2×2:
| Y=1 | Y=0 | |
|---|---|---|
| X=1 | a | b |
| X=0 | c | d |
\(\phi = \frac{ad - bc}{\sqrt{(a+b)(c+d)(a+c)(b+d)}}\)
נוסחה זו יכולה לתת ערכים שליליים (קשר שלילי)
✏️ דוגמה: קשר בין מין לעישון
| מעשן | לא מעשן | סה"כ | |
|---|---|---|---|
| גבר | 40 (a) | 60 (b) | 100 |
| אישה | 20 (c) | 80 (d) | 100 |
| סה"כ | 60 | 140 | 200 |
\(\phi = \frac{40 \times 80 - 60 \times 20}{\sqrt{100 \times 100 \times 60 \times 140}}\)
\(= \frac{3200 - 1200}{\sqrt{84000000}} = \frac{2000}{9165} = 0.218\)
פרשנות: קשר חיובי חלש-בינוני בין מין לעישון
V מדד קרמר (Cramér's V)
הכללה של מדד פי לטבלאות בכל גודל:
\(V = \sqrt{\frac{\chi^2}{n \cdot (k-1)}}\)
כאשר k = min(r, c) = המינימום בין מספר השורות למספר העמודות
💡 תכונות:
- \(0 \leq V \leq 1\)
- \(V = 0\) → אין קשר
- \(V = 1\) → קשר מושלם
- בטבלת 2×2: V = |φ|
✏️ דוגמה: מהטבלה הראשונה (מין ועיסוק, 2×3)
χ² = 20.94, n = 200
k = min(2, 3) = 2
\(V = \sqrt{\frac{20.94}{200 \times (2-1)}} = \sqrt{\frac{20.94}{200}} = \sqrt{0.1047} = 0.324\)
פרשנות: קשר בינוני בין מין לעיסוק מועדף
📊 פרשנות עוצמת הקשר (קרמר):
| ערך V | עוצמת הקשר |
|---|---|
| 0 - 0.1 | זניח / אין קשר |
| 0.1 - 0.3 | חלש |
| 0.3 - 0.5 | בינוני |
| 0.5+ | חזק |
λ מדד למדה (Lambda)
למדה מודד כמה ידיעת משתנה אחד משפרת את הניבוי של המשתנה השני.
\(\lambda = \frac{E_1 - E_2}{E_1}\)
💡 הסבר:
- \(E_1\) = שגיאות ניבוי ללא ידיעת המשתנה המסביר
- \(E_2\) = שגיאות ניבוי עם ידיעת המשתנה המסביר
- λ = שיעור ההפחתה בשגיאות
📐 נוסחה מפורטת:
\(\lambda_{Y|X} = \frac{n - \max(C_j) - \sum_i [\max_j(f_{ij}) - \max(R_i)]}{n - \max(C_j)}\)
או בצורה פשוטה יותר:
\(\lambda_{Y|X} = \frac{\sum_i \max_j(f_{ij}) - \max(C_j)}{n - \max(C_j)}\)
💡 תכונות:
- \(0 \leq \lambda \leq 1\)
- \(\lambda = 0\) → ידיעת X לא משפרת ניבוי Y
- \(\lambda = 1\) → ידיעת X מאפשרת ניבוי מושלם של Y
- לא סימטרי: \(\lambda_{Y|X} \neq \lambda_{X|Y}\)
✏️ דוגמה: ניבוי עיסוק לפי מין
ללא ידיעת מין:
נבחר את העיסוק הנפוץ ביותר: ספורט או מוזיקה (70 כל אחד)
\(E_1 = 200 - 70 = 130\) שגיאות
עם ידיעת מין:
גברים: נבחר ספורט (50) → 50 נכונים, 50 שגיאות
נשים: נבחר מוזיקה או קריאה (40) → 40 נכונים, 60 שגיאות
\(E_2 = 50 + 60 = 110\) שגיאות
\(\lambda = \frac{130 - 110}{130} = \frac{20}{130} = 0.154\)
פרשנות: ידיעת המין מפחיתה את שגיאות הניבוי ב-15.4%
💡 טיפים למבחן
טבלה 2×2: פי (φ)
טבלה כללית: קרמר (V)
ניבוי: למדה (λ)
שכיחות צפויה: \(\frac{R \times C}{n}\)
📝 סיכום דף 9
משתנים שמיים: φ (2×2), V (כללי), λ (ניבוי)
כולם בטווח [0,1], גבוה יותר = קשר חזק יותר