קשר סטטיסטי ומדדי קשר למשתנים שמיים

סטטיסטיקה

 קשר סטטיסטי ומדדי קשר למשתנים שמיים

🔗 מהו קשר סטטיסטי?

קשר סטטיסטי בין שני משתנים קיים כאשר שינוי בערך של משתנה אחד מלווה בשינוי בערך של המשתנה השני.

⚠️ חשוב להבין:

קשר ≠ סיבתיות!

העובדה שיש קשר בין שני משתנים לא אומרת שאחד גורם לשני.

דוגמה: יש קשר בין מכירות גלידה לבין מספר מקרי טביעה - אבל גלידה לא גורמת לטביעה! שניהם קשורים למשתנה שלישי: הקיץ.

📊 סוגי קשר:

📈

קשר חיובי

כשאחד עולה - השני עולה

📉

קשר שלילי

כשאחד עולה - השני יורד

אין קשר

אין תלות בין המשתנים

📏 סולמות מדידה - תזכורת

סולם תיאור דוגמאות מדד קשר
שמי (נומינלי) קטגוריות ללא סדר צבע, מין, עיר למדה, קרמר, פי
סידורי קטגוריות עם סדר דירוג 1-5, השכלה ספירמן
רווחי/מנתי מספרים עם משמעות גובה, ציון, הכנסה אטא, פירסון

📊 טבלת שכיחות דו-ממדית (טבלת הצלבה)

דוגמה: סקר על 200 אנשים - מין ועיסוק מועדף

  ספורט מוזיקה קריאה סה"כ שורה
גברים 50 30 20 100
נשים 20 40 40 100
סה"כ עמודה 70 70 60 n = 200

💡 סימונים:

  • \(f_{ij}\) = השכיחות בתא (שורה i, עמודה j)
  • \(R_i\) = סכום שורה i
  • \(C_j\) = סכום עמודה j
  • \(n\) = סה"כ תצפיות
  • r = מספר שורות, c = מספר עמודות

χ² מדד חי-בריבוע (Chi-Square)

מדד בסיסי לבדיקת קשר בין משתנים קטגוריאליים:

\(\chi^2 = \sum \frac{(f_o - f_e)^2}{f_e}\)

💡 הסברים:

  • \(f_o\) = שכיחות נצפית (מהטבלה)
  • \(f_e\) = שכיחות צפויה (אם אין קשר)

חישוב שכיחות צפויה:

\(f_e = \frac{R_i \times C_j}{n}\)

✏️ דוגמה - חישוב שכיחויות צפויות:

עבור התא "גברים + ספורט":

\(f_e = \frac{100 \times 70}{200} = 35\)

נצפה: 50, צפוי: 35 → יש יותר גברים בספורט מהצפוי!

📊 טבלת שכיחויות צפויות מלאה:

  ספורט מוזיקה קריאה
גברים 35 35 30
נשים 35 35 30

\(\chi^2 = \frac{(50-35)^2}{35} + \frac{(30-35)^2}{35} + \frac{(20-30)^2}{30} + \frac{(20-35)^2}{35} + \frac{(40-35)^2}{35} + \frac{(40-30)^2}{30}\)

\(= \frac{225}{35} + \frac{25}{35} + \frac{100}{30} + \frac{225}{35} + \frac{25}{35} + \frac{100}{30}\)

\(= 6.43 + 0.71 + 3.33 + 6.43 + 0.71 + 3.33 = 20.94\)

⚠️ בעיה עם χ²:

הערך תלוי בגודל המדגם (n) ובגודל הטבלה - לא מנורמל!

לכן משתמשים במדדים מנורמלים: פי, קרמר, למדה

Φ מדד פי (Phi) - לטבלת 2×2

מדד קשר לטבלה עם 2 שורות ו-2 עמודות בלבד:

\(\phi = \sqrt{\frac{\chi^2}{n}}\)

💡 תכונות:

  • \(0 \leq \phi \leq 1\)
  • \(\phi = 0\) → אין קשר
  • \(\phi = 1\) → קשר מושלם

📐 נוסחה ישירה לטבלת 2×2:

  Y=1 Y=0
X=1 a b
X=0 c d

\(\phi = \frac{ad - bc}{\sqrt{(a+b)(c+d)(a+c)(b+d)}}\)

נוסחה זו יכולה לתת ערכים שליליים (קשר שלילי)

✏️ דוגמה: קשר בין מין לעישון

  מעשן לא מעשן סה"כ
גבר 40 (a) 60 (b) 100
אישה 20 (c) 80 (d) 100
סה"כ 60 140 200

\(\phi = \frac{40 \times 80 - 60 \times 20}{\sqrt{100 \times 100 \times 60 \times 140}}\)

\(= \frac{3200 - 1200}{\sqrt{84000000}} = \frac{2000}{9165} = 0.218\)

פרשנות: קשר חיובי חלש-בינוני בין מין לעישון

V מדד קרמר (Cramér's V)

הכללה של מדד פי לטבלאות בכל גודל:

\(V = \sqrt{\frac{\chi^2}{n \cdot (k-1)}}\)

כאשר k = min(r, c) = המינימום בין מספר השורות למספר העמודות

💡 תכונות:

  • \(0 \leq V \leq 1\)
  • \(V = 0\) → אין קשר
  • \(V = 1\) → קשר מושלם
  • בטבלת 2×2: V = |φ|

✏️ דוגמה: מהטבלה הראשונה (מין ועיסוק, 2×3)

χ² = 20.94, n = 200

k = min(2, 3) = 2

\(V = \sqrt{\frac{20.94}{200 \times (2-1)}} = \sqrt{\frac{20.94}{200}} = \sqrt{0.1047} = 0.324\)

פרשנות: קשר בינוני בין מין לעיסוק מועדף

📊 פרשנות עוצמת הקשר (קרמר):

ערך V עוצמת הקשר
0 - 0.1 זניח / אין קשר
0.1 - 0.3 חלש
0.3 - 0.5 בינוני
0.5+ חזק

λ מדד למדה (Lambda)

למדה מודד כמה ידיעת משתנה אחד משפרת את הניבוי של המשתנה השני.

\(\lambda = \frac{E_1 - E_2}{E_1}\)

💡 הסבר:

  • \(E_1\) = שגיאות ניבוי ללא ידיעת המשתנה המסביר
  • \(E_2\) = שגיאות ניבוי עם ידיעת המשתנה המסביר
  • λ = שיעור ההפחתה בשגיאות

📐 נוסחה מפורטת:

\(\lambda_{Y|X} = \frac{n - \max(C_j) - \sum_i [\max_j(f_{ij}) - \max(R_i)]}{n - \max(C_j)}\)

או בצורה פשוטה יותר:

\(\lambda_{Y|X} = \frac{\sum_i \max_j(f_{ij}) - \max(C_j)}{n - \max(C_j)}\)

💡 תכונות:

  • \(0 \leq \lambda \leq 1\)
  • \(\lambda = 0\) → ידיעת X לא משפרת ניבוי Y
  • \(\lambda = 1\) → ידיעת X מאפשרת ניבוי מושלם של Y
  • לא סימטרי: \(\lambda_{Y|X} \neq \lambda_{X|Y}\)

✏️ דוגמה: ניבוי עיסוק לפי מין

ללא ידיעת מין:

נבחר את העיסוק הנפוץ ביותר: ספורט או מוזיקה (70 כל אחד)

\(E_1 = 200 - 70 = 130\) שגיאות

עם ידיעת מין:

גברים: נבחר ספורט (50) → 50 נכונים, 50 שגיאות

נשים: נבחר מוזיקה או קריאה (40) → 40 נכונים, 60 שגיאות

\(E_2 = 50 + 60 = 110\) שגיאות

\(\lambda = \frac{130 - 110}{130} = \frac{20}{130} = 0.154\)

פרשנות: ידיעת המין מפחיתה את שגיאות הניבוי ב-15.4%

💡 טיפים למבחן

טבלה 2×2: פי (φ)

טבלה כללית: קרמר (V)

ניבוי: למדה (λ)

שכיחות צפויה: \(\frac{R \times C}{n}\)

📝 סיכום דף 9

משתנים שמיים: φ (2×2), V (כללי), λ (ניבוי)

כולם בטווח [0,1], גבוה יותר = קשר חזק יותר