מדדי קשר למשתנים שמיים

🔗 מדדי קשר למשתנים שמיים

קשר סטטיסטי בין שני משתנים קיים כאשר ידיעת ערכו של משתנה אחד מספקת מידע על המשתנה השני.

עבור משתנים שמיים (קטגוריאליים ללא סדר) נשתמש במדדי למדה (λ) וקרמר (V).

📋 טבלת שכיחויות דו-ממדית

טבלת שכיחויות - דוגמה Y \ X X₁ X₂ סה"כ Y₁ Y₂ סה"כ n₁₁ n₁₂ n₁. n₂₁ n₂₂ n₂. n.₁ n.₂ n n.ⱼ = סכום עמודה j (שוליים של X) nᵢ. = סכום שורה i (שוליים של Y)

λ מדד למדה (Lambda)

מדד למדה (λ) מודד את השיפור בניבוי של משתנה Y כאשר ידוע X.

הוא מבוסס על הפחתת שגיאות הניבוי.

נוסחת למדה:

λ = (E₁ − E₂) / E₁

כאשר:

  • E₁ = שגיאות ניבוי ללא ידיעת X = n − max(nᵢ.) (סכום הכל מינוס השכיח בשוליים של Y)
  • E₂ = שגיאות ניבוי עם ידיעת X = Σ(n.ⱼ − maxⱼ) (סכום השגיאות בכל עמודה)
דוגמה:
  גברים נשים סה"כ
מעשן 40 20 60
לא מעשן 30 50 80
סה"כ 70 70 140
E₁ = 140 − 80 = 60 (בלי לדעת מין, ננבא "לא מעשן")
E₂ = (70−40) + (70−50) = 30 + 20 = 50
λ = (60 − 50) / 60 = 10/60 = 0.167

פירוש: ידיעת המין מפחיתה 16.7% מהשגיאות בניבוי עישון.

V מדד קרמר (Cramer's V)

מדד קרמר מבוסס על סטטיסטיקת χ² (כי-בריבוע) ומתאים לכל גודל טבלה.

נוסחת קרמר:

V = √(χ² / (n · (k−1)))

כאשר k = min(מספר שורות, מספר עמודות)

חישוב χ²:

χ² = Σ (O − E)² / E

E = (סה"כ שורה × סה"כ עמודה) / n

φ מדד פי (Phi)

מדד פי הוא מקרה פרטי של קרמר, מתאים רק לטבלת 2×2.

נוסחת פי:

φ = √(χ² / n)
למדה (λ) מבוסס על שגיאות ניבוי 0 ≤ λ ≤ 1 קרמר (V) מבוסס על χ² (כי-בריבוע) 0 ≤ V ≤ 1 פי (φ) קרמר לטבלת 2×2 בלבד 0 ≤ φ ≤ 1

📊 פרשנות הערכים

ערך המדד עוצמת הקשר
0 אין קשר
0.01 − 0.09 קשר זניח
0.10 − 0.29 קשר חלש
0.30 − 0.49 קשר בינוני
0.50 − 0.69 קשר חזק
0.70 + קשר חזק מאוד
1 קשר מושלם
⚠️ הבדלים חשובים:
  • למדה יכול להיות 0 גם כשיש קשר (אם השכיח זהה בכל העמודות)
  • קרמר רגיש יותר ומזהה קשר גם במקרים אלה
  • למדה אינו סימטרי - λ(Y|X) ≠ λ(X|Y)

 OpenBook © 2025 © רוית הלפנבאום