קשר סטטיסטי ומדדי קשר למשתנים שמיים
הסבר מלא, דוגמאות פתורות ותרגול.
📖 קשר סטטיסטי ומדדי קשר למשתנים שמיים
סטטיסטיקה
קשר סטטיסטי ומדדי קשר למשתנים שמיים
🔗 מהו קשר סטטיסטי?
קשר סטטיסטי בין שני משתנים קיים כאשר שינוי בערך של משתנה אחד מלווה בשינוי בערך של המשתנה השני.
⚠️ חשוב להבין:
קשר ≠ סיבתיות!
העובדה שיש קשר בין שני משתנים לא אומרת שאחד גורם לשני.
דוגמה: יש קשר בין מכירות גלידה לבין מספר מקרי טביעה - אבל גלידה לא גורמת לטביעה! שניהם קשורים למשתנה שלישי: הקיץ.
📊 סוגי קשר:
📈
קשר חיובי
כשאחד עולה - השני עולה
📉
קשר שלילי
כשאחד עולה - השני יורד
➖
אין קשר
אין תלות בין המשתנים
📏 סולמות מדידה - תזכורת
| סולם | תיאור | דוגמאות | מדד קשר |
|---|---|---|---|
| שמי (נומינלי) | קטגוריות ללא סדר | צבע, מין, עיר | למדה, קרמר, פי |
| סידורי | קטגוריות עם סדר | דירוג 1-5, השכלה | ספירמן |
| רווחי/מנתי | מספרים עם משמעות | גובה, ציון, הכנסה | אטא, פירסון |
📊 טבלת שכיחות דו-ממדית (טבלת הצלבה)
דוגמה: סקר על 200 אנשים - מין ועיסוק מועדף
| ספורט | מוזיקה | קריאה | סה"כ שורה | |
|---|---|---|---|---|
| גברים | 50 | 30 | 20 | 100 |
| נשים | 20 | 40 | 40 | 100 |
| סה"כ עמודה | 70 | 70 | 60 | n = 200 |
💡 סימונים:
- \(f_{ij}\) = השכיחות בתא (שורה i, עמודה j)
- \(R_i\) = סכום שורה i
- \(C_j\) = סכום עמודה j
- \(n\) = סה"כ תצפיות
- r = מספר שורות, c = מספר עמודות
χ² מדד חי-בריבוע (Chi-Square)
מדד בסיסי לבדיקת קשר בין משתנים קטגוריאליים:
\(\chi^2 = \sum \frac{(f_o - f_e)^2}{f_e}\)
💡 הסברים:
- \(f_o\) = שכיחות נצפית (מהטבלה)
- \(f_e\) = שכיחות צפויה (אם אין קשר)
חישוב שכיחות צפויה:
\(f_e = \frac{R_i \times C_j}{n}\)
✏️ דוגמה - חישוב שכיחויות צפויות:
עבור התא "גברים + ספורט":
\(f_e = \frac{100 \times 70}{200} = 35\)
נצפה: 50, צפוי: 35 → יש יותר גברים בספורט מהצפוי!
📊 טבלת שכיחויות צפויות מלאה:
| ספורט | מוזיקה | קריאה | |
|---|---|---|---|
| גברים | 35 | 35 | 30 |
| נשים | 35 | 35 | 30 |
\(\chi^2 = \frac{(50-35)^2}{35} + \frac{(30-35)^2}{35} + \frac{(20-30)^2}{30} + \frac{(20-35)^2}{35} + \frac{(40-35)^2}{35} + \frac{(40-30)^2}{30}\)
\(= \frac{225}{35} + \frac{25}{35} + \frac{100}{30} + \frac{225}{35} + \frac{25}{35} + \frac{100}{30}\)
\(= 6.43 + 0.71 + 3.33 + 6.43 + 0.71 + 3.33 = 20.94\)
⚠️ בעיה עם χ²:
הערך תלוי בגודל המדגם (n) ובגודל הטבלה - לא מנורמל!
לכן משתמשים במדדים מנורמלים: פי, קרמר, למדה
Φ מדד פי (Phi) - לטבלת 2×2
מדד קשר לטבלה עם 2 שורות ו-2 עמודות בלבד:
\(\phi = \sqrt{\frac{\chi^2}{n}}\)
💡 תכונות:
- \(0 \leq \phi \leq 1\)
- \(\phi = 0\) → אין קשר
- \(\phi = 1\) → קשר מושלם
📐 נוסחה ישירה לטבלת 2×2:
| Y=1 | Y=0 | |
|---|---|---|
| X=1 | a | b |
| X=0 | c | d |
\(\phi = \frac{ad - bc}{\sqrt{(a+b)(c+d)(a+c)(b+d)}}\)
נוסחה זו יכולה לתת ערכים שליליים (קשר שלילי)
✏️ דוגמה: קשר בין מין לעישון
| מעשן | לא מעשן | סה"כ | |
|---|---|---|---|
| גבר | 40 (a) | 60 (b) | 100 |
| אישה | 20 (c) | 80 (d) | 100 |
| סה"כ | 60 | 140 | 200 |
\(\phi = \frac{40 \times 80 - 60 \times 20}{\sqrt{100 \times 100 \times 60 \times 140}}\)
\(= \frac{3200 - 1200}{\sqrt{84000000}} = \frac{2000}{9165} = 0.218\)
פרשנות: קשר חיובי חלש-בינוני בין מין לעישון
V מדד קרמר (Cramér's V)
הכללה של מדד פי לטבלאות בכל גודל:
\(V = \sqrt{\frac{\chi^2}{n \cdot (k-1)}}\)
כאשר k = min(r, c) = המינימום בין מספר השורות למספר העמודות
💡 תכונות:
- \(0 \leq V \leq 1\)
- \(V = 0\) → אין קשר
- \(V = 1\) → קשר מושלם
- בטבלת 2×2: V = |φ|
✏️ דוגמה: מהטבלה הראשונה (מין ועיסוק, 2×3)
χ² = 20.94, n = 200
k = min(2, 3) = 2
\(V = \sqrt{\frac{20.94}{200 \times (2-1)}} = \sqrt{\frac{20.94}{200}} = \sqrt{0.1047} = 0.324\)
פרשנות: קשר בינוני בין מין לעיסוק מועדף
📊 פרשנות עוצמת הקשר (קרמר):
| ערך V | עוצמת הקשר |
|---|---|
| 0 - 0.1 | זניח / אין קשר |
| 0.1 - 0.3 | חלש |
| 0.3 - 0.5 | בינוני |
| 0.5+ | חזק |
λ מדד למדה (Lambda)
למדה מודד כמה ידיעת משתנה אחד משפרת את הניבוי של המשתנה השני.
\(\lambda = \frac{E_1 - E_2}{E_1}\)
💡 הסבר:
- \(E_1\) = שגיאות ניבוי ללא ידיעת המשתנה המסביר
- \(E_2\) = שגיאות ניבוי עם ידיעת המשתנה המסביר
- λ = שיעור ההפחתה בשגיאות
📐 נוסחה מפורטת:
\(\lambda_{Y|X} = \frac{n - \max(C_j) - \sum_i [\max_j(f_{ij}) - \max(R_i)]}{n - \max(C_j)}\)
או בצורה פשוטה יותר:
\(\lambda_{Y|X} = \frac{\sum_i \max_j(f_{ij}) - \max(C_j)}{n - \max(C_j)}\)
💡 תכונות:
- \(0 \leq \lambda \leq 1\)
- \(\lambda = 0\) → ידיעת X לא משפרת ניבוי Y
- \(\lambda = 1\) → ידיעת X מאפשרת ניבוי מושלם של Y
- לא סימטרי: \(\lambda_{Y|X} \neq \lambda_{X|Y}\)
✏️ דוגמה: ניבוי עיסוק לפי מין
ללא ידיעת מין:
נבחר את העיסוק הנפוץ ביותר: ספורט או מוזיקה (70 כל אחד)
\(E_1 = 200 - 70 = 130\) שגיאות
עם ידיעת מין:
גברים: נבחר ספורט (50) → 50 נכונים, 50 שגיאות
נשים: נבחר מוזיקה או קריאה (40) → 40 נכונים, 60 שגיאות
\(E_2 = 50 + 60 = 110\) שגיאות
\(\lambda = \frac{130 - 110}{130} = \frac{20}{130} = 0.154\)
פרשנות: ידיעת המין מפחיתה את שגיאות הניבוי ב-15.4%
💡 טיפים למבחן
טבלה 2×2: פי (φ)
טבלה כללית: קרמר (V)
ניבוי: למדה (λ)
שכיחות צפויה: \(\frac{R \times C}{n}\)
📝 סיכום דף 9
משתנים שמיים: φ (2×2), V (כללי), λ (ניבוי)
כולם בטווח [0,1], גבוה יותר = קשר חזק יותר
דוגמאות פתורות
📘 מהו מתאם בין שני משתנים?
כאשר מדברים על מתאם בין שני משתנים כמותיים (למשל שעות לימוד וציון), למה מתכוונים?
הצג פתרון
מתאם מתאר עד כמה כאשר ערכים של משתנה אחד משתנים, גם הערכים של המשתנה השני נוטים להשתנות בצורה קווית. הוא אומר לנו:
- האם כשאחד עולה, השני נוטה לעלות (חיובי) או לרדת (שלילי).
- כמה חזקה ההתאמה הזו.
הוא לא אומר שום דבר ישירות על ממוצעים או על סיבתיות.
📏 מהו מקדם מתאם פירסון r?
הצג פתרון
r של פירסון הוא מדד קשר קווי:
- תמיד בין -1 ל+1.
- הסימן (+ או -) אומר את הכיוון.
- הערך המוחלט (המרחק מאפס) אומר את החוזק.
📚 טווח אפשרי של r:
איזה טווח ערכים אפשרי למקדם מתאם פירסון r?
הצג פתרון
תמיד מתקיים -1 ≤ r ≤ 1.
- r = 1 קשר קווי חיובי מושלם.
- r = -1 קשר קווי שלילי מושלם.
- r = 0 אין קשר קווי.
תרגול עכשיו
צרו שאלה חדשה אקראית ובדקו את עצמכם.