מדדי קשר למשתנים רווחיים - אטא ופירסון

סטטיסטיקה

מדדי קשר למשתנים רווחיים - אטא ופירסון

📊 סוגי קשר בין משתנים רווחיים

כשעובדים עם משתנים רווחיים/מנתיים, יש שני סוגי קשר עיקריים:

🔄

קשר לא-קווי

מדד: אטא (η)

📈

קשר קווי

מדד: פירסון (r)

קשר קווי (פירסון) קשר לא-קווי (אטא)

η מדד אטא (Eta) - קשר לא-קווי

אטא מודד את עוצמת הקשר ללא הנחה על צורתו.

מבוסס על יחס השונויות - כמה מהשונות ב-Y מוסברת על-ידי X

📐 הנוסחה:

\(\eta^2 = \frac{SS_{between}}{SS_{total}} = \frac{\sum n_j(\bar{Y}_j - \bar{Y})^2}{\sum(Y_i - \bar{Y})^2}\)

\(\eta = \sqrt{\eta^2}\)

💡 הסבר המרכיבים:

  • \(SS_{total}\) = שונות כוללת של Y (סכום ריבועי סטיות מהממוצע הכולל)
  • \(SS_{between}\) = שונות בין הקבוצות (הנובעת מ-X)
  • \(\bar{Y}_j\) = ממוצע Y בקבוצה j
  • \(\bar{Y}\) = ממוצע Y הכולל
  • \(n_j\) = גודל קבוצה j

💡 תכונות:

  • \(0 \leq \eta \leq 1\)
  • \(\eta = 0\) → אין קשר כלל
  • \(\eta = 1\) → קשר מושלם (לא בהכרח קווי!)
  • \(\eta^2\) = אחוז השונות המוסברת
  • לא סימטרי: \(\eta_{Y|X} \neq \eta_{X|Y}\)

✏️ דוגמה: השפעת סוג דשן (A, B, C) על יבול

דשן A דשן B דשן C
20, 22, 24 30, 32, 34 25, 27, 29
\(\bar{Y}_A = 22\) \(\bar{Y}_B = 32\) \(\bar{Y}_C = 27\)

ממוצע כולל: \(\bar{Y} = \frac{20+22+24+30+32+34+25+27+29}{9} = 27\)

SSbetween:

\(= 3(22-27)^2 + 3(32-27)^2 + 3(27-27)^2\)

\(= 3(25) + 3(25) + 3(0) = 75 + 75 + 0 = 150\)

SStotal:

\(= (20-27)^2 + (22-27)^2 + ... + (29-27)^2\)

\(= 49 + 25 + 9 + 9 + 25 + 49 + 4 + 0 + 4 = 174\)

\(\eta^2 = \frac{150}{174} = 0.862\)

\(\eta = \sqrt{0.862} = 0.928\)

פרשנות: קשר חזק מאוד. סוג הדשן מסביר 86.2% מהשונות ביבול.

r מדד פירסון (Pearson) - קשר קווי

מתאם פירסון מודד את עוצמת וכיוון הקשר הקווי בין שני משתנים.

המדד הנפוץ ביותר למדידת קשר!

📐 הנוסחאות:

נוסחה עם שונות משותפת (קוואריאנס):

\(r = \frac{Cov(X,Y)}{S_X \cdot S_Y} = \frac{\sum(X_i - \bar{X})(Y_i - \bar{Y})}{n \cdot S_X \cdot S_Y}\)

נוסחה ישירה:

\(r = \frac{n\sum X_iY_i - \sum X_i \sum Y_i}{\sqrt{[n\sum X_i^2 - (\sum X_i)^2][n\sum Y_i^2 - (\sum Y_i)^2]}}\)

💡 תכונות:

  • \(-1 \leq r \leq 1\)
  • \(r = 1\) → קשר קווי חיובי מושלם
  • \(r = -1\) → קשר קווי שלילי מושלם
  • \(r = 0\) → אין קשר קווי (יכול להיות קשר אחר!)
  • סימטרי: \(r_{XY} = r_{YX}\)
  • \(r^2\) = מקדם הקביעה (אחוז השונות המוסברת)

✏️ דוגמה מלאה - חישוב פירסון

נתונים: שעות לימוד (X) וציון במבחן (Y) של 6 סטודנטים

i X Y XY
1 2 50 4 2500 100
2 4 60 16 3600 240
3 5 65 25 4225 325
4 6 70 36 4900 420
5 8 80 64 6400 640
6 10 90 100 8100 900
Σ 35 415 245 29725 2625

n = 6

מונה:

\(n\sum XY - \sum X \sum Y = 6 \times 2625 - 35 \times 415 = 15750 - 14525 = 1225\)

מכנה:

\(n\sum X^2 - (\sum X)^2 = 6 \times 245 - 35^2 = 1470 - 1225 = 245\)

\(n\sum Y^2 - (\sum Y)^2 = 6 \times 29725 - 415^2 = 178350 - 172225 = 6125\)

\(\sqrt{245 \times 6125} = \sqrt{1500625} = 1225\)

\(r = \frac{1225}{1225} = 1.0\)

פרשנות: קשר קווי חיובי מושלם! (הנתונים נבחרו כך)

📊 פרשנות מתאם פירסון

ערך |r| עוצמת הקשר
0 - 0.2 זניח / אין קשר
0.2 - 0.4 חלש
0.4 - 0.6 בינוני
0.6 - 0.8 חזק
0.8 - 1.0 חזק מאוד

איור: דוגמאות למתאמים שונים

r = 1 r ≈ 0.7 r ≈ 0 r ≈ -0.7 r = -1

r² מקדם הקביעה (Coefficient of Determination)

מבטא את אחוז השונות במשתנה אחד המוסבר על-ידי הקשר עם המשתנה השני.

✏️ דוגמה:

אם r = 0.8, אז r² = 0.64

פרשנות: 64% מהשונות ב-Y מוסברת על-ידי הקשר הקווי עם X.

36% מהשונות נובעת מגורמים אחרים.

⚖️ השוואה: אטא מול פירסון

  אטא (η) פירסון (r)
סוג קשר כל קשר קווי בלבד
טווח [0, 1] [-1, 1]
סימטרי? לא כן
מראה כיוון? לא כן (+ או -)
יחס ביניהם \(\eta \geq |r|\) תמיד!

💡 מתי η > |r|?

כשהקשר לא קווי. ההפרש מעיד על רכיב לא-קווי בקשר.

💡 טיפים למבחן

קשר קווי: פירסון

קשר כללי: אטא

r² = אחוז מוסבר

תמיד: η ≥ |r|

📝 סיכום דף 11

אטא (η): קשר כללי, [0,1], לא סימטרי

פירסון (r): קשר קווי, [-1,1], סימטרי

r² = מקדם הקביעה = אחוז השונות המוסברת