התפלגות ממוצע המדגם ומשפט הגבול המרכזי

התפלגות הדגימה ומשפט הגבול המרכזי

התפלגות ממוצע המדגם ומשפט הגבול המרכזי (CLT)

🎯 רקע: ממוצע המדגם כמשתנה מקרי

מכיוון שממדגם למדגם אנו יכולים לקבל ממוצע מדגם שונה, אזי ממוצע המדגם הוא משתנה מקרי ויש לו התפלגות.

השאלה המרכזית: מהי ההתפלגות של ממוצע המדגם \(\bar{X}\)?

התשובה תלויה בשני דברים:

  • האם האוכלוסייה המקורית מתפלגת נורמלית?
  • מהו גודל המדגם n?

📊 פרמטרים של האוכלוסייה

גדלים המתארים התפלגות או אוכלוסייה נקראים פרמטרים:

\(\mu\)

ממוצע האוכלוסייה

(נקרא גם תוחלת)

\(\sigma^2\)

שונות האוכלוסייה

\(\sigma\)

סטיית תקן האוכלוסייה

\(\sigma = \sqrt{\sigma^2}\)

⭐ תכונות התפלגות ממוצע המדגם

תכונה 1: תוחלת ממוצע המדגם

\(E(\bar{X}) = \mu_{\bar{X}} = \mu\)

ממוצע כל ממוצעי המדגם האפשריים שווה לממוצע האוכלוסייה

תכונה 2: שונות ממוצע המדגם

\(V(\bar{X}) = \sigma_{\bar{X}}^2 = \frac{\sigma^2}{n}\)

שונות כל ממוצעי המדגם שווה לשונות האוכלוסייה מחולק ב-n

(תכונה זו נכונה רק במדגם מקרי)

תכונה 3: טעות תקן (Standard Error)

\(\sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}}\)

סטיית התקן של ממוצע המדגם נקראת "טעות תקן"

💡 תובנה חשובה: יש יחס הפוך בין גודל המדגם לבין שונות ממוצעי המדגם.

ככל שהמדגם גדול יותר → השונות קטנה יותר → הממוצעים מרוכזים יותר סביב μ

📈 השפעת גודל המדגם על השונות

μ n=10 n=30 n=100 התפלגות ממוצע המדגם לגדלי מדגם שונים

מסקנה: ככל שגודל המדגם גדל, התפלגות ממוצע המדגם נעשית:

  • יותר צרה (שונות קטנה יותר)
  • יותר מרוכזת סביב ממוצע האוכלוסייה μ

🔔 מקרה 1: דגימה מהתפלגות נורמלית

אם: נדגום מתוך אוכלוסייה שהמשתנה בה מתפלג נורמלית עם ממוצע μ ושונות σ²

אז: ממוצע המדגם גם יתפלג נורמאלית!

\(\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)\)

💡 שימו לב: במקרה זה, ממוצע המדגם מתפלג נורמלית לכל גודל מדגם n, גם אם n קטן!

🌟 משפט הגבול המרכזי (Central Limit Theorem - CLT)

המשפט:

אם אוכלוסייה מתפלגת בהתפלגות כלשהי (לא חייב נורמלית!) עם ממוצע μ ושונות σ²,

אזי עבור מדגם מספיק גדול, ממוצע המדגם מתפלג בקירוב נורמאלי:

\(\bar{X} \xrightarrow{n \to \infty} N\left(\mu, \frac{\sigma^2}{n}\right)\)

🎯 זהו אחד המשפטים החשובים ביותר בסטטיסטיקה!

❓ מתי המדגם "מספיק גדול"?

כלל אצבע: בדרך כלל מספיק \(n \geq 30\)

אבל זה תלוי בהתפלגות המקורית:

  • התפלגות סימטרית: גם n קטן יחסית (15-20) יכול להספיק
  • התפלגות א-סימטרית: צריך n גדול יותר (30+)
  • התפלגות מאוד א-סימטרית: צריך n גדול מאוד (50+)

📊 המחשה של משפט הגבול המרכזי

התפלגות מקורית (א-סימטרית) דגימה n גדול התפלגות ממוצע המדגם (נורמלית בקירוב) μ המסר של משפט הגבול המרכזי: לא משנה איך נראית ההתפלגות המקורית - אם ניקח מספיק תצפיות (n גדול), ממוצע המדגם יתפלג בקירוב נורמלי!

🧮 חישוב ציון Z לממוצע המדגם

\(Z = \frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}} = \frac{\bar{X} - \mu}{\sigma_{\bar{X}}}\)

💡 שימו לב להבדל:

  • עבור תצפית בודדת X:   \(Z = \frac{X - \mu}{\sigma}\)
  • עבור ממוצע מדגם \(\bar{X}\):   \(Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}}\)

✏️ דוגמה מפורטת

שאלה: משקל תינוקות בלידה מתפלג עם ממוצע μ = 3.2 ק"ג וסטיית תקן σ = 0.5 ק"ג.

נדגמו 36 תינוקות. מה ההסתברות שממוצע המדגם יהיה גדול מ-3.35 ק"ג?

שלב 1: זיהוי הנתונים

\(\mu = 3.2, \quad \sigma = 0.5, \quad n = 36\)

שלב 2: חישוב טעות התקן

\(\sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} = \frac{0.5}{\sqrt{36}} = \frac{0.5}{6} = 0.0833\)

שלב 3: חישוב ציון Z

\(Z = \frac{\bar{X} - \mu}{\sigma_{\bar{X}}} = \frac{3.35 - 3.2}{0.0833} = \frac{0.15}{0.0833} = 1.8\)

שלב 4: חישוב ההסתברות

\(P(\bar{X} > 3.35) = P(Z > 1.8) = 1 - P(Z \leq 1.8) = 1 - 0.9641 = 0.0359\)

תשובה: ההסתברות היא כ-3.59%

📋 טבלת סיכום

מצב התפלגות ממוצע המדגם
האוכלוסייה נורמלית \(\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)\) בדיוק, לכל n
האוכלוסייה לא נורמלית, n גדול (≥30) \(\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)\) בקירוב (CLT)
האוכלוסייה לא נורמלית, n קטן לא ניתן להשתמש בקירוב נורמלי

📝 נוסחאות מרכזיות

\(E(\bar{X}) = \mu\)

\(V(\bar{X}) = \frac{\sigma^2}{n}\)

\(\sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}}\) (טעות תקן)

\(Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}}\)