📖 סטטיסטיקה ב׳ — אומדן פרמטרים

סטטיסטיקה ב׳ — אומדן פרמטרים

כמעט לעולם איננו יכולים למדוד אוכלוסייה שלמה, ולכן אנו אומדים את הפרמטרים שלה מתוך מדגם. אך לא כל אומדן טוב באותה מידה: אנו רוצים אומדן שאינו מוטה ושמשתנותו קטנה ככל האפשר. בדף הזה נלמד מהו אומדן חסר הטיה, מהי יעילות, נחשב את הטעות הריבועית הממוצעת (MSE) ואת שגיאת התקן של הממוצע, ונראה כיצד גודל המדגם משפיע על הדיוק.

רקע והגדרות בסיסיות

פרמטר הוא ערך מספרי המתאר את האוכלוסייה (כמו הממוצע \(\mu\) או השונות \(\sigma^2\)), בעוד אומדן (Estimator) הוא נוסחה המחושבת מן המדגם ומשמשת לניחוש הפרמטר (כמו ממוצע המדגם \(\bar{x}\)). הערך המספרי שמתקבל נקרא אומדן נקודתי.

תכונות אומדן טוב:

חוסר הטיה (Unbiased): בממוצע על פני מדגמים רבים האומדן פוגע בפרמטר, כלומר \( E(\hat{\theta}) = \theta \). ההטיה היא \( \text{Bias} = E(\hat{\theta}) - \theta \).
יעילות (Efficiency): בין שני אומדנים חסרי הטיה, היעיל יותר הוא בעל השונות הקטנה יותר — הוא "מתבדר" פחות סביב הפרמטר.

טעות ריבועית ממוצעת (MSE) מודדת את איכות האומדן הכוללת:

\[ \text{MSE}(\hat{\theta}) = \text{Var}(\hat{\theta}) + \big(\text{Bias}(\hat{\theta})\big)^2 \]

עבור אומדן חסר הטיה ההטיה אפס, ולכן \( \text{MSE}(\hat{\theta}) = \text{Var}(\hat{\theta}) \).

ממוצע המדגם הוא האומדן הנקודתי הטוב ביותר ל-\(\mu\), והוא חסר הטיה: \( E(\bar{x}) = \mu \). פיזורו נמדד בשגיאת התקן של הממוצע:

\[ \text{SE}(\bar{x}) = \frac{\sigma}{\sqrt{n}} \]

השונות חסרת ההטיה של האוכלוסייה נאמדת באמצעות שונות המדגם, עם חלוקה ב-\((n-1)\):

\[ s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1} \]

שלבי פתרון

שלב 1 — זהה מהו הפרמטר שאתה אומד (\(\mu\), \(\sigma^2\), \(p\)) ומהו האומדן המתאים.
שלב 2 — לבדיקת חוסר הטיה חשב את \( E(\hat{\theta}) \) והשווה לפרמטר; שווים \(\Rightarrow\) חסר הטיה.
שלב 3 — להשוואת יעילות בין אומדנים חסרי הטיה, בחר את זה בעל השונות הקטנה יותר.
שלב 4 — לחישוב MSE השתמש ב-\( \text{Var} + \text{Bias}^2 \); אם חסר הטיה, \( \text{MSE} = \text{Var} \).
שלב 5 — לשגיאת התקן של הממוצע חלק את \(\sigma\) בשורש \(n\): \( \text{SE} = \frac{\sigma}{\sqrt{n}} \).
שלב 6 — לגודל מדגם נדרש בודד \(n\) מתוך משוואת ה-SE: \( n = \left(\frac{\sigma}{\text{SE}}\right)^2 \).

דוגמאות פתורות

דוגמה 1: שגיאת התקן של הממוצע

השאלה: בקרב אוכלוסייה ידוע שסטיית התקן היא \( \sigma = 20 \). דוגמים מדגם בגודל \( n = 25 \). מהי שגיאת התקן של ממוצע המדגם?

פתרון:

נשתמש בנוסחה \( \text{SE}(\bar{x}) = \frac{\sigma}{\sqrt{n}} \).
נציב: \( \text{SE} = \frac{20}{\sqrt{25}} = \frac{20}{5} \).
נחשב: \( \frac{20}{5} = 4 \).
שים לב: ככל שהמדגם גדול יותר, שגיאת התקן קטנה — כי \(\sqrt{n}\) במכנה גדל.

תשובה: שגיאת התקן היא \( 4 \).

דוגמה 2: גודל מדגם נדרש

השאלה: רוצים שגיאת תקן של הממוצע שלא תעלה על \( 2 \). סטיית התקן של האוכלוסייה היא \( \sigma = 16 \). מהו גודל המדגם הנדרש?

פתרון:

נצא מהנוסחה \( \text{SE} = \frac{\sigma}{\sqrt{n}} \) ונבודד את \(n\).
נבודד את השורש: \( \sqrt{n} = \frac{\sigma}{\text{SE}} = \frac{16}{2} = 8 \).
נעלה בריבוע: \( n = 8^2 = 64 \).
בדיקה: \( \frac{16}{\sqrt{64}} = \frac{16}{8} = 2 \) — בדיוק כנדרש.

תשובה: נדרש מדגם בגודל \( n = 64 \).

דוגמה 3: שונות מדגם מתצפיות

השאלה: מדגם בן ארבע תצפיות: \( 4, 7, 9, 12 \). חשב את שונות המדגם חסרת ההטיה \( s^2 \).

פתרון:

תחילה הממוצע: \( \bar{x} = \frac{4+7+9+12}{4} = \frac{32}{4} = 8 \).
סטיות מהממוצע: \( -4, -1, 1, 4 \); ריבועיהן: \( 16, 1, 1, 16 \).
סכום ריבועי הסטיות: \( 16 + 1 + 1 + 16 = 34 \).
נחלק ב-\( (n-1) = 3 \): \( s^2 = \frac{34}{3} \approx 11.33 \).

תשובה: \( s^2 = \frac{34}{3} \approx 11.33 \).

דוגמה 4: MSE של אומדן חסר הטיה

השאלה: ממוצע המדגם \( \bar{x} \) הוא אומדן חסר הטיה ל-\(\mu\). נתון \( \sigma = 12 \) ו-\( n = 9 \). מהו \( \text{MSE}(\bar{x}) \)?

פתרון:

מכיוון ש-\( \bar{x} \) חסר הטיה, ההטיה אפס, ולכן \( \text{MSE}(\bar{x}) = \text{Var}(\bar{x}) \).
שונות ממוצע המדגם היא \( \text{Var}(\bar{x}) = \frac{\sigma^2}{n} \).
נציב: \( \frac{12^2}{9} = \frac{144}{9} \).
נחשב: \( \frac{144}{9} = 16 \) (שימו לב שזה גם \( \text{SE}^2 = 4^2 \)).

תשובה: \( \text{MSE}(\bar{x}) = 16 \).

דוגמה 5: בחירת האומדן היעיל

השאלה: שני אומדנים חסרי הטיה ל-\(\theta\): לאומדן \(A\) שונות \( \text{Var}(A) = 9 \), ולאומדן \(B\) שונות \( \text{Var}(B) = 4 \). איזה אומדן עדיף?

פתרון:

שני האומדנים חסרי הטיה, כלומר \( E(A) = E(B) = \theta \) — אין הבדל בהטיה.
במצב כזה הקריטריון הוא יעילות: עדיף האומדן בעל השונות הקטנה יותר.
מכיוון ש-\( \text{Var}(B) = 4 \lt 9 = \text{Var}(A) \), אומדן \(B\) יעיל יותר.
עבור אומדנים חסרי הטיה, MSE שווה לשונות, ולכן ל-\(B\) גם MSE קטן יותר.

תשובה: אומדן \(B\) עדיף (יעיל יותר, שונות קטנה יותר).

טעויות נפוצות

✗ טעות נפוצה: מחשבים שונות מדגם בחלוקה ב-\(n\) במקום ב-\((n-1)\).

✓ הדרך הנכונה: חלוקה ב-\(n\) נותנת אומדן מוטה כלפי מטה (קטן מדי). האומדן חסר ההטיה לשונות האוכלוסייה משתמש ב-\((n-1)\): \( s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1} \).

✗ טעות נפוצה: מבלבלים בין סטיית התקן של המדגם \(s\) לבין שגיאת התקן של הממוצע \(\text{SE}\).

✓ הדרך הנכונה: \(s\) מתאר את פיזור התצפיות הבודדות, בעוד \( \text{SE} = \frac{\sigma}{\sqrt{n}} \) מתאר את פיזור הממוצע בין מדגמים. ה-SE תמיד קטן יותר וקטן עוד עם גדילת \(n\).

✗ טעות נפוצה: שוכחים להוציא שורש מ-\(n\) ומחשבים \( \text{SE} = \frac{\sigma}{n} \).

✓ הדרך הנכונה: במכנה עומד \(\sqrt{n}\) ולא \(n\). לכן הכפלת המדגם פי \(4\) מקטינה את שגיאת התקן רק פי \(2\), כי \( \sqrt{4} = 2 \).

טיפים לתרגול

טיפ — כדי לחצות את שגיאת התקן (לקבל אותה קטנה פי \(2\)) צריך להגדיל את המדגם פי \(4\), כי \(n\) נמצא תחת שורש.
טיפ — אומדן טוב = חסר הטיה + יעיל. ראשית ודא חוסר הטיה, ורק אז השווה שונויות לבחירת היעיל.
טיפ — לזכור את MSE: \( \text{MSE} = \text{Var} + \text{Bias}^2 \). אם האומדן חסר הטיה, ה-MSE מצטמצם לשונות בלבד.
טיפ — לחישוב גודל מדגם השתמש ישירות ב-\( n = \left(\frac{\sigma}{\text{SE}}\right)^2 \) ועגל כלפי מעלה לשלם הקרוב.

סיכום ונוסחאות מפתח

אומדן חסר הטיה: \( E(\hat{\theta}) = \theta \).
יעילות: מבין חסרי ההטיה, היעיל = בעל השונות הקטנה ביותר.
MSE \( = \text{Var}(\hat{\theta}) + \text{Bias}^2 \); לחסר הטיה \( \text{MSE} = \text{Var} \).
שגיאת תקן של הממוצע: \( \text{SE} = \frac{\sigma}{\sqrt{n}} \).
גודל מדגם: \( n = \left(\frac{\sigma}{\text{SE}}\right)^2 \).
שונות מדגם: \( s^2 = \frac{\sum (x_i-\bar{x})^2}{n-1} \).

דוגמאות פתורות

📊 מושגי יסוד:
מהו פרמטר בסטטיסטיקה?

הצג פתרון

א מספר קבוע שמתאר תכונה של האוכלוסייה ✓ נכונה

ב מספר שמחושב מהמדגם

ג גודל המדגם

ד טעות המדידה

💡 הסבר מפורט:

שלב 1: הגדרת פרמטר 🔍

הסבר יומיומי:

🔒 פרמטר = מספר שמתאר את כל האוכלוסייה

זה כמו "האמת" שאנחנו מנסים לגלות!

דוגמאות:
• הגובה הממוצע של כל הישראלים
• שיעור המצביעים האמיתי למפלגה
• זמן ההמתנה הממוצע של כל הלקוחות

הפרמטר קבוע - אבל בדרך כלל לא ידוע לנו!

שלב 2: המחשה ויזואלית 📊

שלב 3: סימונים מקובלים 🎯

פרמטרים נפוצים (אותיות יווניות):

• μ (מיו) = ממוצע האוכלוסייה
• σ (סיגמא) = סטיית תקן האוכלוסייה
• σ² = שונות האוכלוסייה
• p = פרופורציה באוכלוסייה

תשובה נכונה: מספר קבוע שמתאר תכונה של האוכלוסייה

📊 מושגי יסוד:
מהו סטטיסטי (Statistic)?

הצג פתרון

א מספר שמחושב מנתוני המדגם ✓ נכונה

ב מספר קבוע של האוכלוסייה

ג הטעות בחישוב

ד גודל האוכלוסייה

💡 הסבר מפורט:

שלב 1: הגדרת סטטיסטי 🔍

הסבר יומיומי:

📊 סטטיסטי = מספר שמחושב מהמדגם

זה מה שאנחנו באמת יכולים לחשב!

דוגמאות:
• ממוצע הציונים של 100 תלמידים שנבחרו
• שיעור התומכים ב-500 אנשים שנשאלו
• זמן ההמתנה הממוצע של 50 לקוחות שנדגמו

הסטטיסטי משתנה ממדגם למדגם!

שלב 2: השוואה 📊

שלב 3: סימונים 🎯

סטטיסטים נפוצים (אותיות לטיניות):

• x̄ = ממוצע המדגם
• s = סטיית תקן המדגם
• s² = שונות המדגם
• p̂ = פרופורציית המדגם

תשובה נכונה: מספר שמחושב מנתוני המדגם

📊 מושגי יסוד:
מהו אומדן (Estimator)?

הצג פתרון

א סטטיסטי שמשמש להערכת פרמטר לא ידוע ✓ נכונה

ב הפרמטר האמיתי של האוכלוסייה

ג גודל המדגם

ד טעות הדגימה

💡 הסבר מפורט:

שלב 1: הגדרת אומדן 🔍

הסבר יומיומי:

🎯 אומדן = סטטיסטי שאנחנו משתמשים בו
כדי לנחש מה הפרמטר

זה הגשר בין מה שיש לנו (מדגם)
למה שאנחנו רוצים לדעת (פרמטר)!

אומדן = כלי להערכת הלא-נודע

שלב 2: הקשר בין המושגים 📊

שלב 3: דוגמאות 🎯

אומדנים נפוצים:

• x̄ הוא אומדן ל-μ
• s² הוא אומדן ל-σ²
• p̂ הוא אומדן ל-p

הסימון ^ (כובע) מציין שזה אומדן!

תשובה נכונה: סטטיסטי שמשמש להערכת פרמטר לא ידוע

תרגול עכשיו

צרו שאלה חדשה אקראית ובדקו את עצמכם.

לחצו על הכפתור כדי לקבל שאלה חדשה.