מה הוא סכום המשבצות?
סכום המשבצות הוא טכניקה סטטיסטית המשמשת בניתוח רגרסיה לקביעת פיזור נקודות הנתונים. בניתוח רגרסיה המטרה היא לקבוע עד כמה ניתן להתאים סדרת נתונים לפונקציה שעשויה לעזור להסביר כיצד נוצרה סדרת הנתונים. סכום המשבצות משמש כדרך מתמטית למצוא את הפונקציה המתאימה ביותר (משתנה הכי פחות) מהנתונים.
הנוסחה לסכום הריבועים היא
Deen עבור סט X של n פריטים: סכום ריבועים = i = 0∑n (Xi −X) 2 איפה: Xi = הפריט ith בתשחץ = הממוצע של כל הפריטים בערכה (Xi −X) = הסטייה של כל פריט מהממוצע
סכום המשבצות ידוע גם כווריאציה.
מה אומר לך סכום המשבצות?
סכום המשבצות הוא מדד לסטייה מהממוצע. בסטטיסטיקה, הממוצע הוא הממוצע של קבוצת מספרים והוא המדד הנפוץ ביותר לנטייה מרכזית. הממוצע האריתמטי מחושב פשוט על ידי סיכום הערכים במערך הנתונים וחילוק במספר הערכים.
נניח שמחירי הסגירה של מיקרוסופט (MSFT) בחמשת הימים האחרונים היו 74.01, 74.77, 73.94, 73.61 ו- 73.40 בדולר אמריקאי. סכום המחירים הכולל הוא 369.73 $ והמחיר הממוצע או הממוצע של ספר הלימוד יהיה אפוא $ 369.73 / 5 = 73.95 $.
אבל לא תמיד לדעת את הממוצע של מערך מדידה. לפעמים, מועיל לדעת כמה וריאציה קיימת במערך המדידות. כמה רחוקים זה מזה בין הערכים האינדיבידואליים, עשוי לתת תובנה מסוימת לגבי התאמת התצפיות או הערכים למודל הרגרסיה שנוצר.
לדוגמה, אם אנליסט רצה לדעת אם מחיר המניה של MSFT נע במקביל למחיר של אפל (AAPL), הוא יכול לפרט את מערך התצפיות לגבי התהליך של שתי המניות לתקופה מסוימת, נניח 1, 2, או 10 שנים וליצור מודל ליניארי עם כל אחת מהתצפיות או המדידות שנרשמו. אם הקשר בין שני המשתנים (כלומר, מחיר AAPL ומחיר MSFT) אינו קו ישר, ישנן שונות בסט הנתונים שצריך לבדוק.
בסטטיסטיקה מדברים, אם הקו במודל הליניארי שנוצר אינו עובר בכל מדידות הערך, הרי שחלק מהשונות שנצפתה במחירי המניות אינה מוסברת. סכום המשבצות משמש כדי לחשב אם קיים קשר לינארי בין שני משתנים, וכל שינוי לא מוסבר מכונה הסכום הנותר של המשבצות.
סכום המשבצות הוא סכום ריבוע הווריאציה, כאשר הווריאציה מוגדרת כפיזור בין כל ערך פרטני לבין הממוצע. כדי לקבוע את סכום המשבצות, משבצת את המרחק בין כל נקודת נתונים לקו ההתאמה הטובה ביותר ואז נסכם אותה. הקו המתאים ביותר ימזער ערך זה.
כיצד לחשב את סכום המשבצות
כעת תוכלו לראות מדוע המדידה נקראת סכום הסטיות בריבוע, או סכום המשבצות בקצר. בעזרת הדוגמה MSFT שלנו בתמונה למעלה, ניתן לחשב את סכום המשבצות בתור:
- SS = (74.01 - 73.95) 2 + (74.77 - 73.95) 2 + (73.94 - 73.95) 2 + (73.61 - 73.95) 2 + (73.40 - 73.95) 2 SS = (0.06) 2 + (0.82) 2 + (- 0.01) 2 + (-0.34) 2 + (-0.55) 2 SS = 1.0942
הוספת סכום החריגות בלבד ללא ריבוע תביא למספר השווה לאפס או קרוב אליו מכיוון שהסטיות השליליות יקזזו כמעט בצורה מושלמת את הסטיות החיוביות. כדי לקבל מספר ריאלי יותר, יש לריבוע את סכום החריגות. סכום המשבצות תמיד יהיה מספר חיובי מכיוון שהריבוע של כל מספר, בין אם חיובי או שלילי, הוא תמיד חיובי.
דוגמה לשימוש בסכום הריבועים
בהתבסס על תוצאות חישוב MSFT, סכום רב של ריבועים מעיד על כך שרוב הערכים רחוקים יותר מהממוצע, ומכאן שישנו שונות רבה בתשחץ. סכום נמוך של ריבועים מתייחס לשונות נמוכה בתשחץ.
בדוגמה לעיל, 1.0942 מראה כי השונות במחיר המניות של MSFT בחמשת הימים האחרונים היא נמוכה מאוד, ומשקיעים המעוניינים להשקיע במניות המאופיינות ביציבות מחירים ותנודתיות נמוכה עשויים לבחור ב- MSFT.
Takeaways מפתח
- סכום המשבצות מודד את הסטייה של נקודות נתונים מהערך הממוצע. תוצאה של סכום ריבועים גבוה יותר מציינת מידה רבה של שונות בתוך מערך הנתונים, ואילו תוצאה נמוכה יותר מצביעה על כך שהנתונים אכן משתנים במידה ניכרת מהערך הממוצע.
מגבלות השימוש בסכום הריבועים
קבלת החלטת השקעה באילו מניות לרכוש דורשת תצפיות רבות יותר מאלו המפורטות כאן. אנליסט אולי יצטרך לעבוד עם שנים של נתונים כדי לדעת בוודאות גבוהה יותר עד כמה גדול או נמוך השונות של נכס. ככל שנוספות נקודות נתונים נוספות לסט, סכום המשבצות גדל ככל שהערכים יתפזרו יותר.
המדידות השונות הנפוצות ביותר הן סטיית התקן והשונות. עם זאת, כדי לחשב אחד משני המדדים, ראשית יש לחשב את סכום המשבצות. השונות היא הממוצע של סכום המשבצות (כלומר, סכום המשבצות חלקי מספר התצפיות). סטיית התקן היא השורש הריבועי של השונות.
ישנן שתי שיטות לניתוח רגרסיה המשתמשות בסכום המשבצות: שיטת הריבועים הפחות לינאריים ושיטת המשבצות הלא לינארית. שיטת הריבועים הכי פחות מתייחסת לעובדה שתפקוד הרגרסיה ממזער את סכום ריבועי השונות מנקודות הנתונים בפועל. בדרך זו ניתן לצייר פונקציה המספקת סטטיסטית את ההתאמה הטובה ביותר לנתונים. שים לב שפונקצית רגרסיה יכולה להיות ליניארית (קו ישר) או לא ליניארית (קו מתעגל).
