רבים נוהגים לחשב ממוצע חשבוני וממוצע גאומטרי ולעיתים מתלבטים מתי להשתמש בכל אחד מהם. בפוסט זה ננסה לעזור לאותם מתלבטים.
הפוסט נכתב בשיתוף ידיד העמותה רוני רונן
כולנו מעדיפים מדדים פשוטים לצורכי השוואות: רמת הכנסה ממוצעת, מדד האושר בישראל, מדדי מניות בתל אביב, רמת ביצועי מחשבים ועוד. לחישוב מדדים כאלה משתמשים לעיתים קרובות בממוצע חשבוני של קבוצת הנתונים השווה לסכום איברי הקבוצה מחולק במספר האיברים. ואולם לעיתים ממוצע כזה עלול להטעות. בדיחה ישנה מספרת על משרד הבריאות שהחליט לבדוק את איכות בתי החולים לפי מידת החום הממוצעת של החולים. התוצאות שהתקבלו היו הפוכות מן המצופה. לאחר בדיקה מעמיקה גילו שהחישוב כלל גם את מידת החום של המתים בחדר הקירור, והדבר גרם להטיה גדולה של הממוצע החשבוני כלפי מטה...
אם כן, כיצד נדע שהממוצע החשבוני הוא המדד המתאים? נבחן את סוג הנתונים ולפיו נחליט במה להשתמש. אם מניחים שהערכים די קרובים זה לזה ומתפלגים בצורה די נורמלית, כמו ציוני סטודנטים בבחינה, הממוצע החשבוני יהיה המדד המתאים. למשל, נניח שמספר הטעויות של חמישה סטודנטים במבחן הוא 2, 1, 1, 1, 0 ורוצים לדעת את מספר הטעויות הממוצע במבחן. המדד המתאים במקרה זה יהיה הממוצע החשבוני, והוא יהיה שווה 1.
אך מהו המדד המתאים לסדרה של נתונים שאנו צופים שיהיו שונים בסדרי הגודל שלהם או חריגים בגודלם? נניח שלעמותת "מדע גדול, בקטנה" יש תורמים גדולים וקטנים, והם תרמו את הסכומים (בשקלים): 100, 10, 10, 10, 1. הממוצע החשבוני של הסדרה הוא 26.2, מספר גבוה שאינו משקף את רוב התרומות מכיוון שהערך 100 יוצר הטיה גדולה. באיזה מדד נשתמש לנתונים כאלו?
המספרים שבדוגמה שונים זה מזה בסדרי גודל. אבל אם נציג אותם בסקלה לוגריתמית, נקבל סדרה של מספרים קרובים (2, 1, 1, 1, 0) שהממוצע החשבוני שלה הוא 1. הערך המתאים ל־1 בסקלה רגילה הוא 10, והוא יהיה הממוצע. אפשר לחשב את ממוצע הנתונים המתאים לפעולות שעשינו (מעבר לסקלה לוגריתמית, חישוב ממוצע וחזרה לסקלה רגילה) באמצעות ממוצע אחר הקרוי ממוצע גאומטרי – שורש n של מכפלת n איברי הסדרה [1]. בדוגמה שלנו הממוצע הגאומטרי הוא השורש החמישי של המכפלה 1*10*10*10*100 השווה 10. כלומר כאשר אנו ממצעים קבוצת נתונים שאנו מצפים שתהיה בה שונות בסדרי הגודל של הנתונים, כדאי להשתמש בממוצע הגאומטרי בתור המדד. דוגמה מעניינת לכך היא השימוש בממוצע גאומטרי כדי להקטין בתמונות רעשים חזקים, שהם ערכים חריגים [2].
באופן כללי, כשנרצה לחשב ממוצע של סדרה, נבחר את סוג הממוצע לפי הסיטואציה. לדוגמה, אם רוצים לחקור כמה חולים בממוצע מגיעים לבית החולים ביום כדי להשוות את התפוסה לבתי חולים אחרים, כדאי להשתמש בממוצע חשבוני. ואולם אם רוצים להבין את הגידול הממוצע במספר החולים בזמן מגפה, מתאים יותר להשתמש בממוצע גאומטרי.
הבחירה בין שני הממוצעים נעשית קלה יותר, כאשר איברי הקבוצה קרובים זה לזה. במצב זה גם הממוצע החשבוני והממוצע הגאומטרי קרובים זה לזה, ואפשר להשתמש בכל אחד מהם. למשל, נניח שהמהנדסים מבצעים בדיקות על שלושה סוגי מחשבים חדשים ומקבלים סדרה המייצגת שיפור ביצועים: 1.21, 1.1, 1. הממוצע הגאומטרי של הסדרה הוא 1.1, והערך הזה קרוב גם לממוצע החשבוני שלה השווה ל־1.103.
יתרון חשוב של ממוצע גאומטרי הוא היכולת להשוות ביצועים של מערכות שונות בפשטות. לכן ממוצע זה הוא אידיאלי לבדיקות של ביצועי מערכות כמו מחשבים (למשל באמצעות [3] SPEC CPU® 2017). נניח שנתונים לנו ציוני הביצועים של עשר אפליקציות שרצו על מערכות מחשבים A ו־B, ואנו רוצים לדעת מהו יחס הביצועים הממוצע, דהיינו פי כמה מערכת B מהירה יותר בממוצע ממערכת A. לשם כך מחשבים את יחס הביצועים של כל אחת מן האפליקציות ואחר כך מחשבים את הממוצע של יחסי הביצועים, כלומר הממוצע של עשרת השברים האלה: A1/B1, A2/B2... A10/B10. השימוש בממוצע גאומטרי מקל על החישוב, מכיוון שאפשר לחשב את הממוצע הגאומטרי של סדרה A, את הממוצע הגאומטרי של סדרה B ולחלק את הממוצעים זה בזה כדי למצוא את הממוצע הגאומטרי של היחס. אותו כלל מתמטי בסיסי שלמדנו עוד בתיכון ושכדאי תמיד לזכור מאפשר לחשב כך:
שורש n של מכפלת היחסים A1/B1* A2/B2 ...*An/Bn הוא שורש n של המכפלה A1*A2…*An מחולק בשורש n של המכפלה B1*B2*…*Bn.
שימו לב ששימוש בממוצע חשבוני לא מאפשר חישוב כזה. יתרון השימוש בממוצע גאומטרי בולט במיוחד כשרוצים לדרג את הביצועים של שלוש מערכות או יותר. שיטות דומות נהוגות גם בהשוואות מדדי מניות. אכן, אם מתכננים מערך של בדיקות השוואתיות, כדאי לשקול לאמץ את השימוש בממוצע גאומטרי. מניסיוננו, מהנדסים וחוקרים משתמשים בכמה מדדים לניתוח תוצאות, ומלבד ממוצע חשבוני וגאומטרי הם משתמשים גם בממוצע הרמוני ובחציון בהתאם לסוג הנתונים שהם מנתחים.
לסיכום, ראינו שאין נוסחה פשוטה להחלטה באיזה ממוצע כדאי להשתמש, וצריך להחליט לפי סוג הנתונים. עם זאת, חשוב להיות עקביים ולפרסם את דרך חישוב המדד.
הרחבות:
[1] ממוצע גאומטרי
[2] מסנן רעש בתמונות המבוסס על ממוצע גאומטרי