הצגת תוצאות בדיוק מופלג עלולה להטעות
הפוסט נכתב בשיתוף ידיד העמותה רוני רונן, מהנדס מחשבים וחוקר בטכניון.
חדשות מרעישות: בסקר שערכנו 42.857% מהנשאלים אמרו שהם לא מתנגדים לטעום ופל לימון! המספר יכול לרמז על מדגם גדול ועל הקפדה יתרה על דיוק מדעי. אולם ההצגה העשרונית מטעה: שאלנו רק שבעה אנשים, שלושה מהם ענו והתוצאה היא 3/7. בעצם עודף הספרות לעומת המידע החסר על המדגם הקטן מעורר גיחוך...
כמה ספרות עשרוניות כדאי להציג בדיווח על תוצאות מדידות וחישובים? אמצעי תקשורת פופולריים נוטים להקטין את הדיוק במספר הספרות העשרוניות כדי להציג נתונים בקלילות. נדמיין שערוץ טלוויזיה הזמין סקר שבחן איזה פוליטיקאי מבין שלושה אהוד יותר והתקבל שוויון. העורכים מכינים דיאגרמת עוגה באקסל ומספרים בתוכה, וכדי שלא להעמיס על הצופים הם מעגלים את התוצאות וכותבים רק 33%. ואז צופים חובבי מתמטיקה מתרגזים ושואלים: לאן נעלם האחוז האחרון?
ולעיתים הבעיה הפוכה: עודף דיוק המקשה על הקריאה ועלול להטעות. למשל "שינויי ויטמין E במזונות מבושלים היו: ברותחים (77.74%–242.73%), באפייה (85.99%–212.39%)...". נושא הדיוק בדיווח נדון במאמרים בתחומי תקשורת ומדע [1],[2]. המלצתם לשיפור הקריאות היא לדווח עד שתי ספרות אחרי הנקודה, ובאחוזים גבוהים, למשל 77.74%, רצוי פחות. במקרים מיוחדים, למשל כשיש מספרים קטנים, מומלץ להוסיף עוד ספרות, ואם המספרים גדולים במיוחד (למשל מהירות האור) כדאי לעגל גם מספרים שלמים.
אחד השיקולים להצגת נתון באופן הוגן הוא שיערוך השגיאה האפשרית בחישוב שלו. זהו נושא מרכזי בתחומי המדע וההנדסה שבהם אי אפשר לבצע מדידות ישירות. המתמטיקה באה לעזרתנו ומספקת שיטות מגוונות להערכת השגיאה המקסימלית [3], ולהערכת השגיאה בהנחה של התפלגות נורמלית [4]. לשיערוך שגיאה בחישובים מורכבים משתמשים בסימולציות הנעזרות בערכים אקראיים. אחת השיטות נקראת "סימולציית מונטה קרלו" [5].
למשל נניח שאנו רוצים לכתוב ספר ומבקשים להעריך מה יהיה עוביו אם יהיו בו כ-100 דפים. נמדוד ערמה של כ-500 דפים ונגלה שעובייה 5.3 סנטימטר, ולכן נסיק שעובי ספר של 100 דפים יהיה 1.06 ס"מ. אולם תיתכן שגיאה בספירת הערמה, עד 20 דפים לכל כיוון – 4%, ואולי הספר לא יכיל בדיוק 100 עמודים, ותיתכן סטייה של עד 5%. גם מדידת העובי בסרגל איננה מדויקת ותיתכן טעות של עד מילימטר לכל כיוון – 2% טעות.
לפיכך איך נדע מה הטעות המקסימלית בתוצאה? לפי פיתוח מתמטי מקורב (ראו תמונה), השגיאה היחסית המקסימלית בתוצאה כשעושים פעולות כפל או חילוק, היא סכום השגיאות היחסיות של כל מרכיב, ולכן השגיאה היחסית תהיה בערך: 5%+4%+2%= 11%. שיטה אחרת היא להניח שהטעויות מתפלגות באופן אחיד, ולהעריך שהטעות היא סטיית תקן של התפלגות השגיאה בתוצאת החישוב (ראו דוגמה של הערכה באמצעות סימולציה אקראית באקסל). כך או כך המסקנה היא שכדאי לספר לחברים שעובי הספר יהיה כסנטימטר בלבד, בלי לבלבל אותם עם ספרות עשרוניות!
פרסומי מדע פופולריים אינם טורחים לציין את טווח השגיאה, ולכן לעיתים צריך לצלול למעמקים ולבדוק את החישובים! (אנחנו מתנצלים שגם הנתונים החלקיים שהצגנו בסקר הוופל היו מטעים...).
עריכה: רעות קמחי-גבריאלי
[1] דיון על מספר הספרות שכדאי להציג
[2] מחקר על מספר הספרות המוצג במאמרים
[4] פעפוע שגיאה – התחשבות ב-SD