לפני כמה ימים התפרסם בדף הפייסבוק של הפודקאסט "עושים היסטוריה" קישור לפרק בשם "האם ניתן לסמוך על סטטיסטיקה?" אשר דן בין היתר במקרים בהם שימוש בטיעונים סטטיסטיים הוביל למסקנות שגויות. הוא בחר להדגיש את המקרה המחריד של סאלי קלארק, עורכת דין בריטית אשר איבדה את שני ילדיה למוות בעריסה. הטרגדיה של סאלי קלארק לא נגמרה עם מות ילדיה. היא הועמדה לדין והורשעה בהריגתם, כאשר הטענה של התביעה היתה שההסתברות לכך שילדים לאותה האם ימותו ממוות בעריסה הם מזעריים. טיעון כזה הוא דוגמה קלאסית לכשל בשם "הכשל הבייזיאני" [1] (Bayesian fallacy).
בשביל להבין את הכשל הבייזיאני צריך להבין קודם קצת הסתברות מותנית [2]. נניח ויש לי קוביה הוגנת, כלומר, כזו שאם אני מטיל אותה יש לה סיכוי זהה ליפול על כל צד. אם אני אשאל "מה ההסתברות שהקוביה תיפול על 3" זה די ברור שהתשובה היא "שישית". מצד שני, אני יכול לזרוק את הקוביה מבלי להראות לכם את התוצאה ואז להגיד משהו כמו "הקוביה נפלה על מספר זוגי, מה הסיכוי שהיא נפלה על 4?". ובכן, יש רק שלושה צדדים זוגיים, כולם אמורים לקרות באותה ההסתברות, ולכן ההסתברות שהקוביה נפלה על 4 היא שליש! כשמתמטיקאי אומר "ההסתברות לקבל 4 בהינתן שהקוביה נפלה על מספר זוגי" לזה בדיוק הוא מתכוון, ואם הבנתם את ההסבר הזה אז הבנתם מה היא הסתברות מותנית!
אבל עכשיו אפשר להתחכם, ולהפוך את הכיוון. אני יכול לשאול אתכם שאלה כמו "מה ההסתברות שהקוביה נפלה על מספר זוגי בהנתן שיצא 4?". ובכן, שאלה קצת מגוחכת, 4 הוא זוגי ולכן אם יצא 4 בוודאות יצא מספר זוגי. אבל מה יקרה אם נחליף את הקוביה שלנו בקוביה עם מיליון פאות? ההסתברות שיצא זוגי בהנתן שיצא 4 נשארת 1, אבל ההסתברות שיצא 4 בהנתן שיצא זוגי היא פתאום מזערית, אחת לחצי מיליון! זה מדגים לנו עובדה שנשמעת פשוטה - זה שאנחנו יודעים שההסתברות של מאורע A גדולה (או קטנה) בהנתן שמאורע B התרחש, לא אומר לנו שההסתברות של מאורע B גדולה (או קטנה) בהנתן שמאורע A התרחש.
כשמציגים את הרעיון הזה בעזרת הטלות של קוביות הוא נשמע מובן מאליו, אבל האמת היא שאנחנו עושים הנחות שגויות מהסוג הזה כל הזמן. עקרון בייז מתאר נקודה שהאינטואיציה האנושית נוטה ליפול בה - את הנטיה לחשוב שאם ההסתברות של A בהנתן B גבוהה, אז גם ההסתברות של B בהנתן A גבוהה. הנטיה לחשוב שאם "ההסתברות ששני הילדים ימותו בעריסה בהנתן שהם של סאלי קלארק" היא מזערית, אז גם "ההסתברות שמדובר בילדים של סאלי קלארק בהנתן שהם מתו בעריסה" (שזו בעצם דרך קצת עקומה להגיד "ההסתברות שמכל הילדים דווקא אלו של סאלי קלארק מתו בעריסה") היא מזערית. אבל זה לא נכון. ככל שיש יותר אמהות, כך הסיכוי שתהיה איזו אמא ששני הילדים שלה מתו בעריסה עולה.
אפשר להדגים את זה בצורה מספרית. לפי טענת ההגנה, ההסתברות של מוות בעריסה היא אחת ל-8000 ולכן ההסתברות של שתי מיתות בעריסה לילדים של אותה אמא היא אחת ל64 מיליון. הטענה הזו כבר בעייתית, שכן הגורמים למוות בעריסה לא ידועים, ובפרט הם יכולים להיות סביבתיים או גנטיים, מה שאומר שאם תינוק אחד מת אז ההסתברות של התינוק השני להיהרג עולה. נניח לצורך העניין שהסיכוי לכך הוא אחד למיליון. כלומר, בהנתן אם לשני ילדים, הסיכוי שלפחות אחד מהם ישרוד הוא 0.999999.
אם יש באנגליה מיליון אמהות לשני ילדים, הסיכוי שאף אחת לא תאבד את שני ילדיה הוא 0.999999 בחזקת מיליון, שזה בערך 0.37. כלומר, הסיכוי שתהיה מישהי שקרה לה מה שקרה לסאלי קלארק עומד על כמעט שני שליש! האמת העגומה היא שבית המשפט הרשיע את סאלי קלארק ושלח אותה לכלא רק מפני שקרה משהו שההסתברות שהוא יקרה עמדה על מעל לחצי.
ולשאלה "האם ניתן לסמוך על הסטטיסטיקה?" לפחות במקרה הזה התשובה היא כן, כל עוד עושים אותה בזהירות ולא קופצים למסקנות.
ובשביל לבחון את האינטואיציה שלכם נשאיר אתכם עם השאלה הבאה:
קיימת בדיקה שקובעת אם אדם חולה במחלה מסויימת. הבדיקה צודקת 99 אחוז מהזמן (כלומר, אם האדם חולה יש סיכוי של אחד למאה שהבדיקה תגיד שאינו חולה, ולהיפך). מדובר על מחלה יחסית נדירה שפוגעת באדם אחד מתוך עשרת אלפים. אדם עובר את הבדיקה ונמצא שהוא חולה, מה ההסתברות שהוא אכן חולה?