על פרדוקס סימפסון, כשלים סטטיסטיים והטיות מחקריות
אם עלינו לבחור בין שני טיפולים רפואיים, כנראה נרצה לראות את אחוזי ההצלחה שלהם. אם טיפול א' מראה אחוזי הצלחה גבוהים יותר מטיפול ב' הן במקרים קשים והן במקרים קלים, נראה ברור לגמרי שטיפול א' הוא הטיפול העדיף. למרבה ההפתעה, יכול להיות שאם נסתכל על המספרים ללא התייחסות לקושי המחלה, אחוזי ההצלחה של טיפול ב' גבוהים יותר. מקרה זה הוא דוגמא לתופעה הנקראת "פרדוקס סימפסון", והיא אחת הדוגמאות המובהקות ביותר לזהירות הנדרשת בבחירת מדגם.
כיצד זה יתכן? כדי להימנע ממורבידיות ולשחק קצת עם מספרים שידגימו את הפרדוקס, בואו נבחן את מחקרו של "מועדון הספר הבינוני" בסאנידייל שמעוניין לדעת האם הספריה צריכה לרכוש עוד ספרי אימה או עוד ספרי רומנטיקה. רוני ושחר, חברות מועדון מכובדות, אוהבות להמליץ על ספרים ולכן שמחו לאסוף סטטיסטיקה בנוגע להצלחת ההמלצה. כל אחת המליצה ל-110 מחבריה על ספר, ולאחר מכן שאלה אותם האם נהנו מקריאתו.
רוני דיווחה שהקוראים מעדיפים ספרי אימה: 78% מקוראי ספרי האימה נהנו מספר, לעומת 50% בלבד מקוראי ספרי הרומנטיקה.
גם שחר דיווחה על העדפה לספרי אימה: 100% מקוראי ספרי האימה נהנו מהספר, לעומת 94% בלבד מקוראי ספרי הרומנטיקה. רגע לפני שהמועדון מיהר להזמין כמות נכבדה של ספרי אימה, הוחלט לבדוק את המספרים ביחד. כאשר איחדו את המספרים שהביאו שתי הממליצות, קיבלו ש 80% מקוראי ספרי האימה נהנו מהספר, לעומת 90% מקוראי ספרי הרומנטיקה. זאת אומרת, אם לא נחלק את הנתונים לפי הממליצה, נראה שדווקא ספרי רומנטיקה זוכים להצלחה גדולה יותר.
הנה המספרים שהוצגו למועדון:
אימה רומנטיקה
רוני 78/100=78% 5/10=50%
שחר 10/10=100% 94/100=94%
סה"כ 88/110=80% 99/110=90%
מופתעים למדי, חברי המועדון החליטו לבדוק את העניין לעומק. התגלה שמלבד "מועדון הספר הבינוני", רוני חברה גם כן ב"מועדון הסרט המפחיד", ולכן היא נוהגת להמליץ לחבריה בעיקר על ספרי אימה.
שחר, לעומת זאת, חברה גם ב"מועדון הסטנדרטים הנמוכים" (מועדון של אנשים שנהנים כמעט מכל ספר) והיא גם חובבת ספרים רומנטיים וממליצה בעיקר עליהם. אם כך, הדגימה של רוני ושל שחר אינה מקרית. לו היו שתיהן ממליצות על אימה ורומנטיקה באופן שווה, הפרדוקס לא היה נוצר. כאשר מסתכלים על ההטיה מאחורי המספרים, ועל החלוקה הלא אחידה בין הקבוצות, הפרדוקס נעלם.
בעוד ניהול המלאי בספריית סאנידייל לא נראה כעיסוק קריטי, התופעה הזו, המכונה "פרדוקס סימפסון" ([1], [2]) מופיעה בתחומי חיים רלוונטיים הרבה יותר, כגון רפואה, משפטים ואפילו ספורט. אחת הדוגמאות הידועות ביותר בנוגע לפרדוקס סימפסון עוסקת בטיפולים באבנים בכליות. במאמר [3] הכותבים בחנו את סיכוי ההצלחה של שני טיפולים. הם ראו שאם מדובר באבנים קטנות, הטיפול הראשון הוא בעל אחוזי הצלחה גבוהים יותר, וגם אם מדובר באבנים גדולות, סיכוי ההצלחה של הטיפול הראשון גבוהים מסיכוי ההצלחה של הטיפול השני. כאשר התעלמו מגודל האבנים המספרים הראו שאחוזי ההצלחה של הטיפול השני גבוהים מאלו של הטיפול הראשון.
אם מחר יתגלו אצלי אבנים בכליות, לאיזה טיפול כדאי לי לפנות? בחינה מדוקדקת יותר של הנתונים, גילתה לחוקרים שרופאים נטו לשלוח את המקרים הקשים יותר לטיפול הראשון ואת המקרים הקלים יותר לטיפול השני, ובכך יצרו את ההטיה הסטטיסטית. לכן, למרבה הצער, נראה שלא אוכל ללמוד מהמחקר הזה איזה טיפול יתן לי סיכויי הצלחה גבוהים יותר, מה גם שצריך לקחת בחשבון סיכונים וחסרונות אחרים. מהמספרים המוצגים אפשר בעיקר להסיק שעדיף לבא עם מקרה קל מאשר מקרה קשה (ואת הספר להציע ל"מועדון הסטנדרטים הנמוכים").
על מנת לבדוק את יעילותו של טיפול בצורה המיטבית, חשוב לוודא שאין הטיות וגורמים נוספים שיכולים להשפיע על הסקת המסקנות. בדוגמא שנתנו למעלה, בנוסף לפרדוקס סימפסון עצמו, היה גורם נוסף ש"עירפל" את התוצאות, והוא הבחירה של הרופאים המטפלים לאיזה טיפול לשלוח את מי. גורמים כאלו נקראים ערפלנים, וניסויים קליניים שמאושרים על ידי סוכנויות ממשלתיות צריכים להציג מראש תוכנית לאיסוף הנתונים, גודל המדגמים, ופרוצדורות להסרת ערפלנים. כמובן שאין דרך להבטיח שלא יהיו הטיות כאלו, ולשם כך מבוצעים מחקרים "לאחור" (או מחקרים רטרוספקטיביים), כמו המחקר על הטיפול באבנים שתארנו כאן. בעזרתם, יכולה הקהילה המדעית לשנות המלצות על סמך עובדות בשטח. והקהילה המתמטית? חלקנו פשוט מעדיפים להמשיך להתעסק ב"מועדון הספר הבינוני" ולחפש פרדוקסים נוספים.
מקורות:
[1] Simpson, Edward H. (1951). "The Interpretation of Interaction in Contingency Tables". Journal of the Royal Statistical Society, Series B. 13: 238–241.
[2] Gardener, Martin (March 1979). "MATHEMATICAL GAMES: On the fabric of inductive logic, and some probability paradoxes" (PDF). Scientific American. 234 (3): 119.
[3] השוואת טיפולים לאבנים בכליות (PDF)