סקרי אינטרנט המכריעים בסוגיות כבדות משקל הפכו נפוצים יותר ויותר לאחרונה. נדמה שלכל מועמד פוליטי או עמוד פייסבוק יש סקרים משלו שמנציחים, ראו זה פלא, את הדעות שבהן הוא מחזיק. דוגמה אחת כזו היא הסקר שערך פעיל הימין והראפר יואב אליאסי, הידוע יותר כ"והצל" מ"סאבלימינל והצל". בפוסט הוא מותח ביקורת חריפה על סקר שנערך באתר N12, לפיו רוב הציבור מעדיף את ממשלת לפיד-בנט על פני יציאה לבחירות נוספות. הביקורת העיקרית של אליאסי על הסקר היא הגודל של המדגם המייצג של N12, שהכיל 507 נשאלים, לעומת הסקר שלו, שבו כ-95% מתוך קצת יותר מ-37 אלף נשאלים השיבו שהם מעדיפים בחירות נוספות. בתגובות טוענים עוקבי הצל שהבחירות נגנבו מהם - שכן אחרת איך ייתכן שהסקר של הצל מראה תוצאה כל כך שונה מהמציאות? אז האם הסקר של אליאסי יותר טוב כי הוא יותר גדול? ובכלל, איך מדגם מייצג עובד - ולמה בכלל להאמין לסקר שלא כולל את כל האוכלוסייה?
סקרים הם עניין מסובך [1]. בסקר מנסים לחזות את דעתה של אוכלוסייה גדולה באמצעות דגימת תת-אוכלוסייה "מייצגת". אין לי יומרות להתחייב על איכות הסקר של N12, או לערוב לדעתו של עם ישראל בסוגיה זו או אחרת. אבל על דבר אחד אני חותם, הסקר הזה אמין בהרבה מכל סקר פייסבוק אחר, אפילו כזה עם הרבה יותר משיבים. למה? כי למרות שמספר המשיבים גבוה יותר, אוסף המשיבים אינו מהווה מדגם מייצג.
מדגם מייצג עבור תכונה מסוימת של אוכלוסייה, כמו העדפות פוליטיות או העדפות בטעמי גלידה, הוא כזה עבורו: אם נבחר אדם באקראי מתוך המדגם, הסיכוי שהוא יקיים את התכונה הרלוונטית דומה מאוד לאותו הסיכוי אם היינו בוחרים אדם אקראי מהאוכלוסייה הכללית. בנייה של מדגם והערכה של עד כמה הוא מייצג הן מטלות מאוד מאתגרות. הקושי העיקרי נעוץ באמת הפשוטה: אין לנו שום דרך לבחון באופן ישיר אם המדגם שלנו מייצג את התכונה שמעניינת אותנו, כי בשביל לבחון את זה צריך לדעת איך התכונה מתפלגת באוכלוסיה הכללית, וזה בדיוק מה שאנחנו מנסים למדוד!
הדרך העיקרית להתמודד עם הבעיה הזאת היא להשתמש בנתונים שאנחנו כבר מאמינים שיש לנו הערכה טובה עבורם: אם יש לנו סקרים נרחבים שמראים שכ-30% מהאוכלוסיה מעדיפים חתולים על כלבים, נדאג ש-30% מהמדגם שלנו יהיו אנשי חתולים. התקווה היא שאם נדאג שהמדגם יהיה מייצג עבור כמה שיותר תכונות שיש לנו הערכה טובה לגביהן, במיוחד תכונות שתלויות אחת בשנייה כמה שפחות, הוא ייצג היטב גם תכונות אחרות, כמו זו שאנחנו רוצים למדוד. ככל שהפילוחים שלנו יותר מדויקים ובלתי תלויים, כך נצטרך מדגם קטן יותר כדי לקבל ייצוג איכותי. מובן שזה פתרון רחוק מאידאלי, ויש לו פגם בולט במיוחד - הוא מכריח אותנו להתבסס על הערכות קודמות. בסופו של דבר כל סקר מבוסס על מדגם כלשהו [2]. מכוני סקרים עושים את זה על ידי טיפוח ארוך שנים של מדגמים שנבנים בצורה מדוקדקת, באופן שימזער הטיות עד כמה שאפשר. אבל בסופו של דבר, אי אפשר לבחון את המתודולוגיה הזאת מעבר למבחן המציאות. זאת הסיבה העיקרית שתעשיית הסקרים נסמכת על מוניטין ארוך טווח.
בסקרי אינטרנט כמו של אליאסי אין שום דרך להעריך את הפילוח של המדגם [2]. אליאסי מתגונן מהביקורת הזאת באמירה שרבים מעוקביו אינם תומכי נתניהו - אלא תומכי בנט ושאר מפלגות הימין. זה לא משכנע. ראשית, כי הסקר המקורי של N12 ניסה להעריך את התמיכה בממשלה על פני כל האוכלוסיה, ולא רק על פני מצביעי הימין שמרכיבים את רוב רובו של הקהל של אליאסי. גרוע מכך, אין סיבה להניח שהקהל של אליאסי מייצג נאמנה אפילו את מצביעי הימין. מעבר לזה, סקרים בפייסבוק פונים לאנשים שנוכחים בפייסבוק, משתמשים בו כדי לעקוב אחרי שיח פוליטי ומעוניינים להשחית את זמנם על סקרי פייסבוק. אין סיבה להאמין שהקבוצה הזו מייצגת נאמנה תכונה כלשהי. וכל זה בלי לקחת בחשבון את האלגוריתם של פייסבוק, שהשד יודע איך הוא קובע מי נחשף לסקר ומי לא.
עוד פגם נפוץ שיכול לפגוע מאוד באיכות של סקר הוא ניסוח מוטה של השאלות [3]. כולנו נסכים שניסוח מוטה יכול לפגוע באמינות של כל סקר, ולא משנה עד כמה המדגם מייצג. מי שמסכים והוא גם בחור כארז מוזמן לעשות ריאקט לב. מי שחולק וגם מסריח לו מהפה שיעשה ריאקט בוכה. נשווה מספרים אחר כך. במדגמים שנערכים על ידי סטטיסטיקאים, הדוגמים מתאמצים לשנות את הניסוח ואף את הסדר של השאלות כדי להימנע מהטיה כזו. בסקר של הצל, לדוגמה, הבחירה בבחירות חמישיות דורשת מעט יותר מאמץ מאשר הבחירה בממשלת השינוי. אין לנו מושג אם ההבדל הזה בפני עצמו הוא משמעותי, אבל כל סוקר מתחיל יטען שככל שאנחנו לא יודעים שהוא לא, ראוי להימנע ממנו.
סקרים אמינים מסובכים מאוד לעריכה ולניתוח. כולנו זוכרים למשל איך הסקרים נכשלו לנבא את הנצחון של נתניהו על פרס ב-1996, או של טראמפ על הילארי ב-2016. גם בסקרים של מכוני המחקר עתירי הנסיון ביותר נופלות הטיות, ואלו גדלות לאין שיעור בג'ונגל האינטרנטי, בו אין פיקוח על צורת עריכת המדגם ועל ניסיונם של העורכים אותו. לכן, בפעם הבאה שאתם קוראים סקר אינטרנטי נסו לחשוב על ההטיות הגלומות בו, ואיך אלו צפויות לשנות את התוצאות. בינתיים, אם מישהו מבקר את האיכות של סקר על סמך גודל המדגם בלבד, זכרו שזו אינה באמת ביקורת.
הרחבות ומקורות:
[1] פוסט שלנו בנושא מדגמי בחירות
[3] על סוגי הטיות סטטיסטיות שונות