לבני אדם קשה עם אקראיות - האינטואיציה שלנו בד"כ גרועה בהערכת תוצאות של הגרלה מקרית. לדוגמא, ההסתברות שהמספרים בלוטו יצאו עוקבים (למשל 1,2,3,4,5,6) זהה להסתברות לקבל כל צירוף אחר (למשל 2,15,17,31) [2] , ועדיין - מעט מאוד אנשים ימלאו ככה טופס לוטו. אם אבקש ממישהו לזייף נתונים מספריים (תוצאות של בחירות, מיסים או צ'קים) כנראה [3] שהוא יבחר במספרים אקראיים על מנת שלא יגלו את הזיוף... אלא אם הוא מכיר את חוק בנפורד.
חוק בנפורד, או חוק הספרה הראשונה, הוא כלל היוריסטי ואמפירי, כלומר כלל אצבע על סמך ניתוח נתונים, אודות ההסתברות של הופעת ספרות בנתונים מספריים מהחיים האמיתיים, לפיו הספרה 1 היא הכי נפוצה, אחריה 2, וכך עד 9. הראשון ששם לב לחוק היה המתמטיקאי והאסטרונום סיימון ניוקום ב-1881. בתקופה ההיא מחשבונים אלקטרוניים היו פחות נפוצים ולכן על מנת לבצע חישובים מסובכים, למשל כאלו המערבים לוגריתמים (log לוגריתם- הוא פעולה ההפוכה לפעולת החזקה) השתמשו בספרי לוגריתמים -שהם בעצם טבלאות ארוכות המפרטות את תוצאות החישובים. ניוקומב שם לב שהעמודים הראשונים של הספרים היו מלוכלכים יותר מיתר העמודים. כלומר, יותר אנשים חיפשו מספרים שהספרה הראשונה היתה 1 או 2. הוא פרסם את התופעה אך זכה להתעלמות. אחרי כמעט 60 שנים- פיזיקאי בשם פרנק אלפרד בנפורד שם לב לאותה תופעה- הוא השקיע בנושא ואסף נתונים מתחומים נוספים על מנת לחזק את ההשערה הראשונית שלו- פירסם אותה וזכה שהחוק יקרא על שמו.
אז מה חוק בנפורד אומר בדיוק? החוק תופס לגבי שיעורי תמותה, מחירי מניות, מספר תושבים בערים בישראל [1], הוצאות בחברות גדולות, אורכי נהרות וכו'. אם נסתכל על הספרות המובילות (למשל במספר 1,560 הספרה 1 היא הספרה המובילה) בניגוד לאינטואציה שלנו -יש הבדל ממשי בין שכיחות הספרות. השכיחות של הספרה 1 (30%) גבוהה מזו של 2 (17%) וכן הלאה- עד לספרה 9 שהיא הנדירה ביותר [2].
דוגמא לחוק, נניח שאני פותח חברה עם מכירות של מיליון דולר בשנה, ויש עלייה באחוז קבוע במכירות של 20% כל שנה. עד שהמכירות יגיעו ללפחות 2 מיליון דולר יעברו 4 שנים. לעומת זאת, ממכירות של 5 מיליון ל-6 מיליון תעבור רק שנה אחת (עלייה של 20%). אם אסתכל על כל השנים, אז אראה שהספרות המובילות מתאימות לחוק בנפורד.
חוק בנפורד למעשה מראה שמספרים שנבחרים אקראית במכוון- עלולים לא לעקוב אחר הדפוס האמיתי. לכן, האבחנה הזו יכולה לסייע לבדוק האם רשימה של מספרים נוצרה באופן טבעי, או שיש בה פברוק. לדוגמא, איתור תרמיות חשבונאות, רמאויות והעלמות מס [3] בשנת 1993 נתפס אזרח אמריקאי בשם ויין נלסון בניסיון להונאת מס של 2 מיליון דולר ע"י זיוף צ'קים [4], הוא זייף 23 צ'קים עם סכומים אקראיים שונים. הבעיה שהסכומים לא התאימו ע"פ חוק בנפורד (לדוגמא, רוב הסכומים התחילו בספרות 8 או 9) מה שעורר את החשד לזיוף, שהוביל לחקירה ובסופו של דבר, למשפט. דוגמא נוספת לשימוש בחוק בנפורד היה בבחירות באיראן בשנת 2009, כאשר הרשויות שחררו נתוני הצבעה בזמן אמת, אבל הנתונים לא התאימו לנתונים אקראיים אמיתיים והועלה חשד לזיופים [5].
יש לשים לב שיש קבוצות נתונים שלא מקיימות את חוק בנפורד, כגון מספרים אקראיים או מספרים הניתנים במכוון (כגון מספרי תעודות זהות, מיקוד וכו'). מתמטיקאים עדיין חוקרים מה הסיבה לחוק ולאלו אוכלוסיות הוא תקף בדיוק. אם אתם חלילה לזייף נתונים - מומלץ להכיר את חוק בנפורד, או אם ננסח את זה בצורה פלילית יותר "אם אתה לא מתכוון לפעול לפי החוק, לפחות תפעל לפי חוק בנפורד".
If you’re not going to follow the law,
at least follow Benford’s law.
מקורות וקישורים:
[1] למ"ס (2018), יישובים בישראל.
[3] פענוח פשעים מודרניים בשווקים פיננסיים
[4] הונאת הצ'קים של ויין נלסון
[5] אנומליית הספרה הראשונה בבחירות באיראן בשנת 2009