אופניים, כלבים ומספרים הם רק חלק קטן מן הפריטים שכולנו התבקשנו לזהות כדי להוכיח שאנחנו לא רובוטים. אך למה זה משמש בכלל, ומה הקשר של גוגל לעניין הזה? המנגנון שבאמצעותו מזהים אתרי אינטרנט משתמש אנושי, כדי למנוע פריצות, מהווה נדבך חשוב מאוד בעולם האבטחה. בנוסף, כך מתברר, המידע שנאסף מאיתנו יכול לסייע בפיתוח של מערכות בינה מלאכותית ואף לחסוך סכומי עתק לחברות העוסקות באימון של מודלים המחקים התנהגות אנושית.
בתור תושבי קבע בעולם האינטרנטי, כמה פעמים התבקשתם להוכיח שאתם אנושיים בעת הזנת סיסמה או מילוי טופס? לרוב היו המטלות זיהוי אותיות ומספרים בתמונה מעוותת, סיבוב אובייקטים לזוויות מסוימות או סידור חלקי פאזל. המבחן, מטופש ככל שיהיה, הוא למעשה אבן בוחן שמאשרת כי אתם אנשים בשר ודם ולא משתמש רובוטי (spambot). המבחן קרוי [1] CAPTCHA (Completely Automated Public Turing Test to tell Computers and Humans Apart), והוא פותח על ידי חוקרים מאוניברסיטת קרנגי מלון בתחילת שנות האלפיים. בגרסאות הראשונות של המבחן הוצג טקסט מעוות, והמשתמש התבקש לזהות את האותיות והמספרים ולהקלידם. בשל העיוות המשתמש הרובוטי אינו מסוגל לקרוא את הכתוב, ולכן נכשל במבחן. מוח אנושי, לעומת זאת, מסוגל לזהות את האותיות גם כאשר הן מעוותות. יצירת מטלות חדשות היא פשוטה למדי: כל שצריך לעשות הוא להכניס מעין "רעש" אקראי לתמונה המקורית, והרי לכם מטלה חדשה. בתחילת שנות האלפיים טכנולוגיית המשתמש הרובוטי לא הייתה מסוגלת לענות על המבחן, ולכן רק משתמש אנושי היה יכול לפתור את מטלות CAPTCHA. בהמשך פותחו מערכות שמסוגלות להערים על המבחן המקורי, ולכן היה צורך לשנות את המבחן ואת המטלות.
עד כאן על מבחן CAPTCHA, וכעת נעבור לנושא אחר.
האופן שבו אנו מלמדים מערכות מחשב חכמות להבין את העולם האנושי הוא "תיוג נתונים" – תהליך של הוספת תווית משמעותית לנתונים גולמיים (תמונות, קבצי טקסט, סרטוני וידאו וכולי), כדי לקשר בין הנתונים לבין הקטגוריה שאליה הם משתייכים. לדוגמה, תווית עשויה לציין אם תמונה כוללת כלב או חתול, אילו מילים נאמרות בהקלטת שמע, או אם צילום רנטגן מראה גידול. השלב הראשון של תיוג נתונים הוא בדרך כלל בקשה מבני אדם לשפוט נתון ללא תווית, לדוגמה – הנחייה לתייג את כל התמונות במערך נתונים שלגביהן התשובה לשאלה "האם התמונה מכילה ציפור?" היא חיובית. התיוג יכול להיות גס, למשל תשובה פשוטה של כן או לא, או מפורט יותר, לדוגמה תיחום האזור שבו רואים את הציפור. הנתונים המתויגים משמשים לאימון של מערכות בינה מלאכותית. כאשר יש כמות מספקת של נתונים מגוונים, התוצאה היא מערכת נבונה, שאפשר להשתמש בה כדי לחקות התנהגות אנושית [2, 3].
ככל שהאינטליגנציה שנדרשת מהמערכת גבוהה יותר, כך גדל מספר התיוגים הנדרשים והמורכבות שלהם עולה. תהליך התיוג קשה, מורכב ובעיקר יקר. אוסף נתונים איכותי הוא יקר מאוד, והזמן הדרוש כדי לייצר אותו קשה לחיזוי. נכון להיום, התעשייה הגלובלית של תיוג הנתונים מוערכת בכ-629.5 מיליון דולר, והיא צפויה להמשיך ולגדול. הצפי הוא שעד שנת 2028 ערך השוק של תעשיית תיוג הנתונים יעמוד על 3.4 מיליארד דולר [4].
אז מה הקשר של גוגל לכל העניין הזה? בעקבות ההצלחה האדירה של המבחן החליטה חברת גוגל לקנות את החברה שפיתחה אותו ולמתג אותו מחדש – reCAPTCHA. במבחן המחודש נבחרות תמונות מתוך Google Street View, והמטלה היא לזהות מספרי דלתות, שלטים וסמלים. למעשה, חברת גוגל רתמה את המשאב האנושי של אזרחי העולם האינטרנטי כדי לתייג תמונות. מדובר במספר עצום של אנשים – גוגל דיווחה כי יותר מ-200 מיליון איש עונים על מבחן reCAPTCHA בכל יום. מיליוני התמונות המתויגות יכולות לשמש לאימון של מערכות בינה מלאכותית, וזאת בהוצאה כספית מינימלית [5].
בצד מספרים ושמות רחובות, המבחן עשוי לכלול מילים כתובות, וגם כאן טמונה תועלת. כדי להמיר עמוד בספר לפורמט דיגיטלי יש לסרוק אותו לתמונה ולתת למחשב לפענח את הטקסט הסרוק. עם זאת, כאשר מדובר בספר ישן שדפיו הצהיבו או שסימני הדיו שבו דהו ונמרחו עם השנים, כמעט שלא ניתן לשחזר אותו. לכן, אם עד כה חשבתם כי הצורך באימות הוא בעיקר מציק, דעו כי בכל הקלדה של אותיות מעוותות בכניסה לאתרי אינטרנט אתם תורמים לידע האנושי: באמצעות טכנולוגיה זו כבר נסרקו לארכיונים דיגיטליים מיליוני ספרים ותעודות היסטוריות, רגע לפני שאבדו לנצח [6].
אז בפעם הבאה שאתם מוכיחים שאתם לא רובוט, זכרו שעל הדרך אתם מסייעים בפיתוח של בינה מלאכותית ומעשירים את מאגרי הידע האנושי.
ליווי מדעי: דוד קייסר
עריכה: סמדר רבן
מקורות והרחבות:
[1] האתר הרשמי של מבחן CAPTCHA
[2] מדוע תיוג נתונים חשוב ללמידת מכונה?
[3] מאמר על חשיבות התיוג עבור מערכות של בינה מלאכותית
[4] סקירה כלכלית של שוק תיוג הנתונים וצפי לשנים הבאות
[5] מאמר על מבחן CAPTCHA והחשיבות שלו לעולם הבינה המלאכותית
[6] כתבה במגזין גלובס – ריאיון עם ממציא המערכת