בזמן האחרון פותחו בעולם האינטליגנציה המלאכותית מגוון של כלים חדשים ושל יכולות מרתקות שעושים שימוש בטכנולוגיית "למידה עמוקה". במקביל פורסמו שלל אזהרות של מומחים בנוגע לסכנות הקשורות בטכנולוגיה המתפתחת בקצב מהיר ללא בקרה וללא רגולציה. מבין המומחים בולט במיוחד ג'פרי הינטון, שנחשב אבי הטכנולוגיה, המספר בראיונות מה היא הטכנולוגיה, מדוע היא ממשיכה להתפתח במהירות שיא, וממה הוא חושש.
אחד הכלים המתקדמים בעולם האינטליגנציה המלאכותית הוא GPT-4 של חברת OpenAI. ראשי התיבות מייצגים את המילים Generative Pre-trained Transformer – כלי המייצר טקסט תוך שימוש באינפורמציה שנאגרה בתהליך אימון. לנו השם הזכיר את ג'פטו – הנגר שיצר את פינוקיו מכפיס עץ; אז השתמשנו ב־ChatGPT, המבוסס על GPT-4, ושאלנו אותו על הדמיון בינו לפינוקיו, והרי תשובתו:
ChatGPT ופינוקיו הם שני יצורים המתפתחים ומשנים את התנהגותם על ידי תהליך של למידת מכונה. ChatGPT משתמש באלגוריתמים וברשתות נוירונים עמוקות כדי ללמוד מהנתונים שהוזנו אליו ולייצר תגובות מתקדמות לפי הקלט שהוא מקבל. פינוקיו, בסיפור הילדים, הוא בובת עץ שמתפתח ומשנה את התנהגותו עם התקדמות הסיפור. גם פינוקיו וגם ChatGPT לומדים מהחוויות שלהם ומהתגובות שמקבלים וכך הם מצליחים להתפתח ליצורים "חכמים", אף על פי שהם לא אנשים.
לא נשמע מדהים שכך יענה מחשב?! במאמר שהתפרסם [1][2], חוקרים במיקרוסופט טוענים שהכלי מפגין ניצוצות של אינטליגנציה. כיצד הקסם עובד? הינטון מספר בראיון [3] שהבעיה בקשר לטכנולוגיית "למידה עמוקה" [4][5] המבוססת על רשתות עצביות היא שעד היום לא מובן למה בכלל היא מצליחה. בשנות ה־80 פעלו שתי אסכולות בתחום הבינה המלאכותית: אסכולת המיינסטרים, ולפיה הדרך ל־AI עוברת בהיגיון ובלוגיקה, והשיטה השנייה – רשתות עצביות, ששאבה השראה ממערכות ביולוגיות, ועליה עבד הצוות של הינטון. הצוות ביסס את התיאוריה על הרעיון שקשרים בין נוירונים במוח משתנים, וכי כך למידה מתבצעת. שיטה זו כשלה בשנות ה־80 – המחשבים לא היו די מהירים, ולא היו די נתונים – אך לבסוף היא הצליחה בגדול.
נדמה את הרשתות העצביות למשרד ענק, ובו שורות של שולחנות שלידם יושבים פקידים. הנתונים המספריים שנכנסים למשרד מגיעים לפקידים שבשורה האחרונה. כל פקיד (שמייצג יחידת מחשוב) מבצע פעולה פשוטה: לוקח נתון, מכפיל אותו במספר קבוע, הקרוי משקל, ומחבר את התוצאה עם תוצאות ההכפלה שביצעו כמה פקידים שכנים. ביחד אלה מפיקים תוצאות ביניים, ואלה יעברו לשולחנות בשורה הבאה – המייצגת שכבה נוספת ברשת. לפני המעבר לשורה הבאה, מתבצע סינון: תוצאה שלא תורמת לחישוב, למשל, מספר שלילי, תאופס. הפקידים שבשורה ("שכבה") הבאה מקבלים את תוצאות החישובים מהשורה הקודמת, מבצעים פעולות דומות בשימוש במשקלים אחרים, מעבירים תוצאות קדימה, וכך הלאה עד ליציאה. נראה די פשוט, אז מה הקסם?
הינטון סיפק הסבר אינטואיטיבי כיצד רשת כמו זו שיצרו הסטודנטים שלו ב־2012 וניצחה בתחרות זיהוי עצמים (אימאג'נט), מצליחה לזהות ציפור. בהינתן תמונה שמכילה פיקסלים, הרשת צריכה להוציא מספר המציין שהתמונה היא בסבירות גבוהה תמונה של ציפור. בשכבה הראשונה יזוהו תכונות בסיסיות: למשל, אם באזור מסוים בתמונה הפיקסלים שמימין כהים ואלו שמצד שמאל בהירים, אזי זה כנראה קו שפה אנכי, וערך מתאים יועבר ביציאה לשכבה הבאה. כנ"ל בנוגע לקווי שפה אופקיים ולזוויות שונות. בשכבה השנייה תכונות מורכבות יותר מזוהות, למשל: חיבור בין שני קווי שפה בזווית חדה, שיכול לרמז על מקור של ציפור, וכן קיומה של צורה מעגלית. בשכבה הבאה יובחן בכך שיש רצף בין העיגול לבין האובייקט שייתכן כי הוא מקור, וזה מעלה את ההסתברות לכך שמדובר בראש של ציפור. וכן הלאה וכן הלאה... כל זה נעשה רק באמצעות ביצוע הכפלות במשקלים מתאימים, סכימה, סינון הנתונים, והעברתם בין שכבות הרשת השונות.
כיצד אפשר למצוא אוטומטית את הערכים המתאימים למשקלים? לצורך זה נחוץ לאמן את הרשת: בתהליך זה מזינים לתוכה דוגמאות רבות של תמונות שתוכנן ידוע, ומציבים ערכים התחלתיים אקראיים למשקלים. בהתחלה, הרשת תניב תוצאות שגויות, למשל - תזהה חתול במקום ציפור. אולם באמצעות תהליך מורכב [6] שנקרא "back-propagation", ומצריך המוני חישובים, הרשת תשנה את המשקלים בהדרגה, עד שתגיע לצירוף משקלים שיקטין את מספר השגיאות. בשלב זה, הרשת תצליח לזהות גם את תוכנן של תמונות אחרות, שמציגות תוכן דומה.
ההצלחה של רשתות במטלות זיהוי תמונות הובילה מפתחים להשתמש בהן גם בתחומים אחרים, כמו יצירה אוטומטית של טקסט באמצעות מחשב. באפליקציות כאלו, למשל GPT, מאמנים את הרשת ליצור טקסט על ידי כך שמזינים אותה בכמות עצומה של משפטים שהמילה האחרונה שלהם הושמטה, ומורים לה לנסות לחזות מה המילה המתאימה. האימון נעשה על כמות עצומה של אינפורמציה מהרשת, תוך ביצוע חישובים רבים לתיקוני המשקלים [7]. ב־GPT-3 יש כ־175 מיליארד משקלים ו־96 שכבות, ובכל שכבה נעשים חישובים מורכבים למציאת הקשרים בין המילים ("self-attention") [4]. המעניין הוא שלחוקרים אין תאוריה מבוססת שמסבירה כיצד האימון מצליח והיכן האינפורמציה נשמרת, למשל מה הם המשקלים שתרמו לתובנה על הקשר שבין פינוקיו ללמידת מכונה.
אפשר לאמן את הרשת ביעילות באמצעות הרצת התוכנה במחשבים רבים בו־זמנית, כך שכל אחד מהם משתמש בחלק מהנתונים, ולבסוף התוצאות ממוזגות על ידי מיצוע המשקלים. כמות האנרגיה החשמלית הנצרכת בעת אימון כזה, המשתמש בהמוני מחשבים, היא אומנם עצומה, אבל בתום האימון אפשר לשתף את המידע על המשקלים בין כל משתמשי התוכנה. המוח שלנו, לעומת זאת, צנוע בהרבה: הוא לומד לבדו (לא יכול לשתף את תוכן מוחו עם מוחות של אחרים…), צורך לא יותר מ־30 ואט, וקצב קליטת החומר החדש (למשל בעת קריאת הפוסטים שלנו) שלו הוא איטי יחסית.
בהתחשב בכך, לדעת הינטון [8] ומומחים אחרים, סביר שבעתיד הלא רחוק יאפילו היכולות של כלים כאלה על אלה שלנו. הדבר מעמיד אפשרויות לתיעול יכולות שכאלה לטובת האנושות, למשל לפיתוחי רפואה, שימור הסביבה ועוד. אולם אותן יכולות מעוררות חששות לאובדן מקומות עבודה, לפגיעה בפרטיות ובזכויות יוצרים, ליצירת זיופים ומניפולציות, ובעיקר לחששות כבדים לכך שעבריינים, או אפילו התוכנה עצמה, ינצלו לרעה את יכולות אלה להשיג עוצמה ושליטה. חובה למצוא דרכים להתמודד עם איום זה!
ואולי השועל יפגוש שוב את פינוקיו, שגדל ונהיה החכם מכל אדם אולם נשאר תמים. השועל יוציא שוב את פינוקיו לתרבות רעה וישכנע אותו לשקר. ואז ג'פטו יכין להם מיליוני עותקים של פינוקיו – צבא טרולים – וזה ישתלט על העולם. האנשים שישרדו יישארו חסרי מעש, ולבסוף, כמו בסיפור, אולי תצמחנה להם אוזני חמור.
עריכה: יהונתן הופמן.
מקורות והרחבות
[2] יכולות GPT-4 – מאמר של חוקרים במיקרוסופט
[3] ראיון ל־CBS
[4] לדבר עם מכונה
[5] למידה עמוקה