
למידה מחיזוקים (Reinforcement Learning [1]) היא תחום חשוב בבינה מלאכותית. יש לה שימושים מגוונים, למשל אימון כלי רכב אוטונומיים ואפילו אימון מודלי שפה גדולים. כל זה יפה בתיאוריה, אולם מה קורה כאשר חוקר בכיר בתחום נחטף על ידי חייזרים שזורקים אותו לתוך מבוך? האם יצליח לנווט את דרכו ולמצוא גבינה, וכיצד תוכל לסייע לו חולדה שיפגוש? נספר על אלגוריתם בשם “Q-learning” באמצעות קטע שנכתב בסדנת כתיבה, ונדגים את שלבי האלגוריתם גם באמצעות אפליקציה.
נכתב בשיתוף משתתפי סדנת הכתיבה של איטו אבירם בספריית יד לבנים, חיפה.
שמעו סיפור. דודו, חוקר בכיר בתחום למידה מחיזוקים, נחטף על ידי חייזרים מגלקסייה אחרת, שהם למעשה עכברים לבנים, אבל חכמים מאוד ורשעים. הם התעצבנו מזה שהוא מטרטר את עכברי המעבדה האפורים והחליטו להענישו ולהשתעשע בו כמו במשחק מחשב. הם השליכו אותו למבוך ענק, נתנו לו 200 נקודות ("מנת אנרגיה"), ואיחלו לו דרך צלחה. המבוך בנוי ככוורת עם חדרים ריבועיים בעלי ארבע דלתות, דלת לכל כיוון, אולם חלקן חסומות. רוב החדרים ריקים, אולם בחלקם יש שולחן ועליו צלחת גבינות. העכברים ציינו שכל מעבר בין חדרים מוריד נקודה ("שורף מנת אנרגיה"), וכניסה לחדר עם גבינות מעניקה 20 נקודות ("תוספת אנרגיה") ודגלון הוקרה ממנהלת הגלקסייה.
תחילה נזרק דודו לחדר חשוך וטחוב, ושם נתקל בחולדה. תחילה נבהל, אבל החולדה, שהציגה עצמה בשם קטיה, הרגיעה אותו: היא נמלטה מחדר "101", חדר העינויים הראשי של אוקיאניה [3], כי נמאס לה לנגוס באוזניים של עצורים מסכנים, והיא מוכנה לעזור לו.
"אני חייב למצוא את כל הגבינות!" קרא דודו, ספק לעצמו ספק לקטיה, פליטת "האח הגדול". הוא פתח את הדלת מימין והציץ לתוך חדר ריק. מייד כשפסע לתוכו, הכריז קול מתכתי: "ירדה נקודה, יש לך 199 נקודות". דודו המשיך לפתוח דלתות ולעבור בין חדרים ריקים בלוויית קטיה שישבה על כתפיו, ובכל מעבר איבד נקודה. כעבור כ־10 חדרים, פתח דלת ובחדר התגלה לעיניו שולחן ועליו צלחת גדולה עם גבינות. דודו נכנס בהתרגשות, והקול המתכתי הכריז: "ירדה נקודה, אבל קיבלת 20 נקודות – תוספת אנרגיה!" קטיה זינקה על השולחן ושניהם החלו לזלול את הגבינות, מתלהבים בעיקר מהרוקפור שנשאה עובש כחול. דודו דחף לכיסו דגלון מוזהב, אות ההצטיינות ממנהלת הגלקסייה.
"צריכים להמשיך לזוז!" קרא דודו.
"לאן אתה ממהר?" שאלה קטיה ברוגע.
"למצוא עוד חדרי אוכל, לטעום גבינות אחרות, לאסוף עוד דגלונים".
"יש כאן מספיק אוכל, ואני יכולה להכין ארוחת גורמה".
דודו הביט בה בתמיהה והיא המשיכה:
"ודאי שמעת על רמי העכברוש, גיבור הסרט 'רטטוי'. חבר שלי. אני זו שלימדה אותו לבשל!"
דודו התעקש, וקטיה, שלא ראתה בן אנוש כבר 50 שנה, מאז שהפסיקה לנשוך תנוכי אוזניים, חשה את כובד בדידותה. חוץ מזה הייתה לה תחושה שהיא עתידה להציל את דודו.
"בסדר בן אנוש, אבוא איתך, אבל איך אתה חושב לנווט במבוך?"
דודו, שהיה מרצה באוניברסיטה בקורס "למידה מחיזוקים", שמח על השאלה שהשיבה לו את ביטחונו. הוא מצא בכיסו טוש שחור, ואמר: "קטיה, אנחנו נשתמש בשיטה הקרויה Q-learning. על כל דלת נכתוב את הרווח המקסימלי שנוכל להשיג אם נעבור דרכה, מה שקרוי ערך Q. למשל על הדלת הפתוחה שהובילה לחדר האוכל, נרשום בצד החיצוני Q=19, כך שאם נגיע בעתיד לחדר הצמוד לחדר האוכל, ונראה על הדלת "19", נדע שנוכל להרוויח 19 נקודות אם נעבור דרכה.
בשעה שניסו לעזוב את חדר האוכל, זרקו אותם העכברים הלבנים לחדר מרוחק. דודו וקטיה שוב פתחו דלתות באקראי ועברו בין חדרים ריקים. לאחר מספר ניסיונות, פתח דודו דלת, הציץ על שלוש הדלתות בחדר הסמוך, והבחין במספר 19 הרשום בטוש שחור על הדלת משמאל.
"היי קטיה, זה מה שרשמתי קודם!" צהל דודו. "אז ארשום על הדלת שהרגע פתחנו '18'. זה במרחק שני חדרים מחדר האוכל שמעניק 20 נקודות, ואם נגיע לכאן בעתיד נדע לאן כדאי לפנות!"
כך נמשך השיטוט האקראי תוך כדי סימון מספרים. בכל פעם שנכנסו לחדר חדש, היו פותחים במקצת את שלוש הדלתות ומציצים לחדרים המחוברים. לעיתים הבחינו במספרי Q שונים על שלוש הדלתות, ואז כתבו על הדלת הפתוחה את הערך המקסימלי מביניהם פחות אחד, שזה הרווח הגדול ביותר שישיגו באותו שלב, אם יחליטו להיכנס דרך הדלת. "זה החלק המרכזי בשיטה!" הסביר דודו בחגיגיות.
בטנה של קטיה החלה לקרקר ונמאס לה לשוטט. "בשביל מה צריך לחקור עוד ועוד? בוא ננסה למצוא לפי Q את הדרך לחדר האוכל, ננצל את מה שהשגנו ונלך לישון".
"עוד לא", אמר דודו שפנטז על דגלונים, "יש עוד הרבה הזדמנויות".
קטיה כעסה ולטשה עין לעבר תנוך אוזנו של דודו, חושבת אולי להעניק לו נשיכה הגונה. לבסוף, לאחר ויכוח קצר הסכימו על פשרה: בכל מעבר חדר יחליטו בהסתברות שהוסכמה מראש (למשל שישית) אם להמשיך באופן אקראי או ללכת לפי Q. לשם כך, הם השתמשו בקובייה שדודו זרק. כאשר יצא הערך "1" (בהסתברות שישית) בחרו אקראית את החדר הבא, ובשאר המקרים המשיכו לפי Q מקסימלי, במטרה להתקרב לחדר אוכל מוכר.
"את יודעת קטיה", הרצה לה דודו, "שיטה זו היא הבסיס ללמידה מחיזוקים, שיטה בבינה מלאכותית שמשתמשים בה למשל בתנועה רובוטית, או כדי לנצח סינים במשחק GO. צריך למצוא איזון בין שאיפה לחקירה חדשה (exploration) ובין ניצול מה שהשגנו עד כה (exploitation). ההחלטה באיזו מידה נשתמש במהלך אקראי קובעת עד כמה נהיה נועזים בחיפוש אחרי גבינה חדשה".
לפתע נשמע קול צורם ברמקול: "דודו, זמנך עבר. אתה עובר למבוך גדול יותר".
דודו וקטיה נזרקו למבוך ענק בצורת כוורת, בגודל מיליון על מיליון חדרים. דודו נראה מיואש: "איך נסתדר עם מבוך כזה? אי אפשר לשוטט ולסמן כל כך הרבה, וגם הטוש השחור נגמר".
"אני חושבת שאוכל לעזור", אמרה קטיה בשקט. "אני משוטטת כאן כבר שנים, ולמרות שאני לא זוכרת מסלולים, פיתחתי אינטואיציה. המבוך לא לגמרי אקראי, יש אזורים שיש בהם חדרי אוכל רבים יותר, ואני מרגישה אותם".
דודו הסכים ונתן לחולדה להוביל אותו. ובאמת, קטיה הצליחה היטב וכיסיו התמלאו בשפע דגלוני הצטיינות.
בערב, על פלטת גבינות עשירה בחדר האוכל, הרהר דודו בקול: "את יודעת קטיה, יש דמיון מסוים בין הדרך שלך לרשת עצבית בטכנולוגיית למידה עמוקה [3] שמנסה לחקות פעולת מוח. משתמשים בה גם בלמידה מחיזוקים, שם הרשת לומדת משיטוטיה: נותנים לה לנסות מצבים רבים. אומנם היא לא זוכרת כל מצב, כי בדרך כלל יש יותר מדי מצבים, אולם היא מזהה ושומרת דפוסים מסוימים באופן שעדיין אינו מובן לגמרי לחוקרים, מעין סוג של אינטואיציה".
קטיה לא ענתה. היא הייתה עסוקה בבישול רטטוי גבינה, שהוא גרסה של רטטוי קלאסי – תבשיל ירקות מסורתי שמקורו באזור פרובנס שבדרום צרפת, המבושל ברוטב מיץ עגבניות ועשבי תיבול. בגרסה זו משתמשים בדרך כלל בגבינת מוצרלה המעשירה את הטעם.
אם גם אתם מבקשים לאתגר את דודו וקטיה במבוך שתבנו עבורם, הכנו עבורכם אפליקציה [4].
עריכה: שיר רוזנבלום-מן
-----------------------------------------------------------------------------------------
מקורות
[1] למידה מחיזוקים - חזק חזק ונתחזק - מדע גדול, בקטנה : מדע גדול
[2] אסוציאציה מהספר 1984 של ג'ורג' אורוול
[3] למידה עמוקה
[4] למידה מחיזוקים - האפליקציה