לפי חוקרים עתידה של טכנולוגיית "למידה עמוקה" לוט בערפל
כולנו מתפעלים מההצלחות של מערכות למידה עמוקה. הן משמשות, למשל, כדי לתרגם בין שפות, לזהות אנשים בתמונות, לנתח סריקות רפואיות וכדי לנצח במשחקים מורכבים כמו GO. הרבה חברות בארץ, כולל חברות הזנק, מסתמכות על השימוש בטכנולוגיה זו. אולם קצב הגידול בעלויות של הכנת מערכות כאלה לפעולה (בתהליך הקרוי אימון) גבוה מקצב השיפורים, מה שעלול להטיל צל קודר על עתיד הטכנולוגיה. במאמר [1] ובכתבה שפורסמה לאחרונה בעיתון ספקטרום [2] מתארים המחברים את הבעיה ואת השלכותיה.
ניתן לדמות מערכת כזאת, הקרויה גם "רשת נוירונים עמוקה", למשרד שבו יושבים פקידים (= יחידות חישוב) בשורות [3]. כל פקיד מקבל נתונים מכמה פקידים שבשורה שמאחוריו, עושה עליהם חישובים ומעביר את התוצאה לכמה פקידים שבשורה שלפניו, וכך הלאה. הנתונים מוכנסים בכניסה למשרד, למשל פיקסלים המרכיבים תמונה, וביציאה ממנו יוצא מספר המציין מהי ההסתברות שהתמונה היא של חתול (ולא כלב למשל). לצורך חישוביו, כל פקיד משתמש בסט של פרמטרים שערכם נקבע בשלב מוקדם יותר באמצעות תהליך האימון. בתהליך זה מכניסים למשרד סט של תמונות, הנקראות נתוני אימון, שתוכנן ידוע (למשל כלבים וחתולים), וקובעים את ערך הפרמטרים בתהליך מורכב, כך שהשגיאה, דהיינו מספר הפעמים שהמערכת טועה בחיזוי, תהיה קטנה ככל הניתן. לדוגמה, מערכת זיהוי התמונה "Noisy Student" מנסה לזהות מהו האובייקט שבתמונה, ועושה זאת באמצעות רשת עם 480 מיליון פרמטרים ובאמצעות 1.2 מיליון תמונות, שהן נתוני האימון!
למידה עמוקה הוצעה כבר ב-1958, אך כיוון שהיא דרשה כוח חישובי חזק יותר ממה שהיה זמין אז, היא התפתחה רק בשנים האחרונות עם הזמינות של חומרה מתאימה (למשל [4]: רשת AlexNet). שיטות מוקדמות יותר לאינטליגנציה מלאכותית השתמשו בסט של חוקים ואלגוריתמים שהוזנו לתוכנה על ידי מומחים. למשל, בעבר תרגום אוטומטי בין שפות נעשה בתוכנה שבה השתמשו בכללים קבועים שהוזנו על ידי מומחי דקדוק, ובהמשך באמצעות אלגוריתמים סטטיסטיים. כיום התרגום נעשה כולו באמצעות למידה עמוקה. כמה ממכריי שעסקו בעבר באלגוריתמים ועשו הסבה ללמידה עמוקה, מספרים שכיום הם מרגישים כמו שרברבים: רוב הזמן הם מחברים "צינורות" ברשת, מווסתים את עוצמת הברזים, ובעיקר דואגים שלא יהיו סתימות ב"צינורות" המובילים לזיכרונות.
לטכנולוגיה זו יש מחיר כלכלי וסביבתי גבוה, והבעיה מצויה בעיקר במקומות שהיא כבר הצליחה בהם, למשל בזיהוי תמונות, והמתכננים מתבקשים להציג שיפורי ביצועים עבור הדור הבא. החוקרים ניסו להעריך מה יהיה הגידול בכמות החישובים כדי להקטין את השגיאה בחיזוי פי k. (דוגמה עבור k=2: הקטנת שיעור המקרים שבהם חתולים מסווגים בטעות ככלבים מ-8% ל-4%). לפי ניתוח סטטיסטי השגיאה, דהיינו סטיית התקן, פרופורציונית לאחד חלקי שורש גודל המדגם, ולכן כדי להקטין שגיאה פי k, נצטרך פי k^2 נתוני אימון. להערכת החוקרים נצטרך גם פי k^2 פרמטרים, ולכן כמות החישובים שהפקידים יצטרכו לעסוק בהם תגדל לפחות פי k^4. מדידות בשטח גילו שהמצב חמור בהרבה, וכמות החישובים בשלב האימון המורכב עלתה פי k^9 לפחות. כלומר, הקטנת השגיאה פי שניים מחייבת יותר מפי 500 חישובים.
החוקרים העריכו שהקטנת שגיאה בזיהוי תמונות בכ-5% תצריך 19^10 מיליארד פעולות נומריות, שעלותן כ-100 מיליארד דולר, ותגביר את צריכת החשמל במידה שמשתווה לפליטת פחמן חודשית של העיר ניו־יורק - בקיצור, לא מעשי. החוקרים הדגימו את הבעיה בתחום נושא זיהוי תמונות, אולם היא צפויה להופיע גם בתחומים אחרים בלמידה עמוקה.
אם כך, לנוכח העלויות הכלכליות הגדולות בשלב האימון, נצטרך למצוא דרכים לשפר את הביצועים בלי להגדיל את דרישות המחשוב מעל ומעבר. כיום נעשים מאמצים רבים להתמודד עם האתגר הזה, כולל פיתוח מעבדים אופטימליים לפעולת האימון ויישום שיטות פעולה חדשות. אולי בעתיד אף יחזרו האלגוריתמאים האנושיים להשתמש בידע ובניסיון שלהם כדי לפתח שיטות חדישות לפתרון בעיות אלה?
עריכה: גליה הלוי שדה
למקורות ולהרחבות:
[1] מאמר מדעי
[2] כתבה בספקטרום
[3] למידה עמוקה - פוסט של מדע גדול בקטנה
[4] רשת AlexNet