עולם הראייה הממוחשבת והגרפיקה עבר מהפכה במהלך העשור האחרון. התפתחות יכולות העיבוד הגרפיות של המחשבים מאפשרת היום לבצע חישובים מורכבים שעד כה נתקלו במגבלות החומרה. התפתחות זאת ופריצות דרך בשימוש ביכולות החומרה החדשות הביאו לעלייה משמעותית במספר החברות והמחקרים העוסקים בלמידה עמוקה למטרת עיבוד וניתוח תמונות. בנוסף, פיתוח חיישני עומק ומצלמות תלת ממד מדויקים, זולים ונגישים הביא לשיפור ביכולות עיבוד המידע התלת ממדי. נתאר כיצד עולם התלת ממד התפתח בעזרת שימוש במערכות לומדות.
הטכנולוגיה של למידה עמוקה הפכה לנגישה בעיקר בזכות ירידה בעלות ציוד המחשוב, והיא משמשת היום בתחומים רבים [1]: בשוק ההון, ברפואה, במערכת לומדות אשר מחשבות בדיוק רב את המבנה התלת ממדי של קיפול חלבונים [2], בניווט רכבים אוטונומיים ועוד. בה בעת לשיפור ביכולות המחשוב חל שיפור רב גם בדיוק ובאיכות חיישני מצלמות דיגיטליות וחיישני עומק, המכונים גם חיישני תלת ממד. חיישני עומק מסוגלים לייצר לנו מפה תלת ממדית של המרחב, בעוד מצלמה מייצרת מפה דו ממדית בלבד. הממד הנוסף מתאפשר בעזרת הבנת העומק, כלומר המרחק בין החיישן לבין העצם. שימוש במידע תלת ממדי מאפשר לעיתים לפתור בעיות שלא ניתן לפתור בעזרת תמונות בלבד, כמו למשל ניווט של כלי אוטונומי. במקרה זה הכלי, למשל רחפן, יצטרך לדעת את המרחק בינו לבין עצמים בסביבתו.
עם התפתחות השימוש בחיישני עומק התפתחו גם שיטות חישוב יעילות ומתקדמות לעיבוד המידע התלת ממדי. בשנת 2015 התפרסם מאמר בשם VoxNet שעסק בזיהוי עצמים תלת ממדיים בעזרת שימוש בווקסלים ולמידה עמוקה [3]. ווקסל הוא ההקבלה התלת ממדית לפיקסל, כאשר העולם מיוצג במערכת צירים תלת ממדית, וכל תא הוא קובייה בגודל יחידה בכל ציר. הקובייה מכילה חומר וצבע או שהיא ריקה, ומתוארת באנגלית כ- volumetric occupancy grid representation, כלומר תיאור העצם התלת ממדי מתבצע בעזרת אכלוס תאים. המידע הזמין לאימון ובחינת הרשת נוצר בשתי שיטות: מודלים תלת ממדיים ממוחשבים שכבר בפורמט הרצוי, וענני נקודות אשר עברו ווקסליזציה - כלומר המרה לווקסלים. ענני נקודות הם אוסף של נקודות תלת ממדיות המתארות מידע תלת ממדי. בשונה מווקסל הם מכילים ערכים רציפים במרחב ולא תאים בדידים בגודל יחידה [4].
בשנת 2017 התפרסם מאמר שהיה אחד מפורצי הדרך בעולם הלמידה בתלת ממד - PointNet. המאמר הציג שיטה לזיהוי וסיווג עצמים המיוצגים בעזרת ענני נקודות בלמידה עמוקה [5]. בשיטה זו, חישובי המערכת הלומדת מבוצעים ישירות על קואורדינטות הנקודות, כפי שבתמונות הן מחושבות על הפיקסלים עצמם. החידוש המשמעותי של PointNet היה בכך שהמידע המעובד הוא ענני נקודות בצורה ישירה, ללא המרה לשיטת ייצוג אחרת, כאשר הרשת לומדת לזהות את הקשרים שבין קואורדינטות הנקודות למטרת סיווג העצם. בשני המקרים, מטרת רשתות הנוירונים היא ללמוד את היחסים בין קבוצות קטנות של נקודות/תאים ולמצוא מהי הגיאומטריה המתאימה מבין מגוון הקטגוריות האפשריות - לדוגמה, לזהות האם הקימור הזה שייך למטוס או לאגרטל פרחים. ענני נקודות הם לרוב התוצר הישיר של שימוש בחיישן עומק, מכיוון שכל המרה בין שיטת ייצוג אחת לאחרת צורכת משאבים חישוביים, ולכן השימוש בענני נקודות בצורה ישירה מקל משמעותית על עיבוד המידע הגולמי עבור מערכת המעוניינת ללמוד מהמידע - כמו הרחפן המעוניין לנווט בסביבתו.
המאמר MeshWalker, שהתפרסם השנה ושנכתב על ידי חוקרים מהטכניון, סיווג מודלים תלת ממדיים המיוצגים בעזרת רשתות משולשים [6]. רשתות משולשים הן השיטה המובילה לייצוג מודלים להדפסה תלת ממדית, ויש לה שימושים רבים גם ביישומי גרפיקה למשחקי מחשב. השיטה מחלקת את מעטפת המודל התלת ממדי למשולשים, וכך, לפי גודל המשולשים, המודל יכול להיראות עדין ומדויק או גס עם פינות חדות. המאמר מסווג את המודלים בעזרת "הליכה" על גבי המודל. כלומר, בבחירת נקודה אקראית על קודקוד אחד המשולשים של המודל, והליכה לאורך המודל, ניתן לסווג אותו לקטגוריות שונות, לפי אורכי הצעדים והמסלול שבו צועדים ובעזרת שימוש בלמידה עמוקה לטובת למידת המסלולים. המידע הנלמד במקרה זה הוא המסלול שבו צועדים על גבי העצם, ועל ידי גיאומטריית ההליכה מתבצע סיווג העצם לקטגוריות שונות. נוכל לדמיין זאת כנסיעה בעיניים עצומות (כאשר אדם אחר נוהג במכונית כמובן) בשכונה מוכרת עד להגעה לפתח ביתנו. אנו יודעים כמה זמן לוקח לנו לעבור את המסלול ואנחנו מכירים את הצמתים בקרבת הבית, וכך, לפי המסלול, אנחנו מזהים שהתקרבנו הביתה גם בלי להביט דרך החלון.
שימוש נוסף: בעזרת לימוד מסלולי ההליכה על גבי מודלים ממוחשבים של פריטים מכניים ניתן לסווג חלקים ולהכריע אם הם מתאימים להדפסה תלת ממדית או לטכנולוגיות ייצור אחרות, על סמך הגיאומטריה שלהם בלבד.
הצגנו כמה שיטות פורצות דרך אשר משתמשות בלמידה עמוקה למטרת זיהוי עצמים במידע תלת ממדי. שיטות אלו מאפשרות התמצאות במרחב בצורה מדויקת יותר ולעיתים גם מהירה יותר, ויכולות לשמש גם בנהיגה אוטונומית, בניווט והימנעות ממכשולים, בסיווג עצמים להדפסה תלת ממדית ועוד.
קישורים וקריאה נוספת:
[1] כתבה בנושא למידה עמוקה, מתוך מדע גדול בקטנה
[2] כתבה בנושא AlphaFold, מתוך מדע גדול בקטנה
[4] כתבה בנושא ענני נקודות, מתוך מדע גדול בקטנה