הבנת תלת מימד ברובוטיקה זעירה – חיישנים מול בינה מלאכותית

מאמר זה עוסק באתגר הטכנולוגי הבא: כיצד נתכנן פלטפורמה של רחפן זעיר בעל יכולת טיסה אוטונומית בסביבה מלאת מכשולים. במילים אחרות ננסה להתחקות אחר היכולות של ציפורים קטנות או עטלפים (וכן חרקים מעופפים) שיכולים לנוע במהירות בתוך חורשה או יער צפוף מבלי לפגוע במכשולים.

 גרסאות שונות של הבעיה הזו העסיקו חוקרים רבים בתחום הרובוטיקה, הבקרה, ותכנון המסלול. בעבר חלק נכבד מהמחקר התמקד בפיתוח חיישנים ובפרט חיישני עומק שמאפשרים להבין את ״הסביבה הגיאומטרית״ באזור הרובוט (הרחפן). חיישני העומק הנפוצים כוללים: מדי מרחק, מצלמות סטראו, וחיישני לידר (לייזר).

איור 1: מציג דוגמא של הבנת הסביבה הגיאומטרית הקרובה כפי שהיא מזוהה ע״י חיישן Kinect של קונסולת המשחק בעל מצלמת עומק. קרדיט: Matthew Fisher

איור 1: מציג דוגמא של הבנת הסביבה הגיאומטרית הקרובה כפי שהיא מזוהה ע״י חיישן Kinect שמחשב עומק לכל פיקסל – פותח עבור קונסולת המשחקים xbox360.

היכולת להבין את הסביבה בזמן אמת אפשרה לפתח תחומים נוספים ברובוטיקה לרבות מיפוי והתמצאות (ניווט) בזמן אמת (SLAM: Simultaneous Localization and Mapping), שיטות אילו מבוססות על ״הבנת״ התנועה העצמית של הרובוט בעזרת ניתוח השינויים סביבה, וכתוצאה מכך מיפוי הסביבה – למעשה מדובר בשני תהליכים שמזינים זה את זה: מיפוי הסביבה מאפשר לרובוט לנתח את התנועה העצמית שלו והבנת התנועה העצמית מאפשר מיפוי הסביבה. התחום של הרכבים האוטונומיים מהווה קטר משמעותי בפיתוח חיישנים שונים לזיהוי הסביבה, כאשר ברכבים אוטונומיים הדגש הוא לרוב על אמינות וההתאמה לסביבת הרכב, כאשר חברת רכב אוטונומי כמו Waymo (גוגל) עושה שימוש בחיישנים מורכבים ויקרים (בפרט חיישני לידר ארוכי טווח), בעוד שחברת טסלה מתמקדות בשימוש במצלמות הרכב כדי להצליח להבין את הסביבה ולתכנן את בקרת הרכב בהתאם.

מהפכת הבינה המלאכותית מאפשרת היום לרכבים אוטונומיים לנתח את הסביבה ברמת אמינות ודיוק חסרת תקדים כל זאת לא בזכות מצלמות משופרות אלא בראש ובראשונה שיפורים דרמטיים שהתרחשו בעשור האחרון בתחום למידת מוכנה על הוידאו. בשנים האחרונות חברת טסלה הודיעה שהיא מוחקת חלק גדול מהקוד והאלגוריתמים שהיא פתחה עבור ה״נהג האוטונומי״ ומחליפה את האלגוריתמים ברשת EndToEnd משמע, הנהיגה האוטונומית מבוצעת ע״י רשת בינה מלאכותית אחודה שמקבלת קלט ממצלמות הרכב ופולטת פקודות ניהוג להגה, ולגז ולבלמים. כדי להצליח לאמן את הרשת של ״הנהג האוטונומי״ חברת טסלה פיתחה מערך חסר תקדים לאיסוף מידע, למעשה מיליוני רכבי טסלה אוספים באופן רציף מידע לגבי מצב הכביש ואופן הנהיגה ומעלים זאת לשרתי החברה, אשר מחזיקה מערך למידת מכונה (ברמה מדינתית +) שמאפשר לנתח וללמוד ממיליוני קטעי ווידאו ,למתעניינים חפשו Tesla_Dojo.

אבל אנחנו לא טסלה, ואנו מעוניינים להצליח לפתח רחפן שידע לטוס בין ״מכשולים״ “לא מוכרים” באופן פשוט ואמין, חברת הרחפנים (המסחריים) SkyDio פיתחה רחפן בעל ריבוי מצלמות סטראו (לגרסה המקורית היו שלוש מצלמות תחתיות ו 3 עיליות) כך שבכל נקודת זמן כל נקודה במרחב תכוסה ע״י לפחות שתי מצלמות ובעזרת מאיצי חישוב ואלגוריתמים יעילים מאוד, הרחפן הצליח למפות את סביבתו בזמן אמת, לזהות מכשולים ולעקוף אותם תוך כדי טיסה. למרות ההצלחה הטכנולוגית, החברה לא הצליחה עסקית בפרט בגלל עלות הפיתוח, ומורכבות היצור של רחפנים כנ״ל.

גישה פשוטה יותר הועלתה ע״י חברת DJI שמתמחה אף היא בתכנון וייצור רחפנים מסחריים – לאחרונה החברה החלה למכור דגם של רחפן ללא שלט בעלות של 200$ בו פועלת מערכת בינה מלאכותית שיודעת לטוס בלי להיתקע במכשולים – בעזרת השיטה הבאה: המטיס מסמן לרחפן את האובייקט שהרחפן אמור לעקוב אחריו (נניח לצורך הפשטות – המטיס עצמו) כל עוד הרחפן מצליח לזהות את המטרה שלו – הוא יכול לעקוב אחריה, וברגע שהמטרה נעלמת לרחפן – הוא פשוט עוצר עד שהיא חוזרת לתחום הראייה של הרחפן – גישה פשטנית זו היא מספקת לבלוגרים וחובבי צילום רבים שבעיקר מעוניינים בעקיבה רציפה אחר אובייקט בתנועה.

אבל אנחנו מתעקשים, אנו מעוניינים בפיתוח פלטפורמה פשוטה וקלה שתטוס ביער ולא תעקוב אחרי אובייקט היודע בעצמו להתחמק ממכשולים. לצורך כך נזדקק לרשת בינה מלאכותית שבין השאר אומנה בעזרת חוקרים מחברת TikTok, בשנה האחרונה פורסמו מספר מאמרים שמציגים יכולת מעולה של ניתוח עומק בזמן אמת מתמונה יחידה (ראו איור 2), למעשה בעזרת מעבד של טלפן חכם (ואף הרבה פחות מכך) ניתן להריץ רשת שיודעת לקחת את הפלט של מצלמת ווידאו ולהבין את העומק (המרחק היחסי) של כל פיקסל בתמונה מהמצלמה. לפיכך החיישן היחיד שהרחפן שלנו יצטרך הוא למעשה מצלמה (אשר לפי הצורך תיעזר בפלאש כדי להאיר את הסביבה החשוכה). ניתוח העומק של הרשת יאפשר לרחפן למפות בזמן אמת כיוונים ״ניתנים לטיסה״ וכיוונים בהם יש מכשולים (ולפיכך שאינם ניתנים לטיסה). לדוגמא באיור 2:  ברור שמרכז הרכב הוא לא ״כיוון טוב״ אבל מעליו או מצדדיו בהחלט ניתן לטוס. נשים לב שגישה זו אינה תלויה (כמעט) בתנועה של הסביבה, משמע היא יכולה לעבוד גם בסביבה דינאמית שכן הערכת העומק מתבצעת על כל תמונה בנפרד ולא בעזרת מיפוי שמבוסס על ניתוח ווידאו והנחת סטטיות של הסביבה.

במסגרת מחקר שמתבצע באונ׳ אריאל, הודגמה יכולת של רובוטים ורחפנים לנוע ביעילות בסביבה לא מוכרת תוך מעקף מכשולים. הניסויים בוצעו תחילה בסביבה סימולטיבית שפותחה ע״י המאסטרנטית נעמי צברי, בהמשך ביצועי הרשת שופרו (ע״י המסטרנט שובל זיידמן) כדי לאפשר הרצה של הרשת ע״ג מחשב משימה זעיר של רחפן, אשר הצליח לטוס בסביבות מאתגרות של עצים ומכשולים דינמיים. חוק הבקרה של הרחפן הוא פשוט יחסית: בהינתן תמונה, הפק ממנה תמונת עומק, סנן את העומק מהתמונה לכיוונים אפשריים לטיסה וכאלו שמהווים מכשול, בחר כיוון עם ״אופק רחוק״ (אם לא קיים כזה תעמוד במקום ותסתובב ״אחורה״ עד שתמצא כיוון). לאחר שנמצא הכיוון המתאים התכוונן לשם והתאם את המהירות למרחק האופייני, לאחר מכן קבל את התמונה הבאה וכן הלאה.

 במהלך ניסויי הטיסה האחרונים עם הרחפן, נתקלנו ב״באג מעניין״. הרחפן מנתח עומק לפי תמונת העומק שהוא מפיק, ולפיכך תמונה של ״מרחבים״ נראה לרחפן ככיוון נכון לטוס אליו גם כאשר התמונה היא למעשה ״עומק מלאכותי״ שמקורה בסרטון במסך הטלוויזיה.

איור 2, צד ימין (קרדיט: Alex Villabon): תמונה שצולמה עם סנוור די משמעותי. צד שמאל: ניתוח עומק של התמונה בעזרת הרשת  Depth Anything v2 (של חברת TikTok) שמציגה יכולת זיהוי עומק מעולה – ראו למשל את היכולת של המערכת לזהות את האדם שרוכן מחוץ לרכב.

סיכום: באופן מפתיע, חברת TikTok שהיתה מעוניינת לשפר את יכולת כיוונון הפוקוס של הווידאו באפליקציה שלה, פיתחה רשת בינה מלאכותית שעשתה שימוש בכמויות האדירות של תמונות כדי ללמוד להבין את העומק מתוך תמונות דו ממדיות. רשת זו, מאפשרת לפתח רובוטים ורחפנים שעושים שימוש במצלמה יחידה כדי להפיק תובנות עומק שמאפשרות חוק בקרה פשוט יחסית כדי לאפשר תנועה אוטונומית עוקפת מכשולים בסביבות מורכבות.


בעז בן משה, המעבדה לקינמטיקה וגיאומטריה חישובית, בית הספר למדעי המחשב, אונ׳ אריאל

תגובות סגורות