במהלך היומיום אנו נתקלים בטכנולוגיה של ראייה ממוחשבת כל העת, למשל בפתיחה של הסמארטפון באמצעות זיהוי תווי פנים, במערכות בטיחות של מכוניות ובקניות בסופר עם עגלה חכמה. כאשר החסמים לאימוץ הטכנולוגיה פוחתים, תחומים רבים בתעשייה מיישמים אותה ביותר ויותר תרחישי שימוש
ראייה ממוחשבת (Computer Vision) הינה תחום יישומי במדעי המחשב שעוסק בניתוח אוטומטי של תמונות ושל וידאו, כאשר המטרה היא לחלץ תובנות מתוך דאטה. התובנות הללו נעות במנעד רחב של אפשרויות, כדוגמת זיהוי עצמים בתוך תמונה, סיווג תמונות לעצמים, חידוד תמונות מטושטשות, זיהוי פנים, סיווג פעולה שמתבצעת בווידאו ועוד. בנוסף, באמצעות שילוב בינה מלאכותית עם ראייה ממוחשבת ניתן לשנות סגנונות של תמונה קיימת ואף לייצר תמונות שלא היו קיימות בעבר בהתאם להוראות שונות.
במהלך היומיום אנו נתקלים בראייה ממוחשבת כל הזמן, למשל, בפתיחה של הסמארטפון באמצעות זיהוי תווי פנים, או פילטרים לתמונות באפליקציית המצלמה. גם חלק משואבי האבק הרובוטים הביתיים משתמשים בטכנולוגיה זו, כמו גם ביישומים של מערכות בטיחות של מכוניות, שמתריעים אם חרגנו מנתיב הנסיעה או אם אנחנו קרובים מדי לרכב שלפנינו. סינון תכנים ויזואלים ברשתות החברתיות, שערים אוטומטים של חניונים הקוראים את לוחית הרישוי ועוד ועוד – כל אלו משתמשים בראייה ממוחשבת.
אפילו כחלק מפעולה יומיומית כמו קניות בסופר באמצעות עגלה חכמה ישנו שימוש רב בטכנולוגיה של ראייה ממוחשבת. ראשית, העגלה החכמה נדרשת להבחין בין פעולות של הוספה או הסרה של מוצרים מהעגלה לבין פעולות סרק. לצורך כך, עושים שימוש בניתוח זרם וידאו חי ממצלמות המחוברות לעגלה וניתוח מהיר ויעיל של המידע. הכל נעשה באופן אנונימי, ללא זיהוי פנים כמובן. בנוסף, כאשר מדובר בפעולה של הוספה או הסרה של מוצר יש לזהות מהו המוצר. זיהוי המוצר נדרש להיות מדוייק, אין די בזיהוי “חלב” אלא לציין כי מדובר בחלב בקרטון של חברה ספציפית, עם מספר קטלוגי מסוים של המוצר. יכולת סיווג הפעולות וחילוץ המוצר הינה מורכבת ונשענת על טכנולוגיה של ראייה ממוחשבת.
בחודשים האחרונים, התחום של ראייה ממוחשבת התפתח לכיוונים חדשים ומעניינים והפריצה של תחום זה לכל תחומי החיים מייצרת אתגרים רבים: היות שמצלמות מפוזרות בכל מקום ויכולת הניתוח וההבנה של הסצנה הוויזאולית הולכת ומשתכללת, נשאלות שאלות על פרטיות המשתמשים, וגבולות המותר והאסור בתחום. בנוסף, הקושי בלהבחין בין זיוף לאמת, כלומר בין תוצר ויזואלי אמיתי וכזה של בינה מלאכותית מעורר שאלות אתיות רבות. מעבר לאתגרים אלו, קיימים כמובן גם אתגרים טכנולוגיים בעולם הראייה הממוחשבת: היכולת להאיץ את הניתוח, להתמודד עם שינויים בסביבה הויזואלית ולהתעדכן תוך כדי ריצה.
לפי Global Data שוק הראייה הממוחשבת צפוי לצמוח מ-17.73 מיליארד דולר ב-2023 ל-30.3 מיליארד דולר ב-2026, ואין כל ספק שבעתיד הקרוב נראה שיפור בכל התחומים של הטכנולוגיה. למשל, רמות הדיוק של מסווג תמונות ישתפר כל כך עד שיגיע לרמות שגיאה זניחות ביותר. מעבר לכך סוגי האלגוריתמים שמייצרים לנו תמונות או סרטוני וידאו שלא היו קיימים, פותחים עולם חדש למגוון רחב של יישומים. דמיינו למשל את האפשרות שמתרשים אדריכלי פשוט על דף נייר ומתמונה שצולמה עם אייפון ניתן יהיה לייצר מודל תלת ממדי של מבנה.
למרות שזה לא נראה כך, התחום הזה איננו תחום חדש, ועוסקים בו עשרות שנים. יחד עם זאת, השיטות בהן משתמשים בטכנולוגית ראייה ממוחשבת השתכללו מאוד. אם בעבר הניתוחים נעשו באמצעות אלגוריתמים פיזיקאלים, היום יש שימוש ניכר ברשתות עמוקות שעושות שימוש נרחב בלמידת מכונה ובבינה מלאכותית. בהתאם, אופי היישומים הלך והשתכלל, וכן רמות הדיוק והיכולות משתפרות כל הזמן. אף על פי כן, יש מקום רב להתפתחות, הן בשיפור רמות הדיוק והיכולות של הטכנולוגיות הקיימות והן בהצעת שימושים מקוריים וחדשניים לראייה ממוחשבת.
כאשר החסמים לאימוץ הטכנולוגיה פוחתים, תחומים רבים בתעשייה מיישמים את טכנולוגיית הראייה הממוחשבת ביותר ויותר תרחישי שימוש. ככל שהאלגוריתמים של הבינה המלאכותית העומדים בבסיס פתרונות הראייה הממוחשבת הופכים לחזקים יותר, היכולת של מערכות CV לזהות עצמים ופנים רק תלך ותשתפר. אנו רואים גם התפתחות של מודלים ושיטות חדשניות לעיבוד תמונה במערכות ראייה ממוחשבת. חיבור נתונים חזותיים עם נתונים ממקורות אחרים מעשיר את ההקשר הרחב וההבנה של אירועים, ופתרונות של ראייה ממוחשבת יכולים להבין ולחלץ תובנות מסצנה שלמה בהקשר רחב יותר, ולא רק מקטעים נבחרים. בשלות זו של הטכנולוגיה תאפשר פרשנות וניתוח מדויקים יותר, קבלת החלטות משופרת ויעילות רבה יותר במצבים מורכבים המשתנים במהירות.
המכשיר של שופיק שהופך כל עגלת קניות לעגלה חכמה. קרדיט: Shopic