טכנולוגיות קול ודיבור נמצאות עמנו כבר למעלה מ-30 שנה. למרבה הצער, שיעור האימוץ שלהם בקרב צרכני יכולות הדיבורבייחוד בתעשייה, היה תמיד נמוך. הסיבה לכך היא שמנועי זיהוי הדיבור השונים סבלו מחוסר אמינות ורמת דיוק נמוכה, אשר הפכו אותם ללא שימושיים. טכנולוגיית הקול העיקרית – זיהוי דיבור אוטומטי (ASR), משמשת לתמלול קול לטקסט. מדובר בטכנולוגיה עתירת מחשוב הדורשת כוח חישוב גדול ומשאבי זכרון לא מבוטלים על מנת לספק תוצאות טובות.
החדשות הטובות הן שטכנולוגיה זו ביצעה זינוק ענק קדימה בשנים האחרונות. זאת, הודות להתפתחות מהפכנית בתחום הבינה מלאכותית (AI) והלמידה החישובית (Machine Learning -ML). טכנולוגיות בינה מלאכותית מצידן, חבות את הצלחתן והתפשטותן המהירה לגידול בכוח החישובי שקיבלו מטכנולוגיית הענן. באמצעות כוח חישוב זה, כל רשתות המחשוב ה”עצביות” כגון DNN (deep neural networks), RNN (recurrent neural networks) ואחרות הנמצאות בבסיס טכנולוגיות הדיבור, הפכו לאפקטיביות ביותר ומספקות תוצאות טובות בהרבה.
כוח הענן, שיפר את הדיוק בזיהוי הדיבור, הנמדד בשיעור המילים השגויות (WER- word error rate), והינו כיום למעלה כ- 95%. אנליסטים סבורים כי רמת דיוק כזו תשנה את כללי המשחק. היא תאפשר פיתוח מוצרים אמינים לתעשייה ולצרכן הפרטי, ששיעור האימוץ שלהם יהיה גבוה. זוהי הסיבה מדוע כיום אנו רואים ועושים שימוש ביישומי קול המשולבים בפלטפורמות פופלאריות רבות.
הופעת טכנולוגיות בינה מלאכותית מבוססות ענן פתחה אופק חדש ליישומי קול – עיבוד דיבור ושפה. כעת, כשאנו נהנים מדיבור המתומלל בצורה מדויקת לטקסט, הצעד הבא הוא להבין את הסמנטיקה של השפה ובעקבות זאת, את הכוונה של הדובר. זוהי משימה המתאימה במיוחד לבינה מלאכותית. היא נקראת עיבוד של שפה טבעית (NLP) והבנה של שפה טבעית (NLU). באמצעות יכולות אלה, הקול משנה צורה והופך ל”קול חכם”. על מנת ליישם הבנה טבעית של השפה, מנצלת הטכנולוגיה בצורה אינטנסיבית למידה חישובית. מדובר בעוד חלק בטכנולוגיות הקול החכם הצורך כוח מחשוב רב, ומשאבי זכרון גדולים הזמינים שניהם בצורה נרחבת בסביבת ענן.
מרכיב מרכזי בטכנולוגיות הקול החכם הינו יכולת השיחה. במקרה שבפתרון או במוצר (מכשיר חכם או רכב חכם), המוח המלאכותי יכול להבין את הדיבור של המשתמש, יהיה אך טבעי עבורו גם להגיב למשתמש בדיבור מצידו ולאפשר חווית שיחה ורמת שיחה המקבחלה לממשק האנושי. זהו המקום בו משתלבת טכנולוגיית ניהול דיאלוג (DM) כחלק משיחה מבוססת בינה מלאכותית. חברת Onvego פיתחה פלטפורמת פיתוח ליישומים מבוססי דיבור הכוללת את כל המודולים הנ”ל (DM, NLU, ASR) בכלי פיתוח אחד
על פניו הדבר נראה כמו הפתרון האידיאלי המאפשר לטכנולוגיות לחיות יחדיו בשיתוף פעולה מושלם אולם יש גם מספר חסרונות לעבודה בענן. ראשית, כל כוח מחשוב מבוסס ענן עולה כסף. שנית, צריכת החשמל הגדולה של חוות שרתי ענן הפכה אותם למפעלים אמיתיים בתעשייה הדיגיטלית, הנזקקים לטכנולוגיות קירור זוללות אנרגיה. בנוסף, קיימת השהיה ברורה בתקשורת בהעברת מידע מיישומים ומכשירים מקומיים לענן, וחזרה. במקרים רבים, השהיה זו קריטית עבור יישומי זמן אמת.
חסרון מהותי נוסף של הענן נוגע לאבטחת המידע ובטיחותהמידע המועבר לענן לעיבוד. ביישומי קול ושפה במיוחד, הפכו ענייני בטיחות ופרטיות לפקטור משמעותי בהחלטה האם לעשות שימוש בשירותי ענן בכלל.
חסרונות אלה יחד עם הגידול בכוח המחשוב של מכשירים קטנים וניידים סביבנו, מחזיר את המיקוד אליהם. עיבוד פנימי בתוך המכשיר מכונה מחשוב קצה (Edge computing). ההגדרה המדוייקת למחשוב קצה בויקיפדיה הינה “פרדיגמת מחשוב מופצת המביאה את כוח המחשוב ואת אחסון המידע קרוב יותר למקום בו הם נדרשים”.
השאלה אם כן הופכת לכיצד לתפעל ביעילות את המכשירים החכמים הללו העושים שימוש בבינה מלאכותית. מתן יכולות קוגנטיביות לאובייקטים המקיפים אותנו בשגרה, מאפשר לתקשר איתם באמצעות דיבור, בצורה טבעית הזהה לאינטראקציה בין בני אדם. המשמעות היא שנוכל לדבר עם המכשירים שלנו באמצעות טכנולוגיית שיחה חופשית, שהינה ממשק המשתמש הטבעי והאפקטיבי ביותר לשליטה בעולם שמסביבנו.
מהפכת האינטרנט של הדברים (IoT), הביאה להכרה בכך שממשקי קול חכם יהיו יעילים מאד לשימוש במקומות רבים בעולם האינטרנט של הדברים. אנליסטים סבורים שבקרוב הקול באינטרנט של הדברים יהפוך ל”קול להכל”.
שימושיות ויעילות זו תוכל לעבודהיטב גם בסגמנטים רבים של industry 4.0 כגון ייצור, שינוע, לוגיסטיקה ועבור סגמנטים של צרכן הקצה כגון קמעונאות, בית חכם, בריאות ועוד. השימוש בקול חכם יהיה חיוני במיוחד במכשירים לבישים, מכשירם חכמים קטנים ללא ממשק מישוש, ובמקרים בהם שתי ידיי המשתמש תפוסות, כגון בעת נהיגה או בעת הפעלת מכונות או רובוטים תעשייתיים מתוחכמים.
דוגמא טובה למכשירים לבישים אלה הוא MyMe, מכשיר עזר קטן אותו חשפה OrCAM בתערוכת CES האחרונה לפני מספק שבועות. באמצעות יכולות עיבוד שפה טבעית מסייע המכשיר של OrCAM לאנשים עם מגבלות ראיה ושמיעה לנווט בקלות בשגרת היומיום.
כיום יש למעלה מ-8 מיליארד מכשיריIoT מחוברים. נסו לדמיין עולם עם 1 טריליון מכשירים מחוברים! ה- IoT נמצא על המסלול להגשמת חזון זה בעתיד, כשמרבית המכשירים נמצאים בקצה הרשת ומריצים משימות רבות עתירות כוח מחשוב. טכנולוגיות קול חכם ישרתו כאן היטב.
כדי לתקשר עם המשתמש באמצעות טכנולוגיות קול חכם, כל מכשיר או מכונה חכמה חייבים להיות בעלי יכולת לעבד קול ושפה בצורה אוטונומית המוטמעת בהם..
זוהי הסוגיה שמומחי טכנולוגיה מנסים לפתור. יש פתרונות המתבססים על שימוש בטכנולוגיות חומרה מתקדמותויש כאלה המתבססים על חדשנות או טיוב אלגוריתמי של העיבוד העצבי ברשת.
בין פתרונות החומרה הוצגו לאחרונה מספר פלטפורמות יעילות, עם תצורה (ארכיטקטורה) ייחודית שפותחה עבור עיבוד והאצת בינה מלאכותית. על מובילי מגמה טכנולוגית זו נמנים ענקי שוק כגוגל ואינטל. גם מיקרוסופט הצטרפה לאחרונה למירוץ ומציעה את פתרון GraphCore IPU. עם זאת, פתרונות אלה עדיין צורכים חשמל רב מדי כאשר הם מוטמעים במכשירים הקצה.
על מנת לתת מענה לצרכי עיבוד הקצה הציגה חברת GreenWaves את GAP8, מעבד יישומים שייעודו ניתוח בינה מלאכותית בקול, תמונה ורטט במכשירים ניידים המופעלים על ידי סוללה. המנוע של המעבד מאיץ את חישובי הממשק ברשתות עצביות מעורבות (CNNs) convolutional neural networks.
חברת הסטארט אפ Croq מציעה תצורה (ארכיטקטורה) חדשנית במוצר ה- Tensor Streaming Processor שלה, הפועל באפקטיביות רבה וצורך משאבי זכרון מינימליים. הביצועים שלו מהירים פי 4 מהמעבד הגרפי -GPU (graphic processing unit) המהיר ביותר של Nvidia, המובילה העולמית בעיבוד בינה מלאכותית בפלטפורמות חומרה.
לאחרונה צץ ענף חדש המתפתח במהירות בטכנולוגיות וביישומי הלמידה החישובית הנקרא tinyML, או למידה חישובית זעירה. תחום זה כולל חומרה, אלגוריתמים ותוכנה בעלת יכולות ניתוח מידע (קול, וידאו וביו-רפואי ) על המכשיר, תוך צריכת חשמל מינימלית (בטווח של mW ואף מתחת לזה) . טכנולוגיה זו מתאימה לתרחישים המחייבים זמינות מלאה (always-on) במכשירים ניידים הפועלים באמצעות סוללה. חומרת TinyML הופכת במהירות לטובה מספיק ליישומים תעשייתים רבים. דבר זה משקף את ההתקדמות העצומה שנעשתה בפיתוח אלגוריתמים, רשתות ומודלים של רשתות עצביות קטנות, הפועלות בטווחים של 100kB צריכת זיכרון ומטה.
על מנת לתת מענה לעיבוד בינה מלאכותית על מכשיר הקצה, חשפה גוגל את Coral, יוזמה חשאית שלה עד כה. Coral הינה פלטפורמה המשלבת רכיבי חומרה ותוכנה המסייעת לפתח מכשירים עם עיבוד מקומי של בינה מלאכותית – ומאיצה חומרה ברשתות עצביות על מכשירי הקצה.
המודול המרכזי בחומרה המוצג כאן הינו Google Edge TPU, שבב ASIC המותאם לעבודה אופטימלית על יישומי למידה חישובית קלים במכשירי IoT.
אנליסטים סבורים שלמעלה מ-750 מיליון שבבי ומחשבי בינה מלאכותית יימכרו בשנת 2020 ומספר זה יצמח ל-1.5 מיליארד בשנת 2024 (The Verge, 14 בינואר, 2020).
למרות הביצועים הגבוהים בניתוח AI על ידי מעבדי TPU ו-TSP זעירים המותאמים לעבודה בסביבת הקצה, אימוצם בתעשייה עשוי לקחת זמן. מרבית המעבדים משובצי המחשב (embedded) הקיימים כיום הם בתקן תצורת CPU או RISC. הפופולאריים שבהם הם משפחת מעבדי RISC ARM. פשטות תצורת מעבדי ARM מאפשרת הטמעה קטנה ביותר עם צריכת חשמל נמוכה. עובדה זו הופכת אותם לטובים מספיק להניע משימות חישוב קצה בעולם מערכות משובצות מחשב וה- IoT. משפחת המעבדים המתקדמים 64-bit Cortex של ARM מפגינים ביצועים מעולים ביישומים מוטמעים. מעבד ARM Cortex-A72 המפעיל את Raspberry Pi 4, הופך אותו לפלטפורמה בולטת למשימות הצורכות כוח מחשוב רב, הנדרשות בפיתוח רמקולים חכמים וסייענים קוליים, העובדים ללא קשר עם הענן.
לפני שנה, ARM, החברה המובילה בעולם במערכות מחשב משובצות, הציגה את Neoverse, תשתית cloud-to-edge אשר נועדה לתת מענה למציאות עתידית של 1 טריליון מכשירים חכמים, ומעניקה יכולת לבנות מוצרים המותחים את הענן אל סביבת הקצה. זו צפויה להיות תשתית בפריסה רחבה ביותר.
מחשוב קצה משלב טכנולוגיות ענן וטכנולוגיות בהתקנה מקומית (on-premises) במטרה לאפשר חוויית משתמש חדשה. עם זאת, הוא אינו צפוי להחליף את הענן. סביר יותר שהענן יתמוך, כאשר יהיה ישים, בסביבה החדשה החכמה של ה- IoT על מכשירי הקצה.
מגוון תצורות (ארכיטקטורות) הכוללות סיליקון, מערכת ותוכנה המופעלת על פלטפורמות קצה יהפכו בקרוב לנורמה. בין אם אלו יהיו תצורות TPU או RISC העושות שימוש בתוכנות לעיבוד בינה מלאכותית, הדבר מבטיח הטמעות של טכנולוגיות שיחה מבוססות בינה מלאכותית המורצות על הדור החדש של מכשירים משובצי מחשוב חכמים ו- IoT תעשייתי.
חברת Onvego פועלת בסביבה המחשובית היברידית ה-cloud-and-edge . היא מספקת פתרונות קול ושיחה חכמה מבוססי בינה מלאכותית.. פתרונות אלה מנצלים את משאבי ענן שלה – Onvego Cloud – לעיבוד דיבור ושפה טבעית. לצד הרצת הפתרונות שלה על פלטפורמות משובצות מחשב קטנות כגון Raspberry Pi ואחרות, החברה מספקת מגוון רחב של מוצרי קול ושיחה חכמה הטמעות בסביבת הקצה ללא ענן או משולבים עם ענן ללקוחות המעוניינים בשירותי קול עבור סקטורים כגון לוגיסטיקה תעשיית רכב , שרות לקוחות וגם ישומים ביטחוניים .