זיהוי דיבור בשיחה עשוי להיות יותר קרוב למציאות מאשר חשבתם

בית » New-Tech Magazine » זיהוי דיבור בשיחה עשוי להיות יותר קרוב למציאות מאשר חשבתם

כמה שיכול היה להיות נפלא: אתה עולה לראשונה למכונית השכורה שלך, זהו יום קיץ לוהט, אתה עייף ולא בא לך לשחק עם שורה של לחצנים וכפתורים לא מוכרים. כל מה שעליך לומר הוא: “אוף, חם פה נורא!” או “22 מעלות בבקשה” או “אנא הפעילי את המזגן” והמכונית נענית אוטומטית.
אם כי הטכנולוגיה של זיהוי הדיבור הייתה קיימת בצורות שונות מזה למעלה מ-40 שנה, המציאות של סוג זה של פקודות “טבעיות” בדיבור עמדה תמיד מעבר לפינה. עתה יש ל-Springfish Technology GmbH גישה חדשה לאתגר זיהוי הדיבור, המקרבת הרבה יותר את ההבטחה למציאות.
בעבר, זיהוי הדיבור היה בשימוש רחב יותר בשווקים גדולים ביותר כגון הטלקומוניקציה, רישום תיקיות בריאות, מרכזי שירות לקוחות ושירותי תיירות, המסוגלים לספוג את עלויות המו”פ שעשויות לגלוש למאות אלפי דולרים. כיום, כמעט כל טלפון מסוגל להגיב לפקודות קוליות כדי לחפש מידע לקישור, בקרת תוכן ובקרה על תפקודי טלפונים חכמים. רבים מאיתנו גם משתמשים או ניסו להשתמש בהצגה של תוכנת זיהוי דיבור עממית עבור המחשב האישי שלנו. מוצרי תוכן אלו משתמשים באלגוריתמים לזיהוי דיבור מתקדמים כדי ליישם קליטה אמינה של דיבור, לבקר את יישומי עיבוד התמלילים ואף של המחשב בעצמו. אולם, הדבר הוא מסורבל: המשתמשים צריכים לאמץ דפוס דיבור מחמיר ומוגדר מראש, או סט פקודות מאוד מצומצם. ככלל, הדבר דורש כמות ניכרת של סבלנות ותרגול, ועדיין הוא יכול ליצור התנסות מתסכלת של המשתמש.
אלגוריתמי תוכנה מתוחכמים אלה מסתמכים על כושר העיבוד הזמין של המחשב האישי ובמקרה של טלפונים חכמים על מעבדי יישומים אף יותר עצמתיים. בעוד בעבר מוצרי תוכנה למחשבים וטלפונים חכמים אלה הופנו בעיקר ליישומים צבאיים/מוטסים ומסחריים יקרים, הם הביאו טכנולוגיה מתוחכמת של זיהוי הדיבור לרשות כל משתמש במחשב אישי ובטלפון חכם. אולם מפתחי המערכות האלקטרוניות זכו עד כה למבחר מועט אם הם נדרשים ליישם את זיהוי הדיבור מחוץ למחשב או לטלפון החכם.
אלגוריתמים מתוחכמים אלה זקוקים ליותר ביצועי מעבד מאשר אלה שמיקרו-בקר פשוט יכול לספק, אך המחיר ופיזור ההספק של מעבד יישומים כבד חורגים מחוץ לתחום ההשגה. בנוסף, פיתוח תוכנת זיהוי דיבור איננו פשוט ועשוי להיות לחרוג מחוץ למטרת פרויקטי פיתוח מוצרים רבים.
Springfish Technology ניערה דגם זה על-ידי שהפכה את תוכנת זיהוי הדיבור המתוחכמת לנגישה לגבי שווקים בעלי היקף נמוך דוגמת מעליות, מערכות דלתות או אבטחה, אוטומציה תעשייתית ויישומי רפואה וצריכה כאשר אחדים מהם עשויים למכור רק כמה מאות מוצרים בשנה. באמצעות המודול SPM-B101 שלהם, Springfish וספק המערכות המובנות Bluetechnix GmbH מביאים את הדיבור הטבעי אל בקרת הקול עבור כל יישום תוך שימוש בממשק אדם-מכונה ייחודי העשוי להחליף כל דבר החל מלחצנים פשוטים ועד מבני תפריט גרפיים מורכבים.
אפשר לרכוש כרטיס ההערכה ADEV-BF52xC של Springfish, הכולל מעבד Blackfin® ADSP-BF527C של Analog Devices, תמורת פחות , בעוד מודול בקרת הקול SPM-B101 המבוסס-Blackfin בעצמו עולה בכמויות של אלפים.
התכנון האינטואיטיבי של הכרטיס והכללת ממשקים שונים במודול, זיכרון הבזק על-הכרטיס וליבת-DSP 600 מגה-הרץ מובנה בעל ביצועים גבוהים מספקים לראשונה למתכננים מערכת זיהוי דיבור המסוגלת לזהות ולהשמיע עצמאית 120,000 פקודות קוליות בהתקן בגודל של מחצית כרטיס אשראי המפזר פחות מ-1 ואט של הספק. כמו כן, הוא יכול לבצע אימות רמקול של יותר מ-500 קולות בודדים.
מודול בקרת הקול SPM-B101 של Springfish מזהה את השפה הגרמנית והאנגלית (ניבים אזוריים של בריטניה וארה”ב) וכולל בינה מלאכותית המאפשרת זיהוי שפות טבעי לשם פענוח של מילים המבוטאים בצורה רגילה. “ליבת הזיהוי הקולי המיוחדת מבוססת על טקסטים ולא על כללי דקדוק”, אמר Hamid Raziorrouh, CEO של Springfish Technology GmbH. “בגין הפענוח החוזר של הקול הטבעי, אתה יכול לכוון ולבקר בקלות את המכונה איתה אתה פועל ללא הצורך בשפה מדויקת”.
דבר זה עשוי להיות שימושי במיוחד ביישומי קמעונאות, בהם לקוחות הצועדים לתוך מעלית של מרכול יכוונו ישירות לקומה הנכונה רק על-ידי אמירה של המוצר אותו הם מחפשים.
מודול בקרת הקול SPM-B101 של Springfish כולל את כל ממשקי המשתמש הדרושים כדי להבטיח שילוב מהיר וקל אל מוצרים קיימים. המודול תומך ב-I2C (זהירות! I2C הוא מותג של Philips/NXP. אנחנו עשויים לכנותו TWI עבור הממשק הדו-גידי), ממשקי SPI, UART ו-SPORT, כאשר לכרטיס ההערכה יש פיתחת מיקרו-USB 2.0 לשם חיבור קל למחשב אישי. הוספת 4Mbytes של NOR ו-4Gbytes של זיכרון הבזק NAND מאפשרת למודול לאכסן עד +15,000 תיקי שמע דחוסים, והמערכת מסוגלת להתאים בנקל לכל מוצא של רמקול, החל ממערכות-ראש ועד רמקולים חיצוניים.
המפתח לאימוץ מערכת טכנולוגית כלשהי הוא עד כמה בנקל יכול המשתמש הסופי להשתמש בה – למעשה, המערכות הנקלטות בצורה הטובה ביותר אינן דורשות מהמשתמש לשנות את הרגליו כלל. לעתים קרובות, קיים הבדל ענקי בין ההבנה של מערכת זיהוי דיבור את תוכן הנאמר, לעומת מה שבאמת מתכוונים או מבקשים. מודול בקרת הקול SPM-B101 של Springfish תוכנן מההתחלה כדי להתאים לדרך הטבעית של ההבנה על-ידי יצירת בקרת שיחה עבור מגוון יישומים.