IBM מציגה את Granite 3.2 – עם הצטיינות יתרה בקריאת תרשימים וטבלאות הודות לצוות החוקרים מחיפה
בהתאם לאסטרטגיה של IBM – Granite 3.2 הוא מודל “רזה” בדרישות מחשוב, שנותן מענה איכותי לצרכים ארגוניים ספציפיים עם הקפדה יתרה על בטיחות. חידוש מרכזי הוא מודל ויזואלי שמצטיין בחילוץ מידע מתרשימים וטבלאות, עמוד התווך של מסמכים ארגוניים, שאת הפיתוח של הוביל צוות חוקרים מחיפה
ענקית המחשוב IBM הציגה בסוף השבוע את Granite 3.2 – הדור הבא במשפחת מודלי השפה Granite בגרסאות 2 ו-8 מיליארד פרמטרים. הגרסה החדשה ממשיכה את האסטרטגיה של IBM בהנגשת מודלי שפה קטנים שיאפשרו לארגונים לפתח גרסאות המיועדות לצרכים ספציפיים המבוססות על מידע קנייני של הארגון, ושמות דגש על היבטי בטיחות קפדניים.
ב-IBM סבורים שבעוד חברות מסוימות תופסות כותרות עם מודלים הדורשים משאבי חישוב עצומים, עסקים רבים מחפשים פתרונות מעשיים יותר, שנותנים מענה איכותי לצרכים ספציפיים מבלי לדרוש משאבי מחשוב גדולים במיוחד.
מודל מצטיין בהבנת תרשימים וטבלאות – עמוד השדרה של דו”חות ארגוניים
אחד החידושים המרכזיים במודל החדש הוא מודל ויזואלי (VLM) בשם Granite Vision שאת הפיתוח שלו הוביל צוות חוקרים ממעבדת המחקר של IBM בחיפה יחד עם עמיתים מניו יורק. המודל החדש מצטיין ביכולת לחלץ מידע ולגבש תובנות מתרשימים, טבלאות והדמיות נתונים אחרות במסמכים – עמוד התווך של דו”חות ארגוניים.
היכולת של מודלי בינה מלאכותית לפרק מסמכים חזותיים כמו קבלות, טפסים ותמונות, יכול לחסוך לארגונים זמן רב ולהאיץ אוטומציות של משימות שחוזרות על עצמן או כאלה הדורשות רמות של דיוק שרק מכונות יכולות להשיג. Granite Vision גבר על ביצועי VLM אחרים במדדים הפופולריים – כולל כמה מודלים בגודל כפול או יותר כגון Llama 3.2 11B ו-Pixtral 12B.
בחברה סבורים שמודלי שפה רב-מודאליים (multi-modal) המאומנים על טקסט ותמונות ומסוגלים להפיק ביעילות ובדיוק רב סיכומים של דפי טקסט, מתקשים “להבין את התמונה הגדולה” מנתונים גרפיים בטבלה או תרשים, שאנו בני האדם נעזרים בהם כדי להמחיש כמות גדולה של נתונים ופרמטרים.
Granite Vision בנויה על מודל השפה Granite המתקדם של IBM בן 2 מיליארד פרמטרים, שכולל חלון הקשר של 128 אלף טוקנים. הוא אומן על כ-13.7 מיליון עמודים של מסמכים ארגוניים ו-4.2 מיליון תמונות. בנוסף לתמונות גולמיות, Granite Vision מבוסס על כמעט מאה מיליון זוגות של שאלות ותשובות התואמות לתוכן התמונות שעליהן אומן המודל – 80.3 מיליון זוגות התואמים לתמונות מסמכים, ו-16.3 מיליון זוגות לתמונות טבעיות.
מפעילים את “מנוע ההיסק” רק כשרוצים
IBM שילבה במודל החדש מעין מנוע היסק (reasoning) שהיא מכנה “שרשרת מחשבה”. תכונה זו מאפשרת למודלים לגשת לבעיות באופן שיטתי, ולחלק אותן לשלבים הדומים לחשיבה אנושית.
בהפעלת “שרשרת מחשבה” יש צורך בכוח חישוב משמעותי שאינו הכרחי לכל משימה. זו הסיבה ש-IBM מאפשרת גם לכבות את הפיצ’ר ועבור משימות פשוטות יותר, כך שהמודל פועל ללא הנמקה ולא צורך משאבי מחשוב גבוהים יותר. גישה זו משקפת את ההבנה של IBM לגבי אילוצים עסקיים בעולם האמיתי, שבהם היעילות חשובה לרוב כמו הביצועים הגולמיים.
כמו בעבר, IBM היא חברת הבינה המלאכותית הידידותית ביותר לקוד פתוח. כל דגמי Granite 3.2 זמינים תחת רישיון Apache 2.0 ב-Hugging Face. IBM שמה גם דגש רב על בטיחות ולכן שילבה בחבילת המודלים את Granite Guardian 3.2 שמציע זיהוי סיכונים משופר בהנחיות ובתגובות. כמו בדורות המודלים הקודמים, IBM בדקה בקפדנות את נתוני האימון שלה כדי לסנן מידע אישי, קנייני ורעיל. גישה זו של קוד פתוח ודגש על בטיחות עולה בקנה אחד עם האסטרטגיה של IBM להפוך AI לנגיש, חסכוני ובטוח יותר עבור ארגונים.