חדשות היום

השפעת הגידול העצום בכמות המידע הארגוני על אופן השימוש בבינה עסקית וכלים אנליטיים

מאת: אסף בר, מנכ”ל איטרניטי. התפוצצות הנתונים בעולם ממשיכה להאיץ ולהפתיע אותנו בהיקפיה, אם כי המומחים כבר התריעו על כך כבר לפני מספר שנים. גורדון מור, ממייסדי אינטל והאדם שעל שמו נקרא “חוק מור”, היה הראשון שחזה שמספר הטרנזיסטורים המיוצרים במעגל משולב אחד יכפיל את עצמו מדי שנה. מאז 1965 יושם “עקרון ההכפלה” הזה בהרבה תחומים בעולם המחשוב וברוב המקרים הוכיח את אמיתותו. אבל כשמדובר בנתונים, אפילו חוק מור אינו מצליח להדביק את הצמיחה האקספוננציאלית של השנים האחרונות. מחקר של חברת IDC על נתונים דיגיטליים מראה שב-2010, כמות המידע הדיגיטלי בעולם חצתה את קו הזיטבייט, או טריליון ג’יגהבייט של מידע. הנושא ה”חם” של תופעת ה- “Big Data” והשפעת כלי BI על יכולת של ארגונים להתמודד עם הבעיה הזו, הם נקודות שחשוב לעסוק בהן ברצינות.
המונח “ביג דטא” (big data) נטבע כדי לתאר את קצב הצמיחה הזה במקביל למערכות ולטכנולוגיה הדרושים כדי לעשות בו שימוש. בדומה להרבה טכנולוגיות חדשות, גם המונח הזה זקוק עדיין להגדרה אוניברסאלית. אבל ככלל, “ביג דטא” הם מערכי נתונים שהגיעו לממדים שאינם מאפשרים ניהול או ניתוח קלים עם כלים, שיטות ותשתיות מקובלים או נפוצים לניהול נתונים. ל”ביג דטא” יש מאפיינים מסוימים ההופכים את האתגר לקשה אפילו יותר. למשל, מהירות גבוהה, נפח גדול ובמקרים מסוימים, מגוון מבני נתונים. מאפיינים אלה מציבים אתגרים חדשים בניתוח נתונים, חיפוש בנתונים, שילוב נתונים, גילוי מידע ומחקר, דיווח וגם תחזוקת מערכות.
הראשונים שאימצו נתונים גדולים היו קהילות מדעיות הנהנות מגישה לסביבות יקרות של מחשבי על שנועדו לנתח כמויות נתונים מסיביות. סביבות מחשוב אלו תוקפות את אתגר ההיקף העצום של הנתונים אבל לא בהכרח מתמודדים עם מאפייני המהירות והגיוון, וכאמור, הן יקרות. הפרויקטים הראשונים שנעשו על נתונים גדולים היו למשל מחקר גנומי או מחקר על נתוני תרופות שעשה שימוש באנליטיקה מתקדמת כדי לחשוף מידע שקשה לזהות בסביבות נתונים מקובלות. כיום, היקף הנתונים הגדולים מתרחב מעבר למקורות הנישה האלה וכולל גם נתונים חיישנים ומכונות, נתוני תנועות (טרנסאקציות), נתוני מטה, נתוני רשתות חברתיות ומידע שכתבו צרכנים. באופן דומה, מנוע של מטוס בואינג יכול להפיק 10 טרבייט של מידע תפעולי בכל חצי שעה של פעולה. מטוס סילון ג’מבו בעל ארבעה מנועים יכול ליצור 640 טרבייט של נתונים בחצייה אחת של האוקיינוס האטלנטי. הכפילו את כמות הנתונים הזו ביותר מ-25,000 טיסות הממריאות מדי יום, ותוכלו להעריך את השפעתם של הנתונים שמפיקים מכשירים ומכונות על סביבת הבינה העסקית.
אחד הדברים הבוערים היום, הוא הפיכתן של הרשתות החברתיות למקור ל”ביג דטא”. נתונים המגיעים מרשתות חברתיות הם מקור חדש לביג דטא אשר חברות רבות רוצות למנף. אתר טוויטר משרת יותר מ-200 מיליון משתמשים היוצרים יותר מ-90 מיליון “ציוצים” ליום, או 800 ציוצים לשנייה. הגודל של כל אחד מהפוסטים האלה הוא כ-200 בייט. ביום ממוצע, תעבורה זו יוצרת יותר מ-12 ג’יגבייט ומערכת טוויטר כולה מייצרת כשמונה טרבייט של נתונים מדי יום. לשם השוואה, הבורסה של ניו יורק מייצרת רק כטרבייט אחד של נתונים מדי יום. בחודש יולי השנה הכריזה פייסבוק על חציית קו ה-750 מיליון משתמשים פעילים ובכך הפכה רשת חברתית זו למקור הגדול בעולם לנתונים שיוצרים צרכנים. משתמשי פייסבוק מבלים יותר מ-700 מיליארד דקות לחודש באתר, כאשר משתמש ממוצע יוצר 90 יחידות תוכן במהלך 30 יום. מדי חודש יוצרת קהילת פייסבוק יותר מ-30 מיליארד יחידות תוכן, בהן קישורים לאתרים, חדשות, סיפורים, פוסטים של בלוגרים והערות לסרטונים ותמונות. לא כל המידע הזה שימושי לחברות עסקיות, אבל פייסבוק היא מכרה זהב של נתונים על צרכנים הניתנים לשילוב במערכת ניהול לקוחות (CRM), אפליקציות למרכזי פניות ותוכניות שונות של בינה עסקית.
עם עומס עצום כזה של מידע, לא מפתיע שהסידור והניהול של כל הנתונים האלה הזורמים למערכות הפך למשימה עצומה. מערכות לניהול נתוני על נמתחות ומתרחבות על מנת לשמור על יכולת הסיווג של הנתונים ולאפשר שימוש בנתונים הגדולים. נתוני על, או “המידע על המידע שלנו”, הוא תחום הצומח לא פחות מהר מהנתונים שלנו בסביבות הנתונים הגדולות. כפי שהסברתי, הנתונים הגדולים באים ממגוון רחב של מקורות. חלק ממקורות אלה דומים למקורות הנתונים המסורתיים, אבל חלק מאוד לא-מובנים ונעים במהירות המקשה לנתח אותם.
אך ישנם כלים בעזרתם ניתן להתמודד עם האתגר הזה. טכנולוגיות ה-BI החדשות, מאגרי המידע הגדלים והפחתת העלות והזמן הדרושים לניתוח יסייעו למאגרי ה-“ביג דטא” לדלג מעל התהום הפעורה בין חדשנות לבין אימוץ טכנולוגיה חדשה. למרות שנתונים גדולים נחשבים עדיין לטכנולוגיה בתחילת דרכה, צופים כי בשנה וחצי הקרובות היא תחצה את הגבול הדו-ספרתי מבחינת אימוץ מערכות לטיפול בה. לשם המחשה, עד כה, פחות מ-10 אחוזים מהארגונים התקינו מערכת לניהול ביג דטא.
במרכז תנועת הנתונים הגדולים יש מסגרת תוכנה פתוחה, הקרויה Hadoop, שהיא כיום הטכנולוגיה המועדפת לתמיכה באפליקציות התומכות בכלים אנליטיים המתמודדים עם היקפי נתונים הנספרים בפיטבייט באמצעות מספר רב של צומתי מחשוב. Hadoop היא מסגרת רבת עוצמה לעיבוד מערכי נתונים באשכולות הנמצאים בצומתי Hadoop. תהליך המיפוי והצמצום מפצל את העבודה קודם כל באמצעות מיפוי הנתונים שהוזנו בצומתי הבקרה של האשכולות ולאחר מכן באמצעות פיתול עומס העבודה למערכי נתונים עוד יותר קטנים וביזורם רחוק יותר ברחבי אשכול המחשוב. תהליך זה מאפשר לבצע עיבוד מקבילי מסיבי, יתרון מחשובי אשר הטכנולוגיה הביאה לארכיטקטורות המערכות המודרניות. תהליך המיפוי והצמצום (MPP) מאפשר ל-Hadoop לרוץ על שרתים רגילים ולא יקרים ובכך להפחית באופן דרמתי את ההשקעה ההונית הראשונית שנדרשת בדרך כלל כדי להקים מערכת גדולה. כאשר הצמתים “מחזירים” תשובות, פונקציית הצמצום אוספת את המידע ומשלבת אותו כדי לשגר אותו הלאה כתוצאה סופית. ביצוע משימות דומות בעבר הצריך שילובים מיוחדים מאוד של תוכנה וחומרה, מה שהציב מכשולים משמעותיים לחברות שרצו לנתח נתונים בהיקפים גדולים מאוד.
Hadoop, שנוצרה במיוחד כדי להתמודד עם אתגרי הנתונים הגדולים, מעודדת את האימוץ של הנתונים הגדולים על-ידי כמה שיותר משתמשים באמצעות סקלביליות ועלות. הפרויקטים הנוספים שצמחו סביב המסגרת מסייעים למשתמשים להתגבר על חלק מהחסרונות הראשוניים עם תכונות טובות יותר, ממשקים חכמים יותר וכלי ניהול חסונים יותר.
בסופו של דבר, אין פיתרון מושלם וגם Hadoop סובלת מחסרונות אשר נמצאים כיום בטיפול. לדוגמה, המופעים של HDFS מתקשרים עם צומת שרת יחיד. אם השרת הזה מושבת, נוצרת נקודת כשל יחידה. במקרה כזה, המופע של ה-HDFS חייב לאתחל את עצמו מהמקום שבו כשל, תוך גרימת עיכובים משמעותיים בתהליכי העבודה של המערכת. חשוב לזכור כי ישנם עוד כלים רבים, מוכרים וטובים בשוק כמו: GreenPlum, Netezza, Exadata (Oracle), Fast track (Microsoft), Vertica
מאות חברות כבר עובדות עם ביג דטא במטרה להוסיף ערך ליוזמות הבינה העסקית שלהן. נפחי מידע גדולים במערכות התומכות בניתוח במהירות גבוהה הם המגמה הבאה והם שיאפשרו מימוש מלא של פוטנציאל הבינה והניתוח העסקיים. טכנולוגיות וגישות תכנון עתירות כושר המצאה יוצרות פלטפורמות טובות יותר, ואפילו הכי טובות, עבור עומסי המחשוב הארגוניים. אפשר להצהיר בבטחה שטכנולוגיית הנתונים הגדולים תהיה חלק ממערכת הנתונים האקולוגית שתתמוך בבינה וניתוח עסקיים בהמשך הדרך.

אסף בר הינו מנכ”ל חברת איטרניטי (Eternity) העוסקת במתן שירותים ופיתרונות בתחום התבונה העסקית (BI) למגזר הפרטי, העסקי והמוסדי.

תגובות סגורות