העתיד של מחשוב מסתגל: מרכז נתונים ניתן להרכבה דינמית

רשומת יומן רשת (blog post) זו היא תמצית ממצגת הנושא של Salil Raje, סגן נשיא ומנכ”ל של קבוצת מרכזי הנתונים בחברת Xilinx, שהוצגה ב- 24 במרס, 2021 באירוע Xilinx Adapt: Data Center. כדי לצפות על פי דרישה בתמצית הנושא של Salil, עם הצגה של מצגות מאת מומחים בתעשייה, אפשר להירשם ולצפות בתוכנן.

בעקבות שינוי הפרדיגמה כתוצאה ממגפת הקורונה (Covid–19), רובינו עדיין פוגשים את עמיתינו לעבודה בוועידות וידיאו מקוונות. איש לא מתאר לעצמו מה נדרש כדי להעביר למצב מקוון את כל התוכן והתגובות של הפגישות האלו. אך אם היית מפעיל של מרכז נתונים, סביר להניח שלא היית ישן יותר מדי במהלך השנה האחרונה בגלל כל הטרדות שהיו לך, בקשר לדרך שבה אפשר לטפל בפרץ זה של תעבורת הווידיאו, שנגרם בגלל המגיפה העולמית חסרת התקדים הזו.

ולא רק זאת, אלא שמרכזי נתונים צריכים לטפל בהתפוצצות של אוסף נתונים לא מובנה, מטווח רחב של עומסי עבודה, בהם נכללים, ועידות וידיאו, תוכן שוטף (streaming), משחקים מקוונים ומסחר ברשת. רבים מבין היישומים האלו רגישים ביותר לזמן המתנה (latency) והם גם נתונים לתקנים שמתפתחים ללא הרף עבור דחיסה, הצפנה וארכיטקטורות של מסדי נתונים.

כל זה גרם לכך שיהיה צורך לשדרג את מסדי נתונים מבחינת התשתית שלהם על מנת לעמוד בדרישות של ביצועים וזמן המתנה של עומסי עבודה דורשניים, ותוך כדי כך לנסות למזער עלויות וצריכת הספק. מסתבר שזה קשה למדי, ואילץ את המפעילים של מרכזי נתונים לחשוב מחדש על הארכיטקטורה העכשווית שלהם ולחקור תצורות חדשות, אשר מעצם המבנה שלהן מאפשרות לבצע בקלות רבה יותר שדרוג, והנצילות שלהם גבוהה יותר.

כיום לרוב מרכזי הנתונים יש ארונות מסדים עם קבוצה קשיחה של משאבים, שבה משולבים בשרת יחיד כונני SSD, יע”מ (יחידות CPU) ומאיצים. אמנם מבנה זה מבטיח שיהיה חיבור בעל רוחב פס גדול בין יחידת המחשוב לאחסון הנתונים, אך הוא אינו יעיל המיוחד, במונחים של ניצול משאבים, מפני שבכל שרת קיים יחס קבוע בין אחסון הנתונים ליחידת המחשוב. מאחר שלכל עומס עבודה נדרש שילוב שונה של מחשוב ואחסון נתונים, נותרים בכל שרת “איים” של משאבים שאינם מנוצלים.

תשתית ניתנת להרכבה דינמית

כיום מתפתחת תשתית חדשה אשר מבטיחה להביא שיפור דרמטי בניצול של משאבים. היא ידועה בשם “תשתית ניתנת להרכבה דינמית” (composable infrastructure). המשמעות של תשתית שניתנת להרכבה דינמית היא ניתוק החיבור שבין המשאבים, ובמקום זאת משיכתם יחדיו והפיכתם לנגישים מכל מקום. תשתיות שניתנות להרכבה דינמית מאפשרות אספקה של עומסי עבודה בכמות הנכונה בדיוק של משאבים, והגדרה מחדש של התצורה באמצעות תוכנה.

ארכיטקטורה שניתנת להרכבה דינמית עם שיתוף של משאבי יע”מ, עם כונני SSD ומאיצים שמחוברים יחד ברשת ומבוקרים על ידי מסגרת אספקה מבוססת תקנים, מבטיחה יעילות משופרת במידה רבה מאוד של משאבי מרכז נתונים. בארכיטקטורה כזו, לעומסי עבודה שונים יכולות להיות דרישות שונות לגבי מחשוב, אחסון והאצה, ואותם משאבים יוקצו בהתאם ללא בזבוז של חומרה. כל זאת נשמע מצוין בתיאוריה, אבל במציאות נעוצה בכך בעיה גדולה: זמן המתנה (latency).

האתגר של זמן ההמתנה

בשעה שמפרידים את המשאבים למרכיבים השונים ומעבירים אותם הרחק אלו מאלו, נוצרים השהיות נוספות ורוחבי פס מוקטנים כתוצאה מתעבורת הרשת בין יחידות יע”מ לכונני SSD, או בין יחידות יע”מ למאיצים. כל זאת עלול להוות מגבלה רצינית ביותר, אלא אם כן קיימת דרך כלשהי שבה ניתן להפחית את תעבורת הרשת ולחבר בין המשאבים בדרך יעילה. במקום זה התקני FPGA ממלאים שלושה תפקידים חשובים בפתרון האתגרים שמעמיד זמן ההמתנה:

  • התקני FPGA פועלים כמאיצים שניתנים להתאמה, ואשר אותם אפשר להתאים לכל עומס עבודה לקבלת ביצועים מרביים.
  • התקני FPGA מאפשרים גם לקרב את המחשוב לנתונים ובכך להקטין את זמן ההמתנה ולצמצם את רוחב הפס הנדרש למינימום.
  • המארג (fabric) החכם הניתן להתאמה של התקני FPGA מאפשר שיתוף משאבים בצורה יעילה, מבלי שייגרמו כתוצאה מכך השהיות מוגזמות.

תמונה The Alveo SN1000 is the industry’s first SmartNIC with : 1
composable hardware

האצה שניתנת להתאמה

היתרון המשמעותי הראשון של מאיצי מחשוב שמבוססים על התקני FPGA הוא שיפור משמעותי ביותר של ביצועים בעומסי עבודה, שלהם יש דרישה גבוהה בימים אלו. במקרי שימוש של המרת קידוד (transcoding ) של אותות וידיאו עבור יישומי הזרמת מדיה (Streaming), פתרונות FPGA עולים בדרך כלל על ביצועי יחידות יע”מ x86 פי 30, עובדה שמקלה על מפעילים של מרכזי נתונים לעמוד בגידול העצום במספר הזרמות המדיה שמתבצעות בו זמנית. דוגמה נוספת היא בתחום הקריטי של ריצוף גנום. לקוח של Xilinx בתחום הגנומיקה מצא לאחרונה שהמאיץ שלנו מבוסס התקני FPGA סיפק את התשובה פי 90 מהר יותר מאשר יע”מ, ובכך סייע לחוקרים בתחום הרפואה לבדוק דגימות של DNA תוך שבריר הזמן שבו הבדיקה נערכה בעבר.

העברת המחשוב קרוב יותר לנתונים

היתרון החשוב השני של התקני FPGA עבור מרכזי נתונים שניתנים להרכבה דינמית הוא היכולת להעביר את המחשוב שניתן להתאמה קרוב יותר לנתונים, בין אם במצב מנוחה ובין אם בתנועה. התקני FPGA של Xilinx המשמשים בהתקני SmartSSD לאחסון ממוחשב, מאיצים פונקציות שונות כגון חיפוש מהיר, פירוק לרכיבים (parsing), דחיסה והצפנה, אשר מבוצעות בדרך כלל על ידי יע”מ. כך מתאפשר להקטין את העומס מהיע”מ לביצוע משימות מורכבות יותר, וכך גם קטנה התעבורה בין היע”מ לבין יחידות SSD, במקביל לצריכת רוחב הפס שיורד ולזמן המתנה שמתקצר.

באופן דומה, התקני FPGA שלנו משמשים כיום בבקרי SmartNIC כמו למשל Alveo SN1000 החדש שלנו, כדי להאיץ נתונים בתנועה עם שירותי עיבוד חבילות “במהירות מוליך” (wire speed), דחיסה והצפנה (crypto) וכן יכולת ההתאמה לדרישות מיתוג בהתאמה אישית עבור מרכז נתונים או לקוח מסוימים.

מארג חכם

בשעה שמשלבים האצת מחשוב ניתנת להתאמה של התקני FPGA עם קישוריות בזמן המתנה קצר, אפשר להתקדם צעד נוסף במרכז הנתונים שניתן להרכבה דינמית. אפשר להקצות עומס עבודה עתיר מחשוב לאשכול של מאיצים עם חיבורים משולבים באמצעות מארג חכם מסתגל – וליצור מחשב בעל ביצועים גבוהים על פי דרישה.

מובן שאף לא אחד מאלו היה אפשרי אם אין אפשרות לתכנת את המאיצים הממוחשבים, את התקני SmartSSD ואת בקרי SmartNIC באלגוריתמים המיטביים להאצה, ולאחר מכן, לספק אותם במספרים המתאימים לכל מצב של עומס עבודה. עבור משימה זו יצרנו מחסנית תוכנה מקיפה אשר משפרת מסגרות עבודה תעשייתיות ייעודיות לתחום כגון TensorFlow ו- FFMPEG, אשר עובדות בשילוב עם פלטפורמת הפיתוח Vitis של Xilinx. אפשר לראות גם שלמסגרות עבודה של אספקה ברמה גבוהה כדוגמת RedFish יש תפקיד בסיוע להקצאת משאבים חכמה.

מסקנה

ההבטחה הגלומה במרכז הנתונים שניתן להרכבה דינמית היא שינוי מלהיב וההתקנים וכרטיסי המאיצים של Xilinx הם אבני בנין חשובות בארכיטקטורה יעילה וחדשה זו. עם היכולת להגדרת קונפיגורציה מהירה, זמן המתנה קצר וארכיטקטורה גמישה שאותה אפשר להתאים לעומסי עבודה משתנים, חברת Xilinx ממוקמת במקום טוב כדי שתוכל להיות שחקן ראשי בהתפתחות זו.


Salil Raje Executive Vice President and GM, Data Center Group at Xilinx

תגובות סגורות