ניו-טק פורטל ההיי-טק הישראלי

Posts Tagged ‘micro processors’

מיקרו מעבד QorIQ בריבוי עיבודים מתקדם [AMP] של Freescale מציע חלופה ליכולת מחשוב בהתקנים משובצים בביצועים גבוהים ובהספק נמוך

QorlQ

QorlQמאת: Haim Cohen, Freescale Semiconductor Israel Limited.

הטכנולוגיה הידועה בשם AltiVec מאת Freescale Semiconductor, מרחיבה את היכולות של מעבדי מיקרו הבנויים בטכנולוגיה Power Architecture, על ידי כך שהם מספקים עיבוד לשימוש כללי, עיבוד נתונים ועיבוד אותות ספרתיים (DSP) בשבב יחיד.

הטכנולוגיה AltiVec היא המאיץ קלט-יחיד-נתונים-מרובים (SIMD) במעבדי המיקרו בליבת e600 של Freescale, והיא חלק ממפת הדרכים למעבדי התקשורת QorIQ של Freescale. הטכנולוגיה כוללת ליבות ®Power Architecture, מאיצים ואבטחה. הפלטפורמה כוללת מעבדי QorIQ בריבוי עיבודים מתקדם [AMP] מבוססים על טכנולוגיית תהליך של 28 ננו-מטר. השילוב של טכנולוגיית AltiVec עם מעבדי המיקרו QorIQ מאפשר למתכנני המחשוב המשובץ בתחום החלל-תעופה ובתחום הצבאי להשתמש במנוע SIMD בתוך מעבד בעל ריבוי ליבות.

יישומים בתחום חלל-תעופה ובתחום הצבאי זקוקים לביצועי SIMD בעלי נצילות הספק, אך גם לעיבוד אותות מהיר, לעיבוד תמונה מהיר ולביצוע במהירות של פעולות מתמטיות, כמו למשל כפל מטריצות. הדמאה בזמן אמת ועיבוד אותות מאפשרים קבלת החלטות אוטונומית ומספקים במהירות מידע לגבי תמונה ונתונים, למרכזי השליטה.

צפוי שנתח עיקרי של תקציבי בטחון יופנה לתחומים של כלי טייס בלתי מאוישים-כטב”מים

(UAV) ושל כלי רכב קרקעיים בלתי מאוישים-כרב”מים (UGV). מספר החיישנים והנתונים שהם מפיקים גדלים באופן מעריכי מהכטב”מים של הדור הראשון ועד היכן שניתן לראות בעתיד. הצורך בקבלת החלטות זמן אמת באופן אוטונומי בתוך דרישות הגודל, המשקל וצריכת ההספק (SwaP) יציב דרישות שמתעצמות ליכולת עיבוד במערכות עתידיות, וכך הופך את מנוע SIMD למתאים ביותר לביצוע עיבוד וקטורי עבור יישומים אלו.

איור 1: אפשר להקטין את מעטפת צריכת ההספק בעזרת טכנולוגית התהליך המתקדמת ב- 28 ננו–מטר

עיבוד סינכרוני ומעבדי אותות ספרתיים

טכנולוגיית AltiVec מספקת פונקציונליות בדומה למעבדי אותות ספרתיים (DSP) וליחידות עיבוד גרפיות (GPU). בדרך אופיינית, היע”מ (CPU) היה מעביר נתונים אל מעבד DSP או אל יחידת GPU לצורך עיבודם, ובינתיים, ליבת CPU הייתה יכולה להמתין בעצירה (stall) או לעבור הלאה לעיבוד אחר. על אף שזה עיבוד מהיר, אין זה ממש עיבוד זמן אמת. למעבדי DSP יש יכולת רבה יותר מאשר למנוע AltiVec במונחים של יכולת עיבוד מתמטית, אך עם זאת, מעבדי DSP וטכנולוגיית AltiVec מוכוונים לעבר צרכים שונים. ההתנהגות הסינכרונית של מנוע AltiVec בליבה היא המפרידה אותו ממעבדי DSP, במיוחד ביישומי חלל-תעופה וביישומים צבאיים.

יחידות GPU מתוכננות לעבד מצולעים (פוליגונים) ומשולשים שמתאימים ליישומים כגון גרפיקה למשחקי וידיאו, ועם זאת מתכננים של התקני מחשוב משובצים נמשכים ליחידות GPU בשל ביצועי מחשוב-העל שלהם ובגלל היכולת שלהם להציג נתונים בזמן אמת לגבי מצבים בחיים הממשיים.

מנוע AltiVec יכול לספק יכולת מחשוב מהירה כזו, ללא תקורת התוכנה של יחידת GPU. טכנולוגיית AltiVec מספקת כמה מהפונקציות של מעבדים גרפיים ושל מעבדי DSP ללא האסינכרוניות של משלוח הנתונים אל מחוץ לשבב וההמתנה להם, עד שיחזרו. שילוב של ליבה עם מנוע AltiVec ומעבד DSP על אותו שבב, יכול לספק אפשרויות עיבוד מהירות רבות יותר. לדוגמה, יישומי תקשורת משתמשים במעבדי DSP לעיבוד חבילות מפני שהם יכולים לחשב במהירות חישובים מתמטיים – אבל זה יכול להתקיים מחוץ לשבב. אספקת איכות של שירות עבור תעבורת קול ונתונים אינה חשופה לאותן דרישות זמן אמת כמו רבים מבין יישומי החלל-תעופה והיישומים הצבאיים.

ברצף הביצוע הווקטורי בתוך הליבה, יחידת השיגור (dispatch) בוחנת את ההנחיות הנכנסות ושולחת נתונים ליחידת הווקטור. ללא יחידת הווקטור, היה צריך לעבד את הנתונים בנקודה צפה או בסקאלאר. יחידת השלמים (IU) ויחידת הנקודה הצפה (FPU) היו עוצרות בגלל כל המחזורים הנדרשים לביצוע חישובים מתמטיים ברמה גבוהה כזו. יחידת הווקטורים, עם קבוצת האוגרים הגדולה שלה ועם רוחב אפיק הנתונים שלה יכולה לבצע פעולות בכמה קבוצות של נתונים לפי פקודה יחידה. עיבוד סינכרוני זה משחרר את יחידת השלמים ואת יחידת הנקודה הצפה להמשיך בביצוע חישובים סקאלריים וחישובי נקודה צפה מבלי להעמיס עיבוד נוסף על מנוע AltiVec.

יחידת הביצוע הווקטורית של AltiVec פועלת בו זמני עם יחידת המספרים השלמים Power Architecture ועם יחידת הנקודה הצפה. היא מתאפיינת באוגרי וקטור ייעודיים משופרים, נפרדים. אפשר לערבב פעולות במספרים שלמים, פעולות בנקודה צפה ופעולות של AltiVec ללא אובדן ביצועים.

ארכיטקטורה וקטורית מאפשרת עיבוד בו זמני של כמה פריטי נתונים במקביל. הפעולות מבוצעות על כמה יחידות נתונים בפקודה אחת. צורת פעולה זו ידועה בשם “עיבוד מקבילי של נתונים מרובים בפקודה יחידה” (SIMD). בצורת הפעולה הזו, פקודה אחת לא תתרחב על פני כמה ליבות

איור 2: ארכיטקטורת QorIQ בסדרת העיבוד המרובה המתקדם (AMP)

הספק נמוך

טכנולוגיה AltiVec זוכה כבר ביתרונות הנובעים מצריכת הספק נמוכה של מעבדי Power Architecture. למנועי AltiVec במעבדים מרובי ליבות יש יתרון הנובע מטכניקה של חיסכון בהספק הנקראת “ניהול הספקים מדורג (cascading power management)” אשר מכוון משימות ממספר קטן יחסית של ליבות, כך שליבות הנמצאות במצב סרק יכולות להיכנס למצב של הספק מזערי או למצב “רדום”. ניהול הספקים מדורג מפחית את צריכת ההספק במצב של עומסי רשת נמוכים, ולאחר מכן, כאשר העומס ברשת גדל, הוא מאפשר לליבות לחזור במהירות לתפקוד מלא באופן אוטומטי.

לדוגמה, להתקן שכולל 12 ליבות עם 24 ליבות וירטואליות יהיו 12 ליבות פיסיות ו- 12 מנועי AltiVec פיסיים. מתכנני מערכות שמעונינים להשתמש בכל הליבות האלו, יכולים לנצל אותן אם כי בתמורה לעומס ההספק הנלווה. עם זאת, השימוש בשתי ליבות או בארבע ליבות ייעודיות למשימה יכול לשחרר את המעבדים האחרים במארז האמור לצורך ביצוע פקודות בנקודה צפה או פקודות במספרים שלמים.

לוגיקת AltiVec בליבות אחרות אלו תימצא במצב צף נמוך קרוב לאפס, אשר מאפשר שימוש נרחב יותר בהתקני AltiVec בעלי ליבות מרובות, ללא השימוש בהספק עודף.

AltiVec בעיבוד QorIQ AMP

סדרת של מעבדי המיקרו QorIQ AMP של Freescale, שיצאה לשוק לאחרונה, מספקת ביצועים המגיעים לעד פי ארבעה יותר מהביצועים שמקבלים עם ההתקן QorIQ P4080 בעל שמונה הליבות, שהיה ספינת הדגל בדור הקודם של Freescale. סדרת AMP מיועדת לשדרג אל מעבדי מישור הבקרה ומישור הנתונים של הדור הבא את המוצרים, החל ממוצרי ליבה יחידה בהספק נמוך ביותר וכדאיים מבחינת העלות ועד למערכות על שבב בעלות 24 ליבות וירטואליות המיועדות לשימוש ביישומים תעשייתיים ותעופה-חלל או יישומים צבאיים דורשניים של רישות.

מתכנני מערכות בתחום התעופה-חלל ובתחום הצבאי עומדים בפני צורכי ביצועים ודרישות הספק דורשניים  של התקנים ניידים חכמים ושל תעבורת IP הכרוכה בכך. בינתיים רשתות מוכוונות שירות עומדות בפני מורכבות תוכנה שגדלה ובפני דרישה לעיבוד רב יותר לכל חבילה, בזמן שהשימוש במחשוב ענן דורש מהרשתות לטפל ביישומים רבים יותר, וזאת במקביל להתמזגות במעבדי ריבוי ליבות עם עיבוד וירטואלי ומשאבי קלט-פלט. מעבדי סדרת AMP מספקים תערובות מדויקות של ביצועים, צריכת הספק וחוכמת התקנים משובצים מהשורה הראשונה, במטרה לעמוד בפני אתגרים אלו ובפני הצרכים הדורשניים שמעמידים יישומי תעופה-חלל ויישומים צבאיים אחרים, לרבות הרכשת מטרות ותצוגות בתא הטייס, וכן יישומי הדמאת מכ”ם לטווח ארוך בכל תנאי מזג אוויר ובכל הגבהים.

תכונה מרכזית של סדרת AMP של Freescale היא ליבת e6500 בטכנולוגיית Power Architecture ל-64 סיביות ובריבוי תהליכונים, אשר פועלת בתדירות של עד 2.5 ג’יגה-הרץ. e6500, המתאים במיוחד ליישומים של מישור הבקרה ברמה הגבוהה ביותר ושל מישור הנתונים בביצועים גבוהים, יימצא במוצרי סדרת AMP .e6500 משלב גרסה מורחבת של יחידת העיבוד הווקטורית AltiVec בעלת הביצועים הגבוהים שפעולתה הוכחה והיא נמצאת בשימוש נרחב. בהתקן T4240 המנוע AltiVec יכול לספק ביצועים של 240 מיליארד פעולות בנקודה צפה בשנייה (FLOPS) בתוך מצע סיליקון מונוליטי יחיד.

יעילות השילוב של מעבד CPU+GPU (או APU) עבור מחשוב מקבילי

CPU+GPU

CPU+GPUמאת: מיאנאק דאגה, אשווין אמ. אג’י, וו-צ’ון פנג, המכון הפוליטכני של וירג’יניה

המשך לכתבה מגליון דצמבר.

תקציר – יחידות העיבוד הגרפי (GPU) התקדמו בצעדים גדולים והפכו להיות מאיצים בתחום המחשוב המקבילי. ואולם, מאחר שיחידות GPU היו עד עתה יחידות בדידות שהתחברו באמצעות אפיק PCIe, הביצועים של יישומי GPU היו נתונים תחת אפשרות של פגיעה כתוצאה מצוואר הבקבוק שנוצר בהעברת הנתונים בין יחידת העיבוד המרכזית,  CPU, לבין יחידת העיבוד הגרפי, (GPU), דרך ממשק PCIe. ארכיטקטורות מחשוב הטרוגניות אשר “ממזגות” את הפונקציונליות של CPU עם זו של יחידת GPU, כמו למשל Fusion של חברת AMD או Knights Ferry של Intel, נושאות את ההבטחה למציאת פתרון לצוואר הבקבוק האמור של ממשק PCIe.

טבלה 1. פלטפורמות הבדיקה

טבלה 2. סוויטת מבחני הביצועים

 

במאמר זה אנו מאפיינים ומנתחים באופן ניסיוני את יעילותו של המעבד Fusion של AMD, שהוא בעל ארכיטקטורה שמשלבת באותו השבב ליבות x86 רב תכליתיות עם ליבות מאיצות הניתנות לתכנות. אנו מאפיינים את הביצועים של המעבד בעזרת מערך של מבחני ביצועים זעירים (כגון העברת נתונים דרך PCIe), מבחני ביצועים של הגרעין (kernel) (כגון פעולת חיסור) ובעזרת יישומים ממשיים (לדוגמה דינמיקה מולקולרית). בתלות במבחן הביצועים, התוצאות שלנו מראות שהמעבד Fusion מגיע לשיפור זמני העברת הנתונים המגיע לפי 1.7 עד פי 6.0 יותר בהשוואה ליחידת GPU בדידה. כתוצאה מכך, שיפור זה בביצועי העברת הנתונים יכול להגדיל באופן משמעותי את ביצועי היישום. לדוגמה, בהפעלה של מבחן ביצועים של פעולת חיסור באמצעות Fusion של AMD שבו יש 80 ליבות GPU בלבד התקבל שיפור של פי 3.5 לעומת יחידת GPU הבדידה Radeon HD 5870 של AMD שבה יש 1600 ליבות GPU בעלות יכולת רבה יותר.

איור 7. בדיקת רוחב הפס באפיק PCIe

טבלה 3. ביצועי דינמיקת MD בג'יגה flop בשנייה

טבלה 4. הביצועים של טרנספורם FFT בג’יגה flop בשנייה

ניסויים ודיונים

בחלק זה נציג את תוצאות הניסויים שבוצעו ונערוך בהן דיון על מנת לסייע בהדגמת היעילות של מעבד שבו CPU משולב עם יחידת GPU כדוגמת יחידת APU מסוג Ontario/Zacate בסדרת G של AMD, שהיא מימוש ארכיטקטורת Fusion של AMD.

א.  הקמת מערך הניסוי

איור 8.ביצועי אפליקציה (MD ו- FFT)

טבלה 1 מספקת מידע על שלוש הפלטפורמות ששימשו לבדיקה: יחידת   וגרסה עצמאית של יחידת GPU שביחידת APU, כלומר יחידת Radeon HD 5450 AMD. בחרנו את בדיקת PCIeBandwidth (בדיקת רוחב הפס של PCIe) מתוך ערכת פיתוח התוכנה  Stream גרסה 2.3 של AMD וכן בארבעה מבחני ביצועים מתוך סוויטת מבחני הביצועים Scalable HeterOgeneous Computing  כדי לבצע את ההערכה של פלטפורמות הבדיקה. טבלה II מספקת תיאור קצר של כל בדיקה במבחן הביצועים. הפלטפורמות תוכנתו באמצעות OpenCL גרסה 1.1 עם ערכת הפיתוח Stream גרסה 2.3 של AMD ועם מנהל ההתקן לגרפיקה Catalyst גרסה 10.7 של AMD.

ב.  בדיקות רוחב הפס של אפיק PCIe

השתמשנו בבדיקת PCIeBandwidth לפי תקן OpenCL על מנת להבין את העלות הכרוכה בהעברת נתונים ביחידות GPU בדידות ובארכיטקטורת Fusion של AMD, ועל מנת לזהות מתי והיכן הביצועים של ארכיטקטורת Fusion טובים יותר. איור 7 מציג את רוחב הפס של העברת הנתונים עבור ערכי גודל נתונים משתנים בטווח שבין 1KB עד 64MB בשלוש פלטפורמות הבדיקה. (הפעלנו 10,000 פעולות חוזרות של הבדיקה עבור כל גודל של העברת נתונים).

איור 7א’ מראה את רוחבי הפס שהושגו כאשר הנתונים הועברו מיחידת “מארח” (CPU) אל יחידת ה”התקן” (יחידת GPU). על אף שיחידת APU ביטלה את הצורך בגישת PCIe, רוחב הפס שהיא השיגה עבור ערכי הגודל של נתונים קטנים יותר היה קטן יותר מזה שהושג בפלטפורמת GPU העצמאית. רק לאחר סף מסוים, הפך היתרון של ביטול אפיק PCIe ליתרון גלוי לעין, ויחידת APU התחילה להניב ביצועים טובים יותר בהשוואה לאלו של המתחרים העצמאים שלה. איור 7ב’ מציג תוצאות דומות עבור המקרה ההפוך, כלומר כאשר הנתונים מועברים מכיוון ה”התקן” (יחידת GPU) אל ה”מארח” (CPU). ואולם, עבור ההעברות “מההתקן אל המארח”, הסף שמעבר לו יחידת APU משיגה רוחב פס גדול יותר, יהיה נמוך יותר מהסף עבור העברות “מהמארח אל ההתקן”. מעבר לכך, רוחב הפס של העברות “מהמארח אל ההתקן” גבוה יותר מאשר רוחב הפס של ההעברות “מההתקן אל המארח” עבור יחידת GPU עצמאית, בשעה שההפך הוא הנכון עבור יחידת APU.

על כן האידיאולוגיה הטוענת שארכיטקטורת Fusion תתגבר על צוואר הבקבוק של אפיק PCIe הקיים בפלטפורמת GPU בדידה, איננה תמיד נכונה. רוחב הפס המושג ביחידת APU גדל עם העלייה בגודל של העברת הנתונים, עובדה שמרמזת על עלות מסוימת שקיימת בביצוע העברות נתונים, למשל הגדרת גישת DMA וריתוק מאגר זיכרון זמני (buffer pinning), ועלות זו של העברת נתונים נשחקת ככל שעולה גודל הנתונים. מהתוצאות שלנו אפשר להגיע למסקנה שיחידת APU אינה מספקת את היתרונות המובטחים של התגברות על העלויות של אפיק PCIe עבור העברות נתונים בגודל קטן, אבל היא מתחילה לממש את ההבטחה עבור גודלי נתונים גדולים יותר. בנוסף, קשה למצוא את נקודת האיזון, מאחר שהיא יכולה להשתנות מיישום ליישום (ומפני שיחידת APU מהווה במובן הרחב “תיבה שחורה” עבור משתמש הקצה שלה). ועם זאת, הבעיה הכרוכה ביצירת היקשים לגבי גודל הנתונים המהווה את הסף, היא זמנית בלבד, מפני שעל פי הצפוי, כבר בדור הבא של יחידות APU של חברת AMD ימוזגו שתי מחיצות זיכרון אלו.

ג.  מבחני הביצועים של הגרעין

את היעילות של ארכיטקטורת Fusion הדגמנו באמצעות ארבעה מבחני ביצועים של יישומים (MD, טרנספורם FFT, Scan – סריקה ו-Reduction – חיסור) מתוך סוויטת מבחן הביצועים SHOC.

איור 8 ואיור 9 מציגים את זמני העברת הנתונים וביצוע הגרעין עבור כל אחד ממבחני הביצועים של היישום עם ערכי גודל משתנים של בעיה בשלוש פלטפורמות המאיצים:  (1) יחידת APU של AMD,  יחידת Radeon HD 5450 בדידה של AMD ו-(3) יחידת Radeon HD 5870 בדידה של AMD. (כל אחד מהמבחנים הופעל 200 פעמים והדוח מסכם את הממוצע).

איור 9. ביצועי אפליקציה (SCAN ו- Reduction)

מאחר שיחידת GPU הקיימת ביחידת APU זהה ליחידת Radeon HD 5450 הבדידה של AMD, אפשר היה לצפות לזמני ביצוע דומים של הגרעין בשתי פלטפורמות אלו, אך בכל זאת, לא זה היה המקרה. לא הייתה אפשרות להפעיל שני יישומים, כלומר סריקה וחיסור, ביחידת GPU הבדידה מסוג 5450 להספק נמוך בגלל הגבול העליון שקיים בה, שהוא 128 פריטי עבודה בקבוצת עבודה, בעוד שלסוויטת מבחן הביצועים HSOC נדרשים לפחות 256 פריטי עבודה כדי לפעול. לכן, לא מוצגות כאן תוצאות עבור מבחני ביצועים אלו ביחידת GPU הבדידה Radeon HD 5450 של AMD.

דינמיקה מוליקולרית (MD):  באיור 8א’ מוצגים זמני העברת הנתונים וזמני ביצוע הגרעין עבור מבחן הביצועים דינמיקה מוליקולרית (MD). אפשר לראות שיחידת APU מקטינה את זמני העברת הנתונים עבור כל הגדלים הבעייתיים והיעילות של יחידת APU גדלה עם העלייה בגודל הבעיה – עובדה שתואמת למספרים של רוחב הפס שהושגו בבדיקת PCIeBandwidth לפי OpenCL המוצגות באיור 7.

כפי שצפוי, הגרעין מתבצע במהירות הגבוהה ביותר ביחידת 5870 הבדידה של AMD בזכות קיומם של ליבות עיבוד GPU מהירות יותר באופן משמעותי ואשר מספרן גדול יותר. עם זאת, כאשר משווים את יחידת Radeon HD 5450 של AMD אל יחידת APU, ביחידת APU הגרעין התבצע באופן מפתיע מהר יותר מאשר ביחידת Radeon HD 5450.

מתוך ניתוח פרופיל הביצוע של דינמיקת MD הסתבר שזה יישום תלוי חישובים. נמצא שתדירויות אות השעון הנוכחיות של הליבה ביחידת APU וביחידת Radeon HD 5450 של AMD היו 278 מגה הרץ ו-157 מגה הרץ בהתאמה. מכאן, שאות השעון של יחידת APU היה מהיר פי 1.77 יותר מאשר אות השעון של יחידת GPU הבדידה, ולכן גם סביר מאוד שזו היא הסיבה לביצוע המהיר יותר של הגרעין ביחידת APU. על מנת לאמת את העובדה הזו, נתוני ג’יגה flop בשנייה שהושגו עבור דינמיקת MD  בשתי פלטפורמות אלו מדווחים בטבלה 3. על אף שההפרש בנתוני ג’יגה flop בשנייה שהושגו אינו פי 1.77 (ההבדל בתדירויות של אותות השעון בליבות), קיומן של ליבות עיבוד איטיות יותר ביחידת 5450 הבדידה של AMD יכול לרמז על הסיבה לביצוע האיטי יותר של הגרעין ביחידת Radeon HD 5450 של AMD.

טרנספורם פורייה מהיר (FFT): איור 8ב’ מציג את הזמנים של העברת נתונים ואת הזמנים של ביצוע הגרעין עבור טרנספורמציית FFT בממד אחד, בכל שלוש הפלטפורמות של המאיצים. בדומה למבחן הביצועים הקודם של דינמיקת MD, יחידת APU סייעה בקיצור זמני העברת הנתונים עבור טרנספורם FFT ואיפשרה את העברתם של כמות גדולה יותר של נתונים, כשהתוצאה המתקבלת היא יתרון גדול יותר ליחידת APU. כפי שצפו, זמן ביצוע הגרעין מזערי ביחידה 5870 רבת היכולת העצמאית של AMD אם משווים אותה לפלטפורמות האחרות. עם זאת, זמן ביצוע הגרעין ביחידת APU גרוע יותר מאשר ביחידת יחידת Radeon HD 5450 של AMD. היות שידוע שטרנספורמציות של טרנספורם FFT תלויות בזיכרון, הניתוח של רוחב הפס של הזיכרון של ההתקן ביחידת APU וגם זה שביחידת Radeon HD 5450 של AMD אמור לספק את הסיבה המעשית לביצוע האיטי יותר שלח הגרעין ביחידת APU.

למטרה זו חישבנו, באמצעות שימוש במבחן הביצועים שנקרא DeviceMemory של סוויטת מבחני הביצועים SHOC, את רוחב הפס הכולל של הזיכרון בשתי פלטפורמות אלו ומצאנו שרוחב הפס הכולל של הזיכרון ביחידת Radeon HD 5450 של AMD טוב פי שניים בערך יותר מאשר ביחידת APU. נוסף על כך, מדדנו את הביצועים (ג’יגה Flop בשנייה) של טרנספורם FFT בשתי הפלטפורמות, כפי שמוצג בטבלה IV. טבלה זו מראה שהביצועים שהושגו ביחידת Radeon HD 5450 של AMD טובים פי שניים מאלו שביחידת APU ומכאן אפשר להסיק שרוחב פס טוב יותר כולל לזיכרון מוביל לביצוע מהיר יותר של הגרעין ביחידת Radeon HD 5450 הבדידה של AMD.

סריקה וחיסור:  איור 9א’ ואיור 9ב’ מציגים את זמני העברת הנתונים ואת זמני ביצוע הגרעין של סריקה וחיסור בהתאמה. זמן הביצוע הכולל של סריקה דומה בערך עבור יחידת GPU מסוג Radeon HD 5870 של AMD בעלת היכולת הגבוהה, ועבור יחידת APU. תוצאה ניסיונית זו מדהימה, בהינתן העובדה שליחידת Radeon HD 5870 של AMD יש לא רק ליבות GPU מהירות יותר, אלא פי עשרים יחידות כאלו בהשוואה ליחידת APU. על אף שביצוע הגרעין איטי יותר ליחידת APU, פעולות העברת הנתונים בה מהירות יותר ולכן הן מקזזות את ההשפעה של ליבות העיבוד האיטיות יותר שביחידת APU. עבור מבחן הביצועים של החיסור, זמן הביצוע הכולל בפועל היה טוב ביחידת APU בעלת “הביצועים הפחותים” יותר מאשר ביחידה Radeon HD 5870 של AMD בעלת “היכולת הטובה יותר”. הביטול של העברת נתונים דרך אפיק PCIe מאפשר ליחידות GPU המשולבות בתוך יחידת APU לספק ביצועים טובים פי שלושה יותר מאשר יחידת Radeon HD 5870 של AMD, על אף שיש להם פחות מ-1/20 מהיכולת החישובית שלה.

כפי שהוצג בפרק 3, ההאצה S’ היא פונקציה של התקורה המקבילית, שהיא הזמן המושקע בהעברת נתונים בין GPU ויחידת GPU, וזאת כתוצאה מהעברת יישום למקבילי ביחידת GPU שבה אינסוף ליבות עיבוד. טבלה V מסכמת את ערכי החיסכון בזמני העברת הנתונים שנגזרים מהביטול של השימוש באפיק PCIe. היתרון מחושב כיחס הקיים בין זמן העברת הנתונים בשימוש ביחידת GPU בדידה לבין זה שנמצא בשימוש ביחידת APU. עבור כל יישום, מחושב החציון של ערכי החיסכון עבור כל הגדלים הבעייתיים. ברור לעין מתוך הטבלה שארכיטקטורת Fusion של AMD מצליחה להתגבר על צוואר הבקבוק של אפיק PCIe, אשר ממנו “סובל” השימוש ביחידת GPU עצמאית.

עם זאת, עלינו לשים לב לעובדה שההאצה S’ היא גם פונקציה של p’, החלק המקבילי המואץ של התוכנית. מעבר לכך, הערך של p’ יכול להשתנות במידה משמעותית בתלות במספרן של יחידות החישוב וברוחב הפס הזמין של הזיכרון ביחידת GPU וכן גם בעוצמה החישובית (arithmetic intensity) ובתבנית הגישה לזיכרון של האלגוריתם. על אף שאפשר להקטין במידה רבה את o באמצעות שימוש בטכנולוגיית Fusion של AMD, על מנת להפחית את העלות של העברת הנתונים בין CPU לזיכרון יחידת GPU, אין כל ערבות לכך שהערך של p’ יישאר ללא שינוי בהשוואה לשימוש ביחידת GPU בדידה. עובדה זו מעוררת בעיה חשובה ומאתגרת, ומחייבת להבין את השינוי המתרחש בביצועים של p’ בין מערכת משולבת של CPU עם יחידת GPU לבין מערכת של יחידת GPU עצמאית, שזיהינו אותה וקבענו אותה לחקירה בעתיד.

עבודה קשורה

כתוצאה מהחידוש הקיים בארכיטקטורת Fusion של AMD, קשה למצוא בספרות דיונים רבים שמתייחסים לארכיטקטורה המסוימת הזו. עם זאת, נערך מחקר בהיקף משמעותי שמטרתו להעריך את הביצועים של יחידות GPU. לדוגמה, ריו (Ryoo) ועמיתים ביצעו מחקר בנוגע לאופטימיזציה והעריכו את הביצועים של יחידות GPU בדידות של חברת NVIDIA. המחברים הוכיחו שעל אף שביחידות GPU גלומה התקווה לאספקת יתרונות משמעותיים, יש צורך להתמיד בביצוע אופטימיזציה של יישומי GPU. יאנג (Jang) ועמיתים וז’ודונג (Xudong) ועמיתים, אשר הציעו אסטרטגיות לביצוע אופטימיזציה של יחידות GPU של AMD באמצעות שפת התכנות Brook+ והעריכו אותן על מימוש של גרעין כפל מטריצות ושל יישום מרובה סריגים (multi grid) לפתרון של משוואות דיפרנציאליות חלקיות (PDE) בהתאמה.

מסקנות ועבודה עתידית

הוכח שיחידות GPU מספקות יתרון גדול למדי בהאצה של יישומים מדעיים רבים. עם זאת, הביצועים של יישומים עם יחידות GPU נפגעים לעתים קרובות מפעולות ההעברה האיטיות בין CPU ליחידת GPU המבוצעות באפיק PCIe. ארכיטקטורות חדשניות, כדוגמת Fusion של AMD, אשר מבטלות את הצורך בגישה אל יחידת GPU וממנה דרך אפיק PCIe, נושאות את ההבטחה שהן יצליחו להתגבר על צווארי בקבוק אלו ומכאן לשפר את הביצועים של היישומים.

במאמר זה הדגמנו באופן ניסויי את היעילות של ארכיטקטורת Fusion כאשר העלויות של העברת הנתונים דרך אפיק PCIe מוחלפות בפעולות העברה פשוטות ומהירות של בלוקים של זיכרון בין מחיצות הזיכרון של x86 ושל מנועי SIMD. הראינו שביישומים מסוימים, אפשר להקטין את העלויות האלה, עד כדי פי שישה. עם זאת, במקרים של העברת נתונים בערכי גודל קטנים יותר, מצאנו שהעלות של העברת הנתונים בארכיטקטורת Fusion של AMD הייתה גרועה יותר מאשר המתחרה העצמאית שלה. בעיה זו מצביעה כנראה על האפשרות הסבירה, לפיה מנגנוני פרוטוקולים ומדיניות הנמצאים ביסוד הפעולות, אשר להם יש עלות גבוהה, הם שיוצרים עלויות של תקורה, שאותן אין אפשרות להקטין, אלא כאשר מגיעים לסף של העברת נתונים בגודל מסוים. צפוי שבארכיטקטורות עתידיות של יחידות APU ימוזגו מחיצות הזיכרון האלו באופן חלק, והמשמעות היא שלא יהיה צורך בהעברת נתונים כלל אל זיכרון יחידת GPU וממנו, ושהביצועים הכוללים של היישום רק ישתפרו.

לבסוף, הראינו שביצועי היישומים בארכיטקטורת Fusion של AMD עמידים מאוד. באופן מיוחד, עבור מבחן ביצועים מסוים, למשל עבור חיסור, שבו ארכיטקטורת Fusion סיפקה שיפור של פי שלושה בביצועי היישום, בהשוואה לשימוש ביחידת GPU בדידה, שלה יש יכולת חישובית פי 20 גדולה יותר.

הכתבה באדיבות אתר: http://synergy.cs.vt.edu/publications.php

פלטפורמה מסדרת G ברכיבי COM Express ו–Qseven: הפלטפורמה המשובצת הראשונה עם טכנולוגיית Fusion חדשנית

מאת: Martin Danzer, Congatec

חלוקת משימות
טכנולוגיית Fusion של AMD שהוצגה ב- 19 בינואר, היא סוג חדש לחלוטין של ארכיטקטורת מעבדים המיועדת לשוק ההתקנים המשובצים. הטכנולוגיה משלבת את יכולת המחשוב של מעבדים וליבות גרפיות אל תוך מארז קומפקטי יחיד. המשתמשים מפיקים תועלת מביצועי יע”מ [CPU] וגרפיקה גבוהים, מיחס מעולה של ביצועים להספק ומהקצאת משימות גמישה ביע”מ וביחידת העיבוד הגרפי. היחידה הבסיסית Conga-BAF של מחשב–על–מודול בטכנולוגיית COM ExpressTM של חברת Congatec היא אחת הפלטפורמות הראשונות שממומשת בפלטפורמה החדשה המשובצת מסדרת G עם טכנולוגיית Fusion.

משימות המחשוב ברכיבים משובצים הופכות להיות דורשניות יותר ויותר בכל היישומים. בנוסף ליכולת עיבוד גבוהה, גנרית וברובה טורית, של יחידות היע”מ x86, מזה זמן רב קיימת דרישה גם לביצועים נוספים, ייעודיים ולעתים מקביליים לצורך עיבוד אלגוריתמים מורכבים, בין אם לצורך קידוד או פענוח קידוד של אותות וידיאו ברזולוציה גבוהה, לעיבוד נתונים גולמיים כגון עיבוד תמונה ביישומים תעשייתיים, או לצורך חישובים וקטוריים מורכבים בפרוצדורות של דימות לאבחון בטכנולוגיה הרפואית. עד עתה, אם היה צריך לעבד את המשימות האלו באמצעות תכנון על בסיס x86, שלו נדרשת כמות גדולה של יכולת עיבוד בשילוב עם תדירות במהירות גבוהה של אות שעון, התוצאה הסופית הייתה דרישות גבוהות של אנרגיה שהפיקו כמות רבה של חום. טכנולוגיית ריבוי הליבות וכן העלייה הנמשכת ביעילותה של טכנולוגיית המעבדים, יכולות במידה מסוימת להקל על נקודת לחץ זו. עם זאת, עדיין נותרה בעינה העובדה שקצב אות השעון של מעבדים מהירים יותר אינו יכול כשלעצמו למלא את כל הדרישות.
מחשבים על מודולים ברכיבים משובצים מספקים יכולות ביצועי גרפיקה רבות יותר ורזולוציה גבוהה יותר
תוך כדי כך, הופכים הביצועים הגרפיים להיות חשובים יותר בתחום היישומים המשובצים. עד עתה, בין הדרישות החשובות ביותר שעמדו בפני מתכנני רכיבים משובצים נכללו זמינות לטווח הארוך, תכנון קומפקטי, יעילות טובה מאוד של אנרגיה ותכנון קשיח, ואילו עתה, נוספו להם אף ביצועי גרפיקה ברמה גבוהה. את אלו אפשר כבר לראות בתצוגות קטנות להתקנים ניידים. למשל, בשוק הצריכה, רזולוציה של 800×400 פיקסלים עבור מסכים בגודל של 3.5 אינטש, אינם מראה יוצא דופן. ככל שהצגים הופכים גדולים יותר, הרזולוציה המוצעת גדלה עמם. המשמעות הברורה היא שגם בתחומים משובצים, מסכים בגודל קטן ובינוני המגיעים עד ל-15 אינטש יציעו רזולוציה גבוהה יותר ומן הסתם יהוו יתרונות נוספים עבור המשתמשים. דרישת הביצועים נתמכת אף היא על ידי שתי מגמות עיקריות. מן הצד האחד חיישני מגע קיבוליים, אשר בין השאר, נדרשים לפתרונות קשיחים של מגע מדויק ברמה גבוהה וכן עבור טכנולוגיה חדשנית בריבוי מגעים, אשר, השימוש בה עלה זה מכבר על השימוש בטכנולוגיות התנגדותיות, זאת על פי מחקרי VDC בנושא חיישני מסך מגע ותצוגות. מן הצד האחר, מסכי מגע גדולים (מעל 15 אינטש), המיועדים ליישומים כגון פתרונות עבור “נקודת עניין” [POI] ופתרונות של שילוט ספרתי אינטראקטיבי עם תלות בהקשר, מדורגים בין הפתרונות המתקדמים הרציניים ביותר. בהינתן דרישות הרזולוציה בלבד, ביצועי גרפיקה גבוהים ביותר כבר הופכים להיות בחזקת חובה עבור יישומים אלו.

פרטי ארכיטקטורת הפלטפורמה בסדרת G המשובצת של AMD

בדיקות מראות שביצועי הגרפיקה של הפלטפורמה בסדרת G החדשה המשובצת של AMD נמצאים הרבה מעל הביצועים של המעבד Core i5 520M של Intel.

ביצועי גרפיקה מהירים יותר מגבירים את השימושיות
ביצועי גרפיקה טובים יותר נדרשים לא רק עבור רזולוציות מסך גבוהות יותר. הם נדרשים גם עבור תפיסות הפעלה חדשניות שמשתמשות בממשקי GUI מודרניים באיכות גבוהה. דוגמאות לאלו אפשר לראות בתחום הרפואי, התעשייתי ובתחום אוטומציית מבנים, במסופי גיימינג, ובמסופי “קיוסק”, בנקודות מכירה [POS] ובנקודות עניין [POI], במרכזים של בידור – חינוכי ובתחום השילוט הספרתי (האינטראקטיבי). במקרים אלו יש צורך בביצועים של תלת ממד [3D] לקבלת אנימציה והדמיה מושכות את העין, בד בבד עם הצגה גמישה של תכנים ברזולוציית HD. אך עם זאת, ביישומים אלו, ביצועי תלת ממד אינם שימושיים רק עבור תצוגה ואנימציה של דמויות שאין בהן השהיות – אלא – במיוחד הם משפרים את נוחות הפעולה ואמינות ההפעלה של יישומים מבוססי מסך מגע. ודבר אחרון אם כי לא חסר חשיבות, הוא העובדה שליבת הגרפיקה צריכה לפשט את עומס העבודה של יחידת היע”מ במהלך הפענוח של וידיאו ברזולציית HD, שהוא למשל חשוב מאוד בתחום הטכנולוגיה הרפואית (בבדיקות אולטרה סאונד או אנדוסקופייה בארבעה ממדים [4D]) וביישומים של בידור – חינוכי. לכן ביצועי גרפיקה ברמה גבוהה אינם נדרשים רק עבור מסכים גדולים, מפני שאפילו עבור מסכים בגודל קטן ובינוני יש צורך ביכולות רבות יותר של ביצועים גרפיים עם רזולוציות גבוהות יותר ויותר. יתר על כן, ככל שהיישומים המשובצים קרובים יותר למגזר הצרכני, כך ציפיותיו של המשתמש תהיינה גבוהות יותר. דוגמה שנביא כאן יכולה להיות יישומי גיימינג או מסופי POS ו-POI. לכן, כתוצאה מכך יישומים משובצים רבים הופכים להיות דורשניים יותר ויותר בכל הקשור לביצועים גרפיים.

בעלת הליבה הכפולה G-T56N ל-1.6 ג'יגה-הרץ של AMD היא שוות ערך למעבד Core i5 520M של Intel."]

יחידת העיבוד המואץ [APU

conga-BAF הוא המחשב-על-מודול הבסיסי בטכנולוגיית ™COM Express הראשון בעולם, והוא מבוסס על הפלטפורמה בסדרת G המשובצת של AMD.

טכנולוגיית Fusion מאפשרת חלוקת משימות רבה יותר
עד עתה, המצב היה שביצועים גרפיים של פתרונות משובצים התרחבו באופן יחסי לביצועים של יחידת היע”מ. ככל שהייתה דרישה רבה יותר ליכולות של ביצועים גרפיים, יחידת היע”מ הייתה צריכה לקבל אותות שעון רבים יותר. ובה בעת, תלות זו אינה מקושרת באופן מעשי בדרך שאינה ניתנת לשינוי: ככל שיחידת העיבוד הגרפי [GPU] תיקח על עצמה יותר משימות, כך יוקל העומס מעל יחידת היע”מ. באופן תיאורטי, אפשר גם להעביר ליחידת היע”מ פחות אותות שעון ככל שעוצמתה של יחידת העיבוד הגרפי גבוהה יותר. ועם זאת, לא היה צורך בכל זה קודם לכן, מפני שהדרישה הלכה וגדלה בשני התחומים. להתפתחות המעמיקה והנפרדת של יחידת היע”מ ושל המעבד הגרפי יש כעת פחות ופחות היגיון. לכן, בעזרת פלטפורמה משובצת מסדרת G, שילבה חברת AMD שתי טכנולוגיות במארז יחיד. כיום, עומדת לרשות המשתמשים ליבת גרפיקה לביצועים גבוהים מאוד עם ביצועי מעבד שניתן לשדרוג באופן נרחב, וכל זאת בעיקבת מעגל קומפקטית במיוחד, בגודל של 19 מ”מ  19 מ”מ בלבד. טכנולוגיית Fusion עושה צעד נוסף וחשוב אל מעבר לסתם מיזוג של החומרה: יחידת העיבוד המואץ [APU] משלבת את יכולת המחשוב הטורית של ליבת המעבד עם יכולת המחשוב המקבילית של הכרטיס הגרפי. משמעות הדבר היא מיזוג של חלוקת משימות ההנדסה של התוכנה שהייתה קיימת קודם, של המעבד ושל ליבת הגרפיקה. אם נאמר זאת במילים פשוטות, ליבת הגרפיקה יכולה להקל על ליבות המעבד בזמן ביצוע משימות מקבילות ובכך להעצים את הביצועים הכוללים של המערכת הרבה מעבר למה שהיה ניתן קודם לכן. אך איך זה אפשרי ומה משמעות הדבר עבור יישומים משובצים?
ליבת גרפיקה בתור “מעבד עזר”
ראשית יש להבין את הפונקציונליות של ליבת הגרפיקה: יעילותה של ליבת הגרפיקה, המונעת על ידי שוק הצרכנים, נמצאת בגידול מתמיד וקבוע. באופן מיוחד, קידמה ההצגה התלת ממדית של עולמות וירטואליים את ההתמחות של כרטיס הגרפיקה והביאה אותו אל היכולת הגבוהה ביותר של מחשוב מקבילי. כתוצאה ממגוון הנתונים הגרפיים, כמו למשל חישובים של מארגים, נפחים ויצירת מודלים תלת ממדיים של שאילתות בדיקת התנגשויות (collision query), וכן, מצללי Shader) Vertex) לחישובים הנדסיים, היכולות הפונקציונליות כבר אינן מעוצבות באופן קשיח בחומרה, אלא דווקא יכולות להיות מתוכנתות באופן חופשי. לכן, ליבת גרפיקה מודרנית מציעה פוטנציאל הישגים גמיש ועצום. ניתן להשתמש בפוטנציאל הזה בעזרת מה שאנו קוראים “יחידת עיבוד גרפי למטרה כללית” – GPGPU – לא רק לחישובים ולהצגה של גרפיקה, אלא גם לעיבוד נתונים.
דוגמה לכך אפשר לראות בחישובי אולטרה סאונד בשלושה ממדים בתחום הרפואי; בזיהוי פנים בתחום הביטחוני; בעיבוד הדמיות ביישומים תעשייתיים; או בקידוד ופענוח קידוד של נתונים. צורות נתונים מסוימות, למשל נתונים המגיעים מחיישנים, מראשי מדידה, ממקמ”שים או ממצלמות וידיאו עוברים עיבוד עם ליבות עיבוד ייעודיות ביעילות ובמהירות רבות יותר בהרבה מאשר עם יכולת מחשוב גנרית סדרתית של מעבדי x86. מפני שעם GPGPU, זה כלל לא חשוב אם הנתונים של קודי התוכנית מופקים באופן וירטואלי לחלוטין או שהם מועברים ממקורות חיצוניים. אי לכך יש התוויות כלשהן שתומכות באיחוד של יחידת היע”מ [CPU] עם יחידת העיבוד הגרפי [GPU] אל יחידת עיבוד מואץ [APU] על מנת ליצור צוות חזק אפילו עוד יותר.

לא הביצועים של יחידת היע”מ הם הקריטיים
– אלא –
דווקא הביצועים של יחידת העיבוד המואץ
ולכן, עם זאת, יצרני ציוד מקור [OEM] ומשתמשים חייבים לומר שלום ולהתראות לביטוי: “ביצועי יחידת יע”מ בלתי רגילים” מפני שעכשיו, לא רק יחידת היע”מ היא שקובעת את יכולת המחשוב, גם לליבת הגרפיקה יש מה לומר והיא ממלאה תפקיד חיוני. מלבד הייצוג הגרפי לבדו, היא כבר משמשת ביישומים רבים, לדוגמה, באלגוריתמי מסנן של תוכניות תוכנה לעריכת תמונות כגון Photoshop, בתוכניות לקידוד ולהמרה של נתוני וידיאו, וכן בתוכנה Adobe Flash Player. ועם זאת, אנשי פיתוח נאלצו להיאבק בעובדה שלארכיטקטורות יחידות יע”מ מסורתיות וכלי תכנון לא היו הכישורים המתאימים עבור נתונים מבוססי וקטורים עם ריבוי תהליכונים מקביליים. בעזרת הטכנולוגיה Fusion ניתן להתגבר על משוכה זו. בעזרת ממשקי API קלים לשימוש, כמו למשל DirectCompute של Microsoft או OpenCL, אשר נתמכים על ידי הטכנולוגיה Fusion של חברת AMD, אנשי פיתוח של תוכנת יישומים יכולים להשתמש ביעילות בפוטנציאל של ליבת הגרפיקה של יחידת APU עבור משימות מגוונות, חוץ מאשר עבור המטרה המקורית של הצגה גרפית. ואולם, קיימת דרישה שליבת הגרפיקה תתמוך בכך. פלטפורמה מסדרת G לרכיבים משובצים של חברת AMD היא הראשונה המגשימה את הדרישה הזו. לכן חברת AMD כבר מספקת ערכות לפיתוח תוכנה [SDK] שמסייעות לפשט את הצגת הסוג החדש של עיבוד נתונים.

מחשוב “פשוט” משובץ – גם הוא אפשרי
הצבת הטכנולוגיה של Fusion אינה רק מתאימה ליישומים מיוחדים. יותר מזה, אפשר להשתמש בפלטפורמה מסדרת G על פני הטווח כולו של טכנולוגיית מחשבים משובצים. עם ביצועים ניתנים לשדרוג באופן נרחב, החל במשתנים חסכוניים של ליבה יחידה עם 12 ג’יגה הרץ ועד מעבדי ליבה כפולים של  2 x 1.6 ג’יגה הרץ, הפלטפורמה החדשה של AMD מכסה עד כדי 80% מכל דרישות היישומים בשוק הרכיבים המשובצים, החל מיישומי הספק נמוך ועד יישומים של ביצועים גבוהים. על מנת לפרט את טווח הביצועים לפי סטנדרטים מוכרים, אפשר לומר שניתן לשדרג את פלטפורמת הרכיבים המשובצים מסדרה G של חברת AMD עבור פתרונות, שלהם יש פרופיל דרישות של מעבד Atom של Intel עד לביצועים של הליבה הכפולה Core i5 של Intel (מהדור הראשון). כל זאת בצימוד עם ביצועים גרפיים מעולים באופן תחרותי, אשר הודות ל- GPGPU יכולים לשמש עבור משימות מחשוב של רכיבים משובצים. וכל זאת עדיין לא משולב בחישוב הביצועים; לכן בתלות ביישום, עדיין אפשר להגדיל את פוטנציאל הביצועים  ולהפוך אותו לגבוה יותר בהרבה. בלי קשר לתחום, יצרני ציוד מקור יכולים לכן לממש את כל טווח המוצרים שלהם על בסיס של ארכיטקטורת מעבד יחיד. עובדה זו לא רק שהיא מקטינה את העלויות והזמן הכרוכים בפיתוח, אלא היא גם מפשטת את ניהול שרשרת האספקה וכן את ניהול מחזור החיים והעלויות הנלוות. השימוש במחשב על מודול [COM] מומלץ ליצרני ציוד המקור ולאנשי פיתוח שמעדיפים להשתמש באופן ישיר ברכיבי מחשוב ליבה, בלי יותר מדי מאמצי תכנון, ואשר הם גם מבקשים לבצע אופטימיזציה נוספת לניהול שרשרת האספקה שלהם עם פלטפורמה של רכיבים מוכנים לרכישה באופן מסחרי מן המדף [COTS] שתהיה גמישה ככל האפשר.

אמצעי הטכנולוגיה האידיאלי: מחשב על מודול
מחשבים על מודולים הם מחשבים אישיים [PC] משובצים עם פונקציונליות מורחבת של הליבה, שאותם אפשר לחבר בקלות למעגלים הנושאים [carrier boards] שלהם. כל שנותר לפתח הוא רק את ההתאמה האישית של המעגל הנושא עם הכניסות והיציאות עבור היישום של הלקוח. לכן, הפיתוח והתכנון בשלבים של מערכות משובצות הופכים לפשוטים באופן משמעותי. המהנדסים התומכים ומהנדסי הפיתוח תומכים כבר בלקוחותיהם עם רעיונות למוצרים. ולכן, אפשר לבצע אופטימיזציה של עלויות המערכת ואינטגרציה של המערכת מההתחלה.
בגלל מודולי מחשבים ניתנים להחלפה, לא רק שאפשר לשדרג את יכולת העיבוד, אלא גם את התמיכה של הממשקים. באמצעות השימוש במודולי מחשב, השימוש בפלטפורמה מסדרה G  החדשה לגמרי של חברת AMD ביישומים קיימים וכן בתכנונים חדשים, נעשה אפשרי במהירות.
המחשב על מודול הראשון בעולם, אשר מצויד בטכנולוגיית מעבד חדשה זו הוא יחידה בסיסית של מחשב על מודול Conga-BAF בטכנולוגיית COM Express של Congatec. בהיותו אחד התכנונים הראשונים, היחידה Conga-BAF עם טכנולוגיית Fusion של AMD מציעה ליצרני ציוד המקור ביצועי מחשוב וגרפיקה משולבים, אשר עד עתה לא היו אפשריים כלל או שהיו אפשריים רק עם תכנון הספקים עם התחשבות בפיזור חום [TDP] ברמה גבוהה באופן יוצא דופן. היחידה Conga-BAF היא מחשב על מודול בטכנולוגיית COM ExpressTM המבוסס על גורם הצורה COM Express Basic
(125 מ”מ  95 מ”מ). הוא ניתן לשדרוג על פני כל רוחב הפס של יחידות העיבוד המואץ [APU] הזמינות בפלטפורמה מסדרת G של חברת AMD: החל מיחידת עיבוד מואץ בליבה יחידה של 1.2 ג’יגה הרץ ועד גרסה של ליבה כפולה מהירה יותר של 2 x 1.6 ג’יגה הרץ. כך יכולים יצרני ציוד המקור סוף כל סוף לכייל את הספק המחשוב לפי דרישות הביצועים. קיימת תמיכה עבור שתי תושבות זיכרון של עד 8 ג’יגה ביית של זיכרון RAM מסוג DDR3 המהיר, אשר הוא מאיץ אפילו עוד יותר את היישומים שנדרש להם זיכרון רב יותר. בהיותו תואם לגרסת 2.0 COM.0 החדשה של מפרט ™COM Express, הוא מממש 6 ממשקי PCI Express עם נתיב (lane) אחד מסוג Gen 2.0, ארבעה אפיקי SATA 3, אפיק PCI אחד, אפיק Gigabit Ethernet, שמונה חיבורי USB 2.0 ואפיק EIDE. ובמיוחד, אנשי פיתוח יכולים להפיק תועלת מממשקי התצוגה הספרתיים הייעודיים בעלת שני חיבורי DisplayPort, שני חיבורי HDMI או DVI אשר מאפשרים ביצוע אינטגרציה מהיר וגמיש יותר של כל סוגי הצגים הזמינים כעת בשוק. למותר לציין שרזולוציות (VGA (2560 x 1600
ו-  נתמכים אף הם. בסיכומו של דבר, אפשר לשלוט בשתי תצוגות בלתי תלויות. ביישומים עם רגישות קריטית לבטיחות כמו למשל בתחום הגיימיניג, מספק המודול החדש מודול פלטפורמה אמין שניתן לבטוח בו, שמתאים לאימות ולשלמות נתונים ברמה גבוהה. לכן אנו ממליצים על היחידה conga–BAF החדשה כפתרון כדאי מבחינה עלות עבור כל היישומים, אשר בנוסף לביצועי יחידת היע”מ הניתנת לשדרוג בצורה נאותה, דורשים ביצועים גרפיים ברמה גבוהה או שהם מיועדים לעיבוד מקבילי של זרימות נתונים רחבות כדוגמת, יישומים לעיבוד אולטרה סאונד או לעיבוד תמונה.
Martin Danzer is the head of Research and Development at congatec AG in Deggendorf.

טכנולוגיות מעבדי X86 של AMD דור מעבדים חדש עבור מערכות משובצות

מאת: אורליוס ווסילוס, AMD

באירוע האחרון של עולם ההתקנים המשובצים שנערך בנירנברג, הכריזה AMD על טכנולוגיית מעבדים חדשה המיועדת לשוק המחשוב בהתקנים משובצים: מעבדי סדרת G של AMD. טכנולוגיה זו, המבוססת על אותה ליבה חדשה של יחידת עיבוד מרכזית (CPU) ל-64 סיביות, המהווה חלק מיחידות העיבוד המואץ (APU) בסדרת G של התקנים משובצים של AMD, מספקת ביצועי עיבוד מרשימים של x86 עבור המערכות וההתקנים הפנימיים בהן אין דרישה ליציאה גרפית (headless).
את אחת הסיבות העיקריות שגרמו בעבר למימוש טכנולוגיות x86 בתוך מערכות משובצות, אפשר לראות בביצועי מחשוב גבוהים ורב תכליתיים ובקישוריות הרשת שלהם. ככל שטכנולוגיית מחשוב משובצת הייתה רווחת יותר, יכולות גרפיות מתוחכמות עבור ממשקי אדם מכונה (HMI) בשווקים נישתיים שונים זכו אף הם בחשיבות ניכרת. השילוב של שני גורמים אלו, יכולת מחשוב גבוהה ורב תכליתית ויכולות גרפיות, סולל את הדרך להצלחה נרחבת ומתפתחת של טכנולוגיית x86 ביישומים משובצים.
בצד השיפורים הנמשכים בביצועי יחידות מעבדים, גם טכנולוגיית מעבדי x86 הוכיחה את הצלחתה ונעה אל התחומים שבהם אין צורך בממשק גרפי, כמו למשל התחום של מערכות למסדים (rack systems) ומערכות עם לוח אם לביצועים גבוהים, כפי שהם משמשים כיום במערכות AT/ISA 96, במערכות VME ו-CompactPCI ובמערכות ATCA, MicroTCA ו-VPX. מאחר שלא נדרשו ביצועי גרפיקה, היצרנים השתמשן לא פעם בערכות שבבים המיועדות לשימוש בשרתים.

פלטפורמה אחת עבור טווח רחב של יישומי מערכות משובצות: יחידות CPU ויחידות APU בסדרה G של התקנים משובצים של AMD

המערכות במגזר ההתקנים המשובצים הפועלים בהספק נמוך והמערכות לשימוש ייעודי תוכננו אף הן בשנים האחרונות סביב טכנולוגיית x86. כל זאת הפך להיות אפשרי כתוצאה מהעלייה המתמדת ביחס הביצועים לכל וואט של פלטפורמות x86, וכן הקטנת המעגל שלהן באופן כל כך קיצוני, עד כי כיום הן מתאימות לשילוב בתכנונים קטנים ביותר ויכולים לעמוד במגבלות הפיסיות של התקנים משובצים בצפיפות גבוהה לכן, טכנולוגיית המעבדים x86 נמצאת כיום במצב שבו היא יכולה להשתלב יותר ויותר ביישומים ובמגזרים שבהם טכנולוגיות אחרות של מעבדים שלטו בעבר. טכנולוגית  של  מכוונת כיום להעניק יתרונות לתכנונים שאינם נדרשים לממשק גרפי  לצורך תצוגה.
יישומים פנימיים עבור התקנים משובצים בעלי גודל פיסי קטן
אחת הדוגמאות לשימוש כזה אפשר למצוא במגזר האוטומציה התעשייתית, שבו בקרים לוגיים מתוכנתים (PLC) רגילים, עם פענוח קידוד בחומרה, שלטו בעבר ברמת התהליכים. התקנים אלו לא סיפקו בדרך כלל פונקציונליות גרפית ישירה לממשק המשתמש. בתחום זה, בקרים מתוכנתים בתוכנה מבוססי x86, עם הקישוריות העוברת דרך התקנים שמחוברים דרך רשת שמחוברת כל העת, יכולים מעתה לספק ערך, שהדרך הטובה ביותר לתאר אותו היא במונחים של “פתיחות” ו”נוחות המשתמש”. למשל, היכולת לגשת להתקנים המשובצים באמצעות דפדפני רשת מאפשרת לבצע קונפיגורציה מרחוק של תהליכים מבוזרים ברחבי בית החרושת ולנטר אותם מרחוק מכל מקום בעולם.
כאשר יצרני ציוד מקור (OEM) משתמשים בפלטפורמה בטכנולוגיית x86 עבור התקנים אלו, הם מקבלים יתרון ממערכת סביבתית מקיפה של תוכנה עבור x86, מכלים     ומהדרים  עבורה. קיימות אפשרויות התייעלות נוספות המבוססות על ההיכרות שיש למתכננים ולאנשי פיתוח רבים מאוד עם x86. אינטגרטורים של מערכות יכולים למנף את התקשורת ואת תשתית הרישות המאוחדות שפועלות באופן חלק ברחבי רצפת המפעל כולו, עד לרשת טכנולוגיית המידע (IT), כולל המערכות המשובצות בשטח. היכולת לפרוש טכנולוגיה אחידה ברחבי התשתית כולה יכולה להעניק יתרונות ייחודיים במונחים של עלות ואמינות. הרחבות אלו פותחות את האפשרויות להתקדם לעומק אף יותר, עד לחיישנים ולמפעילים (actuator).

המעבד בסדרה G של AMD מכסה שטח של 361 ממ"ר

ליבת "Bobcat" להספק נמוך ול-64 סיביות בסדרה G של AMD בפרטים: כמה תכונות ביצועים כדוגמת out of order instruction execution, בשילוב עם תכנון להספק נמוך מביאים ליחס מצוין של ביצועים לכל וואט

הקטנת הגודל היא המפתח
עד עתה, בפני פלטפורמות מעבדי x86 עמדה במידה מסוימת הברירה הלא נוחה הבאה: ככל שהפכו להיות קטנות יותר הן שילבו פונקציונליות רבה יותר. מצב זה היה במיוחד נכון כאשר היחידה הגרפית, שבדרך כלל הייתה הרכיב השני בצריכת האנרגיה שלו אחרי יחידת CPU, עברה מערכת השבבים ליחידה אחת עם המעבד, ואפשרה בכך יצירת פתרונות עם חיסכון במקום ונצילות הספק גבוהה בשני שבבים במקום השלישייה ששימשה לפני כן, שכללה יחידת CPU, “גשר צפוני” (northbridge) ו”גשר דרומי” (southbridge). עם זאת, למרות האינטגרציה ברמה גבוהה של הפונקציונליות בתוך המעבד והמגמה הנוטה לגודל פיסי קטן שהונעה על ידי אינטגרציה זו, ההתייחסות לטכנולוגיות של x86 הייתה עודה בעלת גודל פיסי גדול מדי עבור יישומים פנימיים משובצים במידה רבה. תפישה זו ממשיכה להתקיים אפילו כשלוקחים בחשבון את העובדה שפלטפורמת x86 יכולה מעתה להיות מתאימה באופן מיוחד לאור צריכת ההספק הנמוכה שלה, הגודל הפיסי הקטן והטכנולוגיות שלה, שפעולתן הוכחה במיליוני התקנים סטנדרטיים במוצרי צריכה ולאור המערכת הסביבתית של תוכנה וכלי פיתוח הנרחבים שישנם.
כתוצאה מכך, כדי לשפר את הדרך עבור המתכננים על מנת שיוכלו להפיק תועלת מהיתרונות של x86 עבור יישומים משובצים, דומה היה שהצעד המתאים ביותר הוא הפיכת פונקציונליות שאינן נדרשות לחיצוניות, על ידי הוצאתם משבב המעבד. זו בדיוק הייתה הפעולה שבה נקטה לאחרונה חברת AMD עם מעבד סדרת G המשובץ שלה. בהמשך להוצאה לשוק של יחידות APU המשובצות של AMD שנעשתה בינואר 2011, ביריד המסחרי העולמי למערכות משובצות, הוציאה חברת AMD שלוש יחידות CPU בסדרת G, כולם מבוססים על ליבת “Bobcat”, אשר לה כולם המתינו. יחידות CPU חדשות אלו מוצעות במיוחד עבור מימושים של מערכות פנימית (headless), שבהן אין צורך בגרפיקה או בקלט ישיר של המשתמש וגרסאות חדשות אלו של פלטפורמת סדרת G של חברת AMD מספקות פונקציונליות מדהימה של CPU מסוג x86.
בדומה ליחידות APU רגילות, גרסאות המערכות הפנימיות בסדרה G של התקנים משובצים של AMD, מתאפיינים בנצילות הספק יוצאת דופן ובקבוצת תכונות המותאמת באופטימיזציה לצרכים של טווח רחב של מערכות משובצות. אפשר לכוון את ביצועי העיבוד של x86 הרב תכליתי ל-64 סיביות כך שיתאימו ליישום, עם שלוש רמות של ביצועים מהמעבד T24L בעל הליבה היחידה ל-800 מגה-הרץ עד למעבד T48L בעל שתי הליבות ל-1.4 ג’גה-הרץ. יחידות CPU מתאפיינות בהספק לפי תכנון מרבי לחום (TPD) של 5 עד 18 וואט בלבד. מעבר לכך, יחידות CPU החדשות כוללות גם מגוון של חלקי מערכת בעלי חשיבות גבוהה לרבות בקרי זיכרון, בקרי כניסות ויציאות וממשקי אפיק. כל יכולות העיבוד האלו משולבות במארז BGA זעיר ביותר שמאפשר יצירת תכנונים ללא מאווררים במעגלים מודפסים עם 4 שכבות.

פלטפורמה ניתנת לשדרוג עבור כמעט כל היישומים
בעזרת יחידות CPU החדשות בסדרה G של AMD, מהנדסים יכולים לפתח את ההתקנים המשובצים שלהם עם רמות חדשות של נצילות הספק, ולזהות אפשרויות רבות יותר של כדאיות (מבחינת עלות) בעת השימוש בפלטפורמות x86 שעברו אופטימיזציה. כיום אין צורך לשנות את פלטפורמת הטכנולוגיה הבסיסית המוכרת למתכננים ולמהנדסים רבים במטרה לעבור לשימוש רחב יותר בהתקנים משובצים.
יתרונות אלו הופכים את הפלטפורמה בסדרה G של AMD – בין אם היא יחידת CPU או יחידת APU – לבחירה המתאימה ביותר עבור טווח רחב של יישומים בשווקים המתמזגים של היישומים המשובצים. מצד אחד טכנולוגיה חדשה זו משמשת ביישומים משובצים בתחום מוצרי האלקטרוניקה לצריכה (CE), בשערי תקשורת ביתיים חכמים, בהתקני אחסון נתונים ובשרתי NAS ובהתקנים אחרים המחוברים ברשת. מאידך, הפלטפורמה, שלה יש יכולת שדרוג מרובה, משמשת גם ביישומים של התקנים משובצים נרחבים, שלהם נדרשים ביצועים כוללים יוצאי דופן בתכנונים בגודל פיסי קטן וללא מאווררים, בשילוב עם זמינות לטווח זמן ארוך. אפשר למצוא את התכנונים האלו בשווקים תעשייתיים רבים, כמו למשל בתחומי האוטומציה, התעבורה, תיבות נתונים לרשת אספקת חשמל חכמה מבוזרת, חומות אש מוקשחות, תקשורת M2M ומאות מערכות בתיבות קטנות הנדרשות ביישומי בקרה או לאיסוף והפצת נתונים.
ויתרון נוסף – מאחר שטכנולוגיית יחידות CPU וטכנולוגיית APU מבוססות על הפלטפורמה בסדרה G של AMD, יצרני פלטפורמות חומרה יכולים להעביר בקלות את התכנונים שלהם בין יחידות CPU ליחידות APU. כך הם יכולים להציע את היתרונות של שני התכנונים עם מעט תכנון חוזר של התכנונים המלאים בהתאמה אישית או של המוצרים ברמת המעגל, כמו למשל מחשב-על-מודול, מחשבים במעגל יחיד ולוחות אם. מכאן שגם השימוש במערכת הסביבתית הרחבה שפותחה עבור התקני x86 הסטנדרטיים להספק נמוך יכול התרחב לשימוש עבור התקנים משובצים ייעודיים יותר.

תכנונים חדשניים בגודל פיסי קטן
כתוצאה מהשיפורים המתמידים בתכנון מעבדים, הפלטפורמה בסדרה G של AMD הפכה להיות קומפקטית יותר ומותאמת יותר באופטימיזציה להספק. האינטגרציה של התקן APU מקטינה את גודל המעגל ואת הפלטפורמה משלושה שבבים לשני שבבים. יחידת APU ורכזת הבקרים (הגשר הדרומי) הנלווית אליה מפשטות את התכנון, מפני שנדרשות פחות שכבות של מעגל ונדרש פחות הספק מספק הכוח. עם שיפור יעילות שטח של 48 אחוזים בהשוואה לדורות הקודמים של הפלטפורמות, הקטנת המעגל וצריכת ההספק הנמוכה מסייעות בהפחתת עלויות המערכת הכוללות ומאפשרות תכנון של התקנים ניידים ביותר, ללא מאווררים, שיפעלו זמן ארוך יותר בין פעולות הטעינה של הסוללה.

עלויות מוקטנות למינימום של מחזור חיי המוצר
עם מערך של אפשרויות ביצועים בטווח שבין פלטפורמת מעבד APU בליבה יחידה ל-1.2 ג’יגה-הרץ עד לגרסאות בעלות ליבה כפולה ל-1.6 ג’יגה-הרץ, הפלטפורמה בסדרה G של AMD מאפשרת ליצרני OEM להשתמש בתכנונים של מעגל יחיד עבור כל הטווח המקיף מערכות משובצות – מפתרונות בסיסיים ועד פתרונות מהרמה הגבוהה. באופן כזה יכולה פלטפורמה יחידה להיות הבסיס לקבוצה מקיפה של גרסאות מוצר, למשל למשפחת מוצרים של מחשבי Box PC בטווח שבין גרסה להספק נמוך לגרסה בעלת ביצועים גבוהים. ואם כבר פותחה מערכת חדשה המבוססת על הפלטפורמה הזו, גורם המיחזור של התכנון הוא עצום מאחר שיכולת השדרוג הגבוהה של המעבד מכסה את רוב הדרישות לביצועים של x86 הקיימות כיום ברוב השווקים של ההתקנים המשובצים. בזכות המכנה המשותף של תכנון פלטפורמות ניתנות לשדרוג, שרשרת האספקה הופכת להיות פשוטה והמורכבות התפעולית קטנה עד למינימום בצד הפחתת העלויות הקשורות להן, עובדה המסייעת בשיפור המדדים הכלכליים הקשורים לפלטפורמה עבור יצרני ציוד מקור. בנוסף, מחזורי החיים של התקנים משובצים של AMD עוזרים להבטיח את הזמינות לטווח הארוך של הפלטפורמה החיונית במיוחד לשוקי המחשוב במערכות משובצות שאינן מיועדות למוצרי צריכה.

מסקנות
הן יחידות APU וגם יחידות CPU בסדרה G של התקנים משובצים של AMD עבור תכנונים של מערכות פנימיות מספקים ללקוחות בתחום ההתקנים המשובצים פלטפורמה שלימה וניתנת לשדרוג עם תמיכה לטווח זמן ארוך. כך מתאפשרת האצה של עבודת התכנון ושל מחזורי הפיתוח ומכאן מתקצר זמן היציאה לשוק של יישומים, אשר יכולים להציע יחס יוצא דופן של ביצועים לכל וואט של הספק. היישומים המתאימים ביותר עבור הפלטפורמה הזו מקיפים טווח רחב של יישומים – כאלה שמסתמכים על ניסיון חזותי מרשים תוך שמירה על צריכת הספק נמוכה ביותר או כאלו שנדרשת להם יכולת גבוהה של עיבוד מקבילי במידה יוצאת דופן או שהם ממוקדים בקבוצת תכונות מותאמת באופטימיזציה ובביצועי CPU יעילים ביותר עבור מערכות משובצות. עם כל התועלת הקיימת בעקבת מעגל קומפקטית ביותר, לא מפתיע שבמקביל ליציאה לשוק של הפלטפורמה בסדרה G של AMD, כמה יצרנים של חומרת התקנים משובצים, לרבות Compulab, Congatec, Fujitsu ו-Kontron, הכריזו כבר על מוצרים עם יחידת APU הראשונה בעולם עבור מערכות משובצות בטווח רחב של גודל פיסי שאותם אפשר להעביר בקלות לגרסאות של מערכות פנימיות. העברה כזו יכולה להתבצע בקלות רבה יותר בהרבה בהשוואה לפלטפורמות קודמות, מאחר שבכל התכנו נים קיימת אותה רכזת בקרים (הגשר הדרומי). עם היציאה לשוק של אחת הטכנולוגיות התחרותיות ביותר הקיימות כיום, טכנולוגיית APU של AMD הופכת להיות פתרון ראוי ביותר שמתאים לא רק לחלק הגדול של היישומים בשוק המערכות המשובצות כולו, אלא הוא גם בעל פוטנציאל להביא למהפכה בשוק מחשוב המערכות המשובצות עצמן. לכן, על יצרני OEM לשקול לבצע הערכה של הטכנולוגיה החדשה הזו במאמציהם למלא את דרישות הלקוחות לחוויית משתמש בעלת חיוניות ותפוקה רבה ביותר של נתונים בכל סוגי הביצועים המוצעים.
הכתבה נמסרה באדיבות חברת סטארטרוניקס.

המחבר: אורליוס ווסילוס [Aurelius Wosylus], מנהל מכירות אזורי של אירופה, היחידה העסקית למערכות משובצות בחברת AMD.

איך להאיץ את הנצילות בעומסים נמוכים

מאת: מטיאס אולמן, טקסס אינסטרומנטס

הקדמה
במכונית מודרנית, חייבים להיות מותקנים כמה מעבדי מיקרו עבור מערכות החשמל לצורך שמירת על בטיחות, ניווט, בילוי-פנאי ולנוחות. רוב אלו נמצאים במצב כבוי כאשר המנוע אינו פועל, אך כמה מהם חייבים להיות במצב פועל כל הזמן. לדוגמה, חלק ממערכת הניווט נשאר במצב המתנה על מנת לאפשר התחלת פעולה מהירה. אך גם ביישומים אחרים, בין אם הם מופעלים מהמצבר או שאינם, הדרישה לנצילות גבוהה ובהתאם לכך להפסדים נמוכים במהלך מצב המתנה מתרחבת והולכת.
על מנת לשמר את מצבר הרכב, מותר למשוך ממנו זרם מוגבל של כמה מאות מיקרו אמפר בלבד. לעתים קרובות מבצעים אופטימיזציה בבקרי וממירי מתח מורידים כדי לקבל נצילות גבוהה במצבים של עומס נמוך, למשל ברכיב TPS54240 של טקסס אינסטרומנטס עם המצב ECO-MODETM שלו. ואולם, עבור כמה יישומים, הזרם המשמש במהלך מצב המתנה עודו גבוה מדי.
במאמר זה, נראה כיצד מעגל קטן נוסף יכול להאיץ את הנצילות עד כדי 90% במצב של עומסים נמוכים.

הוספת מנהל מתחים
הרעיון המובא כאן הוא להשתמש במנהל מתחים שיבטל את פעולת הממיר במהלך זמן המתנה. כאשר מתח המוצא יגיע למתח מסוים, פעולת הממיר לא תהיה מאופשרת. לאחר שהעומס יפרק את הקבל במוצא לרמה נמוכה יותר, המנהל יאפשר לממיר לחזור ולטעון את הקבל. רעיון זה מיישם סוג של בקרה בהיסטרזיס [Histeretic Control] כאשר המתח נע בין הרמה הנמוכה יותר לרמה גבוהה יותר. התנאי המוקדם למימוש כזה הוא האפשרות לספק לעומס במהלך זמן ההמתנה, את המתח שיכול להשתנות בתוך פרק זמן נתון.
הרכיב TPS3806I33/TPS3806J20 מבית היוצר של טקסס אינסטרומנטס הוא גלאי מתח כפול עם היסטרזיס ניתן לכוונון ויציאות collector פתוח. במתח הכניסה, עם סף קבוע, אפשר להשתמש כדי לנטר יישומים רגילים של 3.3 וולט או 2.0 וולט. מאידך, את סף המתח הנמוך ואת סף המתח הגבוה אפשר לכוונן באופן חופשי בעזרת נגדים. יש צורך בנגד חיבור למתח (pull–up) במוצא של collector הפתוח ב–/RSTSNS.
כאשר מתח החישה מגיע לסף הנמוך, עובר המוצא /RSTSNS כלפי מטה. הוא לא ישוחרר, אלא לאחר שמתח החישה יגיע שוב לסף הגבוה יותר.
באיור 1 אנו רואים תרשים עם ממיר מוריד מתח מפושט. במהלך פעולה רגילה, העומס צורך זרם של 2.0 אמפר במתח נומינלי של 3.3 וולט. במצב המתנה, צריכת הזרם של העומס מופחתת עד ל- 500 מיקרו אמפר והמתח יכול לרדת עד ל- 2.7 וולט.
חיבור היציאה של מנהל המתחים מתחבר דרך טרנזיסטור FET קטן אל כניסת האפשור (enable) של הממיר. מאחר שבזמן הפעלת אות נמוך על כניסת האפשור הרכיב TPS54240 אינו מאופשר, אות היציאה של מנהל המתחים צריך להיות מהופך.
כאשר טרנזיסטור FET מחובר במקביל אל R3, הממיר עובר במיתוג בין פעולה רגילה לבין מצב המתנה. כאשר טרנזיסטור FET אינו מוליך, מחלק המתח של R1, R2  ו- R3  יהיה פעיל.
כאשר טרנזיסטור FET מוליך ומקצר את R3, המתח ב- HSNS יהיה תמיד 0V (אפס וולט). מצב זה קובע את מתח היציאה /RSTSNS במצב נמוך והממיר יהיה מאופשר ויפעל באופן רגיל.
אם בהתקן שנמצא בשימוש אין כניסת אפשור, אפשר להשתמש גם בכניסת ההפעלה הרכה כדי לכבות אותו. כאשר קבל ההפעלה הרכה מקוצר על ידי טרנזיסטור FET קטן להארקה [GND], הממיר יפסיק לפעול במיתוג. ואולם, במימוש כזה רק הפסדי המיתוג מבוטלים, ועדיין יש צריכה של הזרם הנדרש לתחזוקת הבקר. לדוגמה, ברכיב TPS54240, צריכת הזרם במהלך כיבוי ממשי דרך כניסת האפשור הוא 4 מיקרו אמפר לכל היותר. אם רק כניסת ההפעלה הרכה מוצבת במצב נמוך, הזרם המשמש לתחזוקה יהיה גבוה יותר בהרבה ויגיע ל- 200 מיקרו אמפר.
ומעבר לזאת, ראוי לשמור את הקבל של ההפעלה הרכה קטן ככל האפשר, כדי להקטין את הזמן הכולל הנדרש להתחלת ההפעלה כאשר טוענים מחדש את הקבל ביציאה במהלך מצב המתנה.

איור 1. תרשים עם ממיר מוריד מתח מפושט.

תהליך התכנון
הצעד הראשון היה הגדרה של הסף הנמוך והסף הגבוה ב- TPS3806I33/TPS3806J20. כדי להקטין הפסדים עד למינימום, הסכום של שלושת הנגדים R1, R2 ו-  R3 צריך להיות סביב 1 מגה אוהם. נתון זה חל עבור נגד החיבור למתח R4 ועבור נגדי המשוב של TPS54240 שאינם מופיעים בתרשים המפושט.
על מנת לשמור על שוליים מסוימים, יש להגדיר את הסף הנמוך ל- 2.8 וולט ואת הסף הגבוה ל- 3.2 וולט. באופן כזה אנו מבטיחים שהעומס יקבל תמיד את המתח הגבוה מ- 2.7 וולט.
החישוב פשוט למדי עם הנתונים הבאים:
Vref =  אופייני (הסף התחתון של מעגל ההשוואה הפנימי)
VLSNS =  וולט (במתח יציאה זה המוצא של מנהל המתחים צריך לעבור למצב נמוך)
VHSNS =  וולט (במתח יציאה זה המוצא של מנהל המתחים צריך לעבור למצב גבוה)
R1 + R2 + R3 ≈  מגה אוהם
משוואה מס’ 1 ומשוואה מס’ 2 מראות את ההתאמה שבין נקודות הסף לבין שלושת הנגדים.
משוואה מס’ 1
משוואה מס’ 2
לפי הנתונים המופיעים למעלה, הערך של R1 הוא 562 קילו-אוהם, R2 הוא 53.6 קילו-אוהם ו-R3 הוא 374 קילו-אוהם.
הצעד הבא הוא חישוב הקיבול הנדרש במוצא בעזרת משוואה מס’ 3.
משוואה מס’ 3
Istandby הוא צריכת הזרם במצב המתנה, בדוגמה זו 500 מיקרו אמפר.
tinterval הוא הזמן שבין מחזורי המיתוג המשמשים לטעינה מחדש של הקבל במהלך זמן זה העומס מקבל אספקה רק מהקבל והממיר אינו מפעיל מיתוג.
ליישום זה מתאים פרק זמן של 100 מילי שניות.
Vdrop הוא ירידת המתח האפשרית במתח המוצא.
ביישום זה ירידת המתח היא 3.2 וולט -2.8 וולט = 400 מילי וולט.
משוואה מס’ 4
הקיבול של שני קבלים קרמיים בני 100 מיקרו פאראד (1210, X5R, 6.3 וולט) המחוברים במקביל הוא בערך 150 מיקרו פאראד, אם לוקחים בחשבון יצירת ממתח מתח ישר באמצעות 3.3 וולט. יתר על כן, לקבלים קרמיים יש ביצועים טובים יותר, בנוסף לשיקולים אחרים בנוגע ליכולת אדוות זרם, התנהגות בחימום והתיישנות בהשוואה לקבלים אלקטרוליטיים. על כן, עבור סביבת הרכב, לדוגמה, קבלים קרמיים הם הסוג המועדף.

מדידות והשוואה
העומס במהלך המדידות הוא 500 מיקרו אמפר ואפשר להעביר את המעגל למצב המתנה. איור 2 מציג את כניסת האפשור של הממיר המוריד עם TPS54240. במשך כל הזמן כמעט, הממיר אינו מאופשר. כאשר בוחנים בהגדלה את התמונה, זמן במצב פועל הוא 400 מיקרו שניות בערך. בהשוואה לזמן במצב כבוי שהוא 122 מילי שניות בערך, מחזור הפעולה הוא 0.33 אחוזים בלבד.
איור 3 מראה שמתח המוצא עובר בין 2.8 וולט ל- 3.3 וולט. הוא לעולם לא יירד מתחת ל- 2.7 וולט, ולכן מובטחת לעומס אספקה מתאימה.
הנתונים החשובים ביותר מוצגים בתמונה הבאה. היא מראה את זרם הכניסה שנמדד על פני נגד של 100 אוהם בטור לכבל המחובר לכניסה.
מתח הממוצע החשבוני בנגד הוא 14 מילי וולט בערך, נתון שהוא שווה ערך לזרם כניסה ממוצע של 140 מיקרו אמפר.
ללא מנהל מתחים מחובר או ממיר מוריד שמועבר למצב המתנה, זרם הכניסה הנמדד של הממיר המוריד הוא 500 מיקרו אמפר בערך. תוצאה זו מראה נצילות גרועה של 27.5%, שהיא זהה למצב שבו משתמשים במייצב ליניארי (הזרם בכניסה שווה לזרם ביציאה).
משוואה מס’ 5 מציגה את הנצילות המרשימה במצב המתנה משופר.

איור 2.

איור 3.

איור 4.

משוואה 5.
מסקנות
אפשר לשפר במידה רבה מאוד את הנצילות של ממיר מוריד במצב המתנה בעזרת מעגל נוסף קטן. העיקרון המוצג אינו תלוי בטופולוגיה של המיר.
ביישומים של הספקי המתנה נמוכים ונמוכים ביותר אפשר מעתה להשתמש בבקרים של ספקי מתח לאופן פעולה ממותג, שבהם לא קיימת אפשרות למצב הספק נמוך בהמתנה, ואפשר לשפר את השימוש בבקרים עם מצב המתנה ייעודי, כפי שהראנו עם TPS54240.
ביישומים אלקטרוניים רבים שבסביבת כלי רכב, יש צורך להשאיר את זרם הכניסה במצב המתנה מתחת ל- 250 מיקרו אמפר. אפשר להשיג זאת בקלות באופן המתואר לעיל. וכמובן, כל התקן שמופעל בסוללה, מקבל יתרון מהנצילות הגבוהה ביותר האפשרית.
אודות המחבר
מטיאס אולמן [Matthias Ulmann] נולד באולם שבגרמניה בשנת 1980. הוא קיבל תואר בהנדסת חשמל מאת אוניברסיטת אולם בשנת 2006. לאחר שעבד כמה שנים בתחום בקרת המנועים וממירים סולריים, (התמחה בדוחפי IGBT) הוא הצטרף לאקדמיה האנלוגית של טקסס אינסטרומנטס לתוכנית הדרכה של שנה אחת. משנת 2010 אולמן עובד בקבוצת שירותי התכנון לאזור EMEA כמהנדס תכנונים לייחוס בפרייזיניג שבגרמניה. פעילות התכנון שלו כוללת ממירי מתח ישר למתח ישר מבודדים ולא מבודדים עבור כל מגזרי היישומים. אולמן פרסם כמה מאמרים וכן רשום על שמו פטנט בתחום האלקטרוניקה להספק.

מגבלות הוורפיקציה במתודולוגיית ה-CDV בסביבה דינמית ודרכים לחיזוקה

מאת: יניב משה, Sandisk

הקדמה:
3 שנים לאחר שהטמענו את מתודולוגית
ה- (CDV (Coverage Driven Verification בקבוצת הורפיקציה ובהסתמך עליה אנו מאשרים יציאה  ל- tape out, זהו זמן טוב לעצור ולסכם את היתרונות והחסרונות של מתודולוגיה זו, את הדרכים למזער את חסרונותיה ולבחון את הכיוונים לעתיד.

רקע:
בין מגוון תפקידיה של קבוצת ה- ASIC של חברת Sandisk  בתפן, מפותחים  IPs המממשים פרוטוקולים כגון SD/MMC  בבקרי הזכרון של המוצרים מבוססי FLASH  אותם החברה מפתחת ומוכרת. כמות ה- Hosts (מצלמות, טלפונים סלולאריים, טבלטים וכל מיני גד’טים למיניהם) בשוק אשר מתממשקים לאותם מוצרים הוא אדיר. פרוטוקולים אלו עוברים שינוים ותוספות בקצב מסחרר ואיתם גם אותם IPs המפותחים בקבוצה. צוות הורפיקציה אמון על אימות הפיתוח של אותם IPs  בסביבה דינמית זו.
עד לפני כ  3  שנים עבדנו בשיטת ה direct testing לאמור: עבור כל feature  בנינו test plan בו הוגדרו התרחישים (scenarios) המדויקים אותם צריך לבדוק ולהריץ.  חסרונה העיקרי של שיטה זו שהיא איננה ניתנת להרחבה (Non Scalable). חוסר יכולת  הרנדומיזציה (randomization) של שיטה זו וכמות הטסטים השונים אותם יש להריץ תלויה בסיבוכיות הפרוטוקול וגם בכמות ההוסטים (hosts) בשוק כל הוסט מממש את הפרוטוקול בצורה קצת שונה) אליהם צריך המוצר להתממשק.
בעקבות חסרונות אלו החלטנו לעבור לשיטת ה- CDV אותה מימשנו באמצעות Specman – eRM.

יתרונות השיטה:
יתרון ברור לשיטה היא העובדה שהרנדומיזציה מביאה את ה-(DUT (Device Under Test למקומות שמהנדס הורפיקציה ומהנדס הדיזיין (design) לא חשבו עליהם, וכן היתרון שטסטים הרצים בזמן  ה- regressions  “עושים את העבודה” למהנדסים ומטסט אחד מוגרלים מספר רב של תרחישים שונים, בנוסף לכך מצאנו שאצלנו בגלל קצב השינויים והדינמיות של המפרטים (specification) של אותו IP, השיטה טובה לוודא שהשינויים שהוכנסו ב- DUT לא פגעו בפיצ’רים (features) הקיימים מה שמכונה backward compatibility וזאת אודות לתכונה של ה- CDV הקשורה “בכיסוי שטחים” יותר מאשר נקודות סינגולאריות.

חסרונות השיטה:
“חורים בסביבה” – עם הזמן וככל שה-CDV methodology  התבסס יותר ויותר כחלק ממתודולוגית העבודה שלנו גילינו שעדיין קיימת אפשרות  ל- CDV holes – “חורים” ב- coverage plan  ותרחישים שלא ירונדמו סביב אותם “חורים” ולכן עדיין יתכן שבאגים (אומנם במספר נמוך משמעותית יחסית לשיטה ל- Direct testing) לא יתגלו… בנוסף לכך, ה- regression time הלך וגדל עם הפיתוחים שהתווספו לאותה סביבת ורפיקציה מה שהביא אותנו לעבוד עם ה- test ranking  של ה- emanger על מנת להוריד את זמן הסימולציה.
בעיה נוספת היא מתי יוצאים ל- (T.O. (tape out? -  חיסרון מובנה זה בשיטה, בעולם הדינמי של שינוים תכופים, מקבל  משנה  תוקף:
א. טכנית – האם ניקינו את כל הבאגים? אולי יש כאלה שלא עלינו עליהם? מה עושים כשאילוצי הזמן מאוד כבדים?
ב. תכנון מסגרת לוחות הזמנים של תקופת הורפיקציה ל- sign-off.
יוצא איפה, שכשמתרגמים את החסרונות האלו לשינויים התכופים של ה- spec תוך כדי הפרויקט וממילא השינויים שה DUT עובר והסביבה צריכה לעבור בהתאם, עלולה להווצר תופעת זליגה של איכות הסביבה מעולם הרנדומאלי אליו כוונה ונבנתה לכתחילה, לכיוון ה- direct, וזאת הודות לשתי תופעות:
א. Sign-off יתבצע על data base  קיים (טסטים + seeds קיימים) על מנת לא להכניס רעש…
ב. טסטים יכתבו באיכות (מבחינת רנדומזציה)  פחות טובה על מנת לפצות על ה- trade – off עם הזמן שלוקח לכיסוי ה- coverage items הקיימים והחדשים שהוגדרו.
לפני שנציע פתרון (אמנם חלקי) לבעיית הזליגה לכיוון ה- direct בגבולות הגזרה של מתודולוגית ה- CDV בלבד, נבחן את ההבדל ברמת התפיסה בן טסט רנדומאלי “טהור”
ל- semi – random  או direct.
בטסט  semi – random  או direct  כיוון הטסט אליו הוא חותר, ברור לכותב הטסט ולכן יכתוב אותו בהתאם.
מיומנות כותב ה- test  מתבטאת בשמירה על רנדומיזציה לוקלית עם כיוון ה- flow  של הטסט.
בטסט רנדומאלי “טהור” כותב הטסט לא מוטרד מכיוון הטסט אלא מאיך בונים אותו בצורה כזאת שכשירוץ בפעם הבאה עם seed  אחר, לא יגיע לאותם נקודות כמו בריצה  הקודמת אלא להתפלגות אחידה פחות או יותר.
ומכאן לפתרון: יש לשמור על שני קווים מקבילים לאורך חייו של הפרויקט – חלק מהבדיקות יפותחו בצורה של ה- semi – random  וחלק האחר של הבדיקות יכיל את הטסטים הרנדומלים “הטהורים”. הכיון של  semi –random  יתן מענה לשינויים התכופים השניוהטסטים הרנדומלים “הטהורים”  יכוונו לנקות את ה-design וכששניהם חותרים ל- 100% coverage נוכל להתגבר על תופעת הזליגה.
גם פיתרון מעין זה אינו מלא ומצריך ניסיון ומיומנות לא מבוטלות של מהנדסי הורפיקציה  וכן ניהול שעומד על המשמר לראות שהאיזון בסוגי הורפיקציה לעיל אינו מופר.

כיוונים לעתיד:
כיוון אחד אותו אנו בודקים ולומדים בימים אלו הוא ה- formal verification אשר אמור להשלים את מתודולוגית ה- CDV ולעזור הן בסגירת החורים ב- coverage  והן בהחלטה מתי יוצאים לtape out . קיימים היום בשוק מספר מתודולוגיות מובנות סביב ה- formal verification.
כיוון נוסף שאנו לומדים ובודקים הוא כיוון תומך CDV וזה באמצעות עזרים שיושבים על ה- regression ובודקים את איכות סביבת הורפיקציה באמצעות הזרקת באגים חכמה ל- DUT ובדיקה האם הסביבה “תופסת” את אותם באגים.
בסופו של יום, כנראה שאין מתודולוגיה אחת שהיא חסינת באגים אבל יתכן ושילוב של המתודולוגיות הנ”ל יצמצם את אותם חסרונות אליהם התייחסנו לעיל.
הכותב הינו מנהל קבוצת הוורפיקציה במרכז הפיתוח של סאנדיסק בתפן.

מלחמת ה – Cortex חלק ג’

CORTEXאמיר שרמן, ארו ישראל

שנת 2010 היתה שנה לא שיגרתית, חווינו אלוקציה אמיתית (Allocation), מחסור ברכיבים וזמני אספקה ממוצעים של בין 20 ל – 30 שבועות, אך כל זה לא הפריע לחברות הסמיקונדקטורס לשחרר לשוק עשרות ומאות מיקרו-בקרים ממשפחות שונות ומגוונות שהמכנה המשותף של כולם הוא : ARM וכן ליבת ה Cortex.
שנת 2010 היתה שנת מפנה בתחרות הגוברת בין חברות הסמיקונדקטורס בתחום המיקרו-בקרים מבוססים CortexM3 כאשר כל חברה הייתה צריכה לקבל החלטות קריטיות כגון, כניסה לשוק ה- Low Cost על ידי שילוב ליבת ה- CortexM0 או כניסה לעולם ה High End על ידי שחרור משפחה חדשה מבוססת ליבת ה – CortexM4 החדשה מבית ARM.
להלן סקירה על מצב השוק היום : STMicroelectronics שבסוף שנת 2010 היתה בייצור המוני של 6 תתי משפחות מבוססות ליבת CortexM3 הוציאה לשוק 2 משפחות חדשות המשלימות את החסר (שרטוט מס’ 1) :
1. משפחת STM32L – CortexM3 Low Power כאשר במצב עבודה Run Mode הצריכה היא של
186uA/Mhz – 230uA/Mhz ו – 0.27uA עד 1.8uA במצב של Standby או Stop כאשר ה- RTC וזיכרון ה- Ram פעילים.
2. משפחת ה STM32F200 החזקה מבוססת CortexM3 עם “סטרואידים” בתדר שעון של 120Mhz (כאשר המשפחה המקורית של STM32F10x עבדה בקצב שעון של עד 72Mhz) עם התקני פריפריאליים יחודיים כגון :
USB Host High Speed (480Mbit), Camera Interface ,Ethernet  MAC + IEEE1588.
מערכת הצפנה חומרתית כגון AES128 ועוד. משפחה זאת מורחבת גם בגודל ה-Flash שלה שהוא עד 1MByte וה- Ram עד 128KByte והכל ברכיב אחד זול במיוחד.
חברת NXP קיבלה מספר החלטות אמיצות לדעתי שרק בעתיד הנראה לעין נדע אם זה יוביל לשינוי מהותי בשוק המיקרו-בקרים. לפני שנה היתה NXP הראשונה לשחרר לשוק את משפחת ה LPC11xx מבוססת CortexM0. לאחרונה, יצאו לייצור 2 משפחות שונות אבל משלימות (מבחינת NXP) כאשר הראשונה הינה משפחת LPC1800 עם ליבת CortexM3 בתדר שעון של 150Mhz עם ההתקנים הפריפריאליים כגון :
Can Bus,Ethernet, USB OTG (On The Go) High Speed (480Mbite), Ethernet Mac
וגם תמיכה ייחודית בצגי LCD – LCD Controller (שרטוט מס’ 2)
המשפחה השנייה והמהפכנית לדעתי היא משפחת הLPC4000 מבוססת ליבת CortexM4 וליבת CortexM0- Dual Core Cortex – עליה נדבר בהמשך.
חברת Cypress שכבר הכריזה על כניסתה לעולם הCortexM3 שיחררה לעולם את משפחת הPSOC5 שהיא המשפחה הראשונה המתוכנתת Analog ו – Digital עם ליבת ה CortexM3 שבאמצעותה ניתן ליצור בלוקים טכנולוגיים יחודיים שלא קיימים אצל המתחרים (שרטוט מס’ 3).
חברת ATMEL שמנסה להדביק את הפער הוציאה משפחת המשך ל-SAM3U ול- SAM3S והיא משפחת ה- SAM3N שהינה Pin to Pin למשפחת ה SAM3S ואפילו למי שפיתח על בסיס ARM7 במשפחה הותיקה SAM7S. למשפחה החדשה תוספות ייחודיות כגון תמיכה בהתקני Touch בהם מובילה חברת Atmel (שרטוט מס’ 4)
חברת Texas Instruments המשיכה השנה לדחוף אך משפחת ה Stellaris מבוססת CortexM3 כאשר השנה התוספות באו לידי ביטוי בעיקר בתחום התוכנה כגון עדכוני קוד יחודיים כמו ה IQMath שזוהי ספריה אלגוריטמית מתמטית לפונקציות Floating Point שרצה על ה CortexM3 לשימוש גרפיקה ו- Motion Control (שרטוט מס’ 5).
חברת Nuvoton הינה החברה שהייחודיות שלה היא משפחת ה-NuMicro שמבוססת רק על ליבת CortexM0 מ 8K Flash עד 128K Flash , עד 16K Ram ומספר התקנים פריפריאלים בסיסיים שיכולים להחליף כל מעבד 8bit. בעתיד נראה גם תוספת של תקשורות ויותר זכרון.
חברת EnegryMicro היינה לדעתי החברה המסקרנת ביותר מכיוון שבתור חברה קטנה, כמעט Start-Up הצליחה להתברג עם הגדולים בעיקר בגלל טכנולוגיית ה – Low Power עם משפחת EFM32 Gecko and Tiny Gecko family הכוללת רכיבים עם ובלי תמיכה ב Lcd Controller ועם צריכת הספק מיזערית. הייחודיות שלהם היא במיקרו-בקרים בעל ליבת CortexM3 ועם זיכרון מזערי של 4K Flash ו – 1K Ram ואריזת 24 pin ועד לרכיבים הגדולים.
גולת הכותרת של השנה הגיעה מחברת Freescale בהשקה של משפחת ה – Kinetis עם יותר מ – 200 מיקרו-בקרים חדשים שכולם מבוססים רק על ליבת
ARM-CortexM4 החדשה מבית Freescale.חברת Freescale הוציאה חמישה תתי משפחות כאשר השישית תצא ב 2011. תתי המשפחות מחלקות את הרכיבים מ- Low Cost עד ל- High Performance. המשפחה האחרונה מבין תתי המשפחות היא שמנצלת  את מלוא העיקר בליבת ה –CortexM4 והיא יכולת ה – Floating Point וה – DSP Instructions.
למשפחת ה- Kinetis חידושים רבים והתקנים אשר לא קיימים אצל המתחרים כגון ממיר אנלוגי לדיגיטלי ADC מבוסס 16 סיביות (16bit ADC), טכנולוגיית ה – Flex Memory לשימוש כ – EEprom ומגוון רחב של התקנים פריפריאליים כאשר העיקר הוא השילוב שלהם עם ליבת ה – CortexM4 שמאפשרת פעולות מתמטיות נוספות כגון : 32 x 32 + 64 במחזור שעון יחיד ועוד (שרטוט מס’ 6).
חברת Toshiba היא תוספת מעניינת לעולם ה – CortexM3 זאת בזכות במשפחת ה – TMPM380FY שבה היא פונה למערכות הפועלות במתח גבוהה יחסית לעולם ה- CortexM3 והוא עולם ה – 5Volt בנוסף למשפחות נוספות המקבילות למה שקיים בשוק (שרטוט מס’ 7).
אם כבר הזכרנו את ליבת ה – CortexM4, בתחילת שנת 2011 חברת NXP תשחרר לייצור את משפחת ה – LPC4000 הכוללת ליבת CortexM4 וליבת Cortex נוספת מסוג CortexM0. כלומר, בפעם הראשונה ניתן יהיה לראות מיקרו-בקרים בעלי ליבה כפולה אשר יכולים לעבוד במקביל וניתן יהיה לבצע Debug לכל ליבה.
משפחה זו המהווה שינוי מהותי בעולם המיקרו מעבדים משאירה את כולם פעורי פה אבל השאלה הגדולה היא מהי האפליקציה הנדרשת למעבד שני ליבות בעולם המיקרו-בקרים ואת זה נראה רק בעתיד (שרטוט מס’ 8).
אני צופה ששנת 2011 תהיה שנה מעניינת עם מגוון רחב או יותר נכון עצום של מיקרו-בקרים בעולם ה- Embedded מבוססי ליבות Cortex מסוג CortexM0, CortexM3, CortexM4 וגם מיקרו-בקרים בעלי ליבה כפולה עם שילובים מעניינים כפי שכבר ראינו.
צפויות הכרזות נוספות ויש כאלו שכבר התחילו להגיע כמו של STMicroelectronics על שתי המשפחות החדשות מבוססות ליבת CortexM4 ו- CortexM0 שישוחררו באמצע שנת 2011 (שרטוט מס’ 9).
* הכותב אמיר שרמן הינו
Technical Manager, בחברת ארו ישראל