למידת מכונה בתכנון ועיצוב תרופות

תקציר

כמיאינפורמטיקה היא תחום מדעי המשלב עקרונות מעולם הכימיה, מדעי המחשב ומדעי הנתונים, כדי לענות על שאלות כימיות (איור 1). לכימיאינפורמטיקה חשיבות עצומה ביישומים רבים הקשורים לתכנון תרופות, כגון: מידול חישובי של מבנים מולקולריים, זיהוי מאפיינים מולקולריים, גזירתם והשימוש בהם לניבוי והשבחת תכונות רצויות במולקולות.

המידע שנכנס לשיקולי ההחלטות של הכימאי בתהליך התכנון התרופתי הוא רב ולכן דורש זמן ארוך עבור ניתוח מדויק ומעמיק. כך, ״קיצורי דרך״, בקבלת החלטות של כימאי תרופתי ובניבוי ההצלחה של סיטואציות בתכנון תרופה, שיש בהן חוסר ודאות, מצריכה ידע המבוסס על ניסיון רב שנים. לעומת הגישה הקלאסית בכימיה התרופתית, שעלולה לייצר הטיות בתהליך קבלת ההחלטות, השימוש בלמידת מכונה מאפשר לחזות צורך תרופתי, לשפר את היעילות בתכנון התרופה ויכול להביא לאוטומטיזציה של תהליכים תבניתיים בפיתוח וייצור התרופה ולצמצם החלטות אינטואיטיביות-מוטות שעשויות להוביל לטעויות מערכתיות. בנוסף, השימוש בשיטות חישוביות מבוססות מידע, עשוי לייתר חלק מתהליך פיתוח התרופה, ויאפשר למומחה להתמקד במרחב חיפוש מצומצם יותר ולפיכך להגדיל את סיכויי הצלחה.

במאמר שלפניכם, אסקור את השלבים בתכנון תרופתי משלב הכנת מאגר המידע שישמש לאימון המודל החישובי ועד בדיקת המולקולות שהמודל חזה בניסויים במעבדה.

איור 1. כמיאינפורמטיקה בממשק שבין הכימיה לבין מדעי הנתונים.

הגישה הקלאסית והמודרנית בגילוי-פיתוח תרופות

– בעבר כשמדענים פיתחו תרופות סינטטיות הם הסתמכו על ניסיון שהיה מבוסס על עיבוד מוגבל של נתונים, לעיתים לא מסודרים, שאפשרו להם לפתח את האינטואיציה. האינטואיציה שדורשת שנות ניסיון, קיצרה את הדרך לקבלת ההחלטות, למשל היכן להעדיף מודיפיקציות כימיות על מולקולת המטרה (ה״תרופה״), באופן יעיל ומהיר יחסית. מחקר מודרני של  פיתוח תרופות המבוסס על נתוני עתק ושימוש באלגוריתמים מודרניים מעולם למידת מכונה, ימנע הטיות בקבלת החלטות אנושיות ע״י ניתוח מערכתי של נתונים (שקשה לאדם, גם אם מומחה, לעשות) ובנית מודלי חיזוי לזיהוי תבניות שעשויות לחזור על עצמן מאשר הסתמכות על היוריסטיקות (קיצורי דרך מחשבתיים) שיכולות לנבוע משיקולים לא ענייניים.

– עבודה בעידן ה״ביג דאטה״- לאדם יש יכולת מוגבלת לעבד אינפורמציה וזה מה שמביא לכתחילה לשימוש בהיוריסטיקות, יכולת שנבנית ע״י כימאים תרופתיים מתחילת דרכם המקצועית. אלגוריתמים של למידת מכונה יכולים לעבד באופן אפקטיבי מאגר מידע עצום מעבר ליכולתו של כל אדם, מומחה ככל שיהיה, ולמצוא תבניות חבויות. כלים כאלה בידי כימאי תרופתי יובילו להחלטות ענייניות ומדויקות שיעלו את סיכויי ההצלחה בחיזוי ויקצרו משמעותית את משך זמן פיתוח התרופה.

שיפור תהליך קבלת ההחלטות בעולם פיתוח התרופות

– יכולת לחזות- בעבודתם של דניאל כהנמן ועמוס טברסקי, שעסקה בתחום של כלכלה התנהגותית ודרך קבלת החלטות, הציגו שתי דרכים אצל האדם בפתרון בעיות. האחת מהירה ואינטואיטיבית, השנייה איטית שמצריכה חשיבה אנליטית. למידת מכונה מאפשרת חיזוי מדויק יותר של הדרך הראשונה שמבוסס על שימוש בנתוני עתק ומודלים מדויקים. למידת מכונה מאפשרת האצת הדרך השנייה בקבלת ההחלטות ומשאירה למומחה- הכימאי התרופתי- את האפשרות להתמקד באינטואיציה ויצירתיות שלא קיימים במכונה (איור 2). כך, למשל, לאלגוריתם של למידת מכונה יהיה קשה להוסיף שיקולים שקשורים בדרך לסינתזת מולקולה ספציפית שהתקבלה בחיזוי, או להבין איך מולקולה נקשרת ומעכבת מטרה ספציפית במסלול מטבולי רב משתנים. לכן, למידת מכונה משלימה את הידע המעמיק בדומיין- הכימיה- ולא באה במקומו.

בני אדם יצירתיים בנוגע לפיתוח היפותזות חדשות ורעיונות שלא מבוססים על מידע או תצפיות קודמות. בנוסף, תהליך קבלת ההחלטות אצל האדם ישלב שיקולים שאלגוריתם לא יכלול, למשל כללי אתיקה, אפקט לא ספציפי של תרופה, או אפילו התחשבות באסטרטגיה ארוכת טווח בפיתוח התרופה. לאדם יתרון ברור גם בפתרון בעיה מורכבת שדורשת הסתכלות הוליסטית על המערכת, או שדורשת הסתגלות לסיטואציה משתנה, לא צפויה, או לא מוכרת, כמו למשל שינוי שצריך לעשות כתוצאה משינוי ברגולציות שקשורות בתרופה. ללמידת מכונה לעומת זאת קל להתמודד עם איתור מידע תבניתי, גם אם חלש, החבוי בנתוני עתק, משימות שמצריכות זיכרון לפרטים גדולים ויכולת אבחון יעילה של היחס בין מבנה מולקולרי וההשפעה על תפקוד הביולוגי של התרופה.

איור 2- קושי בביצוע משימות הקשורות בתכנון תרופות וכימיה תרופתית ע״י אלגוריתמים של למידת מכונה לעומת בני-אדם.

גישות בלמידת מכונה שאפשר להשאיל לתכנון ופיתוח תרופות

סריקת מאגר הספריה הרפואית הלאומית של ארה״ב (PubMed) מראה עליה תלולה במס׳ הפרסומים בתחום מדעי הנתונים בשנים האחרונות (איור 3), שהתאפשרה בעקבות התקדמות מקבילה בתחום המידע והמחשוב: 1) שיטות איסוף המידע ע״י מכשור מודרני ואמצעי מדידה מדויקים ביותר, 2)  אמצעים כמעט בלתי נדלים לאכסון המידע, גם ב״ענן״, 3) אלגוריתמים שפותחו במיוחד לטיפול בנתוני עתק והושאלו מתחומים אחרים למשימות פיתוח תרופות, כמו זיהוי אובייקטים, ניתוח תמונה, שפות טבעיות, אלגוריתמים גנרטיביים ועוד.

איור 3. התפוצצות המחקר המשלב למידת מכונה ואינפורמטיקה בעולם הכימיה/ביולוגיה בשנים האחרונות. הנתונים נלקחו מ-Pubmed.

המידע הכימי

כימאים מומחים משתמשים ביכולת לזהות תבניות במבנים מולקולריים כדי לתכנן תרופות או לשפר ביצועי חומרים כימיים שלהם תכונות מסוימות. חלק מאד חשוב מהניתוח של אותן תבניות מתחיל מהייצוג המולקולרי למחשב.  מבנים מולקולריים יכולים להיות מיוצגים ע״י גרפים: קודקודים ופאות שמחברות ביניהם. הבעיה בייצוג מולקולות ע״י גרפים היא שהייצוג שלהן דליל וזה בגלל מוגבלות הקשרים שבין האטומים בגרפים המולקולריים שמיצגים אותם. האנלוגיה הטובה ביותר לגרפים בהם יש קודקודים וקשתות ביניהם היא רשתות חברתיות בהם פרופילים של אנשים הם הקודקודים והאינטראקציות החברתיות הם הפאות. ומולקולות משולות לרשת חברתית דלילה שקשה לדלות ממנה אינפורמציה על פרט מסוים על סמך אפיון החברים שמספרם מועט ברשת החברתית.

ייצוג מולקולרי באמצעות תווים היא שיטה פופולרית נוספת שמאפשרת לתאר מולקולה באמצעות טקסט, או מחרוזת ליניארית של תווים. למה נעדיף תיאור מולקולרי באמצעות טקסט? ומדוע השיטה הזאת הפכה לפופולארית בניתוח מידע מולקולרי? בגלל שקל יותר למחשב לעבד נתונים של מחרוזת ליניארית של מידע. המחרוזת מציגה את סידור האטומים והקישוריות שלהם, דבר המאפשר להוסיף למחרוזת עוד אינפורמציה שקשורה בתכונות המולקולה. כל דרך לתיאור המולקולה מביא להבנה ייחודית, לכן, מידע כימי על צורותיו השונות (מידע טבלאי או כגרף) ישמש כנתוני קלט לאימון מודל חישובי ויתרום להבנה הוליסטית של המולקולות ממבנה, דרך תכונות כימיות, עד לדינמיקה מולקולרית.

האלמנטים בלמידת מכונה לתכנון מושכל של תרופות

המידע שמשמש אימון מודל וממנו בוחרים מאפיינים מולקולריים חשובים למודל החיזוי בתהליך תכנון התרופתי.

ערכי הפעילות של המולקולות שישמשו ערכי ייחוס בבחירת המאפיינים המולקולריים ויאפשרו למידת מכונה מונחית.

– בחירת המודל המתאים ממודלים שונים בהתאם למידע שהמודל נדרש להתאמן עליו. בחירת המודל המתאים ביותר תתבצע ע״י חישוב ערך שגיאת המודל ומידת הדיוק ביכולת המודל לחזות את התכונות שאנחנו מחפשים במולקולות.

כל המודלים והחיזויים והתרופות שתוכננו חייבות לעמוד במבחן המציאות ולכן בבחינת המודל החישובי עומד צורך לאשש את החיזויים בניסויי מעבדה. למשל אם המודל חזה ששינוי מסוים ישפר באופן משמעותי ביצועי המולקולה השלב הבא מחייב סינתזה במעבדה של המולקולה החדשה (עם השינוי שהמודל חזה) ובחינת פעילות המולקולה החדשה בניסוי משלים ביולוגי.


פרופ׳ ברק עקביוב המחלקה לכימיה, אוניברסיטת בן גוריון בנגב

תגובות סגורות