כיצד בינה מלאכותית יכולה לחולל מהפכה במחקר במוזיאונים בארכיונים | בבית הסמיתסוני | סמית'סוניאן - מאמרים, ב- SMITHSONIAN, מחקר חדש בנושא SMITHSONIAN, חדשנות, מדע

כשאתה חושב על בינה מלאכותית, תחום הבוטניקה כנראה לא בראש שלך. כשאתה מצלם הגדרות למחקר חישובי חדשני, מוזיאונים בני המאה עשויים שלא להיות בראש הרשימה. ובכל זאת, מאמר שפורסם זה עתה בכתב העת Biodiversity Data Journal מראה שחלק מהחידושים המרתקים והסחוטים ביותר בתחום למידת מכונות מתרחש לא אחר מאשר הרבריום הלאומי של המוזיאון הלאומי להיסטוריה טבעית בוושינגטון הבירה.

העיתון, שמדגים כי רשתות עצביות דיגיטליות מסוגלות להבחין בין שתי משפחות של צמחים דומים עם שיעורי דיוק של מעל 90 אחוז, מרמז על כל מיני אפשרויות להשבת פה עבור מדענים ואנשי אקדמיה בעתיד. המחקר מסתמך על תוכנה שמבוססת באלגוריתמים של "למידה עמוקה", המאפשרים לתוכנות מחשב לצבור ניסיון באופן דומה למומחים אנושיים, ומעלות את המשחק שלהם בכל פעם שהם מפעילים. עד מהרה, טכנולוגיה זו יכולה לאפשר ניתוחים השוואתיים של מיליוני דגימות מובחנות מכל קצוות תבל - הצעה שבעבר הייתה דורשת כמות בלתי נסבלת של עבודה אנושית.

"כיוון המחקר הזה מראה הבטחה רבה", אומר פרופסור סטנפורד, מארק אלג'י-יואיט, קול בולט בתנועה למדעי הרוח הדיגיטלית ועוזר מנהל סגל במרכז האוניברסיטה לניתוח מרחבי וטקסטואלי של האוניברסיטה. "לשיטות אלה יש את היכולת לספק לנו כמויות אדירות של מידע על אוספים המכילים", הוא אומר, "ובכך הם הופכים את המידע לנגיש."

ממצאים חדשים אלה מתבססים על שנים של עבודה שנעשתה במכון סמיתסוניאן לספרת באופן שיטתי את האוספים שלה לגישה אקדמית וציבורית באופן מקוון, ומייצגות מפגש מוחות בין-תחומי מדהים: לבוטנאים, מומחי דיגיטציה ומדעני נתונים כל אחד היה למלא תפקיד בהבאת אלה תוצאות לאור.

הסיפור מתחיל באוקטובר 2015, כאשר התקנת מכשיר חגורת מצלמה והעברה מתחת למוזיאון להיסטוריה של הטבע פשטה מאוד את המאמצים לספרת את האוסף הבוטני של סמית'סוניאן. במקום שיהיה צורך לסרוק ידנית כל פרח ולחץ וגוש עשב במאגר שלהם, עובדים יכלו כעת לעמוד בתור מערכים שלמים של דוגמאות, לתת לחגורה לעבוד בקסם שלה, ולאחזר ולקטלג אותם מחדש בקצה הזנב. צוות של שלושה אנשים פיקח על החגורה מאז הופעת הבכורה שלהם, והם עוברים כ 750, 000 דגימות בכל שנה. לא עבר זמן רב, מלאי הרבריבריה של הסמיתסוניאן, חמישה מיליון דגימות חזקות, יהיה מקוון לחלוטין.

לכל דגימה מתויג כרטיס זיהוי יסודי, המספק מידע על מקורו כמו גם נתונים סטטיסטיים חיוניים. תוכנו של כרטיסים אלו הועברו ותועברו לצד התמונות הדיגיטליות, ומספקים תצוגה מקיפה של כל פריט באוסף עבור אלו עם הנטייה לחפש.

בארכיון הבוטני הדיגיטלי של הסמית'סוניאן, תמונות ברזולוציה גבוהה של דגימות משויכות לתמלול של תגי הזיהוי המועילים המודפסים עליהם. (המוזיאון הלאומי להיסטוריה של הטבע)

"זה מנגיש את האוסף שלנו לכל מי שיש לו מחשב וחיבור לאינטרנט", אומר יו"ר הבוטניקה של המוזיאון לורנס דור, "וזה נהדר לענות על שאלות מסוימות." בכל זאת, דור מצא שהוא לא יכול היה לנער תחושה של פוטנציאל בלתי מנוצל . בטח, כמויות אדירות של נתוני דגימות היו זמינות כעת לקהילה המקוונת, אך ניתוחן במצטבר נותר מפואר. לחפש דגימות מסוימות וקטגוריות קטנות של דגימות היה די קל, אבל דור תהה אם יש דרך למנף את הנתונים כדי להסיק מסקנות על אלפי דגימות. "מה אתה יכול לעשות עם הנתונים האלה?", הוא נזכר ותוהה. אדם בשם אדם מטאלו סיפק עד מהרה תשובה משכנעת.

מטאלו, קצין במשרד התוכנית לפיתוח דיגיטציה של סמיתסוניאן, הגיע להשתתף בכנס בו ענקית הטכנולוגיה NVIDIA - יקירם של גיימרים במחשבי PC בכל מקום - הציגה יחידות יחידות עיבוד גרפיות מהדור הבא, או GPUs. מטאלו היה שם וחיפש דרכים לשפר את יכולות העיבוד הדיגיטאלי של הסמית'סוניאן התלת-ממדיות, אבל זה היה גוש מידע שאינו קשור ברובו, שתפס את תשומת ליבו ונתקע עמו. בנוסף לייצור חזותיים תלת-ממדיים דינאמיים, גבוהה, כך נאמר לו, ה- GPUs של NVIDIA התאימו היטב לניתוח נתונים גדולים. בפרט, מכשירי ה- GPU המאושרים היו בדיוק מה שנדרש לצורך זיהוי תבניות דיגיטליות אינטנסיביות; רבים מאלגוריתמים ללימוד מכונות עברו אופטימיזציה לפלטפורמת NVIDIA.

מטאל הסתקרן מייד. הטכנולוגיה ה"למידה העמוקה "הזו, שהייתה כבר פרושה בענפי נישה כמו פיתוח מכוניות בנהיגה עצמית ורדיולוגיה רפואית, החזיקה פוטנציאל גדול לעולם המוזיאונים - שכפי שמציין מטאל, מהווה" המערך הגדול והוותיק ביותר שיש לנו כעת גישה ל."

"מה המשמעות של מערכי הנתונים הגדולים שאנו יוצרים ב- Smithsonian באמצעות דיגיטציה?", מטאלו רצה לדעת. שאלתו שיקפה באופן מושלם את זו של לורנס דור, וברגע שהשניים התחברו, ניצוצות החלו לעוף. "קולקציית הבוטניקה הייתה אחת הקולקציות הגדולות בהן עבדנו לאחרונה", נזכר מטאלו. שיתוף פעולה הציע את עצמו.

בעוד שצורות רבות של למידת מכונה דורשות כי החוקרים יסמנו סמנים מרכזיים במתמטיקה בתמונות שיש לנתח - תהליך קפדני שמסתכם באחיזת ידו של המחשב - אלגוריתמי למידה עמוקים מודרניים יכולים ללמד את עצמם אילו סמנים לחפש בעבודה, לחסוך זמן ופתיחת הדלת לבירורים גדולים יותר. עם זאת, כתיבת תוכנית למידה עמוקה הסמיתסוניאנית וכיול אותה לשאלות מחקר בוטניות נפרדות הייתה עסק מסובך - דור ומטאלו היו זקוקים לעזרתם של מדעני נתונים כדי להפוך את חזונם למציאות.

מדעני נתונים מרכיבים דוגמאות אימונים לרשת העצבית במהלך מה שזכר פול פרנדסן

מדעני נתונים מרכיבים דגימות הדרכה לרשת העצבית במהלך מה שפול פרנדסן זוכר כ"יום ינואר קר ". (המוזיאון הלאומי להיסטוריה של הטבע)

אחד המומחים שהביאו על סיפונה היה מדען נתוני המחקר סמיתסוניאן פול פרנדסן, שהכיר מייד בפוטנציאל ביצירת רשת עצבית מופעלת על ידי NVIDIA GPU שתביא לאוסף הבוטניקה. עבור פרנדסן, פרויקט זה סימל צעד ראשון במפתח בדרך נפלאה ולא נחקרה. בקרוב, הוא אומר, "נתחיל לחפש דפוסים מורפולוגיים בקנה מידה עולמי, ונוכל לענות על השאלות הגדולות באמת האלה שבאופן מסורתי היו נדרשים אלפי או מיליוני שעות אדם לבחינת הספרות ו סיווג דברים. אנו נוכל להשתמש באלגוריתמים שיעזרו לנו למצוא דפוסים אלה וללמוד יותר על העולם. "

הממצאים שפורסמו זה עתה הם הוכחה בולטת למושג. המחקר, שנוצר על ידי צוות של תשעה בראשותו של בוטנאי המחקר אריק שופטפלץ ומדעני הנתונים פול פרנדסן ורבקה דיקוב, נועד לענות על שתי שאלות בקנה מידה גדול בנושא למידת מכונות והעשבייה. הראשונה היא עד כמה יעילה יכולה להיות רשת עצבית מיומנת למיון דגימות מוכתמות כספית מאלה שלא נכללו. השנייה, גולת הכותרת של העיתון, היא עד כמה יעילה רשת כזו יכולה להבדיל בין חברים לשתי משפחות צמחים דומות באופן שטחי - כלומר, משפחות בעלות ברית שרצים Lycopodiaceae ו- Selaginellaceae .

הניסוי הראשון דרש מהצוות לעבור אלפי דגימות בעצמם מראש, וציין באופן סופי אילו מהם היו מזוהמים בעליל בכספית (שריד של טכניקות שימור בוטניות מיושנות). הם רצו להיות בטוחים שהם יודעים בוודאות של מאה אחוז מה מוכתם ואילו לא - אחרת, לא ניתן היה להעריך את מידת הדיוק של התוכנית. הצוות בחר דובדבן כמעט 8, 000 תמונות של דגימות נקיות ועוד 8, 000 מדגימות מוכתמות איתן לאמן ולבדוק את המחשב. כשסיימו לצבוט את פרמטרי הרשת העצבית ומשכו את כל הסיוע האנושי, האלגוריתם סיווג דגימות שמעולם לא ראתה לפני כן ברמת דיוק של 90 אחוז. אם נזרקו הדגימות העמומות ביותר - למשל אלה שבהם הכתמים היו מינימליים ו / או קלושים מאוד - הנתון הזה עלה ל 94 אחוז.

תוצאה זו מרמזת שתוכנות למידה עמוקה עשויות לסייע במהרה לבוטנאים ומדענים אחרים להימנע מבזבוז זמן על משימות מיון מייגעות. "הבעיה אינה שאדם לא יכול לקבוע אם דגימה מוכתמת בכספית או לא", מבהיר מטאלו, אלא "קשה למיין ידנית ולבדוק איפה הזיהום קיים", ולא הגיוני עשה זאת מנקודת מבט של ניהול זמן. למרבה השמחה, למידת מכונות עשויה להפוך לשקע זמן חשוב לכל היותר כמה ימים של ניתוח אוטומטי מהיר.

חלוקת דגימות בזו אחר זו דורשת אנרגיה רבה ומקשה על הסקת מסקנות רחבות היקף. כעת, אנליטיקה של Big Data מעניקה למוזיאונים דרכים חדשות לגישה לאוספים שלהם. (ארנולד ארבורטום)

חלק האפליה של המינים במחקר מלהיב עוד יותר. החוקרים אימנו ובדקו את הרשת העצבית עם כ- 9, 300 דגני מועדון ו -9, 100 דגימות ספיקמוס. בדומה לניסוי ההכתמה, כ -70 אחוז מדגימות אלה שימשו לכיול ראשוני, 20 אחוזים שימשו לעידון, ו -10 האחוזים הסופיים שימשו להערכת רשמית את הדיוק. לאחר ביצוע אופטימיזציה של הקוד, שיעור ההצלחה של המחשב בהבחנה בין שתי המשפחות היה 96 אחוז - ו -99 אחוז כמעט מושלמים אם לא הושמט הדגימות הכי מסובכות.

יום אחד, משער פרנדסן, תוכניות כמו אלה יכולות להתמודד עם סיווג ראשוני של דגימות במוזיאונים ברחבי העולם. "בשום דרך אני לא חושב שהאלגוריתמים האלה יעשו הכל כדי להחליף אוצרים", הוא ממהר לציין, "אבל במקום זאת, אני חושב שהם יכולים לעזור לאוצרים ולאנשים המעורבים במערכות שיטתיות להיות פרודוקטיביים יותר, כך שהם יוכלו לעשות את עבודתם הרבה יותר מהר."

הצלחת הרשת העצבית במחקר זה סוללת גם את הדרך לבדיקה מהירה של השערות מדעיות באוספים מאסיביים. דור רואה בממצאי הצוות את האפשרות לערוך השוואה מורפולוגית נרחבת של דגימות דיגיטליות - השוואה שעלולה להוביל לפריצות דרך מדעיות משמעותיות.

זה לא אומר שלמידה מעמיקה תהיה כדור כסף במחקר בכל רחבי הלוח. מארק אלג'י-יואיט של סטנפורד מציין כי "כמעט בלתי אפשרי לשחזר מדוע ואיך רשת עצבית מקבלת את החלטותיה" לאחר שהיא מותנית; קביעות שהושארו לתוכנות מחשב צריכות להיות תמיד לא מורכבות ולאימות אם יש לסמוך עליהן.

"ברור, " אומר דור, תוכנית מחשבים אוטונומית ש"לא מתכוונת לבחון קשרים גנטיים, דברים כאלה "- לפחות בכל עת בעתיד הקרוב. "אבל אנחנו יכולים להתחיל ללמוד על התפלגות המאפיינים לפי אזור גאוגרפי, או לפי יחידה טקסונומית. וזה באמת יהיה חזק. "

יותר מכל, מחקר זה הוא נקודת קפיצה. כעת ברור שטכנולוגיית למידה עמוקה מחזיקה בהבטחה רבה עבור מדענים ואנשי אקדמיה אחרים בכל רחבי העולם, כמו גם לקהל הסקרן שעבורו הם מייצרים ידע. מה שנותר הוא עבודת מעקב קפדנית.

"זהו צעד קטן", אומר פרנדסן, "אבל זה צעד שמאמר לנו באמת שהטכניקות הללו יכולות לעבוד על דגימות מוזיאליות דיגיטליות. אנו נרגשים מהקמת מספר פרויקטים נוספים בחודשים הקרובים, כדי לנסות ולבדוק את גבולותיו קצת יותר. "