https://frosthead.com

ביג דאטה רק הלכה וגדלה יותר כאשר ווטסון של IBM פוגש את האנציקלופדיה של החיים

אחרי 2, 000 שנה, האנציקלופדיה החיים האולטימטיבית עומדת על סף עידן חדש מונע נתונים. מענק מטעם קרן המדע הלאומית הוענק לאנציקלופדיה של החיים (EOL), IBM והמכון הטכנולוגי של ג'ורג'יה. המענק יאפשר לעבד כמויות גדולות של נתונים ולהיות צמוד לאינדקס בדרכים שיאפשרו לבצע את המדע פורץ הדרך.

תוכן קשור

  • מערכת שמורת ימית חדשה מוצעת מציעה תחזית ורודה גם לובסטר וגם לדייג הלובסטר

בשנת 77 לספירה החל פליניוס הזקן לכתוב את האנציקלופדיה הראשונה בעולם, היסטוריה טבעית. זה כלל את הכל החל מאסטרונומיה עד בוטניקה לזואולוגיה לאנתרופולוגיה ועוד. פליני ניסה להכניס את כל מה שיכול היה לאסוף באופן אישי על עולם הטבע ליצירה אחת כתובה. במשך 2, 000 השנים האחרונות רצף ארוך של מדענים בהשראת פליני רדף אחרי אותו חזון.

פליניס כלל 20, 000 נושאים ב -36 כרכים אך נתקל במגבלות של מה שאדם יחיד יכול לגלות, להקליט ולעבד בתוך תוחלת חיים אנושית. הוא מת במהלך התפרצות הר וזוב לפני שהספיק לסיים עריכה אחרונה של המגנום אופוס שלו. אפילו בעידן שלו, לא היה אפשר לאדם אחד לקרוא את כל הספרים, ללמוד את כל הדברים ולהסביר את כל העולם.

כפי שאחרים מדענים, עורכים וספרנים שהתגלו בעולם שמוסיף ידע כתוב יותר בכל שנה שעוברת, גם אם הייתם יכולים לאחסן את כל הספרים והמחקרים בעולם בבניין אחד, זה אתגר להנגיש את כל המידע הרלוונטי עבור חוקרים במהלך מגבלות חייהם האנושיים הקצרים.

EOL עשוי להיות מסוגל לשנות את זה על ידי הפעלת כוח חישובי עדכני כדי להבדיל אוספים של נתונים ביולוגיים. הפרויקט הוא אוסף דיגיטלי חופשי ופתוח של עובדות, מאמרים ומולטימדיה ביולוגית, מהגדולות בעולם. ראש המשרד במכון סמיתסוניאן ועם 357 שותפיו וספקי התוכן כולל אוניברסיטת הרווארד והספרייה החדשה של אלכסנדריה במצרים, EOL צמח מ -30, 000 עמודים כאשר הושק בשנת 2008 ליותר מ -2 מיליון, עם 1.3 מיליון דפי טקסט, מפות, וידאו, שמע ותצלומים, ותומך ב 20 שפות.

"הגעתי לסמית'סוניאן בשנת 2010 מענף התוכנה, " אומר מנהל EOL, בוב קוריגאן. "אחת התגליות שגיליתי שהגיעו לכאן היא שלמרות ש- IT נמצא בכל מקום, הוא לא חדר לעולם המוזיאון באותה דרך שהוא חדר לעולם המסחרי. בעיקר בביולוגיה, הנתונים החשובים ביותר נקברו בספרי לימוד ובגיליונות אלקטרוניים. "

כיצד ניתן לשלב ולכרות נתונים ביולוגיים בצורות שונות לצורך תובנות חדשות על החיים על כדור הארץ? מה אם נתונים על, למשל, המגוון הביולוגי של הפרפרים באפריקה במשך למעלה מעשור, היו משולבים עם נתונים על נוהלי החקלאות והגשמים? האם ניתן ללמוד משהו חדש? כדי לעשות זאת, דרוש משהו גדול יותר ממוח אנושי. משהו כמו מחשב העל ווטסון של יבמ.

"יבמ תורמת מאמץ וגישה לגירסה [של ווטסון] שאינה זמינה לציבור", אומרת ג'ניפר האמוק, מנהלת התוכנית ב- EOL. "גם אנשים יהיו עובדים על זה. יבמ עושה זאת כתרומה מעין. "

ווטסון הוא מחשב-על שלא סוחב רק מספרים בנפחים גדולים. הוא משתמש בבינה מלאכותית כדי לאפשר למשתמשים לשאול שאלות בשפה פשוטה.

"הייתי אומר מנקודת מבט של משתמש, זה אומר שבסיס הנתונים הוא משהו שאתה יכול לפנות אליו ולשאול שאלה כאילו היית של בן אנוש, " אומר המוק. "כאילו, אתה יכול להגיד לי אם הפרפר הסגול הזה מופיע באפריקה?"

"תשובה על שאלה פשוטה בכל שפה מניחה קיומם של ידע רב מאחורי הקלעים", אומר קוריגאן. "אפילו [המילה] סגול, זה מניח שאנחנו יודעים מה זה סגול. או פרפר, [המחשב] צריך להבין את ההבדל בין פרפר לעש. נוסף על כך, למערכות הנתונים עצמם דרכים שונות לחשוב על מונחים שונים אלה. את כל הנתונים הללו קשה היה להשיג ללא אבן רוזטה של ​​מונחים. וזה חלק מהקסם של מה שה- EOL עושה. "

שאלה מדעית אחת שהשותפות בין EOL, IBM ו- Georgia Tech מקווה לפתור היא הפרדוקס של הפלנקטון.

לדברי ערסוק, מדענים העובדים עם הדמיות מחשב "מנסים לדגמן את מה שקורה באוקיאנוס באומרו שהשמש זורחת פנימה והאצות גדלות. . . יש לזה קירוב גס אבל הם לא יכולים לגרום ל [דגם המחשב של המערכת האקולוגית] להיות יציב. הם הולכים לזמן מה ואז הם מתרסקים. כי הם פשוטים מדי. הם מקווים שאם הם יכולים להראות קצת יותר גיוון בביוספרה המפורסמת שלהם, הם יהפכו ליציבים יותר. . . הפרדוקס הוא: כיצד קיימת הביוספרה בים? למה זה לא מתרסק? "

"אנשים יושבים על נתונים", אומר קוריגאן. "ישנם מאגרים מדהימים של מדידות המגוון הביולוגי בכל רחבי כדור הארץ. אני מקבל הרבה שיחות טלפון מאנשים שיושבים על נתונים אלה ורוצים עזרה בהצבתם בהקשר רחב יותר. זה חשוב מכיוון שאנחנו במירוץ לחקור את הכוכב הזה וללמוד כיצד ההתפתחות שלנו מדגישה את המשאבים הסופיים שלנו. . . הסמיתסוניאן יכול למלא תפקיד בהגדלת הידע מכל המקורות הללו ולהוות כוח אמיתי להפיץ אותו. "

רבע מהמענק של מיליון דולר יוענק לסמית'סוניאן על חלקו בעבודה, אך EOL כולל הרבה שחקנים אחרים. כמה מפתחים נמצאים במצרים; צוות חינוך מבוסס מהרווארד; ויחידת השפה הספרדית נמצאת במקסיקו סיטי.

כל הנתונים של EOL ימשיכו להיות ברשות הרבים או ברישיון תחת Creative Commons. המחקר והנתונים נועדו להיות נגישים לציבור ולא להסתתר מאחורי קיר שכר.

"זה חלום ישן מאוד", אומר המוק. "אדם אחד כנראה לא יכול ללמוד את כל זה. קשה לשים את הכל במקום אחד בו ניתן לבדוק באופן מודע מול עצמו. אבל עכשיו יש לנו מחשבים. "

פליניוס יהיה מרוצה מאוד או מקנא מאוד.

ביג דאטה רק הלכה וגדלה יותר כאשר ווטסון של IBM פוגש את האנציקלופדיה של החיים