עליית בדיקות ה- DNA באמצעות שירותים כמו 23andme מראה שיש שוק גדול בהיסטוריה משפחתית.
כעת, מדענים ביססו נתונים אלה על ידי פרסום מה שהם מאמינים שהם מאגר המידע היוחסין הגדול בעולם, עם אילן יוחסין המקשר בין 13 מיליון איש ומשתרע על פני יותר מחמש מאות שנים.
כפי שמדווח ג'וסלין קייזר למגזין המדע, יניב ארליך, גנטיקאי חישובי באוניברסיטת קולומביה, העלה את הפרויקט לפני כשבע שנים לאחר שקיבל דוא"ל מדוד קרוב משפחה רחוק דרך Geni.com, אחד האתרים הרבים שבהם מחפשים קשרים משפחתיים.
בתמיכת קצין הטכנולוגיה הראשי של Gemi.com, ארליך הוריד את הפרופילים הציבוריים של האתר - עשרות מיליונים מהם. למרות שהדבר לא הציע נתוני DNA, המידע כלל שם של אדם, מין, תאריך ומקום לידה, תאריך פטירה וקרובי משפחה קרובים.
הטבע כתב על הפרויקט של ארליך בשלביו המוקדמים עוד בשנת 2013, ובשנה שעברה דיווחה שרה ג'אנג של האוקיאנוס האטלנטי כי החוקרים פרסמו את ההדפס המקדים של העץ המסיבי. כעת, כותב קייזר, צוותו של ארליך פרסם מחקר על עבודותיהם בכתב העת Science. בעזרת הנתונים הם הגיעו ל -5.3 מיליון עצים, הגדול שבהם מחבר כ -13 מיליון קרובי משפחה, רובם ממוצא אירופי.
מאז שהתחיל את הפרויקט, ארליך הפך לקצין המדע הראשי של MyHeritage, חברת בדיקת גנאלוגיה ו- DNA שבבעלותה Geni.com. ביום שישי האחרון הוא עשה Reddit שאל אותי כל דבר על ממצאיו, תיקן תפיסות שגויות והסביר את המתודולוגיה שמאחורי הפרויקט. הוא גם ציין כי החלק המעניין ביותר של החוויה עבורו היה להבין כיצד לתרגם את כל הנתונים הזמינים למשהו אישי.
בראיון עם ניקול ווטסמן, ניקול ווטסמן, אומר ארליך כי להבין כיצד לעבוד עם נתונים אלה היה גם החלק המאתגר ביותר בפרויקט. "למערכי הנתונים הגנומיים יש כלים ספציפיים, מבני נתונים, שיטות, אך לא היה לנו שום דבר לזה. המצאנו את הגלגל כשהלכנו, "הוא אומר.
בסופו של דבר החוקרים השתמשו בתורת הגרפים המתמטיים כדי לארגן ולאמת את המידע, מדווחת לורה גגל למדע חי . הם גם השוו את הפרופילים עם כ -80, 000 אישורי פטירה שפורסמו מוורמונט במשך 25 שנה כדי להבטיח שלא רק פרופילים עשירים שהועלו ל- Geni.com.
לאחר מכן החליט הצוות איזה מידע הם רוצים לחפש כדי לבחון את בסיס הנתונים, כותב ווטסמן.
הם התחילו להסתכל על דפוסים ומצאו תנודות באורך החיים, משהו שציפו. לדוגמא, הם ראו טיפת גברים צעירים במלחמת האזרחים ובמלחמות העולם הראשון והשני, ועלייה בהישרדות הילדות בשנות העשרים. הם הצליחו גם לעקוב אחר הגירה, כמו הגעתו של המייפלואר בשנת 1620 במה שכיום מסצ'וסטס, ואחריה עלייה של לידות באזור זה.
החוקרים גם גילו כי אריכות ימים קשורה יותר לסביבה ולהתנהגות מאשר לגנטיקה; למעשה, הנתונים שגילו כי הגנים אחראים רק לאחוז החיים. פאולה סבסטיאני, פרופסור לביו-סטטיסטיקה בבית הספר לבריאות הציבור באוניברסיטת בוסטון, מזהיר כי מסקנת מסקנות נתונים אלה בראיון לווטסמן. "יש הרבה בלבול לגבי ההגדרות של אריכות-חיים, " היא אומרת.
הגנטיקאי פיטר ויסשר מאוניברסיטת קווינסלנד בבריסביין, אוסטרליה, אומר לקייזר כי הנתונים שלצוותו של ארליך צייתו הם בעלי פוטנציאל לספק תובנות לגבי התפקיד הגנטיקה של מחלות אם הנתונים קשורים למידע בריאותי.
צוות המחקר כבר החל לשלב את העץ עם מידע מ- DNA.Land, שמצטבר בנתוני DNA, שיכולים להיות שעץ גדול עוד יותר עשוי להגיע בקרוב. חוקרים צופים שאם בסיס הנתונים יוכל לחזור 65 דורות אחורה, הם יוכלו להשלים את העץ.