אם מישהו יבקש מכם לחזות את מספר המדליות שכל מדינה הולכת לזכות באולימפיאדה השנה, כנראה שתנסו לזהות את הספורטאים המועדפים בכל אירוע, אז סך הכל הזכיות הצפויות של כל מדינה יגיעו לתוצאה.
לטים ודן גראטינגר, האחים שמאחורי חברת כריית המידע Discovery Corps, Inc. יש גישה שונה למדי. הם מתעלמים לחלוטין מהספורטאים.
במקום זאת, המודל שלהם למשחקי סוצ'י מסתכל על האזור הגיאוגרפי של כל מדינה, התמ"ג לנפש, הערך הכולל של היצוא ורוחב הרוח כדי לקבוע כמה מדליות כל מדינה תזכה. למקרה שאתה תוהה, זה צופה שארה"ב תצא בראש, עם 29 מדליות בסך הכל.
הגרטרים אינם הראשונים להשתמש בגישה מונעת-נתונים ומטה מלמעלה למטה לחיזוי ספירת מדליות. דניאל ג'ונסון, פרופסור לכלכלה במכללת קולורדו, בנה מודלים דומים לחמשת האולימפיאדה בין 2000 ל -2008 - והשיג דיוק של 94 אחוזים בסך הכל בניבוי מספר המדליות של כל מדינה - אך לא יצר מודל לסוצ'י.
דן וטים הם חדשים יותר במשחק. דן - שעובד בדרך כלל בפרויקטים נוספים של כריית נתונים, למשל בחיזוי לקוחות פוטנציאליים של חברה - התעניין לראשונה להשתמש במודלים כדי לחזות תחרויות לפני ארבע שנים, במהלך אולימפיאדת החורף בוונקובר. "אני משתמש בנתונים על העבר כדי לחזות את העתיד כל הזמן", הוא אומר. "כל לילה הם היו מראים את ספירת המדליות בטלוויזיה, והתחלתי לתהות אם נוכל לחזות את זה."
למרות שההופעה של ספורטאים בודדים יכולה להשתנות באופן בלתי צפוי, הוא אמר, יתכן שיש קשר כולל בין מאפייני היסוד של המדינה (גודל, אקלים וכמות העושר שלה, למשל) לבין מספר המדליות שהיא ככל הנראה תביא הביתה. גישה מסוג זה לא תוכל לומר איזה מתחרה עשוי לזכות באירוע נתון, אך עם מספיק נתונים, היא תוכל לחזות במדויק את ספירת המדליות המצטברות לכל מדינה.
בתחילה, הוא ואחיו התכוונו לעבוד בפיתוח מודל מקדים למשחקי לונדון 2012. ראשית, הם אספו מגוון רחב של סוגים שונים של מערכי נתונים, על כל דבר, החל מהגיאוגרפיה של המדינה ועד להיסטוריה, לדת, לעושרה ולמבנה הפוליטי. לאחר מכן הם השתמשו בניתוחי רגרסיה ובשיטות אחרות של ריסוק נתונים בכדי לראות אילו משתנים היו בעלי הקשר הקרוב ביותר לנתונים היסטוריים על מדליות אולימפיות.
הם גילו כי למשחקי הקיץ, מודל ששילב תוצר מקומי גולמי של אוכלוסייה, אוכלוסייה, רוחב רוחב וחופש כלכלי כללי (כפי שנמדד במדד קרן המורשת), התאם באופן מיטבי עם ספירת המדליות של כל מדינה בשתי האולימפיאדות הקודמות (2004) ו- 2008). אבל באותה נקודה, המודל המקדים שלהם יכול היה רק לחזות אילו מדינות יזכו בשתי מדליות או יותר, ולא את מספר המדליות במדינה.
הם החליטו לשפר את זה למשחקי סוצ'י, אך לא יכלו לסמוך על המודל הקודם שלהם, מכיוון שהמדינות שמצליחות בחורף שונות כל כך מהקיץ. המודל הסוצ'י החדש שלהם מתמודד עם בעיית חיזוי ספירת המדליות בשני שלבים. מכיוון שכ- 90 אחוז מהמדינות מעולם לא זכו במדליית בודדת של אולימפיאדת החורף (אף ספורטאי מזרח תיכון, דרום אמריקה, אפריקה או קריבי מעולם לא זכה), היא תחילה מפרידה בין עשרת האחוזים שסביר להניח שזכו לפחות באחת, ואז חוזה כמה כל אחד ינצח.
"כמה מגמות זה פחות או יותר מה שהיית מצפה - ככל שאוכלוסיית המדינה תגדל, יש יותר סיכוי שהיא תזכה במדליה, " אומר טים. "עם זאת, בסופו של דבר אתה זקוק למכונות סטטיסטיות רבות עוצמה יותר שיכולות לטפל דרך הרבה משתנים ולדרג אותם במונחים שהם החזוי ביותר."
בסופו של דבר הם נתקלו בכמה משתנים המפרידים במדויק בין תשעים אחוז של המדינות הלא זוכות במדליה לעשרה אחוזים שסביר להניח שזכו: אלה כללו שיעור הגירה, מספר רופאים לנפש, קו רוחב, תוצר מקומי גולמי והאם הייתה במדינה זכתה במדליה במשחקי הקיץ הקודמים (אף מדינה מעולם לא זכתה במדליית חורף מבלי לזכות באחת בקיץ הקודם, בין היתר מכיוון שמאגר הזוכים בקיץ גדול בהרבה מזה שבחורף). על ידי הפעלת מודל זה בשתי אולימפיאדות החורף האחרונות, קבע מודל זה אילו מדינות קיבלו הביתה מדליה ברמת דיוק של 96.5 אחוזים.
עם 90 אחוז מהמדינות שחוסלו, הגרטרים השתמשו בניתוחי רגרסיה דומים כדי ליצור מודל שניבא, בדיעבד, כמה מדליות כל מדינה שנותרה זכתה. הניתוח שלהם מצא כי רשימת משתנים שונה במקצת מתאימה לנתוני המדליות ההיסטוריים. המשתנים הללו יחד עם תחזיות למשחקי סוצ'י הם להלן:
התחזיות של הדגם למשחקי סוצ'י (גרף באדיבות Discovery Corps, Inc.)חלק מהמשתנים שהתבררו כמתאמים אינם הלם עצום - הגיוני שמדינות ברוחב הגבוה יותר משתפרות באירועים שהתקיימו במהלך משחקי החורף - אך חלקם היו מפתיעים יותר.
"חשבנו שאוכלוסייה ולא שטח יבשתי תהיה חשובה", אומר דן. הם לא בטוחים מדוע האזור הגיאוגרפי בסופו של דבר מתאים יותר לנתונים ההיסטוריים, אך יכול להיות שזה בגלל שמדינות מעט אוכלוסיות גבוהות שלא זוכות במדליות חורף (כמו הודו וברזיל) זורקות את הנתונים. על ידי שימוש בשטח יבשתי במקום, המודל נמנע מההשפעה הרחבה של מדינות אלו, אך עדיין שומר על קשר גס לאוכלוסייה, מכיוון שבסך הכל יש במדינות עם אזורים גדולים יותר אוכלוסיות גדולות יותר.
כמובן שהמודל אינו מושלם, אפילו לא בהתאמה לנתונים היסטוריים. "הגישה שלנו היא הגישה של 30, 000 רגל. ישנם משתנים שאיננו יכולים להסביר עליהם", אומר טים. יש מדינות שהעלו שוב ושוב את התחזיות של הדגם (כולל קוריאה הדרומית, הזוכה בכמות לא פרופורציונלית של אירועי החלקה על מסלול החלקה מהיר), בעוד שאחרים מביאים ביצועים אחידים לביצוע (כמו בריטניה, שנראה שהמצליחה הרבה יותר טוב באירועי קיץ שהיו צפויים, אולי מכיוון שלמרות קו הרוחב שלה גשם גדול בהרבה משלג).
בנוסף, יוצא מן הכלל עקבי שמצאו בתחזיות המודל הוא שהמדינה המארחת תולה יותר מדליות ממה שהיא הייתה אחרת, פשוט על סמך הנתונים. גם איטליה (במהלך משחקי טורינו ב -2006) וגם קנדה (במהלך משחקי ונקובר 2010) ביצעו את הדגם, כשקנדה קבעה את שיא כל הזמנים שלה בזכות 14 זהב.
ובכל זאת, על סמך גישתם הקפדנית סטטיסטית, הגרטרים בטוחים כי בסך הכל, המודל שלהם ינבא את ספירת המדליות הסופיות בדרגת דיוק גבוהה יחסית.
כיצד ההשוואה בין תחזיותיהם למומחים המשתמשים באסטרטגיות קונבנציונאליות יותר? המומחים אינם שונים באופן דרמטי, אך יש להם כמה מדינות שמצליחות באופן מסורתי (נורבגיה, קנדה, רוסיה) הזוכות במספרים גדולים יותר של מדליות, יחד עם כמה מדינות אחרות (סין, הולנד, אוסטרליה) שכל אחת מהן זוכה בכמה פחות.
נכון להיום, הגרטינגרים לא הציבו שום הימורים על תחזיותיהם, אך הם כן מתכוונים להשוות את תפוקתם של המודל שלהם לסיכויי ההימורים רגע לפני שהמשחקים יוצאים לדרך. אם הם יראו אי-התאמה שהם רוצים לנצל, הם עלולים בסופו של דבר להכניס את כספם למקומם.