https://frosthead.com

האם דגם מחשב יכול לחזות את הסיבוב הראשון בטירוף מרץ השנה?

"היזהר מהאידיות של מרץ." כן, זה סוף סוף הזמן הזה של השנה: כאשר הקיסרים של כדורסל המכללות חייבים להשגיח על גבם, שמא הזרעים התחתונים של הטורניר יכהו.

לפני ה- 15 במרץ, מיליונים ברחבי העולם ימלאו את סוגרייםיהם של מרץ טירוף. בשנת 2017 ESPN קיבלה שיא של 18.8 מיליון סוגריים.

הצעד הראשון לסוגריים מושלמים הוא בחירה נכונה של הסיבוב הראשון. לרוע המזל, רובנו לא יכולים לחזות את העתיד. בשנה שעברה, רק 164 מהסוגריים שהוגשו היו מושלמים במהלך הסיבוב הראשון - פחות מ- 0.001 אחוזים.

18.8 מיליון סוגריים הוגשו.

164 מושלמים אחרי סיבוב 1.

הנה להשגת יתר. #perfectbracketwatch pic.twitter.com/TGwZNCzSnW

- ESPN Fantasy Sports (@ESPNFantasy) 18 במרץ, 2017

סוגריים רבים מופרכים כאשר צוות זרע נמוך יותר מרגיז את הזרע העדיף. מאז התחום התרחב ל -64 צוותים בשנת 1985, לפחות שמונה התרגשות מתרחשים בממוצע בכל שנה. אם אתה רוצה לזכות בבריכת הסוגר שלך, עדיף שתבחר לפחות כמה התרגזויות.

אנחנו שני דוקטורטים למתמטיקה. מועמדים באוניברסיטת אוהיו שיש להם תשוקה למדעי נתונים וכדורסל. השנה, החלטנו שיהיה כיף לבנות תוכנית מחשב המשתמשת בגישה מתמטית כדי לחזות את ההתעוררות מהסיבוב הראשון. אם אנו צודקים, סוגר שנבחר באמצעות התוכנית שלנו אמור לבצע ביצועים טובים יותר בסיבוב הראשון מאשר בסוגריים הממוצע.

בני אדם גלויים

לא קל לזהות אילו ממשחקי הסיבוב הראשון יביאו להרגשה.

נניח שאתה צריך להחליט בין זרע מס '10 לזרע מס' 7. הזרע מספר 10 הספיק להתעצבן בשלושת הופעותיו האחרונות בטורניר, ואפילו עשה את הפיינל פור. הזרע מספר 7 הוא קבוצה שקיבלה מעט כיסוי עד לאומי; המעריץ המזדמן כנראה מעולם לא שמע עליהם. באיזה תבחר?

אם הייתם בוחרים את הזרע מספר 10 בשנת 2017, הייתם הולכים עם אוניברסיטת חבר העמים של וירג'יניה על פני סנט מרי מקליפורניה - והייתם טועים. הודות לתקלות בקבלת החלטות שנקראת הטיה חוזרת, ניתן לתרום בני אדם להשתמש בתצפיות האחרונות שלהם כדי לקבל החלטה.

הטיית תדירות היא רק סוג אחד של הטיה שיכולה לחדור לתהליך הבחירה של מישהו, אך ישנם רבים אחרים. אולי אתה מוטה כלפי הקבוצה הביתית שלך, או אולי אתה מזדהה עם שחקן ורוצה נואשות שהוא או היא יצליחו. כל זה משפיע על סוגרך באופן שלילי. אפילו אנשי מקצוע מנוסים נופלים במלכודות הללו.

דוגמנות מתעצבן

למידת מכונה יכולה להתגונן מפני החסרונות הללו.

בלימוד מכונות סטטיסטיקאים, מתמטיקאים ומדעני מחשבים מכשירים מכונה לביצוע תחזיות בכך שהם נותנים לה "ללמוד" מנתוני עבר. גישה זו שימשה בתחומים רבים ומגוונים, כולל שיווק, רפואה וספורט.

ניתן לדמות טכניקות למידת מכונה לקופסה שחורה. ראשית, אתה מזין את נתוני העבר של האלגוריתם, בעצם הגדרת החוגות בתיבה השחורה. לאחר כיול ההגדרות, האלגוריתם יכול לקרוא נתונים חדשים, להשוות אותם לנתוני עבר ואז לירוק את תחזיותיו.

תצוגה שחורה של אלגוריתמים למידת מכונה. תצוגה שחורה של אלגוריתמים למידת מכונה. (מתיו אוסבורן, CC BY-SA)

בלימוד מכונות קיימים מגוון קופסאות שחורות. עבור פרויקט מרץ טירוף שלנו, אלו שרצינו ידועים כאלגוריתמים לסיווג. אלה עוזרים לנו לקבוע אם יש לסווג משחק כמעצבן, אם לא על ידי מתן ההסתברות להפרעה או על ידי סיווג מפורש של משחק כמשחק.

התוכנית שלנו משתמשת במספר אלגוריתמים פופולריים לסיווג, כולל רגרסיה לוגיסטית, מודלים של יער אקראיים ושכנות קרובות k. כל שיטה דומה למותג אחר של אותה מכונה; הם עובדים בצורה שונה מתחת למכסה המנוע כמו Fords ו- Toyotas, אך מבצעים את אותה משימת סיווג. לכל אלגוריתם, או תיבה, יש תחזיות משלו לגבי ההסתברות להפרעה.

השתמשנו בסטטיסטיקה של כל הצוותים בסבב הראשון 2001 עד 2017 בכדי להגדיר את החוגות על הקופסאות השחורות שלנו. כשבדקנו את אחד האלגוריתמים שלנו עם נתוני הסיבוב הראשון של 2017, היה לו אחוזי הצלחה של 75 אחוזים. זה נותן לנו ביטחון כי ניתוח נתוני העבר, במקום להסתמך רק על הבטן שלנו, יכול להוביל לתחזיות מדויקות יותר של התרגזויות, ובכך לסוגריים כלליים טובים יותר.

אילו יתרונות יש לתיבות האלה על פני האינטואיציה האנושית? ראשית, המכונות יכולות לזהות דפוסים בכל נתוני 2001-2017 תוך שניות ספורות. מה שכן, מכיוון שהמכונות מסתמכות רק על נתונים, יתכן שהסיכוי שלהן פחות יפול בגלל הטיות פסיכולוגיות אנושיות.

זה לא אומר שלמידה במכונה תעניק לנו סוגריים מושלמים. למרות שהתיבה עוקפת הטיה אנושית, היא אינה חסינה מפני שגיאות. התוצאות תלויות בנתוני העבר. לדוגמה, אם זרע מס '1 היה מפסיד בסיבוב הראשון, סביר להניח שהמודל שלנו לא ינבא אותו, מכיוון שזה מעולם לא קרה לפני כן.

בנוסף, אלגוריתמים למידת מכונה פועלים בצורה הטובה ביותר עם אלפי דוגמאות ואפילו מיליוני דוגמאות. רק 544 משחקי טירוף במרץ הראשון בסיבוב הראשון שיחקו מאז 2001, כך שהאלגוריתמים שלנו לא יתקשרו כראוי לכל הטרדה. מכהן המומחה לכדורסל ג'אלן רוז, הפלט שלנו צריך לשמש ככלי בשילוב הידע המומחה שלך - ומזל! - לבחור את המשחקים הנכונים.

מכונה ללימוד טירוף?

אנחנו לא האנשים הראשונים ליישם למידת מכונה ב- March Madness ולא נהיה האחרונים. למעשה, בקרוב יתכן שיהיה צורך בטכניקות למידת מכונות כדי להפוך את הסוגר לתחרותי.

אתה לא צריך תואר במתמטיקה כדי להשתמש בלמידה במכונה - למרות שזה עוזר לנו. בקרוב, למידת מכונה עשויה להיות נגישה מתמיד. המעוניינים יכולים להציץ בדגמים המקוונים שלנו. אל תהסס לחקור את האלגוריתמים שלנו ואפילו לבוא בגישה טובה יותר בעצמך.


מאמר זה פורסם במקור ב- The Conversation. השיחה

מתיו אוסבורן, מועמד לדוקטורט במתמטיקה, אוניברסיטת אוהיו

קווין נולנד, מועמד לדוקטורט במתמטיקה, אוניברסיטת אוהיו

האם דגם מחשב יכול לחזות את הסיבוב הראשון בטירוף מרץ השנה?