עבור בני אדם, שחמט עשוי לקחת חיים שלמים כדי להשתלט עליו. אבל תוכנית הבינה המלאכותית החדשה של גוגל DeepMind, AlphaZero, יכולה ללמד את עצמה לכבוש את הלוח תוך שעות ספורות.
בונה על הצלחתה בעבר עם חבילת AlphaGo - סדרת תוכנות מחשב המיועדות לשחק את משחק הלוח הסיני Go - גוגל מתהדרת בכך שה- AlphaZero החדשה שלה משיגה רמה של "ביצועים על-אנושיים" לא רק במשחק לוח אחד, אלא בשלושה: Go, שחמט ושוגי (בעיקרון שחמט יפני). צוות מדעני המחשב והמהנדסים, בראשות דייויד סילבר של גוגל, דיווח לאחרונה על ממצאיו בכתב העת Science .
"לפני כן, בעזרת למידת מכונה, היית יכול לגרום למכונה לעשות בדיוק מה שאתה רוצה - אבל רק את הדבר הזה, " אומרת אייאנה הווארד, מומחית למחשוב אינטראקטיבי ובינה מלאכותית במכון הטכנולוגי בג'ורג'יה שלא השתתפה במחקר מחקר. "אבל AlphaZero מראה שאתה יכול לקבל אלגוריתם שאינו כל כך [ספציפי], והוא יכול ללמוד בפרמטרים מסוימים."
התכנות החכמות של AlphaZero בהחלט מגבירה את המשחק לפני האדם והמכונה כאחד, אך גוגל כבר מזמן הוקדשה למשהו גדול יותר: בינה הנדסית.
החוקרים נזהרים שלא לטעון כי AlphaZero נמצא על סף שליטה עולמית (אחרים מיהרו קצת להקפיץ את האקדח). ועדיין, סילבר ושאר חברי להקת DeepMind כבר מקווים שהם יראו יום אחד מערכת דומה המיושמת על עיצוב תרופות או מדעי חומרים.
אז מה הופך את AlphaZero לכל כך מרשימה?
משחקיות נחשבת זה מכבר כסטנדרט זהב במחקר הבינה המלאכותית. משחקים אינטראקטיביים מובנים הם פשטים של תרחישים בעולם האמיתי: יש לקבל החלטות קשות; ניצחונות והפסדים מרימים את ההימור; וחיזוי, חשיבה ביקורתית ואסטרטגיה הם המפתח.
קידוד מיומנות מסוג זה הוא מסובך. באופן מסורתי, נשאבו מלאי AI של משחקי-משחק ישנים יותר - כולל אבות-הטיפוס הראשונים של ה- AlphaGo המקורית - מלאים בקודים ונתונים כדי לחקות את החוויה שנצברה בדרך כלל באמצעות שנים של משחק טבעי, אנושי (למעשה, מזבלה ידע פסיבית, הנגזרת מתכנת). עם AlphaGo Zero (הגרסה העדכנית ביותר של AlphaGo), וכעת AlphaZero, החוקרים נתנו לתוכנית קלט אחד בלבד: כללי המשחק המדובר. ואז, המערכת צנחה ולמדה באופן פעיל את תחבולות המסחר עצמו.
AlphaZero מבוסס על AlphaGo Zero, חלק מסוויטת AlphaGo שנועדה לשחק את משחק הלוח הסיני Go, בתמונה למעלה. איטרציות מוקדמות של התוכנית המקורית הוזנו נתונים ממשחקים אנושיים לעומת אנושיים; גרסאות מאוחרות עוסקות בהוראה עצמית, בהן התוכנה שיחקה משחקים נגד עצמה בכדי ללמוד אסטרטגיה משלה. (צ'אד מילר / פליקר / CC BY-SA 2.0)אסטרטגיה זו, הנקראת למידת חיזוק משחק עצמי, היא כמעט בדיוק איך שהיא נשמעת: כדי להתאמן לליגות הגדולות, AlphaZero שיחקה את עצמה באיטרציה לאחר איטרציה, כיבדה את כישוריה על ידי ניסוי וטעייה. וגישת הכוח הזרוע השתלמה. שלא כמו AlphaGo Zero, AlphaZero לא סתם משחק את Go: הוא יכול לנצח את מיטבי ה- AI הטובים ביותר בעסק גם בשחמט ושוגי. תהליך הלמידה הוא גם יעיל באופן מרשים, והוא דורש רק שעתיים, ארבע או 30 שעות של הדרכה עצמית כדי להעלות על תוכניות המותאמות במיוחד לשליטת שוגי, שחמט וגו בהתאמה. ראוי לציין כי מחברי המחקר לא דיווחו על מקרים שבהם AlphaZero הולך ראש בראש עם אדם אמיתי, אומר האוורד. (ייתכן שהחוקרים הניחו כי בהתחשב בכך שתוכניות אלה מסגרות בעקביות את מקביליהן האנושיים, התאמה כזו הייתה חסרת טעם.)
AlphaZero הצליחה גם להרוס את סטוקפיש (אמן השחמט של ה- AI, שאינו יושב כעת) ואת אלמו (מומחה השוגי לשעבר של AI) למרות שהעריכו פחות מהלכים הבאים האפשריים בכל סיבוב במהלך המשחק. אך מכיוון שהאלגוריתמים המדוברים הם שונים מטבעם, ועשויים לצרוך כמויות כוח שונות, קשה להשוות ישירות את AlphaZero לתוכניות אחרות וישנות יותר, מציין ג'ואנה בריסון, שלומדת בינה מלאכותית באוניברסיטת באת 'בבריטניה ועשתה זאת לא לתרום ל- AlphaZero.
גוגל שומרת על אמא על הרבה האותיות הקטנות בתוכנה שלה, ואלפאזרו אינה יוצאת מהכלל. אמנם איננו יודעים הכל על צריכת החשמל של התוכנית, אך ברור שזו: AlphaZero צריכה לארוז תחמושת חישובית רצינית. בשעות אימונים מועטות, התוכנית המשיכה להיות עסוקה מאוד, והשתתפה בעשרות או מאות אלפי סיבובי אימונים בכדי להעלות את אסטרטגיית משחקי הלוח שלה - הרבה יותר מששחקן אנושי היה זקוק (או, ברוב המקרים, יכול היה אפילו להשיג) במרדף אחרי מיומנות.
משטר אינטנסיבי זה השתמש גם ב -5, 000 יחידות מעבד ללימוד מכונות קנייניות של גוגל, או TPUs, שלפי הערכות מסוימות צורכות כ -200 וואט לשבב. לא משנה איך אתה פורס את זה, AlphaZero דורש דרך אנרגיה רבה יותר מאשר מוח אנושי, שפועל על 20 וואט.
יש לקחת בחשבון את צריכת האנרגיה המוחלטת של AlphaZero, מוסיף בן יו, שעובד בממשק הסטטיסטיקה, למידת מכונות ובינה מלאכותית באוניברסיטת קליפורניה, ברקלי. AlphaZero הוא עוצמתי, אך עשוי לא להועיל לדולר - במיוחד כשמוסיפים את שעות האדם שנכנסו ליצירה והביצוע שלה.
AlphaZero יקר מבחינה אנרגטית או לא, עושה נתז: רוב מכשירי ה- AI מתמחים בהיפר במשימה יחידה, מה שהופך את התוכנית החדשה הזו - עם האיום המשולש שלה למשחק - לגמישה להפליא. "זה מרשים ש- AlphaZero הצליחה להשתמש באותה ארכיטקטורה לשלושה משחקים שונים, " אומר יו.
אז כן. ה- AI החדש של גוגל אכן מצביע חותם חדש בכמה דרכים. זה מהיר. זה חזק. אבל האם זה הופך את זה לחכם?
זה המקום בו ההגדרות מתחילות להיות עכורות. "AlphaZero הצליחה ללמוד, החל מאפס ללא שום ידיעה אנושית, לשחק כל אחד מהמשחקים הללו עד לרמה על-אנושית", אמר הכסף של DeepMind בהצהרה לעיתונות.
גם אם מומחיות במשחקי לוח דורשת חדות נפשית, לכל הגורמים לעולם האמיתי יש גבולות. באיטציה הנוכחית, AlphaZero מסתכמת בכך שהיא מנצחת במשחקים מעוצבים על ידי אנוש - מה שאולי לא מצדיק את התווית שעלולה להיות מדאיגה של "על אנושי." בנוסף, אם תופתע עם מערכת כללים חדשה באמצע המשחק, AlphaZero עלול להסתבך. המוח האנושי בפועל, לעומת זאת, יכול לאגור הרבה יותר משלושה משחקי לוח ברפרטואר שלו.
מה שכן, השוואה בין קו הבסיס של AlphaZero לטאולה ראסה (צפחה ריקה) - כפי שעושים החוקרים - היא מתיחה, אומר בריסון. מתכנתים עדיין מאכילים אותו ביס אחד חשוב של הידע האנושי: כללי המשחק שהוא עומד לשחק. "אכן יש הרבה פחות מהשהיה בעבר", מוסיף בריסון, "אבל הדבר הבסיסי ביותר הוא שעדיין ניתנים לו כללים. אלה מפורשות. "
וכללים מציקים אלה יכולים להוות קב קבוע משמעותי. "למרות שהתוכניות הללו לומדות לבצע, הן צריכות את כללי הדרך, " אומר האוורד. "העולם מלא במשימות שאין להם כללים אלה."
כשדחיפה באה לדחוף, AlphaZero הוא שדרוג של תוכנית שכבר הייתה עוצמתית - AlphaGo Zero, מסביר ג'ואן פול, שלומד בינה מלאכותית וחלומות חישוביים במכון הפוליטכני של וירג'יניה ובאוניברסיטת המדינה ולא היה מעורב במחקר החדש. AlphaZero משתמש ברבים מאותם אבני בניין ואלגוריתמים כמו AlphaGo Zero, ועדיין מהווה רק תת-קבוצה של חכמים אמיתיים. "חשבתי שהתפתחות חדשה זו הייתה יותר אבולוציונית מאשר מהפכנית, " היא מוסיפה. "אף אחד מאלגוריתמים אלה אינו יכול ליצור . אינטליגנציה היא גם על סיפור סיפורים. זה לדמיין דברים שעדיין לא נמצאים שם. אנחנו לא חושבים במונחים האלה במחשבים. "
חלק מהבעיה היא שעדיין אין הסכמה לגבי הגדרה אמיתית של "אינטליגנציה", אומר יו - ולא רק בתחום הטכנולוגיה. "עדיין לא ברור כיצד אנו מתאמנים על יצורים חשיבה ביקורתית, או כיצד אנו משתמשים במוח הלא מודע, " היא מוסיפה.
עד כה, חוקרים רבים מאמינים שישנם סוגים רבים של אינטליגנציה. והקשה על אחד רחוק מלהבטיח את החומרים עבור אחר. למשל, כמה מהאנשים הכי חכמים שם הם נוראים בשחמט.
עם מגבלות אלה, חזונו של יו לעתידם של בני בינה מלאכותית בני אדם ומכונות במעין התפתחות מקדמת. מכונות בוודאי ימשיכו להצטיין במשימות מסוימות, היא מסבירה, אך תמיד קלט ופיקוח אנושי יהיה נחוץ כדי לפצות על הלא מורשים.
כמובן, אין לדעת כיצד הדברים יתדרדרו בזירת AI. בינתיים, יש לנו הרבה מה להרהר. "המחשבים האלה עוצמתיים ויכולים לעשות דברים מסוימים טוב יותר מכפי שאדם יכול", אומר פול. "אבל זה עדיין נופל מתעלומת האינטליגנציה."
מאמר זה פורסם במקור באתר NOVA.