https://frosthead.com

כיצד גוגל מוציאה את דואר הזבל שלך מתיבת הדואר הנכנס

מאחורי כל פריצות המידע של גוגל - החל להבין אילו תוצאות חיפוש הן החשובות ביותר, לקריאה ושמירת כרטיסיות בדוא"ל שלך - יש מתמטיקה מעניינת. ולאחרונה חאבייר טורדבל, מהנדס תוכנה, עשה עליו מצגת, פותח צוהר אל תוך גוגל החנונית, רק סדק.

נתחיל עם Gmail. לפעמים אתה מקבל דואר זבל, אבל Gmail די טוב להבין שכאשר הכתב מנסה לגרום לך להשקיע בנסיך ניגרי, אתה בטח לא רוצה את פיסת הדואר הזו בתיבת הדואר הנכנס שלך. איך זה יודע? שלב ראשון: הרכבת המכונה. שלב שני: הכניסו אותו לעבודה.

קוראים לזה למידת מכונה, וגוגל עושה המון מזה. בשלב הראשון, עליכם לעשות מה שמכניחים מדעני מחשבים "לאפיין מופע". בשפה מתמטית פירושו:

באופן כללי, ניתן לראות במאפייני מופע כאלמנטים בווקטור של מרחב אקלידידי ממדי עבור n גדול (100-1000 ממדים הם תקינים, 1M-10M לא נשמע)

אבל הנה איך לחשוב על זה אם הפסקת מתמטיקה לאחר Calc 1. Gmail יכול לשלוף כמה פיסות מידע חשובות מכל אימייל מסוים. כמה ארוך זה? כמה אותיות גדולות יש? האם זה ממישהו שקיבלת דוא"ל מפעם? אינך רוצה שהמידע הנדרש בכדי לקבל את ההחלטה יהיה קשה מדי לקבל או להתמודד איתו, מכיוון שזה יאט ויריד את הדיוק של המכונה שלך. אז גוגל מציירת קו, על סמך מה שהיא יודעת על דואר זבל. האימיילים שעוברים נופלים בצד אחד של הקו, והדואלים הדואלים, מצד שני.

מדברים במתמטיקה נוספים:

מודל סיווג פשוט הוא מטוס היפר במרחב המאפיינים. מופעי נתונים בצד אחד של ההיפר-מטוס מסווגים כהודעות דוא"ל תקפות ומופעים בצד השני מסווגים כדואר זבל.

מה לגבי חיפוש קולי - נקרא גם זיהוי דיבור אוטומטי, או ASR? כמו למידת מכונה, ASR קורה בשני חלקים: עיבוד הצליל נכנס ונמצא מה אתה אומר. החלק הראשון כולל טרנספורמציות פורייה, שמבודדות את הקטעים החשובים שהמחשב יכול לתרגם. החלק השני הוא דוגמנות דיבור באמצעות מה שמכונה "מודל מרקוב נסתר". Tordable מסביר:

במודל זה המצבים הם אותיות ההודעה ורצף האירועים הוא אות הקול. ניתן להשתמש באלגוריתם Viterbi בכדי להשיג את רצף מצבי הסבירות המרבית.

גוגל הייתה שמחה להפוך את זיהוי הקול לטובה וקל יותר. במחקר מקרה זה, קבוצה של גריזים של גוגל כותבים:

המטרה של גוגל היא להפוך את הגישה המדוברת לזמינה בכל מקום. ברצוננו לאפשר למשתמש לבחור - הם צריכים להיות מסוגלים לקחת את זה כמובן מאליו כי אינטראקציה מדוברת היא תמיד אפשרות. השגת יעדים נדרשים לשני דברים: זמינות (כלומר מובנית בכל אינטראקציה אפשרית בה קלט או פלט דיבור יכולים להיות הגיוניים), וביצועים (כלומר, עובדים כל כך טוב שהאופן לא מוסיף שום חיכוך לאינטראקציה).

תחום נוסף בו גוגל משתמשת במתמטיקה נמצא במפות שלהם - לאור הזרקורים לאחרונה לאחר שאפל התחילה לבקר במערכת המיפוי שלהם ביקורת רבה. בלב מפות Google נמצאת תיאוריית הגרפים הבסיסית - המתמטיקה של הגעה ממקום למקום בזמן נסיעה למרחק הקצר ביותר. אבל, כמובן, זה יותר מורכב. Tordable כותב, "אחת הבעיות הייחודיות היא שהגרפים המשמשים במפות Google מכילים מיליוני צמתים, אך האלגוריתמים צריכים להופיע באלפיות השנייה."

גוגל לא תגלה לנו איך הם עושים זאת. אחרת אפל לא הייתה נתקלת בבעיה שלה, אבל היסודות כרוכים בניתוק האלגוריתם של דיז'קטרה (ככל הנראה האלגוריתם לחיפוש הגרפים הנפוץ ביותר). לפני כמה שנים, מדענים ממחשבים מאוניברסיטת קרלסרוה תיארו דרך חדשה לדרג שאילתות בשביל לקבל תוצאות מהירות בהרבה. הם כתבו:

האלגוריתם שלנו מעבד מראש את המספר שמונה ספרות של צמתים הדרושים למפות של ארה"ב או מערב אירופה תוך מספר שעות באמצעות שטח ליניארי. שאילתות הנתיבים הקצרות ביותר (כלומר המהירות ביותר) ואז קח כשמונה מילישניות כדי לייצר נתיבים הקצרים המדויקים ביותר. זה מהיר פי 2, 000 מאשר השימוש באלגוריתם של דיקסטרה.

Tordable עובר על מספר כלים מתמטיים אחרים המשמשים את גוגל, כולל אלה המעורבים ב- Google Books, חיפוש תמונות, Analytics, YouTube, Google Translate, Google Earth ו- Picasa. אתה יכול לראות את כל מערך השקופיות כאן.

עוד מ- Smithsonian.com:

סמית'סוניאן מקבל מיפוי של גוגל
עקוב אחר מגמות מזון באמצעות ספרי גוגל

כיצד גוגל מוציאה את דואר הזבל שלך מתיבת הדואר הנכנס