תוכנת זיהוי קולי, רובנו כנראה מסכימים, היא דבר די מגניב. אבל הדיבור עם מכונות חלק - בין אם מדובר בסמארטפון, מסך טלוויזיה או לוח מחוונים - ובכן, לא כל כך. מבקש עצה של מכשיר? שוניות חנון. משחרר כל מילה כדי שאפשר יהיה להבין אותך? כמה מגניב אתה באמת יכול להיות?
אבל אפל, נכון לעיצוב, קיבלה את הראש על ידי שכירת שלושה אייקונים של מגניבים לככב בקמפיין המודעות האחרון שלהם לסירי, הקול של ה- iPhone 4S. יש את זואי דישנל (מגניב מקסים) וג'ון מלקוביץ '(מוח מוחי) וסמואל ל. ג'קסון (אולטימטיבי מגניב), וכולם גורמים לעסוק במשחקי מילים עם טלפון להיראות כספורט האלים.
מבקרים, בכל זאת, מציינים כי בחיים האמיתיים, סירי אינה מגיבה ולא יודעת כמו שהיא מצטיירת בפרסומות. גם אתה, אני בטוח, המום לשמוע את זה. אחרים רואים את כל העניין כשלים לפרודיה - ראו אחיו של זואי, ג'ואי, מבצע גרסה מצחיקה או Die של היום הגשום של זואי וסירי יחד.
לא משנה. סירי הפכה להיות זמרת ראשית במקהלת הרובוטים, הקול "You Got Mail" של דור חדש.
זה אופנתי בכמה מעגלים להציע שסירי אינו ראוי לסטיב ג'ובס, שאם הוא היה עדיין בחיים, ג'ובס היה מוציא אותה מהשוק או לכל הפחות, לעולם לא היה מאשר מודעה כל כך גבוהה בפרופיל. קמפיין למוצר כל כך פגום.
אך כפי שאמר יורשו של ג'ובס, טים קוק, בתחילת השבוע, בעלי אייפון 4S כמו סירי. על פי סקר שפורסם במרץ, כמעט 90 אחוז אומרים שהם משתמשים בו לפחות פעם בחודש. וקחו בחשבון שסירי, אחד ממוצרי אפל המעטים מאוד שנאמר כי היא בטא עם יציאתה, לא תחגוג את יום הולדתה הראשון עד אוקטובר. היא עדיין לומדת שפה, וחשוב מכך, רק מתחילה לנצל את הפוטנציאל של בינה מלאכותית.
סירי תהיה ככל הנראה מרכזית של אפל TV, שצפויה לערוך את הופעת הבכורה שלה בדצמבר. אבל רוב הסיכויים שהמקום בו הדיבור עם מכונות יעבור למיינסטרים הוא במכוניות שלנו.
סע, אמרה
בטח, זה כבר קורה, אבל אתה עדיין צריך לעבור לרובוט לדבר אם אתה רוצה להיות מובנה. וגם אז אין שום ערובה. זה יתחיל להשתנות בקיץ הקרוב כאשר כמה דגמים חדשים יצטיידו במשהו שנקרא Dragon Drive!
זו ההמצאה של Nuance Communications, חברה מבוססת מסצ'וסטס שהפכה למעצמת כוח בעסקי זיהוי קולי. (ההערכה היא כי מדובר במוח שמאחורי סירי.) ניואנס וזיהוי קולי במכוניות זינקו קפיצת מדרגה גדולה בשבוע שעבר, כאשר החברה הודיעה כי דרגון דרייב! יוכלו להתחבר לענן.
משמעות הדבר היא שהמערכת תעלה באופן דרמטי את כוח המחשוב ויכולת הזיכרון שלה. וזה אומר שהקול שב לוח המחוונים שלך יהפוך לסירי יותר ויאפשר לך לדבר איתו בפועל. לא עוד צעקות מונוסילביות. יגיע היום בו תוכלו להזכיר כלאחר יד שאתה מרגיש כאילו כמה אחים אלמן ושניות לאחר מכן "Whipping Post" יבוא לשאוב דרך הרמקולים.
המפתח הוא כמה טוב אנו מסוגלים ללמד מכונות הקשר ופרגמטיקה - כיצד משתמשים בשפה במצבים חברתיים. וזה עסק מסובך. בתור התחלה, אפילו מכשיר זיהוי הקולי המתוחכם ביותר צריך לחכות לאדם שיסיים לדבר כדי שהוא יוכל לנתח ולפרש את כל המשפט. ואז יש "תיאוריית הנפש", היכולת להבין שאנשים אחרים יכולים להיות בעלי אמונות וכוונות שונות משלנו. ככל הידוע, רק בני אדם יכולים לעשות זאת.
מחקר שנערך לאחרונה על ידי שני פסיכולוגים של סטנפורד יכול לתת לך תחושה של מה הכרוך בסיוע אינטואיטיבי למכונות. החוקרים מייקל פרנק ונח גודמן הקימו ניסוי מקוון בו המשתתפים התבקשו להסתכל על קבוצת אובייקטים ואז בחרו באיזה אחד התייחסו למילה מסוימת. לדוגמה, קבוצת משתתפים אחת ראתה ריבוע כחול, מעגל כחול וריבוע אדום. השאלה עבור אותה קבוצה הייתה: דמיין שאתה מדבר עם מישהו ואתה רוצה להתייחס לאובייקט האמצעי. באיזו מילה היית משתמש, "כחול" או "מעגל"?
הקבוצה השנייה נשאלה: דמיין שמישהו מדבר איתך ומשתמש במילה "כחול" כדי להתייחס לאחד מהאובייקטים האלה. על איזה חפץ הם מדברים?
התגובות עזרו לחוקרים לקבל תמונה ברורה יותר של האופן בו מאזין מבין דובר וכיצד דובר מחליט מה לומר. מכאן פיתחו את סוג המודל המתמטי שיכול להרחיב ולשכלל את תהליך המחשבה של מחשב.
פרנק אמר: "זה ייקח שנים של עבודה אבל החלום הוא של מחשב שבאמת חושב על מה שאתה רוצה ועל מה שאתה מתכוון ולא על מה שאמרת."
אופן דיבור
להלן כמה התפתחויות אחרונות בזיהוי קולי:
- סירי שותקת: יבמ נוטה להיות עצבנית ממש לגבי סודות ארגוניים לצאת, ולכן היא אוסרת על עובדיה להשתמש באתרי העברת קבצים ציבוריים, כמו למשל Dropbox. אבל יש גם איסור על השימוש בסירי במשרד מכיוון שמנהלי האבטחה חוששים שמישהו, בזמן שהוא מדבר לטלפון שלו, יכול לחשוף מידע רגיש שמגיע לשרתים של אפל.
- קחו את זה, אפל !: סמסונג השיקה השבוע את מכשיר הטלפון החכם החדש שלה ב- Galaxy X III בלונדון, ובעוד שמסך המגע הגדול שלה זוכה לתשומת לב רבה, הוא כולל גם תוכנות זיהוי פנים וקוליות חדשות.
- עשה את מה שאני אומר, לא מה שאני עושה: וסמסונג לא מפסיקה שם. לאחרונה היא הגישה בקשת פטנט על רובוט שמבין דיבור אנושי. הרובוט יוכל להתאים את יכולות ה"האזנה "שלו בכדי לקחת בחשבון את רעשי הסביבה שעלולים להפריע או לשבש את הפקודות שניתנו לו. זה גם יוכל לזהות מי מדבר אליו, גם אם רעש הרקע הוא חזק מאוד.
בונוס אינפוגרפי: אתה חושב שהמכונית שלך ממוחשבת עכשיו. המתן עד שהוא מחובר לחלוטין לאינטרנט. קבל את השפל במה מכונית מחוברת יכולה לעשות.