בינה מלאכותית מייצרת את פני בני האדם על פי קולם חדשות חכמות | סמית'סוניאן - חדשות חכמות, רעיונות וחידושים לחדשות חדשות, מדע חדשות חכמות

רשת עצבית חדשה שפותחה על ידי חוקרים ממכון הטכנולוגי של מסצ'וסטס מסוגלת לבנות קירוב גס של פניו של אדם המבוסס אך ורק על קטע הנאום שלו, מאמר שפורסם בדוחות arXiv של שרת הדפוס הקדום .

הצוות אימן את כלי הבינה המלאכותית - אלגוריתם ללימוד מכונות שתוכנת "לחשוב" בדומה למוח האנושי - בעזרת מיליוני קליפים מקוונים שתפסו יותר ממאה אלף רמקולים שונים. כיוון Speech2Face, הרשת העצבית השתמשה במערך נתונים זה כדי לקבוע קשרים בין רמזים ווקאליים לתווי פנים ספציפיים; כפי שכותבים המדענים במחקר, הגיל, המין, צורת הפה של האדם, גודל השפה, מבנה העצם, השפה, המבטא, המהירות וההיגוי - כל אלה גורמים למכניקת הדיבור.

על פי דבריה של מלני ארנקרנץ של גיזמודו, Speech2Face מסתמך על אסוציאציות בין מראה לדיבור כדי לייצר רישומים פוטוריאליסטיים של אנשים מול חזית עם ביטויים ניטרליים. למרות שהתמונות הללו גנריות מכדי להזדהות כאדם ספציפי, רובן מצביעות במדויק על מין, גזע וגילם של הדוברים.

מעניין, ג'קי סנואו מסביר עבור חברת Fast Company, המחקר החדש לא רק מבוסס על מחקרים קודמים הנוגעים לתחזיות של גיל ומין מהדיבור, אלא גם מדגישים קשרים בין קול ל"תכונות Craniofacial "כמו מבנה האף.

המחברים מוסיפים, "זה מושג ללא מידע קודם או קיומם של מסווגים מדויקים לסוגים אלה של מאפיינים גאומטריים עדינים."

ובכל זאת, באלגוריתם יש פגמים. כפי שמציינת מינדי ויסברגר של Live Science, המודל מתקשה בניתוח וריאציות שפות. כאשר הושמע קליפ שמע של גבר אסייתי דובר סינית, למשל, Speech2Face הניב פנים של אתניות נכונה, אך כאשר אותו אדם הוקלט כשהוא מדבר אנגלית, ה- AI יצר תמונה של אדם לבן.

במקרים אחרים, גברים עם גובה קומה, כולל ילדים, זוהו בטעות כנקבות, וחשפו את ההטיה המגדרית של הדוגמנית בקשר בין קולות נמוכים לגברים ואנשים בעלי קצב גבוה עם נשים. בהתחשב בעובדה שנתוני ההדרכה נגזרו במידה רבה מסרטוני חינוך שפורסמו ב- YouTube, החוקרים מציינים עוד כי האלגוריתם אינו מצליח "לייצג באופן שווה את כלל אוכלוסיית העולם".

לדברי ג'יין C. הו של צפחת, החוקיות של שימוש בסרטוני YouTube למחקר מדעי היא די ברורה. קליפים כאלה נחשבים למידע זמין לציבור; אפילו אם משתמש יורה זכויות יוצרים בסרטונים שלו, מדענים יכולים לכלול את החומרים בניסויים שלהם תחת סעיף "שימוש הוגן".

אבל האתיקה של הנוהג הזה פחות פשוטה. בשיחה עם הו, ניק סאליבן, ראש תחום הקריפטוגרפיה ב- Cloudflare, אמר שהוא הופתע לראות תמונה של עצמו המוצגת במחקר של צוות MIT, מכיוון שמעולם לא חתם על ויתור או שמע ישירות מהחוקרים. למרות שסאליבן אומר להו כי היה "נחמד" לקבל הודעה על שילובו במאגר, הוא מכיר כי בהתחשב בגודל העצום של מאגר הנתונים, קשה היה למדענים לפנות לכל מי שמתואר.

במקביל, מסיים סאליבן, "מכיוון שתמונתי וקולי הוצגו כדוגמה בעיתון Speech2Face, ולא רק שימשו כנקודת נתונים במחקר סטטיסטי, היה זה מנומס להגיע ליידע אותי או תבקש את רשותי. "

יישום פוטנציאלי אחד של העולם האמיתי עבור Speech2Face הוא השימוש במודל "להצמדת פנים מייצגת" לשיחות טלפון על בסיס קול דובר. שלג מוסיף שטכנולוגיית זיהוי קולי כבר משמשת במספר תחומים - לרוב ללא ידיעה או הסכמה מפורשת של אנשים. בשנה שעברה השיקה צ'ייס תוכנית "Voice ID" שלומדת לזהות לקוחות כרטיסי אשראי שמתקשרים לבנק, ואילו מוסדות התיקון ברחבי הארץ בונים מאגרי מידע של "טביעות קוליות של אנשים כלואים".