https://frosthead.com

מדוע מגמות שפעת של גוגל אינן יכולות לעקוב אחר השפעת (עדיין)

בשנת 2008 הודיעה גוגל על ​​שירות חדש ומסקרן בשם Google Flu Trends. מהנדסים בחברה צפו כי נראה כי שאילתות חיפוש מסוימות (כגון אלה הכוללות את המילים "חום" או שיעול) ממריצות כל עונת שפעת, הרעיון שלהן היה להשתמש בתדירות של חיפושים אלה כדי לחשב את שיעורי השפעת בפריסה ארצית מהר יותר שיכול היה להיות נעשה באמצעות נתונים קונבנציונליים (שלרוב לוקח כמה שבועות לאסוף ולנתח), ומאפשרים לאנשים לדעת מתי לנקוט אמצעי זהירות נוספים כדי להימנע מהפחתת הנגיף.

תוכן קשור

  • כיצד דגמי מזג אוויר ו- Google יכולים לעזור לחיזוי עונת שפעת
  • ביג דאטה או יותר מדי מידע?

כלי תקשורת (כתב זה כלל) מיהרו לברך את גוגל על ​​שימוש כה תובנה, חדשני ומפריע למידע גדול. הבעיה היחידה? מגמות שפעת של גוגל לא הצליחו במיוחד.

השירות העריך בעקביות את שיעורי השפעת, בהשוואה לנתונים המקובלים שנאספו אחר כך על ידי ה- CDC, והערך כי שכיחות השפעת גבוהה יותר ממה שהיה בפועל במשך 100 מתוך 108 שבועות בין אוגוסט 2011 לספטמבר 2013. בינואר 2013, אז לאומי שיעורי השפעת הגיעו לשיא, אך הערכות מגמות שפעת של גוגל היו גבוהות פי שניים מהנתונים האמיתיים, אי-הדיוק שלה החל לבסוף לסקר את העיתונות.

ההסבר השכיח ביותר לאי-ההתאמה היה שגוגל לא לקחה בחשבון את הסיכון במשאיות הקשורות לשפעת המתרחשות כתוצאה מהיסטריה של שפעת מונעת התקשורת המופיעה בכל חורף. אבל השבוע במדע, קבוצת מדענים חברתיים בראשות דייוויד לייזר מציעה הסבר חלופי: כי הטוויסטים של גוגל עצמה לאלגוריתם החיפוש שלה אשמים.

יש להודות שקשה לאנשים מבחוץ לנתח את מגמות השפעת של גוגל, מכיוון שהחברה אינה מפרסמת את מונחי החיפוש הספציפיים שהיא משתמשת בהם כנתונים גולמיים, או את האלגוריתם הספציפי שהיא משתמשת בה כדי להמיר את התדירות של מונחים אלה להערכות שפעת. אולם החוקרים עשו כמיטב יכולתם להסיק את המונחים באמצעות Google Correlate, שירות המאפשר לכם לבדוק את שיעורי מונחי החיפוש הספציפיים לאורך זמן.

כאשר החוקרים עשו זאת בשלל שאילתות הקשורות לשפעת במהלך השנים האחרונות, הם גילו כי חיפושים זוגיים (אלו לטיפולי שפעת, וכאלה ששואלים כיצד להבדיל בין שפעת לקור) עוקבים יותר מקרוב עם שפעת גוגל. הערכות של מגמות מאשר עם שיעורי שפעת בפועל, במיוחד כאשר גוגל הערכת יתר על השכיחות של המחלה. נראה כי החיפושים הספציפיים הללו הם חלק עצום מבעיית אי הדיוק.

יש עוד סיבה טובה לחשוד שזה יכול להיות. בשנת 2011, כחלק מאחד מציוד האלגוריתמים הרגילים שלה לחיפוש, גוגל החלה להמליץ ​​על מונחי חיפוש קשורים לשאילתות רבות (כולל לרשום חיפוש אחר טיפולי שפעת לאחר שמישהו ביצע חיפוש אחר מונחים הקשורים לשפעת) ובשנת 2012 החלה החברה לספק אבחנות אפשריות. בתגובה לתסמינים בחיפושים (כולל רישום של "שפעת" וגם "הצטננות" לאחר חיפוש שכלל את הביטוי "כאב גרון", למשל, אולי הנח את המשתמש לחפש כיצד להבדיל בין השניים). הטוויקים הללו, טוענים החוקרים, העלו ככל הנראה באופן מלאכותי את שיעורי החיפושים שהם זיהו כאחראים להערכת יתר של גוגל.

כמובן שאם ההשערה הזו הייתה נכונה, אין פירוש הדבר שמגמות השפעת של גוגל נידונות בהכרח לחוסר דיוק, אלא שצריך לעדכן אותה כדי לקחת בחשבון את השינויים המתמידים של מנוע החיפוש. אך לייזר ושאר המבקרים האחרים טוענים כי מעקב אחר השפעת מנתונים גדולים הוא בעיה קשה במיוחד.

חלק עצום ממונחי החיפוש שמתאמים לנתוני CDC על שיעורי שפעת, מסתבר, נגרמים לא כתוצאה מאנשים הסובלים משפעת, אלא מגורם שלישי המשפיע הן על דפוסי החיפוש והן על העברת שפעת: חורף. למעשה, מפתחים של מגמות שפעת של גוגל דיווחו כי הם נתקלו במונחים מסוימים - כאלה הקשורים למשל לכדורסל בתיכון - שהיו מתואמים עם שיעורי שפעת לאורך זמן אך ברור שלא היו קשורים לנגיף.

עם הזמן, מהנדסי גוגל הסירו ידנית מונחים רבים שמתאמים לחיפושים בשפעת אך לא קשורים כלל לשפעת, אך ברור שהמודל שלהם היה תלוי מדי במגמות חיפוש עונתיות שאינן שפעת - חלק מהסיבה שמגמות שפעת ב- Google לא הצליחו לשקף את מגפת 2009 של H1N1, שקרתה במהלך הקיץ. במיוחד בגרסאות הקודמות שלה, Google Flu Trends היה "גלאי שפעת, חלק גלאי חורף", כותבים מחברי העיתון Science .

אבל כל זה יכול להיות שיעור לשימוש במידע גדול בפרויקטים כמו מגמות שפעת של גוגל, ולא כתב אישום שמיכה לכך, טוענים החוקרים. אם מתעדכנים כראוי בכדי לקחת בחשבון את ההתאמות לאלגוריתם של גוגל עצמה, ומנותחים בקפדנות כדי להסיר גורמים עונתיים גרידא, זה יכול להיות שימושי בתיעוד שיעורי שפעת בפריסה ארצית - במיוחד בשילוב עם נתונים קונבנציונליים.

כבדיקה, החוקרים יצרו מודל ששילב נתונים של Google Flu Trends (שהם למעשה בזמן אמת, אך עשויים להיות לא מדויקים) עם נתוני CDC בני שבועיים (שמתוארכים, מכיוון שלוקח זמן לאסוף, אך עדיין יכול להיות מעיד מעט על שיעורי השפעת הנוכחיים). ההיברידית שלהם התאימה את נתוני השפעת בפועל והעכשוויים הרבה יותר מקרוב מגמות שפעת של גוגל בלבד, והציגה דרך להשיג מידע זה הרבה יותר מהר מאשר לחכות שבועיים לנתונים המקובלים.

בהודעת העיתונאים אמר ריאן קנדי, פרופסור למדעי המדינה באוניברסיטת יוסטון, "והתוצאות הטובות ביותר מגיעות משילוב של מידע וטכניקות משני המקורות." "במקום לדבר על 'מהפכת נתונים גדולים', עלינו לדון במהפכת 'כל הנתונים'."

מדוע מגמות שפעת של גוגל אינן יכולות לעקוב אחר השפעת (עדיין)