https://frosthead.com

כותב אחד השתמש בסטטיסטיקה כדי לחשוף את הסודות של מה שעושה כתיבה נהדרת

ברוב קורסי הספרות ברמת המכללה, אתה מוצא סטודנטים המנתקים חלקים קטנים מהקלאסיקות הספרותיות: חד-המראות של שייקספיר, זרם התודעה של ג'ויס ומשפטי הסטקטו של המינגוויי. אין ספק, יש כל כך הרבה שניתן ללמוד על סופר, אומנותו ומשמעותה של סיפור על ידי סוג קריאה קרוב זה.

אבל בן בלאט מעלה ויכוח חזק לגישה אחרת. בהתמקדות במשפטים ופסקאות מסוימים, הוא מציב בספרו החדש, המילה האהובה על נבוקוב היא Mauve, הקוראים מזניחים את כל המילים האחרות, שברומן באורך ממוצע מסתכמות בעשרות אלפי נקודות נתונים.

העיתונאית והסטטיסטיקאי יצר מאגר נתונים של הטקסט מתוך התנפצות של קלאסיקות ומוכרים רבי המאה העשרים, כדי לענות כמותית על מספר שאלות מעניינות. הניתוח שלו חשף כמה דפוסים מוזרים שעלולים אחרת לא יבחינו:

לפי המספרים, משפטי הפתיחה הטובים ביותר לרומנים אכן נוטים להיות קצרים. הסופר הפוליטיקאי ג'יימס פטרסון ממוצע 160 קלישאות לכל 100, 000 מילים (כלומר 115 יותר מג'יין אוסטין הנערצת), ולדימיר נבוקוב השתמש במילה mauve 44 פעמים לעתים קרובות יותר מאשר הכותב הממוצע בשתי המאות האחרונות.

Smithsonian.com שוחח עם בלאט על השיטה שלו, על כמה מממצאי המפתח שלו ומדוע נתונים גדולים חשובים לחקר הספרות.

נקטת גישה סטטיסטית ללימוד הכל החל מאיפה וולדו לסיינפלד, מפרקי מזון מהיר ועד שירי פופ. האם אתה יכול להסביר את השיטה שלך, ולמה אתה עושה את מה שאתה עושה?

אני עיתונאי נתונים ואני מסתכל על דברים בתרבות הפופ ובאמנות. אני מאוד אוהב להסתכל על דברים כמותית ולא משוחדת שיש בהם הרבה מידע שאנשים לא עברו. אם רצית ללמוד על איך האדם הטיפוסי מארצות הברית זה היה מועיל, אבל לא היית מדבר רק עם אדם אחד, יודע עליו הכל ואז תניח שהכל על אנשים בארצות הברית הוא אותו. אני חושב שדבר אחד עם כתיבה שכזו הולך לאיבוד הוא שאתה יכול להתמקד במשפט אחד של מחבר, במיוחד בשיעורי כתיבה יוצרת, או קטע אחד, ואתה מאבד את התמונה הגדולה יותר לראות את הדפוסים והטרנדים הכלליים האלה בהם כותבים משתמשים שוב ושוב, מאות ואולי אלפי פעמים בכתיבה שלהם.

Preview thumbnail for video 'Nabokov's Favorite Word Is Mauve: What the Numbers Reveal About the Classics, Bestsellers, and Our Own Writing

המילה האהובה על נבוקוב היא מהומה: מה המספרים חושפים על הקלאסיקה, רבי המכר והכתיבה שלנו

קנה

אז מה גרם לך לפנות לספרות?

הרקע שלי הוא במתמטיקה ומדעי המחשב, אבל תמיד אהבתי לקרוא ולכתוב. ככל שכתבתי יותר ויותר, התעניינתי מאוד איך כותבים ואנשים שונים נותנים עצות בכתיבה. יש הרבה דברים הגיוניים, אך נראה שהם לא מגובים במידע, והרבה מהם התנגשו זה עם זה. פשוט חשבתי שצריכה להיות דרך לקחת את הנושאים האלה בכתב שאנשים כבר היו מודעים אליהם ומדברים עליהם ולבחון אותם על סופרים גדולים וסופרים פופולריים כדי לבדוק אם העצה הזו היא אמיתית או אם מדובר בעצות מרשמיות שאינן '. זה לא אומר כל דבר בספרים האמיתיים ובדפים האמיתיים.

מה הייתה השאלה הראשונה שרצית לשאול על קלאסיקות ספרותיות ורבי מכר?

הפרק הראשון בספר הוא על עצת השאלה האם עליכם להשתמש בפרסומות אמיתיות או לא. זה גם הפרק הראשון שכתבתי כרונולוגית. זה בעיקר בעצתו של סטיבן קינג שלא להשתמש בפרסומות אמיתיות בספרו על כתיבה, שעבור רבים מהכותבים הוא ספר הכתיבה. אבל המון כותבים אחרים - טוני מוריסון, צ'אק פלהניוק - וכל שיעור כתיבה יצירתי ממליץ לא להשתמש במילולית כי מדובר במילה מיותרת ובסימן לכך שאתה לא מתמצה. במקום לומר "הוא מהר רץ", אתה יכול לומר "הוא רץ."

אז רציתי לדעת, האם זה באמת נכון? אם זו עצה כה טובה, הייתם מצפים שהסופרים הגדולים אכן משתמשים בה פחות. הייתם מצפים שסופרים חובבים משתמשים בזה יותר מאשר מחברים שפורסמו. פשוט רציתי לדעת, סטייליסטית, קודם אם סטיבן קינג פעל לפי עצתו שלו, ואז אם זה חל על כל שאר הסופרים הגדולים והנערצים.

אז מה מצאת?

למעשה, קיימת מגמה שסופרים כמו המינגווי, מוריסון וסטיינבק, מיטב הספרים שלהם, אלה שהוחזקו בהם והכי הרבה תשומת לב עליהם עכשיו, הם הספרים עם הכמויות הקטנות ביותר של adverbs. כמו כן, אם אתה משווה בין כתיבת ספרות חובבנית וכתיבה מקוונת שלא הותאמה למכירת רבי המכר וזוכי פרס הפוליצר של התקופה האחרונה, ישנו אי התאמה, שם משתמשים בכותרות פחות טובות על ידי הכותבים שפורסמו. אני לא כל כך חד צדדית שלדעתי שאתה יכול פשוט להוציא את הפרסומות-קטנות מתוך ספר בסדר וזה הופך להיות ספר נהדר. ברור שכך זה לא עובד. אבל יש משהו בכך שכותבים שכותבים בצורה ישירה מאוד אכן מפיקים ספרים שבסך הכל חיים הכי הרבה זמן.

p13 - Adverbs.JPG

איך התחלת ליצור מסד נתונים של יצירות ספרותיות?

ברבות מהשאלות השתמשתי באותם 50 מחברים שבחרתי במקצת באופן שרירותי. בעיקרו של דבר זה היה מבוסס על מחברים שהיו בראש רשימת רבי המכר, סופרים שהיו בראש הסופרים הגדולים בכל רשימת הזמנים וסופרים שדי מייצגים מגוון של ז'אנרים וזמנים שונים וקוראים שונים. ככה, לאורך הספר, תוכלו להשוות בין מחברים אלו ולהכיר אותם.

היה לי חשוב מאוד שאם הייתי אומר משהו כמו "טוני מוריסון משתמש במילה הזו בקצב הזה", דיברתי על כל רומן בודד שהיא כתבה אי פעם ולא רק על השלושה שיש לי במקרה. בספרי יש 50 עד 100 מחברים אליהם מתייחסים. מצאתי את הביבליוגרפיות שלהם ואז מצאתי את כל הרומנים שלהם שהם כתבו עד לאותה תקליט שלם. במובנים מסוימים, זה קצת כמו לשמור על סטטיסטיקות ספורט, כאשר כל ספר דומה לעונה ואז כל העונות או הספרים הללו מתלכדים כקריירה. אתה יכול לראות כיצד מחברים משתנים עם הזמן ואיך הם עושים דברים באופן כללי. ברגע שיש לך את כל הספרים, ואז לענות על השאלות האלה שבמובנים מסוימים מאוד מרתיעים זה מאוד פשוט.

ואיך עיבדת את כל הטקסט הזה?

יש שפת תכנות בשם Python, ובתוכה יש מערכת כלים הנקראת ערכת הכלים לשפה טבעית, המקוצרת לרוב NLTK. הכלים המעורבים בכך זמינים בחינם לכל אחד. אתה יכול להוריד את החבילה באופן מקוון ולהשתמש בה בפייתון או בשפות אחרות. אינך יכול לקבל הרבה משאלות הכתיבה בפרט, אך אתה יכול לומר, כמה פעמים המילה הזו מופיעה בטקסט? זה יכול לעבור ולזהות היכן מסתיימים המשפטים והיכן מתחילים משפטים, וחלקי דיבור - תואר לעומת פועלל לעומת פועל. אז ברגע שיש לך כלים אלה, אתה יכול לקבל את הנתונים.

איזה סטטיסטיקה ערכת ידנית? מה היה המייגע ביותר?

יש קטע אחד בו אני מסתכל על משפטי פתיחה. אלמור לאונרד, שהיה סופר סופר מצליח, אמר, "לעולם אל תפתח ספר עם מזג אוויר." זו גם עצה שנמצאת בהרבה מדריכי כתיבה. אז עברתי על מאות מחברים לראות באיזו תדירות הם פותחים את ספרם על מזג אוויר. לדוגמה, דניאלה סטיל, אני מאמין ש -45 אחוז מהמשפטים הראשונים שלה בספרים נוגעים למזג האוויר. פעמים רבות זה פשוט "זה היה יום מפואר", או "היה בהיר ושטוף שמש", דברים כאלה. לשם כך, לא הייתה שום דרך לעשות זאת באופן אוטומטי מבלי לטעות בשגיאה כלשהי, ולכן הייתי פשוט עובר על כל קבצי הספרים וסמן אם היה מעורב מזג אוויר. אפשר לומר שזה היה מייגע, כי היו הרבה נתונים שנאספו, אבל היה די כיף לעבור לקרוא מאות משפטי פתיחה בבת אחת. ישנם דפוסים אחרים העולים בבירור מחברים לאורך זמן.

p207 --- Weather.jpg

כמו שאתה אומר, מייגע לכמה, כיף לאחרים. יש שסבורים שגישה אנליטית זו משעממת, אך אתה טוען שהיא יכולה להיות "משעשעת" ו"לא פעם מצחיקה ". מה היה הממצא הכי מצחיק שלך?

כותרת הספר, המילה האהובה על נבוקוב היא מעובה, היא כיצד, לפי המספרים, המילה שהוא משתמש בשיעור הגבוה ביותר בהשוואה לאנגלית היא מעורפלת. זה בסופו של דבר הגיוני אם מסתכלים על הרקע שלו, כי הייתה לו סינסתזיה. הוא דיבר, באוטוביוגרפיה שלו, על כך שכששמע אותיות וצלילים שונים, המוח שלו יעלה אוטומטית צבעים.

חזרתי על הניסוי הזה על 100 מחברים אחרים כדי לראות מה המילה האהובה עליהם. כתוצאה מכך אתה מקבל שלוש מילים שמייצגות את הכתיבה שלהן לפי המילים בהן הן משתמשות ביותר. עירוניות, חיבה וחוצפה. זו ג'יין אוסטין. אני חושב שאם היית רואה את המילים האלה, ג'יין אוסטין עשויה להיות אחת הניחושים הראשונים שלך. ואז יש לך מחבר כמו ג'ון אפידייק, שהוא קצת יותר חצוף ואמיתי ובזמן אחר. המילים האהובות עליו הן מסודרות, דוקרות ומדופקות. אני חושב שראיית האישיות עוברת על בסיס שאלות מתמטיות פשוטות זה מעניין מאוד. אם יש לך מחבר מועדף, לעבור את זה כן מגלה משהו על האישיות שלו אולי לא שמתם לב אליו לפני כן.

ריי ברדבורי כתב שהמלה האהובה עליו היא קינמון. לפי המספרים, הוא כן משתמש בזה הרבה. ההסבר שלו מדוע מצא חן בעיני הקינמון היה בכך שהזכיר לו את המזווה של סבתו. אז עברתי ומצאתי מילות תבלינים וריח אחרות שיכולות להיות קשורות למזווה של סבתא, וריי ברדבורי אכן משתמש ברוב המילים הללו בקצב גבוה מאוד. במובן מסוים אתה יכול להבחין במשהו מוזר ופרוידיאני במשהו על ילדותיהם של הסופרים. אם ריי ברדברי לא היה אומר את זה, אולי אתה עדיין יכול להבין את זה.

השוואת בין סופרים אמריקאים ובריטים, ואשרת סטראוטיפ שאמריקאים רועשים. האם אתה יכול להסביר את זה?

מחקר זה היה מבוסס במקור על מחקר שנערך על ידי סטודנט לתואר שני בסטנפורד. הוא זיהה מילים שמשמשות לתיאור דיאלוג בספרים, ותיאר אותן כקולניות, ניטרליות או שקטות. "לחשו" ו"מלמלו "יהיו בשקט. ניטרלי יהיה "הוא אמר" או "היא אמרה", ובאופן רם יהיה "הוא קרא" או "צעק". עברתי על 50 הסופרים שהסתכלתי עליהם, כמו גם דוגמאות גדולות של מעריצים בדיוני, ומצאתי, לא בשוליים מטורפים אך בשוליים משמעותיים, שלאמריקאים יש יחס גבוה יותר בין המילים הרועשות למילים השקטות. יש כמה הסברים. יכול להיות שככה מדברים אמריקאים לאורך כל חייהם, כך זה שהסופרים מתארים אותם מדברים לעתים קרובות. אתה יכול פשוט לראות את זה כסופרים אמריקאים העדיפו לסיפורים מבוססי פעולה, מותחן, טמפו גבוה יותר לעומת סיפורים יותר עדינים. האמריקאים אכן יותר חזקים מהמספרים.

Blatt_author photo_Credit סיירה קטוב.JPG בן בלאט, מחבר המילה האהובה על נבוקוב הוא מוד (סיירה קטוב)

מדוע לדעתך החלת מתמטיקה לכתיבה היא דרך טובה ללמוד ספרות?

אני בהחלט לא תומך שזו צריכה להיות הדרך הראשונה בה אתה לומד ספרות אם אתה מנסה לשפר את הכתיבה שלך. אבל אפילו רומן באורך בינוני הוא כנראה 50, 000 מילים, וזה 50, 000 נקודות נתונים. אתה פשוט לא תוכל לספוג את זה בבת אחת, ויהיו כמה שאלות שאתה פשוט לא יכול לענות עליהן לקרוא בעצמך. טוב לראות את התמונה הגדולה יותר. אם אתה מתיישב ולומד פסקה אחת, אתה בשיעור הכתיבה היצירתית שלך מדבר עם הפרופסור שלך, אם יש דרך מוגדרת להסתכל על זה, אתה פשוט הולך לראות את זה לאורך כל דבר. אבל עם הנתונים, סוג זה משחרר אתכם ממנו, ותוכלו לענות על כמה שאלות בלי ההטיות הללו ולקבל באמת מידע חדש.

אתה מזכיר שהיית כל הזמן חושב על "הדקדוקטור הגדול" של רואלד דאל.

יש סיפור גדול של רואלד דאהל שבו למעשה מהנדס מוצא דרך לכתוב סיפור. בתרחיש יום הדין הזה מישהו יכול פשוט לתת למכונה עלילה והיא תירוק רומן אחרון. הרמיזה שם היא שהם מפיקים רומנים שהם כל כך פורמליים ובסיסיים. הגיבור בסיפור ההוא בוחר שלא להצטרף להפעלת המכונה ונלחם נגדה על ידי יצירת כתיבה ואמנות משלו.

אני בהחלט חושב שהספר הזה, אם אתה מתכוון לכתוב, יענה עבורך הרבה שאלות ובהחלט ישנה את הדרך בה אתה חושב על כמה דברים, אבל בסופו של דבר אין שום תחליף לרעיונות שגורמים לאנשים לחשוב וסצינות שגורמות לאנשים מפחדים או מתחברים לדמויות. ספר זה בוחן את מלאכת הכתיבה ולאו דווקא כיצד ליצור סיפור בלתי נשכח. הספר הזה לא מנסה להנדס רומן מושלם, ואני לא חושב שאנחנו קרובים לזה כמו שיש אנשים שחוששים ממנו.

כותב אחד השתמש בסטטיסטיקה כדי לחשוף את הסודות של מה שעושה כתיבה נהדרת