4.6.2 חלף, חדד, ולהפחית

התרגום הזו נוצר על ידי מחשב. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

4.6.2 חלף, חדד, ולהפחית

פוך הניסוי יותר אנושי על ידי החלפת ניסויים עם מחקרים שאינם הניסיונות, ללטש את הטיפולים, והפחתת מספר המשתתפים.

היצירה השנייה של ייעוץ כי אני רוצה להציע על תכנון ניסויים דיגיטליים נוגעת אתיקה. ככל ךסטיבו וואן דה Rijt הניסוי על barnstars במופעי ויקיפדיה, צמצום עלויות אומר שהמוסר יהפוך לחלק חשוב יותר ויותר של מבנה המחקר. בנוסף למסגרות האתיות המנחות ניסויים בבני אדם שאני אתאר בפרק 6, חוקר בתכנון ניסויים דיגיטליים גם יכול לצייר על רעיונות אתיים ממקור אחר: העקרונות האתיים פותחים על מנת להדריך ניסויים מעורבי בעלי חיים. בפרט, עקרונות ספר אתר שלהם של טכניקה ניסויית להומנית, Russell and Burch (1959) הציעו שלושה עקרונות שצריכים להנחות מחקר בבעלי חיים: חלף, חדד, ולהפחית. הייתי רוצה להציע כי שלושת אלה R של יכול לשמש גם-בתוך שונה במקצת טופס-להנחות את העיצוב של ניסויים בבני אדם. באופן מיוחד,

חלף: חלף ניסויים עם שיטות פולשניות פחות אם אפשר
חדד: מקד את הטיפול על מנת להפוך אותה מזיק ככל האפשר
הפחת: צמצם את מספר המשתתפים בניסוי ככל האפשר

על מנת להפוך את שלושת הבטון של R האלה ולהראות איך הם אף להניב עיצוב ניסיוני טוב ואנושי יותר, אתאר ניסוי שדה מקוון שנוצר דיון אתי. אז אני אתאר איך ברך להציע שינויים מוחשיים ומעשיים לעיצוב הניסוי.

אחד הניסויים בתחום הדיגיטל לדיון ביותר האתי הוא "הדבקה רגשית", אשר נערכה על ידי האדם קרמר, ג'יימי Gillroy, וג'פרי הנקוק (2014) . הניסוי התקיים בפייסבוק הונע על ידי שילוב של שאלות מדעיות ומעשיות. בזמנו, הדרך הדומיננטית שמשתמשים תיקשר עם פייסבוק היה ה"חדשות, סט אצר אלגוריתמית של עדכוני סטטוס בפייסבוק חברים בפייסבוק של המשתמש. חלק מהמבקרים של פייסבוק הציעו כי ה"חדשות יש חיוביות בעיקר הודעות-חברים להשוויץ האחרון שלהם הצד-היא עלולה לגרום למשתמשים להרגיש עצובים כי חייהם נראים פחות מרגשים בהשוואה. מצד שני, אולי ההשפעה היא בדיוק ההפך; אולי לראות את החבר שלך בנעימים יגרמו לך להרגיש מאושר? כדי להתמודד עם אלה מתחרים השערה ולקדם את הבנתנו כיצד הרגשות של אדם מושפעים של חברותיה רגשות-קרמר ועמיתיו רצו ניסוי. החוקרים להציב על 700,000 משתמשים לארבע קבוצות למשך שבוע: קבוצת "מופחת השליליות", שעבורם הודעות עם מילים שליליות (לדוגמה, עצוב) נחסמו באופן אקראי מלהופיע ה"חדשות; "מופחת חיוביות" קבוצה שעבורם הודעות עם מילות חיוביות (למשל, שמח) נחסמו באופן אקראי; ושתי קבוצות ביקורת. בקבוצת הביקורת עבור הקבוצה "מופחת השלילית", הודעות נחסמו באופן אקראי באותו הקצב כמו הקבוצה "מופחת השלילית" אבל מבלי להתייחס לתוכן הרגשי. קבוצת הביקורת לקבוצה "מופחת החיוביות" נבנתה באופן מקביל. העיצוב של ניסוי זה ממחיש כי בקבוצת הביקורת המתאימה היא לא תמיד אחד ללא שינויים. במקום זאת, לפעמים קבוצת הביקורת מקבלת טיפול על מנת ליצור את ההשוואה המדויקת כי שאלת מחקר דורשת. בכל המקרים, את ההודעות שנחסמו מן באוסף החדשות היו עדיין זמינות למשתמשים דרך חלקים אחרים של אתר פייסבוק.

קרמר ועמיתיו מצאו כי עבור משתתפים החיוביים מופחת מצב, אחוז מילות החיוביות עדכוני הסטטוס שלהם ירד ואחוז המילים שליליות גדל. מצד השני, עבור משתתפים במצב מופחת השלילי, האחוז במילות החיוביות גדל ואחוז המילים השליליות ירד (איור 4.23). עם זאת, השפעות אלו היו קטנים למדי: ההבדל במילים חיוביות ושליליות בין הטיפולים ובקרות היה בערך 1 ל -1,000 מילים.

איור 4.23: עדויות של הדבקה רגשית (קרמר, Guillory, ו הנקוק 2014). אחוז מילים חיוביות ומילים שליליות על ידי תנאי הניסוי. עמודות מייצגות מוערכות סטיות התקן.

איור 4.23: עדויות של הדבקה רגשית (Kramer, Guillory, and Hancock 2014) . אחוז מילים חיוביות ומילים שליליות על ידי תנאי הניסוי. עמודות מייצגות מוערכות סטיות התקן.

שמתי דיון בהיבטים המדעיים של ניסוי זה בסעיף לקריאה הנוסף בסוף הפרק, אך למרבה הצער, הניסוי הזה הוא ידוע ביותר ליצירת דיון מוסרי. ימים ספורים לאחר מאמר זה פורסם בביטאון של האקדמיה הלאומית למדעים, קמה צעקה עצומה משני חוקרים והעיתונות. זעם ברחבי הנייר התמקד בשתי נקודות עיקריות: 1) משתתפים לא ספקו כל הסכמה מעבר לתנאי-של-שירות פייסבוק סטנדרטי עבור טיפול קצת מחשבה שעלולה לגרום ניזק המשתתפים ו -2) המחקר לא עבר אתי של צד שלישי סקירה (Grimmelmann 2015) . השאלות האתיות שהועלו בדיון זה גרם העת לפרסם במהירות "ביטוי במאמר מערכת של דאגה" נדיר על אתיקה תהליך הבדיקה האתי של המחקר (Verma 2014) . בשנים שלאחר מכן, הניסוי ממשיך להיות מקור של ויכוח ומחלוקת אינטנסיבי, חילוקי דעות אלה שאולי הייתה השפעה לא מכוונת של נהיגה לתוך הצללים רבים ניסויים אחרים כי נעשות ע"י חברות (Meyer 2014) .

בהתחשב בעובדה רקע על הדבקה רגשית, עכשיו אני רוצה להראות כי 3 R של יכול להציע בטון, שיפורים מעשיים ללימודים אמיתיים (מה שאתה יכול באופן אישי חושבים על האתיקה של ניסוי המסוים הזה). ה- R הראשון הוא החלפה: חוקרים צריכים לחפש להחליף ניסויים עם פחות טכניקות פולשניות ומסוכנות, אם אפשר. לדוגמה, במקום לרוץ ניסוי, החוקרים יכלו ניצלו ניסוי טבעי. כפי שתואר בפרק 2, ניסויים טבעיים מצבים שבם משהו שקורה בעולם המדמה את ההקצאה האקראית של טיפולים (למשל, הגרלה כדי להחליט מי יתגייס לצבא). היתרון של ניסוי טבעי הוא כי החוקר לא חייב לספק טיפולים; הסביבה עושה את זה בשבילך. במילים אחרות, עם ניסוי טבעי, החוקרים לא היה צריך לתמרן בעדכוני החדשות של אנשים באופן ניסיוני.

למעשה, כמעט במקביל הניסוי הדבק הרגשי, Coviello et al. (2014) נצלו מה שאפשר לכנות ניסוי טבעי הדבקה רגשית. הגישה שלהם, אשר משתמשת בטכניקה הנקראת משתני עזר, הוא מסובך קצת אם אתה אף פעם לא ראית את זה קודם. לכן, על מנת להסביר מדוע זה היה נחוץ, בואו לבנות עד אותו. הרעיון הראשון שיש חוקרים צריך ללמוד הדבקה רגשית יהיה להשוות את הודעותיך בימים בהם באוסף החדשות שלך היה מאוד חיובי הודעותיך בימים בהם באוסף החדשות שלך היה מאוד שלילי. גישה זו תהיה בסדר אם המטרה הייתה רק כדי לחזות את התוכן הרגשי של הודעותיך, אך גישה זו היא בעייתית אם המטרה היא ללמוד את ההשפעה הסיבתית של אוסף החדשות שלך בפוסטים שלך. כדי לראות את הבעיה עם העיצוב הזה, שקול הודיה. בארצות הברית, הודעות חיוביות ספייק הודעות שליליות לצנוח בחג ההודיה. לכן, בחג ההודיה, החוקרים היה לראות באוסף החדשות שלך היה מאוד חיובי שדיוורת דברים חיוביים גם כן. אבל, ההודעות החיוביות שלך יכולות להיות שנגרמו על ידי הודיה לא על פי הטיב באוסף החדשות שלך. במקום זאת, על מנת להעריך את סיבתי חוקרי השפעה צריכים משהו שמשנה את התוכן של אוסף החדשות שלך מבלי לשנות את הרגשות שלך באופן ישיר. למרבה המזל, יש משהו כזה קורה כל הזמן: מזג האוויר.

Coviello ועמיתיו מצאו כי ביום גשום בעיר של מישהו יהיה, בממוצע, להקטין את החלק של הודעות שאינן חיוביים בשיעור של כ -1 נקודת אחוז להגדיל את חלקם של הודעות כי הם שליליים ב -1 נקודת אחוז על. לאחר מכן, Coviello ועמיתיו ניצלו עובדה זו כדי ללמוד הדבקה רגשית ללא צורך לתפעל אוסף החדשות של אף אחד באופן ניסיוני. בעיקרו של דבר מה שהם עשו זה מודד את הודעותיך הושפעו מזג האוויר בערים איפה החברים שלך לחיות. כדי להבין מדוע זה הגיוני, לדמיין שאתה חי בניו יורק יש לך חבר שגר בסיאטל. עכשיו דמיינו שיום אחד יתחיל לרדת גשם בסיאטל. גשם זה בסיאטל לא משפיע ישירות על מצב הרוח שלך, אבל זה יגרום באוסף החדשות שלך להיות פחות חיובי יותר שלילי בגלל ההודעות של חברך. לפיכך, הגשם בסיאטל אקראי מתפעל באוסף החדשות שלך. מפנה את האינטואיציה הזאת לתוך פרוצדורה סטטיסטית אמינה מסתבך (והגישה המדויקת שמוצגת Coviello ועמיתיו היא קצת לא סטנדרטית) אז שמתי דיון מפורט יותר בפרק לקריאה הנוסף. הדבר החשוב ביותר שיש לזכור לגבי Coviello ואת הגישה של העמית היא שהיא אפשרה להם ללמוד הדבקה רגשית ללא הצורך להפעיל ניסוי שעלול לפגוע משתתפים, וזה יכול להיות במקרה זה במצבים רבים אחרים אתה יכול להחליף ניסויים עם אחרים טכניקות.

שנית ב -3 Rs הוא חדד: חוקרים צריך לחפש כדי לחדד טיפולים על מנת לגרום נזק הקטן ביותר האפשרי. לדוגמא, ולא חסימת תוכן היה חיובי או שלילי, החוקרים יכלו שפרו תוכן היה חיובי או שלילי. עיצוב לחיזוק זה היה משנה את התוכן הרגשי של משתתפי חדשות רסס, אבל זה היה ממוען אחד חשש כי מבקרים הביעו: כי הניסויים יכולים היו לגרום למשתתפים לפספס מידע חשוב באוסף החדשות שלהם. עם העיצוב שמוצג קרמר ועמיתיו, הודעה כי שחשוב הוא כפי הנראה להיחסם כאחד שאינו. עם זאת, עם עיצוב לחיזוק, המסר שעובר יהיה שנעקר יהיה אלה הם פחות חשובים.

לבסוף, R השלישי הוא להפחית: חוקרים צריכים לנסות להפחית את מספר המשתתפים בניסוי שלהם, אם אפשר. בעבר, הפחתה זה קרה באופן טבעי בגלל העלות המשתנה של ניסויים אנלוגיים הייתה גבוהה, אשר עודדה מחקר לבצע אופטימיזציה של העיצוב והניתוח שלהם. עם זאת, כאשר יש אפס מידע משתנה עלות, החוקרים אינם ניצבים אילוץ עלות לגודל של הניסוי שלהם, ואת זה יש פוטנציאל להוביל ניסויים גדולים שלא לצורך.

לדוגמא, קרמר ועמיתיו יכולים נצלו מידע טרום טיפול על המשתתפים כגון שלהם כמו פרסום מראש טיפול התנהגות לבצע הניתוח שלהם יעיל יותר. באופן ספציפי יותר, במקום השוואת שיעור במילים חיוביות בתנאים טיפול ובקרה, קרמר ועמיתיו יכלו לעומת השינוי בשיעור של מילים חיוביות בין התנאים; להתקרב נקרא לעתים פרש הבדלים אשר קשור קשר הדוק לעיצוב המעורב שתארתי קודם לכן בפרק (האיור 4.5). כלומר, עבור כל משתתף, החוקרים יכלו יצרו ציון שינוי (התנהגות שלאחר הטיפול - התנהגות הטיפול מראש) ולאחר מכן השוו את השינוי עשרות המשתתפים בתנאי הטיפול והביקורת. פרש הבדלי גישה זו היא יעילה יותר מבחינה סטטיסטית, כלומר חוקרים יכולים להשיג את אותה בטחון סטטיסטי באמצעות דגימות קטנות בהרבה. במילים אחרות, על ידי לא בטיפול המשתתפים כמו "יישומונים", החוקרים יכולים לעתים קרובות לקבל הערכות מדויקות יותר.

מבלי את הנתונים הגולמיים קשה לדעת בדיוק כמה יעיל יותר גישת פרש ההבדלים הייתה במקרה זה. אבל, Deng et al. (2013) דיווחו כי בשלושה ניסויים באינטרנט במנוע החיפוש בינג הם הצליחו לצמק את השונות של הערכות שלהם בכ -50%, ואת תוצאות דומות דווחו על כמה ניסויים באופן מקוון ב נטפליקס (Xie and Aurisset 2016) . ירידה של 50% מהשונות משמעות הדבר היא כי החוקרים הדבקה רגשית אולי היה מצליח לחתוך המדגם שלהם במחצית אם הם השתמשו בשיטות ניתוח שונה במקצת. במילים אחרות, עם שינוי זעיר בניתוח, 350,000 אנשים עלולים נחסכים ההשתתפות בניסוי.

בשלב זה ייתכן שאתה תוהה מדוע חוקרים צריכים להיות אכפת אם 350,000 אנשים היו הדבקה רגשית שלא לצורך. ישנן שתי תכונות מיוחדות של הדבקה רגשית שהופכות דאגה עם גודל מוגזם מתאימה, ותכונות אלה המשותפים ניסוייים שדה דיגיטלי רב: 1) קיים אי ודאות לגבי השאלה אם הניסוי יגרום ניזק לפחות חלק מהמשתתפים ו -2) השתתפות לא הייתה מִרָצוֹן. בניסויים עם שני מאפיינים אלה שנראה הדבר רצוי לשמור על הניסויים קטנים ככל האפשר.

לסיכום, השלושה R's-החלף, חדד, ולהפחית-לספק עקרונות שיכולים לסייע לחוקרים לבנות אתיקה לתוך העיצובים הניסיוניים שלהם. כמובן, כל אחד שינויים אפשריים אלה הדבקה רגשית מציגה פשרות. לדוגמא, ראיות מניסויים טבעיים הוא לא תמיד נקיה ככל ראיות מניסויים אקראיים והגדלה היה יכולות להיות יותר מבחינה לוגיסטית קשה ליישם מאשר לחסום. אם כך, מטרתו של דבר המצביע על שינויים אלה לא הייתה לנחש את ההחלטות של חוקרים אחרים. במקום זאת, הייתה כדי להמחיש את מידת הסטייה של R השלוש יכולים להיות מיושמת בסיטואציה ריאליסטית.