2.4.3.2 تطبیق

تطبیق ایجاد مقایسه عادلانه هرس دور موارد.

مقایسه نمایشگاه می توانید از هر دو آزمایش تصادفی کنترل شده و یا آزمایش های طبیعی است. اما، بسیاری از شرایطی که در آن شما می توانید آزمایش ایده آل را اجرا نکنید و طبیعت یک آزمایش طبیعی ارائه نشده است. در این تنظیمات، بهترین راه برای ایجاد یک مقایسه عادلانه تطبیق است. در تطبیق، محقق به نظر می رسد از طریق داده های غیر تجربی برای ایجاد جفت از مردم که مشابه هستند با این تفاوت که یک درمان دریافت کرده است و یکی نیست. در این روند از تطبیق، محققان در واقع نیز هرس؛ است که، دور از موارد که در آن هیچ مقایسه آشکار وجود دارد. بنابراین، این روش می تواند دقیق تر به نام تطبیق و هرس، اما من با اصطلاح سنتی چوب: تطبیق است.

یک مثال زیبا از قدرت تطبیق استراتژی با منابع داده غیر آزمایشی عظیم از تحقیق بر روی رفتار مصرف کننده Liran Einav و همکارانش آمده (2015) . Einav و همکاران علاقه مند در مزایده در حال وقوع را در eBay بیابید، و در توصیف کار خود را، من در یکی از جنبه های خاص تمرکز: اثر قیمت شروع حراج بر نتایج حراج، مانند قیمت فروش یا احتمال فروش می باشد.

راه ساده و بی تکلف ترین پاسخ به این سوال در مورد اثر شروع قیمت در قیمت فروش خواهد بود به سادگی محاسبه قیمت نهایی برای مزایده با قیمت های مختلف شروع. این رویکرد خوب خواهد بود اگر شما به سادگی می خواهید برای پیش بینی قیمت فروش یک کالا با توجه به اینکه در eBay بیابید با قیمت با شروع داده قرار داده شده بود. اما، اگر سوال شما همان چیزی است که اثر شروع قیمت در نتایج بازار این روش کار نخواهد کرد دلیل آن است که در مقایسه عادلانه بر اساس نمی باشد. مزایده با قیمت های پایین تر شروع می شود کاملا متفاوت از مزایده با قیمت شروع بالاتر (به عنوان مثال، آنها ممکن است برای انواع مختلف محصولات باشد یا شامل انواع مختلف از فروشندگان).

اگر شما در حال حاضر در مورد ساخت مقایسه عادلانه مربوط می شود، شما ممکن است از روش ساده و بی تکلف جست و خیز و نظر در حال اجرا یک آزمایش میدانی که در آن شما را به فروش خاص مورد-می گویند، یک باشگاه گلف-با مجموعه ای ثابت از حراج پارامترهای گویند، حمل و نقل رایگان، حراج به مدت دو هفته، باز و غیره، اما با به طور تصادفی تنظیم شروع قیمت. با مقایسه نتایج بازار و در نتیجه، این آزمایش زمینه به اندازه گیری بسیار روشن از اثر شروع قیمت در فروش قیمت ارائه دهد. اما، این اندازه گیری تنها به یک محصول خاص اعمال می شود و مجموعه ای از پارامترهای حراج. نتایج ممکن است متفاوت باشد، برای مثال، برای انواع مختلف محصولات. بدون تئوری قوی، دشوار است به قیاس از این آزمایش تنها طیف گسترده ای از آزمایش ممکن است که می تواند اجرا شده است. علاوه بر این، آزمایشات مزرعه به اندازه کافی گران قیمت است که این امر می تواند غیر ممکن به اجرا به اندازه کافی از آنها را به پوشش کل فضای پارامتری از محصولات و انواع حراج می باشد.

در مقابل به روش ساده و بی تکلف و رویکرد تجربی، Einav و همکارانش را به یک رویکرد سوم: تطبیق است. فوت و فن اصلی راهبرد آنها برای کشف چیزهای مشابه آزمایشات مزرعه ای که در حال حاضر در eBay بیابید اتفاق افتاده است. به عنوان مثال، شکل 2.6 برخی از 31 لیست برای دقیقا باشگاه گلف-A همان Taylormade سوز 09 درایور-توسط دقیقا seller- همان "budgetgolfer" به فروش می رسد نشان می دهد. با این حال، این لیست دارای ویژگی های کمی متفاوت است. یازده نفر از آنها را ارائه راننده برای یک قیمت ثابت از 124.99 $، در حالی که 20 دیگر مزایده پایان تاریخ های مختلف با هستند. همچنین، لیست باید هزینه حمل و نقل های مختلف، یا $ 7.99 یا 9.99 $. به عبارت دیگر، آن است که اگر "budgetgolfer" در حال اجرا است آزمایش برای محققان.

لیست از Taylormade سوز 09 درایور که توسط "budgetgolfer" به فروش می رسد یکی از نمونه های مجموعه ای همسان از لیست، که در آن همان مورد را ارزیابی دقیق است که توسط گزینه همان فروخته اما هر بار با ویژگی های کمی متفاوت است. در سیاهههای مربوط عظیم از eBay هستند به معنای واقعی کلمه صدها هزار نفر از همسان مجموعه شامل میلیون ها نفر از لیست وجود دارد. بنابراین، به جای مقایسه قیمت نهایی برای تمام مزایده در شروع قیمت داده می شود، Einav و همکارانش مقایسه درون مجموعه همسان. به منظور ترکیب نتایج حاصل از مقایسه در این صدها هزار نفر از مجموعه همسان، Einav و همکارانش دوباره بیان شروع قیمت و قیمت نهایی از نظر مقدار مرجع هر یک از آیتم (به عنوان مثال، فروش متوسط ​​قیمت آن). به عنوان مثال، اگر Taylormade سوز 09 راننده یک مقدار مرجع $ 100 (بر اساس فروش آن)، پس از آن با شروع قیمت از 10 $ به عنوان 0.1 بیان و قیمت نهایی 120 $ به عنوان 1.2 بیان شده است.

شکل 2.6: نمونه ای از یک مجموعه همسان. این باشگاه همان گلف (یک Taylormade سوز 09 راننده) که توسط همان شخص دقیق (budgetgolfer) به فروش می رسد، اما برخی از این فروش شرایط مختلف (به عنوان مثال، مختلف شروع قیمت) انجام شد. شکل گرفته شده از Einav و همکاران (2015).

شکل 2.6: نمونه ای از یک مجموعه همسان. این باشگاه همان گلف (یک Taylormade سوز 09 راننده) که توسط همان فرد دقیق ( "budgetgolfer") به فروش می رسد، اما برخی از این فروش شرایط مختلف (به عنوان مثال، مختلف شروع قیمت) انجام شد. شکل گرفته شده از Einav et al. (2015) .

به یاد بیاورید که Einav و همکاران علاقه مند در اثر شروع قیمت بر نتایج حراج شد. اول، با استفاده از رگرسیون خطی تخمین زده شده که قیمت شروع بالاتر کاهش احتمال فروش، و که قیمت شروع بالاتر افزایش قیمت فروش نهایی، مشروط به فروش اتفاق می افتد. به خودی خود، این تخمین ها-که بیش از همه محصولات به طور متوسط ​​و فرض کنیم یک رابطه خطی بین شروع قیمت و نهایی نتایج هستند که جالب نیست. اما، Einav و همکارانش نیز به اندازه ای عظیم از داده های خود را به منظور برآورد انواع یافته ظریف تر استفاده کنید. اول، Einav و همکارانش این برآوردها به طور جداگانه برای اقلام از قیمت های مختلف و بدون استفاده از رگرسیون خطی ساخته شده است. آنها دریافتند که در حالی که رابطه بین قیمت شروع و احتمال فروش خطی است، رابطه بین قیمت شروع و قیمت فروش است که به وضوح غیر خطی (شکل 2.7). به طور خاص، برای شروع قیمت بین 0.05 و 0.85 قیمت شروع است تاثیر بسیار کمی در قیمت فروش، یافته ای که از دست رفته در تجزیه و تحلیل که یک رابطه خطی فرض کرده به پایان رسید.

شکل 2.7: رابطه قیمت حراج شروع و احتمال فروش (پنل سمت چپ) و قیمت فروش (پانل سمت راست). است وجود دارد تقریبا یک رابطه خطی بین قیمت شروع و احتمال فروش، اما یک رابطه غیر خطی بین قیمت شروع و قیمت فروش وجود دارد. برای شروع قیمت بین 0.05 و 0.85 قیمت شروع است تاثیر بسیار کمی در قیمت فروش. در هر دو مورد، روابط اساسا مستقل از ارزش مورد می باشد. این نمودار تکثیر 4A و 4B شکل Einav و همکاران (2015).

شکل 2.7: رابطه قیمت حراج شروع و احتمال فروش (پنل سمت چپ) و قیمت فروش (پانل سمت راست). است وجود دارد تقریبا یک رابطه خطی بین قیمت شروع و احتمال فروش، اما یک رابطه غیر خطی بین قیمت شروع و قیمت فروش وجود دارد. برای شروع قیمت بین 0.05 و 0.85 قیمت شروع است تاثیر بسیار کمی در قیمت فروش. در هر دو مورد، روابط اساسا مستقل از ارزش مورد می باشد. این نمودار تکثیر 4A و 4B شکل Einav et al. (2015) .

دوم، به جای به طور متوسط ​​بیش از همه موارد، Einav و همکارانش همچنین مقیاس گسترده از داده های خود را به تخمین تاثیر شروع قیمت برای 23 عناوین مختلف از آیتم های (به عنوان مثال، لوازم خانگی، الکترونیک، و خاطرات ورزش) (شکل 2.8) استفاده کنید. این تخمین ها نشان می دهد که برای متمایز بیشتری از موارد مانند خاطرات شروع قیمت یک اثر کوچکتر بر احتمال فروش و یک اثر بزرگتر در فروش قیمت نهایی. علاوه بر این، برای اقلام از جمله کالایی بیشتر به عنوان دی وی دی و ویدئو قیمت شروع تقریبا هیچ تاثیری بر قیمت نهایی. به عبارت دیگر، به طور متوسط ​​است که ترکیبی از نتایج حاصل از 23 عناوین مختلف از آیتم های پنهان اطلاعات مهم در مورد تفاوت های بین این اقلام است.

شکل 2.8: نتایج نشان داد تخمین از هر گروه به صورت جداگانه. نقطه جامد در برآورد برای همه دسته با هم مخلوط، جدول 11 (Einav و همکاران 2015، جدول 11). این تخمین ها نشان می دهد که برای متمایز بیشتری از موارد مانند خاطرات قیمت شروع یک اثر کوچکتر بر احتمال فروش (محور X) و یک اثر بزرگتر در فروش قیمت نهایی (محور y).

شکل 2.8: نتایج نشان داد تخمین از هر گروه به صورت جداگانه. نقطه جامد در برآورد برای همه دسته مخلوط با هم (Einav et al. 2015, Table 11) . این تخمین ها نشان می دهد که برای متمایز بیشتری از موارد مانند خاطرات قیمت شروع یک اثر کوچکتر بر احتمال فروش (محور X) و یک اثر بزرگتر در فروش قیمت نهایی (محور y).

حتی اگر شما به ویژه در مزایده در eBay علاقه مند نیست، شما باید به تحسین راه است که شکل 2.7 و شکل 2.8 پیشنهاد درک غنی تر از بی از برآوردهای رگرسیون خطی ساده است که فرض کنیم روابط خطی و ترکیب دسته بندی های مختلف از اقلام است. این تخمین ها ظریف تر نشان دادن قدرت تطبیق در داده های عظیم؛ این تخمین ها را بدون تعداد زیادی از آزمایشات مزرعه، که می توانست گران شده غیر ممکن است.

البته، ما باید اعتماد به نفس کمتر در نتایج حاصل از هر مطالعه تطبیق خاص از ما را در نتایج حاصل از یک آزمایش مقایسه است. هنگام ارزیابی نتایج حاصل از هر مطالعه تطبیق، دو نگرانی مهم وجود دارد. اول، ما باید به یاد داشته باشید که ما فقط می توانید اطمینان حاصل مقایسه عادلانه بر روی چیزهایی که برای تطبیق استفاده شد. در نتایج اصلی خود، Einav و همکارانش را دقیق تطبیق در چهار ویژگی: فروشنده شماره ID، دسته بندی مورد، عنوان آیتم، و زیرنویس. اگر موارد در راه است که برای تطبیق شد استفاده نمی شود، که می تواند یک مقایسه ناعادلانه ایجاد متفاوت بود. برای مثال، اگر "budgetgolfer" قیمت Taylormade سوز 09 درایور در زمستان را کاهش داد (که باشگاه های گلف کمتر محبوب هستند)، و سپس آن را می تواند به نظر می رسد که قیمت شروع پایین تر منجر به کاهش قیمت نهایی، که در واقع این امر می تواند مصنوع فصلی تنوع در تقاضا. به طور کلی، بهترین روش برای این مشکل به نظر می رسد به تلاش بسیاری از انواع مختلف تطبیق است. به عنوان مثال، Einav و همکارانش را تکرار تجزیه و تحلیل خود که در آن همسان مجموعه شامل اقلام در فروش در عرض یک سال، در عرض یک ماه، و همزمان. ساخت پنجره زمان تنگ تر باعث کاهش تعداد همسان مجموعه، کاهش می دهد اما نگرانی ها در مورد تغییرات فصلی. خوشبختانه، آنها پیدا کردن که نتایج بدون تغییر این تغییرات در معیارهای تطبیق می باشد. در ادبیات تطبیق، این نوع از نگرانی است که معمولا در شرایط مشاهدات و unobservables بیان می شود، اما ایده اصلی این است واقعا که محققان در حال تنها ایجاد مقایسه عادلانه در مورد ویژگی های مورد استفاده در تطبیق است.

نگرانی عمده دوم هنگام تفسیر نتایج تطبیق این است که آنها تنها به داده های همسان اعمال می شود. آنها به موارد است که نمی تواند همسان باشد صدق نمی کند. به عنوان مثال، با محدود کردن تحقیقات خود را به آیتم های که تا به حال لیست های متعدد Einav و همکارانش در حال تمرکز بر فروشندگان حرفه ای و نیمه حرفه ای است. بنابراین، هنگامی که تفسیر این مقایسه ما باید به یاد داشته باشید که آنها تنها به این زیر مجموعه از eBay اعمال می شود.

تطبیق یک استراتژی قدرتمند برای پیدا کردن مقایسه عادلانه در مجموعه داده های بزرگ است. به بسیاری از دانشمندان علوم اجتماعی، تطبیق احساس می کند مانند دوم بهترین آزمایش است، اما این باور است که باید تجدید نظر به، کمی است. تطبیق در داده های عظیم ممکن است بهتر از تعداد کمی از آزمایشات مزرعه که: 1) عدم تجانس در اثر مهم است و 2) مشاهدات خوبی برای تطبیق وجود دارد. جدول 2.4 برخی از نمونه های دیگر از چگونه تطبیق می تواند با منابع داده های بزرگ استفاده می شود.

جدول 2.4: نمونه هایی از مطالعات که تطبیق پیدا مقایسه عادلانه در آثار دیجیتال است.
تمرکز اساسی منبع داده بزرگ نقل قول
اثر تیراندازی در مورد خشونت پلیس توقف و تفتیش سوابق Legewie (2016)
اثر 11 سپتامبر سال 2001 در خانواده و همسایه سوابق رای گیری و سوابق اهدای Hersh (2013)
سرایت اجتماعی ارتباطات و تصویب محصول داده Aral, Muchnik, and Sundararajan (2009)

در نتیجه، روش ساده و بی تکلف به برآورد اثرات سببی از داده های غیر تجربی خطرناک هستند. با این حال، استراتژی برای ساخت برآورد علی دروغ گفتن در امتداد یک پیوستار از قویترین به ضعیفترین و محققان مقایسه عادلانه در داده های غیر تجربی را کشف کنید. آزمایش های طبیعی و تطبیق: رشد همیشه در، سیستم های داده های بزرگ توانایی ما به طور موثر استفاده از دو روش موجود را افزایش می دهد.