هک کردن P در عمل.. در قسمت قبلی (در مورد مفاهیم نظری p-hacking صحبت کردیم

هک کردن P در عمل

در قسمت قبلی (https://t.me/hamedghoddusi/479) در مورد مفاهیم نظری p-hacking صحبت کردیم. این بار بحث را کمی بیش‌تر به سمت مصادق ببریم.

یک بار دیگر یادآوری کنیم که p-hacking در واقع از طریق «گزارش واقعیت ولی نه همه واقعیت» رخ می‌دهد: محقق آن زیرنمونه‌هایی از داده یا زیرمجموعه‌ای از روابط را گزارش می‌کند که رابطه آماری در آن‌‌ها معنی‌دار بوده و به این طریق فضای حالت گزارش شده را کوچک جلوه می‌‌دهد.

در عمل چه رفتارهایی منجر به p-hacking می شود؟ چند مثال می‌زنیم.

۱) روش بسیار رایج بین اقتصاددانان: امتحان کردن انواع و اقسام مدل‌ها (با گرفتن لگاریتم و توان دو متغیرها و تعامل و الخ) و فقط گزارش کردن مدل‌هایی که معنی‌داری آماری در آن‌ها پیدا می‌شود.

۲) بیرون گذاشتن برخی مشاهدات به عنوان Outlier تا وقتی که به معنی‌داری برسیم. مثلا وقتی مدل را روی همه واحدها تخمین می‌زنیم تقریبا موضوع معنی‌داری نمی‌بینیم چون چون مورد جدی استثنایی داریم. آن‌ها را آن‌قدر کنار می گذاریم تا به معنی‌داری برسیم.

۳) جمع کردن داده‌ها از واحدهای مختلف و توقف وقتی که به ضرایب معنی‌دار رسیدیم. این کار هم بین اقتصاددانان رایج است. مثلا رابطه توسعه مالی و رشد اقتصادی را می‌سنجیم و آن قدر با مجموعه کشورهای مطالعه شده بازی می‌کنیم تا مثلا ببینیم در کشورهای گوشه جنوب شرق آمریکا این رابطه برقرار است. بعد عنوان مقاله را «رابطه توسعه مالی و رشد اقتصادی در کشورهای جنوب شرق آفریقا» می‌گذاریم و هیچ وقت توضیح نمی‌‌دهیم که اگر مجموعه مشاهدات را بزرگ‌تر تعریف کنیم ضرایب بی‌معنی می‌شوند.

۴) انتخاب متغیر سمت چپ: برای تعریف عمل‌کرد اقتصادی یک کشور یا بنگاه می‌توان از انواع و اقسام پراکسی‌ها استفاده کرد. مثلا می‌توانیم میزان فروش، درآمد، دارایی، بازده سرمایه، بازده سهام، تعداد پتنت‌ها و الخ را استفاده کرد. با بازی کردن با متغیر سمت چپ نهایتا متغیری را انتخاب می‌کنیم که تصادفا با سمت راست قابل توضیح است.

در خیلی از این موارد نه تنها داور و خواننده بل‌که حتی خود محقق هم ممکن است متوجه نباشد که فرآیندی که دنبال کرده از نوع p-hacking بوده است.

@hamed_ghoddusi تماس با نویسنده
@hamedghoddusi