از اعداد و ارقام ساختگی تا تقلب در مقالات علمی: چگونه ایده عجیب «معنی‌داری آماری» متولد شد؟

2 سپتامبر 2021

18 زمان تقریبی مطالعه 7 دقیقه

یک روش ریاضیاتی دهه‌هاست که محققین را به بیراهه کشانده است. در اواسط قرن بیستم، رشته روانشناسی با مشکلاتی روبرو شد. در پی پروژه منهتن و در روزهای اولیه رقابت فضایی، اصطلاح «علوم سخت» با نتایج ملموس و عمومی همراه شد. روانشناسان و دیگر دانشمندان علوم اجتماعی متعجبانه شاهد آن وضعیت بودند. این درحالی بود که نتایج آن‌ها پیچیده، دشوار و سخت بود.

روانشناسان به‌طور خاص به دنبال یک بدنه آماری می‌گشتند تا بینش‌های تجربی واقعی را براساس آن تفسیر کنند. کمک گرفتن از آمار غیرملموس بود اما در این مرحله نیاز به حضور ریاضی‌دانان عمیقا احساس شد. بنابراین یکی از نویسندگان و ناشران کتاب‌های درسی روانشناسی مفهومی با نام «معنی‌داری آماری» را مطرح کرد.

با محاسبه یک عدد از نتایج تجربی بدست آمده در هر آزمایش، که مقدار P نامیده می‌شود، محققان می‌توانند نتایج را از لحاظ آماری معنی‌دار بدانند. این تنها کمیتی بود که لازم بود – حتی اگر به اشتباه- تا نشان دهد نتایج قابل اتکا هستند. این طرح اجرایی شد و در مدت زمان کوتاهی، تعداد زیادی از محققان نتایج آماری قابل توجهی را در مطالعات خود گزارش کردند.

پس از مدتی، مجلات روانشناسی تصمیم گرفتند تا تنها در صورتی مقالات را منتشر کنند که یافته‌های آماری قابل توجهی را گزارش دهند. بدین ترتیب بسیاری از محققان داده‌های خود را اصطلاحا ماساژ می‌دادند – چه با تغییر دادن نظریه و یا حتی تقلب کردن – تا به مقادیر کمتر از p = 0.05 برسند و اجازه کسب مقاله خود در مجلات را کسب کنند. در همین راستا، میزان داده‌های ساختگی و ارتباطات تصادفی بیشتر شد.

به عنوان سردبیر مجله‌ای به نام Memory & Cognition از سال ۱۹۹۳ تا ۱۹۹۷، Geoffrey Loftus از دانشگاه واشنگتن سعی کرد با شجاعت روانشناسان را از دام داده‌های ساختگی نجات داد. در ابتدا، او مقاله‌ای را منتشر کرد و در آن به محققان تاکید کرد که محاسبات خود را در نهایت دقت انجام دهند تا از نتایج آزمایش از نظر معنی‌داری آماری به درستی مطمئن شوند. او هشدار داد که شیوه مرسوم شده، مانع پیشرفت علمی می‌شود.

Loftus توصیه کرد که در محاسبات دقیق باشند. او یادآور شد که حتی یک نتیجه صحیح هزاران بار با ارزش‌تر از معنی‌داری آماری است. او توصیه کرد که محققان میانگین‌هایی که به صورت مستقیم از نتایج آماری بدست آمده را گزارش کنند تا بتوان آزمایش‌های گروه‌های مختلف روانشناسی را با یکدیگر مقایسه کرد. نمودارها می‌توانند نشان دهند که آیا داده‌ها طیف گسترده‌ای را پوشش می‌دهد و یا در محدوده میانگین تجمع دارد. بدین صورت می‌توان مشخص کرد که آیا مقدار میانگین در طول محاسبات با تغییرات اندکی روبرو است و یا تغییرات آن گسترده است. در نتیجه محققان می‌توانند ارزیابی کنند که آیا گروه‌های تحقیقاتی توانسته‌اند عملکرد صحیحی ارائه دهند و یا خیر.

Loftus تلاش کرد تا معنی‌داری آماری، ارزش خود را در این رویکرد از دست ندهد. اکثر محققان نیز معنی‌داری آماری را همچنان در کارهای تحقیقاتی خود ذکر می‌کردند.

Loftus بعدها، زمانی که نگاهی به تلاش‌های گذشته خود در زمینه تغییر دادن زمینه تحقیقاتی در روانشناسی داشت، در این‌باره گفت: «بررسی معنی‌داری آماری با این هدف انجام می‌شود که نشان دهیم دنیا بر پایه چه مسائلی نمی‌چرخد! معنی‌داری آماری هیچ‌ اطلاعاتی راجع به چگونگی دنیا به ما نمی‌دهد.»

آنچه قابل توجه است، تنها این نیست که نویسندگان و ناشران کتاب‌های روانشناسی اواسط قرن بیستم با استفاده از مجموعه‌ای از اصول آماری متناقض، آزمایشات مهمی را انجام دادند. بلکه نکته این است که نتایج بدست آمده توسط آن‌ها تا چند دهه بعد مورد استقبال و توجه بسیاری از محققان رشته‌ای دیگر قرار گرفت. فرقی نمی‌کرد که آمارشناسان و روانشناسان برجسته آزمایشات را از پایه انجام داده بودند یا خیر. نتایج بدست آمده آن‌ها در علومی مثل علوم اجتماعی، تحقیقات پزشکی، اپیدمولوژیک، علوم اعصاب و انسان‌شناسی بیولوژیکی مورد توجه قرار گرفت.

علاقه بشر برای اطمینان یافتن به نتایج، سبب گسترش تردیدها شد. به علت کمبود نظریه یکپارچه‌ای که بتواند صحت پیش‌بینی‌ها را بسنجد، دانشمندان به مطالعه موضوعات مختلف مرتبط با انسان حول مباحث آماری روی آوردند. تکرار فرآیندهای پیشین یک احساس کاذب اطمینان خاطر را با خود به همراه می‌آورد. این روش که به صورت رسمی به عنوان آزمون معنی‌داری تهی شناخته می‌شود، یک فرضیه صفر را به عنوان در نظر می‌گیرد (هیچ تفاوتی میان از نظر اندازه‌گیری میان گروه‌های مختلف و یا میزان همبستگی آن‌ها وجود ندارد). اگر مقدار P برای داده‌های مشاهده شده به کمتر از ۵% برسد، فرضیه مذکور فاقد اعتبار است.

اجبار بررسی مقدار p در محاسبات، سبب می‌شود تا محققان نظریه‌هایی که پیش‌بینی‌هایی خاص و با ریسک بالا را ارائه می‌دهند، بررسی نکنند – درحالیکه این عناصر، پایه و اساس بررسی میزان مطلوبیت یک نظریه هستند. رد کردن فرضیه صفر، اطلاعات جدیدی به محقق نمی‌دهد و فقط فرصتی را برای گمانه‌زنی در مورد علت وقوع اثر پدید می‌آورد. نتایج بررسی معنی‌داری آماری به ندرت به عنوان دست یافته‌ای که می‌تواند دیگر یافته‌ها را تفسیر کند، مورد استفاده قرار می‌گیرد.

روانشناس Gerd Gigerenzer، مدیر مرکز سوادآموزی Harding Risk در برلین، عقیده دارد که بهتر است فرضیه صفر را آزمایش مهم صفر بنامیم.

در این بخش یک مثال ارائه می‌دهیم که فرضیه صفر را در عمل تفسیر می‌کند. در سال ۲۰۱۲، گروهی از محققان مطالعه‌ای انجام دادند و آن را در Science به چاپ رساندند. آن‌ها در طی تحقیقات خود دریافتند که سطح عقاید و باورهای داوطلبین پس از مشاهده برخی تصاویر مرتبط با مجسمه Auguste Rodin کاهش یافت. در این حالت تفکرات افراد سبب می‌شود که اعتقادشان به موجودات ماوراءالطبیعی زیر سوال برود. در این مطالعه، فرضیه صفر پیش‌بینی کرد که اعتقادات مذهبی داوطلبان به صورت میانگین باید بعد از دیدن فیلم ثابت بماند. همچنین دانشمندان مطابق با این فرضیه عقیده داشتند که تماشای مجسمه نباید تاثیری بر میزان اعتقادات افراد بگذارد.

پس از این، دانشمندان باید محاسبه کنند که آیا تفاوت در باورهای مذهبی گروه‌ها پیش و پس از دیدن مجسمه، به صورت اتفاقی و تنها در کمتر از ۲۰ نمونه آزمایشی – و یا ۵% مواقع – دیده شده است یا خیر. همینجاست که P < 0.05 معنا پیدا می‌کند. با رسیدن به این آستانه، نتیجه از نظر آماری معنی‌دار تلقی می‌شود و احتمال اینکه صرفا به صورت اتفاقی رخ داده باشد، ناچیز می‌گردد.

اگر منطقی به نظر می‌رسد، اندکی صبر کنید. حتی پس از آنکه نتایج به آستانه ۵% برای نشان دادن میزان معنی‌داری آماری رسیدند، باز هم این مطالعه ثابت نکرد که داوطلبین پس از دیدن مجسمه به باورهای دینی خود شک می‌کنند. محققان فقط می‌توانند در مورد علت این امر حدس‌هایی بزنند. زیرا تهی‌گرایی آن‌ها را مجبور می‌سازد تا به سایر عوامل نگاهی نداشته باشند.

در تکمیل مطالعه صورت گرفته، تحقیق دیگری انجام شد که در آن هیچگونه کاهش قابل توجهی در باورهای مذهبی افراد پس از دیدن مجسمه‌ها مشاهده نشد. شکست‌های مکرر در تائید نتایج معنی‌داری آماری باعث شد تا محققان اعتماد خود نسبت به چنین آزمایشاتی که دربردارنده فرضیه صفر هستند را، از دست بدهند.

در حال حاضر، برخی مجلات از محققان می‌خواهند تا پیش از ارسال مقالات تحقیقی خود به منظور ارزیابی، طرح‌های تحقیقاتی و داده‌ها را به صورت کامل جمع‌آوری کنند. هدف آن‌ها از این کار این است که از جعل اطلاعات جلوگیری شود و شانس انتشار نتایج قابل تائید توسط داوران افزایش یابد.

Gigerenzer عقیده دارد که مشکل اصلی در خود فرضیه صفر نهفته شده است. در اوایل قرن بیستم، Wolfgang Köhler بدون در نظر گرفتن معنی‌داری آماری، قوانین Gestalt را توسعه داد، Jean Piaget نظریه‌ای را در مورد نحوه رشد تفکر در کودکان تدوین کرد و Ivan Pavlov نیز اصول شرطی‌سازی کلاسیک را کشف کرد. این دانشمندان پیشگام معمولا با استفاده‌ از انوادع آمارهای ساده‌ای که دهه‌ها بعد توسط Loftus تائید شد، مطالعات بسیاری را انجام دادند.

از سال ۱۹۴۰ تا ۱۹۵۵، روانشناسانی که قصد داشتند ارزش علمی رشته خود را نشان دهند، به دنبال ابزاری برای تشخیص صحت یافته‌ها بودند. Gigerenzer می‌گوید: «نویسندگان و ناشران کتاب‌های درسی روانشناسی به جای پذیرفتن رویکردهای آماری متناقض، تمام این روش‌ها را با یک مقدار p فرض می‌کنند.»

یکی از افراد الهام‌بخش دیگر در این زمینه، آمارشناس انگلیسی، Ronald Fisher بود. از دهه ۱۹۳۰، Fisher نوعی آزمایش معنی‌داری را برای تجزیه و تحلیل احتمال یک فرضیه صفر ابداع کرد. در این روش محقق می‌تواند اثری را در مطالعات خود مطرح کند و یا در صورت عدم تمایل، از طرح اثر بپرهیزد. Fisher می‌خواست معنی‌داری آماری را فارغ از بررسی نوع اثر اندازه‌گیری کند. به عبارت دیگر او قصد داشت محاسبات را استفاده شیوه متفاوت دیگری که احتمال رسیدن به نتیجه مطلوب در آن بیشتر بود، انجام دهد.

در همان زمان، آمارشناسان Jerzy Neyman و Egon Pearson نتیجه گرفتند که آزمایش فرضیه صفر بی‌استفاده است و کارایی ندارد. در عوض، آن‌ها تلاش داشتند تا مشخص کنند بهترین‌ راه‌های جایگزین برای این فرضیه چیست. Neyman و Pearson فرضیه‌ای که به اثبات رسیده بود را مورد مطالعه قرار دادند و احتمالات را در آن سنجیدند. بررسی احتمالات، کاری بود که در فرضیه صفر Fisher مورد بررسی قرار نگرفت.

روانشناسان پس از انجام این سری از مطالعات، هر دو رویکرد را به عنوان روشی گیج‌کننده تلقی کردند. آن‌ها اغلب درک نمی‌کردند که چرا نتایج آماری نمی‌تواند به صورت قطعی، میزان واقعی بودن یک روخداد را تعیین کند.

حدود نیمی از محققان پزشکی، بیولوژیکی و روانشناسی به اشتباه تصور می‌کنند که اگر محققی معنی‌داری آماری را در مطالعات خود در نظر نگیرد، به این معناست که هیچ پدیده طبیعی‌ای وجود ندارد. تجزیه و تحلیل دقیق‌تر نتایج هر تحقیق ممکن است یافته‌های سازگار با یک اثر واقعی را آشکار سازد. این حالت به خصوص در زمانی اتفاق می‌افتد که معنی‌داری آماری اختلاف فاحشی با مقدارم مرسوم آن نداشته باشد.

خطاهای آماری

مطالعات یک روانشناس آلمانی و دانشجویان وی نشان داد که اکثر آن‌ها با دست کم یکی از تفاسیر نادرست مقدار p موافق هستند.

Richard Morey از دانشگاه Cardiff در Wales می‌گوید: «دیگر زمان بررسی چنین نظریه‌‌هایی به سر رسیده است. محققان باید بر توسعه نظریه‌های ذهن و رفتار که منجر به پیش‌بینی‌های قابل آزمایش می‌شود، تمرکز کنند. بدین ترتیب آن‌ها باید انتخاب کنند که کدام یک از ابزارهای آماری مناسب نیازها و مطالعات آنهاست. آمار راه‌هایی برای تشخیص صحت شک و تردید در مطالعات را فراهم می‌آورد.

شکی نیست که تلاش برای یافتن حقیقت در معنی‌داری هنوز برای بسیاری از محققان جذاب است. امیدوار هستیم تا در چند دهه آینده، دوره سلطنت خطاهای بیهوده به سر برسد.

2 سپتامبر 2021

18 زمان تقریبی مطالعه 7 دقیقه