وقتی دقت اندازهگیری شما را گول میزند
احتمالا شما هم داستانهایی درباره جویندگان طلا شنیدهاید. در اکثر این داستانها افراد به کمک دستگاههایی به نام طلایاب گنجهای عظیمی مییابند و به اصطلاح یک شبه پولدار میشوند.
یکی از دوستان شما دستگاه طلایاب دارد. شما نیز تصمیم گرفتهاید به جرگه جویندگان طلا بپیوندید و با دوست خود همراه شوید. بنابراین همراه با دوست خود به سراغ یک معدن رفتهاید که در آن حدود ۱۰۰۰ سنگ وجود دارد و پیشبینی میکنید که ۱ درصد از این سنگها طلا باشد.
دستگاه طلایاب دوست شما هنگام شناسایی طلا بوق میزند و روند کار آن به شرح زیر است:
- این دستگاه طلا را طلا تشخیص میدهد و همیشه در نزدیکی طلا بوق میزند.
- این دستگاه در تشخیص طلا از میان سنگها ۹۰ درصد دقت دارد.
بدین ترتیب شما و دوستتان مشغول جستوجو در معدن میشوید، ناگهان دستگاه در جلوی یکی از سنگها بوق میزند. در صورتی که این سنگ طلا باشد، قیمت آن در بازار چیزی حدود ۱۰۰۰ دلار است. دوست شما پیشنهاد میدهد که ۲۵۰ دلار به او بدهید و سنگ را برای خود بردارید. پیشنهاد هیجانانگیزی بهنظر میرسد، چرا که اگر سنگ طلا باشد، شما سه برابر سود میکنید. از طرفی دقت دستگاه طلایاب نیز بالا و احتمال طلا بودن سنگ زیاد است. اینها فکرهایی هستند که در ذهن شما میگذرند و در نهایت منجر به این میشود که ۲۵۰ دلار را به دوستتان پرداخت کنید و سنگ را برای خود بردارید.
حال بد نیست کمی از دنیای جویندگان طلا فاصله بگیریم، به جهان زیبای ریاضیات بازگردیم و مسئله را با موشکافانهتر بررسی کنیم:
- باتوجه به اینکه حدود ۱۰۰۰ سنگ در این معدن وجود دارد و ۱ درصد آن طلا است، یعنی حدودا ۱۰ سنگ طلا در این معدن وجود دارد.
- بنابراین در این معدن حدودا ۹۹۰ سنگ وجود دارد که ارزش مادی خاصی ندارد.
- دقت تشخیص طلا از میان سنگ این دستگاه ۹۰ درصد است، این یعنی اگر ۹۹۰ سنگ (که مطمئنیم طلا نیستند) را جلوی این دستگاه قرار دهیم به اشتباه برای حدود ۹۹ سنگ بوق میزند.
با توجه به موارد ذکر شده به احتمال زیاد اگر این دستگاه را در معدن بچرخانیم، ۱۰۹ بار بوق خواهد زد، این در حالی است که تنها ۱۰ بوق واقعا طلا است. این سخن بدین معناست که تنها ۹ درصد احتمال دارد سنگی که بابت آن ۲۵۰ دلار پول دادهایم، طلا باشد. این یعنی معامله چندان خوبی انجام ندادهایم و به احتمال زیاد ۲۵۰ دلار پول بیزبان را بابت یک تکه سنگ بیارزش هدر دادهایم. اگر بخواهیم جمعبندی تمام این صحبتها را بهصورت ریاضی نشان دهیم، خواهیم داشت:
پس از بررسی این مسئله از نگاه ریاضیات متوجه شدیم که پارامتر «دقت اندازهگیری» به تنهایی برای دستیابی به نتیجه قابل اطمینان کافی نیست و باید موارد دیگری را نیز در نظر گرفت. این بحث در علم آمار و علوم داده با نام «پارادوکس مثبت کاذب» مطرح میشود. این پارادوکس معمولا زمانی رخ میدهد که احتمال وقوع رخداد از دقت خطای ابزاری که با آن رخداد را میسنجیم، کمتر باشد. بهطور مثال در مسئله «جویندگان طلا» ما با ابزاری با دقت ۹۰ درصد (خطا ۱۰ درصد) به دنبال بررسی رخدادی هستیم که احتمال وقوع آن حدود ۱ درصد است، بنابراین نتایجی بدست آمد که چندان قابل اطمینان نیست.
معرفی مجموعه مقاله «گذری بر دادهمحوری و مدیریت محصول»
امروزه دادهمحور شدن سازمانها یا به اصطلاح Data Driven Organization یکی از موضوعات محبوب میان مدیران است. بهطور کلی دادهمحوری یک سازمان کمک میکند تا تصمیمات و سیاستگذاری شرکت از فضای نظر شخصی خارج شود و امکان اندازهگیری و تجزیه و تحلیل آن فراهم شود. در این مسیر یکسری نکات و مباحثی ریاضی-آماری وجود دارد که عدم توجه به آن ممکن است باعث کج فهمی و اتخاذ تصمیمات اشتباه شود. اکثر این اتفاقات زمانی رخ میدهند که افراد بدون درک روابط علت و معلولی که سبب تشکیل اطلاعات شده است، تنها با اتکا بر یک عدد تصمیم میگیرند. در این مجموعه مقالات هربار به سراغ یکی از مباحث آمار-احتمال میرویم و در یکسری مفاهیم عمیقتر میشویم.
آشنایی با اصطلاحات
پیش از آنکه به سراغ بررسی مسائل مرتبط با پارادوکس مثبت کاذب بپردازیم، بهتر است با چند اصطلاح کاربردی در حوزه علم آمار آشنا شویم. برای آنکه انتقال مفهوم راحتتر شود، فرض کنید که یک تست کرونا از شما گرفته شده است. نتیجه این تست چهار حالت دارد:
- مثبت صحیح (True Positive): شما به ویروس کرونا واقعا مبتلا شدهاید و نتیجه تست نیز مثبت است.
- مثبت کاذب (False Positive): شما به ویروس کرونا مبتلا نشدهاید، اما نتیجه تست مثبت است.
- منفی صحیح (True Negative): شما به ویروس کرونا مبتلا نشدهاید و نتیجه تست نیز منفی است.
- منفی کاذب (False Negative): شما به ویروس کرونا مبتلا شدهاید، اما نتیجه تست منفی است.
لازم به ذکر است که در اینجا تست کرونا و بهطور کلی تست پزشکی بهعنوان مثال بیان شده است و این ۴ حالت به هر رخدادی که در آن احتمالی برای وقوع خطا وجود دارد، قابل تعمیم است. در مسئله جویندگان طلا درصد خطای مثبت کاذب دستگاه، یعنی حالتی که سنگ طلا نباشد، اما دستگاه بوق بزند ۱۰ درصد بود و درصد خطای منفی کاذب دستگاه، یعنی حالتی که سنگ طلا باشد اما دستگاه بوق نزند، صفر درصد بود. در ادامه این مقاله چند مسئله دیگر از بحث «پارادوکس مثبت کاذب» را مورد برررسی قرار میدهیم.
ویروس ناشناخته
یک ویروس ناشناخته در شهری با جمعیت حدود ۱۰,۰۰۰ نفر شیوع یافته است و نزدیک به ۴۰ درصد از افراد را درگیر کرده است. شما بهعنوان مدیرمحصول روی توسعه کیت شناسایی این ویروس کار میکنید، تا هرچه سریعتر افراد مبتلا را از افراد سالم جدا کرد. کیت شناسایی شما حدودا ۵ درصد خطای مثبت کاذب و ۰ درصد خطای منفی کاذب دارد. اکنون این کیت جهت شناسایی افراد مبتلا در شهر مورد استفاده قرار گرفته و پیشبینی شما از نتایج به شرح زیر است:
- تعداد افراد تخمینی که به بیماری مبتلا شدهاند:
- تعداد نتایجی آزمایشی که به اشتباه مثبت اعلام میشود:
همانطور که اشاره شد، درصد خطای منفی کاذب این کیت ۰ درصد است، یعنی اگر کسی به بیماری مبتلا شده باشد، حتما شناسایی میشود. اکنون مشخص شد که نتیجه تست حدود ۳۰۰ نفر به اشتباه مثبت اعلام شده است. در نهایت میتوان گفت در آزمایش انجام شده نتیجه آزمایش ۴۳۰۰ نفر مثبت اعلام شده است، که در این میان ۴۰۰۰ نفر از این افراد واقعا به بیماری مبتلا شدهاند. بنابراین دقت اندازهگیری این کیت چیزی حدود ۹۳ درصد است که عدد قابل قبولی است و میتوان به آن اطمینان کرد.
اما این مسئله اینجا به پایان نمیرسد! اکنون پس از موفقیتآمیز بودن نتایج کیت شناسایی شرکت شما، این کیت برای شناسایی ویروس در شهرهای دیگر نیز مورد استفاده قرار گرفته است. در یکی از این شهرها جمعیت افراد حدود ۱۰۰۰ نفر است و نزدیک به ۲ درصد از افراد این شهر کوچیک درگیر این ویروس شدهاند. برای شناسایی افراد مبتلا شده از کیت شناسایی استفاده کردند، اما نتایج نامطلوبی بدست آمد. اکثریت افرادی که نتیجه تستشان مثبت شده بود، کوچکترین نشانهای از ابتلا به ویروس نداشتند و همین امر اعتبار و کیفیت کیت طراحی شده توسط شرکت شما را زیر سوال برده است. با کمی حساب و کتاب میتوانیم به نتایج زیر برسیم:
- تعداد افراد تخمینی که به این بیماری مبتلا شدهاند:
- تعداد نتایجی آزمایشی که به اشتباه مثبت اعلام میشود:
کاملا مشخص است که نتایج تست معتبر نیست. در حالی که تنها ۲۰ نفر در واقعیت به این ویروس مبتلا شدهاند، کیت شناسایی نتیجه تست ۶۹ نفر را مثبت اعلام کرد، یعنی دقت این کیت حدود ۲۹ درصد است که برای یک تست پزشکی عدد بسیار پایینی به حساب میآید:
به بیان بهتر میتوان گفت که اگر نتیجه تست فردی در این آزمایش مثبت اعلام شود، به احتمال بیشتر از ۷۰ درصد به بیماری مبتلا نشده است! در اینجا نیز با پارادوکس مثبت کاذب روبهرو هستیم. همانطور که گفته شد، در شرایطی که احتمال وقوع یک رخداد از درصد خطای ابزاری که آن رخداد را میسنجیم کمتر باشد، نتایج بدست آمده دارای اعتبار نیست. در اینجا درصد خطای مثبت کاذب کیت شناسایی حدود ۵ درصد است، در حالی که احتمال وقوع رخداد(ابتلا به بیماری) در شهر کوچک حدود ۲ درصد است. بنابراین نتایج بدست آمده اعتبار چندانی ندارد. اکنون شما بهعنوان مدیرمحصول برای آنکه از وقوع اتفاقات این چنینی و آسیب خوردن به اعتبار شرکت خود جلوگیری کنید، برای کیت شناسایی یک شیوهنامه و بازه اطمینان تعریف میکنید تا دقیقا مشخص شود که نتایج این کیت در چه حدودهایی قابل اتکا است.
آژیر خطر
در یکی از مراکز تجاری مهم شهری با جمعیت ۱ میلیون نفر، یک دوربین و آژیر ضدتروریست نصب شده است. این آژیر خطر یک درصد خطای مثبت کاذب و یک درصد خطای منفی کاذب دارد. به عبارت بهتر میتوان گفت:
- منفی کاذب: اگر دوربین مداربسته تروریستی را شناسایی کند، به احتمال ۹۹ درصد زنگ آژیر خطر به صدا در میآید.
- مثبت کاذب: در مواردی که افراد عادی از مقابل دوربین رد میشوند، زنگ آژیر خطر به احتمال ۹۹ درصد به صدا در نمیآید، اما ۱ درصد احتمال به صدا در آمدن زنگ آژیر وجود دارد.
اکنون این سوال مطرح میشود که اگر روزی زنگ آژیر خطر به صدا در بیاید، چند درصد احتمال دارد که فرد تروریستی در داخل مجتمع وجود داشته باشد؟ با توجه به اینکه خطای مثبت کاذب و منفی کاذب این دوربین تنها ۱ درصد است و این دوربین از دقتی ۹۹ درصدی برخوردار است، احتمالا پاسخ اکثریت به این سوال این است، که اگر زنگ آژیر خطر به صدا در بیاید به احتمال ۹۹ درصد یک تروریست در مجتمع وجود دارد. اما برخورد با مسائل آمار-احتمال به این سادگی نیست!
فرض میکنیم که در شهری با حدود ۱ میلیون نفر جمعیت نزدیک به ۵۰۰ تروریست وجود داشته باشد. این فرض کاملا معقول است و با دادههای آماری-جمعیتی سازگاری دارد. اکنون به صورت سوال باز میگردیم، که اگر آژیر خطر به صدا درآید چند درصد احتمال دارد تروریستی داخل مجتمع باشد. برای بدست آوردن این درصد محاسبات زیر را انجام میدهیم.
۵۰۰ تروریست در شهر وجود دارد، که اگر همگی از جلوی دوربین رد شوند، با توجه به دقت ۹۹ درصدی دوربین شناسایی، آژیر خطر ۴۹۵ به صدا در میآید:
۹۹۹۵۰۰ نفر مردم عادی هستند (کل جمعیت شهر منهای افراد تروریست) اگر همگی این افراد از جلوی دوربین رد شوند، با توجه به خطای ۱ درصدی دوربین شناسایی، آژیر خطر ۹۹۹۵ به صدا در میآید:
بنابراین اگر تمام جمعیت شهر از جلوی این دوربین رد شوند آژیر خطر ۱۰۴۹۰ به صدا در میآید. این در حالی است که تنها در ۴۹۵ موارد آژیر خطر به درستی به صدا درآمده است. اکنون بهراحتی میتوان محاسبه کرد که اگر آژیر خطر به صدا درآمد چند درصد احتمال دارد که یک تروریست داخل مجموعه باشد:
این محاسبات بدین معناست که اگر آژیر خطر به صدا در بیاید، به احتمال بیش از ۹۵ درصد اشتباه بوده است و تروریستی داخل مجموعه وجود ندارد. نتیجه بدست آمده با تصور ابتدایی ما تفاوت فاحشی دارد. اکثریت افراد هنگامی که از دقت ۹۹ درصدی دوربین مطلع میشوند، تحت تاثیر این دقت استثنایی قرار میگیرند و گمان میکنند که غالب خروجیهای این دستگاه صحیح خواهد بود، اما بار دیگر به ما ثابت شد که دقت اندازهگیری به تنهایی کافی نیست.
در این مسئله احتمال حضور یک تروریست در میان مردم شهر نزدیک به ۰.۰۵ درصد است. این در حالی است که خطای این دستگاه حدود ۱ درصد است. بنابراین در این مسئله بار دیگر با پارادوکس مثبت کاذب روبهرو هستیم که باعث ایجاد یک خروجی ناکارآمد شده است.
تست هوشیاری
مدیریت محصول یک دستگاه هوشیاریسنج به شما سپرده شده است. این دستگاه قرار است توسط پلیس در جهت شناسایی رانندگانی که نوشیدنیهای الکلی یا مواد مخدر مصرف کردهاند، مورد استفاده قرار بگیرد. محصولی که توسط تیم شما توسعه داده شده است، مشخصات زیر را دارد:
- خطای منفی کاذب این دستگاه صفر درصد است، یعنی این محصول تست تمام افرادی را که مصرف الکل یا مواد مخدر داشتهاند را بهدرستی مثبت اعلام میکند.
- خطای مثبت کاذب این دستگاه حدود ۵ درصد است، یعنی این محصول در ۹۵ درصد مواقع تست افرادی را که مصرفی نداشتهاند به درستی منفی اعلام میکند و در ۵ درصد مواقع به اشتباه تست این افراد را مثبت اعلام میکند.
از آنجایی که شما مسلط به علوم داده هستید و پیش از آنکه سمت مدیریت محصول را برعهده بگیرید، دانشمند داده بودهاید، کمی در رونمایی از محصول تامل بهخرج میدهید و از اداره پلیس میخواهید که گزارشی از میزان گسترش مصرف الکل و مواد مخدر میان رانندگان ارسال کند.
پس از بررسی گزارش متوجه میشوید که بهطور میانگین از میان هر ۱۰۰۰ راننده، ۵ نفر از آنها مصرف الکل و مواد مخدر داشتهاند. این موضوع کمی نگران کننده است، چرا که اگر پلیس با محصول فعلی شما بهصورت تصادفی از رانندگان تست بگیرد، احتمالا یک فاجعه رخ میدهد برای درک بهتر این موضوع محاسبات زیر را انجام میدهیم.
از هر ۱۰۰۰ نفر، ۵ نفر مصرف الکل و مواد مخدر داشتهاند و باتوجه به اینکه خطای منفی کاذب دستگاه صفر درصد است، تست این ۵ نفر مثبت خواهد شد.
همانطور که گفته شد، خطای مثبت کاذب این دستگاه حدود ۵ درصد است. این سخن بدین معناست که از میان ۹۹۵ نفر راننده که مصرفی نداشتهاند، بهطور حدودی تست ۵۰ نفر از آنها مثبت خواهد شد:
یعنی از میان ۵۵ تست مثبتی که در میان ۱۰۰۰ نفر اعلام شده است، تنها تست ۵ نفر به درستی اعلام شده است. این یعنی دقت این تست چیزی حدود ۹ درصد است و اگر نتیجه تست کسی مثبت شود، به احتمال بالای ۹۰ درصد مصرفی نداشته و بیگناه است!
بنابراین واضح است که استفاده رندوم از این دستگاه بهشدت پرخطا خواهد بود و به اعتبار محصول شرکت شما و اداره پلیس آسیب جدی وارد خواهد کرد. برای حل این مشکل میبایست دایره افراد را کمی محدودتر کرد. به عبارت بهتر شیوهنامهای طراحی کرد که در آن احتمال وجود فردی که مصرف نوشیدنیهای الکلی یا مواد داشته است، از خطای دستگاه بالاتر باشد. بنابراین شیوهنامهای را طراحی میکنید که درآن رفتارهایی را تعریف میکنید که اگر رانندهای تعدادی از آنها را انجام دهد به احتمال ۶۰ درصد مصرف الکل یا مواد مخدر داشته است. بدین ترتیب خروجی دستگاه اعتبار بیشتری خواهد داشت. برای اینکه از این موضوع مطمئن شویم، فرض کنید یک گروه ۱۰۰ نفره راننده که مطابق شیوهنامه مشکوک بودند، توسط پلیس متوقف شدهاند.
با توجه به اینکه احتمال مصرف داشتن در میان این افراد ۶۰ درصد است، در یک گروه ۱۰۰ نفره، حدودا ۶۰ نفر مصرف داشتهاند، بنابراین تست این ۶۰ نفر مثبت خواهد بود:
خطای کاذب دستگاه ۵ درصد است، بنابراین از میان ۴۰ نفره باقی مانده، بهطور حدودی تست ۲ نفر به اشتباه مثبت اعلام خواهد شد:
اکنون از میان ۶۲ تستی که مثبت اعلام شدهاند، تست ۶۰ نفر بهدرستی مثبت بوده است و تنها نتیجه آزمایش۲ نفر اشتباه شده است. این سخن بدین معناست که خروجی آزمایش دقتی حدود ۹۷ درصدی دارد که عدد قابل قبولی به حساب میآید.
بنابراین مشخص شد که وجود اندکی آگاهی نسبت به فضای نمونه چه تاثیر شگرفی بر خروجی میگذارد. البته این بحث آگاهی داشتن نسبت به فضای نمونه خود یک بحث طولانی است که در مقالات بعدی بهصورت متمرکز به آن خواهیم پرداخت.
جمعبندی
باتوجه به مسائلی که مورد بررسی قرار گرفت، مشخص شد که دقت اندازهگیری یک دستگاه به تنهایی نمیتواند ضامن قابل اتکا بودن خروجی باشد و فضای نمونهای که بررسی میکنیم، اهمیت چه بسا بیشتری نسبت به دقت دستگاه دارد. برای جلوگیری از وقوع پارادوکس مثبت کاذب باید شرایطی را فراهم کرد که در آن احتمال وقوع رخداد از خطای دستگاه بالاتر باشد. در مسئله «تست هوشیاری» با انجام همچین کاری، دقت خروجی بهطور شگفتانگیزی افزایش یافت.