وقتی دقت اندازه‌گیری شما را گول می‌زند

31 جولای 2021

21 زمان تقریبی مطالعه 10 دقیقه

احتمالا شما هم داستان‌هایی درباره جویندگان طلا شنیده‌اید. در اکثر این داستان‌ها افراد به کمک دستگاه‌هایی به نام طلایاب گنج‌های عظیمی می‌یابند و به اصطلاح یک شبه پولدار می‌شوند.

یکی از دوستان شما دستگاه طلایاب دارد. شما نیز تصمیم گرفته‌اید به جرگه جویندگان طلا بپیوندید و با دوست خود همراه شوید. بنابراین همراه با دوست خود به سراغ یک معدن رفته‌اید که در آن حدود ۱۰۰۰ سنگ وجود دارد و پیش‌بینی می‌کنید که ۱ درصد از این سنگ‌ها طلا باشد.

دستگاه طلایاب دوست شما هنگام شناسایی طلا بوق می‌زند و روند کار آن به شرح زیر است:

این دستگاه طلا را طلا تشخیص می‌دهد و همیشه در نزدیکی طلا بوق می‌زند.
این دستگاه در تشخیص طلا از میان سنگ‌ها ۹۰ درصد دقت دارد.

بدین ترتیب شما و دوستتان مشغول جست‌وجو در معدن می‌شوید، ناگهان دستگاه در جلوی یکی از سنگ‌ها بوق می‌زند. در صورتی که این سنگ طلا باشد، قیمت آن در بازار چیزی حدود ۱۰۰۰ دلار است. دوست شما پیشنهاد می‌دهد که ۲۵۰ دلار به او بدهید و سنگ را برای خود بردارید. پیشنهاد هیجان‌انگیزی به‌نظر می‌رسد، چرا که اگر سنگ طلا باشد، شما سه برابر سود می‌کنید. از طرفی دقت دستگاه طلایاب نیز بالا و احتمال طلا بودن سنگ زیاد است. این‌ها فکرهایی هستند که در ذهن شما می‌گذرند و در نهایت منجر به این می‌شود که ۲۵۰ دلار را به دوستتان پرداخت کنید و سنگ را برای خود بردارید.

حال بد نیست کمی از دنیای جویندگان طلا فاصله بگیریم، به جهان زیبای ریاضیات بازگردیم و مسئله را با موشکافانه‌تر بررسی کنیم:

باتوجه به اینکه حدود ۱۰۰۰ سنگ در این معدن وجود دارد و ۱ درصد آن طلا است، یعنی حدودا ۱۰ سنگ طلا در این معدن وجود دارد.
بنابراین در این معدن حدودا ۹۹۰ سنگ وجود دارد که ارزش مادی خاصی ندارد.
دقت تشخیص طلا از میان سنگ این دستگاه ۹۰ درصد است، این یعنی اگر ۹۹۰ سنگ (که مطمئنیم طلا نیستند) را جلوی این دستگاه قرار دهیم به اشتباه برای حدود ۹۹ سنگ بوق می‌زند.

با توجه به موارد ذکر شده به احتمال زیاد اگر این دستگاه را در معدن بچرخانیم، ۱۰۹ بار بوق خواهد زد، این در حالی است که تنها ۱۰ بوق واقعا طلا است. این سخن بدین معناست که تنها ۹ درصد احتمال دارد سنگی که بابت آن ۲۵۰ دلار پول داده‌ایم، طلا باشد. این یعنی معامله چندان خوبی انجام نداده‌ایم و به احتمال زیاد ۲۵۰ دلار پول بی‌زبان را بابت یک تکه سنگ بی‌ارزش هدر داده‌ایم. اگر بخواهیم جمع‌بندی تمام این صحبت‌ها را به‌صورت ریاضی نشان دهیم، خواهیم داشت:

پس از بررسی این مسئله از نگاه ریاضیات متوجه شدیم که پارامتر «دقت اندازه‌گیری» به تنهایی برای دست‌یابی به نتیجه قابل اطمینان کافی نیست و باید موارد دیگری را نیز در نظر گرفت. این بحث در علم آمار و علوم داده با نام «پارادوکس مثبت کاذب» مطرح می‌شود. این پارادوکس معمولا زمانی رخ می‌دهد که احتمال وقوع رخداد از دقت خطای ابزاری که با آن رخداد را می‌سنجیم، کمتر باشد. به‌طور مثال در مسئله «جویندگان طلا» ما با ابزاری با دقت ۹۰ درصد (خطا ۱۰ درصد) به دنبال بررسی رخدادی هستیم که احتمال وقوع آن حدود ۱ درصد است، بنابراین نتایجی بدست آمد که چندان قابل اطمینان نیست.

معرفی مجموعه مقاله «گذری بر داده‌محوری و مدیریت محصول»

امروزه داده‌محور شدن سازمان‌ها یا به اصطلاح Data Driven Organization یکی از موضوعات محبوب میان مدیران است. به‌طور کلی داده‌محوری یک سازمان کمک می‌کند تا تصمیمات و سیاست‌گذاری شرکت از فضای نظر شخصی خارج شود و امکان اندازه‌گیری و تجزیه و تحلیل آن فراهم شود. در این مسیر یک‌سری نکات و مباحثی ریاضی-آماری وجود دارد که عدم توجه به آن ممکن است باعث کج فهمی و اتخاذ تصمیمات اشتباه شود. اکثر این اتفاقات زمانی رخ می‌دهند که افراد بدون درک روابط علت و معلولی که سبب تشکیل اطلاعات شده است، تنها با اتکا بر یک عدد تصمیم می‌گیرند. در این مجموعه مقالات هربار به سراغ یکی از مباحث آمار-احتمال می‌رویم و در یک‌سری مفاهیم عمیق‌تر می‌شویم.

آشنایی با اصطلاحات

پیش از آنکه به سراغ بررسی مسائل مرتبط با پارادوکس مثبت کاذب بپردازیم، بهتر است با چند اصطلاح کاربردی در حوزه علم آمار آشنا شویم. برای آنکه انتقال مفهوم راحت‌تر شود، فرض کنید که یک تست کرونا از شما گرفته شده است. نتیجه این تست چهار حالت دارد:

مثبت صحیح (True Positive): شما به ویروس کرونا واقعا مبتلا شده‌اید و نتیجه‌ تست نیز مثبت است.
مثبت کاذب (False Positive): شما به ویروس کرونا مبتلا نشده‌اید، اما نتیجه‌ تست مثبت است.
منفی صحیح (True Negative): شما به ویروس کرونا مبتلا نشده‌اید و نتیجه‌ تست نیز منفی است.
منفی کاذب (False Negative): شما به ویروس کرونا مبتلا شده‌اید، اما نتیجه‌‌ تست منفی است.

لازم به ذکر است که در اینجا تست کرونا و به‌طور کلی تست پزشکی به‌عنوان مثال بیان شده است و این ۴ حالت به هر رخدادی که در آن احتمالی برای وقوع خطا وجود دارد، قابل تعمیم است. در مسئله جویندگان طلا درصد خطای مثبت کاذب دستگاه، یعنی حالتی که سنگ طلا نباشد، اما دستگاه بوق بزند ۱۰ درصد بود و درصد خطای منفی کاذب دستگاه، یعنی حالتی که سنگ طلا باشد اما دستگاه بوق نزند، صفر درصد بود. در ادامه این مقاله چند مسئله دیگر از بحث «پارادوکس مثبت کاذب» را مورد برررسی قرار می‌دهیم.

ویروس ناشناخته

یک ویروس ناشناخته در شهری با جمعیت حدود ۱۰,۰۰۰ نفر شیوع یافته است و نزدیک به ۴۰ درصد از افراد را درگیر کرده است. شما به‌عنوان مدیرمحصول روی توسعه کیت شناسایی این ویروس کار می‌کنید، تا هرچه سریع‌تر افراد مبتلا را از افراد سالم جدا کرد. کیت شناسایی شما حدودا ۵ درصد خطای مثبت کاذب و ۰ درصد خطای منفی کاذب دارد. اکنون این کیت جهت شناسایی افراد مبتلا در شهر مورد استفاده قرار گرفته و پیش‌بینی شما از نتایج به شرح زیر است:

تعداد افراد تخمینی که به بیماری مبتلا شده‌اند:
تعداد نتایجی آزمایشی که به اشتباه مثبت اعلام می‌شود:

همان‌طور که اشاره شد، درصد خطای منفی کاذب این کیت ۰ درصد است، یعنی اگر کسی به بیماری مبتلا شده باشد، حتما شناسایی می‌شود. اکنون مشخص شد که نتیجه‌ تست حدود ۳۰۰ نفر به اشتباه مثبت اعلام شده است. در نهایت می‌توان گفت در آزمایش انجام شده نتیجه‌ آزمایش ۴۳۰۰ نفر مثبت اعلام شده است، که در این میان ۴۰۰۰ نفر از این افراد واقعا به بیماری مبتلا شده‌اند. بنابراین دقت اندازه‌گیری این کیت چیزی حدود ۹۳ درصد است که عدد قابل قبولی است و می‌توان به آن اطمینان کرد.

اما این مسئله اینجا به پایان نمی‌رسد! اکنون پس از موفقیت‌آمیز بودن نتایج کیت شناسایی شرکت شما، این کیت برای شناسایی ویروس در شهرهای دیگر نیز مورد استفاده قرار گرفته است. در یکی از این شهرها جمعیت افراد حدود ۱۰۰۰ نفر است و نزدیک به ۲ درصد از افراد این شهر کوچیک درگیر این ویروس شده‌اند. برای شناسایی افراد مبتلا شده از کیت شناسایی استفاده کردند، اما نتایج نامطلوبی بدست آمد. اکثریت افرادی که نتیجه‌ تست‌شان مثبت شده بود، کوچکترین نشانه‌ای از ابتلا به ویروس نداشتند و همین امر اعتبار و کیفیت کیت طراحی شده توسط شرکت شما را زیر سوال برده است. با کمی حساب و کتاب می‌توانیم به نتایج زیر برسیم:

تعداد افراد تخمینی که به این بیماری مبتلا شده‌اند:
تعداد نتایجی آزمایشی که به اشتباه مثبت اعلام می‌شود:

کاملا مشخص است که نتایج تست معتبر نیست. در حالی که تنها ۲۰ نفر در واقعیت به این ویروس مبتلا شده‌اند، کیت شناسایی نتیجه تست ۶۹ نفر را مثبت اعلام کرد، یعنی دقت این کیت حدود ۲۹ درصد است که برای یک تست پزشکی عدد بسیار پایینی به حساب می‌آید:

به بیان بهتر می‌توان گفت که اگر نتیجه‌ تست فردی در این آزمایش مثبت اعلام شود، به احتمال بیشتر از ۷۰ درصد به بیماری مبتلا نشده است! در اینجا نیز با پارادوکس مثبت کاذب روبه‌رو هستیم. همان‌طور که گفته شد، در شرایطی که احتمال وقوع یک رخداد از درصد خطای ابزاری که آن رخداد را می‌سنجیم کمتر باشد، نتایج بدست آمده دارای اعتبار نیست. در اینجا درصد خطای مثبت کاذب کیت شناسایی حدود ۵ درصد است، در حالی که احتمال وقوع رخداد(ابتلا به بیماری) در شهر کوچک حدود ۲ درصد است. بنابراین نتایج بدست آمده اعتبار چندانی ندارد. اکنون شما به‌عنوان مدیرمحصول برای آن‌که از وقوع اتفاقات این چنینی و آسیب خوردن به اعتبار شرکت خود جلوگیری کنید، برای کیت شناسایی یک شیوه‌نامه و بازه‌ اطمینان تعریف می‌کنید تا دقیقا مشخص شود که نتایج این کیت در چه حدودهایی قابل اتکا است.

آژیر خطر

در یکی از مراکز تجاری مهم شهری با جمعیت ۱ میلیون نفر، یک دوربین و آژیر ضدتروریست نصب شده است. این آژیر خطر یک درصد خطای مثبت کاذب و یک درصد خطای منفی کاذب دارد. به عبارت بهتر می‌توان گفت:

منفی کاذب: اگر دوربین مداربسته تروریستی را شناسایی کند، به احتمال ۹۹ درصد زنگ آژیر خطر به صدا در می‌آید.
مثبت کاذب: در مواردی که افراد عادی از مقابل دوربین رد می‌شوند، زنگ آژیر خطر به احتمال ۹۹ درصد به صدا در نمی‌آید، اما ۱ درصد احتمال به صدا در آمدن زنگ آژیر وجود دارد.

اکنون این سوال مطرح می‌شود که اگر روزی زنگ آژیر خطر به صدا در بیاید، چند درصد احتمال دارد که فرد تروریستی در داخل مجتمع وجود داشته باشد؟ با توجه به اینکه خطای مثبت کاذب و منفی کاذب این دوربین تنها ۱ درصد است و این دوربین از دقتی ۹۹ درصدی برخوردار است، احتمالا پاسخ اکثریت به این سوال این است، که اگر زنگ آژیر خطر به صدا در بیاید به احتمال ۹۹ درصد یک تروریست در مجتمع وجود دارد. اما برخورد با مسائل آمار-احتمال به این سادگی نیست!

فرض می‌کنیم که در شهری با حدود ۱ میلیون نفر جمعیت نزدیک به ۵۰۰ تروریست وجود داشته باشد. این فرض کاملا معقول است و با داده‌های آماری-جمعیتی سازگاری دارد. اکنون به صورت سوال باز می‌گردیم، که اگر آژیر خطر به صدا درآید چند درصد احتمال دارد تروریستی داخل مجتمع باشد. برای بدست آوردن این درصد محاسبات زیر را انجام می‌دهیم.

۵۰۰ تروریست در شهر وجود دارد، که اگر همگی از جلوی دوربین رد شوند، با توجه به دقت ۹۹ درصدی دوربین شناسایی، آژیر خطر ۴۹۵ به صدا در می‌آید:

۹۹۹۵۰۰ نفر مردم عادی هستند (کل جمعیت شهر منهای افراد تروریست) اگر همگی این افراد از جلوی دوربین رد شوند، با توجه به خطای ۱ درصدی دوربین شناسایی، آژیر خطر ۹۹۹۵ به صدا در می‌آید:

بنابراین اگر تمام جمعیت شهر از جلوی این دوربین رد شوند آژیر خطر ۱۰۴۹۰ به صدا در می‌آید. این در حالی است که تنها در ۴۹۵ موارد آژیر خطر به درستی به صدا درآمده است. اکنون به‌راحتی می‌توان محاسبه کرد که اگر آژیر خطر به‌ صدا درآمد چند درصد احتمال دارد که یک تروریست داخل مجموعه باشد:

این محاسبات بدین معناست که اگر آژیر خطر به صدا در بیاید، به احتمال بیش از ۹۵ درصد اشتباه بوده است و تروریستی داخل مجموعه وجود ندارد. نتیجه‌ بدست آمده با تصور ابتدایی ما تفاوت فاحشی دارد. اکثریت افراد هنگامی که از دقت ۹۹ درصدی دوربین مطلع می‌شوند، تحت تاثیر این دقت استثنایی قرار می‌گیرند و گمان می‌کنند که غالب خروجی‌های این دستگاه صحیح خواهد بود، اما بار دیگر به ما ثابت شد که دقت‌ اندازه‌گیری به تنهایی کافی نیست.

در این مسئله احتمال حضور یک تروریست در میان مردم شهر نزدیک به ۰.۰۵ درصد است. این در حالی است که خطای این دستگاه حدود ۱ درصد است. بنابراین در این مسئله بار دیگر با پارادوکس مثبت کاذب روبه‌رو هستیم که باعث ایجاد یک خروجی ناکارآمد شده است.

تست هوشیاری

مدیریت محصول یک دستگاه هوشیاری‌سنج به شما سپرده شده است. این دستگاه قرار است توسط پلیس در جهت شناسایی رانندگانی که نوشیدنی‌های الکلی یا مواد مخدر مصرف کرده‌اند، مورد استفاده قرار بگیرد. محصولی که توسط تیم شما توسعه داده شده است، مشخصات زیر را دارد:

خطای منفی کاذب این دستگاه صفر درصد است، یعنی این محصول تست تمام افرادی را که مصرف الکل یا مواد مخدر داشته‌اند را به‌درستی مثبت اعلام می‌کند.
خطای مثبت کاذب این دستگاه حدود ۵ درصد است، یعنی این محصول در ۹۵ درصد مواقع تست افرادی را که مصرفی نداشته‌اند به درستی منفی اعلام می‌کند و در ۵ درصد مواقع به اشتباه تست این افراد را مثبت اعلام می‌کند.

از آن‌جایی که شما مسلط به علوم داده هستید و پیش از آن‌که سمت مدیریت محصول را برعهده بگیرید، دانشمند داده بوده‌اید، کمی در رونمایی از محصول تامل به‌خرج می‌دهید و از اداره‌ پلیس می‌خواهید که گزارشی از میزان گسترش مصرف الکل و مواد مخدر میان رانندگان ارسال کند.

پس از بررسی گزارش متوجه می‌شوید که به‌طور میانگین از میان هر ۱۰۰۰ راننده، ۵ نفر از آن‌ها مصرف الکل و مواد مخدر داشته‌اند. این موضوع کمی نگران کننده است، چرا که اگر پلیس با محصول فعلی شما به‌صورت تصادفی از رانندگان تست بگیرد، احتمالا یک فاجعه رخ می‌دهد برای درک بهتر این موضوع محاسبات زیر را انجام می‌دهیم.

از هر ۱۰۰۰ نفر، ۵ نفر مصرف الکل و مواد مخدر داشته‌اند و باتوجه به اینکه خطای منفی کاذب دستگاه صفر درصد است، تست این ۵ نفر مثبت خواهد شد.

همان‌طور که گفته شد، خطای مثبت کاذب این دستگاه حدود ۵ درصد است. این سخن بدین معناست که از میان ۹۹۵ نفر راننده که مصرفی نداشته‌اند، به‌طور حدودی تست ۵۰ نفر از آن‌ها مثبت خواهد شد:

یعنی از میان ۵۵ تست مثبتی که در میان ۱۰۰۰ نفر اعلام شده است، تنها تست ۵ نفر به درستی اعلام شده است. این یعنی دقت این تست چیزی حدود ۹ درصد است و اگر نتیجه‌ تست کسی مثبت شود، به احتمال بالای ۹۰ درصد مصرفی نداشته و بی‌گناه است!

بنابراین واضح است که استفاده رندوم از این دستگاه به‌شدت پرخطا خواهد بود و به اعتبار محصول شرکت شما و اداره پلیس آسیب جدی وارد خواهد کرد. برای حل این مشکل می‌بایست دایره‌ افراد را کمی محدودتر کرد. به عبارت بهتر شیوه‌نامه‌ای طراحی کرد که در آن احتمال وجود فردی که مصرف نوشیدنی‌های الکلی یا مواد داشته است، از خطای دستگاه بالاتر باشد. بنابراین شیوه‌نامه‌ای را طراحی می‌کنید که درآن رفتارهایی را تعریف می‌کنید که اگر راننده‌ای تعدادی از آن‌ها را انجام دهد به احتمال ۶۰ درصد مصرف الکل یا مواد مخدر داشته است. بدین ترتیب خروجی دستگاه اعتبار بیشتری خواهد داشت. برای اینکه از این موضوع مطمئن شویم، فرض کنید یک گروه ۱۰۰ نفره راننده که مطابق شیوه‌نامه مشکوک بودند، توسط پلیس متوقف شده‌اند.

با توجه به اینکه احتمال مصرف داشتن در میان این افراد ۶۰ درصد است، در یک گروه ۱۰۰ نفره، حدودا ۶۰ نفر مصرف داشته‌اند، بنابراین تست این ۶۰ نفر مثبت خواهد بود:

خطای کاذب دستگاه ۵ درصد است، بنابراین از میان ۴۰ نفره باقی‌ مانده، به‌طور حدودی تست ۲ نفر به اشتباه مثبت اعلام خواهد شد:

اکنون از میان ۶۲ تستی که مثبت اعلام شده‌اند، تست ۶۰ نفر به‌درستی مثبت بوده است و تنها نتیجه‌ آزمایش۲ نفر اشتباه شده است. این سخن بدین معناست که خروجی آزمایش دقتی حدود ۹۷ درصدی دارد که عدد قابل قبولی به حساب می‌آید.

بنابراین مشخص شد که وجود اندکی آگاهی نسبت به فضای نمونه چه تاثیر شگرفی بر خروجی می‌گذارد. البته این بحث آگاهی داشتن نسبت به فضای نمونه خود یک بحث طولانی است که در مقالات بعدی به‌صورت متمرکز به آن خواهیم پرداخت.

جمع‌بندی

باتوجه به مسائلی که مورد بررسی قرار گرفت، مشخص شد که دقت اندازه‌گیری یک دستگاه به‌ تنهایی نمی‌تواند ضامن قابل اتکا بودن خروجی باشد و فضای نمونه‌ای که بررسی می‌کنیم، اهمیت چه بسا بیشتری نسبت به دقت دستگاه دارد. برای جلوگیری از وقوع پارادوکس مثبت کاذب باید شرایطی را فراهم کرد که در آن احتمال وقوع رخداد از خطای دستگاه بالاتر باشد. در مسئله «تست هوشیاری» با انجام همچین کاری، دقت خروجی به‌طور شگفت‌انگیزی افزایش یافت.

31 جولای 2021

21 زمان تقریبی مطالعه 10 دقیقه