دو روش جدید، سدهای ایمنی هوش مصنوعی را در هم شکستند

29 آوریل 2025

0 زمان مطالعه یک دقیقه

دو روش جدید، سدهای ایمنی هوش مصنوعی را در هم شکستند

دو روش جدید برای دور زدن محدودیت‌های ایمنی مدل‌های زبانی بزرگ (LLM) کشف شده که تهدیدی سیستماتیک برای پرکاربردترین پلتفرم‌های هوش مصنوعی مانند ChatGPT، جمینای، کوپایلوت، کلاود، DeepSeek، گراک، MetaAI و MistralAI ایجاد کرده است.

به گزارش دیتاسنتر من و به نقل از سایبرسیکیوریتی‌نیوز، روش نخست به نام Inception، با استفاده از سناریوهای خیالی تو در تو، مرزهای اخلاقی مدل را تضعیف کرده و آن را به تولید محتوای ممنوعه هدایت می‌کند. روش دوم، مدل را وادار می‌کند تا توضیح دهد چگونه نباید پاسخ دهد، تا از این اطلاعات برای هدایت مدل موردنظر به سمت تولید محتوای غیرمجاز استفاده می‌کند. هر دو روش به دلیل توانایی مدل‌های زبانی در حفظ زمینه (context) و تمایل به کمک‌رسانی، موفق می‌شوند سیستم‌های فیلترینگ را دور بزنند.

این آسیب‌پذیری‌ها امکان تولید محتواهای خطرناک مانند دستورالعمل‌های ساخت سلاح، بدافزارها، فیشینگ و سایر فعالیت‌های غیرقانونی را فراهم می‌کند. هرچند شدت هر مورد ممکن است کم به نظر برسد، اما به دلیل ابعاد سیستماتیک تهدید، خطر آن بسیار بالا ارزیابی می‌شود و می‌تواند زمینه‌ساز سوءاستفاده‌های گسترده شود.

با توجه به وابستگی روزافزون صنایع به هوش مصنوعی، از خدمات مشتریان گرفته تا سلامت و امور مالی، پیامدهای یک حمله موفق می‌تواند بسیار مخرب باشد. واکنش اولیه برخی شرکت‌ها، مانند دیپ‌سیک، شامل تایید وجود مشکل و تاکید بر بهبود مستمر تدابیر امنیتی بوده است. سایر شرکت‌ها هنوز موضع رسمی خود را اعلام نکرده‌اند.

کارشناسان هشدار می‌دهند که تکنیک‌های جدیدی چون «تزریق شخصیت» و فرار از یادگیری ماشین خصمانه در حال پیچیده‌تر کردن فضای امنیتی هستند. در نهایت، کشف این روش‌ها بر لزوم توسعه راهکارهای دفاعی پویا و مقاوم‌تر در برابر حملات تاکید دارد، چراکه رقابت میان توسعه‌دهندگان و مهاجمان در حوزه هوش مصنوعی روزبه‌روز شدیدتر می‌شود.