سرور مجازی
فناوری

شعر؛ ابزار تازه برای دور زدن محدودیت‌های چت‌بات‌های هوش مصنوعی

شعر؛ ابزار تازه برای دور زدن محدودیت‌های چت‌بات‌های هوش مصنوعی

یک پژوهش جدید نشان می‌دهد که می‌توان با بهره‌گیری از شعر، سامانه‌های چت‌بات مبتنی بر هوش مصنوعی را فریب داد و آن‌ها را به نادیده گرفتن محدودیت‌ها و ارائه محتوای ممنوعه وادار کرد.

به گزارش دیتاسنتر من و به نقل از Engadget، در این تحقیق که توسط آزمایشگاه «ایکارو» منتشر شده و عنوان آن «شعر خصمانه به عنوان سازوکار جهانی فرار از زندان در مدل‌های زبانی بزرگ» است، پژوهشگران نشان داده‌اند که بیان درخواست‌ها در قالب ساختاری شاعرانه می‌تواند باعث دور زدن بخشی از مکانیسم‌های ایمنی LLMها شود.

براساس نتایج این مطالعه، «ساختار شاعرانه نقش یک ابزار عمومی برای فرار از محدودیت‌ها را ایفا می‌کند». بررسی‌ها نشان می‌دهد که این روش با نرخ موفقیت کلی ۶۲ درصد قادر به تولید محتوای ممنوعه بوده؛ محتوایی که شامل دستورالعمل‌های مرتبط با ساخت سلاح‌های هسته‌ای، موارد مرتبط با سوءاستفاده جنسی از کودکان و همچنین مطالب مربوط به خودکشی و خودآزاری است.

در این تحقیق، مجموعه‌ای از مدل‌های زبانی بزرگ پرکاربرد از جمله GPT شرکت OpenAI، جمینای گوگل، کلود محصول شرکت Anthropic و چندین مدل دیگر مورد ارزیابی قرار گرفته‌اند. یافته‌ها حاکی از آن است که مدل‌هایی مانند Google Gemini، DeepSeek و MistralAI بیشتر از سایرین در برابر این روش آسیب‌پذیر بوده‌اند و پاسخ‌های ممنوعه ارائه کرده‌اند؛ در مقابل، GPT-5 OpenAI و Claude Haiku 4.5 Anthropic کمترین میزان تخطی از محدودیت‌های ایمنی را نشان داده‌اند.

پژوهش منتشرشده، اشعار دقیق مورد استفاده برای فرار از محدودیت‌ها را منتشر نکرده است. تیم تحقیقاتی در گفت‌وگو با Wired تأکید کرده که انتشار این نمونه‌ها «برای عموم بیش از حد خطرناک» خواهد بود. اما نسخه‌ای محدود از این روش در گزارش ارائه شده تا نشان دهد دور زدن سیستم‌های ایمنی چت‌بات‌های هوش مصنوعی تا چه اندازه می‌تواند ساده باشد؛ موضوعی که پژوهشگران می‌گویند «احتمالاً بسیار ساده‌تر از آن چیزی است که تصور می‌شود و دقیقاً به همین دلیل، برخورد محتاطانه با آن ضروری است.»

مجله خبری mydtc

نمایش بیشتر

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا