شعر؛ ابزار تازه برای دور زدن محدودیتهای چتباتهای هوش مصنوعی

شعر؛ ابزار تازه برای دور زدن محدودیتهای چتباتهای هوش مصنوعی
به گزارش gsxr و به نقل از Engadget، در این تحقیق که توسط آزمایشگاه «ایکارو» منتشر شده و عنوان آن «شعر خصمانه به عنوان سازوکار جهانی فرار از زندان در مدلهای زبانی بزرگ» است، پژوهشگران نشان دادهاند که بیان درخواستها در قالب ساختاری شاعرانه میتواند باعث دور زدن بخشی از مکانیسمهای ایمنی LLMها شود.
براساس نتایج این مطالعه، «ساختار شاعرانه نقش یک ابزار عمومی برای فرار از محدودیتها را ایفا میکند». بررسیها نشان میدهد که این روش با نرخ موفقیت کلی ۶۲ درصد قادر به تولید محتوای ممنوعه بوده؛ محتوایی که شامل دستورالعملهای مرتبط با ساخت سلاحهای هستهای، موارد مرتبط با سوءاستفاده جنسی از کودکان و همچنین مطالب مربوط به خودکشی و خودآزاری است.
در این تحقیق، مجموعهای از مدلهای زبانی بزرگ پرکاربرد از جمله GPT شرکت OpenAI، جمینای گوگل، کلود محصول شرکت Anthropic و چندین مدل دیگر مورد ارزیابی قرار گرفتهاند. یافتهها حاکی از آن است که مدلهایی مانند Google Gemini، DeepSeek و MistralAI بیشتر از سایرین در برابر این روش آسیبپذیر بودهاند و پاسخهای ممنوعه ارائه کردهاند؛ در مقابل، GPT-5 OpenAI و Claude Haiku 4.5 Anthropic کمترین میزان تخطی از محدودیتهای ایمنی را نشان دادهاند.
پژوهش منتشرشده، اشعار دقیق مورد استفاده برای فرار از محدودیتها را منتشر نکرده است. تیم تحقیقاتی در گفتوگو با Wired تأکید کرده که انتشار این نمونهها «برای عموم بیش از حد خطرناک» خواهد بود. اما نسخهای محدود از این روش در گزارش ارائه شده تا نشان دهد دور زدن سیستمهای ایمنی چتباتهای هوش مصنوعی تا چه اندازه میتواند ساده باشد؛ موضوعی که پژوهشگران میگویند «احتمالاً بسیار سادهتر از آن چیزی است که تصور میشود و دقیقاً به همین دلیل، برخورد محتاطانه با آن ضروری است.»





