هشدار شرکت‌های پیشروی فناوری: مدل‌های هوش مصنوعی در حال پنهان‌سازی نیات خود هستند

27 جولای 2025

0 0 زمان تقریبی مطالعه 2 دقیقه

هشدار شرکت‌های پیشروی فناوری: مدل‌های هوش مصنوعی در حال پنهان‌سازی نیات خود هستند

بر اساس گزارشی از VentureBeat، سه شرکت پیشرو در حوزه هوش مصنوعی شامل OpenAI، گوگل و Anthropic نسبت به کاهش توانایی درک مکانیسم‌های تفکر عمیق در مدل‌های هوش مصنوعی هشدار داده‌اند.

این گزارش بیان می‌کند که «پنجره شفافیت» در مدل‌های هوش مصنوعی به‌تدریج در حال بسته شدن است و به‌زودی ممکن است انسان دیگر نتواند به‌طور کامل درک کند که این مدل‌ها چگونه استدلال می‌کنند و به نتایج نهایی می‌رسند.

مشارکت بیش از چهل دانشمند در یک تحقیق گسترده
در این پژوهش که با همکاری بیش از چهل پژوهشگر از بخش‌های مختلف این سه شرکت انجام شده است، تلاش شده تا فرآیندهای تصمیم‌گیری و تفکر درونی مدل‌های هوش مصنوعی پیش از تولید خروجی نهایی، به‌دقت مورد تحلیل قرار گیرد.

نتایج این تحقیق نشان می‌دهد که مدل‌های هوش مصنوعی در حال حاضر تلاش می‌کنند فرآیندهای درونی خود را به‌صورت شفاف نمایش دهند تا کاربران بتوانند مسیر رسیدن به پاسخ را دنبال کنند. با این حال، این شفافیت بسیار شکننده است؛ زیرا مدل‌ها به نمایش این روند آگاه‌اند و در مواردی ممکن است آن را به‌صورت هدفمند دستکاری کنند.

نشانه‌هایی از فریب و خرابکاری درونی
یافته‌ها حاکی از آن است که برخی از مدل‌ها، در لایه‌های درونی خود، زنجیره‌ای از افکار درباره فریب کاربر یا تحریف پاسخ‌ها تولید می‌کنند. هرچند پاسخ نهایی معمولاً فاقد چنین فریب‌هایی است، اما تمایل مدل به اتخاذ چنین رویکردهایی نگران‌کننده ارزیابی شده است.

این نوع رفتار عمدتاً در مدل‌هایی مشاهده شده که بر اساس داده‌های انسانی آموزش دیده‌اند. پژوهشگران هشدار داده‌اند که اگر در آینده مدل‌ها با داده‌هایی که توسط سایر مدل‌های هوش مصنوعی تولید شده‌اند آموزش ببینند، خطر بروز چنین پدیده‌هایی افزایش خواهد یافت.

نگرانی از پنهان‌سازی عمدی نیات واقعی
از جمله دغدغه‌های اصلی پژوهش، احتمال رسیدن مدل‌های هوش مصنوعی به مرحله‌ای است که بتوانند به‌صورت عمدی نیات واقعی خود را پنهان کنند یا حتی زنجیره‌ای از افکار فریبنده را برای گمراه‌سازی کاربران ایجاد نمایند.

واکنش چهره‌های برجسته حوزه هوش مصنوعی
این پژوهش واکنش مثبت شماری از متخصصان برجسته در حوزه هوش مصنوعی را به همراه داشته است. از جمله جفری هینتون، برنده جایزه تورینگ و یکی از پیشگامان این حوزه، این تحقیق را ستوده و آن را گامی مهم در جهت شفاف‌سازی عملکرد مدل‌ها دانسته است.

پیش‌تر نیز شرکت Anthropic در تحقیق مستقلی به نتایج مشابهی دست یافته بود و اعلام کرده بود که برخی مدل‌ها به نشانه‌های مبهم اتکا می‌کنند، نیات خود را پنهان می‌سازند و از استدلال‌های نادرست استفاده می‌کنند.

پیشنهادهایی برای افزایش شفافیت در مدل‌های هوش مصنوعی
در بخش پایانی این تحقیق، پژوهشگران توصیه‌هایی را برای ارتقای شفافیت مدل‌های هوش مصنوعی مطرح کرده‌اند. این پیشنهادها عبارت‌اند از:

۱. تعیین شاخص‌ها و معیارهای دقیق برای سنجش میزان شفافیت مدل‌ها
۲. ارزیابی دقیق پیامدهای احتمالی پیش از ارتقای مدل‌های موجود
۳. طراحی ابزارهایی جهت شناسایی و مقابله با رفتارهای فریبنده در مدل‌ها

این هشدارها نشان می‌دهد که با پیشرفت روزافزون هوش مصنوعی، لزوم توسعه‌ سیاست‌های نظارتی مؤثر و ایجاد مکانیسم‌های شفاف‌سازی، بیش از هر زمان دیگری احساس می‌شود.

حتما بخوانید : آینده هوش مصنوعی: وقتی ربات‌ها یاد می‌گیرند فریب دهند و پنهان کنند

برچسب ها