هاست پرسرعت
فناوری

قدرت بیشتر، دقت کمتر؟ چالش تازه مدل‌های o3 و o4-mini

قدرت بیشتر، دقت کمتر؟ چالش تازه مدل‌های o3 و o4-mini

OpenAI اخیراً مدل‌های جدیدی از سری o3 و o4-mini را معرفی کرده که در زمینه استدلال، ریاضیات و کدنویسی عملکرد قابل توجهی دارند. با این حال، آزمایش‌های داخلی نشان می‌دهد که این مدل‌ها نسبت به نسخه‌های قبلی بیشتر دچار «توهم» می‌شوند؛ یعنی اطلاعات نادرست تولید می‌کنند.

به گزارش gsxr و به نقل از تک‌کرانچ، در گذشته، هر نسل جدید از مدل‌های هوش مصنوعی معمولاً بهبودهایی در کاهش توهم داشت. اما در مدل‌های جدید OpenAI نه‌تنها این روند متوقف شده، بلکه وضعیت بدتر نیز شده است. برای مثال، مدل o3 در آزمون PersonQA، که دقت اطلاعات درباره افراد را می‌سنجد، در ۳۳٪ موارد پاسخ نادرست داده است؛ در حالی که مدل‌های o1 و o3-mini به ترتیب ۱۶٪ و ۱۴/۸٪ توهم داشتند. مدل o4-mini حتی عملکرد بدتری داشته و در ۴۸٪ موارد دچار خطا شده است.

OpenAI اذعان کرده که علت این افزایش هنوز مشخص نیست و نیاز به تحقیقات بیشتر دارد. تئوری این است که روش یادگیری تقویتی خاص در این مدل‌ها ممکن است مشکلاتی را تقویت کند که قبلاً با مراحل پایانی آموزش تا حدی کنترل می‌شدند.
 

قدرت بیشتر، دقت کمتر؟ چالش تازه مدل‌های o3 و o4-mini
آزمایش‌های مستقل نیز این نتایج را تأیید می‌کنند. موسسه Transluce نشان داده که مدل o3 گاهی اقداماتی را ادعا می‌کند که اصلاً قادر به انجام آنها نیست، مانند اجرای کد روی لپ‌تاپ فیزیکی. همچنین، مدل در برخی موارد لینک‌هایی ارائه می‌دهد که وجود خارجی ندارند.

اگرچه برخی ویژگی‌های این مدل‌ها برای شرکت‌ها جذاب است، اما میزان بالای توهم، استفاده آنها را در حوزه‌هایی که به دقت بالا نیاز دارند — مانند حقوق یا سلامت — با مشکل روبه‌رو می‌کند. یکی از راه‌حل‌های پیشنهادی، افزودن توانایی جست‌وجو در وب است که می‌تواند به کاهش توهم کمک کند.

با تمرکز روزافزون صنعت هوش مصنوعی بر مدل‌های استدلالی، حل مشکل توهم به یک اولویت اساسی تبدیل شده است.

نمایش بیشتر
دانلود نرم افزار

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا