EleutherAI مجموعه عظیم داده‌های آموزش هوش مصنوعی با متون مجاز و عمومی را منتشر کرد!

8 ژوئن 2025

0 0 زمان تقریبی مطالعه 2 دقیقه

EleutherAI مجموعه عظیم داده‌های آموزش هوش مصنوعی با متون مجاز و عمومی را منتشر کرد!

سازمان پژوهشی هوش مصنوعی، EleutherAI، مجموعه‌ای عظیم از متون دارای مجوز و متن‌های عمومی را با نام Common Pile v0.1 منتشر کرده است که یکی از بزرگ‌ترین دیتاست‌های آموزش مدل‌های هوش مصنوعی به شمار می‌رود. این مجموعه که طی دو سال با همکاری استارتاپ‌هایی مانند Poolside و Hugging Face و چندین مؤسسه دانشگاهی آماده شده، حجمی برابر با ۸ ترابایت دارد و برای آموزش دو مدل جدید هوش مصنوعی به نام‌های Comma v0.1-1T و Comma v0.1-2T استفاده شده است.

به گزارش gsxr و به نقل از تک‌کرانچ، EleutherAI ادعا می‌کند این مدل‌ها عملکردی مشابه مدل‌هایی دارند که با داده‌های بدون مجوز و دارای حق نشر آموزش دیده‌اند.

در حالی که شرکت‌های هوش مصنوعی از جمله OpenAI با پرونده‌های حقوقی درباره استفاده از داده‌های دارای حق نشر برای آموزش مدل‌ها روبرو هستند، EleutherAI معتقد است این شکایات باعث کاهش شفافیت در صنعت هوش مصنوعی شده و به تحقیقات آسیب زده است. استلا بیدرمن، مدیر اجرایی EleutherAI، در پستی در بلاگ Hugging Face نوشت که این شکایات «تغییر قابل توجهی در شیوه‌های گردآوری داده‌ها ایجاد نکرده اما شفافیت شرکت‌ها را به شدت کاهش داده است.»

Common Pile v0.1 که با مشورت حقوقی تهیه شده، شامل منابعی مانند ۳۰۰ هزار کتاب عمومی دیجیتالی شده توسط کتابخانه کنگره آمریکا و آرشیو اینترنت است و همچنین از مدل متن‌خوان Whisper متعلق به OpenAI برای تبدیل محتوای صوتی به متن بهره برده است.

EleutherAI معتقد است مدل‌های Comma که تنها روی بخشی از این مجموعه عظیم آموزش دیده‌اند، توان رقابت با مدل‌های پیشرفته‌ای مانند اولین مدل Llama متا را دارند و در زمینه‌هایی مانند برنامه‌نویسی، درک تصویر و ریاضیات عملکرد قابل توجهی نشان داده‌اند. بیدرمن در بلاگ خود نوشت: «این تصور که تنها متن‌های بدون مجوز باعث بهبود عملکرد مدل‌ها می‌شوند، نادرست است و با افزایش داده‌های مجاز و عمومی، کیفیت مدل‌های آموزش دیده روی این داده‌ها نیز بهتر خواهد شد.»

این اقدام EleutherAI بخشی از تلاش‌های این سازمان برای اصلاح اشتباهات گذشته است؛ چرا که پیش‌تر مجموعه داده‌ای به نام The Pile منتشر کرده بود که شامل محتوای دارای حق نشر بود و موجب انتقادات و فشارهای حقوقی شده بود. EleutherAI قصد دارد در آینده نیز با همکاری شرکای تحقیقاتی و زیرساختی خود، مجموعه داده‌های باز بیشتری منتشر کند و مسیر شفاف‌سازی و توسعه هوش مصنوعی را ادامه دهد.

حتما بخوانید : گوگل عرضه قابلیت هوش مصنوعی «Ask Photos» را به‌دلیل مشکلات کیفیت و سرعت متوقف کرد

برچسب ها