سازمان پژوهشی هوش مصنوعی، EleutherAI، مجموعهای عظیم از متون دارای مجوز و متنهای عمومی را با نام Common Pile v0.1 منتشر کرده است که یکی از بزرگترین دیتاستهای آموزش مدلهای هوش مصنوعی به شمار میرود. این مجموعه که طی دو سال با همکاری استارتاپهایی مانند Poolside و Hugging Face و چندین مؤسسه دانشگاهی آماده شده، حجمی برابر با ۸ ترابایت دارد و برای آموزش دو مدل جدید هوش مصنوعی به نامهای Comma v0.1-1T و Comma v0.1-2T استفاده شده است.
به گزارش gsxr و به نقل از تککرانچ، EleutherAI ادعا میکند این مدلها عملکردی مشابه مدلهایی دارند که با دادههای بدون مجوز و دارای حق نشر آموزش دیدهاند.
در حالی که شرکتهای هوش مصنوعی از جمله OpenAI با پروندههای حقوقی درباره استفاده از دادههای دارای حق نشر برای آموزش مدلها روبرو هستند، EleutherAI معتقد است این شکایات باعث کاهش شفافیت در صنعت هوش مصنوعی شده و به تحقیقات آسیب زده است. استلا بیدرمن، مدیر اجرایی EleutherAI، در پستی در بلاگ Hugging Face نوشت که این شکایات «تغییر قابل توجهی در شیوههای گردآوری دادهها ایجاد نکرده اما شفافیت شرکتها را به شدت کاهش داده است.»
Common Pile v0.1 که با مشورت حقوقی تهیه شده، شامل منابعی مانند ۳۰۰ هزار کتاب عمومی دیجیتالی شده توسط کتابخانه کنگره آمریکا و آرشیو اینترنت است و همچنین از مدل متنخوان Whisper متعلق به OpenAI برای تبدیل محتوای صوتی به متن بهره برده است.

EleutherAI معتقد است مدلهای Comma که تنها روی بخشی از این مجموعه عظیم آموزش دیدهاند، توان رقابت با مدلهای پیشرفتهای مانند اولین مدل Llama متا را دارند و در زمینههایی مانند برنامهنویسی، درک تصویر و ریاضیات عملکرد قابل توجهی نشان دادهاند. بیدرمن در بلاگ خود نوشت: «این تصور که تنها متنهای بدون مجوز باعث بهبود عملکرد مدلها میشوند، نادرست است و با افزایش دادههای مجاز و عمومی، کیفیت مدلهای آموزش دیده روی این دادهها نیز بهتر خواهد شد.»
این اقدام EleutherAI بخشی از تلاشهای این سازمان برای اصلاح اشتباهات گذشته است؛ چرا که پیشتر مجموعه دادهای به نام The Pile منتشر کرده بود که شامل محتوای دارای حق نشر بود و موجب انتقادات و فشارهای حقوقی شده بود. EleutherAI قصد دارد در آینده نیز با همکاری شرکای تحقیقاتی و زیرساختی خود، مجموعه دادههای باز بیشتری منتشر کند و مسیر شفافسازی و توسعه هوش مصنوعی را ادامه دهد.