EleutherAI مجموعه عظیم دادههای آموزش هوش مصنوعی با متون مجاز و عمومی را منتشر کرد!

EleutherAI مجموعه عظیم دادههای آموزش هوش مصنوعی با متون مجاز و عمومی را منتشر کرد!
به گزارش gsxr و به نقل از تککرانچ، EleutherAI ادعا میکند این مدلها عملکردی مشابه مدلهایی دارند که با دادههای بدون مجوز و دارای حق نشر آموزش دیدهاند.
Common Pile v0.1 که با مشورت حقوقی تهیه شده، شامل منابعی مانند ۳۰۰ هزار کتاب عمومی دیجیتالی شده توسط کتابخانه کنگره آمریکا و آرشیو اینترنت است و همچنین از مدل متنخوان Whisper متعلق به OpenAI برای تبدیل محتوای صوتی به متن بهره برده است.
این اقدام EleutherAI بخشی از تلاشهای این سازمان برای اصلاح اشتباهات گذشته است؛ چرا که پیشتر مجموعه دادهای به نام The Pile منتشر کرده بود که شامل محتوای دارای حق نشر بود و موجب انتقادات و فشارهای حقوقی شده بود. EleutherAI قصد دارد در آینده نیز با همکاری شرکای تحقیقاتی و زیرساختی خود، مجموعه دادههای باز بیشتری منتشر کند و مسیر شفافسازی و توسعه هوش مصنوعی را ادامه دهد.





