سایت خبری
famaserver
  • صفحه نخست
  • تکنولوژی
  • فناوری
  • اينترنت
  • شبكه اجتماعی
  • بدافزار
  • شبكه و امنيت
  • موبايل
  • سخت‌افزار
سایت خبری
برترین عناوین خبری
  • خرید بیمه: سنتی یا آنلاین؟ کدامیک تجربه بهتری برای مشتریان ایجاد می‌کند؟

EleutherAI مجموعه عظیم داده‌های آموزش هوش مصنوعی با متون مجاز و عمومی را منتشر کرد!

زمان انتشار: 8 ژوئن 2025 ساعت 18:19

دسته بندی: فناوری

شناسه خبر: 405815

زمان مطالعه: 5 دقیقه

EleutherAI مجموعه عظیم داده‌های آموزش هوش مصنوعی با متون مجاز  و عمومی را منتشر کرد!

EleutherAI مجموعه عظیم داده‌های آموزش هوش مصنوعی با متون مجاز و عمومی را منتشر کرد!

سازمان پژوهشی هوش مصنوعی، EleutherAI، مجموعه‌ای عظیم از متون دارای مجوز و متن‌های عمومی را با نام Common Pile v0.1 منتشر کرده است که یکی از بزرگ‌ترین دیتاست‌های آموزش مدل‌های هوش مصنوعی به شمار می‌رود. این مجموعه که طی دو سال با همکاری استارتاپ‌هایی مانند Poolside و Hugging Face و چندین مؤسسه دانشگاهی آماده شده، حجمی برابر با ۸ ترابایت دارد و برای آموزش دو مدل جدید هوش مصنوعی به نام‌های Comma v0.1-1T و Comma v0.1-2T استفاده شده است.

به گزارش gsxr و به نقل از تک‌کرانچ، EleutherAI ادعا می‌کند این مدل‌ها عملکردی مشابه مدل‌هایی دارند که با داده‌های بدون مجوز و دارای حق نشر آموزش دیده‌اند.
 

در حالی که شرکت‌های هوش مصنوعی از جمله OpenAI با پرونده‌های حقوقی درباره استفاده از داده‌های دارای حق نشر برای آموزش مدل‌ها روبرو هستند، EleutherAI  معتقد است این شکایات باعث کاهش شفافیت در صنعت هوش مصنوعی شده و به تحقیقات آسیب زده است. استلا بیدرمن، مدیر اجرایی  EleutherAI، در پستی در بلاگ Hugging Face نوشت که این شکایات «تغییر قابل توجهی در شیوه‌های گردآوری داده‌ها ایجاد نکرده اما شفافیت شرکت‌ها را به شدت کاهش داده است.»

Common Pile v0.1  که با مشورت حقوقی تهیه شده، شامل منابعی مانند ۳۰۰ هزار کتاب عمومی دیجیتالی شده توسط کتابخانه کنگره آمریکا و آرشیو اینترنت است و همچنین از مدل متن‌خوان Whisper متعلق به OpenAI برای تبدیل محتوای صوتی به متن بهره برده است.

 

EleutherAI مجموعه عظیم داده‌های آموزش هوش مصنوعی با متون مجاز  و عمومی را منتشر کرد!
EleutherAI معتقد است مدل‌های Comma که تنها روی بخشی از این مجموعه عظیم آموزش دیده‌اند، توان رقابت با مدل‌های پیشرفته‌ای مانند اولین مدل Llama متا را دارند و در زمینه‌هایی مانند برنامه‌نویسی، درک تصویر و ریاضیات عملکرد قابل توجهی نشان داده‌اند. بیدرمن در بلاگ خود نوشت: «این تصور که تنها متن‌های بدون مجوز باعث بهبود عملکرد مدل‌ها می‌شوند، نادرست است و با افزایش داده‌های مجاز و عمومی، کیفیت مدل‌های آموزش دیده روی این داده‌ها نیز بهتر خواهد شد.»

این اقدام EleutherAI بخشی از تلاش‌های این سازمان برای اصلاح اشتباهات گذشته است؛ چرا که پیش‌تر مجموعه داده‌ای به نام The Pile منتشر کرده بود که شامل محتوای دارای حق نشر بود و موجب انتقادات و فشارهای حقوقی شده بود. EleutherAI قصد دارد در آینده نیز با همکاری شرکای تحقیقاتی و زیرساختی خود، مجموعه داده‌های باز بیشتری منتشر کند و مسیر شفاف‌سازی و توسعه هوش مصنوعی را ادامه دهد.

حتما بخوانید : گوگل عرضه قابلیت هوش مصنوعی «Ask Photos» را به‌دلیل مشکلات کیفیت و سرعت متوقف کرد
برچسب ها
EleutherAI
اشتراک گذاری

اخبار مرتبط

  • گوگل ابزار حذف اطلاعات شخصی از نتایج جستجو را ارتقا داد
    گوگل ابزار حذف اطلاعات شخصی از نتایج جستجو را ارتقا داد 4 ماه پیش
  • ویتامین B3؛ امید تازه‌ای برای توقف رشد تومورهای مغزی خطرناک
    ویتامین B3؛ امید تازه‌ای برای توقف رشد تومورهای مغزی خطرناک 4 ماه پیش
  • جت‌های الکتریکی مرسدس-آام‌جی: شاسی‌بلندهای ۱۰۰۰ اسب‌بخاری در راه هستند
    جت‌های الکتریکی مرسدس-آام‌جی: شاسی‌بلندهای ۱۰۰۰ اسب‌بخاری در راه هستند 4 ماه پیش
  • ردپای آلزایمر در مغز بیماران پساکرونا
    ردپای آلزایمر در مغز بیماران پساکرونا 4 ماه پیش

دیدگاه ها

دیدگاهتان را بنویسید لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دسته بندی موضوعات

  • ارتباطات 153
  • امنيت 462
  • اينترنت 434
  • بازی 11005
  • بدافزار 99
  • برنامه نويسی 34
  • تبلیغات 17
  • تجارت الكترونيك 40
  • تکنولوژی 1457
  • خودرو 7125
  • روباتيك 149
  • سخت‌افزار 244
  • سيستم عامل 308
  • شبكه اجتماعی 383
  • شبكه و امنيت 12
  • فناوری 10901
  • كامپيوتر همراه 113
  • ماهواره و فضا 793
  • موبايل 890
  • نرم افزار 206
  • وب و اينترنت 307

جدیدترین مقالات

  • تحلیل عملکرد رم‌های 128 گیگابایت در بارهای سنگین
    تحلیل عملکرد رم‌های 128 گیگابایت در بارهای سنگین 6 روز پیش
  • تغییر آدرس سایت پلیس فتا
    تغییر آدرس سایت پلیس فتا 3 هفته پیش
  • خدمات ابری آمازون در بحرین مختل شد
    خدمات ابری آمازون در بحرین مختل شد 3 هفته پیش
  • تغییر نشانی جی‌میل امکان پذیر شد
    تغییر نشانی جی‌میل امکان پذیر شد 3 هفته پیش
  • خسارت یک میلیارد دلاری جنگ تحمیلی به اقتصاد دیجیتال
    خسارت یک میلیارد دلاری جنگ تحمیلی به اقتصاد دیجیتال 3 هفته پیش

میزبانی در هاست لاراول فاماسرور