«تجارت نیوز» گزارش می دهد:

OpenAI از محتوای دارای حق کپی استفاده کرده است؟

یک مطالعه جدید به ادعاها مبنی بر آموزش مدل‌های هوش مصنوعی OpenAI بر اساس محتوای دارای حق کپی اعتبار می‌بخشد.

به گزارش تجارت نیوز، یک مطالعه جدید به ادعاهای مطرح‌شده در مورد استفاده OpenAI از محتوای دارای حق کپی برای آموزش برخی از مدل‌های هوش مصنوعی خود اعتبار می‌بخشد. OpenAI در حال حاضر با شکایات متعدد از سوی نویسندگان، برنامه‌نویسان و سایر صاحبان حقوقی مواجه است که این شرکت را متهم به استفاده از آثار آن‌ها، از جمله کتاب‌ها و کدها برای توسعه مدل‌های خود بدون اجازه می‌کنند. در حالی که OpenAI به مدت طولانی از دفاع «استفاده عادلانه» استفاده کرده است، شاکیان در این موارد استدلال می‌کنند که قانون حق کپی ایالات متحده هیچ استثنایی برای داده‌های آموزشی ندارد.

روش تحقیق

این مطالعه که به‌طور مشترک توسط محققانی از دانشگاه واشنگتن، دانشگاه کپنهاگ و دانشگاه استنفورد نوشته شده، روش جدیدی برای شناسایی داده‌های آموزشی «به خاطر سپرده شده» توسط مدل‌های پشت API، مانند مدل‌های OpenAI، ارائه می‌دهد. مدل‌ها در واقع موتورهای پیش‌بینی هستند. آن‌ها با آموزش بر روی حجم زیادی از داده‌ها الگوها را یاد می‌گیرند و به همین دلیل می‌توانند مقالات، عکس‌ها و موارد دیگر را تولید کنند. بیشتر خروجی‌ها کپی‌های دقیق از داده‌های آموزشی نیستند، اما به دلیل نحوه یادگیری مدل‌ها، برخی از آن‌ها به‌طور ناگزیر چنین هستند. به‌عنوان مثال، مدل‌های تصویری به‌طور مکرر اسکرین‌شات‌هایی از فیلم‌هایی که بر روی آن‌ها آموزش دیده‌اند را بازتولید کرده‌اند، در حالی که مدل‌های زبانی نیز به‌طور مؤثر مقالات خبری را سرقت ادبی کرده‌اند.

کلمات غیرمعمول

روش مطالعه به کلماتی که نویسندگان آن‌ها را «کلمات با شگفتی بالا» می‌نامند، متکی است؛ به این معنا که این کلمات در زمینه یک مجموعه بزرگ‌تر از آثار غیرمعمول به نظر می‌رسند. به‌عنوان مثال، کلمه «رادار» در جمله «جک و من به‌طرز کاملاً ساکت در کنار رادار نشسته بودیم» به‌عنوان یک کلمه با شگفتی بالا در نظر گرفته می‌شود زیرا احتمال وقوع آن در مقایسه با کلماتی مانند «موتور» یا «رادیو» قبل از «هام» کمتر است.

نتایج آزمون‌ها

نویسندگان این مطالعه چندین مدل OpenAI، از جمله GPT-4 و GPT-3.5 را برای نشانه‌های به خاطر سپردن مورد بررسی قرار دادند. آن‌ها با حذف کلمات با شگفتی بالا از بخش‌هایی از کتاب‌های داستانی و مقالات نیویورک تایمز، از مدل‌ها خواستند تا «حدس بزنند» کدام کلمات مخفی شده‌اند. اگر مدل‌ها توانستند به‌درستی حدس بزنند، به‌احتمال زیاد آن‌ها در طول آموزش، این بخش را به خاطر سپرده‌اند.

شواهد از حافظه مدل‌ها

براساس نتایج آزمون‌ها، GPT-4 نشانه‌هایی از به خاطر سپردن بخش‌هایی از کتاب‌های داستانی محبوب نشان داد که شامل کتاب‌هایی از یک مجموعه داده حاوی نمونه‌های کتاب‌های الکترونیکی دارای حق کپی به نام BookMIA بود. نتایج همچنین نشان داد که این مدل بخش‌هایی از مقالات نیویورک تایمز را نیز به خاطر سپرده است، هرچند با نرخ کمتر.

نیاز به شفافیت داده

ابهیلاشا راویچاندر، دانشجوی دکتری دانشگاه واشنگتن و یکی از نویسندگان این مطالعه، اذعان کرد که یافته‌ها بر «داده‌های جنجالی» که مدل‌ها ممکن است بر اساس آن آموزش دیده باشند، نور می‌افکند. او گفت: «برای داشتن مدل‌های زبانی بزرگ که قابل اعتماد باشند، باید مدل‌هایی داشته باشیم که بتوانیم آن‌ها را مورد بررسی و ممیزی علمی قرار دهیم. کار ما هدف دارد ابزاری برای بررسی مدل‌های بزرگ زبانی فراهم کند، اما نیاز واقعی به شفافیت بیشتر داده‌ها در سراسر اکوسیستم وجود دارد.»

OpenAI به مدت طولانی خواستار کاهش محدودیت‌ها در توسعه مدل‌ها با استفاده از داده‌های دارای حق کپی بوده است. در حالی که این شرکت قراردادهای مجوز محتوای خاصی دارد و مکانیزم‌های خروجی را ارائه می‌دهد که به صاحبان حق کپی اجازه می‌دهد محتوایی را که دوست ندارند شرکت از آن برای اهداف آموزشی استفاده کند، پرچم‌گذاری کنند، این شرکت همچنین به‌دنبال تصویب قوانین «استفاده عادلانه» در مورد رویکردهای آموزش هوش مصنوعی در چندین دولت بوده است.