«تجارت‌نیوز» گزارش می‌دهد:

هوش مصنوعی به شکل غیرقانونی آموزش می‌بیند

تحقیقات جدیدی از Proof News و Wired نشان می‌دهد برخی از بزرگ‌ترین توسعه‌دهندگان هوش مصنوعی از رونویسی‌های ویدیوهای یوتیوب بدون اجازه سازندگان آنها برای آموزش مدل‌های خود استفاده کرده‌اند. این اقدام با نقض قوانین یوتیوب صورت گرفته است.

به گزارش تجارت‌نیوز، تحقیقات جدید نشان می‌دهد که برخی از بزرگ‌ترین توسعه‌دهندگان هوش مصنوعی از رونویسی‌های ویدیوهای یوتیوب بدون اجازه سازندگان آنها برای آموزش مدل‌های خود استفاده کرده‌اند. این اقدام با نقض قوانین یوتیوب صورت گرفته است. بر اساس تحقیقات مشترک انجام‌شده، شرکت‌هایی مانند اپل، انویدیا، آنتروپیک و سایر شرکت‌های بزرگ هوش مصنوعی از مجموعه‌ای داده‌ای به نام YouTube Subtitles استفاده کرده‌اند که شامل رونویسی تقریباً 175 هزار ویدیو از ۴۸ هزار کانال است. همه این کارها بدون اطلاع سازندگان ویدیوها انجام شده است.

هوش مصنوعی به شکل غیرمجاز آموزش می‌بیند

مجموعه داده YouTube Subtitles شامل متن زیرنویس‌های ویدیوهاست که اغلب به چندین زبان ترجمه شده است. این مجموعه را EleutherAI ساخته است که هدف آن را کاهش موانع توسعه هوش مصنوعی برای کسانی که خارج از شرکت‌های بزرگ فناوری هستند توصیف می‌کند. این مجموعه بخشی از مجموعه داده بزرگ‌تر EleutherAI به نام Pile است که شامل مقالات ویکی‌پدیا، سخنرانی‌های پارلمان اروپا و حتی ایمیل‌های Enron نیز می‌شود.

با این حال، Pile طرفداران زیادی در بین شرکت‌های بزرگ فناوری دارد. به عنوان مثال، اپل از Pile برای آموزش مدل هوش مصنوعی OpenELM خود استفاده کرده است، در حالی که مدل هوش مصنوعی Salesforce که دو سال پیش منتشر شد با Pile آموزش دیده است و از آن زمان تاکنون بیش از ۸۶ هزار بار دانلود شده است.

مجموعه داده YouTube Subtitles طیف گسترده‌ای از کانال‌های محبوب در زمینه اخبار، آموزش و سرگرمی را دربر می‌گیرد. این شامل محتوای یوتیوبرهای معروف مانند MrBeast و Marques Brownlee نیز می‌شود. همه این افراد بدون اطلاع از ویدیوهایشان برای آموزش مدل‌های هوش مصنوعی استفاده شده است. Proof News ابزاری جست‌وجو ایجاد کرده است که می‌توانید با استفاده از آن بررسی کنید آیا یک ویدیو یا کانال خاص در این مجموعه وجود دارد یا خیر. حتی چند ویدیوی TechRadar نیز در این مجموعه یافت شده است.

تضاد با شرایط خدمات یوتیوب

استفاده از مجموعه داده YouTube Subtitles به نظر می‌رسد با شرایط خدمات یوتیوب که به‌صراحت از جمع‌آوری خودکار ویدیوها و داده‌های مرتبط با آنها جلوگیری می‌کند، در تضاد است. با این حال، این مجموعه داده با استفاده از یک اسکریپت که زیرنویس‌ها را از طریق API یوتیوب دانلود می‌کند، جمع‌آوری شده است. این تحقیق نشان می‌دهد حدود 500 عبارت جست‌وجو برای دانلود خودکار ویدیوها استفاده شده است.

این کشف باعث تعجب و خشم بسیاری از سازندگان یوتیوب شده است که در مصاحبه با Proof و Wired مورد بررسی قرار گرفتند. نگرانی‌ها درباره استفاده غیرمجاز از محتوا معتبر است و برخی از سازندگان از این ایده که کار آنها بدون پرداخت هزینه یا اجازه در مدل‌های هوش مصنوعی استفاده می‌شود، ناراحت هستند. این موضوع به‌ویژه برای کسانی که متوجه شدند مجموعه داده شامل رونویسی ویدیوهای حذف شده آنهاست و در یک مورد، داده‌ها از سازنده‌ای است که کل حضور آنلاین خود را حذف کرده است، صادق است.

EleutherAI در این گزارش اظهارنظری نکرده است. این سازمان ماموریت خود را دموکراتیزه کردن دسترسی به فناوری‌های هوش مصنوعی از طریق انتشار مدل‌های آموزش‌دیده توصیف می‌کند. این ممکن است با منافع سازندگان محتوا و پلتفرم‌ها در تضاد باشد، اگر این مجموعه داده نمونه‌ای از آن باشد. نبردهای قانونی و نظارتی در مورد هوش مصنوعی از قبل پیچیده بودند. این نوع افشاگری احتمالاً چشم‌انداز اخلاقی و قانونی توسعه هوش مصنوعی را دشوارتر می‌کند. یافتن تعادل بین نوآوری و مسئولیت اخلاقی برای هوش مصنوعی آسان است، اما تولید آن بسیار سخت‌تر خواهد بود.

اخبار حوزه استارتاپ و فناوری اطلاعات را در صفحه استارتاپ تجارت‌نیوز بخوانید.