«تجارت نیوز» گزارش می دهد:

مشکل مدل DeepSeek V۳: شناسایی خود به‌عنوان ChatGPT

مدل DeepSeek V3 به‌اشتباه خود را ChatGPT معرفی می‌کند. احتمال استفاده از داده‌های GPT-4 در آموزش این مدل، نگرانی‌های اخلاقی ایجاد کرده است.

به گزارش تجارت نیوز،

در هفته جاری، آزمایشگاه برجسته هوش مصنوعی چین، DeepSeek، از مدل جدید خود با نام DeepSeek V3 رونمایی کرد. این مدل به دلیل عملکرد قوی در وظایفی همچون تولید متن، نگارش مقاله و کدنویسی ستایش شده است. با این حال، مشکلی عجیب در این مدل مشاهده شده است. DeepSeek V3 اغلب خود را ChatGPT، چت‌بات معروف OpenAI، معرفی می‌کند.

بررسی‌های انجام‌شده در پلتفرم‌های اجتماعی مانند X و آزمایش‌های TechCrunch نشان داده که DeepSeek V3 در بسیاری از مواقع خود را ChatGPT معرفی می‌کند، به‌ویژه به‌عنوان GPT-4 که در سال ۲۰۲۳ عرضه شد. از هشت پرسش مطرح‌شده، این مدل در پنج مورد خود را ChatGPT و در سه مورد دیگر DeepSeek V3 معرفی کرده است. این رفتار سوالاتی درباره منبع داده‌های آموزشی این مدل و احتمال استفاده از خروجی‌های OpenAI ایجاد کرده است.

خودشناسی اشتباه

اشکال این مدل تنها به معرفی اشتباه خود محدود نمی‌شود. هنگامی که از DeepSeek V3 درباره API خود سوال می‌شود، این مدل به‌اشتباه دستورالعمل‌های مربوط به API OpenAI را عرضه می‌کند. همچنین، شوخی‌ها و طنزهایی مشابه GPT-4 ارائه می‌دهد که نشان‌دهنده شباهت در داده‌های آموزشی است.

دلایل بروز مشکل

مدل‌هایی مانند DeepSeek V3 و ChatGPT بر اساس سیستم‌های آماری عمل می‌کنند و از الگوهای موجود در حجم زیادی از داده‌های متنی برای پیش‌بینی و تولید پاسخ استفاده می‌کنند. کیفیت و منبع داده‌های آموزشی نقش مهمی در عملکرد این مدل‌ها دارد.

DeepSeek اطلاعات دقیقی درباره مجموعه‌داده‌های آموزشی DeepSeek V3 منتشر نکرده است. با این حال، مجموعه‌داده‌های عمومی متعددی وجود دارد که شامل خروجی‌های تولیدشده به وسیله GPT-4 هستند. در صورت استفاده از این داده‌ها، احتمال دارد مدل DeepSeek V3 ناخواسته بخش‌هایی از پاسخ‌های GPT-4 را حفظ و بازتولید کند.

مایک کوک، پژوهشگر هوش مصنوعی در کالج کینگ لندن، این نوع آموزش را به مدل "فتوکپی از فتوکپی" تشبیه کرد که باعث کاهش کیفیت و افزایش اشتباهات در مدل می‌شود.

پیامدهای اخلاقی و قانونی

استفاده از خروجی یک مدل هوش مصنوعی برای آموزش مدل‌های رقیب ممکن است با شرایط خدمات OpenAI مغایرت داشته باشد. OpenAI صراحتاً استفاده از خروجی‌های خود برای توسعه محصولات رقابتی را ممنوع کرده است. هرچند تاکنون OpenAI و DeepSeek درباره این موضوع اظهارنظر نکرده‌اند، اما سم آلتمن، مدیرعامل OpenAI، به‌طور غیرمستقیم به این مساله اشاره کرده و گفته است: «کپی‌ کردن چیزی که جواب داده آسان است، اما خلق چیزی جدید، سخت و پرریسک است.»

چالش‌های صنعت هوش مصنوعی

مشکل شناسایی اشتباه در مدل‌های هوش مصنوعی به DeepSeek V3 محدود نمی‌شود. مدل Gemini گوگل نیز در برخی موارد خود را به‌ عنوان چت‌بات Wenxinyiyan بایدو معرفی کرده است. این مسائل نشان‌دهنده چالش‌های روزافزون در صنعت هوش مصنوعی، به‌ویژه آلودگی داده‌های آموزشی با محتوای تولیدشده به وسیله هوش مصنوعی است.

نگرانی‌ها و پیامدها

احتمال استفاده DeepSeek V3 از داده‌های GPT-4، چه به‌صورت عمدی یا از طریق مجموعه‌داده‌های آلوده، نگرانی‌های جدی را ایجاد کرده است. هیدی خالف، دانشمند ارشد هوش مصنوعی، هشدار داده که چنین رویه‌هایی ممکن است به تکرار و تقویت اشتباهات و سوگیری‌های مدل‌های اصلی منجر شود.

رفتار DeepSeek V3 در معرفی اشتباه خود تنها یک نشانه از چالش‌های بزرگ‌تر در حفظ استانداردهای اخلاقی و فنی در دنیای پیچیده هوش مصنوعی است.