«تجارت نیوز» گزارش می دهد:
مشکل مدل DeepSeek V۳: شناسایی خود بهعنوان ChatGPT
مدل DeepSeek V3 بهاشتباه خود را ChatGPT معرفی میکند. احتمال استفاده از دادههای GPT-4 در آموزش این مدل، نگرانیهای اخلاقی ایجاد کرده است.
در هفته جاری، آزمایشگاه برجسته هوش مصنوعی چین، DeepSeek، از مدل جدید خود با نام DeepSeek V3 رونمایی کرد. این مدل به دلیل عملکرد قوی در وظایفی همچون تولید متن، نگارش مقاله و کدنویسی ستایش شده است. با این حال، مشکلی عجیب در این مدل مشاهده شده است. DeepSeek V3 اغلب خود را ChatGPT، چتبات معروف OpenAI، معرفی میکند.
بررسیهای انجامشده در پلتفرمهای اجتماعی مانند X و آزمایشهای TechCrunch نشان داده که DeepSeek V3 در بسیاری از مواقع خود را ChatGPT معرفی میکند، بهویژه بهعنوان GPT-4 که در سال ۲۰۲۳ عرضه شد. از هشت پرسش مطرحشده، این مدل در پنج مورد خود را ChatGPT و در سه مورد دیگر DeepSeek V3 معرفی کرده است. این رفتار سوالاتی درباره منبع دادههای آموزشی این مدل و احتمال استفاده از خروجیهای OpenAI ایجاد کرده است.
خودشناسی اشتباه
اشکال این مدل تنها به معرفی اشتباه خود محدود نمیشود. هنگامی که از DeepSeek V3 درباره API خود سوال میشود، این مدل بهاشتباه دستورالعملهای مربوط به API OpenAI را عرضه میکند. همچنین، شوخیها و طنزهایی مشابه GPT-4 ارائه میدهد که نشاندهنده شباهت در دادههای آموزشی است.
دلایل بروز مشکل
مدلهایی مانند DeepSeek V3 و ChatGPT بر اساس سیستمهای آماری عمل میکنند و از الگوهای موجود در حجم زیادی از دادههای متنی برای پیشبینی و تولید پاسخ استفاده میکنند. کیفیت و منبع دادههای آموزشی نقش مهمی در عملکرد این مدلها دارد.
DeepSeek اطلاعات دقیقی درباره مجموعهدادههای آموزشی DeepSeek V3 منتشر نکرده است. با این حال، مجموعهدادههای عمومی متعددی وجود دارد که شامل خروجیهای تولیدشده به وسیله GPT-4 هستند. در صورت استفاده از این دادهها، احتمال دارد مدل DeepSeek V3 ناخواسته بخشهایی از پاسخهای GPT-4 را حفظ و بازتولید کند.
مایک کوک، پژوهشگر هوش مصنوعی در کالج کینگ لندن، این نوع آموزش را به مدل "فتوکپی از فتوکپی" تشبیه کرد که باعث کاهش کیفیت و افزایش اشتباهات در مدل میشود.
پیامدهای اخلاقی و قانونی
استفاده از خروجی یک مدل هوش مصنوعی برای آموزش مدلهای رقیب ممکن است با شرایط خدمات OpenAI مغایرت داشته باشد. OpenAI صراحتاً استفاده از خروجیهای خود برای توسعه محصولات رقابتی را ممنوع کرده است. هرچند تاکنون OpenAI و DeepSeek درباره این موضوع اظهارنظر نکردهاند، اما سم آلتمن، مدیرعامل OpenAI، بهطور غیرمستقیم به این مساله اشاره کرده و گفته است: «کپی کردن چیزی که جواب داده آسان است، اما خلق چیزی جدید، سخت و پرریسک است.»
چالشهای صنعت هوش مصنوعی
مشکل شناسایی اشتباه در مدلهای هوش مصنوعی به DeepSeek V3 محدود نمیشود. مدل Gemini گوگل نیز در برخی موارد خود را به عنوان چتبات Wenxinyiyan بایدو معرفی کرده است. این مسائل نشاندهنده چالشهای روزافزون در صنعت هوش مصنوعی، بهویژه آلودگی دادههای آموزشی با محتوای تولیدشده به وسیله هوش مصنوعی است.
نگرانیها و پیامدها
احتمال استفاده DeepSeek V3 از دادههای GPT-4، چه بهصورت عمدی یا از طریق مجموعهدادههای آلوده، نگرانیهای جدی را ایجاد کرده است. هیدی خالف، دانشمند ارشد هوش مصنوعی، هشدار داده که چنین رویههایی ممکن است به تکرار و تقویت اشتباهات و سوگیریهای مدلهای اصلی منجر شود.
رفتار DeepSeek V3 در معرفی اشتباه خود تنها یک نشانه از چالشهای بزرگتر در حفظ استانداردهای اخلاقی و فنی در دنیای پیچیده هوش مصنوعی است.
نظرات