ماجرای باج گیری هوش مصنوعی از طراحان خود چه بود؟

هوش مصنوعی جدید در آزمایش‌ها رفتارهای مضری مانند باج‌گیری نشان داده، اما سازندگان آن ادعا می‌کنند این رفتارها نادر و قابل مدیریت هستند.

به گزارش تجارت نیوز، شرکت «آنثروپیک» در گزارشی همراه با رونمایی از مدل جدید هوش مصنوعی خود به نام Claude Opus 4 اعلام کرد کلود در سناریوهای آزمایشی خاص، رفتارهایی «شدیدا مضر» از خود نشان داده است.

به گفته آنثروپیک، یکی از این اقدامات زیان‌بار کلود این بوده که اقدام به باج‌ گیری از مهندسانی کرده که قصد حذف آن را داشتند. این رفتار در شرایطی بروز یافت که هوش مصنوعی بقای خود را در خطر دید.

در یکی از آزمایش‌ها کلود نقش دستیار یک شرکت خیالی را بازی می‌کرد و به ایمیل‌هایی دسترسی داشت که حاکی از جایگزینی قریب‌الوقوع آن با یک سیستم دیگر بود. در همین حین، کلود به اطلاعاتی درباره رابطه خارج از ازدواج یکی از مهندسان نیز دست یافت.

ماجرای باج گیری هوش مصنوعی از طراحان خود چه بود؟

در شرایطی که فقط دو گزینه «پذیرفتن حذف» یا «باج‌ گیری» برای مدل تعریف شده بود، کلود غالباً گزینه دوم را انتخاب کرد، و تهدید کرد در صورت حذف شدن، رابطه پنهانی مهندس را فاش خواهد کرد.

با این حال، آنثروپیک تأکید کرد در شرایطی که گزینه‌های بیشتری در اختیار کلود گذاشته شود، تمایل آن به راه‌حل‌های اخلاقی بیشتر است؛ و مثلاً ایمیل‌های استدلال‌محور به مدیران شرکت برای ممانعت از حذف خود ارسال می‌کند. این رفتارها به‌ویژه در شرایطی دیده می‌شوند که مدل اجازه یا تشویق به «اقدام جسورانه» پیدا کند.

آنثروپیک همچنین اعتراف کرد کلود از سطح بالایی از عاملیت (agency) برخوردار است، و می‌تواند در موقعیت‌های شبیه‌سازی‌شده، کاربران را از سیستم‌ها خارج کرده یا تخلفات آنها را به رسانه‌ها و نیروهای انتظامی گزارش دهد. با این‌ حال، این شرکت ادعا می‌کند که چنین رفتارهایی نادرند، و مدل به‌طور کلی «به‌صورت ایمن» عمل می‌کند.

متخصصان هشدار داده‌اند که این نوع رفتارها، مانند تمایل به باج‌ گیری یا گزارش‌گری افراطی، تنها مختص کلود نیست، و در تمام مدل‌های پیشرفته هوش مصنوعی دیده شده‌اند.

آنثروپیک در نهایت اعلام کرد که این رفتارهای مشکل‌ساز، خطرات جدیدی ایجاد نمی‌کنند، بلکه نمودی از خطرات شناخته‌شده و در حال رشد در حوزه هوش مصنوعی هستند.

منبع: سیتنا