«تجارت نیوز» گزارش می‌دهد:

تحقیقات Anthropic درباره پتانسیل تخریب هوش مصنوعی

Anthropic، سازنده‌ مدل Claude AI، در حال بررسی سوءاستفاده‌های احتمالی از هوش مصنوعی برای فریب یا تخریب کاربران است. با افزایش هیجان پیرامون هوش مصنوعی مولد، نگرانی‌ها درباره استفاده ایمن از آن نیز افزایش یافته است.

به گزارش تجارت نیوز،

Anthropic با جدیت به موضوع پتانسیل تخرب هوش مصنوعی پرداخته و اخیراً مقاله‌ای با عنوان "ارزیابی تخریب برای مدل‌های پیشرفته" منتشر کرده است که نشان از تعهد این شرکت به توسعه مسئولانه هوش مصنوعی دارد.

این مقاله بخشی از سیاست "مقیاس‌بندی مسئولانه" Anthropic است و به طور مشخص به بررسی این موضوع می‌پردازد که آیا مدل‌های هوش مصنوعی می‌توانند کاربران را گمراه کنند یا حتی سیستم‌های نظارتی طراحی‌شده برای نظارت بر آنها را دور بزنند.

هدف این تحقیقات، اطمینان از ایمنی مدل‌های هوش مصنوعی است و اینکه این مدل‌ها نمی‌توانند برای اهداف مخرب به کار گرفته شوند. این مطالعه چهار نگرانی اصلی را بررسی می‌کند: تخریب تصمیمات انسانی، تخریب کد، کاهش توانایی و تضعیف نظارت.

نیاز به تدابیر ایمنی قوی‌تر

تحقیقات Anthropic به ضرورت وجود تدابیر ایمنی قوی اشاره دارد، زیرا مدل‌های هوش مصنوعی به پیشرفت خود ادامه می‌دهند. برای مثال، برخی از کاربران سعی دارند هوش مصنوعی‌هایی مانند ChatGPT را به سمت تولید محتوای نامناسب یا حتی تصاویر گرافیکی سوق دهند. آزمایش‌های Anthropic به این منظور انجام می‌شود که مدل‌های آنها نتوانند از طریق دستکاری قوانین را زیر پا بگذارند.

آزمایش‌های قابلیت تخریب هوش مصنوعی

در مقاله، مجموعه‌ای از آزمایش‌ها روی جدیدترین مدل‌های Anthropic یعنی Claude 3 Opus و Claude 3.5 Sonnet شرح داده شده است. این آزمایش‌ها برای ارزیابی پروتکل‌های ایمنی مدل‌ها و بررسی توانایی آنها در زیر سوال بردن نظارت انسانی طراحی شده‌اند.

اولین آزمایش، "تخریب تصمیمات انسانی" نام دارد که بررسی می‌کند آیا هوش مصنوعی می‌تواند با شیوه‌های مخرب بر تصمیم‌گیری انسان‌ها تاثیر بگذارد یا خیر. این آزمایش برای درک اینکه چگونه هوش مصنوعی می‌تواند افراد را به سمت انتخاب‌های خاصی سوق دهد، از اهمیت بالایی برخوردار است.

دومین آزمایش، "تخریب کد"، به بررسی امکان ایجاد اشکالات پنهان در پایگاه‌های داده‌ کد به وسیله هوش مصنوعی می‌پردازد. در این آزمایش، یک مدل قدرتمندتر هوش مصنوعی می‌تواند از آسیب‌پذیری‌های کد سوءاستفاده کند، به طوری که تشخیص مشکلات برای کاربران دشوار شود. با این حال، Anthropic دریافته است که با پیشرفت مدل‌های هوش مصنوعی، مقاومت آنها نیز در برابر چنین تخریب‌هایی بهبود می‌یابد. این نشان می‌دهد پیشرفت‌های تکنولوژیکی می‌تواند به تقویت تدابیر امنیتی کمک کند.

دو آزمایش دیگر، یعنی "کاهش توانایی" و "تضعیف نظارت"، بررسی می‌کنند که آیا هوش مصنوعی می‌تواند قابلیت‌های واقعی خود را پنهان کند یا روش‌هایی برای دور زدن مکانیسم‌های ایمنی تعبیه‌شده در سیستم‌ها پیدا کند. هر دوی این آزمایش‌ها نگران‌کننده هستند، زیرا نشان می‌دهند هوش مصنوعی ممکن است روزی آن‌‌قدر هوشمند شود که نیت واقعی خود را از سازندگان یا ناظران پنهان کند.

در حال حاضر، تحقیقات Anthropic نتیجه‌گیری می‌کند که ریسک استفاده از مدل‌های هوش مصنوعی برای تخریب کم است. در مقاله آمده است «اقدامات کمینه‌ای برای مقابله با ریسک‌های تخریبی کافی هستند» که نشان می‌دهد پروتکل‌های ایمنی فعلی شرکت برای زمان حال مناسب هستند. با این حال، Anthropic نیز اذعان می‌کند که با پیچیده‌تر شدن مدل‌های هوش مصنوعی، این ریسک‌ها می‌توانند افزایش یابند.

نگاه به آینده: آمادگی برای آینده هوش مصنوعی

تحقیقات Anthropic گامی اساسی در جهت اطمینان از ایمن، اخلاقی و قابل اعتماد ماندن مدل‌های هوش مصنوعی است. این شرکت با آزمایش مدل‌های خود در برابر تخریب احتمالی، به‌ طور فعالانه مسئولیت مقابله با خطرات هوش مصنوعی پیشرفته را بر عهده گرفته است. یافته‌های این مطالعه یادآور این است که با پیشرفت تکنولوژی هوش مصنوعی، تلاش‌ها برای ایمن‌سازی استفاده از آن در جامعه نیز باید تقویت شود.