«تجارت نیوز» گزارش میدهد:
تحقیقات Anthropic درباره پتانسیل تخریب هوش مصنوعی
Anthropic، سازنده مدل Claude AI، در حال بررسی سوءاستفادههای احتمالی از هوش مصنوعی برای فریب یا تخریب کاربران است. با افزایش هیجان پیرامون هوش مصنوعی مولد، نگرانیها درباره استفاده ایمن از آن نیز افزایش یافته است.
Anthropic با جدیت به موضوع پتانسیل تخرب هوش مصنوعی پرداخته و اخیراً مقالهای با عنوان "ارزیابی تخریب برای مدلهای پیشرفته" منتشر کرده است که نشان از تعهد این شرکت به توسعه مسئولانه هوش مصنوعی دارد.
این مقاله بخشی از سیاست "مقیاسبندی مسئولانه" Anthropic است و به طور مشخص به بررسی این موضوع میپردازد که آیا مدلهای هوش مصنوعی میتوانند کاربران را گمراه کنند یا حتی سیستمهای نظارتی طراحیشده برای نظارت بر آنها را دور بزنند.
هدف این تحقیقات، اطمینان از ایمنی مدلهای هوش مصنوعی است و اینکه این مدلها نمیتوانند برای اهداف مخرب به کار گرفته شوند. این مطالعه چهار نگرانی اصلی را بررسی میکند: تخریب تصمیمات انسانی، تخریب کد، کاهش توانایی و تضعیف نظارت.
نیاز به تدابیر ایمنی قویتر
تحقیقات Anthropic به ضرورت وجود تدابیر ایمنی قوی اشاره دارد، زیرا مدلهای هوش مصنوعی به پیشرفت خود ادامه میدهند. برای مثال، برخی از کاربران سعی دارند هوش مصنوعیهایی مانند ChatGPT را به سمت تولید محتوای نامناسب یا حتی تصاویر گرافیکی سوق دهند. آزمایشهای Anthropic به این منظور انجام میشود که مدلهای آنها نتوانند از طریق دستکاری قوانین را زیر پا بگذارند.
آزمایشهای قابلیت تخریب هوش مصنوعی
در مقاله، مجموعهای از آزمایشها روی جدیدترین مدلهای Anthropic یعنی Claude 3 Opus و Claude 3.5 Sonnet شرح داده شده است. این آزمایشها برای ارزیابی پروتکلهای ایمنی مدلها و بررسی توانایی آنها در زیر سوال بردن نظارت انسانی طراحی شدهاند.
اولین آزمایش، "تخریب تصمیمات انسانی" نام دارد که بررسی میکند آیا هوش مصنوعی میتواند با شیوههای مخرب بر تصمیمگیری انسانها تاثیر بگذارد یا خیر. این آزمایش برای درک اینکه چگونه هوش مصنوعی میتواند افراد را به سمت انتخابهای خاصی سوق دهد، از اهمیت بالایی برخوردار است.
دومین آزمایش، "تخریب کد"، به بررسی امکان ایجاد اشکالات پنهان در پایگاههای داده کد به وسیله هوش مصنوعی میپردازد. در این آزمایش، یک مدل قدرتمندتر هوش مصنوعی میتواند از آسیبپذیریهای کد سوءاستفاده کند، به طوری که تشخیص مشکلات برای کاربران دشوار شود. با این حال، Anthropic دریافته است که با پیشرفت مدلهای هوش مصنوعی، مقاومت آنها نیز در برابر چنین تخریبهایی بهبود مییابد. این نشان میدهد پیشرفتهای تکنولوژیکی میتواند به تقویت تدابیر امنیتی کمک کند.
دو آزمایش دیگر، یعنی "کاهش توانایی" و "تضعیف نظارت"، بررسی میکنند که آیا هوش مصنوعی میتواند قابلیتهای واقعی خود را پنهان کند یا روشهایی برای دور زدن مکانیسمهای ایمنی تعبیهشده در سیستمها پیدا کند. هر دوی این آزمایشها نگرانکننده هستند، زیرا نشان میدهند هوش مصنوعی ممکن است روزی آنقدر هوشمند شود که نیت واقعی خود را از سازندگان یا ناظران پنهان کند.
در حال حاضر، تحقیقات Anthropic نتیجهگیری میکند که ریسک استفاده از مدلهای هوش مصنوعی برای تخریب کم است. در مقاله آمده است «اقدامات کمینهای برای مقابله با ریسکهای تخریبی کافی هستند» که نشان میدهد پروتکلهای ایمنی فعلی شرکت برای زمان حال مناسب هستند. با این حال، Anthropic نیز اذعان میکند که با پیچیدهتر شدن مدلهای هوش مصنوعی، این ریسکها میتوانند افزایش یابند.
نگاه به آینده: آمادگی برای آینده هوش مصنوعی
تحقیقات Anthropic گامی اساسی در جهت اطمینان از ایمن، اخلاقی و قابل اعتماد ماندن مدلهای هوش مصنوعی است. این شرکت با آزمایش مدلهای خود در برابر تخریب احتمالی، به طور فعالانه مسئولیت مقابله با خطرات هوش مصنوعی پیشرفته را بر عهده گرفته است. یافتههای این مطالعه یادآور این است که با پیشرفت تکنولوژی هوش مصنوعی، تلاشها برای ایمنسازی استفاده از آن در جامعه نیز باید تقویت شود.
نظرات