به گزارش تجارت نیوز، شرکت OpenAI از ارتقای قابلتوجه قابلیت تولید تصویر در ChatGPT خبر داد که اولین بهروزرسانی عمده این ویژگی در طول بیش از یکسال گذشته محسوب میشود.
سام آلتمن، مدیرعامل OpenAI، در جریان پخش زندهای روز سهشنبه اعلام کرد که ChatGPT اکنون میتواند از مدل GPT-4o برای خلق و ویرایش تصاویر بهصورت بومی استفاده کند. این ارتقا، گامی بلند در تواناییهای چندوجهی هوش مصنوعی OpenAI بهشمار میرود.
زمان عرضه و دسترسی
قابلیت جدید تولید تصویر مبتنی بر GPT-4o از هماکنون برای مشترکین پلن حرفهای OpenAI با هزینه ماهانه ۲۰۰ دلار در دسترس است. این ویژگی هم در ChatGPT و هم در Sora، پلتفرم تولید ویدئوی هوش مصنوعی این شرکت، ادغام شده است.
OpenAI تأیید کرده که بهزودی این قابلیت به کاربران رایگان، مشترکین پلن پلاس و توسعهدهندگان استفادهکننده از سرویسهای API این شرکت نیز ارائه خواهد شد. این استراتژی عرضه تدریجی، ثبات سیستم را تضمین میکند و امکان گسترش دسترسی به طیف وسیعتری از کاربران را فراهم میسازد.
کیفیت و تواناییهای بهبودیافته
در مقایسه با نسل قبلی یعنی DALL-E 3، GPT-4o پردازش عمدیتر و دقیقتری در تولید تصاویر دارد که به گفته OpenAI، خروجیهای دقیقتر و با جزئیات بیشتری را به همراه میآورد. سیستم ارتقایافته، عملکرد ویرایش جامعی را ارائه میدهد که شامل امکان اصلاح تصاویر موجود حاوی افراد از طریق تکنیکهایی مانند تبدیل و “inpainting” میشود. Inpainting فرایندی است که بهطور هوشمندانه بخشهای خاصی از تصویر را پر یا تغییر میدهد و در عین حال، زمینه کلی تصویر را حفظ میکند. این بهبودها، GPT-4o را به ابزاری پیشرفتهتر برای هر دو گروه کاربران حرفهای و معمولی تبدیل کرده است.
دادههای آموزشی و ملاحظات اخلاقی
OpenAI به والاستریتژورنال عنوان کرد که قابلیتهای تصویری GPT-4o با استفاده از ترکیبی از دادههای عمومی و اطلاعات اختصاصی حاصل از همکاری با شرکتهایی مانند Shutterstock توسعه یافته است.
این شرکت سیاستهای دقیقی در مورد حقوق هنرمندان دارد و برد لایتکپ، مدیر عملیات OpenAI، بر تعهد این شرکت به جلوگیری از تقلید مستقیم سبک هنرمندان زنده تأکید کرده است. OpenAI مکانیسمهایی را برای خروج خالقان محتوا از مجموعه دادههای آموزشی فراهم کرده و درخواستهای حذف وبسایتها از جمعآوری دادهها را رعایت میکند. این رویکرد، بازتابی از توجه روزافزون صنعت به شیوههای اخلاقی توسعه هوش مصنوعی است.
فضای رقابتی و چالشهای اخیر
این بهروزرسانی اندکی پس از عرضه قابلیت تولید تصویر بومی در مدل Gemini 2.0 Flash گوگل منتشر شده است. ویژگی گوگل به دلیل تواناییهایش و همچنین کمبود محافظتهای کافی مورد توجه قرار گرفت، چرا که به کاربران اجازه میداد از واترمارکها عبور کرده و تصاویری از شخصیتهای دارای حق تکثیر تولید کنند.
این موضوع چالشهای مداوم در برقراری تعادل بین پتانسیلهای خلاقانه و پیادهسازی مسئولانه را برجسته میکند. رویکرد محتاطانه OpenAI، از جمله عرضه پلکانی و رهنمودهای اخلاقی اعلامشده، نشاندهنده تلاش این شرکت برای جلوگیری از بروز مشکلات مشابه و در عین حال پیشبرد فناوری تولید تصاویر هوش مصنوعی است.
پیامدهای آینده
ادغام قابلیت پیشرفته تولید تصویر در GPT-4o نشاندهنده ادامه سرمایهگذاری OpenAI در سیستمهای هوش مصنوعی چندوجهی است که میتوانند بهصورت یکپارچه در حوزههای متنی، تصویری و در آینده ویدئویی فعالیت کنند.
با گسترش دسترسی به این قابلیتها، آنها نوید تحول در فرآیندهای خلاقانه را میدهند، اما در عین حال پرسشهای مهمی درباره مالکیت معنوی، صداقت هنری و رابطه در حال تکامل بین خالقان انسانی و ابزارهای هوش مصنوعی مطرح میسازند. عرضه دقیق و تأکید این شرکت بر ملاحظات اخلاقی ممکن است معیارهای مهمی را برای کل صنعت تعیین کند.
بهروزرسانی اخیر OpenAI نهتنها تواناییهای ChatGPT را گسترش داده، بلکه نشاندهنده تعهد این شرکت به توسعه مسئولانه فناوریهای هوش مصنوعی است. با توجه به رشد سریع این حوزه، رویکرد OpenAI در ترکیب نوآوری با حفاظت از حقوق creators میتواند الگویی برای سایر بازیگران صنعت باشد. کاربران ایرانی نیز بهزودی شاهد دسترسی به این قابلیتها خواهند بود، هرچند چگونگی تطبیق آنها با قوانین محلی هنوز نیاز به بررسی دارد.