به گزارش تجارت نیوز، علیبابا، غول تکنولوژی چین گامی بزرگ در رقابت هوش مصنوعی تصویرساز برداشته و مدل قدرتمند اوپن سورس خود را در چهارم آگوست منتشر کرده است. این هوش مصنوعی میتواند با دقت رندر دقیق متن درون تصاویر را انجام دهد. این مدل هوش مصنوعی بهطور جهانی در دسترس قرار گرفته و در پلتفرمهایی مانند Hugging Face موجود است. هوش مصنوعی Qwen-Image با قابلیت هنری خود میتواند از متون پیچیده و کاراکترهای چندخطی چینی نیز در درون تصاویر استفاده کند.
این مدل که تحت لیسانس Apache 2.0 عرضه شده است، مستقیما مدلهای سیستمهای غربی گوگل، میدجرنی، OpenAI را به چالش میگیرد. هدف این هوش مصنوعی، ارائه سیستمی رایگان و قدرتمند است که میتواند دستورهای متنی را با خلاقیت بصری ادغام کند که برای بسیاری از مدلهای هوش مصنوعی، پیچیدگی بالایی دارد. اجرای چیدمانهای چندخطی، درک معنا در سطح پاراگراف و تولید محتوای دوزبانه (چینی و انگلیسی) از ویژگیهای این مدل است. در عمل، کاربر میتواند پوستر فیلم، اسلایدهای ارائه، صحنههایی از یک داستان، شعر دستنویس و پوسترهای اینفوگرافیک را با نوشتن دستور مدنظر، ایجاد کند.
گامی بزرگ در هوش مصنوعی تصویرساز
در مرکز هوش مصنوعی Qwen-Image، از مدل پایه 20 میلیارد پارامتری با معماری MMDiT استفاده شده است. برای درک پرامپتهای پیچیده کاربر، از مدل زبان بصری Qwen2.5-VL استفاده میشود. این معماری قدرتمند از طریق استراتژی ترین (training) و پایپ لاین داده گسترده بدست آمده است. بر اساس اعلام تیم فنی این هوش مصنوعی، برای ترین کردن این مدل از curriculum learning استفاده شده است. این روش، یک استراتژی آموزشی است که یک مدل یادگیری ماشینی را از دادههای سادهتر به دادههای سختتر آموزش میدهد.
هوش مصنوعی فراتر از متن
با وجود اینکه رندر دقیق متن، ویژگی قابل توجه این مدل است، Qwen-Image ابزاری قدرتمند برای اهداف عمومی تولید تصویر است. این مدل از استایلهای مختلف هنری پشتیبانی میکند و میتواند صحنههایی به شکل دنیای واقعی را تولید کند و حتی تصاویری با سبک امپرسیونیسم، مینیمالیسم و … را نیز برای کاربر ایجاد کند.
امکانات ادیت و گزینههای پیشرفته نیز به کاربر این امکان را میدهد تا پیش از خروجی گرفتن، تغییرات مدنظر را اعمال کند. بر اساس گزارش تکنیکال این مدل، کاربر میتواند شی را درون تصویر اضافه یا حذف کند. این مدل هوش مصنوعی توانسته به دقت مواردی مانند حالات مو در تصاویر و تغییرات بدنی در هنگام ژستهای مختلف را اجرا کند.
در کنار این هوش مصنوعی تصویرساز، این شرکت چینی اخیرا اپدیت جدید هوش مصنوعی ویدئوساز خود بهنام Wan2.2 را نیز منتشر کرده است. بر اساس نظر تحلیلگران، عرضه هوش مصنوعی تصویرساز علی بابا میتواند گام بسیار بزرگی در بازار آسیا باشد، چرا که توسعه ابزارهای هوش مصنوعی در این منطقه کمتر بوده است.