رونمایی مایکروسافت از هوش مصنوعی جدید؛ عکس‌های سخنگو +ویدئو

محققان مایکروسافت سیستم هوش مصنوعی جدیدی را با نام VASA توسعه داده‌اند که می‌تواند از یک تصویر یا فایل صوتی، چهره‌های متحرک واقعی ایجاد کند.

به گزارش تجارت‌نیوز، براساس توضیحات مایکروسافت، عملکرد VASA-1 فراتر از تطبیق حرکات لب با صدا است و می‌تواند طیف گسترده‌ای از احساسات، ظرافت‌های چهره و حرکات طبیعی سر را نیز به تصویر بکشد و چهره‌های ساخته‌شده را واقعی‌تر نشان دهد. علاوه‌براین، روی ویدیوی تولیدشده کنترل دارد؛ به این معنا که کاربران می‌توانند جهت نگاه‌کردن شخصیت، فاصله درک‌شده و حتی حالت احساسی آن‌ها را مشخص کنند.

نکته قابل‌توجه دیگر اینکه هرچند VASA-1 با عکس‌های هنری، صدای آواز یا گفتار غیرانگلیسی آموزش ندیده است، اما همچنان می‌تواند با استفاده از این ورودی‌ها ویدیو تولید کند.

ویدیو زیر نیز با استفاده از تصویر نقاشی معروف «مونا لیزا» ساخته شده است: مایکروسافت در ادامه توضیح می‌دهد که این سیستم می‌تواند ویدیوهایی با وضوح بالا (512 در 512 پیکسل) و نرخ فریم بالا تولید کند. در حالت آفلاین، VASA-1 ویدیوهایی با سرعت 45 فریم‌درثانیه تولید می‌کند و در حالت آنلاین این میزان به 40 فریم‌در‌ثانیه می‌رسد.

محققان مایکروسافت ضمن اشاره به پتانسیل سوءاستفاده از این سیستم هوش مصنوعی، کاربردهای مثبت VASA-1 را برجسته کرده‌اند. ازجمله این کاربردها به بهبود تجربیات آموزشی و کمک درزمینه ارتباطات اشاره شده است.