شرکت بایت‌دنس در رقابت تولید ویدئوهای هوش مصنوعی پیشتاز شد

شرکت بایت‌دنس نسخه جدید مدل هوش مصنوعی خود با نام سیدنس ۲.۰ را با قابلیت پردازش همزمان تصویر، ویدیو، صدا و متن در دسترس گروه محدودی از کاربران قرار داد. این سیستم با امکان الگوبرداری از حرکات دوربین و جایگزینی عناصر صحنه، رقابت میان توسعه‌دهندگان چینی را افزایش داده و باعث رشد سهام شرکت‌های فناوری در این کشور شده است.

نویسنده : اشکان حاسبی

کد خبر : 1034560

اشتراک گذاری

کاربران این سیستم چندوجهی می‌توانند تا سقف دوازده فایل مختلف را به صورت همزمان به عنوان ورودی به مدل تحویل دهند. ترکیب ورودی‌ها می‌تواند شامل حداکثر نه تصویر، سه ویدیو و سه فایل صوتی باشد. خروجی این فرآیند، ویدیو‌هایی با زمان چهار تا پانزده ثانیه است که افکت‌های صوتی و موسیقی به صورت خودکار و هماهنگ با تصاویر روی آن‌ها اعمال می‌شود. تمرکز این نسخه بر پیوند دقیق داده‌های متنی و بصری برای خلق صحنه‌هایی است که پیش از این به نرم‌افزار‌های تدوین فریم‌به‌فریم نیاز داشتند.

قابلیت‌های الگوبرداری و جایگزینی عناصر

توسعه‌دهندگان بایت‌دنس ویژگی «الگوبرداری» را به عنوان کارکرد اصلی این نسخه معرفی کرده‌اند. سیستم تحلیل‌گر این مدل، زاویه دید، نحوه حرکت دوربین و جلوه‌های ویژه موجود در یک ویدیوی مرجع آپلودشده را می‌خواند و آن‌ها را در ساخت ویدیوی نهایی کپی می‌کند. تغییر دادن شخصیت‌های داخل ویدیو و همچنین امتداد دادن یک ویدیوی از پیش ضبط‌شده نیز در این پلتفرم تعبیه شده است. کار‌های مربوط به تدوین، مانند جایگزینی یا افزودن اشخاص به صحنه، صرفاً از طریق تایپ کردن دستورات متنی اجرا می‌شود.

دستورات طراحی شده برای هدایت این مدل، از منطق ارجاعی پیروی می‌کنند. استفاده‌کننده با نوشتن یک متن، فایل‌های ورودی را به یکدیگر پیوند می‌دهد. سناریوی کاربر می‌تواند به این شکل نوشته شود که یک تصویر خاص به عنوان فریم نخست صحنه در نظر گرفته شود، زاویه دید روی حالت اول شخص قرار بگیرد و حرکت دوربین دقیقاً از ویدیوی شماره یک تقلید شود. پس‌زمینه تصویر و بخش‌های چپ و راست صحنه نیز بر اساس فریم‌های جداگانه‌ای که کاربر آپلود کرده است، چیده می‌شوند و در نهایت مدل هوش مصنوعی عناصر را به حرکت درمی‌آورد.

کیفیت خروجی و محدودیت‌های نسخه آزمایشی

ویدیو‌های نمونه منتشر شده توسط بایت‌دنس، اجرای دستورات پیچیده را نشان می‌دهند. صحنه‌ای از فرار یک فرد سیاه‌پوش از دست جمعیت و برخورد او با دکه میوه‌فروشی در حالت تعقیب و گریز جانبی، یکی از این نمونه‌ها است. نمونه‌های دیگری مانند پهن کردن لباس توسط یک زن و تکان دادن لباس‌ها، یا یک ویدیوی تبلیغاتی از برداشتن نوشابه توسط یک گاوچران و تغییر زاویه دوربین به همراه نریشن، بخشی از خروجی‌های این سیستم هستند. تمامی این ویدیو‌ها همراه با صدای محیطی متناسب مانند صدای قدم‌ها، همهمه جمعیت یا تکان خوردن پارچه تولید شده‌اند.

دانلود

فیلم اصلی

این نمونه‌ها از میان تعداد زیادی خروجی تولید شده، انتخاب و اصطلاحاً دست‌چین شده‌اند. میزان پایداری مدل در استفاده‌های روزمره، هزینه‌های پردازش سخت‌افزاری و زمان مورد نیاز برای تولید هر ویدیو هنوز به صورت شفاف اعلام نشده است. چالش‌هایی مانند حفظ یکپارچگی عناصر بصری در طول زمان پخش ویدیو، همچنان به عنوان سدی در مسیر ورود این فناوری به چرخه‌های کار حرفه‌ای و تولیدات سینمایی شناخته می‌شود.

قوانین مربوط به ملاحظات امنیتی باعث شده تا امکان استفاده از چهره‌های انسانی واقعی در فایل‌های ورودی این سیستم مسدود شود. نسخه فعلی سیدنس ۲.۰ تنها در قالب نسخه آزمایشی روی وب‌سایت رسمی جیمنگ در دسترس است. استفاده‌کنندگان فعلاً باید از شخصیت‌های کامپیوتری، اشیاء یا چهره‌های پوشیده برای تست قابلیت‌های تعویض کاراکتر و حرکات استفاده کنند.

رقابت در بازار چین و تاثیر بر شاخص‌های بورس

رقابت در زمینه هوش مصنوعی مولد ویدیو در بازار چین همزمان با این انتشار، ابعاد تازه‌ای پیدا کرده است. عرضه سیدنس ۲.۰ دقیقاً چند روز پس از آن رخ داد که شرکت رقیب یعنی «کوآیشو» از مدل جدید خود با نام کلینگ ۳.۰ رونمایی کرد. مدل کلینگ نیز رویکردی چندوجهی در دریافت و تولید محتوای رسانه‌ای دارد و در تلاش است سهم بازار بایت‌دنس را در اختیار بگیرد.

معرفی این فناوری‌های مبتنی بر ویدیو، تاثیر مستقیمی بر بازار‌های سهام گذاشته است. روزنامه South China Morning Post در گزارشی اعلام کرد که عرضه این مدل‌های ویدیویی، ارزش سهام شرکت‌های رسانه‌ای و هوش مصنوعی در چین را تا سقف بیست درصد افزایش داده است. سرمایه‌گذاران به پتانسیل تجاری این ابزار‌ها در کاهش هزینه‌های تولید محتوا و ساخت تبلیغات توجه نشان داده‌اند و رقابت میان توسعه‌دهندگان فناوری چینی برای تسلط بر این حوزه وارد مرحله عملیاتی شده است.

انتهای پیام/