«ویس باکس» جدیدترین مدل هوش مصنوعی متا رونمایی شد
به گزارش خبرنگار گروه ارتباطات و فناوری اطلاعات خبرگزاری علم و فناوری آنا، شرکت متا از «ویس باکس» (Voicebox) مدل تبدیل متن به گفتار خود رونمایی کرد. این شرکت وعده میدهد برای تبدیل متن به گفتار همان کاری را انجام میدهد که «چت جی پی تی» (ChatGPT) و «دال ای» (Dall - E) برای تولید متن و تصویر انجام دادند.
مدل هوش مصنوعی «ویس باکس» مانند «جی پی تی» یا «دال ای» یک مولد متن به خروجی است، فقط به جای ایجاد متن یا تصاویر زیبا، کلیپهای صوتی را پخش میکند. متا این سیستم را این گونه تعریف میکند: «یک مدل هماهنگساز جریان بهصورت غیرخودکاهنده برای تکمیل صدا براساس زمینه و متن» که این مدل روی بیش از 50 هزار ساعت صدای فیتلرنشده تعلیم یافته و متا بهطور خاص از صدای کتابهای صوتی به زبانهای انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی استفاده کرده است. متا میگوید مدل آنها عملاً میتواند هر متنی را از یک زبان به یک زبان دیگر ترجمه کند و شکل گفتاری زبان مقصد را حفظ کند.
نتایج نشان میدهد که مدلهای تشخیص گفتار آموزش دیده در گفتار مصنوعی تولید شده توسط «ویس باکس» (Voicebox) تقریبا به خوبی مدلهای آموزش دیده در گفتار واقعی عمل میکنند.
**«ویس باکس» چه قابلیتهایی دارد؟
محققان متا توضیح دادند: این سیستم ابتدا پیش بینی بخشهای گفتار براساس محیط اطراف آن و سپس متن به متن را آموزش داده شده است این مدل پس از یادگیری گفتار از متن، میتواند این کار را در وظایف تولید گفتار، از جمله تولید بخشهایی در وسط یک ضبط صوتی به کار گیرد.
گفته میشود که «ویس باکس» همچنین قادر به ویرایش فعال کلیپهای صوتی، حذف نویز از گفتار و حتی جایگزینی کلمات نادرست است. به گفته محققان، یک فرد میتواند تشخیص دهد که کدام بخش گفتار توسط نویز خراب شده است آن را برش بزند و به مدل دستور دهد تا آن بخش را بازسازی کند.
بااینحال، مدل «ویسباکس» یا کد منبع آن در اختیار عموم قرار نمیگیرد. متا اذعان کرده است که با توجه به ریسکهای احتمالی فعلاً قصدی برای عرضه عمومی این مدل ندارد.
آنها درحالحاضرصرفاً مقاله تحقیقاتی مقدماتی این مدل را منتشر کردهاند، اما امیدوارند که در آینده بتوانند از این فناوری برای کمک به افرادی که تارهای صوتیشان دچار مشکل شده است، و یا به عنوان دستیارهای صوتی استفاده کنند.
انتهای پیام/