تقوم ميكروسوفت بإنشاء الذكاء الاصطناعي النص إلى كلام الذي يمكن أن يولد خطاب واقعي

Share:

تقوم ميكروسوفت بإنشاء الذكاء الاصطناعي النص إلى كلام الذي يمكن أن يولد خطاب واقعي

أصبح تحويل النص إلى كلام أكثر ذكاءً بمرور الوقت ، لكن العيب هو أنه سيستغرق الأمر وقتًا طويلاً وموارد مفرطة لبناء منتج ذي صوت طبيعي.

قد يكون لشركة
ميكروسوفت العملاقة في مجال التكنولوجيا بمساعدة المهندسين الصينيين عملية أكثر كفاءة لأنهم قاموا بإنشاء AI تحويل النص إلى كلام الذي يمكن أن يجعل خطاب واقعي باستخدام 200 عينة صوتية فقط.

إنه قادر على إنشاء نسخ مطابقة أيضًا.

حساب آل جزئيا على المحولات أو الشبكات العصبية العميقة التي تتبع الخلايا العصبية في الدماغ تقريبا.

تنظر المحولات في كل مدخلات ومخرجات على شكل روابط متشابكة تساعد النظام على تشغيل الجمل المعقدة بكفاءة عالية.

يتم دمجها مع أداة فك تشفير إزالة الضوضاء ، مما يجعل تحويل النص إلى كلام أكثر فاعلية.

النتائج ليست خالية من العيوب مثل الصوت الروبوتي الطفيف الذي لا يزال يسبب مشكلة ، لكنها دقيقة بشكل ملحوظ مع كلمة وضوح ما يقرب من 100 في المئة.

على وجه الخصوص ، يمكن أن يجعل هذا النص إلى كلام أكثر جدوى للجميع إذا كان في متناول الشركات الصغيرة.
"لقد اقترحنا الطريقة غير الخاضعة للرقابة تقريبًا للنص إلى كلام والتعرف التلقائي على الكلام ، والتي لا تدعم سوى القليل من بيانات الكلام والنص المقترنة والبيانات الإضافية غير المرسلة. تتكون طريقتنا من عدة مكونات أساسية ، بما في ذلك تقليل التشفير التلقائي والتحول المزدوج وتسلسل ثنائي الاتجاه النمذجة ، وهيكل نموذج موحد لدمج المكونات المذكورة أعلاه. يمكننا تحقيق 99.84 ٪ من حيث معدل وضوح مستوى الكلمة و 2.68 MOS لـ TTS ، و 11.7 ٪ لكل ASR مع 200 فقط من البيانات المقترنة على مجموعة بيانات LJSpeech ، مما يدل على فعالية تحققنا التحليلات الإضافية من أهمية كل عنصر من عناصر طريقتنا. "، أوضحت الدراسة في ورقة. إضافة إلى ذلك ، "بالنسبة للعمل في المستقبل ، سوف ندفع نحو الحد من التعلم غير الخاضع للإشراف من خلال الاستفادة بحتة من بيانات الكلام والنص ، وذلك بمساعدة طرق أخرى للتدريب المسبق. سنستفيد أيضًا من نموذج متقدم للمكوِّن الصوتي بدلاً من Griffin- Lim ، مثل WaveNet ، لتحسين جودة الصوت الناتج. "

مصدر الصورة : Getty Images

ليست هناك تعليقات