بيل جيتس وشخصيات مشهورة أخرى تحصل على أصوات مستنسخة ؛ بفضل MelNet ، ثورة في الكلام الناتج عن الحاسوب!

Share:

بيل جيتس وشخصيات مشهورة أخرى تحصل على أصوات مستنسخة ؛ بفضل MelNet ، ثورة في الكلام الناتج عن الحاسوب!

شهد الخطاب الذي تم إنشاؤه بواسطة الكمبيوتر ثورة. في الآونة الأخيرة ، تم عرض عدد من المقاطع الصوتية ، واستنساخ صوت بيل غيتس. في هذه المقاطع ، يمكننا الاستماع إلى بعض العبارات بصوت مؤسس ميكروسوفت .

تم إنشاء المقاطع بواسطة MelNet ، وهو نظام تعلم آلي تم تطويره بواسطة مهندسين على الفيسبوك . علاوة على ذلك ، فإن بيل غيتس ليس الوحيد الذي تم استنساخ صوته. كما حصل جورج تاكي وستيفن هوكينج وعدد من الأفراد المعروفين أيضًا على أصوات مستنسخة من قبل MelNet.

وفقًا لورقة البحث التي نشرها باحثان شيان فاسكيز ومايك لويس ، فإن بيانات التدريب المستخدمة في MelNet كانت عبارة عن مجموعة بيانات TED Talks مدتها 452 ساعة ، بالإضافة إلى بعض الكتب المسموعة.

ومن المثير للاهتمام ، أن جودة الصوت قد زادت بشكل ملحوظ خلال السنوات القليلة الماضية. كان عام 2016 عامًا رائعًا فيما يتعلق بهذه التكنولوجيا مع تقديم SampleRNN و WaveNet. في حالة عدم معرفتك ، تدير WaveNet الآن مساعد جوجل وهو برنامج تحويل النص إلى كلام تعلمه الآلة التي طورها DeepMind ، مختبر جوجل AI الموجود في لندن.

من المفترض أن تساعد WaveNet و SampleRNN وغيرها من الأدوات المشابهة في دراسة النغمات المختلفة للصوت البشري. يتم ذلك عن طريق دمج كميات كبيرة من البيانات في نظام الاتحاد الأفريقي ، على عكس أنظمة تحويل النص إلى كلام السابقة التي أعادت بناء الصوت بدلاً من إنتاجه.

لا تعتمد MelNet على أشكال الطول الموجي. ويستخدم الطيفية لتعلم الكلام. ذكر باحثو فيسبوك أن لعبة التقاط "بنية عالية المستوى" الخاصة بشركة MelNet أصبحت قيد التنفيذ ، لدرجة أن يتم حسابها حتى الانتظامات الحساسة في صوت الإنسان. السبب الرئيسي لذلك هو أن البيانات التي تم التقاطها في الطيفية أكبر بكثير من تلك التي تم التقاطها في أشكال الموجات الصوتية ، مما يؤدي إلى أصوات ثابتة.

ومع ذلك ، لا يزال الطريق طويلًا لاستخدام هذه التكنولوجيا حيث لا يزال النموذج لا يمكنه تنفيذ التغييرات في الصوت التي تمر عبر فترة زمنية محددة أو تغييرات في نغمة على مقطع معين للإشارة إلى التوتر / الدراما. يمكن أيضًا العثور على نفس المشكلة مع إنشاء نص AI.

بغض النظر ، MelNet هو نظام متعدد الوظائف وقد حقق نتائج رائعة خلال فترة قصيرة من الزمن. يمكن استخدامه أيضًا لإنشاء الموسيقى (رغم أن هذه المنطقة تحتاج إلى الكثير من التحسين).

على الرغم من أن هذه التكنولوجيا يمكن أن تكون مفيدة في نواح كثيرة (مساعدي الذكاء الاصطناعي ، ومساعدة الأشخاص الذين يعانون من ضعف الكلام وما إلى ذلك) ، إلا أنها يمكن أن تستخدم لأفعال مشكوك فيها وخطيرة أيضًا (العبث بالأدلة ، والتحرش الصوتي ، والاحتيال وما إلى ذلك). وبالتالي ، فإن الاحتمالات لا حصر لها والأمر متروك لكل واحد منا كيف نستخدم هذه التكنولوجيا لتحسين هذا العالم.

مصدر الصورة : United States Department of Energy

ليست هناك تعليقات