Developing a High-Quality Tool for Arabic Text-To Speech Using Deep Learning Techniques

No Thumbnail Available

Date

2020

Journal Title

Journal ISSN

Volume Title

Publisher

Saudi Digital Library

Abstract

Text-To-Speech (TTS) synthesis is the process of converting written text into speech. Traditional TTS systems involve two stages: frontend (transforms the text into linguistic features) and backend (uses the linguistics features produced by the frontend to generate the synthesized speech). The frontend requires linguistic expertise to define the features, which is a complex and time-consuming task. Recent advances in deep learning enabled researchers to integrate both frontend and backend into a single system called an end to-end TTS synthesis. These end-to-end systems provide high-quality speech synthesis with simpler designs. While the English language has many TTS synthesis models such as Tacotron and Tacotron 2, the Arabic language lacks any high-quality model. In this work, we build upon the recent advances in deep learning to develop a high-quality TTS synthesis system for the Arabic language. To achieve our goal, we dealt with many challenges, such as diacritization, building speech corpus, and text segmentation. For diacritization, we propose three deep learning models. One of the models achieves state-of-the-art performances in both word error rate and diacritic error rate metrics. The lack of a sizable speech corpus for the Arabic language was solved by designing two speech corpora. The first corpus was designed from an audiobook, where we split the audiobook into smaller audios (1-14 seconds) and then align each audio with its corresponding text. We built a web-based service that highly speeds up the alignment. The second corpus was built for experimental purposes. It was designed from the Polly service synthesized audios, but we were surprised that the model synthesized speech with better natural speech. The TTS model is inspired from Tacotron with many modifications, such as using location-based attention instead of content-based attention. We evaluated the model using the mean opinion score (MOS) on a scale of 1 (Bad) to 5 (Excellent) using a public website. Our best model, which is trained using an audiobook, got an MOS of 4.60 ± 0.11 in intelligibility, 4.34 ± 0.13 in naturalness, and 4.36 ± 0.14 in overall quality. The MOS in naturalness is higher than the results of the English language results using Tacotron (3.8 ± 0.085) and very close to the results of Tacotron 2 using WaveNet (4.526 ± 0.066).

Description

أنظمة توليف الكلام هي الأنظمة التي تقوم بتحويل النص المكتوب الى كلام تتضمن الأنظمة التقليدية التي تحول النص إلى كلام مرحلتين: الواجهة الأمامية تقوم بتحويل النص إلى ميزات لغوية)، والواجهة الخلفية (تستخدم الميزات اللغوية التي تنتجها الواجهة الأمامية لتوليف الكلام. تتطلب الواجهة الأمامية خبرة لغوية عالية لتحديد الميزات اللغوية، وهي مهمة معقدة وتستغرق وقتًا طويلاً. مكنت التطورات الحديثة في التعلم العميق الباحثون من دمج كلاً من الواجهة الأمامية والخلفية في نظام .واحد. توفر هذه الأنظمة توليفا عالي الجودة للكلام بتصاميم أكثر بساطة. في حين أنه تم تطوير العديد من الأنظمة لتوليف الكلام في اللغة الإنجليزية مثل نموذج (Tacotron) ونموذج (Tacotron2)، إلا أن اللغة العربية تفتقر إلى أي نظام عالي الجودة. في هذا العمل سوف نبني على التطورات الحديثة في التعلم العميق لتطوير نظام عالي الجودة لتوليف النص العربي إلى كلام. لتحقيق هدفنا تعاملنا مع العديد من التحديات مثل استعادة التشكيل، وعدم توفر بيانات صوتية كافية للغة العربية لاسترجاع التشكيل، اقترحنا ثلاثة نماذج للتعلم العميق حقق أحد النماذج أفضل أداء في كل من معدل أخطاء الكلمات ومعدل أخطاء التشكيل. تم حل مشكلة عدم توفر بيانات صوتية كبيرة للغة العربية من خلال تصميم بيانات صوتية تتكون من مجموعتين. تم تصميم المجموعة الأولى من كتاب صوتي، حيث قمنا بتقسيم الكتاب الصوتي إلى صوتيات أصغر (1-14) ثانية ثم تم محاذاة كل صوت مع النص المقابل له لقد أنشأنا خدمة على الويب تعمل على تسريع عملية المحاذاة بشكل كبير. تم بناء المجموعة الثانية للأغراض التجريبية. لقد تم تصميمها من صوتيات تم توليفها من خدمة Polly ، لكننا فوجئنا بأن النموذج قام بتوليف الصوت بشكل طبيعي أفضل من الصوت الاصلي. تم بناء نموذج تحويل النص الى كلام للغة العربية بالاعتماد على نموذج Tacotron مع العديد من التعديلات مثل استخدام الانتباه المستند إلى الموقع (location-sensitive attention) بدلاً من الاهتمام المستند إلى المحتوى (content-based attention) قمنا بتقييم النموذج باستخدام متوسط درجة الرأي (MOS) على مقياس من 1 (سيئ) إلى 5 (ممتاز) باستخدام موقع ويب عام قمنا بتصميمه حصل أفضل نموذج لدينا، والذي تم تدريبه باستخدام كتاب صوتي، على MOS بقيمة 4.60 في الوضوح، و 4.34 في طبيعية الصوت، و 4.36 في التقييم العام. تعد قيمة MOS في طبيعية الصوت للنموذج العربي أعلى من نتائج نموذج اللغة الإنجليزية باستخدام نموذج Tacotron وقريبة جدًا من نتائج نموذج 2 Tacotron باستخدام .WaveNet .

Keywords

Deep Learning, Text-To-Speech (TTS), Speech Synthesis, Tacotron, Arabic Language, Diacritization

Citation

Endorsement

Review

Supplemented By

Referenced By

Copyright owned by the Saudi Digital Library (SDL) © 2025