AUTOMATIC EXTRACTION OF ARABIC SUBWORD UNITS FOR CONTINUOUS SPEECH RECOGNITION
No Thumbnail Available
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Saudi Digital Library
Abstract
تهتم الأبحاث الحديثة في مجال التعرف على الأصوات بالتعرف على الصوت المتصل المستقل عن المتحدث. إن تمييز الصوت المتصل هو أكثر تحديا من غيره من الاصوات وذلك بسبب التغير الكبير في نطق الكلمات أثناء الكلام المتواصل ويعزى ذلك إلى لهجة وعمر وجنس المتكلم وإلى قرب أو بعد الكلمات عن بعضها. إن النموذج الصوتي الذي يمثل كلمات لغة ما يسمى بالألفون. وقد وجدت بعض الدراسات التي تحقق في مدى دقة وأمثلية الفونات الخاصة باللغة الإنجليزية، في حين لا يوجد مثل هذه الدراسات للألفونات العربية والمستخدمة حاليا في تمييز الصوت المتصل. ومن الجدير بالذكر أنه وخلال هذه ألأطروحة تعرضىنا للعديد من خوارزميات وطرق التصنيف والتقطيع للبيانات الصوتية وقمنا بتقييمها بهدف الاستفاده منها في اشتقاق الوحدات الصوتية الأساسية للصوت العربي المتصل. كما قمنا باستحداث آلية مهجنة من طريقتين وهما نموذج ماركوف الخفي والشبكة العصبية الاصطناعية (HMM/LVQ-ANN) لتمييز الألفونات العربية الموضوعة من قبل خبراء اللغة. بالاعتماد على طرق الاستخلاص المباشر من البيانات الصوتية نفسها ، حيث قمنا بدراسة إستخلاص الوحدات الصوتية الأساسية العربية الأكثر ملائمة للغة. فقد قمنا بانتاج عدة مجموعات من الوحدات الصوتية الاساسية وبأحجام 30، 50، 70، 90 و 150 وقمنا باستخدام هذه المجموعات في انتاج المدونات الصوتية المقابلة لكل مجموعه. لقد تبين لنا أن المجموعة المكونة من 70 عنصرا من الوحدات الصوتية الأساسية كانت الأفضل من ناحية الدقة عند استخدامها في تمييز الصوت سواء على مستوى الوحدات الصوتية الأساسية أو على مستوى الكلمات . حيث بلغت نسبة الأولى 79.3% والثانية 34.08% و بالرغم من أن النسبة على مستوى الكلمات غير مقنعه إلا أن هذه الطريقة تعتبر فريدة من نوعها في مجال استخلاص الوحدات الصوتية الأساسية العربية بطريقة الاستخلاص المباشر من البيانات الصوتية.