Automatic Vocalization of Arabic Text

No Thumbnail Available
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Saudi Digital Library
Abstract
تمثل علامات التشكيل (الحركات) في اللغة العربية دورا رئيسا في فهم معاني الكلمات وصحة لفظها وفهم المعنى العام للنص، حيث أن الكلمة الواحدة قد تحتمل عدة أوجه في التشكيل، لكل وجه معنىً مختلف. ولهذا السبب يواجه غير العربي صعوبة في قراءة وفهم النصوص العربية غير المُشَكَّلة. وتتطلب العديد من تطبيقات اللغة العربية أن تكون النصوص والكلمات العربية مُشَكَّلة كي تكون نتائج هذه التطبيقات مقبولة، ومن هذه التطبيقات أنظمة التعرف الآلي على الكلام العربي. نعرف التشكيل الآلي على أنه عملية إضافة علامات التشكيل المناسبة إلى النصوص غير المُشَكَّلة أو المُشَكَّلة جزئياً. وتسمي هذه العملية أحيانا باسترجاع علامات التشكيل. وعملية التشكيل الآلي شائعة في عدة لغات منها بعض اللغات اللاتينية واللغات السامية. قمنا في هذا العمل البحثي بتطوير مكنز عربي مشكل تشكيلا كاملا، وطورنا طرقا للتشكيل الآلي للنص العربي. اعتمدنا في عملية تطوير المكنز على مكنز قد سبق إنشاؤه وسمي ب “SENTENCES3”، حيث قمنا بتعريض المكنز إلى معالجات تصحيحية للتأكد من صحة كلمات المكنز واكتمال التشكيل. وكانت النتيجة الوصول إلى كنز جديد أسميناه "تشكيل-2016" كما قمنا بالعمل على مكنز جديد وهو مكنز المصحف، ولقد اخترنا العمل عليه لتأكدنا من دقة المحتوى والتشكيل. عدا عن ذلك، قمنا بتطوير مكنز جديد استهدفنا في محتواه النصوص العربية المعاصرة، حيث إن مكنز "تشكيل-2016" اعتمد على النصوص التقليدية. سمّينا المكنز الجديد بمكنز "أخبار-2016" حيث انه اعتمد على النصوص الإخبارية فقط، ويحتوي المكنز على اكثر من 10 ملايين كلمة. ويتركز الجزء الثاني من هذا العمل البحثي على تطوير طرق لتشكيل النص العربي آليا. واعتمد البحث على استنباط الخصائص التي تساهم في عملية التشكيل ودقته ومن ثم اختيار افضل مجموعة من هذه الخصائص، وللبدء في عملية التشكل تم تطوير برمجية تحتوي على عدة وحدات مترابطة مع بعضها مشكلة نظام التشكيل الآلي. ويستعمل نظام التشكيل أشجار القرار وبالأخص خوارزمية "WEKA J48" يضاف إليها مرحلة "بعد المعالجة" نستخدم فيها نماذج التكرار "N-Gram". لقد تم إجراء العديد "من التجارب للحصول على أدق النتائج الممكنة وافضل نماذجٍ للتشكيل حيث حصل مكنز المصحف على افضل النتائج مقارنة بمكنز "تشكيل-2016". كانت أفضل النتائج لأقل نسبة في الخطأ التشكيلي على مستوى الحرف لمكنز المصحف بنسبة 6% في حالة التشكيل دون تشكيل آخر حرف في الكلمة و9% في حالة التشكيل الكامل. وأما بالنسبة إلى مكنز "تشكيل-2016" فكانت نسبة الخطأ التشكيلي على مستوى الكلمة 18% في حالة التشكيل دون تشكيل آخر حرف في الكلمة و28% في حالة التشكيل الكامل.
Description
Keywords
Citation
Collections