AUTOMATIC DIACRITICS RESTORATION FOR ARABIC TEXT

No Thumbnail Available
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Saudi Digital Library
Abstract
تتكوّن الكتابة العربيّة من أحرف وعلامات للتّشكيل، وهذه الأخيرة عادةً ما تحذف للتّسهيل على الكاتب، لأنّ القارئ العربيّ الخبير يستطيع بسهولة استنتاج تلك العلامات لأيّ كلمة عبر سياق النّصّ. ويستعصي هذا على القارئ المبتدئ الّذي ربّما يجد صعوبةً في استنتاجها. كما تعتبر علامات التّشكيل ذات أهمية بالغة لكثير من تطبيقات الحاسب الآلي اللسانية كالتّعرف الآلي على الكلام، والترجمة الآلية، ونطق النصوص المكتوبة. ولذا فمن المهم أن تُستعاد تلك العلامات عند الشروع في أي من هذه التطبيقات لتحسين أدائها. اتبعت الأبحاث المتعلقة بهذا الشّأن إحدى طريقتين: الأولى هي الطريقة الإحصائية والتي تستخدم في غالبها خوارزميات تعلم الآلة، والثانية طريقة تعتمد على قواعد مشتقة من قواعد النحو والإملاء للغة العربية. سعينا في هذه الرسالة البحثية لاتباع طريقة ثالثة تجمع بين الطريقتين السابقتين، والتي من شأنها تحسين دقة التّشكيل الآلي. نقدّم في هذه الرسالة البحثية إسهامين رئيسين: الأوّل بناء مكنز مشكل آليًا، والثاني تطوير مشكل آلي هجين يجمع بين الطريقة الإحصائية والقواعد. وقد قمنا ببناء المكنز من مصادر عدة، سواء كانت مشكلة أو غير مشكّلة، مع مراعاة التنوع في مجالات عدة كالأخبار، والرياضة، والأدب، والدين. ويحتوي هذا المكنز على أكثر من 28,000,000 كلمة من الكتب التراثية، وحوالي 3,000,000 كلمة من اللغة العربية الحديثة. ونبين في هذه الرسالة الطريقة المتبعة في بناء المكنز بشكل تفصيلي وكذلك نعرض إحصاءات شتّى مستخرجة منه. ويعتمد الإسهام الثّاني لهذه الرسالة البحثية على دمج الطريقة الإحصائية مع القواعد في نظام هجين للتّشكيل الآلي. وقد استنتجت القواعد من المكنز بحيث تضمن دقة تقترب من 100%. وتتكون كل قاعدة من عدّة خصائص، كالحرف الحالي والأحرف السّابقة واللاحقة والكلمات الوقفية وهلم جرا. وقد أثبتت النتائج المستخلصة أن استخدام هذه القواعد يحسن أداء ودقة التّشكيل بشكل ملحوظ. أما في الطّريقة الإحصائية، فقمنا باستخدام سلاسل الكلمات والأحرف والوسوم المستخرجة من المكنز، ومن ثمّ قمنا باختيار أفضل تشكيل ممكن (لكل مستوى من المستويات الثلاثة) باستخدام خوارزمية بحثية "نهمة" (greedy) وتبنى هذه الطّريقة على نتائج القواعد سالفة الذكر.
Description
Keywords
Citation
Collections