AUTOMATIC DIACRITICS RESTORATION FOR ARABIC TEXT

dc.contributor.authorSHAABAN OMAR EL SAYED
dc.date2013
dc.date.accessioned2022-05-18T05:34:06Z
dc.date.available2022-05-18T05:34:06Z
dc.degree.departmentCollege of Computer Science and Engineering
dc.degree.grantorKing Fahad for Petrolem University
dc.description.abstractتتكوّن الكتابة العربيّة من أحرف وعلامات للتّشكيل، وهذه الأخيرة عادةً ما تحذف للتّسهيل على الكاتب، لأنّ القارئ العربيّ الخبير يستطيع بسهولة استنتاج تلك العلامات لأيّ كلمة عبر سياق النّصّ. ويستعصي هذا على القارئ المبتدئ الّذي ربّما يجد صعوبةً في استنتاجها. كما تعتبر علامات التّشكيل ذات أهمية بالغة لكثير من تطبيقات الحاسب الآلي اللسانية كالتّعرف الآلي على الكلام، والترجمة الآلية، ونطق النصوص المكتوبة. ولذا فمن المهم أن تُستعاد تلك العلامات عند الشروع في أي من هذه التطبيقات لتحسين أدائها. اتبعت الأبحاث المتعلقة بهذا الشّأن إحدى طريقتين: الأولى هي الطريقة الإحصائية والتي تستخدم في غالبها خوارزميات تعلم الآلة، والثانية طريقة تعتمد على قواعد مشتقة من قواعد النحو والإملاء للغة العربية. سعينا في هذه الرسالة البحثية لاتباع طريقة ثالثة تجمع بين الطريقتين السابقتين، والتي من شأنها تحسين دقة التّشكيل الآلي. نقدّم في هذه الرسالة البحثية إسهامين رئيسين: الأوّل بناء مكنز مشكل آليًا، والثاني تطوير مشكل آلي هجين يجمع بين الطريقة الإحصائية والقواعد. وقد قمنا ببناء المكنز من مصادر عدة، سواء كانت مشكلة أو غير مشكّلة، مع مراعاة التنوع في مجالات عدة كالأخبار، والرياضة، والأدب، والدين. ويحتوي هذا المكنز على أكثر من 28,000,000 كلمة من الكتب التراثية، وحوالي 3,000,000 كلمة من اللغة العربية الحديثة. ونبين في هذه الرسالة الطريقة المتبعة في بناء المكنز بشكل تفصيلي وكذلك نعرض إحصاءات شتّى مستخرجة منه. ويعتمد الإسهام الثّاني لهذه الرسالة البحثية على دمج الطريقة الإحصائية مع القواعد في نظام هجين للتّشكيل الآلي. وقد استنتجت القواعد من المكنز بحيث تضمن دقة تقترب من 100%. وتتكون كل قاعدة من عدّة خصائص، كالحرف الحالي والأحرف السّابقة واللاحقة والكلمات الوقفية وهلم جرا. وقد أثبتت النتائج المستخلصة أن استخدام هذه القواعد يحسن أداء ودقة التّشكيل بشكل ملحوظ. أما في الطّريقة الإحصائية، فقمنا باستخدام سلاسل الكلمات والأحرف والوسوم المستخرجة من المكنز، ومن ثمّ قمنا باختيار أفضل تشكيل ممكن (لكل مستوى من المستويات الثلاثة) باستخدام خوارزمية بحثية "نهمة" (greedy) وتبنى هذه الطّريقة على نتائج القواعد سالفة الذكر.
dc.identifier.other4054
dc.identifier.urihttps://drepo.sdl.edu.sa/handle/20.500.14154/1924
dc.language.isoen
dc.publisherSaudi Digital Library
dc.thesis.levelMaster
dc.thesis.sourceKing Fahad for Petrolem University
dc.titleAUTOMATIC DIACRITICS RESTORATION FOR ARABIC TEXT
dc.typeThesis
Files
Collections