Spell Checking and Correction for Arabic Text Recognition

No Thumbnail Available
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Saudi Digital Library
Abstract
تعد مشكلة التدقيق والتصحيح الإملائي واحدة من المشاكل النشطة بحثيا في مجال معالجة اللغة الطبيعية. وتعود هذه الأهمية إلى حقيقة إنها مفيدة في مجالات عدة مثل معالجة النصوص، إسترجاع المعلومات، تصحيح القواعد النحوية والترجمة الآلية. هذا بالإضافة الى أهميتها في تصحيح أخطاء التعرف الضوئي على الحروف (OCR). في هذه الأطروحة تم تصميم وتطوير نموذج التدقيق والتصحيح الإملائي للنص العربي. ويتكون هذا العمل من مكنز نص عربي مجمع من موضوعات مختلفة مثل الأخبار والقصص القصيرة والكتب. وباستخدام عدة أنواع من النماذج اللغوية (ان-غرام والقاموس). استخدمنا المحلل الصرفي العربي لـ Buckwalter (BAMA)، والبحث في القاموسDictionary Look-up ونماذج اللغة على مستوى الحرف character n-grams للتدقيق الإملائي. و قد استخدمنا تقنية تحرير المسافة edit distance ، نماذج اللغة على مستوى الكلمة word n-grams و مصفوفة الإلتباس (OCR confusion) للتصحيح الإملائي. ولإختبار نموذجنا للتدقيق الإملائي والتصحيح، فقد قمنا باستخدام مجموعتين من البيانات. المجموعة الأولى، بيانات النص العربي المتعرف عليه آليا، والتي تم توليدها من نظام التعرف الضوئي على الكتابة العربية و الذي تم تطويره في جامعة الملك فهد للبترول والمعادن. والمجموعة الثانية، بيانات تم توليدها بواسطة الحاسوب وقد تم إعدادها بأخذ نص عادي صحيح ، و إدراج ثلاثة أنواع من الأخطاء عشوائيا وهي الإدراج أو الحذف أو الإستبدال في النص. وقد تمت مقارنة دقة نتائج تقنيات التدقيق الإملائي من حيث الشمولية (recall) والدقة (precision) و قياس ف1 ((F1-measure وتم جمع نتائج تقنيات المحلل الصرفي العربي لـ Buckwalter والبحث في القاموس ونموذج اللغة على مستوى الحرف وتم عرضها وتحليلها. وقد تم الحصول على أفضل النتائج بجمع المحلل الصرفي العربي لـ Buckwalter (BAMA) والبحث في القاموس Dictionary Look-up. كما تم عرض وتحليل دقة نتائج تقنيات تحرير المسافة ونماذج اللغة على مستوى الكلمة word n-grams و مصفوفة الإلتباس (OCR confusion ) للتصحيح الإملائي. وقد أظهرت النتائج إن إستخدام تحرير المسافة مع تقنيات نماذج اللغة أعطى نتائج جيدة على كل من بيانات النص العربي المتعرف عليه آليا والبيانات المولدة بواسطة الحاسوب
Description
Keywords
Citation
Collections