RECOGNITION OF ARABIC ONLINE HANDWRITTEN TEXT USING SYNTACTICAL TECHNIQUES
No Thumbnail Available
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Saudi Digital Library
Abstract
قمنا في هذه الرسالة بدراسة التعرف الآني على الكتابة اليدوية العربية بإستخدام الصفات البنيوية. تتعدد تطبيقات أنظمة التعرف التلقائي على الكتابة العربية. أبرز هذه التطبيقات هي عملية إدخال البيانات من خلال الأجهزة المدعومة بالأقلام الإلكترونية. إضافة إلى ذلك يعتبر التعرف على الكاتب و معالجة النماذج من التطبيقات الأخرى. تم نشر عدد كبير من الأبحاث في هذا المجال مؤخرا. تتقدم اللغات اللآتينية و اللغة الصينية على اللغات الأخرى و من ضمنها العربية في هذا المجال. قد يعود السبب في ذلك إلى طبيعة الكتابة المتصلة و كتابة الحروف المتراكبة في اللغة العربية إضافة إلى نقص وجود مصادر و قواعد بيانات معيارية شاملة. ركزت الأبحاث السابقة في مجال التعرف على الكتابة اليدوية العربية على الحروف المنفصلة، و الأرقام بالإضافة إلى الكلمات المنفصلة. حيث تم إستخدام العديد من المنهجيات لتنفيذ مراحل تقطيع الكلمات و التعرف عليها. استعملت الطرق الإحصائية لتنفيذ عمليات التقطيع والتعرف على النصوص المتصلة. من الأمثلة على ذلك إستخدام نماذج ماركوف الخفية (Hidden Markov Models), والشبكات العصبية (Neural Networks). من جهة أخرى لم يتم إستخدام المنهجيات التي تعتمد على الصفات البنيوية في هذا المجال. لكن قامت بعض الأنظمة و الأبحاث بدمج الأساليب الإحصائية مع الأساليب البنائية. نقدم في هذه الرسالة أساليب و طرق جديدة لتنفيذ المراحل المختلفة في عملية التعرف على الكتابة اليدوية العربية. حيث تم إستحداث خوارزمية مبنية على القواعد لتقوم بعملية تقطيع النصوص المتصلة. تهدف الخوارزمية إلى تقسيم النصوص المتصلة المكتوبة بشكل آني إلى حروف منفصلة. تقوم الخوارزمية بإستخدام مجموعة من القواعد من أجل إستخراج نقاط القطع المحتملة -Possible Segmentation Points (PSP)- في النص الآني. تتميز هذه القواعد بسهولة تحديثها وتعديلها. إضافة إلى ذلك، تم إستحداث خوارزمية أخرى مبنية على القواعد للقيام بعملية فصل الحروف العربية عن تشكيلاتها و النقاط المرتبطة بها. كما طورنا في هذه الرسالة اسلوب محسن لتمثيل الحروف العربية بشكل ضبابي. يقوم هذا الأسلوب على الإستفادة من المضلعات التقريبية لأشكال الحروف وزوايا هذه المضلعات لتمثيل الحروف. تم إستخدام هذه النماذج للقيام بعملية تقييم التشابه بين نماذج الحروف. وقد تم تطبيق التقنيات المقترحة على بعض قواعد البيانات المتوفرة القياسية والخاصة. وحصلنا على نتائج مقبولة مع الأخذ بعين الإعتبار أنه تم إختبارها على نصوص عربية يدوية غير مقيدة. يتضمن ذلك كلا من عمليات التقطيع والتعرف على الكلمات. ومن المعلوم أن الأخطاء الناجمة عن التقطيع تؤدي إلى زيادة كبيرة في أخطاء التعرف على الكلمات. إن النتائج التي توصلنا إليها في هذه الرسالة تحفزنا وغيرنا من الباحثين على بذل جهود أكبر و ذلك لوجود مساحة كبيرة من التطوير و تحسين الأداء. إضافة إلى إمكانية تطوير هذه التقنيات وتطبيقها بطرق مختلفة للحصول على نتائج أعلى.