DOCUMENT ANALYSIS AND SCRIPT IDENTIFICATION

dc.contributor.authorBAMASOOD Z AHMED SAHAL
dc.date2013
dc.date.accessioned2022-05-18T04:47:59Z
dc.date.available2022-05-18T04:47:59Z
dc.degree.departmentCollege of Computer Science and Engineering
dc.degree.grantorKing Fahad for Petrolem University
dc.description.abstractالهدف الأساسي من هذه الرسالة هو تطوير تقنيات تقوم بتقسيم مستند إلى مناطق نصية وغير نصية, ثم تصنيف لغات المناطق النصية إلى عربي أو لاتيني. ينقسم النظام إلى جزأين: تحليل وتصنيف المستند، وتحديد اللغة. اقترحنا خوارزمية في تحليل وتصنيف المستند لتقسيم مستند إلى مناطق متجانسة، وثم تصنف المناطق المتجانسة إلى نصية أو غير نصية. تتكون قاعدة البيانات من 398 صورة مأخودة من قاعدة النص العربي المطبوع (المقدمة في جامعة الملك فهد للبترول والمعادن) والتي تشمل 6074 منطقة مقسمة إلى 4231 منطقة للتدريب و1843 منطقة للفحص. أظهرت خوارزميتنا المقترحة بأنها الأفضل أداءً في مقياس الخطأ للمناطق المدموجة عندما قارناها بالخوارزميتين XY cut، وRLSA. لتحديد أفضل السمات اتبعنا طريقتين الأولى طريقة تحديد السمات بالتسلسل الأمامي والثانية طريقة تحديد السمات بالتسلسل الخلفي. لتقييم أفضل السمات، استخدمنا مصنفات الشبكة العصبية (NN)، والدعم الموجه الآلي (SVM) والجار الأقرب (K-NN). أظهرت خوارزميتنا المقترحة بأنها الأفضل في كل الحالات إلا في حالة تحديد السمات بالتسلسل الخلفي مع استخدام مصنف الشبكة العصبية. وفي تحديد اللغة، استخرجنا سمات جابور على مستوى المنطقة والكلمة. تتكون قاعدة البيانات من 444 صورة مأخوذة من قاعدة النص العربي المطبوع، وقاعدة جامعة واشنطن الإصدار الأول، وقاعدة البيانات الخاصة بنا. المصنفات المستخدمة في تحديد اللغة على مستوى المنطقة والكلمة هي الجار الأقرب (K-NN)، والمتوسط الأقرب (Nearest Mean)، والشبكة العصبية (NN)، والدعم الموجه الآلي (SVM)، وشجرة القرار (Decision Tree)، وشجرة الدعم (Tree Boost). حيث اظهر مصنف الدعم الموجه الآلي النتائج الأفضل: وهي 99.5952% على مستوى المنطقة و99.76% على مستوى الكلمة. بينما أظهر مصنف المتوسط الأقرب النتائج الأقل على مستوى المنطقة والكلمة.
dc.identifier.other4230
dc.identifier.urihttps://drepo.sdl.edu.sa/handle/20.500.14154/1476
dc.language.isoen
dc.publisherSaudi Digital Library
dc.thesis.levelMaster
dc.thesis.sourceKing Fahad for Petrolem University
dc.titleDOCUMENT ANALYSIS AND SCRIPT IDENTIFICATION
dc.typeThesis

Files

Copyright owned by the Saudi Digital Library (SDL) © 2025