DOCUMENT ANALYSIS AND SCRIPT IDENTIFICATION

BAMASOOD Z AHMED SAHAL

DOCUMENT ANALYSIS AND SCRIPT IDENTIFICATION

dc.contributor.author	BAMASOOD Z AHMED SAHAL
dc.date	2013
dc.date.accessioned	2022-05-18T04:47:59Z
dc.date.available	2022-05-18T04:47:59Z
dc.degree.department	College of Computer Science and Engineering
dc.degree.grantor	King Fahad for Petrolem University
dc.description.abstract	الهدف الأساسي من هذه الرسالة هو تطوير تقنيات تقوم بتقسيم مستند إلى مناطق نصية وغير نصية, ثم تصنيف لغات المناطق النصية إلى عربي أو لاتيني. ينقسم النظام إلى جزأين: تحليل وتصنيف المستند، وتحديد اللغة. اقترحنا خوارزمية في تحليل وتصنيف المستند لتقسيم مستند إلى مناطق متجانسة، وثم تصنف المناطق المتجانسة إلى نصية أو غير نصية. تتكون قاعدة البيانات من 398 صورة مأخودة من قاعدة النص العربي المطبوع (المقدمة في جامعة الملك فهد للبترول والمعادن) والتي تشمل 6074 منطقة مقسمة إلى 4231 منطقة للتدريب و1843 منطقة للفحص. أظهرت خوارزميتنا المقترحة بأنها الأفضل أداءً في مقياس الخطأ للمناطق المدموجة عندما قارناها بالخوارزميتين XY cut، وRLSA. لتحديد أفضل السمات اتبعنا طريقتين الأولى طريقة تحديد السمات بالتسلسل الأمامي والثانية طريقة تحديد السمات بالتسلسل الخلفي. لتقييم أفضل السمات، استخدمنا مصنفات الشبكة العصبية (NN)، والدعم الموجه الآلي (SVM) والجار الأقرب (K-NN). أظهرت خوارزميتنا المقترحة بأنها الأفضل في كل الحالات إلا في حالة تحديد السمات بالتسلسل الخلفي مع استخدام مصنف الشبكة العصبية. وفي تحديد اللغة، استخرجنا سمات جابور على مستوى المنطقة والكلمة. تتكون قاعدة البيانات من 444 صورة مأخوذة من قاعدة النص العربي المطبوع، وقاعدة جامعة واشنطن الإصدار الأول، وقاعدة البيانات الخاصة بنا. المصنفات المستخدمة في تحديد اللغة على مستوى المنطقة والكلمة هي الجار الأقرب (K-NN)، والمتوسط الأقرب (Nearest Mean)، والشبكة العصبية (NN)، والدعم الموجه الآلي (SVM)، وشجرة القرار (Decision Tree)، وشجرة الدعم (Tree Boost). حيث اظهر مصنف الدعم الموجه الآلي النتائج الأفضل: وهي 99.5952% على مستوى المنطقة و99.76% على مستوى الكلمة. بينما أظهر مصنف المتوسط الأقرب النتائج الأقل على مستوى المنطقة والكلمة.
dc.identifier.other	4230
dc.identifier.uri	https://drepo.sdl.edu.sa/handle/20.500.14154/1476
dc.language.iso	en
dc.publisher	Saudi Digital Library
dc.thesis.level	Master
dc.thesis.source	King Fahad for Petrolem University
dc.title	DOCUMENT ANALYSIS AND SCRIPT IDENTIFICATION
dc.type	Thesis

Collections

King Fahad for Petrolem University

DOCUMENT ANALYSIS AND SCRIPT IDENTIFICATION

Files

Collections