CONTENT-BASED RETRIEVAL OF ARABIC HISTORICAL MANUSCRIPTS USING LATENT SEMANTIC INDEXING
No Thumbnail Available
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Saudi Digital Library
Abstract
تعتبر عملية البحث اليدوي في المخطوطات العربية من الأمور الصعب تنفيذها وذلك نظرا لضخامة المخزون من هذه المخطوطات مما يؤدي لصعوبة انشاء الفهارس يدويا. كما ان البحث التلقائي لن يجدي نفعا نظرا لوجود الكثير من هذه المخطوطات مخزنة بالأساس كصور. وعلى الرغم من توفر تقنية التعرف الضوئي على الحرف (OCR) فإن بعضا من خصائص المخطوطات العربية التاريخية وبعض محتوياتها كالأرقام والرسومات تعيق تقنيات التعرف الضوئي على الحرف من أداء المهمة وبالتالي الحصول على نتائج مرضية. نتيجة لهذه الأسباب، فإننا نقدم في هذا العمل البحثي توظيف تقنيات المحتوى القائم على استرجاع الصور (CBIR) ومبادئ فهرسة الدلالات الكامنة (LSI) نهجا لفهرسة هذه المخطوطات وجعلها أفضل وصولا للعامة. يتكون النظام المطور من خمس وحدات رئيسية هي : 1) التجهيزات المسبقة، 2) تجزئة الصور، 3) استخراج السمات، 4) بناء فهرس الدلالات الكامنة و 5) تنفيذ و مطابقة الاستعلامات. بالإضافة إلى ذلك، قمنا في هذا العمل البحثي بتقديم سمة جديدة وهي الشبكة الدائرية القطبية Circular Polar Grids. أما فيما يتعلق باختبار النظام، قمنا بالحصول على مخطوطتين عربيتين ومن ثم تنفيذ الوحدات الرئيسية على تلك المخطوطتين. تم تقييم كفاءة ودقة النظام المطور باستخدام المقياسي: الدقة Precision والاسترجاع Recall. أظهرت النتائج أن نظامنا قادر على استرجاع الكلمات المرتبطة ذات الصلة. بالإضافة إلى ذلك، أظهرت السمة الجديدة، الشبكة الدائرية القطبية، تفوقها على مجموعات السمات الأخرى المستخدمة في النظام.