AUTHORSHIP ATTRIBUTION OF ARABIC TEXTS
No Thumbnail Available
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Saudi Digital Library
Abstract
تتناول هذه الرسالة الأساليب المختلفة لمعرفة كاتب النصوص العربية من خلال الاستفادة من التقنيات والسمات والمصنفات الحديثة. كما تساهم هذه الرسالة بإضافة وتصميم سمات وتقنيات جديدة. تم في هذا البحث بناء وتطوير نظام فعال لمعرفة كاتب النصوص العربية وتمييز خصائص وأسلوب الكتابة لدى الكاتب. ونظرا لعدم وجود قاعدة بيانات لهذا الغرض، فقد شمل هذا العمل بناء قاعدة بيانات لتحديد كاتب النصوص العربية حيث تم اختيار20 من كتاب الأعمدة المشهورين في الصحف العربية. تم استخراج العديد من السمات اللغوية وهي: المفردات المستخدمة، واحتمالات سلسلة المحارف المتتالية (Character n-grams). وقد تم استخدام نوع جديد من السمات وهو ثراء الكلمات المتتالية (Word n-grams richness) والكلمات الخاصة بكل كاتب. وكذلك اقتراح مجموعة تحوي 309 من الكلمات الوظيفية في اللغة العربية. كما تم إنشاء سمات جديدة عالية المستوى وهي السمات ذات الدلالة المعنوية في اللغة العربية وتطبيقها لأول مرة لمعرفة كاتب النصوص العربية. كما تم اختبار وتقييم مجموعة من تقنيات اكتشاف واستخلاص السمات الأكثر كفاءة من بين السمات المقترحة ومن ثم تطبيق التقنيات الأكثر كفاءة. وقد تم إجراء مجموعة من التجارب بتطبيق السمات المستخلصة والسمات المختصرة على قاعدة البيانات المنشأة باستخدام مجموعة من المصنفات: مصنف المسافة الاقليدية (Euclidian Distance) ومصنف الجيران الأقرب (K-NN)، وقاعدة الدلتا (Delta Rule)، ومصنف الشبكات العصبية (MLP)، ومصنفات دعم الاتجاهات (SMO and LS-SVM). أجريت العديد من التجارب المختلفة في هذا النظام لمقارنة السمات المختلفة المستخدمة وأشارت النتائج إلى كفاءة النظام في معرفة كاتب النصوص العربية. حقق النظام دقة بلغت نسبتها 99.67 % وأشارت النتائج إلى كفاءة السمات والتقنيات المستخدمة مقارنة مع الأنظمة الأخرى.