Mining Frequent Structural Patterns from XML Datasets
No Thumbnail Available
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Saudi Digital Library
Abstract
أصبح ال XML معياراً مقبولاً لتبادل المعلومات على شبكة الانترنت، نظراً لمرونته وقدرته على تمثيل أنواع مختلفة من البيانات. في الوقت الحاضر تزايد استخدام ال XML بشكل هائل. ونتيجة لتزايد كمية المعلومات المخزنة بهذا التنسيق، تزايدت أهمية إستكشاف معلومات قيمة منها. بكل الأحوال فإن إستكشاف معلومات مفيدة من البيانات المخزنة بتنسيق ال XML يعتبر مهمة صعبة، نتيجة لتمثيل البيانات في أنماط شجرية هرمية. سنقوم في هذه الأطروحة بتقديم خوارزمية جديدة و فعالة لإستكشاف الأنماط المتكررة للبيانات في ملفات ال XML. بخلاف أنماط البيانات الشجرية العامة، تمتلك الأنماط الشجرية في XML العديد من الأنماط الفرعية المتكررة. تستغل الخوارزمية المقترحة وجود الأنماط الفرعية المتكررة و تقوم بما يلي: أولا، تقوم بتجميع المدخلات المتمثلة بمجموعات بيانات XML بناء على الأنماط الهيكلية لها. ثانيا، تقوم بتشفير مجموعة بيانات ال XML من أجل تقليل مساحة التخزين اللازمة و من أجل تجنب التعامل مع النصوص. ثالثا، تقوم بتطبيق خوارزمية Apriori على مجموعة بيانات ال XML بعد إجراء التجميع والتشيفر عليها، تقوم هذه الخوارزمية بإيجاد الأنماط الهيكلية الفرعية المتكررة بشكل مستمر. أظهرت النتائج التجريبية أن الخوارزمية المقترحة تعطي نتائج أفضل بشكل كبير من الخوارزمية المبنية على خوارزمية Apriori.