تطبيق تقنيات التنقيب في البيانات على محتوى تويتر النصي المكتوب باللغة العربية لتصنيف التنمّر الإلكتروني في المملكة العربية السعودية
No Thumbnail Available
Date
2020
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Saudi Digital Library
Abstract
أصبحت وسائل التواصل الاجتماعي جزءًا من حياتنا اليومية ؛ بحيث أصبحت وسيلة الاتصال العالمية معظم البلدان ولمعظم الناس تمثل تويتر قناة اتصال شائعة يمكن للجميع الوصول إليها واستخدامها بسهولة. يمكن استخدامها بشكل ايجابي ويمكن ايضاً استخدامها بشكل غير لائق ويمكن أن يكون له تأثير سلبي كبير
عبر
على الآخرين. يعد التنمر الالكتروني عبر الإنترنت أحد الآثار السلبية الشائعة على نطاق واسع. التسلط . الإنترنت هو شكل من أشكال التنمر عبر الإنترنت الذي يحرج الآخرين لاكتشاف التسلط عبر الإنترنت وتصنيفه، يمكن تطبيق تقنيات التنقيب في البيانات واكتشاف المعرفة لهذا الغرض الهدف النهائي من هذه الرسالة. هو اكتشاف وتصنيف مشكلة التنمر الإلكتروني في محتويات موقع تويتر باللغة العربية في المملكة العربية السعودية من خلال النتائج، حصل نموذجا التصنيف المقترحة في هذه الاطروحة على نتائج جيدة، ويمكن لكليهما اكتشاف الحالات السلبية والإيجابية للتسلط في التغريدات استخدمنا النهج القائم على الليكسكون من خلال إنشاء معجم نقاط المعلومات المتبادلة (PMI) للمساعدة في تصنيف التغريدات، كما استخدمنا نهج التعلم الآلي. تم إجراء التقييم لكلتا الطريقتين، حيث كانت درجة دقه النهج الأول متدنية بينما الثاني حقق أفضل أداء من الاول بعد إعادة تشكيل مجموعة البيانات ليصل الى 82%.
Description
Social media has become part of our daily life; it has become a global means of
communication for the most. Twitter is a common communication channel and can be
accessed and used easily by everyone. It can be employed inappropriately and could be
having much of a negative effect on other people. One of the widely common negative
effects is cyberbullying. Cyberbullying is a form of online bullying that embarrasses other
people. To discover and classify cyberbullying, data mining and knowledge discovery
techniques can be applied for this purpose. The ultimate goal of this dissertation is to
discover and classify the Cyberbullying problem in Twitter's Arabic contents in Saudi
Arabia. The two classification models obtained good results, and both can discover the
negative and positive cases of cyberbullying. We used the lexicon-based approach by
generating PMI (Pointwise Mutual Information) lexicon to help in tweets classification,
also we used the Machine Learning approach named Support Vector Machine (SVM).
Both methods evaluated, where the F-score of the first approach was 50% while the best
performance of SVM after resampling dataset became 82%.