Sentiment Analysis Of Arabic Tweets Based On Ensemble Machine Learning Approach
Date
2019
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Imam Abdulrahman Bin Faisal University
Abstract
Sentiment analysis is a powerful technique used to analyze and classify opinions and emotions expressed in textual writings. The increased use of social networks in the Arab world has provided a rich research ground for sentiment analysis. In this thesis, the problem of sentiment classification of Arabic text was addressed. A model based on machine learning was proposed to classify the underlying sentiments as being positive or negative. The proposed model is a voting ensemble of three classifiers: Support Vector Machine, AdaBoost and Naive Bayes Multinomial. To evaluate the effectiveness of the proposed model, a dataset was created from tweets discussing several polarizing social events associated with Saudi Arabia’s vision 2030. The dataset was manually annotated according to sentiment. In addition to the created dataset, an earlier dataset was used in this thesis as a baseline dataset. The proposed sentiment analysis framework involved several linguistic techniques, including light stemming and word normalization. Also, multiple feature sets were extracted and explored such as N-grams, tweet topic and emoticons-based features. Furthermore, the obtained results were optimized by finding the optimal classifier parameters, investigating several ensemble combination rules and applying correlation-based recursive feature elimination. The experimental results revealed excellent classification accuracy and portrayed the ensemble’s ability to perform better than the performance of its base classifiers. Moreover, the results indicated that the proposed ensemble technique outperformed the earlier used model on the same baseline dataset by an 8.5% accuracy increase, which is an indication of the superiority of the proposed model.
Description
تقوم على تحليل وتصنيف الآراء في الكتابات النصية بشكل إلكتروني. يتزامن (Sentiment Analysis) عملية تحليل الآراء النمو الحاصل في استخدام شبكات التواصل الاجتماعية في العالم العربي مع أهمية وقيمة دراسة تحليل الأراء. في هذه الرسالة، تم اق تراح نموذج لتصنيف الآراء المكتوبة عريباً إلى صنفين إيجابية أو سلبية. النموذج المقترح عبارة عن (Machine Learning) قائم على تقنية تعلم الآلة Naive Bayes و AdaBoost و Support Vector Machine ناتج عملية تصويت بين مجموعة مكونة من ثلاثة مصنفات من التغريدات التي تناقش عدد من الأحداث الاجتماعية (Dataset) لتقييم فعالية النموذج المقترح، تم جمع مجموعة بيانات Multinomial. المرتبطة ب رؤية المملكة العربية السعودية 2030 ، ثم تم تصنيف التغريدات يدويًا حسب كونها إيجابية أو سلبية. للحصول على أفضل النتائج تم أيضًا، تم استخراج (Light Stemming) تطبيق عدة تقنيات لمعالجة النصوص المراد تصنيفها مثل إعادة الكلمات إلى جذرها اللغوي وتحديد موضوع كل تغريدة وكذلك مدى استخدام رموز (N-grams) متعددة واستكشافها، مثل (Feature Sets) مجموعات ميزات في النصوص. علاوة على ذلك، تم تحسين النتائج التي تم الحصول عليها من خلال العثور على أفضل القيم لخواص (Emojis) الإموجي (Ensemble Combination Rules) ودراسة تأثير عدة أنواع لتجميع نتائج المصنفات (Parameter Tuning) المصنفات (Correlation-Based Recursive Feature كذلك العمل على اختيار أفضل الميزات الدلالية بتطبيق خوارزمية تم اختبار مدى قدرة النموذج المقترح على تصنيف الآراء العربية، وقد أظهرت نتائج الاختبارات دقة تصنيف ممتازة. كما Elimination). تبين من النتائج أن التقنية المقترحة تفوقت على نموذج مستخدم سابقاً بزيادة دقة قدرها 8.5 ٪ ، وهذا مؤشر على تفوق النموذج المقترح. في الختام، يمكن الاستفادة من النموذج في الوصول لفهم أسرع وأدق لأراء الأشخاص وعواطفهم.
Keywords
Computer scienc, Machine Learning, Sentiment Analysis