Machine Learning Based Diagnosis of Breast cancer using Mammography Data

Thumbnail Image

Date

2019

Journal Title

Journal ISSN

Volume Title

Publisher

Imam Abdulrahman Bin Faisal University

Abstract

Tumor is an abnormal tissue which can be presented at any part of the body. It can be classified to either benign or malignant. One of the most common women's tumors infects the breast. Such tumor can be detected by mammogram which can be used by radiologist to identify a breast tumor and classify it. This is a time-consuming process and prone to error due to the complexity of the tumor. In this study, machine learning based techniques have been developed to assist the radiologist to read mammogram data and classify the tumor in a very reasonable time interval. For this purpose, several features were extracted from region of interest in the mammogram which has been manually annotated by the radiologist. These features were incorporated to a classification engine for training and building the proposed structure classification models. Dataset previously unseen to the model was used to evaluate the accuracy of the proposed system following the standard model evaluation schemes. In this thesis, three experiments have been done using five classification techniques which are Decision Tree, K-Nearest Neighbor, Support Vector Machine, Naive Bayes, and Discriminant Analysis in order to improve the performance of the model. Each experiment included several tests. Accordingly, this thesis found that there are various factors that could affect the performance, that were avoided after experimenting all the possible ways. This thesis finally recommends the use of the optimized Support Vector Machine or Naive Bayes that produced 100% accuracy after integrating feature selection and hyperparameter optimization schemes.

Description

الورم هو نسيج غير طبيعي يمكن أن يظهر في أي جزء من الجسم. يمكن تصنيف الورم إلى حميد وخبيث. أحد أكثر الأو ا رم التي تصيب النساء شيوعاً هي أو ا رم الثدي. ومع ذلك، يمكن الكشف عن هذا الورم في مرحلة مبكرة من خلال أشعة الماموج ا رم حيث يمكن استخدامها لتحديد ورم الثدي وتصنيفه إلى حميد أو خبيث من قبل أطباء الأشعة. لكن هذه العملية تستغرق وقتاً طويلاً وعرضة للخطأ بسبب تعقيد الورم. في هذه الد ا رسة، تم تطوير تقنية التعلم الآلي لمساعدة أخصائي الاشعة لق ا رءة بيانات الماموج ا رم وتصنيف الورم إلى حميد وخبيث. لهذا الغرض، تم استخ ا رج العديد من المي ا زت من المنطقة موضع الاهتمام التي تم تحديدها يدوياً من قبل أخصائي الاشعة. بعد ذلك، تم دمج هذه المي ا زت مع محرك التصنيف لبناء وتدريب تقنية التصنيف. تم استخدام مجموعة جديدة من البيانات لم يتم استخدامها مسبقاً، حيث تم تجزئتها إلى مجموعتين للتدريب والاختبار لتقييم دقة النظام المقترح باستخدام تقنيات التحقق من الصحة . في هذه الأطروحة، تم إج ا رء ثلاث تجارب باستخدام خمس تقنيات تصنيف وهي: شجرة الق ا رر، والجار الأقرب، وآلة دعم المتجهات، ومصنف بايز الساذج، والتحليل التمييزي. تضمنت كل تجربة عدة اختبا ا رت باستخدام معايير مختلفة. وفقاً لذلك، وجدت هذه الأطروحة أن هناك العديد من العوامل التي يمكن أن تؤثر على أداء النماذج المقترحة. في التجربة الثالثة، تم تجنب العوامل المؤثرة في التجارب السابقة بعد اختبار كل الطرق الممكنة التي جعلت هذه الع وامل واضحة . توصي هذه الأطروحة أخي اً ر باستخدام وآلة دعم المتجهات المحسنة أو مصنّف بايز الساذج، والتي حققت دقة تصنيف بنسبة 100 % وذلك بعد دمج وظائف اختيار المي ا زت وتحسين المعلمات الفائقة

Keywords

Computer science, Decision Tree, K-Nearest Neighbor, Support Vector Machine, Naive Bayes

Citation

Endorsement

Review

Supplemented By

Referenced By

Copyright owned by the Saudi Digital Library (SDL) © 2025