DEEP LEARNING FOR MOLECULAR DESIGN: MODELS, FRAMEWORKS, AND APPLICATIONS
Date
2024-08
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Cornell University
Abstract
The vast and complex landscape of chemical space has traditionally been explored through a combination of experimentation and knowledge-based computational approaches. However, the limitations of these methods have hindered the efficient design of molecules with desired properties. The advent of deep learning, coupled with the availability of big chemical data, presents transformative opportunities for computational molecular design. This dissertation explores the convergence of deep learning and chemical engineering, presenting novel methodologies and frameworks to address challenges in molecular property prediction, molecular design, chemical data extraction, molecular conformation generation, and peptide design.
In Chapter 2, we develop parallel models for the estimation of 25 pure component properties across over 24,000 chemicals, employing both traditional regression and machine learning methods on functional group representations. These models demonstrate robust accuracy in predicting a broad range of physicochemical properties, enabling streamlined product and process design. Chapter 3 addresses the inherent uncertainty in CMD by introducing DRL-CMD, an uncertainty-aware deep reinforcement learning framework. By explicitly quantifying and managing uncertainties, DRL-CMD reduces constraint violations by 39% and uncertainty margins by 27% compared to literature-reported molecules, particularly in complex design scenarios with limited data and extreme property ranges. This approach offers a more reliable path to molecules with tailored properties toward accelerating product and process design. In Chapter 4, the focus is on the extraction of chemical data from scientific literature, critical for model training and discovery. ChemREL, a novel deep learning pipeline, achieves an F1-score of 95.4% for property extraction, outperforming existing methods and GPT-4. Its transferability is demonstrated by successful adaptation from melting point extraction to LD50 extraction with minimal additional training, highlighting the potential to accelerate the construction of large-scale chemical datasets. In Chapter 5, we explore the utilization of abundant 2D molecular graph data to enhance 3D conformer generation, a crucial step in drug discovery. By pretraining graph neural networks on 2D data and improving the GeoMol method, we achieve a 7.7% average improvement in generated conformer quality compared to state-of-the-art sequential methods, improving the accuracy and efficiency of molecular modeling. Chapter 6 addresses the global challenge of plastic pollution by presenting an integrated framework combining biophysics-based insights, evidential deep learning, and metaheuristic search for the design of plastic-binding peptides. This approach leads to significant increases in binding free energies for polypropylene (18%) and polystyrene (34%) compared to previous designs, offering a promising bio-inspired solution for plastic remediation.
By developing these novel deep learning approaches, the resulting advances improve predicting molecular properties, designing molecules with tailored properties while managing uncertainties, constructing a versatile pipeline for chemical data extraction, enhancing the quality of 3D conformer generation, and generating high-affinity plastic-binding peptides for potential environmental remediation. These works signify a step forward in the integration of deep learning and chemical engineering, paving the way for accelerated discovery and innovation in the field.
Abstract (Arabic) تم استكشاف المشهد الواسع والمعقد للمجال الكيميائي تقليدياً من خلال مزيج من التجريب والنهج الحسابية المبنية على المعرفة. ومع ذلك، فقد حدت قيود هذه الطرق من التصميم الفعّال للجزيئات ذات الخصائص المرغوبة. يقدم ظهور التعلم العميق، جنباً إلى جنب مع توفر بيانات كيميائية كبيرة، فرصاً تحويلية للتصميم الجزيئي الحسابي. تستكشف هذه الأطروحة تقاطع التعلم العميق والهندسة الكيميائية، مقدمة منهجيات وأطر عمل جديدة لمواجهة التحديات في تنبؤ خصائص الجزيئات، وتصميم الجزيئات، واستخراج البيانات الكيميائية، وتوليد التكوين الجزيئي، وتصميم الببتيدات. في الفصل الثاني، نطور نماذج موازية لتقدير 25 خاصية مكونة نقية عبر أكثر من 24,000 مادة كيميائية، باستخدام كل من الانحدار التقليدي وطرق التعلم الآلي على تمثيلات المجموعات الوظيفية. تظهر هذه النماذج دقة قوية في التنبؤ بمجموعة واسعة من الخصائص الفيزيائية الكيميائية، مما يتيح تصميم المنتجات والعمليات بشكل مبسط. يتناول الفصل الثالث عدم اليقين الكامن في تصميم الجزيئات الحسابي (CMD) من خلال تقديم إطار عمل التعلم التعزيزي العميق الواعي بالشكوك (DRL-CMD). من خلال تحديد وإدارة الشكوك بشكل صريح، يقلل DRL-CMD من انتهاكات القيود بنسبة 39٪ وهوامش الشك بنسبة 27٪ مقارنة بالجزيئات المبلغ عنها في البحوث السابقة، خاصة في سيناريوهات التصميم المعقدة مع بيانات محدودة ونطاقات خاصية شديدة. يقدم هذا النهج مسارًا أكثر موثوقية للجزيئات ذات الخصائص المصممة خصيصًا لتسريع تصميم المنتجات والعمليات. في الفصل الرابع، يتركز الاهتمام على استخراج البيانات الكيميائية من المستندات العلمية، وهو أمر حاسم لتدريب النموذج والاكتشاف. تحقق ChemREL، كمجموعة نماذج متسلسلة لمعالجة و استخراج البيانات الكيميائية، درجة F1 بنسبة 95.4٪ لاستخراج الخصائص و الأسماء الكيميائية، متفوقاً على الطرق المماثلة ونموذج اللغة الكبير، GPT-4. كذلك نثبت قابلية انتقال المعرفة في نماذجنا من خلال التكيف الناجح من استخراج درجة الانصهار إلى استخراج خاصية السميّة LD50 بتدريب إضافي ضئيل على عشرة مستندات، مما يبرز الإمكانات لتسريع بناء مجموعات بيانات كيميائية ضخمة. في الفصل الخامس، نستكشف استخدام بيانات التمثيل الجزيئي ثنائي الأبعاد الوفيرة لتعزيز توليد التزامرات الشكلية الجزيئية ثلاثية الأبعاد، وهي خطوة حاسمة في اكتشاف الأدوية و عدة تطبيقات أخرى. من خلال التدريب المسبق للشبكات العصبية الرسومية على بيانات ثنائية الأبعاد وتحسين طريقة التزامر الشكلي GeoMol، نحقق تحسنًا بمعدل 7.7% في جودة التزامرات المولدة مقارنة بأحدث الطرق التسلسلية، مما يحسن دقة وكفاءة النمذجة الجزيئية. يعالج الفصل السادس التحدي العالمي لتلوث البلاستيك من خلال تقديم إطار عمل متكامل يجمع بين الطرق القائمة على الفيزياء الحيوية، التعلم العميق الدليلي القائم على البيانات، وطرق البحث الميتاهورستي لتصميم ببتيدات مرتبطة بالبلاستيك. يؤدي هذا النهج إلى زيادات كبيرة في طاقات الربط الحر للبولي بروبلين (18%) والبوليستيرين (34%) مقارنةً بالتصاميم المنتجة من طرق الفيزياء الحيوية فحسب، وذلك يقدم حلاً ملهمًا من البيولوجيا لتحسين اكتشاف و الارتباط بلدائن البلاستيك الدقيقة كتطبيق واعد للتنظيف البيئي الآمن. من خلال تطوير هذه النهج الجديدة للتعلم العميق، تؤدي التطورات الناتجة عن هذه الرسالة إلى تحسين التنبؤ بالخصائص الجزيئية، تصميم الجزيئات بخصائص مصممة خصيصًا مع إدارة الشكوك، بناء خطوط أنابيب متعددة الاستخدامات لاستخراج البيانات الكيميائية، تعزيز جودة توليد التزامرات الثلاثية الأبعاد، وتوليد ببتيدات مرتبطة بالبلاستيك ذات الارتباط العالي للتنظيف البيئي. كذلك تشير هذه الأعمال إلى خطوة إلى الأمام في دمج التعلم العميق مع الهندسة الكيميائية، ممهدة الطريق لاكتشافات وابتكارات مُسرعة في هذا المجال.
Abstract (Arabic) تم استكشاف المشهد الواسع والمعقد للمجال الكيميائي تقليدياً من خلال مزيج من التجريب والنهج الحسابية المبنية على المعرفة. ومع ذلك، فقد حدت قيود هذه الطرق من التصميم الفعّال للجزيئات ذات الخصائص المرغوبة. يقدم ظهور التعلم العميق، جنباً إلى جنب مع توفر بيانات كيميائية كبيرة، فرصاً تحويلية للتصميم الجزيئي الحسابي. تستكشف هذه الأطروحة تقاطع التعلم العميق والهندسة الكيميائية، مقدمة منهجيات وأطر عمل جديدة لمواجهة التحديات في تنبؤ خصائص الجزيئات، وتصميم الجزيئات، واستخراج البيانات الكيميائية، وتوليد التكوين الجزيئي، وتصميم الببتيدات. في الفصل الثاني، نطور نماذج موازية لتقدير 25 خاصية مكونة نقية عبر أكثر من 24,000 مادة كيميائية، باستخدام كل من الانحدار التقليدي وطرق التعلم الآلي على تمثيلات المجموعات الوظيفية. تظهر هذه النماذج دقة قوية في التنبؤ بمجموعة واسعة من الخصائص الفيزيائية الكيميائية، مما يتيح تصميم المنتجات والعمليات بشكل مبسط. يتناول الفصل الثالث عدم اليقين الكامن في تصميم الجزيئات الحسابي (CMD) من خلال تقديم إطار عمل التعلم التعزيزي العميق الواعي بالشكوك (DRL-CMD). من خلال تحديد وإدارة الشكوك بشكل صريح، يقلل DRL-CMD من انتهاكات القيود بنسبة 39٪ وهوامش الشك بنسبة 27٪ مقارنة بالجزيئات المبلغ عنها في البحوث السابقة، خاصة في سيناريوهات التصميم المعقدة مع بيانات محدودة ونطاقات خاصية شديدة. يقدم هذا النهج مسارًا أكثر موثوقية للجزيئات ذات الخصائص المصممة خصيصًا لتسريع تصميم المنتجات والعمليات. في الفصل الرابع، يتركز الاهتمام على استخراج البيانات الكيميائية من المستندات العلمية، وهو أمر حاسم لتدريب النموذج والاكتشاف. تحقق ChemREL، كمجموعة نماذج متسلسلة لمعالجة و استخراج البيانات الكيميائية، درجة F1 بنسبة 95.4٪ لاستخراج الخصائص و الأسماء الكيميائية، متفوقاً على الطرق المماثلة ونموذج اللغة الكبير، GPT-4. كذلك نثبت قابلية انتقال المعرفة في نماذجنا من خلال التكيف الناجح من استخراج درجة الانصهار إلى استخراج خاصية السميّة LD50 بتدريب إضافي ضئيل على عشرة مستندات، مما يبرز الإمكانات لتسريع بناء مجموعات بيانات كيميائية ضخمة. في الفصل الخامس، نستكشف استخدام بيانات التمثيل الجزيئي ثنائي الأبعاد الوفيرة لتعزيز توليد التزامرات الشكلية الجزيئية ثلاثية الأبعاد، وهي خطوة حاسمة في اكتشاف الأدوية و عدة تطبيقات أخرى. من خلال التدريب المسبق للشبكات العصبية الرسومية على بيانات ثنائية الأبعاد وتحسين طريقة التزامر الشكلي GeoMol، نحقق تحسنًا بمعدل 7.7% في جودة التزامرات المولدة مقارنة بأحدث الطرق التسلسلية، مما يحسن دقة وكفاءة النمذجة الجزيئية. يعالج الفصل السادس التحدي العالمي لتلوث البلاستيك من خلال تقديم إطار عمل متكامل يجمع بين الطرق القائمة على الفيزياء الحيوية، التعلم العميق الدليلي القائم على البيانات، وطرق البحث الميتاهورستي لتصميم ببتيدات مرتبطة بالبلاستيك. يؤدي هذا النهج إلى زيادات كبيرة في طاقات الربط الحر للبولي بروبلين (18%) والبوليستيرين (34%) مقارنةً بالتصاميم المنتجة من طرق الفيزياء الحيوية فحسب، وذلك يقدم حلاً ملهمًا من البيولوجيا لتحسين اكتشاف و الارتباط بلدائن البلاستيك الدقيقة كتطبيق واعد للتنظيف البيئي الآمن. من خلال تطوير هذه النهج الجديدة للتعلم العميق، تؤدي التطورات الناتجة عن هذه الرسالة إلى تحسين التنبؤ بالخصائص الجزيئية، تصميم الجزيئات بخصائص مصممة خصيصًا مع إدارة الشكوك، بناء خطوط أنابيب متعددة الاستخدامات لاستخراج البيانات الكيميائية، تعزيز جودة توليد التزامرات الثلاثية الأبعاد، وتوليد ببتيدات مرتبطة بالبلاستيك ذات الارتباط العالي للتنظيف البيئي. كذلك تشير هذه الأعمال إلى خطوة إلى الأمام في دمج التعلم العميق مع الهندسة الكيميائية، ممهدة الطريق لاكتشافات وابتكارات مُسرعة في هذا المجال.
Description
Basic Details
Title: DEEP LEARNING FOR MOLECULAR DESIGN: MODELS, FRAMEWORKS, AND APPLICATIONS
Title (Arabic): التعلم العميق للتصميم الجزيئي: نماذج، أطر، وتطبيقات
Author(s): Abdulelah Alshehri
ORCID ID: https://orcid.org/0000-0001-5213-3575
Primary Language: English
Publication Number: 31485039
Submission Date: 2024-07-20
Submission ID: 14477
Institutional Student ID: 5058285
Publishing Settings & Copyright
Traditional Publishing View agreement
Do not delay release to ProQuest
Allow search engine access.
Do not file for copyright - I am requesting that ProQuest not file for copyright on my behalf.
Institutional Repository (IR) Publishing Options
Include in institutional repository: Yes
Include in institutional repository: Do not delay release to Institutional Repository
Creative Commons License
None selected
Keywords
Artificial intelligence Conformer, Generation Data Extraction, Deep Learning, Molecular Design, Peptide Design
Citation
Alshehri, Abdulelah S. (2024). DEEP LEARNING FOR MOLECULAR DESIGN: MODELS, FRAMEWORKS, AND APPLICATIONS (Publication No 31485039) [Doctoral dissertation, Cornell University]. ProQuest Dissertations Publishing.