Notifications
Clear all

AI, Bio- & Chem-Informatics

8 ข้อความ
1 Users
0 Likes
4,739 Views
The Neural Engineer
(@neural-engineer)
Honorable Member Admin
เข้าร่วมเมื่อ: 6 years ago
ข้อความ: 400
Topic starter  

เรียนรู้ทักษะ Deep-Learning/AI Protein Engineer บนการแข่งขัน Kaggle-Novozyme

Yuval N. Harari ได้เรียกความก้าวหน้า AI (ซึ่งเกิดจาก Deep Learning) และ Biotech ว่าเป็น "Twin Revolution" ซึ่งจะทำให้มนุษยชาติมีเทคโนโลยีก้าวไปอีกไกลมาก

ตัวอย่างเช่นโมเดล AlphaFold ที่สามารถทำนายโครงสร้าง 3D ของโปรตีนได้อย่างเป็นแม่นยำ แก้ปัญหาอันยาวนานกว่า 50 ปีได้สำเร็จ หรือ EquiBind / DiffDock งานใหม่ล่าสุด (อ้างอิง 1, 2 ด้านล่าง) จาก MIT ที่สามารถทำนายตำแหน่งที่โมเลกุลของยาจะทำปฏิกิริยากับโปรตีนเอนไซม์ได้อย่างแม่นยำด้วยความเร็วมากกว่างานในอดีตนับร้อยเท่า

นอกจากนี้วิศวกรรมโปรตีนด้วยปัญญาประดิษฐ์ (AI Protein Engineering) ที่มีจุดมุ่งหมายในการพัฒนาโปรตีนที่เรารู้จักดีให้ใช้ประสิทธิภาพดีขึ้นหรือมีความเสถียรภาพมากขึ้น ก็เป็นหนึ่งในงานที่สำคัญมาก อาทิเช่น AI-Designed Enzyme ที่สามารถกำจัดขยะพลาสติกได้ในเวลาอันรวดเร็ว (อ้างอิง 3)

ล่าสุดบริษัท Novozymes ผู้เชี่ยวชาญเรื่องการออกแบบ Enzymes ได้ร่วมกับ Kaggle จัดการแข่งขันขื้อ "Enzyme Stability Prediction" ขึ้นเพื่อให้ Data Scientists / AI Engineer ทั่วโลกช่วยรวมทั้งแข่งขันสร้างโมเดลเพื่อทำนาย "อุณหภูมิสูงสุด" ที่เอนไซม์ต่างๆ จะทำงานได้ : https://www.kaggle.com/competitions/novozymes-enzyme-stability-prediction

แรงบันดาลใจของงานนี้ก็คือในการออกแบบเอนไซม์ชนิดใหม่ เราต้องการดัดแปลง (mutate) จุดบนเอนไซม์ที่มีประโยชน์ บางตำแหน่งโดยหวังว่าโปรตีนจะยังทำงานได้เหมือนเดิม แต่มีความทนทาน (ต่อความร้อนมากขึ้น) ดังนั้นโมเดลที่ทำนายว่าเอนไซม์ที่เกิดจากการเปลี่ยนแปลงพันธุกรรมนั้นจะทนทานต่อความร้อนมากขึ้นหรือน้อยลงจึงมีความสำคัญมาก

. รายละเอียดการแข่งขันคร่าวๆ

ข้อมูลสอนเป็นโปรตีนจำนวนราว 30,000 ชนิดที่รวบรวมจากงานตีพิมพ์หลากหลายแหล่ง โดยมี melting temperature (tm) เป็น target ที่เราต้องทำนาย

ไอเดียพื้นฐานในการออกแบบโมเดล : เนื่องจากโปรตีนนั้นสามารถอธิบายได้ด้วยสายอักขระของ Amino Acids (ซึ่งแทนด้วยตัวอักษรภาษาอังกฤษ 20 ตัวแทน Amino Acids ทั้ง 20 ชนิด) เราจึงสามารถมองข้อมูลโปรตีนได้เป็น string หรือ text ทำให้นักวิจัยสามารถนำเทคโนโลยี Transformers หรือ Large-language models ที่ปฏิวัติวงการ NLP มาใช้กับงานโปรตีนได้แทบจะทันที

โดย Transformers ที่ pretrain บนโปรตีนจำนวนหลายร้อยล้านชนิดมีชื่อว่า ESM โดยทีมงาน Facebook AI (อ้างอิง 4) จะเปลี่ยนโปรตีนเป็นเวกเตอร์ ซึ่งเราสามารถนำมาใช้ได้ทันที

นอกจากนี้อาจจะทำนาย structure ของโปรตีนด้วย AlphaFold (หรือโปรแกรมอื่นๆ) และ represent ข้อมูลด้วยกราฟ เพื่อนำมาใช้กับโมเดล GNNs (อ้างอิง 5) ก็สามารถทำได้เช่นกันครับ

เนื่องจากเป็นการร่วมมือกันกับ Data Scientists ชั้นนำทั่วโลก เราสามารถเริ่มจากโค้ดเริ่มต้นจาก Top Kaggle อย่าง Chris Deotte ได้เลยครับโดย Chris ได้เตรียมโค้ดที่อ่านข้อมูล protein ทั้งหมด โหลด ESM features รวมทั้งทำ feature-engineer ระดับเซียน เพื่อไปทำนายต่อและวิเคราะห์ Features สำคัญๆ ด้วย XGBoost

สามารถดูและ copy โค้ดของ Chris ไปลองฝึกได้ที่นี่ครับ https://www.kaggle.com/code/cdeotte/xgboost-5000-mutations-200-pdb-files-lb-0-3

ในงานนี้นอกจากทักษะเรื่องการออกแบบ และฝึกสอน machine learning model แล้วเพื่อนๆ ยังจะได้เรียนรู้ Bioinformatics เบื้องต้นเช่น การอ่านและวิเคราะห์ข้อมูล Protein บน PDB files, การ visualize protein 3D structure และการทำ Sequence Alignment อีกด้วยครับ นับว่าเป็นพื้นฐานที่สำคัญมากๆ ในการก้าวไปสู่ AI Protein Engineer ครับผม 😀 .

อ้างอิง [1] DiffDock - https://github.com/gcorso/DiffDock [2] EquiBind - https://github.com/HannesStark/EquiBind (บทความย่อ ThaiKeras https://web.facebook.com/thaikeras/posts/pfbid021Arggxu3Nyc8ZhX1UeaREqvxg9GhUbxmfWFfHBgn2Cwp4g6qGYaCgrx72T9PSTtDl) [3] https://www.forbes.com/sites/davidrvetter/2022/04/28/scientists-use-ai-to-make-an-enzyme-that-eats-plastic-trash-in-hours-video/?sh=5d180750da6b [4] ESM Protein Transformers : https://github.com/facebookresearch/esm [5] ThaiKeras GNNs article : https://thaikeras.com/community/main-forum/graph-neural-networks-gnns/


   
ตอบกลับอ้างอิง
Page 2 / 2
Share: