Notifications
Clear all

AI, Bio- & Chem-Informatics

8 ข้อความ
1 Users
0 Likes
4,661 Views
The Neural Engineer
(@neural-engineer)
Honorable Member Admin
เข้าร่วมเมื่อ: 6 years ago
ข้อความ: 400
Topic starter  

Keras Cheminformatics - สร้างโมเลกุลกราฟด้วย GAN

Keras มี Tutorial ใหม่ล่าสุดสำหรับ cheminformatics คือการสร้างโมเลกุลด้วยเทคนิค WGAN-GP (Wassterstien GAN with Gradient Penalty) ครับ

แรงบันดาลใจของงานในฝั่งนี้คือ งานต่างๆ ที่ต้องการทดลองบนโมเลกุลใหม่ๆ เช่นการหา ยาชนิดใหม่ (Drug Discovery) นั้นต้องมีการสร้างโมเลกุลที่มีคุณสมบัติทางเคมีที่ใกล้เคียงโมเลกุลที่เราต้องการ

อย่างไรก็ดีการหาโมเลกุลใหม่ๆ ที่ว่านั้น ด้วยเทคนิคในปัจจุบัน (เช่น Graph Matching, Node ordering heuristics) นั้นทำได้ไม่ง่าย

จากความสำเร็จของงานด้าน Deep Learning บน Graph Structure เลยเป็นที่มาที่ทำให้นักวิจัยสามารถออกแบบ GAN ที่ สร้าง molecule graph ใหม่ๆ ได้โดยตรงโดยตัดเทคนิคที่ซับซ้อนดังกล่าวออกไปเลยครับ

 

ผู้สนใจสามารถดู Keras Tutorial อย่างละเอียดได้ที่นี่

https://keras.io/examples/generative/wgan-graphs/

 

Colab

https://colab.research.google.com/github/keras-team/keras-io/blob/master/examples/generative/ipynb/wgan-graphs.ipynb

 

Tutorial นี้ได้รับแรงบันดาลใจจากงาน MolGAN

https://arxiv.org/pdf/1805.11973.pdf

 

อย่างไรก็ดีงานในกลุ่ม MolGAN นี้ยังไม่สามารถกำหนดลักษณะทางเคมีที่เราต้องการได้ชัดๆ เหมือนงาน GAN อื่นๆ เช่นกรณี FaceGAN เราสามารถกำหนดได้เลยว่าจะสร้าง หน้าบุคคลที่มีลักษณะอย่างไรบ้าง (ผู้ช่าย ผิวคล้ำ มีหนวด ใส่แว่น)

 

ซึ่งการสร้าง Molecule graph ใหม่ๆ ที่มีคุณสมบัติทางเคมีที่เรากำหนดเป้ะๆ ก็จะเป็นงานวิจัยล่าสุดที่คนในวงการกำลังพัฒนากันต่อไป

ถ้ามีใครสนใจร่วมทำงานนี้สามารถ เมลไปคุยกับนักวิจัยที่เบลเยี่ยม ผู้เชียน Tutorial คนนี้ได้ที่นี่ครับ

https://github.com/akensert   (เป็นเพื่อนแอดมินเองครับ  😀 )

This topic was modified 3 years ago by The Neural Engineer

   
อ้างอิง
The Neural Engineer
(@neural-engineer)
Honorable Member Admin
เข้าร่วมเมื่อ: 6 years ago
ข้อความ: 400
Topic starter  

 

DeepMind เปิดเผยความลับ AlphaFold อย่างสมบูรณ์

ThaiKeras and Kaggle

โปรตีนคือหนึ่งในศูนย์กลางของสิ่งมีชีวิต การทำนายรูปร่าง 3 มิติของโปรตีนมีประโยชน์อย่างมหาศาลในการ ออกแบบและพัฒนายารักษาโรคต่างๆ  เพราะจะทำให้เข้าใจฟังก์ชันของโปรตีนนั้นๆ

ในเดือนธันวาคม ปีที่แล้ว (2020) ทีม DeepMind ซึ่งอยู่ภายใน Google ได้สร้างปรากฏการณ์มหัศจรรย์ขึ้นในวงการชีววิทยา ด้วยการสร้างโมเดล Deep Learning ที่ชื่อว่า AlphaFold 2 ที่สามารถทำนายรูปร่าง 3 มิติของโปรตีนได้ในระดับแม่นยำสูงสุด

ซึ่งปัญหานี้เป็นปัญหาที่แก้ไขไม่ได้ในวงการชีวะมาไม่ต่ำกว่า 50 ปี  และมีงานประชุมวิชาการที่ทีมวิจัยทั่วโลกมาแข่งขันทำนายรูปร่าง 3 มิตินี้ทุกปี ( https://www.predictioncenter.org/casp14/index.cgi )  ในลักษณะเดียวกับ ImageNet ของวงการ Machine Learning

โดย DeepMind เป็นหนึ่งในทีม AI ที่คนทั่วไปยอมรับว่าเก่งที่สุดในโลก ซึ่งก่อนหน้านี้สร้างโปรแกรม AlphaGo และ AlphaStar โค่นแชมป์โลกในวงการโกะ และขึ้นไปถึงระดับ Grandmaster ใน StarCraft 2

ในอดีตที่ผ่านมา ในการทำความเข้าใจรูปร่างโปรตีนจำเป็นต้องใช้เทคนิคที่ชื่อว่า  X-ray crystallography หรือ cryo-electron microscopy ซึ่งกินเวลาและค่าใช้จ่ายเป็นอย่างมาก ทว่าโปรแกรม AlphaFold 2 ของ DeepMind นั้นทำนายรูปร่างได้ใกล้เคียงกับเทคนิคทั้งสองอย่างนี้เป็นอย่างมาก

ก่อนหน้านี้ DeepMind ให้สัมภาษณ์เกี่ยวกับ AlphaFold น้อยมาก และเป็นคำถามที่นักวิจัยทั่วโลกสงสัยว่า Google และ DeepMind จะเก็บความลับของ AlphaFold ไว้แต่เพียงผู้เดียวหรือไม่ (ลักษณะคล้ายกับที่ OpenAI ไม่ open GPT-3 และ DALL-E)

นั่นคือ DeepMind และ Google ต้องเลือกระหว่างรายได้ Exclusive มหาศาลถ้าจะไม่เปิดเผย หรือเลือกที่จะทำคุณงามความดีใหัโลก ด้วยการเปิดเผยโค้ดทั้งหมดให้ทุกคน (แบบเดียวกันกับที่เปิดเผยโค้ด Transformers และ Bert ซึ่งทำให้วงการ NLP ก้าวหน้าไปอย่างมาก มาก่อนหน้านี้)

ล่าสุดเมื่อวานนี้ (15 กค. 2021) ทาง DeepMind ก็ได้ประกาศข่าวดีให้ทั่วโลก นั่นคือ DeepMind ได้ตีพิมพ์เปิดเผยเทคนิค AlphaFold อย่างละเอียดใน Nature รวมทั้ง Open sourcecode ทั้งหมดบน GitHub ด้วยครับ

โดยโมดูลหลักของ AlphaFold นั้นเรียกว่า EvoFormer ซึ่งได้รับแรงบันดาลใจจาก Transformers และเทคนิค Self-Attention

สำหรับผู้สนใจสามารถอ่านงานอย่างละเอียดได้ฟรี ที่นี่

เปเปอร์ AlphaFold ตีพิมพ์ในวารสาร Nature โดย DeepMind

https://www.nature.com/articles/s41586-021-03819-2_reference.pdf

AlphaFold GitHub

https://github.com/deepmind/alphafold

 

อ่านเพิ่มเติม

  1. DeepMind’s AI for protein structure is coming to the masses -   https://www.nature.com/articles/d41586-021-01968-y
  2. DeepMind wants to use its AI to cure neglected diseases - https://www.wired.co.uk/article/deepmind-alphafold-protein-diseases
  3. ‘It will change everything’: DeepMind’s AI makes gigantic leap in solving protein structures - https://www.nature.com/articles/d41586-020-03348-4

   
ตอบกลับอ้างอิง
The Neural Engineer
(@neural-engineer)
Honorable Member Admin
เข้าร่วมเมื่อ: 6 years ago
ข้อความ: 400
Topic starter  

ความแม่นยำของ AlphaFold (นึกถึงกราฟของ Deep Learning กับการแข่งขัน ImageNet)


   
ตอบกลับอ้างอิง
The Neural Engineer
(@neural-engineer)
Honorable Member Admin
เข้าร่วมเมื่อ: 6 years ago
ข้อความ: 400
Topic starter  
blog เจาะลึก AlphaFold 2 จากทีม Oxford Protein Informatics Group -- It is a very exciting time to be a computational biologist, I’ll tell you that (ประโยคสุดท้ายจาก Blog)
 
******
AlphaFold 2 is here: what’s behind the structure prediction miracle
******
 
(Quote จากสรุป)
Although all of the ideas in the model are doubtlessly clever, the main secret behind AlphaFold 2’s success is the superb deep learning engineering. A close look at the model reveals an architecture with a large amount of small details that seem fundamental for the performance of the network. As we admire the end product, we should not turn a blind eye to the enormous budget, and the large team of full-time, handsomely paid engineers that made it possible.
The code is publicly available, and it can be run with moderate computational resources. The predictions seem to agree with the paper, and are reasonable even for some complicated cases, like designed proteins and antibodies, where multiple sequence alignments are not necessarily informative. This success will allow researchers in biology to obtain structural information about their proteins almost immediately, and spearhead significant advances in multiple areas of molecular biology. It is a very exciting time to be a computational biologist, I’ll tell you that.

   
ตอบกลับอ้างอิง
The Neural Engineer
(@neural-engineer)
Honorable Member Admin
เข้าร่วมเมื่อ: 6 years ago
ข้อความ: 400
Topic starter  
ความเร็วแสง !! ทีม Seoul National University เอา AlphaFold มาลง Colab ให้ทุกคนได้ใช้แล้วครับ เพียงแค่ใส่ Protein sequence แล้วกด Run All!
This post was modified 3 years ago 2 times by The Neural Engineer

   
ตอบกลับอ้างอิง
The Neural Engineer
(@neural-engineer)
Honorable Member Admin
เข้าร่วมเมื่อ: 6 years ago
ข้อความ: 400
Topic starter  
ล่าสุดจาก DeepMind - AlphaFold Protein Structure Database
 
Today, in partnership with European Bioinformatics Institute | EMBL-EBI we're proud to be launching the AlphaFold Protein Structure Database. It offers the most complete and accurate picture of the human proteome to date, more than doubling humanity’s accumulated knowledge of high-accuracy human protein structures.
 
In addition to the human proteome (all ~20,000 proteins expressed by the human genome), we’re providing access to the proteomes of 20 other biologically-significant organisms, totalling over 350k protein structures. In the coming months we plan to vastly expand the coverage to almost every sequenced protein known to science - over 100 million structures covering most of the UniProt reference database, a veritable protein almanac of the world.
 
Already, through our early collaborations, we’ve seen promising signals from researchers using AlphaFold in their own work, including the Drugs for Neglected Diseases initiative - DNDi, the Centre for Enzyme Innovation at the University of Portsmouth (CEI), the University of Colorado Boulder and the University of California, San Francisco. And this is just the start of what we hope will be a revolution in structural bioinformatics. With AlphaFold out in the world, there is a treasure trove of data now waiting to be transformed into future advances.
 
Full list of resources:
 
dpmd.ai/alphafolddb
dpmd.ai/alphafold-blog
dpmd.ai/nature-proteome
dpmd.ai/nature-methods
dpmd.ai/alphafold-os
dpmd.ai/alphafold-colab

   
ตอบกลับอ้างอิง
The Neural Engineer
(@neural-engineer)
Honorable Member Admin
เข้าร่วมเมื่อ: 6 years ago
ข้อความ: 400
Topic starter  
EquiBIND งานจาก MIT (ICML 2022) ที่ใช้ทำนายตำแหน่งและรูปร่างของโมเลกุลในการทำปฏิกิริยากับโปรตีน
 
.
การทำความเข้าใจปฏิกริยาระหว่างโปรตีนและโมเลกุลนั้นเป็นหัวใจสำคัญของปฏิกิริยาต่างๆ ในสิ่งมีชีวิต และการออกแบบยารักษาโรค
มีโจทย์หลายอย่างในเรื่องการออกแบบยา ที่เราอยากสร้างโมเดลขึ้นมาทำนายได้ (โดยไม่ต้องเสียเวลาในการทำการทดลองที่ใช้เวลานานและราคาแพง) อาทิเช่น
(ดูรูปที่ 1 ประกอบ)
(1) โมเลกุลกับโปรตีนที่กำหนดนั้นจะทำปฏิกิริยากันหรือไม่
(2) ถ้าทำปฏิกิริยากันแล้ว จะทำที่ตำแหน่งใดของโปรตีน
(3) เมื่อทำปฏิกริยากันแล้วโมเลกุลจะหมุนรูปร่างของตัวเองอย่างไรเพื่อให้พอดีกับโปรตีนในตำแหน่งที่ตนเองทำปฏิกริยานั้น
โมเดล EquiBIND ซึ่งเป็นโมเดลล่าสุดของ MIT ในปี 2022 นั้นถูกออกแบบมาเพื่อตอบคำถามข้อที่ (2) และ (3) พร้อมๆ กัน นั่นคือสมมติว่ารู้คำตอบของคำถามที่ (1) อยู่แล้ว และทำงานรวดเร็วกว่าโมเดลที่ใช้กันอยู่ เป็นหลักร้อยเท่า โดยใช้หลักการคล้ายๆ YoLo ในงาน Object Detection คือจะอ่านโปรตีน (ซึ่งมีความยาวกว่าโมเลกุลมากๆ) เพียงรอบเดียว หรือ single-shot
โดยวิธีที่โมเดลก่อนหน้า ใช้ในการแก้ปัญหาข้อที่ (2) นั้นอาจเทียบได้กับวิธีการ Sliding windows ใน object detection นั่นคือ ค่อยๆ ตรวจสอบตำแหน่งบนโปรตีนไปทีละจุด ว่าจุดใดที่ฟิตกับโมเลกุลที่โจทย์กำหนดได้
งานนี้เผยแพร่ครั้งแรกใน ICLR workshop 2022 และล่าสุดงานวิจัยฉบับเต็มถูกตอบรับตีพิมพ์ใน ICML 2022 ครับ
.
 
วิธีการของ EquiBIND แบบหยาบๆ
อธิบายจากรูปที่ 1
โมเดล EquiBIND นั้นถูกพัฒนาต่อยอดจากโมเดล Graph Neural Networks - GNNs (ดูบทความย้อนหลังของ GNNs ได้ที่ https://bit.ly/thaikeras-gnns ) โดยจากรูปจะเห็นว่าทั้งโปรตีน และโมเลกุลจะถูก represent ให้อยู่ในรูปกราฟ (โดยยึดจาก coordinate 3มิติ)
จากนั้นทั้งโปรตีนกราฟและโมเลกุลกราฟ จะถูกนำไปเข้า Protein-SE3-GNN และ Molecule-SE3-GNN ตามลำดับ
โดย SE3-GNN คือ GNN ที่ออกแบบมาสำหรับวัตถุ 3 มิติโดยเฉพาะ ไม่ว่าเราจะหมุนหรือเคลื่อนย้ายวัตถุ 3 มิติอย่างไร features ที่ได้จาก SE3-GNN ก็จะหมุนหรือเคลื่อนย้ายตามไปด้วย คุณสมบัตินี้เรียกว่า Rotation & Translation Equivariance
เมื่อได้ features จาก GNNs ทั้งสองแล้ว EquiBIND ยังใช้เทคนิกที่เรียกว่า "Graph Matching Networks" (เส้นประสีเขียวในรูปที่ 1) เพื่อคำนวณ/เรียนรู้ ตำแหน่งที่โมเลกุลกับโปรตีนน่าจะมีความสัมพันธ์กันมากที่สุด (ไอเดียคล้าย cross-attention ใน transformers encoder-decoder)
โดย features ที่ผ่านการคำนวน/เรียนรู้จากทั้ง SE3-GNN และ Graph Matching Networks นั้นก็จะถูกนำไปคำนวนตำแหน่งบนโปรตีนและการวางตัวของโมเลกุลซึ่งเป็นสิ่งที่เราต้องการหาคำตอบครับ
ด้วยเทคนิก SE3-GNN และ Graph Matching Network ซึ่งมองได้ว่าเป็นการสกัดเอาข้อมูลหรือ features ที่สำคัญของจากโปรตีนและโมเลกุลได้อย่างมีประสิทธิภาพ จึงเป็นสาเหตุให้โมเดล EquiBIND ทำความเข้าใจข้อมูล input (โปรตีนและโมเลกุล) และสามารถทำนาย output ที่ซับซ้อนนี้ได้ภายในการอ่านครั้งเดียว ต่างจากงานก่อนหน้า และทำให้เร็วกว่างานก่อนหน้านับร้อยเท่าครับ
เพื่อนๆ สามารถทำความเข้าใจโมเดลนี้ได้ดีขึ้นจากคลิป youtube ICLR workshop ที่แปะไว้ด้านบนครับผม

   
ตอบกลับอ้างอิง
Page 1 / 2
Share: