AI & Data Science Vs. COVID-19

The Neural Engineer

(@neural-engineer)

Honorable Member Admin

เข้าร่วมเมื่อ: 7 years ago

ข้อความ: 412

Topic starter 17/03/2020 5:53 am

โอกาสที่ Data Scientists จะได้ช่วยวงการแพทย์ลดผลกระทบของ COVID-19 ด้วยโมเดล NLP

สวัสดีครับเพื่อนๆ เมื่อเช้านี้ ทาง Kaggle ร่วมกับสถาบันวิจัยชั้นนำหลายแห่งได้ขอความร่วมมือจาก Data Scientists ทั่วโลกเพื่อช่วยทีมวิจัยด้านการแพทย์ในงานวิจัย COVID-19

งานนี้มีที่มาว่าตั้งแต่โรคนี้ระบาดหนัก ก็ได้มีงานวิจัยทางด้านการแพทย์ออกมามากมายเกือบๆ 30,000 ฉบับซึ่งก็นับว่าเป็นประโยชน์มาก ในการทำความเข้าใจโรคนี้ในแง่มุมต่างๆ ทว่าปัญหาก็คือไม่มีนักวิจัยคนไหน สามารถอ่านงานวิจัยทั้ง 30,000 ฉบับไหว ทำให้ความรู้สำคัญต่างๆ อาจจะค้นเจอช้าเกินไป และทำให้การรักษาโรคนี้ช้าเกินกว่าที่ควรจะเป็น

ดังนั้น Kaggle จึงได้ขอให้ Data Scientists ทั่วโลกช่วยกันสร้างโมเดล NLP ขึ้นมาเพื่อทำความเข้าใจประเด็นสำคัญมากๆ ที่ซ่อนอยู่ในแต่ละงานวิจัย โดย Datasets ที่ Kaggle เตรียมไว้ให้นั้นประกอบไปด้วย "เอกสารงานวิจัยกว่า 30,000 ฉบับ" โดยเป็น Full Text ถึง 13,000 ฉบับ และตัวอย่างความรู้ที่ต้องการทราบจากโมเดล มีดังต่อไปนี้

- What is known about transmission, and environmental stability?

เราทราบอะไรบ้างเกี่ยวกับระยะฟักตัว การแพร่กระจาย และสภาพแวดล้อมที่สนับสนุนการระบาดของโรค?

- What do we know about COVID-19 risk factors?

เราทราบอะไรบ้างเกี่ยวกับความเสี่ยง (ที่จะทำให้เสียชีวิต) จากโรคนี้

- What do we know about virus genetics, origin, and evolution?

เราทราบอะไรบ้างเกี่ยวกับพันธุกรรม จุดกำเนิด และการกลายพันธุ์ของไวรัสชนิดนี้

- What has been published about diagnostics, vaccine and medical care?

เราทราบอะไรบ้างเกี่ยวกับการวินิจฉัยโรค วัคซีน และแนวทางการดูแลผู้ป่วยที่มีประสิทธิภาพสูงสุด

สามารถดู Dataset ได้ที่นี่ครับ

https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge

อ้างอิง

The Neural Engineer

(@neural-engineer)

Honorable Member Admin

เข้าร่วมเมื่อ: 7 years ago

ข้อความ: 412

Topic starter 17/03/2020 5:54 am

Covid-19 Data Analysis อัพเดตทุก 1 ชม. พร้อมโค้ดบน colab

โดย Thomas Wiecki, Devakumar kp และ Joseph Richards

กดเข้าดูภาพรวมได้ที่นี่ครับ https://covid19dashboards.com/

ในเว็บไซต์ประกอบไปด้วยการวิเคราะห์ข้อมูลหลายแง่มุมพร้อมโค้ดบน colab อาทิเช่น

1. ทำนายอัตราการการเติบโตผู้ติดเชื้อด้วยทฤษฎีเบย์ Colab : https://colab.research.google.com/github/machine-learning-apps/covid19-dashboard/blob/master/_notebooks/2020-03-15-covid19_growth_bayes.ipynb

2. Visualization ของการเติบโตของประเทศต่างๆ (น่าสนใจมากว่าทุกประเทศการเติบโตใกล้เคียง exponential curve แต่บางประเทศหยุดการเติบโตแบบ exponential ได้อย่างรวดเร็ว เช่น เกาหลีใต้) Colab : https://colab.research.google.com/github/machine-learning-apps/covid19-dashboard/blob/master/_notebooks/2020-03-14-covid19_growth.ipynb

3. EDA Colab : https://colab.research.google.com/github/machine-learning-apps/covid19-dashboard/blob/master/_notebooks/2020-03-13-EDA.ipynb

4. เทียบกับ SARS, MERS, EBOLA และ H1N1 Colab: https://colab.research.google.com/github/machine-learning-apps/covid19-dashboard/blob/master/_notebooks/2020-03-13-COVID19-Comparitive-Analysis.ipynb

5. อัตราผู้เสียชีวิตรายประเทศ (ปัจจุบันอยู่ที่ 3.74% ทั้งโลก แต่แตกต่างกันมากตามความพร้อมและมาตรการการรับมือของแต่ละประเทศ) Colab : https://colab.research.google.com/github/machine-learning-apps/covid19-dashboard/blob/master/_notebooks/2020-03-11-Mortality_Rate.ipynb

(เพิ่มเติมบทวิเคราะห์ความแตกต่างในการรับมือระหว่างเกาหลีใต้และอิตาลี ที่เริ่มต้นใกล้เคียงกัน แต่ผลลัพธ์แตกต่างกันมาก https://www.reuters.com/article/us-health-coronavirus-response-specialre/italy-and-south-korea-virus-outbreaks-reveal-disparity-in-deaths-and-tactics-idUSKBN20Z27P)

ตอบกลับอ้างอิง

The Neural Engineer

(@neural-engineer)

Honorable Member Admin

เข้าร่วมเมื่อ: 7 years ago

ข้อความ: 412

Topic starter 17/03/2020 5:54 am

ข้อมูล Dataset COVID-19 บน Kaggle update ทุก 24 ชม. ที่เพื่อนๆ สามารถโหลดมาเขียนโปรแกรมวิเคราะห์ได้ทันทีครับ

https://www.kaggle.com/imdevskp/corona-virus-report

หรือจะเริ่มฝึกและศึกษาจากดัดแปลงโปรแกรม Notebook เหล่านี้ครับ เช่น

การระบาดของ COVID-19 ในเกาหลีใต้

https://www.kaggle.com/michau96/who-is-infected-with-coronavirus-in-korea

วิเคราะห์ข้อมูลการระบาดทั่วโลก

https://www.kaggle.com/imdevskp/covid-19-analysis-viz-prediction-comparisons

สำหรับผู้ไม่เคยใช้ Kaggle ซึ่งให้พวกเราได้ใช้ GPU VM ประสิทธิภาพสูงฟรีมาก่อน ดูที่นี่ครับ

http://bit.ly/thaikeras-kaggle-setup

ตอบกลับอ้างอิง

The Neural Engineer

(@neural-engineer)

Honorable Member Admin

เข้าร่วมเมื่อ: 7 years ago

ข้อความ: 412

Topic starter 21/03/2020 11:23 am

Covid NLP Model แรกมาแล้วครับ!!!

เป็นโมเดล Question & Answering จากทีม DeepSet.ai ให้เราใส่ประเด็น หรือ คำถามที่สงสัยเข้าไปแล้ว โมเดลจะตอบข้อมูลจากงานวิจัยหรือจากเว็บสาธารณสุขทั่วโลกที่เกี่ยวข้องที่สุดมาให้

ทดสอบได้ที่ https://covid.deepset.ai/

ร่วมพัฒนาด้วยกันได้ที่ https://github.com/deepset-ai/COVID-QA

หมายเหตุ : งานวิจัยชิ้นนี้ยังอยู่ในช่วงทดลองและพัฒนา อาจจะยังไม่ครอบคลุมแหล่งข้อมูลที่สำคัญครบถ้วน และยังไม่ได้คำตอบที่ตรงคำถามซะทีเดียว อาจจะลองเปลี่ยนวิธีถาม หรือ keywords ดูนะครับ (ดูตัวอย่างในรูป) วิธีการที่ทำอยู่ในขณะนี้ยังเป็นเพียงเทียบคำถามที่ใกล้เคียงที่สุดกับ FAQ list ที่รวบรวมไว้

ยังมีอีกหลายจุดที่พัฒนาได้ โดยใน GitHub ทีม DeepSet.ai ได้ list หัวข้อต่างๆ ที่เราเองก็อาจจะช่วยได้ครับ

ตอบกลับอ้างอิง

The Neural Engineer

(@neural-engineer)

Honorable Member Admin

เข้าร่วมเมื่อ: 7 years ago

ข้อความ: 412

Topic starter 07/04/2020 9:17 am

มาดูงานและทดลอง AI VS. COVID ในสัปดาห์ที่ผ่านมา

==============================

สวัสดีครับ หลังจากที่สัปดาห์ก่อนทาง Kaggle ได้ขอความช่วยเหลือ AI/Data Scientists ทั่วโลกเพื่อตอบคำถามที่สำคัญ 10 ประเด็นของโรค COVID-19 ดังที่เราได้เล่าในโพสต์ก่อน

( http://bit.ly/thaikeras-covid19 ) คนทั่วโลกก็ได้ร่วมกันทำงานนี้มากกว่า 400 โปรเจกต์ ดังนั้นวันนี้ทีมงานขอยกงานที่น่าสนใจมาเล่าให้เพื่อนๆ ฟังครับ และทุกงานบน Kaggle เพื่อนๆ สามารถดัดแปลงปรับปรุง ทดลองเล่นด้วยตัวเอง ได้ทันที ไม่มีค่าใช้จ่าย (ผู้ที่ไม่เคยใช้ Kaggle มาก่อนดูที่ http://bit.ly/thaikeras-kaggle-setup )

1. สรุปข้อมูลสำคัญจากเปเปอร์โดย Kaggle

———————————————-

ข้อมูลสำคัญที่ทุกคนช่วยกันถอดออกจากงานวิจัยกว่าหมื่นฉบับ ให้อยู่ในตารางที่อ้างอิงได้ง่าย ดูตามลิงก์นี้ครับ

https://www.kaggle.com/covid-19-contributions

- สรุประยะเวลาฟักตัวเฉลี่ยของโรค ซึ่งแต่ละงานวิจัยประเมินแตกต่างกันไป

- อุณหภูมิกับการแพร่กระจายของโรค

- อัตราการแพร่เชื้อเฉลี่ยต่อผู้ป่วยหนึ่งคน (R0)

- ความเสี่ยงสำคัญที่จะทำให้ผู้ป่วยเสียชีวิต เช่น ความดัน ความอ้วน เบาหวาน โรคทางเดินหายใจ โรคหัวใจ ผู้สูบบุหรี่ ฯลฯ

- ยาที่ช่วยยับยั้งเชื้่อ เช่น Chloroquine

การตรวจสอบว่าเปเปอร์ใดเกี่ยวข้องกับหัวข้อใด ถูกวิเคราะห์อย่างอัตโนมัติโดยหลากหลายโมเดลดังหัวข้อข้างล่าง

2. สืบค้นเปเปอร์ที่เกี่ยวข้องด้วย BioBert / SciBert / Topic Modeling

———————————————————

นักวิจัยจากทั่วโลกมีไอเดียที่คล้ายกันคือ

2.1 เปลี่ยน “สิ่งที่เราต้องการรู้” (ในรูปประโยคภาษาอังกฤษ) ให้อยู่ในรูป vectors ทางคณิตศาสตร์

2.2 เปลียน “Title/Abstract” ของงานวิจัยให้อยู่ในรูป vectors ทางคณิตศาสตร์

จากนั้นนำเวกเตอร์ใน 2.1 มาเทียบกับ 2.2 เพื่อหาเวกเตอร์ของเปเปอร์ที่ใกล้เคียงกับหัวข้อที่เราสนใจที่สุด

โดย เทคนิกการเปลี่ยน texts เป็น vectors นั้นก็ใช้ได้หลายโมเดลอาทิเช่น

2.A BioBert : เป็นโมเดล Bert ที่ finetune เข้ากับงานวิจัยทางด้านชีววิทยาและการแพทย์โดยเฉพาะ ทำให้ได้เวกเตอร์ที่มีคุณภาพมากขึ้นในหัวข้อนี้ครับ

https://www.kaggle.com/jdparsons/biobert-corex-topic-search

2.B SciBert : คล้าย BioBert แต่ finetune โมเดลบนงานวิจัยทางวิทยาศาสตร์ทั้งหมด (ไม่ได้เจาะจงงานด้านชีววิทยา)

https://www.kaggle.com/isaacmg/scibert-embeddings

2.C Topic Modeling เป็นวิธีแบบเก่าก่อนยุคโมเดล Deep Learning โดยสร้างเวกเตอร์ของ texts ด้วยการนับคำง่ายๆ แทน

https://www.kaggle.com/mobassir/mining-covid-19-scientific-papers

3. ค้นหายาที่แพทย์อาจจะมองข้ามไปด้วย word vectors ของยาที่ใกล้เคียงกับ word vectors ของโรค

——————————————

เทคนิกนี้ประสบความสำเร็จในงานด้านวิทยาศาสตร์วัสดุ โดยสามารถหา วัสดุที่มีคุณสมบัติที่ต้องการที่นักวิจัยมองข้ามไป โดยหลักการสามารถสรุปได้ในรูปแนบที่ 1 และ 2 ครับ

ดูโค้ดและคำอธิบายเพิ่มเติมได้ที่นี่ครับ

https://www.kaggle.com/albertoferrari/learning-medicine-with-word-embeddings

https://www.kaggle.com/tarunpaparaju/covid-19-dataset-gaining-actionable-insights

4. วินิจฉัย Covid จากภาพ X-Ray

——————————

งานวิจัยฝั่ง image ที่น่าตื่นเต้นและน่าพูดถึงคือ การวินิจฉัยผู้ป่วย COVID-19 จากภาพ X-ray ซึ่งน่าจะเป็นทิศทางสำคัญในอนาคต

อย่างไรก็ดีสำหรับในช่วงแรกของการพัฒนาโมเดล พึงระวังข้อจำกัดดังนี้

4.1 ข้อมูลภาพ x-ray ผู้ป่วย covid จริงๆ ที่รวบรวมได้ทั้งหมดมีน้อยมาก มีเพียง 100 กว่าฟิล์มเท่านั้น

4.2 การแยกผู้ป่วย vs. ผู้ไม่ป่วยนั้นไม่เพียงพอ เราต้องแยก ผู้ป่วย COVID-19 จากผู้ป่วยในกลุ่มอื่นที่สำคัญเช่น ปอดบวม (ซึ่งเกิดขึ้นบ่อยกว่า) ให้ได้ด้วย ดังนั้นจำเป็นต้องนำฟิล์มของผู้ป่วยโรคปอดต่างๆ มาร่วมสร้างโมเดลด้วย

4.3 จากหัวข้อ 4.1และ4.2 เวลาเราได้ยินว่า “โมเดล xx มีความถูกต้องเกือบ 100%” โดยเฉพาะจาก Data Scientists ฝึกใหม่หรือ Startup ที่ไม่มีประสบการณ์ในการวัดผลแบบ Rigorous มาก่อน มักจะเกิดจากการจัดเตรียมข้อมูลไม่ดีพอ หรือวัดผลด้วยมาตรวัดที่ไม่ถูกต้อง

ดังนั้นผู้ที่จะลงทุนและนำโมเดลมาใช้งานต้องดูการ set up experiment อย่างระมัดระวังครับ เรื่องนี้ทางทีม ThaiKeras จะขยายความเพิ่มเติมในบทความถัดไป

สำหรับผู้สนใจเข้าดูได้ที่นี่ครับ

https://github.com/lindawangg/COVID-Net/

ตัวอย่างเปเปอร์ที่วิเคราะห์อย่างละเอียดว่า ทำไมงานวิจัยส่วนใหญ่ที่อ้างอิงว่า มีความแม่นยำเกือบ 100% ใช้ไม่ได้จริงในทางปฏิบัติ

(เราจะขยายความในบทความหน้า)

https://arxiv.org/abs/2001.06296

This post was modified 5 years ago by The Neural Engineer

ตอบกลับอ้างอิง

The Neural Engineer

(@neural-engineer)

Honorable Member Admin

เข้าร่วมเมื่อ: 7 years ago