ค้นงานพร้อมโค้ดที่ด...
 

ค้นงานพร้อมโค้ดที่ดีที่สุดในปัจจุบัน (State-of-the-Art) สำหรับงานที่เราสนใจ  

  RSS
The Neural Engineer
(@neural-engineer)
EfficientNet

ค้นงานพร้อมโค้ดที่ดีที่สุดในปัจจุบัน (State-of-the-Art) สำหรับงานที่เราสนใจบน  https://paperswithcode.com/sota

โดยปกติแล้วถ้าเราอยากจะพัฒนา Machine Learning หรือ Data Science ต่อยอดในงานใหม่ๆ ที่เราอาจไม่คุ้นเคยมากเท่าไร (เช่น เราเคยทำ Vision เป็นหลัก แต่อยากลองเปลี่ยนมาทำ NLP เป็นต้น) สิ่งหนึ่งที่เราต้องทำในขั้นเริ่มต้นก็คือค้นหางานหรือโมเดล Baseline ที่เข้าใจง่าย ได้รับการยอมรับ และได้ผลดีพอสมควรเพื่อทำความเข้าใจวิธีการแก้ปัญหาเบื้องต้น

จากนั้นเมื่อเราเริ่มพัฒนาเราก็ต้องนำงานของเราเองไปเทียบกับกลุ่มงานที่เรียกว่า “State-of-the-Art” (SOTA) หรือ “สุดยอดผลงานในปัจจุบัน” ว่างานของเรานั้นดีพอหรือไม่

เมื่อไม่กี่ปีก่อน การค้นหางาน Baseline หรือ SOTA นั้นเป็นเรื่องยุ่งยากมากๆ สำหรับผู้ที่มาจากต่างฟิลด์ โดยอาจจะสุ่มค้น Keywords บน Google Scholar ที่มียอด Citation เยอะๆ จากนั้นก็เข้าไปดูผลการทดลองของ Papers เหล่านั้นอีกทีว่าเทียบกับงานชิ้นอื่นๆ ใดบ้าง

สิ่งที่น่าสับสนที่สุดมักเกิดขึ้นเวลางานสองงานต่างก็อ้างว่าตนคือ SOTA หรืองานที่ดีที่สุดในปัจจุบัน ตัวอย่างในวงการ NLP นั้นมี ELMO, BERT, XLNET และล่าสุดเมื่อไม่กี่วันก่อน ERNIE ต่างก็ตีพิมพ์ว่าตนดีที่สุด และงานใหม่ๆ ที่ออกมาเร็วมากจนคนนอกวงการ (หรือแม้แต่ในวงการ) ก็สับสนว่าควรเทียบกับงานไหนกันแน่ สำหรับเพื่อนๆ ที่อยากรู้จัก ELMO และ BERT สามารถดูได้ในบทความนี้ครับ https://thaikeras.com/2018/transfer-learning-nlp/

จุดที่ยากอีกจุดหนึ่งก็คือ แม้นเราเจองาน SOTA ดังกล่าวแล้ว เราก็ไม่รู้จะนำ implementionของงานเหล่านั้นมาเทียบกับเราได้อย่างไร

ในยุค 4.0 นี้ปัญหาข้างต้นก็กลายเป็นเรื่องกล้วยๆ ภายในพริบตาเพียงแค่เราเข้าไปที่  https://paperswithcode.com/sota

ในเว็บนี้แบ่งงานของ Machine Learning / Data Science ไว้แยกย่อยถึง 1200 ประเภท และจัดอยู่ในหมวดหมู่ที่เรา Browse ได้อย่างง่ายๆ  งานทุกประเภทจะมี Leaderboard จัดลำดับคะแนนที่เป็นหนึ่งเดียว ทำให้เราไม่ต้องมานั่งสับสนอีกต่อไปเวลางานแต่ละชิ้นต่างอ้างว่าตนคือผลงานที่ดีที่สุดในปัจจุบัน (แต่ตีพิมพ์ต่างเวลากันและเทียบกับ SOTA คนละชิ้นกัน) เรามาดูที่นี่ที่เดียวได้เลย ตัวอย่างของหมวดหมู่ที่น่าสนใจมีดังนี้ครับ

Computer Vision

  • Image Classification - 50 บอร์ดย่อย
  • Object Detection - 49 บอร์ดย่อย
  • Image Generation - 45 บอร์ดย่อย

NLP

  • Machine Translation - 40 บอร์ดย่อย
  • Sentiment Analysis - 20 บอร์ดย่อย
  • Text Classification - 32 บอร์ดย่อย (น่าสนใจมากกว่า XLNET ยังเหนือกว่า ERNIE แม้น ERNIE จะมาทีหลังและ claim ว่าตนดีกว่า XLNET)

Medical

  • Medical Image Segmentation - 25บอร์ดย่อย
  • Drug Discovery - 7 บอร์ดย่อย
  •  

 

ซึ่งบอร์ดเหล่านี้ยังเปิดโลกทัศน์ให้เราเห็นผลงานใหม่ๆ สุดเจ๋งในฟิลด์อื่นๆ ที่เราอาจไม่รู้จักมาก่อนได้อีกด้วย และนอกจากนี้เว็บนี้ยังลิงก์ไปยังโค้ดของแต่ละผลงานโดยอัตโนมัติและยังแนะนำผลงานหน้าใหม่ที่มาแรงเจ๋งๆ (trending) อีกมากในหน้าแรกของเว็บไซต์ครับ https://paperswithcode.com

ขอเชิญเพื่อนๆ เข้าไปหาความเพลิดเพลินกันได้เต็มที่ครับ 

This topic was modified 2 years ago 2 times by The Neural Engineer
อ้างอิง
Posted : 18/08/2019 1:30 am
Share:

Please Login or Register