ค้นงานพร้อมโค้ดที่ดีที่สุดในปัจจุบัน (State-of-the-Art) สำหรับงานที่เราสนใจบน https://paperswithcode.com/sota
โดยปกติแล้วถ้าเราอยากจะพัฒนา Machine Learning หรือ Data Science ต่อยอดในงานใหม่ๆ ที่เราอาจไม่คุ้นเคยมากเท่าไร (เช่น เราเคยทำ Vision เป็นหลัก แต่อยากลองเปลี่ยนมาทำ NLP เป็นต้น) สิ่งหนึ่งที่เราต้องทำในขั้นเริ่มต้นก็คือค้นหางานหรือโมเดล Baseline ที่เข้าใจง่าย ได้รับการยอมรับ และได้ผลดีพอสมควรเพื่อทำความเข้าใจวิธีการแก้ปัญหาเบื้องต้น
จากนั้นเมื่อเราเริ่มพัฒนาเราก็ต้องนำงานของเราเองไปเทียบกับกลุ่มงานที่เรียกว่า “State-of-the-Art” (SOTA) หรือ “สุดยอดผลงานในปัจจุบัน” ว่างานของเรานั้นดีพอหรือไม่
เมื่อไม่กี่ปีก่อน การค้นหางาน Baseline หรือ SOTA นั้นเป็นเรื่องยุ่งยากมากๆ สำหรับผู้ที่มาจากต่างฟิลด์ โดยอาจจะสุ่มค้น Keywords บน Google Scholar ที่มียอด Citation เยอะๆ จากนั้นก็เข้าไปดูผลการทดลองของ Papers เหล่านั้นอีกทีว่าเทียบกับงานชิ้นอื่นๆ ใดบ้าง
สิ่งที่น่าสับสนที่สุดมักเกิดขึ้นเวลางานสองงานต่างก็อ้างว่าตนคือ SOTA หรืองานที่ดีที่สุดในปัจจุบัน ตัวอย่างในวงการ NLP นั้นมี ELMO, BERT, XLNET และล่าสุดเมื่อไม่กี่วันก่อน ERNIE ต่างก็ตีพิมพ์ว่าตนดีที่สุด และงานใหม่ๆ ที่ออกมาเร็วมากจนคนนอกวงการ (หรือแม้แต่ในวงการ) ก็สับสนว่าควรเทียบกับงานไหนกันแน่ สำหรับเพื่อนๆ ที่อยากรู้จัก ELMO และ BERT สามารถดูได้ในบทความนี้ครับ https://thaikeras.com/2018/transfer-learning-nlp/
จุดที่ยากอีกจุดหนึ่งก็คือ แม้นเราเจองาน SOTA ดังกล่าวแล้ว เราก็ไม่รู้จะนำ implementionของงานเหล่านั้นมาเทียบกับเราได้อย่างไร
ในยุค 4.0 นี้ปัญหาข้างต้นก็กลายเป็นเรื่องกล้วยๆ ภายในพริบตาเพียงแค่เราเข้าไปที่ https://paperswithcode.com/sota
ในเว็บนี้แบ่งงานของ Machine Learning / Data Science ไว้แยกย่อยถึง 1200 ประเภท และจัดอยู่ในหมวดหมู่ที่เรา Browse ได้อย่างง่ายๆ งานทุกประเภทจะมี Leaderboard จัดลำดับคะแนนที่เป็นหนึ่งเดียว ทำให้เราไม่ต้องมานั่งสับสนอีกต่อไปเวลางานแต่ละชิ้นต่างอ้างว่าตนคือผลงานที่ดีที่สุดในปัจจุบัน (แต่ตีพิมพ์ต่างเวลากันและเทียบกับ SOTA คนละชิ้นกัน) เรามาดูที่นี่ที่เดียวได้เลย ตัวอย่างของหมวดหมู่ที่น่าสนใจมีดังนี้ครับ
Computer Vision
- Image Classification - 50 บอร์ดย่อย
- Object Detection - 49 บอร์ดย่อย
- Image Generation - 45 บอร์ดย่อย
NLP
- Machine Translation - 40 บอร์ดย่อย
- Sentiment Analysis - 20 บอร์ดย่อย
- Text Classification - 32 บอร์ดย่อย (น่าสนใจมากกว่า XLNET ยังเหนือกว่า ERNIE แม้น ERNIE จะมาทีหลังและ claim ว่าตนดีกว่า XLNET)
Medical
- Medical Image Segmentation - 25บอร์ดย่อย
- Drug Discovery - 7 บอร์ดย่อย
ซึ่งบอร์ดเหล่านี้ยังเปิดโลกทัศน์ให้เราเห็นผลงานใหม่ๆ สุดเจ๋งในฟิลด์อื่นๆ ที่เราอาจไม่รู้จักมาก่อนได้อีกด้วย และนอกจากนี้เว็บนี้ยังลิงก์ไปยังโค้ดของแต่ละผลงานโดยอัตโนมัติและยังแนะนำผลงานหน้าใหม่ที่มาแรงเจ๋งๆ (trending) อีกมากในหน้าแรกของเว็บไซต์ครับ https://paperswithcode.com
ขอเชิญเพื่อนๆ เข้าไปหาความเพลิดเพลินกันได้เต็มที่ครับ