ใช้งาน GPT3 โมเดลภาษาที่ฉลาดที่สุดเท่าที่เคยมีมา (เมษายน 2021)สวัสดีครับเพื่อนๆ หลังจากที่เราได้เล่า applications เจ๋งๆ ของ GPT3 ในบทความเดือนก่อน http://bit.ly/thaikeras-openai-gpt ทาง ThaiKeras ก็ได้รับ surprise จาก OpenAI ที่อนุญาตให้เราทดลองใช้งาน GPT3 ได้อย่างเป็นทางการครับ!!
เราสามารถให้ GPT3 เขียนเรื่องราวสร้างสรรค์เรื่องราวอะไรก็ได้เหมือนกับมนุษย์ โดยใช้ภาษาอังกฤษเป็นสื่อกลาง หรือจะใช้ภาษาไทยผ่าน Translator API ก็ย่อมได้ (ตัวอย่าง https://bit.ly/thaikeras-kaggle-gpt2thai ) ดังนั้นน่าสนใจมากๆ ภาคธุรกิจหรือ Startup ในบ้านเราจะสามารถนำพลังของ GPT3 มาประยุกต์ได้อย่างไรบ้าง
เพื่อนๆ สามารถกดที่รูปเพื่อเข้าสู่บทความได้เลยครับ
Applications เจ๋งๆ ของ AI (มีนาคม 2021) ในบทความนี้เราจะมาดูหลายๆ Applications เจ๋งๆ ของ AI กันครับ โดยสำหรับ Applications ด้านภาษาและเกมส์กดดูได้ที่นี่ครับ ส่วน Applications ที่ช่วยเก็บขยะรักษาสิ่งแวดล้อมดูได้ที่นี่ครับ
เพื่อนๆ สามารถกดที่รูปเพื่อเข้าสู่บทความได้เลยครับ
การสร้าง Data Pipeline ใน Tensorflow-Keras 2.x (กุมพาพันธ์ 2021 - 2) ด้วยพลังของ TF-Keras นั้น การสร้างและฝึกสอนโมเดล Deep Learning สามารถทำได้ภายในไม่กี่บรรทัด ดังนั้นในทางปฏิบัติประสิทธิภาพของโมเดลที่เราสร้างขึ้นจะใช้งานจริงได้ดีแค่ไหน จะขึ้นอยู่กับ "การเตรียม" ข้อมูลฝึกสอนของเราเป็นหลักครับ การเตรียมข้อมูลฝึกสอนนี้มักเรียกว่า "การสร้าง Data Pipeline"
เพื่อนๆ สามารถกดที่รูปเพื่อเข้าสู่บทความได้เลยครับ
เรียนรู้การสร้างโมเดลรู้จำเสียง ผ่าน Kaggle : Rainforest Audio Detection (กุมภาพันธ์ 2021) สำหรับคนที่สนใจวิธีการสร้างโมเดลที่รู้จำเสียงต่างๆ ได้ (input เป็นเสียง) หรือผู้ที่สนใจประยุกต์ AI/Data Science กับงานด้าน "วิทยาศาสตร์สิ่งแวดล้อม" (Environmental Science) วันนี้มีโอกาสดีดี ให้ลองเรียนรู้ผ่านการแข่งขันบน Kaggle ที่ชื่อว่า Rainforest Audio Detection หรือ "รู้จำเสียงสัตว์ต่างๆ ในป่าดงดิบ"
เพื่อนๆ สามารถกดที่รูปเพื่อเข้าสู่บทความได้เลยครับ
สรุปย่อๆ (มาก) 22 Transformers ที่สำคัญบน Huggingface (พฤศจิกายน 2020) Huggingface ซึ่งเป็น library ของ Transformers ที่มีโมเดลให้เลือกใช้มากที่สุด (วันที่เขียนบทความนี้มีทั้งหมดราว 40 โมเดล) อย่างไรก็ดีการมีตัวเลือกมากเกินไปบางครั้ง ทำให้ผู้ใช้ใหม่ๆ สับสนได้เหมือนกันว่าโมเดลใดเหมาะกับปัญหาแบบไหน และแตกต่างกันอย่างไร วันนี้ทีม ThaiKeras ได้ลองแยกประเภทและสรุปย่อ (มากๆ) โมเดลเฉพาะที่เรารู้จักคร่าวๆ ไว้ 20+ โมเดลครับ
เพื่อนๆ สามารถกดที่รูปเพื่อเข้าสู่บทความได้เลยครับ
OpenVaccine: ออกแบบวัคซีน Covid-19 ภายใน 23 วันบน Kaggle!! (ตุลาคม 2020) ‘เมื่อเดือนกันยายน ทาง Kaggle ได้ประกาศโปรเจกต์เร่งด่วน "OpenVaccine" เพื่อขอความร่วมมือ Data Scientists ทั่วโลกให้มาช่วยกันมีส่วนร่วมในกระบวนการออกแบบวัคซีน Covid-19 ซึ่งเป็นหนึ่งในภัยคุกคามประชากรโลกที่อันตรายที่สุดในปัจจุบัน ซึ่งพวกเราเองก็สามารถมีส่วนร่วมในโปรเจกต์สุดสำคัญนี้ได้ ทีมงาน ThaiKeras ขออาสาอธิบายที่มาที่ไปของโปรเจกต์เร่งด่วนนี้ในบทความนี้เพื่อเผยแพร่ให้กับเพื่อนๆ นักวิจัยชาวไทยเราที่ก็มีศักยภาพสูงที่จะช่วยโปรเจกต์นี้ได้ครับ
เพื่อนๆ สามารถกดที่รูปเพื่อเข้าสู่บทความได้เลยครับ
Colab vs. Kaggle - ไม่ต้องเลือก ใช้ทั้งคู่ดีที่สุด (กันยายน 2020) ‘ทั้ง Colab และ Kaggle ต่างก็เป็นสุดยอดคอมพิวเตอร์แล็บบน Cloud ที่ให้ใช้ Virtual Machine (VM) ประสิทธิภาพสูงทั้ง GPU และ TPU
ทั้งคู่เปิดโอกาสให้คนทั่วไปสามารถทำการทดลอง Deep Learning หรือ AI ระดับงานวิจัยชั้นสูงได้โดยไม่ต้องมีทุนหนา โดยก่อนหน้าที่จะมี Colab และ Kaggle นี้ (ราวๆ 2-3 ปีก่อน) การจะใช้ GPU / TPU ประสิทธิภาพสูงเช่นนี้ต้องจ่ายเงินอย่างน้อยราว 30,000 บาทต่อเดือน และอาจจะทะลุไปถึงหลักแสนบาทต่อเดือน (ในกรณีใช้ Multi-GPUs ซึ่งเทียบเท่ากับการใช้ TPU) หลายคนอาจสงสัยว่าควรจะใช้ Colab หรือ Kaggle ดีกว่ากัน สำหรับส่วนตัวผมเองคิดว่าใช้ทั้งคู่ร่วมกันนั้นยอดเยี่ยมที่สุดครับ
เพื่อนๆ สามารถกดที่รูปเพื่อเข้าสู่บทความได้เลยครับ
Deep Language & Knowledge Understanding Series : เจาะลึกความสามารถด้าน "ภาษา" และ "ความรู้" ของโมเดล AI ที่ดีที่สุด (สิงหาคม 2020) ‘โมเดล AI กลุ่ม Deep NLP ที่ขึ้นชื่อว่าเก่งกาจด้านภาษาสุดๆ นั้นแท้จริงแล้วเข้าใจ ภาษามนุษย์จริงหรือไม่ เราจะมาค้นหาคำตอบในซีรี่ย์พิเศษเดือนสิงหาคมนี้ โดยเป็นชุดบทความ 4 ตอนต่อเนื่องกัน ทั้งในแง่มุมว่าการทดสอบแบบใดถึงจะเป็นการทดสอบความฉลาดอย่างแท้จริง และโมเดล AI ประเภทใดที่ทำการทดสอบได้ดีที่สุด และเมื่อ AI ทำแบบทดสอบได้ดีกว่ามนุษย์แล้วแปลว่า AI ฉลาดกว่ามนุษย์หรือไม่
เพื่อนๆ สามารถกดที่รูปเพื่อเข้าสู่บทความได้เลยครับ
อ่านงานวิจัยอย่างไรให้รู้เรื่อง (กรกฎาคม 2020) นักศึกษาและอาจารย์หลายท่านปีหนึ่งต้องอ่านเปเปอร์หลายร้อยชั่วโมงถ้ากระบวนการอ่านงานวิจัยไม่มีประสิทธิภาพก็จะทำให้เสียเวลาไปโดยเปล่าประโยชน์ ซึ่งเรื่องเทคนิคการอ่านเปเปอร์นี้กลับไม่ค่อยมีคนพูดถึง บทความ Classic ของ Prof. Keshav ได้แนะนำวิธีการอ่านอย่างมีประสิทธิภาพสูงสุด โดยไอเดียหลักก็คือ "การอ่าน 3 รอบ" นั่นคืออจ. เผยเทคนิคว่าถ้าอยากเข้าใจเปเปอร์ให้กระจ่างแจ้งควรต้องอ่านอย่างน้อย 3 รอบ โดยเริ่มจากหยาบมากๆ ในรอบแรก ไปเป็นละเอียดมากๆ ในรอบที่ 3 ครับ
เพื่อนๆ สามารถกดที่รูปเพื่อเข้าสู่บทความได้เลยครับ
10 เรื่องต้องรู้ใน Tensorflow 2.2 (มิถุนายน 2020) เมื่อเดือนพฤษภาที่ผ่านมา Tensorflow 2.2 หรือ TF2.2 ก็ได้ฤกษ์เปิดตัวอย่างเป็นทางการ โดยนับแต่ TF 2.0 ที่ทางทีมงาน TF ได้วางแผนจะให้การเขียน Keras เป็น standard สำคัญ และใน TF เวอร์ชั่น 2.2 นี้นับว่าวิสัยทัศน์นี้เกือบเสร็จสมบูรณ์มากๆ แล้วครับ โดยการเขียนโปรแกรมด้วย TF+Keras นั้นมีจุดเด่นมากๆ หลายจุดที่เราประทับใจสุดๆ ทีมงานจึงนำ “10 เรื่องต้องรู้” มาสรุปสั้นๆ ให้เพื่อนๆ พร้อมทั้งลิงก์เพื่อศึกษาเพิ่มเติมครับ
เพื่อนๆ สามารถกดที่รูปเพื่อเข้าสู่บทความได้เลยครับ
สร้างโมเดลที่เข้าใจถึง 100 ภาษา และทำความรู้จัก Subwords Embedding ด้วยพลังของ XLM-Roberta และ TPU (พฤษภาคม 2020) สวัสดีครับเพื่อนๆ วันนี้จะพาเพื่อนๆ ไปเรียนรู้วิธีการสร้างโมเดลตรวจจับประโยคที่เป็นพิษ (toxic detection) เพื่อโจมตี กล่าวร้าย หรือเหยียดหยามบุคคลอื่น ไม่ว่าจะเป็น เพศ เชื้อชาติ ศาสนา ฯลฯ ที่เป็นการแข่งขันบน Kaggle ... โดยการแข่งขันทำนองนี้จัดมาแล้วหลายครั้ง แต่ครั้งนี้พิเศษสุดๆ เนื่องจากว่าเป็นการแข่งขันแบบ ”พหุภาษา” หรือ Multi-lingual ที่ยากมากๆ ครับ โดยข้อมูลสอน training data นั้นเป็นภาษาอังกฤษทั้งหมด แต่เวลาเราต้องไปทดสอบจริงเพื่อตรวจจับประโยคพิษบน test data นั้นไม่มี ประโยคภาษาอังกฤษเลยแม้แต่ประโยคเดียว!! ประโยคที่เราต้องไปทำนายประกอบไปด้วย 6 ภาษาคือ ภาษาสเปน ฝรังเศส โปรตุเกส รัสเซีย ตุรกี และอิตาลีครับ
เพื่อนๆ สามารถกดที่รูปเพื่อเข้าสู่บทความได้เลยครับ
DeepFake Detection : สร้างโมเดลตรวจสอบวิดิโอ “ปลอม” (26 เมษายน 2020) สวัสดีครับเพื่อนๆ ในที่สุดการแข่งขัน DeepFake ชิงรางวัล 1 ล้านเหรียญ ก็ได้ข้อสรุปแล้ว และทีมที่ ThaiKeras ของเราเข้าร่วมด้วยได้อันดับที่ 29 ของโลก วันนี้เลยจะขออนุญาตมาแชร์วิธีการออกแบบโมเดล วิเคราะห์ปัญหา การ optimize performance ที่เราได้ใช้ในการแข่งขันครับ
เพื่อนๆ สามารถกดที่รูปเพื่อเข้าสู่บทความได้เลยครับ
Too good to be true ตอนที่ 1 (เมษายน 2020) เรื่องหนึ่งที่สำคัญที่สุดในการสร้างโมเดล Machine Learning ก็คือ “การออกแบบกระบวนการเรียนรู้” เพื่อให้แน่ใจได้ว่า “ความรู้ที่ได้จากโมเดล” นั้น “สามารถใช้งานได้ในโลกความเป็นจริง” ปัจจุบันในยุคที่ AI tool เข้าถึงได้ง่ายสำหรับคนทั่วไปที่ไม่ใส่ใจพื้นฐานทางสถิติ มักทำให้เกิดการอ้างว่า ค้นพบโมเดลชนิดใหม่ที่แม่นยำยิ่งกว่าโมเดลของแล็บชั้นนำระดับโลก
ในทางการแพทย์ พบว่าหลายๆ งานที่เคลมว่าสามารถตรวจสอบโรคได้แม่นยำเกือบ 100%พอไปใช้งานจริง แทบจะทำนายโรคแบบสุ่มๆในทางธุรกิจหรือการเงิน ก็เช่นกัน หลายโมเดลที่ทำนายยอดขายในทางทดลองได้แม่นยำแทบจะ 100% หรือ ระบบที่ทำกำไรบนตลาดหุ้นได้สูง ก็ใช้ไม่ได้จริงเมื่อมาทดลองใช้กับยอดขายหรือ ราคาหุ้นในอนาคต (ไม่ใช่ ข้อมูลในอดีต) ผลลัพธ์ที่เก่งกาจเกินไปในการทดลอง (แต่ใช้งานจริงไม่ได้) บางครั้งเราเรียกว่า “too good to be true” ครับ
สาเหตุหนึ่งที่พบบ่อยที่สุดของ “too good to be true” มักเกิดจากเรื่องที่ง่าย แต่ลึกซึ้งนั่นคือเรื่อง “การแบ่งข้อมูล” (Data Splitting) ซึ่งถ้าทำผิดพลาดจะก่อให้เกิดปัญหาที่เรียกว่า “Data Leakage” หรือ “ข้อมูลรั่ว” ที่ทำให้ผลลัพธ์ที่เราวัดเองนั้นยอดเยี่ยม แต่ใช้งานจริงไม่ได้ครับ
เพื่อนๆ สามารถกดที่รูปเพื่อเข้าสู่บทความได้เลยครับ
AI vs. COVID-19 (มีนาคม 2020) โอกาสที่ Data Scientists จะได้ช่วยวงการแพทย์ลดผลกระทบของ COVID-19 ด้วยโมเดล NLP โดยทาง Kaggle ร่วมกับสถาบันวิจัยชั้นนำหลายแห่งได้ขอความร่วมมือจาก Data Scientists ทั่วโลกเพื่อช่วยทีมวิจัยด้านการแพทย์ในงานวิจัย COVID-19
งานนี้มีที่มาว่าตั้งแต่โรคนี้ระบาดหนัก ก็ได้มีงานวิจัยทางด้านการแพทย์ออกมามากมายเกือบๆ 30,000 ฉบับซึ่งก็นับว่าเป็นประโยชน์มาก ในการทำความเข้าใจโรคนี้ในแง่มุมต่างๆ ทว่าปัญหาก็คือไม่มีนักวิจัยคนไหน สามารถอ่านงานวิจัยทั้ง 30,000 ฉบับไหว ทำให้ความรู้สำคัญต่างๆ อาจจะค้นเจอช้าเกินไป และทำให้การรักษาโรคนี้ช้าเกินกว่าที่ควรจะเป็น
ดังนั้น Kaggle จึงได้ขอให้ Data Scientists ทั่วโลกช่วยกันสร้างโมเดล NLP ขึ้นมาเพื่อทำความเข้าใจประเด็นสำคัญมากๆ ที่ซ่อนอยู่ในแต่ละงานวิจัย โดย Datasets ที่ Kaggle เตรียมไว้ให้นั้นประกอบไปด้วย "เอกสารงานวิจัยกว่า 30,000 ฉบับ" โดยเป็น Full Text ถึง 13,000 ฉบับ
เพื่อนๆ สามารถกดที่รูปเพื่อเข้าสู่บทความเพิ่อดูผลงาน AI ที่ขุดจากงานวิจัย COVID ได้เลยครับ
Clever Hans (กุมภาพันธ์ 2020) - ปรากฏการณ์ม้า (ที่เหมือนจะ) แสนรู้ใน Deep Learning Models เมื่อราว 100 กว่าปีที่แล้วมีปรากฎการณ์ฮือฮามากที่ประเทศเยอรมนี นั่นคือมีม้าตัวหนึ่งที่มีความสามารถพิเศษมากมาย อาทิเช่น คิดเลขบวกลบง่ายๆ ได้อย่างถูกต้องและ สามารถแก้ปัญหาเชิงบรรยายที่ซับซ้อนขึ้นมากขึ้นได้ ทว่าหลังจากที่ผ่านการสืบสวนอย่างจริงจังจากนักวิทยาศาสตร์และจิตวิทยา พบว่าแม้นเจ้าของม้าไม่ได้ตั้งใจบอกใบ้อะไรเลย รวมทั้งม้าฮันส์ยังตอบคำถามได้แม่นยำจริง แต่จริงๆ แล้วฮันส์ไม่ได้มีความรู้อะไรเลย เหตุการณ์นี้เกิดขึ้นได้อย่างไร และนำมาสู่แนวคิดที่ว่าเหตุการณ์นี้ก็กำลังเกิดขึ้นเช่นเดียวกันกับ Deep Learning Model
เพื่อนๆ สามารถกดที่รูปเพื่อเข้าสู่บทความได้เลยครับ
Deep Learning สำหรับ Climate Change จากแล็บวิจัยชั้นนำของโลก 17 แห่ง (มกราคม 2020) สวัสดีครับเพื่อนๆ สำหรับผู้ที่สนใจนำ Deep Learning เพื่อจัดการปัญหา Climate Change สามารถดาวโหลดเปเปอร์ระดับสุดยอดฉบับนี้ไปเป็นแนวทางได้เลยครับ เปเปอร์ฉบับนี้ได้กล่าวถึงการจัดการปัญหา Climate Change ด้วยเทคนิกต่างๆ เช่น Computer Vision, NLP, Reinforcement Learning, Time-series analysis, Unsupervised Learning และอื่นๆ อีกมากมาย โดยแบ่งออกเป็น 13 เป้าหมาย
เพื่อนๆ สามารถกดที่รูปเพื่อเข้าสู่บทความได้เลยครับ
Deep Double Descent - ปรากฏการณ์หักลงสองรอบของค่า Error ใน Deep Learning Models (ธันวาคม 2019) OpenAI ได้ทำการทดลองเกี่ยวกับการฝึกสอนโมเดลขนาดใหญ่บน Deep Learning อาทิเช่น ResNets , Transformers และโมเดลอื่นๆ ในหลายๆ ปัญหาอย่างละเอียด และพบปรากฎการณ์ที่น่าประหลาดใจที่ว่า “ค่าความผิดพลาดจะหักลง 2 รอบ” (Double Descent) เสมอ และขัดกับความเชื่อในสถิติดั้งเดิม รวมทั้งความเชื่่อพื้นฐานของ Deep Learning
เพื่อนๆ สามารถกดที่รูปเพื่อเข้าสู่บทความได้เลยครับ
Lab จาก MIT ปฏิวัติความเข้าใจเรื่อง “สิ่งที่ AI เห็น” สวัสดีครับเพื่อนๆ ขอเปลี่ยนบรรยากาศจากว่าด้วยเรื่อง Programming หรือ Frontier Applications มาว่ากันด้วยเรื่อง AI Fundamental กันบ้างนะครับ โดยสิ่งที่เราสนใจก็คือ “เวลา AI ทำนายสิ่งต่างๆ เช่น ทำนายภาพของสุนัข/รถยนต์ ว่าเป็น สุนัข/รถยนต์” นั้น โมเดลรู้ได้อย่างไร และพิจารณาจากองค์ประกอบไหนในรูป ในปี 2018-2019 Lab จาก MIT ได้ทำงานวิจัยปฏิวัติความเข้าใจเรื่องนี้ให้คนในวงการหลายเรื่อง ซึ่งเกี่ยวโยงกับปริศนาที่สำคัญของวงการ AI ที่เรียกว่า Adversarial Examples อีกด้วย
เพื่อนๆ สามารถกดที่รูปเพื่อเข้าสู่บทความได้เลยครับ
MixUp, CutOut & MixCut สวัสดีครับเพื่อนๆ ในบทความก่อนหน้าเราได้พูดเรื่อง Image Augmentation ซึ่งเป็นเทคนิกที่สำคัญมากๆ ที่จะทำให้โมเดล “นำความรู้ไปใช้กับข้อมูลอื่นๆ ในอนาคต” (Generalization) วันนี้จะขอมาเล่าเพิ่มเติม เทคนิก Image Augmentation ที่ค่อนข้างใหม่ และสามารถนำไปประยุกต์รวมใช้กับเทคนิกใน Workshop ข้างบนได้ทันทีครับ โดย 3 เทคนิกที่ได้รับการยอมรับว่ามีประสิทธิภาพสูงในการทำให้ computer เข้าใจรูปภาพมากขึ้นก็คือ Mixup, Cutout และ CutMix
เพื่อนๆ สามารถกดที่รูปเพื่อเข้าสู่บทความได้เลยครับ
ทำความเข้าใจสิ่งที่ AI ทำนายด้วย Grad-CAM
บทเรียนแรกๆ ของโมเดล AI และเป็นสิ่งที่เราใช้งานบ่อยที่สุดคือ การ Classification หรือ “การจำแนกประเภทข้อมูล” เช่นในปัญหา “ตรวจสอบเบาหวานในดวงตา” (ดู ThaiKeras workshops) เราต้องการให้ระบบของเราจำแนกอาการป่วยของดวงตาว่ารุนแรง ”ระดับ” ไหนตั้งแต่ระดับ 0 (ปกติ) ถึง 4 (เสี่ยงตาบอด) ซึ่งก็คือ “การจำแนกประเภท” ของดวงตาเป็น 5 ประเภทนั่นเอง (ประเภท 0, ประเภท 1, …, ประเภท 4)
สิ่งที่เป็นจุดอ่อนหนึ่งที่โมเดล AI ถูกโจมตีมานานในการใช้งานจริง ก็คือ “เราไม่เข้าใจความหมายของการทำนาย” เช่น เวลาระบบ AI ทำนายว่า “ดวงตานี้มีสิทธิที่จะตาบอด” เราจะเชื่อมั่นได้มากแค่ไหน? ถึงแม้นจะผ่านการฝึกสอนบนรูปดวงตานับหมื่นรูป แต่ถ้าปราศจากคำอธิบายเพิ่มเติม ระบบที่ให้คำทำนายดังกล่าวก็อาจจะนำไปใช้จริงได้ลำบาก
เพื่อแก้จุดอ่อนดังกล่าวทีมวิจัยจาก Georgia Institute of Technology จึงได้คิดงานวิจัยที่มีชื่อว่า Grad-CAM ขึ้นมาเพื่อ visualize และทำความเข้าใจในสิ่งที่โมเดลทำนาย กดดูรายละเอียดได้จากรูปครับ
รู้จัก EfficientNet โมเดลที่แข็งแกร่งที่สุดในปฐพีบน Computer Vision 2019 เพื่อนๆ ที่รู้ประวัติของ Deep Learning นั้น ทราบดีว่างานพลิกโลกเหล่านี้มีต้นกำเนิดจาก AlexNet บน ที่เอาชนะคู่แข่งบนปัญหา Computer Vision ได้ขาดลอย ถัดจาก AlexNet ก็มีโมเดล “Deep Learning” ชื่อดังกำเนิดอีกมากมาย ที่ดังมากๆ ก็คือ Inception จากทีม Google, ResNet จากทีม Microsoft หรือ ResNeXt จากทีม Facebook เป็นต้น ใน Kaggle เองโมเดลเหล่านี้ก็ยังเป็น “กระดูกสันหลังสำคัญของแชมเปี้ยน” ของแต่ละการแข่งขัน
วันนี้เราจะมาทำความรู้จัก EfficientNet ซึ่งว่ากันว่าเป็นโมเดลที่ดีที่สุดตั้งแต่ปี 2012 เป็นต้นมา ทั้งในแง่ความเร็ว ความแม่นยำ และการประหยัดหน่วยความจำ
เพื่อนๆ สามารถกดที่รูปเพื่อเข้าสู่บทความได้เลยครับ
มาลองเล่นแต่งเป็นกลอน ตอนที่ 2 : เมื่อทรานสฟอร์เมอร์เจอพระอภัย: ในบทความก่อน ผู้เขียนได้ทำการทดลองเรียนรู้แบบจำลองภาษาระดับอักขระโดยใช้ LSTM มาคราวนี้เราจะลองใช้ Transformer กันดูบ้าง โดยจะทดลองกับชุดข้อมูลเดิม คือวรรณคดีเรื่องพระอภัยมณี นอกจากนี้ ไหนๆ ก็จะทำการทดลองแล้ว เลยโหลดวรรณคดีเรื่อง รามเกียรติ์ และ สามก๊ก มาร่วมด้วย ในส่วนของโค้ดที่ใช้ ผู้เขียนได้แก้ไขเพิ่มเติมจากต้นฉบับเพื่อให้รองรับภาษาไทย
หมายเหตุ : บทความนี้ลิงก์ไปยัง medium.com ซึ่งเป็นที่ที่ทีมงานลงบทความของ ThAIKeras ในช่วงแรกครับ
รู้จักและแต่งกลอนสุนทรภู่ด้วย Character-Based Recurrent Neural Networks (RNNs) : RNNs เป็นโมเดลที่ทรงพลังที่สามารถสร้างความรู้จากการทำความเข้าใจ ข้อมูลที่มีลำดับ ได้อย่างดี ประโยคในภาษาของมนุษย์นั้นสามารถมองเป็น ‘ข้อมูลที่มีลำดับ’ ได้เช่นกัน (เช่น ประโยคประกอบไปด้วย ลำดับของคำ หรือ ลำดับของตัวอักษร เป็นต้น)
ดังนั้น RNNs จึงเหมาะเป็นอย่างมากที่จะนำมาใช้สร้างความรู้ต่างๆ จากข้อมูลที่ประกอบไปด้วยข้อความต่างๆ ที่เขียนด้วยภาษามนุษย์ ในบทความนี้เราจะประยุกต์ใช้ RNNs เพื่อทำความเข้าใจและเรียนรู้บทกลอนสุนทรภู่ในภาษาไทย และเมื่อเรียนรู้สำเร็จแล้วเราจะลองให้ RNNs ได้ลองแต่งกลอนใหม่ให้พวกเราอ่านกันด้วย
หมายเหตุ : บทความนี้ลิงก์ไปยัง medium.com ซึ่งเป็นที่ที่ทีมงานลงบทความของ ThAIKeras ในช่วงแรกครับ
รู้จัก Transformer Network งานวิจัยที่ถูกกล่าวขวัญมากที่สุดในปี 2017 : แต่ไหนแต่ไรมา เมื่อเรามี ข้อมูลที่มีลำดับ อาทิเช่น ข้อความหรือประโยคต่างๆ ของมนุษย์ และเราต้องการที่จะเรียนรู้และสร้างความรู้จากข้อมูลเหล่านั้น เรามักจะนึกถึง Recurrent Neural Networks (RNNs) ซึ่งถือได้ว่าเป็นกระบวนท่ายอดวิชาที่เป็นอันดับหนึ่งในการจัดการข้อมูลประเภทนี้ และ RNNs ก็ประสบความสำเร็จมากจนกระทั่งเคล็ดวิชาอื่นๆ แทบจะไม่มีความจำเป็นแต่อย่างใดและถูกลืมไปหมดสิ้น
แต่แล้วในกลางปี 2017 ก็มีเรื่องที่น่าตกใจกับวงการ Deep Learning และ NLP มากเมื่อทีมวิจัยทีมหนึ่งของ Google ประกาศว่า RNNs ไม่มีความจำเป็นอีกต่อไปและนำเสนอโมเดลใหม่ที่ชื่อว่า Transformer ซึ่งมีประสิทธิภาพเหนือกว่า RNNs ในเกือบทุกแง่มุม ในบทความนี้เราจะนำเพื่อนๆ ไปรู้จักกับ Transformer กันครับ
หมายเหตุ : บทความนี้ลิงก์ไปยัง medium.com ซึ่งเป็นที่ที่ทีมงานลงบทความของ ThAIKeras ในช่วงแรกครับ