Notebook ของ Quora Classification ฉบับภาษาไทย เสร็จแล้วครับ
https://www.kaggle.com/ratthachat/workshop-text-classification-quora/
เนื่องจากในการทำ project แบบสมบูรณ์ตั้งแต่ต้นจนจบมีรายละเอียดค่อนข้างมาก และเพื่อนๆ ก็มีทั้งมือเก๋าและมือใหม่ที่มีประสบการณ์ต่างกันไป เนื้อหาทั้งในกระทู้นี้และใน Notebook อาจมีรายละเอียดบางส่วนตกหล่นไป ส่วนไหนที่เพื่อนๆ อยากเข้าใจเพิ่มเติมสามารถถามได้ทุกเรื่องที่กระทู้นี้หรือที่ Kaggle Notebook ได้เลยครับ
การจะทำคะแนนให้ดีขึ้น ต้องมีทริคเพิ่มเติม เช่น อันดับ3 ใช้ spacy เข้ามาช่วยในการเตรียมข้อมูล สามารถดูโค้ดทั้งหมด (เค้าโครงคล้ายๆ กับ workshop ของเรา) ได้ที่นี่ครับ
วงการนี้พัฒนาไปเร็วมากครับ
ปัจจุบันปี 2020 มีสถาปัตยกรรมตระกูล Transformers เข้ามาทำให้สถาปัตยกรรรม LSTM ที่พูดถึงในบทความนี้ล้าสมัยและประสิทธิภาพต่ำกว่ามาตรฐานมาก ผู้อ่านสามารถอ่านเรื่อง Transformer ได้ในการแข่งขัน NLP ใหม่ๆ ปี 2020 ครับ เช่น
ถอดรหัสถ้อยคำสำคัญจากทวิตเตอร์ -- https://bit.ly/thaikeras-kaggle-tweet20
ตรวจจับภาษาหยาบคาย 7 ภาษาด้วย XLM-Roberta -- https://bit.ly/thaikeras-kaggle-xlmr