พื้นฐาน Object Detection และ RetinaNet
ข้อมูลแปลภาษาไทย-อังกฤษที่ดีที่สุด 1 ล้านคู่ประโยคโดยทีม AIResearch และ SCB ThaiKeras and Kaggle 29 สค. 2563
สวัสดีครับเพื่อนๆ ถ้าใครสนใจโปรเจกต์แปลภาษา หรือ Machine Translation ไทย-อังกฤษ ต้องห้ามพลาดข้อมูลชุดใหม่ล่าสุดนี้จากทีม Airesearch และ SCB ซึ่ง
https://airesearch.in.th/releases/machine-translation-datasets/
ข้อมูลชุดนี้เป็นข้อมูลคู่ประโยคไทย-อังกฤษจำนวนมากถึง 1 ล้านคู่ประโยค ที่มีข้อมูลหลากหลายมากๆ ครอบคลุมหลายการใช้งาน เช่น
- ประโยคพูดคุยในการซื้อขายของ
- ประโยคพูดคุยผ่าน sms
- ประโยครีวิวสินค้าต่างๆ
- ประโยคสนทนาที่หลากหลายอื่นๆ จาก mozilla common voice ( https://commonvoice.mozilla.org/en/about )
- ประโยคจากเอกสารราชการไทยต่างๆ ที่มีการแปลเป็นภาษาอังกฤษ
- ประโยคจากเว็บไซต์ทั่วโลก ที่มีทั้งภาษาไทยและอังกฤษ
- ประโยคจากสารานุกรมวิกิพีเดีย
ที่มีการคัดกรองคุณภาพด้วยความเอาใจใส่ อาทิเช่น การใช้ Regular Expression ตัดคำผิดต่างๆ , หรือการใช้ Universal Sentence Embedding เพื่อตัดคู่ประโยคที่มีการแปลคลาดเคลื่อนเยอะมากๆ ออกไปจากชุดข้อมูล
เพื่อนๆสามารถอ่านรายละเอียดเพิ่มเติมได้ในบล็อกนี้ื ซึ่งอ่านสนุกและได้ความรู้ดีดีครับ
Neural Machine Translation และ Attention Mechanism: เข้าใจด้วย Animation (บทความจาก airesearch.in.th )
https://medium.com/airesearch-in-th/neural-machine-translation-and-attention-mechanism-cbed4b88c1