AI and Business

คุยกันภาษา AI

ไปที่ข้อความล่าสุด by The Neural Engineer 2 years ago

1 ข้อความ

1 Users

0 Likes

952 Views

RSS

The Neural Engineer

(@neural-engineer)

Honorable Member Admin

เข้าร่วมเมื่อ: 7 years ago

ข้อความ: 412

Topic starter 31/01/2023 10:09 am

จัดระเบียบ ประมวลผลเอกสารทั้งหลายด้วย Document AI (บทความนี้ถอดมาจากต้นฉบับ https://huggingface.co/blog/document-ai )

เอกสารกองพะเนินที่ต้องมีคนนั่งอ่าน จัดระเบียบ ยังมีอยู่ในบริษัทส่วนใหญ่ ถึงแม้เราจะเข้าสู่โลกยุค Digital แล้วก็ตาม

ถ้ามีใครสักคนมานั่งพิมพ์เอกสารเหล่านี้ลงคอมพิวเตอร์ แล้วจัดระเบียบให้เรียบร้อย สามารถ "search" หาเอกสารต่างๆ ได้เหมือนกับเรา search google คงจะดีมิใช่น้อย

นั่นจึงเป็นที่มาของ Document AI ที่พยายามจะมาช่วยจัดการงานถึกๆ บางส่วนนี้ให้กับคุณ

ปัจจุบัน Document AI อาจจำแนกได้เป็น 6 ประเภทได้แก่ 1) OCR 2) Document Image Classification 3) Layout Analysis 4) Document Parsing 5) Table detection, extraction & recognition 6) Document Q&A

----

1) OCR (Optical Character Recognition) หรือการอ่านตัวหนังสือ (ลายมือหรือตัวพิมพ์) จากรูปภาพ นั้นเป็นงานที่พัฒนากันมาหลายสิบปีและมีโมเดลดีๆ ให้ใช้มากมาย ยกตัวอย่างเช่น EasyOCR [อ้างอิง 1] หรือ TransformerOCR [อ้างอิง 2] โมเดล OCR บางครั้งต้องนำมาใช้ก่อนจะนำไปเข้า Document AI ประเภทอื่นๆ

---

2) Document Classification หรือ การจำแนกประเภทเอกสารต่างๆ เช่น เอกสารเป็นบันทึก เป็นจดหมายราชการ หรือเป็น email เป็นต้น วิธีการที่ง่ายที่สุดในการทำ Doc Classification คือนำเอกสารต่างๆ เข้า OCR ก่อนที่จะฝึกและจำแนกด้วย Text Model เช่น BERT เป็นต้น อย่างไรก็ดี "รูปแบบการจัดเรียง" หรือ layout ของเอกสารเหล่านี้ มักมีเอกลักษณ์เฉพาะตัว (ดูรูปที่ 1 และหัวข้อถัดไป) ดังนั้นถ้าเรานำการจัดเรียง หรือ layout มาพิจารณาด้วย (นอกจากข้อความจาก OCR) จะทำให้การ classification ง่ายขึ้นอย่างมาก จึงเป็นที่มาของโมเดลเช่น LayoutLM, LayoutLMv2 และ LayoutLMv3 [3] เป็นต้น

ใน dataset มาตรฐาน OCR+BERT นั้นทำทำความแม่นยำ 89% ในขณะที่ LayoutLM3 นั้นแม่นยำถึง 95% จากการใช้ Layout

----

3) Layout Analysis : การวิเคราะห์ layout คือการจำแนกแต่ละบล็อกของเอกสาร (ดูรูปที่ 2) เช่น บล็อกตาราง บล็อกรูปภาพ หรือบล็อกข้อความ รวมทั้งตำแหน่งของแต่ละบล็อก เป็นต้น

งาน layout analysis นี้สามารถมองเป็นงาน image object detection ได้ดังแสดงในรูปที่ 2 ซึ่งจะทำให้ได้คลาสและตำแหน่งของบล็อกที่ต้องการ สามารถใช้งาน LayoutLMv3 จัดการงานนี้ได้ครับ

---

4) Document Parsing : คือขั้นต่อจาก Layout Analysis นั่นคือนอกจากจะ detect แต่ละบล็อกได้อย่างถูกต้องแล้ว ยังสามารถดึงข้อมูลในบล็อกแต่ละประเภทได้อย่างเหมาะสมอีกด้วย ลองใช้โมเดล Donut [4] หรือ ErnieLayout [5] ได้ครับ

---

5) Table Detection, Extraction and Recognition : งานดึงข้อมูลจาก Table อาจต้องใช้โมเดลอื่นที่มีความแม่นยำมากกว่าโมเดล Document Parsing ทั่วไป โมเดล Table Transformers [6] ถูกออกแบบมาเพื่องานนี้โดยเฉพาะครับ

---

6) Document Q&A : ขั้นถัดไปของ Document AI คือไม่ใช่แค่บันทึกข้อมูลในเอกสารลงคอมพิวเตอร์อย่างถูกต้องเท่านั้น แต่เรายังสามารถถามคำถามต่างๆ เกี่ยวกับเอกสารเหล่านั้นได้ โดยเป็นคำถามภาษามนุษย์ ไม่ใช่ภาษาคอมพิวเตอร์เช่น SQL ดูตัวอย่างในรูปที่ 3 ครับ

โมเดลเช่น Donut [4] สามารถจัดการงานเหล่านี้ได้และลองเล่นได้ที่นี่ครับ https://huggingface.co/spaces/impira/docquery --- เพิ่มเติม 1. โมเดลเช่น LayoutLM เวอร์ชั่นต่างๆ ไม่อนุญาตให้นำไปใช้งานได้แบบ commercial ก่อนจะใช้งานโมเดลเหล่านี้ในทาง commercial ให้ตรวจสอบ licence ดีๆ

เพิ่มเติม 2. ในการสร้าง Database ของ Document เหล่านี้เพื่อ query ในการใช้งานในอนาคต เราสามารถใช้โมเดลใดก็ได้ข้างบน ประมวลผล Document ให้เปลี่ยนเป็นรูป Vector และสามารถสร้าง Vector Fast Query System เช่น FAISS [7] ในการค้นข้อมูลได้ครับ

เพิ่มเติม 3 : ดูตัวอย่าง notebook การใช้งานโมเดลต่างๆ ได้ที่นี่ครับ

https://github.com/NielsRogge/Transformers-Tutorials

อ้างอิง

[1] EasyOCR : https://huggingface.co/spaces/tomofi/EasyOCR

[2] Transformer OCR : https://huggingface.co/docs/transformers/model_doc/trocr

[3] LayoutLMv3 : https://huggingface.co/docs/transformers/main/en/model_doc/layoutlmv3

[4] Donut : https://huggingface.co/docs/transformers/model_doc/donut

[5] ErnieLayout : https://huggingface.co/spaces/PaddlePaddle/ERNIE-Layout

[6] Table Transformers : https://huggingface.co/docs/transformers/main/en/model_doc/table-transformer

[7] FAISS : https://github.com/facebookresearch/faiss

This topic was modified 2 years ago by The Neural Engineer

อ้างอิง