Notifications
Clear all

ว่าด้วยเรื่อง GPT3 และ OpenAI API (Update กรกฏาคม 2021 )

15 ข้อความ
2 Users
5 Likes
18.5 K Views
The Neural Engineer
(@neural-engineer)
Honorable Member Admin
เข้าร่วมเมื่อ: 7 years ago
ข้อความ: 403
 

UPDATE : GPT-3 คุยกับมนุษย์ได้ดีที่สุดตั้งแต่เคยเห็นมา

https://medium.com/@kirkouimet/turing-test-2669daffae38


   
ตอบกลับอ้างอิง
The Neural Engineer
(@neural-engineer)
Honorable Member Admin
เข้าร่วมเมื่อ: 7 years ago
ข้อความ: 403
 

มาดู 5 applications เจ๋งๆ จาก GPT-3

ThaiKeras and Kaggle - 14 มีนาคม 2021

 

พวกเราอาจเคยได้ยินคำล่ำลือถึงความฉลาดของ GPT-3 ผลงานจากทีม OpenAI ที่สามารถสื่อสารเรื่องราวทางภาษาได้ใกล้เคียงกับมนุษย์มาก 

สิ่งที่น่าสนใจก็คือ GPT-3 สามารถเอาไปใช้ทำอะไรได้บ้างกันนะ … ปัจจุบันแม้ GPT-3 จะยังไม่ถูก open source แต่ทาง OpenAI ก็ได้เปิดโอกาสให้ผู้พัฒนา software หลายกลุ่มได้นำ GPT-3 ไปสร้างสรรค์ applications ใหม่ๆ มากมาย

ปัจจุบันมีผู้รวบรวม Applications ต่างๆ ของ GPT-3 ไว้ที่ www.gpt3demo.com ซึ่งแบ่งเป็นหมวดหมู่ให้เยี่ยมชมไว้มากมาย เราลองมาดูสัก 5 ตัวอย่างเจ๋งๆ กันครับ

 

Game - AI Dungeon (Dragon Mode)

 

 

AI Dungeon - https://play.aidungeon.io/ คือ เกมส์ Text Adventure ที่จะเล่าเรื่อง story ต่างๆ ให้เราซึ่งเป็นตัวละครหนึ่งได้ฟัง และให้เราตัดสินใจว่าจะทำอย่างไรในเหตุการณ์นั้นๆ โดยการพิมพ์ข้อความเข้าไป

โดย AI ซึ่งเมื่อทำความเข้าใจทางเลือกของเราแล้ว (GPT-2 สำหรับผู้เล่นธรรมดาและ GPT-3 สำหรับผู้เล่น premium) จะนำการตัดสินใจของเราไปดำเนินเรื่อง และสร้างเหตุการณ์ต่างๆ ให้เราได้ตัดสินใจเรื่อยๆ อย่างสนุกสนาน

โดยเนื้อเรื่องจะเป็นโลกแฟนตาซีสมมติหรือโลกความเป็นจริงในประเทศอะไรก็ได้

AI Dungeon น่าจะเป็น รายแรกๆ ที่นำ GPT-3 มาใช้และเปิดให้ผู้เล่น premium (ประเภท Gold เดือนละ 10 เหรียญ หรือ300 บาท)

วิธีการเล่นหรือคุยกับ GPT-3 เมื่อสมัคร premium แล้วทำได้ง่ายๆ เพียงแค่เลือกไปยังโหมด "Dragon" เราสามารถเล่นกับ AI Dungeon ได้เสมือนกับเราได้มีส่วนแต่งนิยายแฟนตาซีเจ๋งๆ ที่ไม่มีวันจบ

เรายังสามารถทดลองคุยกับ GPT-3 ในลักษณะ ChatBot ได้บน AI Dungeon อีกด้วย

 

ChatBot - Emerson

 

ถ้าเราอยากคุยกับ GPT-3 ในรูป Chatbot ใน FB messenger หรือ Telegram เราสามารถลองได้ฟรี ที่ emerson.ai

โดยผมได้ทดลองคุยให้ Emerson แนะนำสถานที่ท่องเที่ยวในประเทศไทยของเรา เจ้า bot ตัวนี้แนะนำได้น่าสนใจมากๆ ว่าถ้าชอบภูเขาให้ไปเขาใหญ่ ชอบทะเลให้ไปเสม็ด แต่ถ้าชอบชิลๆ ให้ไปเชียงใหม่  หรือถ้าอยากดูวัฒนธรรมโบราณบ้านเราให้ไปสุโขทัย

จากนั้นผมลองเจาะลึกให้แนะนำเกาะที่น่าสนใจต่างๆ ในบ้านเรา Emerson ก็แนะนำเกาะเสม็ด เกาะช้าง ภูเก็ด เกาะลันตา เกาะกระดาน เกาะหมาก เกาะกูด พร้อมทั้งบอกเสร็จสรรพว่าที่ไหนคนเยอะ ที่ไหนเงียบ ซึ่งค่อนข้างใกล้เคียงกับความจริงมากๆ ลองถามต่อว่ารู้จักหลีเป้ะไหม ก็ตอบได้

อย่างไรก็ดีถ้าเราเจาะลึกมากๆ เช่นให้แนะนำที่พักในโคราช เจ้า Emerson ก็โชว์ความไม่สมบูรณ์แบบออกมา โดยแนะนำให้ไปพักที่โรงแรมสนามบินโคราช (ซึ่งไม่มี)  

ถือได้ว่าเป็น Bot ที่เก่งมากๆๆ และคุยสนุกจริงๆ ครับ อย่างไรก็ดีการคุยฟรีจะคุยได้ไม่กี่ประโยคใน 1 วันเท่านั้น ถ้าอยากคุยต่อต้อง subscribe premium ซึ่งมีราคาราวๆ 10 เหรียญต่อเดือนครับ

 

Virtual Reality + AI - ModBox

ModBox ได้ทดลองทำ prototype การนำ GPT-3 มาผนวกกับ Virtual Reality Game โดยให้ characters อื่นๆ ทุกตัวนอกจากผู้เล่นใน VR ตอบโต้กับผู้เล่นด้วย GPT-3

เราสามารถดูตัวอย่าง VR ได้ที่ (ปัจจุบันยังไม่มีให้เล่นจริง เป็นเพียง prototype เท่านั้น)

https://youtu.be/jH-6-ZIgmKY

 

แค่ prototype ก็ดูตืนตาตื่นใจมากครับ

จากตัวอย่างเดาว่านำอาชีพ สถานที่ การแต่งตัว มุมมองของตัวละครมาเปลี่ยนเป็นข้อมูลให้ GPT-3 ประกอบกับประโยคพูดคุยของผู้เล่นในการสร้างบทสนทนา

.

 

Digital Marketing - Pencil

ที่ https://www.trypencil.com/ อ้างว่าสามารถสร้างโฆษณา Facebook Ads ได้อย่างอัตโนมัติ! ไม่ว่าจะเป็น ads แบบรูปภาพหรือ ads แบบวิดิโอ โดยรวมพลัง Computer Vision ในการทำความเข้าใจรูปภาพ และ GPT-3 ในการสร้างคำบรรยาย

นอกจากนี้ตัว software ยังประกอบไปด้วยโมเดล predict ประสิทธิภาพของโฆษณาที่ถูกสร้างมาอัตโนมัติด้วย เช่น CTA CTR metrics ใน Facebook Analytics

การสมัคร premium เพื่อสร้างโฆษณานั้นราคาค่อนข้างแพงมากถึง 750$ (23,000 บาท) ต่อเดือน  ทางทีมงาน ThaiKeras เลยมิบังอาจลองใช้งานครับ 😀

อย่างไรก็ดีดูตัวอย่างโฆษณาที่สร้างโดย AI ได้ที่

https://www.youtube.com/playlist?list=PLPkUfyZOOFdn44f-8BBy_wJvFPjWWQ9MH

 

 

 

Content Generation - ContentBot

ที่ https://contentbot.ai/ ได้พัฒนา GPT-3 ให้สามารถสร้างบทความได้หลายรูปแบบไม่ว่าจะเป็นการเขียน Blog เขียนข่าว หรือโฆษณา

โดยเราเพียงกำหนดหัวข้อว่าต้องการให้เขียนเกี่ยวกับเรื่องอะไร จากนั้น contentbot จะ generate content ที่น่าสนใจที่เกี่ยวข้องกับหัวข้อนั้นให้เราทันที

Contentbot.ai นั้นให้เราทดลองสร้าง free account ได้และจะได้ 20 credits โดยเราทดลองสร้าง contents ได้ เช่น

ถ้าเรากำหนดไปว่าอยากสร้างโฆษณา dunkin donuts ตัว contentbot ก็จะสร้างคำบรรยายให้ เช่น

Dunkin' Donuts is famous for their delicious products. But in our store you can choose your most favorite flavors!

หรือถ้ากำหนดหัวข้อ blogs ตัว contentbot ก็จะสร้าง intro ให้ 5 แบบในหัวข้อที่กำหนด (ดูตัวอย่างในรูปแนบสำหรับหัวข้อ การทำ marketing สำหรับบริษัท startups) เป็นต้น

 

.

 

Applications อื่นๆ

นอกจาก 5 ตัวอย่าง applications ที่เล่ามายังมีตัวอย่างอีกมากมายใน gpt3demo.com เพื่อนๆ ลองเข้าไปเล่นกันดูได้ครับ


   
ตอบกลับอ้างอิง
The Neural Engineer
(@neural-engineer)
Honorable Member Admin
เข้าร่วมเมื่อ: 7 years ago
ข้อความ: 403
 

ใช้งาน OpenAI API และ GPT3 อย่างเป็นทางการ!!

ThaiKeras and Kaggle - 8 เมษายน 2021

 

สวัสดีครับเพื่อนๆ หลังจากที่เราได้เล่า applications เจ๋งๆ ของ GPT3 ในบทความเดือนก่อน

http://bit.ly/thaikeras-openai-gpt   ทาง ThaiKeras ก็ได้รับ surprise จาก OpenAI ที่อนุญาตให้เราทดลองใช้งาน GPT3 ได้อย่างเป็นทางการครับ!! (หลังจากที่รออยู่ใน waitlist น่าจะเกิน 6 เดือน)

โดย GPT3 ที่ OpenAI ให้นักพัฒนาใช้งานนั้นจะอยู่ในชื่อเรียกว่า OpenAI API ดูจากชื่อนี้ประกอบกับหัวข้อสนทนาใน OpenAI community คาดว่าน่าจะมีบริการอื่นนอกจาก GPT3 (เช่น Dall-E https://openai.com/blog/dall-e/ ) ออกมาให้นักพัฒนาได้ใช้ในอนาคตอันใกล้นี้ครับ

ล่าสุดทาง OpenAI แจ้งว่าได้เปิด API นี้ให้นักพัฒนากว่า 50,000 รายทั่วโลกได้ใช้งานแล้ว และวันนี้ทีม ThaiKeras จะลองพาเพื่อนๆ ไปดูว่า Ecosystem ของ Open AI เป็นอย่างไรบ้าง และมีค่าบริการ pricing ในการใช้งานอย่างไร  ในกรณีที่เพื่อนๆ มีไอเดียจะประยุกต์ GPT3 เข้ากับธุรกิจหรือ Startup ด้านต่างๆ

สำหรับผู้ที่สนใจเรื่องค่าใช้จ่ายในการใช้งาน GPT3 หรือ OpenAI API สามารถเลื่อนลงไปดูในท้ายบทความได้เลยครับ

GPT3 เป็นโมเดลด้านภาษาที่เก่งที่สุดในเรื่อง "การเขียน" (แต่ไม่ใช่โมเดลที่ฉลาดที่สุดในแง่ "การอ่าน" ดังที่เราเคยเล่าในบทความเจาะลึกโมเดล NLP https://bit.ly/thaikeras-understanding-nlp เว้นเสียแต่เราพิจารณาการอ่านแบบ few-shots [อธิบายด้านล่าง] ซึ่ง  GPT3 น่าจะเก่งที่สุด) และนับว่าเป็นหนึ่งในโมเดลที่ฉลาดที่สุดเท่าที่มีมาในวงการ AI

โดยเราสามารถให้ GPT3 เขียนเรื่องราวสร้างสรรค์เรื่องราวอะไรก็ได้เหมือนกับมนุษย์ โดยใช้ภาษาอังกฤษเป็นสื่อกลาง หรือจะใช้ภาษาไทยผ่าน Translator API ก็ย่อมได้ (ตัวอย่าง https://bit.ly/thaikeras-kaggle-gpt2thai )  ดังนั้นน่าสนใจมากๆ ภาคธุรกิจหรือ Startup ในบ้านเราจะสามารถนำพลังของ GPT3 มาประยุกต์ได้อย่างไรบ้าง

.

รู้จัก Zero-shot กับ Few-shots และงานที่ GPT3 ทำได้

หลักการการใช้งานของ GPT3 ผ่าน OpenAI API นั้นถือว่าเรียบง่ายมากๆ ครับเรียกว่าเป็น "Text-In Text-Out" คือเรากำหนด Input Texts  หรือเรื่องราวเบื้องต้นส่งไปให้ทาง OpenAI Server เค้าก็จะส่ง Texts ที่ GPT3 แต่งต่อจาก Input ของเรากลับมาให้

โดย OpenAI ได้ให้ตัวอย่างงานต่างๆ ที่ GPT3 ทำได้เกือบ 50 ตัวอย่าง ดังแสดงในรูปที่ 1 ครับ ซึ่งมีตั้งแต่งานง่ายๆ เช่น จำแนกประเภทประโยค  แก้ Grammar  นำข้อมูลสำคัญออกจากข้อความ  หรืองานยากๆ เช่น ChatBot   เปลี่ยนภาษามนุษย์เป็นภาษาโปรแกรม  หรือเขียนนิยายสยองขวัญ เป็นต้น

 

GPT3 นั้นฉลาดมาก โดยการทำงานอยู่บนหลักการที่เรียกว่า Zero-shot หรือ Few-shots ซึ่งเป็นปัญหาที่ยากมากๆ ในวงการ Machine Learning ซึ่งโดยปกติต้องการข้อมูลสอนมหาศาล

คำว่า Few-shots คือสอนโดยให้แค่ไม่กี่ตัวอย่าง (ใช้นิ้วมือนับได้) ส่วน Zero-shot คือการสอนโดยไม่ต้องให้ตัวอย่างใดๆ เลย!! ซึ่งเป็นปัญหาที่ยากมากๆ แต่ GPT3 ทำได้ดีมากๆ  นับว่าเป็น practical solution ของปัญหาที่ยากมากๆ ปัญหานึงในวงการ AI

Zero-shot หมายถึง เราสั่งให้มันทำงานที่ต้องการได้โดยที่ไม่ต้องสอนอะไรเลย อาทิเช่น เราให้บทความยาวๆ ไปแล้วบอกให้ GPT3 "สรุปประเด็นสำคัญ" ให้โดยที่ไม่สอนว่า "สรุปประเด็นสำคัญ" นั้นแปลว่าอะไร ซึ่ง GPT3 สามารถทำงานประเภทนี้ได้ทันที (ฉลาดสุดๆ) เนื่องจาก GPT3 ได้อ่าน Texts ต่างๆ ที่มีอยู่ในโลกนี้เป็นปริมาณมหาศาล ทำให้เข้าใจความหมายของคำว่า "สรุปประเด็นสำคัญ" อยู่แล้ว

อย่างไรก็ดี "ประเด็นสำคัญ" ของผู้ใช้งานแต่ละคนอาจไม่เหมือนกัน บางคนอาจสนใจที่เหตุการณ์ บางคนอาจสนใจที่ตัวบุคคล หรืออื่นๆ ดังนั้น GPT3 จะสามารถทำงานได้ดีมากขึ้นไปอีกถ้าเราให้ตัวอย่าง "การสรุปประเด็นสำคัญ" สัก 2-3 ตัวอย่าง (Few shots) ว่าผู้ใช้งานต้องการสรุปประมาณไหน

ซึ่ง GPT3 ก็จะปรับสไตล์การสรุปให้เข้ากับสิ่งที่เราต้องการได้ทันที!!

 

 

ลองเล่น OpenAI ผ่าน Playground

โดยก่อนที่เราจะเขียน Application และเรียกใช้งาน API ผ่าน server เราสามารถลองเล่น GPT3 ได้ผ่าน playground ที่ OpenAI ทำไว้ให้ครับ (รูปที่ 2 -- Few-shots QA ChatBot) 

 

ซึ่งเจ้า Playground นี้สามารถ import ตัวอย่าง 50 ตัวอย่างที่ OpenAI เตรียมไว้มาปรับเล่นได้ทันที

และเป็นโอกาสที่ดีที่จะให้เราได้ลองปรับ Options ต่างๆ ได้ด้วย โดย Option ที่สำคัญมีดังต่อไปนี้

  1. Engine -- มีให้เลือก 4 Engines คือ Davinci (ใหญ่ที่สุด ดีที่สุด แพงที่สุด) Curie Babbage และ Ada (เล็กที่สุด เร็วที่สุด ถูกที่สุด) โดย OpenAI มี document สอน use case ไว้ว่างานแบบไหนควรใช้ Engine แบบไหน
  2. Response Length -- ความยาว tokens สูงสุดที่ GPT3 จะตอบกลับมาหาเราได้
  3. Temperature และ TopP ใช้กำหนด "ความคิดสร้างสรรค์" ของโมเดล โดยถ้าสองค่านี้มากโมเดลจะมีความคิดสร้างสรรค์มาก แต่ในขณะเดียวกันอาจจะออกทะเลได้ง่ายๆ เหมือนกัน
  4. Frequency Penalty -- ปรับค่านี้เพื่อให้โมเดลตัดการพูดซ้ำเรื่องๆ เดิมๆ ออกไป
  5. Stop Sequences -- กำหนด tokens ที่จะทำให้โมเดลจบการสร้าง texts
  6. Show Probabilities -- แสดงผลความน่าจะเป็นของแต่ละ tokens ที่ถูก generate ออกมาว่าความน่าจะเป็นมาก (แม่นยำ) หรือน้อย (สร้างสรรค์)

 

รูปที่ 3 แสดงตัวอย่างการให้ texts บทความเกี่ยวกับดาวพลูโตแบบ zero-shot และสั่งให้ GPT3 สรุปใจความสำคัญมา 8 ข้อ ส่วนรูป 4 แสดงตัวอย่าง output ที่ได้พร้อมสีความน่าจะเป็นครับ (สีเขียวความน่าจะเป็นมาก สีแดงความน่าจะเป็นน้อย)

 

 

.

 

Supports ของ OpenAI ในการพัฒนาและ Deployment

เมื่อเราได้เข้าใช้งาน GPT3 อย่างเป็นทางการ เราจะสามารถพูดคุยกับเพื่อนๆ หรือทีมของ OpenAI ได้ผ่านทาง Slack หรือผ่านทาง Discord community ดังรูปที่ 5 ครับ ซึ่งคึกคักมากทีเดียว

เมื่อเราพัฒนาไอเดียบน Playground และพัฒนา Application จนน่าจะใช้งานจริงได้แล้ว อย่าเพิ่งเปิดให้ใช้งานครับ!!! เพราะ OpenAI กำหนดว่าทุก Application จะต้องผ่านการรีวิวจาก OpenAI ก่อน มิเช่นนั้นจะถูกตัดสิทธิการเข้าถึงโดยถาวรครับ

ทั้งนี้เนื่องจากว่า GPT3 นั้นสร้างสรรค์เรื่องต่างๆ ได้ทุกเรื่อง และในบางครั้งถ้าไม่มีการควบคุมที่เหมาะสมก็อาจจะสร้างสรรค์เนื้อเรื่องที่ หยาบคาย เหยียด ลวนลามหรือเรื่องที่ไม่เหมาะสมอื่นๆ ได้

โดย OpenAI กำหนดว่าการใช้งานช่วงทดลอง ห้ามเผยแพร่ผ่าน Public URL และมีผู้ทดลองใช้งานได้ไม่เกิน 5 คน

ใน Documentations OpenAI จะมีอธิบายกระบวนการรีวิวอย่างละเอียด รวมทั้งมีตัวอย่างของ Application ที่ไม่ผ่านการรีวิวแน่นอน เช่น Chatbot ที่สามารถ "คุยได้ทุกเรื่อง" (หมายรวมถึงเรื่องหยาบด้วย)

 

 

ค่าบริการในการใช้งาน GPT3 ผ่าน OpenAI API

ปัจจุบัน GPT3 มีให้เลือก 4 โมเดล โดยยิ่ง parameters เยอะยิ่งมีความสามารถในการเขียนที่สูง

โมเดล Davinci (175 Billion parameters)    0.06 เหรียญ / 1,000 tokens

โมเดล Curie (13 Billion parameters)         0.006 เหรียญ / 1,000 tokens

โมเดล Babbage (6.7 Billion parameters)  0.0012 เหรียญ / 1,000 tokens

โมเดล Ada (2.6 Billion parameters)          0.0008 เหรียญ / 1,000 tokens

 

หมายเหตุ

  • Billion = พันล้าน , 175 Billion = 175,000 ล้าน
  • GPT3 จะแบ่ง 1 คำในประโยคภาษาอังกฤษออกเป็น 1-4 tokens โดยเฉลี่ยแล้ว 1 คำจะประมาณ 1.5 tokens
  • GPT3 ประมวลผลได้สูงสุด (อ่าน + เขียน) ได้ไม่เกิน 2,048 tokens หรือราวๆ 1,500 คำ ต่อการเรียกใช้งาน 1 ครั้ง ดังนั้นการใช้งานเต็มที่ 1 ครั้งในโมเดล Davinci ตกราวๆ 3-4 บาท หรือถ้าใช้โมเดล Curie ก็จะตกราวๆ 30-40 สตางค์
  • งานเขียนที่ใช้ความคิดสร้างสรรค์ควรเลือก Davinci หรือ Curie เท่านั้น ในขณะที่งานเขียนของ Babbage นั้นมีคุณภาพค่อนข้างต่ำ

 

คนที่อยากลองใช้งานในมุมธุรกิจ หรือต้องการพัฒนาร่วมกับ Applications ที่มีอยู่แล้วสามารถกรอกรายละเอียดใน waitlist ที่นี่ครับ

https://share.hsforms.com/1Lfc7WtPLRk2ppXhPjcYY-A4sk30

สำหรับผู้ที่ต้องการใช้ในงานวิจัยกรอกฟอร์มนี้ครับ

https://share.hsforms.com/1b-BEAq_qQpKcfFGKwwuhxA4sk30


   
ตอบกลับอ้างอิง
The Neural Engineer
(@neural-engineer)
Honorable Member Admin
เข้าร่วมเมื่อ: 7 years ago
ข้อความ: 403
 
GPT-J-6B ประสิทธิภาพสูสีกับ GPT-3 Curie (ตัวรองท้อป) พร้อมให้ดาวโหลดมาใช้งานแล้ว!
---------------
 
โมเดล GPT-J-6B นี้ implement บน Jax ซึ่งเป็น Deep Learning library มาแรงโดยสามารถทำ Autograd และ XLA ได้โดยใช้คำสั่งแบบเดียวกับ Numpy ทำให้ง่ายต่อการใช้งานกว่า Tensorflow หรือ Pytorch
มีพารามิเตอร์ราว 6 พันล้านตัวแปร (6B) มี 28 layers ใช้คำศัพท์และตัว token แบบเดียวกับ GPT2 และ GPT3 โดยเทรนบน Google Cloud TPU บน dataset "The Pile (2020)" ขนาด 825 GB

   
ตอบกลับอ้างอิง
The Neural Engineer
(@neural-engineer)
Honorable Member Admin
เข้าร่วมเมื่อ: 7 years ago
ข้อความ: 403
 
จาก GPT-3 สู่ AGI -- ความท้าทาย 7 เรื่อง
ThaiKeras & Kaggle - 13 June 2021
 
ถึงวันนี้ก็เกิน 1 ปีแล้วที่ OpenAI ได้เผยแพร่ GPT-3 ซึ่งยังเป็น Language Model หรือโมเดลที่มี "ความรู้" และสามารถเขียนเรื่องราวได้ใกล้เคียงมนุษย์ทั่วไป และเป็นโมเดลที่เก่งที่สุดในหลายๆ แง่มุม
 
ล่าสุด Google ภูมิใจมากกับ ChatBot ตัวใหม่ชื่อว่า LaMBDA ที่คุยกับมนุษย์ โดยจินตนาการตัวเองเป็นดาวพลูโต หรือแม้แต่เครื่องบินกระดาษได้อย่างแนบเนียน (ดูวิดิโอบทสนทนาได้ที่อ้างอิง 1.) แต่เมื่อดู Chat ที่ Google โชว์แล้ว ความสามารถก็ถือว่าอยู่ในเลเวลพอๆ กับ GPT-3 ที่ออกมาก่อนราว 1 ปี ดังนั้นผมคิดว่าทีม OpenAI ยังนำทีมอื่นๆ อยู่ 1-2 ก้าวในเรื่องของการพัฒนาโมเดลที่จะมีความสามารถ หรือ "ฉลาด" แบบสมองมนุษย์อย่างแท้จริง
 
[ในบทความนี้จะมีการอ้างถึง บทความใน Series Deep Language Understanding ไม่ว่าจะเป็นเรื่องการวัดความฉลาดของ AI ด้วยการเขียน และพูดถึงทีม AI2 ซึ่งดูได้ที่นี่ครับ https://bit.ly/thaikeras-understanding-nlp ]
 
โดยนับแต่ ThaiKeras สามารถเข้าทดลอง GPT-3 ได้เป็นเวลาเกือบ 3 เดือน เราได้ทดสอบความรู้ของ GPT-3 ในเรื่อง การแต่งนิยายสร้างสรรค์แบบดัดแปลงเนื้อเรื่อง / ChatBot ดาวพลูโต (แบบเดียวกับ Google) / การวิเคราะห์มูลค่ากิจการเชิงพื้นฐานด้วย 5-force analysis / วิเคราะห์ยุทธศาสตร์การเมืองระหว่างประเทศแบบ Geopolitics / วิเคราะห์จุดตายทางธุรกิจ (Failure Analysis) / แต่งคดีนักสืบสนุกๆ ให้เด็ก 5 ขวบ / ChatBot พนักงานขายสินค้าที่ขายสินค้าได้ทุกชนิด / จินตนาการเรื่องที่ไม่เคยเกิดขึ้นทางประวัติศาสตร์ (What-if Alternate History) / สรุปเหรียญ Crypto ที่มีชื่อเสียงสั้นๆ ให้เข้าใจง่าย / วิเคราะห์เหตุการณ์แบบ Abduction และ CounterFactual / คุยเรื่องนโยบายการเงินในระบบเศรษฐกิจ
 
จากการทดลองเบื้องต้นเหล่านี้ GPT-3 นั้นคุยและบรรยายทุกเรื่องได้อย่างน่าประทับใจ ถึงแม้ว่าจะไม่ถึงขั้นระดับผู้เชี่ยวชาญในวงการ เพราะยังมีจุดผิด หรือจุดที่ไม่ลึกซึ้งอยู่ แต่ก็ไม่ต่างจากการสนทนากับเพื่อนของเราเองบนโต้ะอาหาร ที่เราก็คุยกันได้สนุก ถกได้หลายประเด็น ได้ลึกระดับนึง แม้จะถูกๆ ผิดๆ ในบางเรื่องก็ตาม
 
ดังนั้นคำถามที่น่าสนใจก็คือ ยังมีอะไรที่ GPT-3 ทำไม่ได้บ้าง หรือ ในการจะเดินก้าวถัดไปสู่การเป็น "ปัญญาประดิษฐ์ของจริง" ที่คุยและเข้าใจได้ทุกเรื่องอย่างลึกซึ่้งเหมือนที่เราเห็น Jarvis ใน IronMan หรือนิยายวิทยาศาสตร์อื่นๆ
 
ซึ่งก็คือ ปัญญาประดิษฐ์ในระดับที่เราเรียกกันว่า AGI (Artificial General Intelligence) นั่นเอง
[ดูภาพใหญ่ ปัญญาประดิษฐ์ระดับ AGI ที่นี่ครับ https://thaikeras.com/2018/ai-ml-dl-relationship/ ]
 
.
 
GPT-3 ยังต้องพัฒนาจุดไหนบ้าง
 
ในบทความนี้เราได้เซอเวย์งานวิจัยในด้านวิทยาการปัญญาประดิษฐ์ และสรุปได้ว่ามีอย่างน้อย 7 เรื่อง ที่ GPT-3 ยังไม่สามารถทำได้อย่างสมบูรณ์แบบครับ
A. Commonsense และ Mental Model
B. System 2 Integration
C. Continual หรือ Life-long Learning
D. & E. Vision & Reinforcement Integration
F. Long-range Reasoning / Long-term goal planning
G. Precise & Creative Thinking eg. Nudge Design / Detective Case Story Generating
 
.
 
1. CommonSense และ Mental Model
 
 
Commonsense Knowledge (ความรู้จากสามัญสำนึก) คือ
 
"ความรู้ง่ายๆ แบบที่คนส่วนใหญ่คิดว่า ใครๆ ก็รู้ (too obvious) เลยไม่จำเป็นต้องพูดหรือเขียนบอกกัน"
 
เช่น ถ้าน้ำหยดใส่ของแข็งแล้วเราเอามือไปจับ ส่วนใหญ่มือเราก็จะเปียก หรือ
ถ้ามีผลไม้เน่าวางอยู่ แล้วเราเอาช้อนไปตัก ช้อนก็มักจะมีกลิ่นไม่พึงประสงค์ เป็นต้น
 
ความรู้ง่ายๆ เหล่านี้เรามักเข้าใจกันว่าทุกคนก็ "รู้กันอยู่แล้ว" เวลาส่งความรู้ผ่านตัวหนังสือ จึงไม่มีความจำเป็นต้องมีการเขียนบรรยายแบบละเอียด เพราะคนที่อ่านทุกคนก็สามารถ "จินตนาการ" เรื่องที่ "ไม่ได้เขียน" กันต่อเองได้
 
ที่มนุษย์เข้าใจเรื่องพวกนี้ได้ง่ายๆ เพราะมีกลไก การเรียนรู้ผ่านสายตา และผ่านกลไกอนุมาน (การเห็นเพียงไม่กี่ตัวอย่างก็ จินตนาการให้ครอบคลุมเหตุการณ์อื่นๆ ที่คล้ายกันได้) โดยกลไกเหล่านี้เข้าใจว่าผ่านกระบวนการวิวัฒนาการมานับล้านปี บนสายพันธุ์ Homo Sapiens ของเรา
 
เรื่องเหล่านี้กลายมาเป็นจุดตายของ AI เพราะ "ความรู้" ของ AI อย่าง Language Models ทั่วไปนั้นได้มาจาก การอ่านจากตัวหนังสือเท่านั้น ดังนั้นสิ่งที่ไม่ได้เขียนเป็นตัวหนังสือ ก็ยากมากที่โมเดลเหล่านี้จะรู้ได้ (บางส่วนเจาะลึกไปแล้วในบทความ https://bit.ly/thaikeras-understanding-nlp ครับ)
 
เพื่อให้เข้าใจ ขอให้ลองอ่าน 2 ประโยคต่อไปนี้
 
"เจมส์กับโจนส์กำลังจะวิ่งเข้าสู่เส้นชัย ทว่าโจนส์กลับล้มลงไปทำให้เจมส์นั้นต้องหันหลังกลับไปช่วย"
 
สองประโยคนี้เหมือนจะไม่มีอะไร แต่ถ้าถามว่า
- สองคนนี้กำลังทำอะไรกันอยู่
- สองคนนี้น่าจะอยู่ที่ไหน
- ในประโยคแรกแรงจูงใจของสองคนนี้คืออะไร
- ในประโยคหลัง แรงจูงใจของเจมส์คืออะไร
- เวลาในเรื่องนี้น่าจะเป็นช่วงเวลากลางวัน หรือกลางคืน
- ในประโยคแรกและสอง น่าจะห่างกันเป็นเวลาเท่าไร
 
 
เชื่อว่าทุกคนที่อ่านสามารถเดาคำตอบทั้งหมดได้คล้ายๆ กัน แต่ลองคิดดูว่าโมเดล AI จะสามารถตอบคำถามทั้ง 6 ข้อด้านบนได้อย่างไร ในเมื่อมันไม่มี information ใดๆ บอกเลย
 
สำหรับ GPT-3 ซึ่งเป็นโมเดลที่อ่านตัวหนังสือมากที่สุด ได้อ่านมากกว่าโมเดลอื่นๆ รวมทั้งมีความจุของการเรียนรู้ (parameters) มากกว่าโมเดลอื่นๆ จึงทำให้เข้าใจเรื่อง commonsense นี้ มากกว่าโมเดลทั่วไป และสามารถตอบคำถามข้างบนได้บางส่วน!! (ซึ่งถือว่าเก่งมากๆ แล้ว)
 
เพื่อเป็นการเจาะประเด็นด้านนี้ ทีมวิจัยชื่อดังอย่าง Al2 ที่วิจัยเรื่องนี้อย่างจริงจังได้ทำการทดลองอย่างเข้มข้นและพบว่า GPT-3 นั้นตอบคำถามเรื่อง commonsense ได้ถูกต้องราว 73% ซึ่งน่าประทับใจเพราะพัฒนามาจาก GPT-2 ซึ่งมีตอบคำถามได้ถูกต้องเพียง 37% เท่านั้น (แต่อย่าลืมว่า GPT-3 ใหญ่กว่า GPT-2 หนึ่งร้อยเท่า)
 
ยังมีช่องว่างจากมนุษย์ที่เข้าใจเรื่องง่ายๆ เหล่านี้ได้แทบจะ 100% อยู่มากทั้งที่ GPT-3 แทบจะอ่านตัวหนังสือทั้งหมดบนโลกแล้วก็ตาม
 
งานวิจัยของทีม AI2 ดูเพิ่ม ได้ที่อ้างอิง 2. ในงานวิจัยที่ชื่อ Atomic + Comet 2020
นอกจากนี้ยังมีงานวิจัยของทีม Elemental Cognition เกี่ยวกับการวิเคราะห์ commonsense ที่อ้างอิง 3.
 
นอกจากเรื่อง Commonsense แล้ว นักจิตวิทยา และนักวิทยาศาสตร์การรู้คิด (Cognitive Scientist) ที่ทำความเข้าใจเกี่ยวกับกระบวนการคิดในสมองมนุษย์มานาน ยังเชื่อว่า เวลามนุษย์ทำความเข้าใจเหตุการณ์ต่างๆ ไม่ว่าจะเป็นการมองเห็นเพียงรูปเดียว หรือการอ่านหนังสือเพียง 2 ประโยคนั้น มนุษย์ได้สร้าง "โมเดลจำลอง" (Mental Model - รูปที่ 1) เกี่ยวกับเหตุการณ์นั้นๆ ขึ้นมาในหัว โดย Mental Model นี้นอกจาก common sense แล้วยังมี เรื่องของ ความเชื่อ คุณค่า สมมติฐาน ภาษา และอื่นๆ อีกมากมายตามรูปที่ 1 ซึ่งทำให้มนุษย์แต่ละคนมีความสามารถอธิบายปรากฏการณ์ต่างๆ ได้ เพียงแต่อาจจะไม่ตรงกันในบางเรื่อง
 
นักวิจัยหลายท่านเห็นตรงกันว่า การที่โมเดลจะมี commonsense และ mental model ที่ดีมากๆ ได้จะต้องเข้าใจความแตกต่างระหว่างเรื่อง "เหตุและผล vs. การเกิดขึ้นพร้อมๆ กัน" (Causation vs. Correlation) นันคือสิ่งสองอย่างที่มักเกิดขึ้นพร้อมๆ กัน มันเป็นเพราะสิ่งแรกทำให้เกิดสิ่งที่สอง หรือตรงกันข้าม หรือมีปัจจัยที่สามที่ทำให้สองสิ่งนี้เกิด
 
ซึ่งโมเดลการเรียนรู้ทางสถิติทั่วไปจะเรียนได้แต่เรื่อง Correlation ไม่ใช่ Causation ทำให้โมเดล Deep Learning ทั่วๆ ไปก็เรียนรู้เรื่อง Causation ได้ยากมากเช่นกัน เป็นต้น
 
เรื่องของ commonsense และ mental model ยังว่ากันได้อีกยาว ในบทความนี้ขอเกริ่นไว้แค่นี้ก่อน
 
.
 
2. System-2 Integration
 
 
อีก 1 งานระบือโลกที่ได้รางวัลโนเบล คืองานที่เป็นต้นกำเนิดของ Behavioral Economics หรือเศรษฐศาสตร์พฤติกรรมมนุษย์ที่พิสูจน์ด้วยการทดลองจนทำให้เข้าใจชัดเจนได้ว่ากระบวนการคิดของมนุษย์นั้นควรจะแบ่งออกได้เป็น 2 ระบบ ที่เรียกว่า System-1 และ System-2
 
โดย System-1 นั้นก็คือการคิดเร็วๆ ตามสัญชาติญาณของมนุษย์ผ่าน Mental Models ที่ทำให้มนุษย์สามารถคาดเดาเรื่องต่างๆ ได้อย่างรวดเร็วมาก ในขณะที่ System-2 คือการคิดวิเคราะห์อย่างละเอียดผ่านกระบวนการตรรกศาสตร์และคณิตศาสตร์ และความรู้ทางทฤษฏีวิทยาศาสตร์ทั้งหลายที่แม่นยำ ที่พวกเราร่ำเรียนกันมาหลายปีนั่นหละครับ
 
จากรูปที่ 2 (จากอ้างอิง 4.) คนเราจะสามารถสลับ System-1 (Mental Model) และ System-2 (Conceptual Model) ได้อย่างไม่รู้ตัวเพื่อทำความเข้าใจโลกแห่งความจริง (Physical World) อย่างไรก็ตามโมเดล Deep Learning ในปัจจุบันไม่สามารถนำความรู้ทาง logics / math/ science ที่เรามีอยู่มากมายมาใช้ได้อย่างกลมกลืนเหมือนมนุษย์ครับ
 
ยกตัวอย่างง่ายๆ เช่นให้ GPT-3 บวกเลขให้ดู จะพบว่า GPT-3 อาจจะเก่งตอบการบวกเลขได้ถูกต้องจนถึงเลข 2 หลัก แต่ตั้งแต่เลข 3 หลักเป็นต้นไป ก็จะกลายเป็นเรื่องที่ไม่ง่ายเลย เพราะไม่มีใครมานั่งบรรยายการบวกเลขหลายหลักเป็นตัวหนังสือให้ GPT-3 ได้อ่าน
 
ดังนั้นการจะหวังให้ GPT-3 เข้าใจทฤษฎีวิทยาศาสตร์ต่างๆ อย่างลึกซึ่งจึงเป็นไปไม่ได้ ณ ตอนนี้ GPT-3 เพียงอธิบายเรื่องเหล่านี้ได้คร่าวๆ เท่านั้น
 
ได้มีงานวิจัยกลุ่ม Multi-hop reasoning ได้มีความพยายามเบื้องต้นที่จะทำให้โมเดลสามารถคิดได้เป็นเหตุผลมากขึ้น ด้วยการนำข้อมูลจากหลายๆ documents มาต่อๆ กันก่อนสร้าง output แต่ก็ยังทำได้แต่กรณีง่ายๆ บางกรณีเท่านั้นครับ
 
.
 
3. Continual หรือ Life-long Learning
 
 
อีกปรากฏการณ์ที่เป็นปัญหามากๆ ของโมเดล Deep Learning ก็คือปรากฏการณ์ที่เรียกว่า "การหลงลืม" ซึ่งมีทั้ง
- "การหลงลืมอย่างสิ้นเชิง" (Catastrophic Forgetting) ซึ่งก็คือเวลาให้โมเดลเรียนรู้เรื่องใหม่ผ่านการ Finetuning ก็จะทำให้ลืมเรื่องเก่าๆ ไปเกือบหมด (นั่นคือความแม่นยำของงานเก่าลดลงอย่างมาก) และ
- "การหลงลืมว่าเคยเขียนอะไรไป" ซึ่งเป็นการหลงลืมเฉพาะของโมเดลที่้ เน้นการเขียนอย่าง GPT-3 ซึ่งมีกระบวนการเขียนด้วยการสุ่มคำตามความน่าจะเป็น ทำให้คำตอบนั้นเปลี่ยนไปเปลี่ยนมาอยู่ตลอดตามการสุ่ม แม้จะไม่ได้เรียนรู้อะไรใหม่ๆ ก็ตาม
 
ภาพที่ 3 เป็นตัวอย่างนึงที่อธิบายคร่าวๆ ได้ว่าทำไมปรากฏการณ์ "การหลงลืมอย่างสิ้นเชิง" จึงเกิดขึ้น (นำมาจากอ้างอิง 5)
 
ได้มีงานวิจัยหลายงานในฝั่ง Computer Vision พยายามแก้ประเด็นการหลงลืมโดยสิ้นเชิงทำให้เกิดงานวิจัยกลุ่มย่อยใหม่ๆ ที่เรียกว่า Continual Learning, Life-long Learning และ Learning without Forgetting แต่ยังไม่เห็นชัดๆ ในงานฝั่ง Transformers ที่จะสามารถนำมาใช้กับ GPT-3 ได้โดยตรงครับ
 
.
 
4. & 5. Vision & Reinforcement Integration
 
 
 
แน่นอน การเรียนรู้อย่างน้อยครึ่งนึงของชีวิตมนุษย์นั้นเป็นการเรียนรู้ผ่านการมองเห็น มีหลายๆ เหตุการณ์ที่อธิบายเป็นคำพูดได้ยาก แต่เข้าใจง่ายๆ สำหรับเราเมื่อเราเห็น ยกตัวอย่างดังที่โชว์ในรูปที่ 4 เพียงรูปเดียวคนเราสามารถตีความอะไรได้หลายอย่าง
 
งานวิจัย Visual Commonsense ของทีม AI2 (อ้างอิง 6) มีความพยายามที่จะเชื่อมงาน vision เข้ากับงาน commonsense ซึ่งยังเพิ่งเริ่มต้นมาได้ไม่นาน ยังต้องพัฒนาอีกไกลครับ
 
นอกจากจะมองเห็นแล้ว คนเรายังเรียนรู้ลองผิดลองถูกได้ด้วยตัวเองโดยไม่ต้องมีผู้สอนได้อีกด้วย ซึ่งจะใกล้เคียงกับ Reinforcement Learning ที่ยังไม่ถูกรวมอยู่ใน Language Models ทั่วไปรวมทั้ง GPT-3 ครับ
 
การขาดการมองเห็น สามัญสำนึก และทักษะการลองผิดลองถูกผ่านประสาทสัมผัสต่างๆ เป็นจุดอ่อนที่สำคัญของ GPT-3
 
.
 
6. Long-range Reasoning / Long-term goal planning
 
ปัจจุบัน GPT-3 เวอร์ชั่นดีที่สุดสามารถอ่านข้อมูลได้ยาวที่สุด 2048 tokens เท่านั้น (น้อยกว่า 1,000 คำ) ซึ่งทำให้ยังไม่สามารถเชื่อมโยงเหตุผล ของหนังสือเล่มใหญ่ๆ หลายพันหน้าเหมือนที่มนุษย์อ่านได้
 
นอกจากนี้การให้ GPT-3 ให้เหตุผลหรือเขียนบรรยายเรื่องราวต่างๆ ที่สอดคล้องกันเป็นเอกสารยาวๆ
เช่น การแต่งหนังสือหลายๆ บทโดยมีเป้าหมายที่สอดคล้องกัน และนำไปสู่บทสรุปตามที่ตั้งไว้ตั้งแต่แรกก็ยังเป็นเรื่องที่ท้าทายเป็นอย่างมาก
 
.
 
7. Precise & Creative Thinking / Writing
 
หนึ่งในความท้าทายสูงสุดของการเขียนระดับ AGI ที่ยังห่างไกล GPT-3 มากๆ นั่นคือการแต่งเรื่องให้สอดคล้องกันในระดับสูงสุด รวมทั้งแต่งอย่างมีความคิดสร้างสรรค์สูงไปพร้อมๆ กันโดยไม่ออกทะเล
 
ตัวอย่างแรกที่คนทำได้คือการสร้างนิยาย นักสืบซึ่งในการแต่งนิยายประเภทนี้ต้องมีการสร้างปมขึ้นมาหลายปมอย่างสร้างสรรค์ และขมวดปมแต่ละปมอย่างมีเหตุผล มุ่งไปสู่บทสรุปที่เป็นไปได้เพียงอย่างเดียวเท่านั้น
 
 
ถ้า GPT-X สามารถแต่งนิยายนักสืบระดับเชอร์ล็อคโฮมหรือโคนันได้เมื่อไร เราก็สามารถนำ GPT-X เหล่านั้นมาอ่านข้อมูลของคดีจริงๆ และสร้างสมมติฐานที่จะใช้ไขคดีที่เกิดขึ้นในชีวิตจริงได้ครับ
 
อีกหนึ่งตัวอย่างความคิดสร้างสรรค์ที่มีประโยชน์มากๆ คืออีกแนวคิดของเศรษฐศาสตร์พฤติกรรมที่เรียกว่า Nudge ที่เป็นศาสตร์ที่อาศัยความเข้าใจมนุษย์อย่างลึกซึ้งและทำให้รัฐบาลสามารถออกนโยบายต่างๆ ที่จูงใจคนเราให้ทำตามได้อย่างไม่น่าเชื่อ ไม่ว่าจะเป็นสร้างระบบเพื่อกระตุ้นให้คนอนุรักษ์สัตว์ป่าใกล้สูญพันธุ์ หรือกระตุ้นให้ผู้เสียชีวิตบริจาคอวัยวะให้มูลนิธิทางการแพทย์ เป็นต้น (ดูอ้างอิง 7)
 
 
 
ซึ่งผมได้ทดลองให้ GPT-3 เรียนรู้การออกแบบ Nudge ง่ายๆ แบบ Few-shots และทดลองให้ GPT-3 สร้าง Nudge Policy ตามเป้าหมายที่กำหนด ซึ่งจากการทดลองเบื้องต้น GPT-3 ยังไม่ประสบความสำเร็จในการออกแบบความคิดสร้างสรรค์ที่ต้องสมเหตุผลนี้ครับ
 
===
อ้างอิง
===
3) Elemental Cognition : https://ec.ai/blog
5) Attention-based Selective Plasticity : https://arxiv.org/pdf/1903.06070.pdf
This post was modified 4 years ago 2 times by The Neural Engineer

   
ตอบกลับอ้างอิง
The Neural Engineer
(@neural-engineer)
Honorable Member Admin
เข้าร่วมเมื่อ: 7 years ago
ข้อความ: 403
 

Building AGI Using Language Models

https://bmk.sh/2020/08/17/Building-AGI-Using-Language-Models/


   
ตอบกลับอ้างอิง
The Neural Engineer
(@neural-engineer)
Honorable Member Admin
เข้าร่วมเมื่อ: 7 years ago
ข้อความ: 403
 
AI21 startup จากอิสราเอลเปิดให้ทุกคนทดลองใช้โมเดล NLP Transformers ที่ใหญ่เทียบเท่า GPT-3 (178B) ได้โดยไม่ต้องรอ waiting list ที่นี่ครับ
 
 
โดยโมเดลนี้เรียกว่า Jurassic Jumbo และสามารถใช้ quota ได้วันละ 10,000 tokens (รวมอ่าน prompt + เขียนต่อ) โดยใช้งานครั้งนึงไม่เกิน 2,048 tokens ครับ
 
Jurassic มีความแตกต่างจาก GPT-3 เล็กน้อยก็คือ เทรนบน token vocab ราว 250,000 ซึ่งมากกว่า GPT-3 ที่มี token vocab ขนาด 50,000 ซึ่งทำให้ ข้อความเต็มลิมิตที่ 2048 tokens นั้นมีความยาวกว่า GPT-3 ต้นฉบับ (อ่าน+เขียนได้ยาวกว่านั่นเอง)
 
เท่าที่ลองดูความสามารถด้อยกว่า GPT-3 เพียงเล็กน้อย ถือว่าใกล้เคียงเลยครับ
 
นอกจากนี้ยังสามารถใช้งานผ่าน API และให้ user finetune model เพื่อปรับให้เข้ากับงานเฉพาะทางได้โดยไม่มีค่าใช้จ่าย (แต่จะไปมีค่าใช้จ่ายตอนใช้งาน)
 
ดูเพิ่มเติม AI21 Blog
 
บทความเก่าเกี่ยวกับ GPT-3 (โหลดช้าหน่อยนะครับ)

   
ตอบกลับอ้างอิง
Page 2 / 3
Share: