Notifications
Clear all

รวมงาน AI เจ๋งๆ (งานใหม่ๆ อยู่โพสต์หลังๆ)

19 ข้อความ
1 Users
0 Likes
5,442 Views
The Neural Engineer
(@neural-engineer)
Honorable Member Admin
เข้าร่วมเมื่อ: 7 years ago
ข้อความ: 412
Topic starter  

วาดภาพเสมือนจริงจาก Scene Graph Representation !

สวัสดีครับจากโพสต์ข้างต้นได้แนะนำ Scene Graph Representation ที่เป็นการนำเสนอ information  ที่มีอยู่ใน image อย่างทรงพลัง  ตัวอย่างที่แสดงให้เห็นถึงพลังของ Scene Graph ก็คือการวาดภาพเสมือนในทำนองเดียวกับ GANs (สำหรับเพื่อนๆ ที่ยังไม่คุ้นกับ GANs ที่ก็เรียกได้ว่ามหัศจรรย์แล้วดูได้ที่บทความอ้างอิงครับ)

แม้นการวาดภาพด้วย GANs จะสวยงามและเหมือนจริงมาก แต่ข้อจำกัดของ GANs คือผู้ใช้ไม่สามารถกำหนดรายละเอียดได้จริงๆ เช่น เราอาจจะอยากได้ภาพดังต่อไปนี้ ‘’ภาพทิวทรรศน์ทุ่งหญ้าที่งดงาม ที่มองเห็นยีราฟ และแกะยืนอยู่ข้างกัน โดยมีป่าเป็นฉากหลัง

แต่เราไม่สามารถระบุรายละเอียดระดับนี้ได้ในงาน GANs ทั่วๆ ไป

นี่จึงเป็นที่มาของอีกหนึ่ง Best paper awards ใน ICCV 2019 ที่ชื่อว่า

“Specifying Object Attributes and Relations in Interactive Scene Generation”

ที่ให้เราวาดภาพเสมือนจริงบทรายละเอียดที่กำหนดดังตัวอย่างข้างต้นได้เสมือนมีเวทมนต์ โดยหัวใจของงานก็คือการสร้าง Scene Graph ขึ้นมาจากรายละเอียดที่กำหนด (ดูรูปแนบ) และใช้ Graph CNNs เพื่อสร้างรายละเอียดเพิ่มเติมจาก Scene Graph ที่ได้นั่นเองครับ

นอกจากนี้เรายังวาดภาพบนรายละเอียดที่ต้องการ ได้สร้างสรรค์อย่างไม่จำกัดจำนวนอีกด้วย!!

ในรูปแนบที่ 2 นั้นจะมีตัวอย่างการสุ่มวาดรูป 5 รูปที่แตกต่างกันออกไปบน Scene Graph ที่กำหนด เช่นในตัวอย่าง‘’รูปพิซซ่าที่วางอยู่บนกระดาษบนโต้ะ โดยมีถ้วยและแก้วน้ำวางอยู่ข้างๆ ” จะเห็นได้ว่าเราเนรมิตรูปจากคำบรรยายที่ได้หลากหลายอย่างน่ามหัศจรรย์จริงๆ ครับ!! (สังเกตว่าเราระบุให้มีถ้วยวางอยู่ แต่โมเดลฉลาดพอที่จะใส่ซอสลงไปในถ้วยด้วยตัวเองอย่างสมจริง 😉

สำหรับผู้สนใจเพิ่มเติมสามารถดู video presentation ของงานนี้ รวมทั้ง paper ฉบับเต็มได้ในเอกสารอ้างอิงครับ

อ้างอิง

  1. ดูตัวอย่างพลังการสร้างสรรค์ภาพของ GANs ที่เรียกได้ว่าเจ๋งมากๆ แล้วนี่ https://machinelearningmastery.com/impressive-applications-of-generative-adversarial-networks/
  2. ดูบทความ iccv ฉบับเต็มได้ที่นี่ https://arxiv.org/abs/1909.05379 รวมทั้งดู video presentation ที่งดงามมากๆ ได้ที่นี่  https://m.youtube.com/watch?v=V2v0qEPsjr0
This post was modified 6 years ago 4 times by The Neural Engineer

   
ตอบกลับอ้างอิง
The Neural Engineer
(@neural-engineer)
Honorable Member Admin
เข้าร่วมเมื่อ: 7 years ago
ข้อความ: 412
Topic starter  

สังเคราะห์ภาพ จากแสงสะท้อนบนถุงขนม!!

https://braneshop.com.au/showreel/Seeing%20the%20World%20in%20a%20Bag%20of%20Chips.html


   
ตอบกลับอ้างอิง
The Neural Engineer
(@neural-engineer)
Honorable Member Admin
เข้าร่วมเมื่อ: 7 years ago
ข้อความ: 412
Topic starter  

OpenAI JukeBox เรียนรู้การแต่งเพลง ทั้งทำนองและเนื้อร้องจากศิลปินทั่วโลก

https://openai.com/blog/jukebox/

ตัวอย่างเพลงที่แต่งกว่าพันเพลง

https://jukebox.openai.com/

ข่าวไทย

https://www.beartai.com/news/itnews/429976

This post was modified 5 years ago by The Neural Engineer

   
ตอบกลับอ้างอิง
The Neural Engineer
(@neural-engineer)
Honorable Member Admin
เข้าร่วมเมื่อ: 7 years ago
ข้อความ: 412
Topic starter  

OpenAI Dall-E

https://openai.com/blog/dall-e/

Update Nov 2021

https://ml.berkeley.edu/blog/posts/clip-art/

This post was modified 4 years ago by The Neural Engineer

   
ตอบกลับอ้างอิง
The Neural Engineer
(@neural-engineer)
Honorable Member Admin
เข้าร่วมเมื่อ: 7 years ago
ข้อความ: 412
Topic starter  
นักวิจัยจากจีน และ รัสเซียทำ DallE สำเร็จแล้วครับ!!
 
หลังจากที่ OpenAI ได้เผยแพร่ DallE หรืองานสร้าง Image จาก Text มาเป็นเวลาราวๆ 1 ปี แต่ก็ไม่ยอมเผยแพร่ หรือให้ลองเล่นสักที
 
ล่าสุดทีมจากจีน (CogView) และทีมจากรัสเซีย (ruDallE) ได้แข่งกันพัฒนาและได้ทำ DallE ที่คุณภาพสูงมากๆๆ ให้ทุกคนได้ลองเล่นกันฟรีๆ ครับ
 
ดูรูปเพิ่มเติมใน comments หรือลิงก์ข้างล่างครับ
 
จีน - CogView
 
รัสเซีย - ruDallE
 
เวอร์ชัน demo ของทั้งคู่ ไม่ใช่โมเดลที่ดีที่สุด แต่ภาพที่วาดออกมาถือว่ายอดเยี่ยมมากๆ ครับ

 

ตัวอย่างจากทีมจีน

 

ตัวอย่างจากทีมรัสเซีย


   
ตอบกลับอ้างอิง
The Neural Engineer
(@neural-engineer)
Honorable Member Admin
เข้าร่วมเมื่อ: 7 years ago
ข้อความ: 412
Topic starter  
GLIDE โมเดลที่ดีที่สุดในปัจจุบันที่สามารถวาดรูปจาก text ที่ระบุได้ ด้วยคุณภาพระดับใกล้เคียงภาพถ่าย
 
ของขวัญ Xmax จาก OpenAI และสรุปดีๆ จาก Thitirat TheSensei ครับ
ส่วนตัวคิดว่านี่คือโมเดลที่ประทับใจที่สุดในปี 2021 เลยครับ
สามารถทดลองเล่น GLIDE เวอร์ชั่นเล็ก + filtered dataset (ลบข้อมูลภาพที่อาจจะมีข้อมูลส่วนบุคคล รวมทั้ง toxic images ออกไป) ได้ที่นี่ครับ
Colab Text2Image (เวอร์ชั่น Classifier-free): https://colab.research.google.com/.../noteb.../text2im.ipynb
Colab InPainting (ดัดแปลง วาดภาพใหม่เฉพาะส่วน)
Colab ClipGuided (Text2Image version ใช้ CLIP)

บทความจาก Thitirat Sensei https://web.facebook.com/thitirat.thelecturer/posts/3072426599644244

 

------

CLIP เป็นอีกหนึ่งโมเดลจาก OpenAI ที่สารพัดประโยชน์มากใช้ในการจับคู่ Image-Text ที่เข้ากันที่สุด และสามารถประยุกต์ใช้งานได้หลากหลาย (อาทิเช่น GLIDE ข้างบน)

ดู CLIP ที่โพสต์ของ Thitirat TheSensei https://web.facebook.com/thitirat.thelecturer/posts/2804774776409429

Crop-CLIP คืออีกหนึ่งไอเดียง่ายแต่เจ๋ง ที่รวม YoloV5+CLIP เข้าด้วยกัน โดยให้ค้นหา object ในรูป (cropping) ที่เราสนใจผ่าน text อะไรก็ได้
 
ไอเดียง่ายๆ ของ Crop-CLIP
- ใช้ YoloV5 ค้นหาทุก objects ในรูป
- นำ objects ทั้งหมดที่ค้นเจอ ไปเข้า CLIP
- นำ text ที่จะค้นหาไปเข้า CLIP เช่นกัน
- ใช้ CLIP เพื่อ return รูปของ object ที่ตรงกับ text มากที่สุด
ทดลองเล่น Web app

   
ตอบกลับอ้างอิง
The Neural Engineer
(@neural-engineer)
Honorable Member Admin
เข้าร่วมเมื่อ: 7 years ago
ข้อความ: 412
Topic starter  
ทดลองเล่น Glide และ Models เจ๋งๆ อื่นๆ ใน Huggingface Space กันครับ
 
เชื่อว่าหลายคนคงรู้สึกเหมือนกันว่างานวิจัย AI / DeepLearning ที่ดูเทพๆ นี่มันเกิดขึ้นเร็วมาก ตามไม่ทัน ไม่รู้งานไหนทำอะไรได้บ้าง
 
วิธีหนึ่งก็คือการลองเล่นงานเหล่านี้เลยครับ! อย่างไรก็ดีบางครั้งการทดลองเล่นงานวิจัยใหม่ๆ ไม่สะดวกนัก บางงานวิจัยใจดีมี Colab มาให้ลองเล่น ก็ยังต้องทำความเข้าใจ (นิดๆ)
 
จึงเป็นที่มาของ App Hosting บน Huggingface Space ที่ไว้โชว์เคสงานเจ๋งๆ ครับ
 
ปัจจุบัน Huggingface ก้าวไปอีกระดับด้วย Free Hosting สำหรับ AI Model (เช่นเดียวกับ Streamlit ที่เคยอธิบายในบทความนี้ครับ https://bit.ly/thaikeras_streamlit ) โดยแอพที่ host บน hugginface จะเขียนด้วย streamlit หรือ gradio ก็ได้ โดยไม่นานนี้ Huggingface เพิ่ง take over gradio ซึ่งเป็นคู่แข่ง streamlit มาเรียบร้อย
 
ตัวอย่าง generative model ที่ลองเล่นสนุกๆ ได้อย่างน่าตื่นเต้นครับ
OpenAI Glide : วาดรูปในจินตนการไร้ขีดจำกัด จาก free texts
(ดู glide ที่บทความนี้ครับ https://web.facebook.com/thaikeras/posts/953295825585098 )
 
SwinIR : Image SuperResolution ด้วย Swin Transformers
นำภาพไม่ชัดมาทำให้คมชัดขึ้นอย่างมหัศจรรย์ (จะเอาภาพจาก Glide ด้านบนมาก็ได้ครับ)
 
จำแนกรูป 22,000 ประเภทด้วย SwinTransformers
 
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation (Salesforce Research) ทำ Image Captioning หรือ Question-Answering จากรูปใดๆ
 
JoJoGAN: เปลี่ยนรูปภาพหลากสไตล์การ์ตูนในพริบตา
 
นี่แค่ตัวอย่างเล็กๆ น้อยๆ ยังมี apps น่าเล่นอีกมากใน Huggingface Space โดยเฉพาะของ Ahsen Khaliq ทำ apps ใหม่ล่าสุดไว้เกือบร้อยตัวอย่างครับ

   
ตอบกลับอ้างอิง
Page 2 / 3
Share: