Notifications

Clear all

รวมงาน AI เจ๋งๆ (งานใหม่ๆ อยู่โพสต์หลังๆ)

Page 2 / 3 Prev Next

คุยกันภาษา AI

ไปที่ข้อความล่าสุด by The Neural Engineer 1 year ago

19 ข้อความ

1 Users

0 Likes

8,705 Views

RSS

The Neural Engineer

(@neural-engineer)

Honorable Member Admin

เข้าร่วมเมื่อ: 8 years ago

ข้อความ: 412

Topic starter 10/11/2019 7:59 am

วาดภาพเสมือนจริงจาก Scene Graph Representation !

สวัสดีครับจากโพสต์ข้างต้นได้แนะนำ Scene Graph Representation ที่เป็นการนำเสนอ information ที่มีอยู่ใน image อย่างทรงพลัง ตัวอย่างที่แสดงให้เห็นถึงพลังของ Scene Graph ก็คือการวาดภาพเสมือนในทำนองเดียวกับ GANs (สำหรับเพื่อนๆ ที่ยังไม่คุ้นกับ GANs ที่ก็เรียกได้ว่ามหัศจรรย์แล้วดูได้ที่บทความอ้างอิงครับ)

แม้นการวาดภาพด้วย GANs จะสวยงามและเหมือนจริงมาก แต่ข้อจำกัดของ GANs คือผู้ใช้ไม่สามารถกำหนดรายละเอียดได้จริงๆ เช่น เราอาจจะอยากได้ภาพดังต่อไปนี้ ‘’ภาพทิวทรรศน์ทุ่งหญ้าที่งดงาม ที่มองเห็นยีราฟ และแกะยืนอยู่ข้างกัน โดยมีป่าเป็นฉากหลัง”

แต่เราไม่สามารถระบุรายละเอียดระดับนี้ได้ในงาน GANs ทั่วๆ ไป

นี่จึงเป็นที่มาของอีกหนึ่ง Best paper awards ใน ICCV 2019 ที่ชื่อว่า

“Specifying Object Attributes and Relations in Interactive Scene Generation”

ที่ให้เราวาดภาพเสมือนจริงบทรายละเอียดที่กำหนดดังตัวอย่างข้างต้นได้เสมือนมีเวทมนต์ โดยหัวใจของงานก็คือการสร้าง Scene Graph ขึ้นมาจากรายละเอียดที่กำหนด (ดูรูปแนบ) และใช้ Graph CNNs เพื่อสร้างรายละเอียดเพิ่มเติมจาก Scene Graph ที่ได้นั่นเองครับ

นอกจากนี้เรายังวาดภาพบนรายละเอียดที่ต้องการ ได้สร้างสรรค์อย่างไม่จำกัดจำนวนอีกด้วย!!

ในรูปแนบที่ 2 นั้นจะมีตัวอย่างการสุ่มวาดรูป 5 รูปที่แตกต่างกันออกไปบน Scene Graph ที่กำหนด เช่นในตัวอย่าง‘’รูปพิซซ่าที่วางอยู่บนกระดาษบนโต้ะ โดยมีถ้วยและแก้วน้ำวางอยู่ข้างๆ ” จะเห็นได้ว่าเราเนรมิตรูปจากคำบรรยายที่ได้หลากหลายอย่างน่ามหัศจรรย์จริงๆ ครับ!! (สังเกตว่าเราระบุให้มีถ้วยวางอยู่ แต่โมเดลฉลาดพอที่จะใส่ซอสลงไปในถ้วยด้วยตัวเองอย่างสมจริง 😉

สำหรับผู้สนใจเพิ่มเติมสามารถดู video presentation ของงานนี้ รวมทั้ง paper ฉบับเต็มได้ในเอกสารอ้างอิงครับ

อ้างอิง

ดูตัวอย่างพลังการสร้างสรรค์ภาพของ GANs ที่เรียกได้ว่าเจ๋งมากๆ แล้วนี่ https://machinelearningmastery.com/impressive-applications-of-generative-adversarial-networks/
ดูบทความ iccv ฉบับเต็มได้ที่นี่ https://arxiv.org/abs/1909.05379 รวมทั้งดู video presentation ที่งดงามมากๆ ได้ที่นี่ https://m.youtube.com/watch?v=V2v0qEPsjr0

This post was modified 6 years ago 4 times by The Neural Engineer

ตอบกลับอ้างอิง

The Neural Engineer

(@neural-engineer)

Honorable Member Admin

เข้าร่วมเมื่อ: 8 years ago

ข้อความ: 412

Topic starter 21/04/2020 4:10 am

สังเคราะห์ภาพ จากแสงสะท้อนบนถุงขนม!!

https://braneshop.com.au/showreel/Seeing%20the%20World%20in%20a%20Bag%20of%20Chips.html

ตอบกลับอ้างอิง

The Neural Engineer

(@neural-engineer)

Honorable Member Admin

เข้าร่วมเมื่อ: 8 years ago

ข้อความ: 412

Topic starter 07/05/2020 12:21 pm

OpenAI JukeBox เรียนรู้การแต่งเพลง ทั้งทำนองและเนื้อร้องจากศิลปินทั่วโลก

https://openai.com/blog/jukebox/

ตัวอย่างเพลงที่แต่งกว่าพันเพลง

https://jukebox.openai.com/

ข่าวไทย

https://www.beartai.com/news/itnews/429976

This post was modified 6 years ago by The Neural Engineer

ตอบกลับอ้างอิง

The Neural Engineer

(@neural-engineer)

Honorable Member Admin

เข้าร่วมเมื่อ: 8 years ago

ข้อความ: 412

Topic starter 07/04/2021 8:32 am

OpenAI Dall-E

https://openai.com/blog/dall-e/

Update Nov 2021

https://ml.berkeley.edu/blog/posts/clip-art/

This post was modified 4 years ago by The Neural Engineer

ตอบกลับอ้างอิง

The Neural Engineer

(@neural-engineer)

Honorable Member Admin

เข้าร่วมเมื่อ: 8 years ago

ข้อความ: 412

Topic starter 12/11/2021 11:59 pm

นักวิจัยจากจีน และ รัสเซียทำ DallE สำเร็จแล้วครับ!!

หลังจากที่ OpenAI ได้เผยแพร่ DallE หรืองานสร้าง Image จาก Text มาเป็นเวลาราวๆ 1 ปี แต่ก็ไม่ยอมเผยแพร่ หรือให้ลองเล่นสักที

ล่าสุดทีมจากจีน (CogView) และทีมจากรัสเซีย (ruDallE) ได้แข่งกันพัฒนาและได้ทำ DallE ที่คุณภาพสูงมากๆๆ ให้ทุกคนได้ลองเล่นกันฟรีๆ ครับ

ดูรูปเพิ่มเติมใน comments หรือลิงก์ข้างล่างครับ

จีน - CogView

Github: https://github.com/THUDM/CogView

Demo: https://agc.platform.baai.ac.cn/CogView/index.html

Colab: https://colab.research.google.com/drive/1ahsm15makBon5DZMy64a76TTWePBBp5l

รัสเซีย - ruDallE

Github: https://github.com/sberbank-ai/ru-dalle

Demo: https://huggingface.co/spaces/anton-l/rudall-e

Blog: https://habr.com/ru/company/sberbank/blog/586926/

Colab: https://colab.research.google.com/drive/1AoolDYePUpPkRCKIu0cP9zV7lX5QGD3Z?usp=sharing

เวอร์ชัน demo ของทั้งคู่ ไม่ใช่โมเดลที่ดีที่สุด แต่ภาพที่วาดออกมาถือว่ายอดเยี่ยมมากๆ ครับ

ตัวอย่างจากทีมจีน

ตัวอย่างจากทีมรัสเซีย

ตอบกลับอ้างอิง

The Neural Engineer

(@neural-engineer)

Honorable Member Admin

เข้าร่วมเมื่อ: 8 years ago

ข้อความ: 412

Topic starter 08/01/2022 10:05 am

GLIDE โมเดลที่ดีที่สุดในปัจจุบันที่สามารถวาดรูปจาก text ที่ระบุได้ ด้วยคุณภาพระดับใกล้เคียงภาพถ่าย

ของขวัญ Xmax จาก OpenAI และสรุปดีๆ จาก Thitirat TheSensei ครับ

ส่วนตัวคิดว่านี่คือโมเดลที่ประทับใจที่สุดในปี 2021 เลยครับ

สามารถทดลองเล่น GLIDE เวอร์ชั่นเล็ก + filtered dataset (ลบข้อมูลภาพที่อาจจะมีข้อมูลส่วนบุคคล รวมทั้ง toxic images ออกไป) ได้ที่นี่ครับ

Colab Text2Image (เวอร์ชั่น Classifier-free): https://colab.research.google.com/.../noteb.../text2im.ipynb

Colab InPainting (ดัดแปลง วาดภาพใหม่เฉพาะส่วน)

https://colab.research.google.com/.../noteb.../inpaint.ipynb

Colab ClipGuided (Text2Image version ใช้ CLIP)

https://colab.research.google.com/.../clip_guided.ipynb

-----

GitHub: https://github.com/openai/glide-text2im

บทความจาก Thitirat Sensei https://web.facebook.com/thitirat.thelecturer/posts/3072426599644244

------

CLIP เป็นอีกหนึ่งโมเดลจาก OpenAI ที่สารพัดประโยชน์มากใช้ในการจับคู่ Image-Text ที่เข้ากันที่สุด และสามารถประยุกต์ใช้งานได้หลากหลาย (อาทิเช่น GLIDE ข้างบน)

ดู CLIP ที่โพสต์ของ Thitirat TheSensei https://web.facebook.com/thitirat.thelecturer/posts/2804774776409429

Crop-CLIP คืออีกหนึ่งไอเดียง่ายแต่เจ๋ง ที่รวม YoloV5+CLIP เข้าด้วยกัน โดยให้ค้นหา object ในรูป (cropping) ที่เราสนใจผ่าน text อะไรก็ได้

ไอเดียง่ายๆ ของ Crop-CLIP

- ใช้ YoloV5 ค้นหาทุก objects ในรูป

- นำ objects ทั้งหมดที่ค้นเจอ ไปเข้า CLIP

- นำ text ที่จะค้นหาไปเข้า CLIP เช่นกัน

- ใช้ CLIP เพื่อ return รูปของ object ที่ตรงกับ text มากที่สุด

ทดลองเล่น Web app

https://huggingface.co/spaces/Vijish/Crop-CLIP

Colab

https://colab.research.google.com/.../master/Crop_CLIP.ipynb

Github

https://github.com/vijishmadhavan/Crop-CLIP

ตอบกลับอ้างอิง

The Neural Engineer

(@neural-engineer)

Honorable Member Admin

เข้าร่วมเมื่อ: 8 years ago

ข้อความ: 412

Topic starter 02/03/2022 12:45 pm

ทดลองเล่น Glide และ Models เจ๋งๆ อื่นๆ ใน Huggingface Space กันครับ

เชื่อว่าหลายคนคงรู้สึกเหมือนกันว่างานวิจัย AI / DeepLearning ที่ดูเทพๆ นี่มันเกิดขึ้นเร็วมาก ตามไม่ทัน ไม่รู้งานไหนทำอะไรได้บ้าง

วิธีหนึ่งก็คือการลองเล่นงานเหล่านี้เลยครับ! อย่างไรก็ดีบางครั้งการทดลองเล่นงานวิจัยใหม่ๆ ไม่สะดวกนัก บางงานวิจัยใจดีมี Colab มาให้ลองเล่น ก็ยังต้องทำความเข้าใจ (นิดๆ)

จึงเป็นที่มาของ App Hosting บน Huggingface Space ที่ไว้โชว์เคสงานเจ๋งๆ ครับ

ปัจจุบัน Huggingface ก้าวไปอีกระดับด้วย Free Hosting สำหรับ AI Model (เช่นเดียวกับ Streamlit ที่เคยอธิบายในบทความนี้ครับ https://bit.ly/thaikeras_streamlit ) โดยแอพที่ host บน hugginface จะเขียนด้วย streamlit หรือ gradio ก็ได้ โดยไม่นานนี้ Huggingface เพิ่ง take over gradio ซึ่งเป็นคู่แข่ง streamlit มาเรียบร้อย

ตัวอย่าง generative model ที่ลองเล่นสนุกๆ ได้อย่างน่าตื่นเต้นครับ

OpenAI Glide : วาดรูปในจินตนการไร้ขีดจำกัด จาก free texts

https://huggingface.co/spaces/valhalla/glide-text2im

(ดู glide ที่บทความนี้ครับ https://web.facebook.com/thaikeras/posts/953295825585098 )

SwinIR : Image SuperResolution ด้วย Swin Transformers

นำภาพไม่ชัดมาทำให้คมชัดขึ้นอย่างมหัศจรรย์ (จะเอาภาพจาก Glide ด้านบนมาก็ได้ครับ)

https://huggingface.co/spaces/akhaliq/SwinIR

จำแนกรูป 22,000 ประเภทด้วย SwinTransformers

https://huggingface.co/spaces/akhaliq/Swin-Transformer

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation (Salesforce Research) ทำ Image Captioning หรือ Question-Answering จากรูปใดๆ

https://huggingface.co/spaces/Salesforce/BLIP

JoJoGAN: เปลี่ยนรูปภาพหลากสไตล์การ์ตูนในพริบตา

https://huggingface.co/spaces/akhaliq/JoJoGAN

นี่แค่ตัวอย่างเล็กๆ น้อยๆ ยังมี apps น่าเล่นอีกมากใน Huggingface Space โดยเฉพาะของ Ahsen Khaliq ทำ apps ใหม่ล่าสุดไว้เกือบร้อยตัวอย่างครับ

https://huggingface.co/akhaliq

ตอบกลับอ้างอิง