รวมงาน AI ระดับ “มหัศจรรย์”  

  RSS
The Neural Engineer
(@neural-engineer)
EfficientNet

Speech2Face (สร้างภาพหน้าคนจากเสียงพูด)

https://speech2face.github.io/

This topic was modified 3 years ago 2 times by The Neural Engineer
อ้างอิง
Posted : 09/06/2019 7:04 am
The Neural Engineer
(@neural-engineer)
EfficientNet

เนรมิตภาพเคลื่อนไหว จากภาพนิ่ง 1 รูป

(หรือ 3-5 รูป ก็จะได้คุณภาพเคลื่อนไหวที่สูงขึ้น)

รายละเอียดภาพตัวอย่างต้องกดดูที่ลิงก์นี้ครับ

https://www.vice.com/en_ca/article/qv7zkw/create-fake-videos-of-faces-samsung-ai-labs-algorithm

This post was modified 3 years ago 2 times by The Neural Engineer
ตอบกลับอ้างอิง
Posted : 09/06/2019 7:08 am
The Neural Engineer
(@neural-engineer)
EfficientNet

Translatotron

สุดยอดงานจากทีม Google AI แปลภาษา จาก “เสียง” โดยตรง (ไม่ต้องทำความเข้าใจแบบมี text เป็นสื่อกลาง)

รวมทั้งยัง combine “voice-style transfer” นั่นคือ สามารถเปลี่ยนเสียงผู้พูดได้ตามใจชอบ

ตอบกลับอ้างอิง
Posted : 21/06/2019 7:59 am
The Neural Engineer
(@neural-engineer)
EfficientNet

MuseNet แต่งทำนองบทเพลงระดับโมซาร์ท โชแปง หรือร็อคสตาร์อย่างไร้ขีดจำกัด

MuseNet อาจกล่าวได้ว่าเป็น GPT-2 แห่งท่วงทำนองดนตรี เพราะเพียงแค่เราใส่ข้อมูลทำนองดนตรีทั้งหลายในโลกไปให้เรียนรู้ MuseNet ก็สามารถทำความเข้าใจความไพเราะของเสียงดนตรีรวมทั้งแต่งดนตรีแบบฉบับใหม่ได้ทันทีอย่างไม่มีข้อจำกัด (ยาวนานเท่าไรก็ได้) รวมทั้งยังสามารถประยุกต์ Genre หลายสไตล์เข้าไว้ในบทเพลงเดียวกันอย่างแนบเนียนอีกด้วย

เชิญรับฟังตัวอย่าง MuseNet Concert ความยาว 2 ชั่วโมงได้ที่นี่ครับ

รายละเอียดเพิ่มเติมที่ OpenAI Blog

https://openai.com/blog/musenet/

This post was modified 2 years ago 3 times by The Neural Engineer
ตอบกลับอ้างอิง
Posted : 28/06/2019 6:25 am
The Neural Engineer
(@neural-engineer)
EfficientNet

Deoldify เนรมิตสีสัน จากภาพในอดีต!!

https://github.com/jantic/DeOldify https://medium.com/@rohanricky/understanding-gans-with-deoldify-ddaccd684daf

 

This post was modified 2 years ago 3 times by The Neural Engineer
ตอบกลับอ้างอิง
Posted : 02/09/2019 7:58 am
The Neural Engineer
(@neural-engineer)
EfficientNet

SinGAN (Single Image GAN)

เป็นโมเดลที่สามารถสร้างสรรค์ภาพที่สวยงาม หลากหลาย และคุณภาพสูง ได้จากการเรียนรู้จากรูปภาพต้นฉบับ ‘เพียงรูปภาพเดียว’ !! ไอเดียของ SinGAN คือการตัดภาพต้นฉบับเป็นท่อนเล็กๆ และทำความเข้าใจทั้ง Texture และ Semantic ของท่อนเล็กๆ แต่ละท่อนนั้น และสามารถนำท่อนเล็กๆ ที่วาดขึ้นมาใหม่มาต่อกันทำให้เกิดภาพใหม่ได้อย่างแนบเนียน

หรือสามารถนำภาพจากสองแหล่งที่มีความแตกต่างกัน มารวมกันแบบกลมกลืนเสมือนเป็นภาพเดียวได้ สังเกตภาพการนำรูปต้นคริสมาสต์มารวมกับภาพภูเขาในรูป

นอกจากนี้ ‘เวทมนต์’ ของ SinGAN คือการสร้าง ‘ชีวิต’ ให้กับรูปภาพ กล่าวคือเราสามารถสร้าง Animation เช่น “ปรากฎการณ์ฟ้าผ่า“ จาก “รูปภาพฟ้าผ่า“ เพียงรูปเดียวได้ โดยอาศัยหลักการการเรียนรู้ท่อนเล็กๆ แต่ละท่อนที่กล่าวในข้างต้น การ present ผลงานนี้ทำเอาผู้เข้าร่วมงานฮืออากันไปทั้งฮอลล์เลยครับ

SinGAN ได้รับรางวัล Best Paper Award หรือสุดยอดผลงานในปีนี้ เป็นของทีมวิจัยจากอิสราเอลร่วมกับ Google Research เพื่อนๆ สามารถเข้าไปดูรายละเอียด ภาพเคลื่อนไหว รวมทั้ง Open Source ได้ที่ http://webee.technion.ac.il/people/tomermic/SinGAN/SinGAN.htm

นอกจากนี้ SinGAN ยังสามารถประยุกต์ใช้งานที่ทั้งหลากหลายและมหัศจรรย์อีกหลายอย่าง อาทิเช่น การเปลี่ยนรูปภาพให้เป็น Animation (หรือที่เจ้าของผลงาน SinGAN ใช้คำพูดว่า “สร้างชีวิต” ให้กับรูปภาพ ลองดูด้วยตนเองครับ

This post was modified 2 years ago 7 times by The Neural Engineer
ตอบกลับอ้างอิง
Posted : 02/11/2019 6:41 am
The Neural Engineer
(@neural-engineer)
EfficientNet

Scene Graph Representation and Learning

งานอีกกลุ่มหนึ่งที่กำลังมาแรงมากๆ ใน Computer Vision คือ การทำความเข้าใจความหมายของรูปอย่างแท้จริง (ระดับเดียวกับมนุษย์) ที่เรียกว่า “Learning Scene Graph Representation”

อารัมภบทเล็กน้อยว่า ถึงแม้นงานในไม่กี่ปีที่ผ่านมางานด้าน Vision นั้นพัฒนาไปรวดเร็วมาก การจำแนกภาพต่างๆ รวมทั้งภาพที่ยากมากๆ ทำได้แม่นยำระดับเดียวกับมนุษย์

อย่างไรก็ดีในงานที่ต้องการ ‘’ความเข้าใจ ของรูปอย่างแท้จริงนั้นยังไปได้ไม่ไกลมาก เช่น บรรยายรูปภาพด้วยภาษามนุษย์(Image Captioning) หรือ ตอบคำถามต่างๆ ที่เกี่ยวกับรูปภาพ (Visual Q&A)

จากประเด็นนี้ทีมวิจัยจาก Stanford จึงเป็นตัวตั้งตัวตีในการงานวิจัยกลุ่มใหม่ที่เรียกกว่า “Scene Graph” นี้เอง โดย Scene Graph นั้นคือ Graph ของวัตถุต่างๆ ที่อยู่ในรูปที่เราสนใจเช่นจากรูปตัวอย่าง

โมเดลจะทำการเรียนรู้วัตถุต่างๆ และความสัมพันธ์ของวัตถุในรูป เช่น ม้า-ลาก-รถเลื่อน คน-นั่งบน-รถเลื่อน และนำวัตถุและความสัมพันธ์นี้มาแสดงเป็น Graphทำให้เราสามารถสรุป Contents ที่สำคัญทั้งหมดของรูปภาพได้จาก Scene Graph นี่เอง

งาน Scene Graph นี้พลิกมิติของการทำงานด้าน Image Captioning , Visual Q&A รวมทั้งงานอื่นๆ ที่เกี่ยวข้องกับ รูปภาพและภาษาไปอย่างมาก

โดยการเรียนความรู้จากภาพด้วย Scene Graph นี้ทำให้เกิด Convolutional Neural Networks (CNNs) ประเภทใหม่ขึ้นมาด้วย ที่เรียกว่า “Graph CNN” ที่ทำ Convolutional Operator บนกราฟโดยตรง

เพื่อนๆ ที่สนใจเข้าไปดูรายละเอียด Scene Graph Workshops ของ ICCV 2019 ได้ที่นี่ครับ :

https://cs.stanford.edu/people/ranjaykrishna/sgrl/index.html

This post was modified 2 years ago by The Neural Engineer
ตอบกลับอ้างอิง
Posted : 02/11/2019 7:55 am
The Neural Engineer
(@neural-engineer)
EfficientNet

วาดภาพเสมือนจริงจาก Scene Graph Representation !

สวัสดีครับจากโพสต์ข้างต้นได้แนะนำ Scene Graph Representation ที่เป็นการนำเสนอ information  ที่มีอยู่ใน image อย่างทรงพลัง  ตัวอย่างที่แสดงให้เห็นถึงพลังของ Scene Graph ก็คือการวาดภาพเสมือนในทำนองเดียวกับ GANs (สำหรับเพื่อนๆ ที่ยังไม่คุ้นกับ GANs ที่ก็เรียกได้ว่ามหัศจรรย์แล้วดูได้ที่บทความอ้างอิงครับ)

แม้นการวาดภาพด้วย GANs จะสวยงามและเหมือนจริงมาก แต่ข้อจำกัดของ GANs คือผู้ใช้ไม่สามารถกำหนดรายละเอียดได้จริงๆ เช่น เราอาจจะอยากได้ภาพดังต่อไปนี้ ‘’ภาพทิวทรรศน์ทุ่งหญ้าที่งดงาม ที่มองเห็นยีราฟ และแกะยืนอยู่ข้างกัน โดยมีป่าเป็นฉากหลัง

แต่เราไม่สามารถระบุรายละเอียดระดับนี้ได้ในงาน GANs ทั่วๆ ไป

นี่จึงเป็นที่มาของอีกหนึ่ง Best paper awards ใน ICCV 2019 ที่ชื่อว่า

“Specifying Object Attributes and Relations in Interactive Scene Generation”

ที่ให้เราวาดภาพเสมือนจริงบทรายละเอียดที่กำหนดดังตัวอย่างข้างต้นได้เสมือนมีเวทมนต์ โดยหัวใจของงานก็คือการสร้าง Scene Graph ขึ้นมาจากรายละเอียดที่กำหนด (ดูรูปแนบ) และใช้ Graph CNNs เพื่อสร้างรายละเอียดเพิ่มเติมจาก Scene Graph ที่ได้นั่นเองครับ

นอกจากนี้เรายังวาดภาพบนรายละเอียดที่ต้องการ ได้สร้างสรรค์อย่างไม่จำกัดจำนวนอีกด้วย!!

ในรูปแนบที่ 2 นั้นจะมีตัวอย่างการสุ่มวาดรูป 5 รูปที่แตกต่างกันออกไปบน Scene Graph ที่กำหนด เช่นในตัวอย่าง‘’รูปพิซซ่าที่วางอยู่บนกระดาษบนโต้ะ โดยมีถ้วยและแก้วน้ำวางอยู่ข้างๆ ” จะเห็นได้ว่าเราเนรมิตรูปจากคำบรรยายที่ได้หลากหลายอย่างน่ามหัศจรรย์จริงๆ ครับ!! (สังเกตว่าเราระบุให้มีถ้วยวางอยู่ แต่โมเดลฉลาดพอที่จะใส่ซอสลงไปในถ้วยด้วยตัวเองอย่างสมจริง 😉

สำหรับผู้สนใจเพิ่มเติมสามารถดู video presentation ของงานนี้ รวมทั้ง paper ฉบับเต็มได้ในเอกสารอ้างอิงครับ

อ้างอิง

  1. ดูตัวอย่างพลังการสร้างสรรค์ภาพของ GANs ที่เรียกได้ว่าเจ๋งมากๆ แล้วนี่

    18 Impressive Applications of Generative Adversarial Networks (GANs)

  2. ดูบทความ iccv ฉบับเต็มได้ที่นี่ https://arxiv.org/abs/1909.05379 รวมทั้งดู video presentation ที่งดงามมากๆ ได้ที่นี่ 

This post was modified 2 years ago 4 times by The Neural Engineer
ตอบกลับอ้างอิง
Posted : 10/11/2019 7:59 am
The Neural Engineer
(@neural-engineer)
EfficientNet

สังเคราะห์ภาพ จากแสงสะท้อนบนถุงขนม!!

https://braneshop.com.au/showreel/Seeing%20the%20World%20in%20a%20Bag%20of%20Chips.html

ตอบกลับอ้างอิง
Posted : 21/04/2020 5:10 am
The Neural Engineer
(@neural-engineer)
EfficientNet

OpenAI JukeBox เรียนรู้การแต่งเพลง ทั้งทำนองและเนื้อร้องจากศิลปินทั่วโลก

https://openai.com/blog/jukebox/

ตัวอย่างเพลงที่แต่งกว่าพันเพลง

https://jukebox.openai.com/

ข่าวไทย

OpenAI เปิดตัว AI ใหม่ชื่อ “JukeBox” AI ที่สามารถแต่งเพลงขึ้นมาได้เอง พร้อมเนื้อร้อง เพียงแค่เลือกแนวเพลง!

This post was modified 2 years ago by The Neural Engineer
ตอบกลับอ้างอิง
Posted : 07/05/2020 1:21 pm
The Neural Engineer
(@neural-engineer)
EfficientNet

OpenAI Dall-E

https://openai.com/blog/dall-e/

Update Nov 2021

https://ml.berkeley.edu/blog/posts/clip-art/

This post was modified 3 weeks ago by The Neural Engineer
ตอบกลับอ้างอิง
Posted : 07/04/2021 9:32 am
The Neural Engineer
(@neural-engineer)
EfficientNet
นักวิจัยจากจีน และ รัสเซียทำ DallE สำเร็จแล้วครับ!!
 
หลังจากที่ OpenAI ได้เผยแพร่ DallE หรืองานสร้าง Image จาก Text มาเป็นเวลาราวๆ 1 ปี แต่ก็ไม่ยอมเผยแพร่ หรือให้ลองเล่นสักที
 
ล่าสุดทีมจากจีน (CogView) และทีมจากรัสเซีย (ruDallE) ได้แข่งกันพัฒนาและได้ทำ DallE ที่คุณภาพสูงมากๆๆ ให้ทุกคนได้ลองเล่นกันฟรีๆ ครับ
 
ดูรูปเพิ่มเติมใน comments หรือลิงก์ข้างล่างครับ
 
จีน - CogView
 
รัสเซีย - ruDallE
 
เวอร์ชัน demo ของทั้งคู่ ไม่ใช่โมเดลที่ดีที่สุด แต่ภาพที่วาดออกมาถือว่ายอดเยี่ยมมากๆ ครับ

 

ตัวอย่างจากทีมจีน

 

ตัวอย่างจากทีมรัสเซีย

ตอบกลับอ้างอิง
Posted : 12/11/2021 11:59 pm
Share:

Please Login or Register