Notifications
Clear all

รวมงาน AI เจ๋งๆ (งานใหม่ๆ อยู่โพสต์หลังๆ)

18 ข้อความ
1 Users
0 Likes
3,957 Views
The Neural Engineer
(@neural-engineer)
Honorable Member Admin
เข้าร่วมเมื่อ: 6 years ago
ข้อความ: 400
Topic starter  

Speech2Face (สร้างภาพหน้าคนจากเสียงพูด)

https://speech2face.github.io/

This topic was modified 5 years ago 2 times by The Neural Engineer
This topic was modified 1 year ago by The Neural Engineer

   
อ้างอิง
The Neural Engineer
(@neural-engineer)
Honorable Member Admin
เข้าร่วมเมื่อ: 6 years ago
ข้อความ: 400
Topic starter  

เนรมิตภาพเคลื่อนไหว จากภาพนิ่ง 1 รูป

(หรือ 3-5 รูป ก็จะได้คุณภาพเคลื่อนไหวที่สูงขึ้น)

รายละเอียดภาพตัวอย่างต้องกดดูที่ลิงก์นี้ครับ

https://www.vice.com/en_ca/article/qv7zkw/create-fake-videos-of-faces-samsung-ai-labs-algorithm

https://youtu.be/p1b5aiTrGzY

This post was modified 5 years ago 2 times by The Neural Engineer

   
ตอบกลับอ้างอิง
The Neural Engineer
(@neural-engineer)
Honorable Member Admin
เข้าร่วมเมื่อ: 6 years ago
ข้อความ: 400
Topic starter  

Translatotron

สุดยอดงานจากทีม Google AI แปลภาษา จาก “เสียง” โดยตรง (ไม่ต้องทำความเข้าใจแบบมี text เป็นสื่อกลาง)

รวมทั้งยัง combine “voice-style transfer” นั่นคือ สามารถเปลี่ยนเสียงผู้พูดได้ตามใจชอบ

https://youtu.be/38ZXwJj6j8k


   
ตอบกลับอ้างอิง
The Neural Engineer
(@neural-engineer)
Honorable Member Admin
เข้าร่วมเมื่อ: 6 years ago
ข้อความ: 400
Topic starter  

MuseNet แต่งทำนองบทเพลงระดับโมซาร์ท โชแปง หรือร็อคสตาร์อย่างไร้ขีดจำกัด

MuseNet อาจกล่าวได้ว่าเป็น GPT-2 แห่งท่วงทำนองดนตรี เพราะเพียงแค่เราใส่ข้อมูลทำนองดนตรีทั้งหลายในโลกไปให้เรียนรู้ MuseNet ก็สามารถทำความเข้าใจความไพเราะของเสียงดนตรีรวมทั้งแต่งดนตรีแบบฉบับใหม่ได้ทันทีอย่างไม่มีข้อจำกัด (ยาวนานเท่าไรก็ได้) รวมทั้งยังสามารถประยุกต์ Genre หลายสไตล์เข้าไว้ในบทเพลงเดียวกันอย่างแนบเนียนอีกด้วย

เชิญรับฟังตัวอย่าง MuseNet Concert ความยาว 2 ชั่วโมงได้ที่นี่ครับ

https://youtu.be/fY5omEwxWa8

รายละเอียดเพิ่มเติมที่ OpenAI Blog

https://openai.com/blog/musenet/

This post was modified 5 years ago 3 times by The Neural Engineer

   
ตอบกลับอ้างอิง
The Neural Engineer
(@neural-engineer)
Honorable Member Admin
เข้าร่วมเมื่อ: 6 years ago
ข้อความ: 400
Topic starter  

Deoldify เนรมิตสีสัน จากภาพในอดีต!!

https://github.com/jantic/DeOldify https://medium.com/@rohanricky/understanding-gans-with-deoldify-ddaccd684daf

 

This post was modified 5 years ago 3 times by The Neural Engineer

   
ตอบกลับอ้างอิง
The Neural Engineer
(@neural-engineer)
Honorable Member Admin
เข้าร่วมเมื่อ: 6 years ago
ข้อความ: 400
Topic starter  

SinGAN (Single Image GAN)

เป็นโมเดลที่สามารถสร้างสรรค์ภาพที่สวยงาม หลากหลาย และคุณภาพสูง ได้จากการเรียนรู้จากรูปภาพต้นฉบับ ‘เพียงรูปภาพเดียว’ !! ไอเดียของ SinGAN คือการตัดภาพต้นฉบับเป็นท่อนเล็กๆ และทำความเข้าใจทั้ง Texture และ Semantic ของท่อนเล็กๆ แต่ละท่อนนั้น และสามารถนำท่อนเล็กๆ ที่วาดขึ้นมาใหม่มาต่อกันทำให้เกิดภาพใหม่ได้อย่างแนบเนียน

หรือสามารถนำภาพจากสองแหล่งที่มีความแตกต่างกัน มารวมกันแบบกลมกลืนเสมือนเป็นภาพเดียวได้ สังเกตภาพการนำรูปต้นคริสมาสต์มารวมกับภาพภูเขาในรูป

นอกจากนี้ ‘เวทมนต์’ ของ SinGAN คือการสร้าง ‘ชีวิต’ ให้กับรูปภาพ กล่าวคือเราสามารถสร้าง Animation เช่น “ปรากฎการณ์ฟ้าผ่า“ จาก “รูปภาพฟ้าผ่า“ เพียงรูปเดียวได้ โดยอาศัยหลักการการเรียนรู้ท่อนเล็กๆ แต่ละท่อนที่กล่าวในข้างต้น การ present ผลงานนี้ทำเอาผู้เข้าร่วมงานฮืออากันไปทั้งฮอลล์เลยครับ

SinGAN ได้รับรางวัล Best Paper Award หรือสุดยอดผลงานในปีนี้ เป็นของทีมวิจัยจากอิสราเอลร่วมกับ Google Research เพื่อนๆ สามารถเข้าไปดูรายละเอียด ภาพเคลื่อนไหว รวมทั้ง Open Source ได้ที่ http://webee.technion.ac.il/people/tomermic/SinGAN/SinGAN.htm

นอกจากนี้ SinGAN ยังสามารถประยุกต์ใช้งานที่ทั้งหลากหลายและมหัศจรรย์อีกหลายอย่าง อาทิเช่น การเปลี่ยนรูปภาพให้เป็น Animation (หรือที่เจ้าของผลงาน SinGAN ใช้คำพูดว่า “สร้างชีวิต” ให้กับรูปภาพ ลองดูด้วยตนเองครับ

http://www.youtube.com/watch?feature=youtu.be&v=xk8bWLZk4DU

This post was modified 5 years ago 7 times by The Neural Engineer

   
ตอบกลับอ้างอิง
The Neural Engineer
(@neural-engineer)
Honorable Member Admin
เข้าร่วมเมื่อ: 6 years ago
ข้อความ: 400
Topic starter  

Scene Graph Representation and Learning

งานอีกกลุ่มหนึ่งที่กำลังมาแรงมากๆ ใน Computer Vision คือ การทำความเข้าใจความหมายของรูปอย่างแท้จริง (ระดับเดียวกับมนุษย์) ที่เรียกว่า “Learning Scene Graph Representation”

อารัมภบทเล็กน้อยว่า ถึงแม้นงานในไม่กี่ปีที่ผ่านมางานด้าน Vision นั้นพัฒนาไปรวดเร็วมาก การจำแนกภาพต่างๆ รวมทั้งภาพที่ยากมากๆ ทำได้แม่นยำระดับเดียวกับมนุษย์

อย่างไรก็ดีในงานที่ต้องการ ‘’ความเข้าใจ ของรูปอย่างแท้จริงนั้นยังไปได้ไม่ไกลมาก เช่น บรรยายรูปภาพด้วยภาษามนุษย์(Image Captioning) หรือ ตอบคำถามต่างๆ ที่เกี่ยวกับรูปภาพ (Visual Q&A)

จากประเด็นนี้ทีมวิจัยจาก Stanford จึงเป็นตัวตั้งตัวตีในการงานวิจัยกลุ่มใหม่ที่เรียกกว่า “Scene Graph” นี้เอง โดย Scene Graph นั้นคือ Graph ของวัตถุต่างๆ ที่อยู่ในรูปที่เราสนใจเช่นจากรูปตัวอย่าง

โมเดลจะทำการเรียนรู้วัตถุต่างๆ และความสัมพันธ์ของวัตถุในรูป เช่น ม้า-ลาก-รถเลื่อน คน-นั่งบน-รถเลื่อน และนำวัตถุและความสัมพันธ์นี้มาแสดงเป็น Graphทำให้เราสามารถสรุป Contents ที่สำคัญทั้งหมดของรูปภาพได้จาก Scene Graph นี่เอง

งาน Scene Graph นี้พลิกมิติของการทำงานด้าน Image Captioning , Visual Q&A รวมทั้งงานอื่นๆ ที่เกี่ยวข้องกับ รูปภาพและภาษาไปอย่างมาก

โดยการเรียนความรู้จากภาพด้วย Scene Graph นี้ทำให้เกิด Convolutional Neural Networks (CNNs) ประเภทใหม่ขึ้นมาด้วย ที่เรียกว่า “Graph CNN” ที่ทำ Convolutional Operator บนกราฟโดยตรง

เพื่อนๆ ที่สนใจเข้าไปดูรายละเอียด Scene Graph Workshops ของ ICCV 2019 ได้ที่นี่ครับ :

https://cs.stanford.edu/people/ranjaykrishna/sgrl/index.html

This post was modified 5 years ago by The Neural Engineer

   
ตอบกลับอ้างอิง
Page 1 / 3
Share: