AI Berulah Lagi, Kali Ini Ada Microsoft Vasa-1

Sumber: microsoft.com

Bayangkan, jika kamu punya foto seseorang, kemudian foto tersebut bisa berbicara dan bernyanyi. Hal ini bisa jadi kenyataan karena hadirnya Microsoft VASA-1, teknologi AI canggih yang bisa menghidupkan foto wajah manusia.

Mengenal lebih jauh Microsoft VASA-1

VASA-1 merupakan model AI yang dikembangkan oleh Microsoft Research. Teknologi ini mampu menghasilkan video real-time dari foto wajah manusia, di mana wajah tersebut dapat bergerak, berbicara, dan bernyanyi sesuai dengan audio yang diberikan. 

VASA-1 bekerja dengan cara menganalisis foto wajah manusia dan memetakan berbagai fitur wajah seperti mata, hidung, dan mulut. Kemudian, AI tersebut menggunakan model pembelajaran mesin untuk memprediksi bagaimana wajah tersebut akan bergerak dan berbicara sesuai dengan audio yang diberikan.

Keunggulan VASA-1

VASA-1 memiliki beberapa keunggulan dibandingkan dengan teknologi AI lainnya yang serupa, antara lain:

  • Real-time: VASA-1 dapat menghasilkan video secara real-time, tanpa memerlukan proses rendering yang lama.
  • Presisi: VASA-1 mampu menghasilkan gerakan wajah yang sangat presisi dan sinkron dengan audio.
  • Nuansa: VASA-1 dapat menangkap berbagai nuansa wajah manusia, seperti ekspresi dan gerakan kepala yang alami.

Berikut contoh hasil generate image dari Microsoft VASA-1

Contoh dengan input audio berdurasi satu menit.
Sumber: microsoft.com
Hasil generate pada skala jarak kepala yang berbeda
Sumber: microsoft.com
Out-of-distribution generalization
Sumber: microsoft.com
Pengeditan pose dan ekspresi (hasil pembuatan mentah, hasil pose saja, hasil ekspresi saja, dan ekspresi dengan pose berputar)
Sumber: microsoft.com

Leave a Reply

Your email address will not be published. Required fields are marked *