Jakarta, prestasikaryamandiri.co.id – Microsoft Research Asia telah meluncurkan perangkat eksperimental kecerdasan buatan (AI) bernama VASA-1 yang dapat mengambil foto atau gambar diam dan file audio yang ada untuk membuat video.

Merujuk Endgadget Minggu (21/4/2024), perangkat AI tersebut dapat menampilkan video seseorang berbicara hanya dari foto dan sampel suara.

VASA-1 disebut mampu menghasilkan ekspresi wajah dan gerakan kepala dari foto orang, serta gerakan bibir yang sesuai dengan suara percakapan atau lagu.

Peneliti juga telah menggunakan banyak contoh dan mengunggahnya di halaman proyek. Hasilnya terlihat bagus sehingga bisa mengelabui orang agar mengira itu nyata.

Meski gerakan kepala dan bibir dalam video sampel masih terlihat seperti robot dan tidak sinkron jika dilihat dari dekat, namun teknologi tersebut dapat dengan mudah disalahgunakan untuk membuat video manusia palsu.

Para peneliti menyadari potensi bahaya dan memutuskan untuk tidak merilis alat demo online, API, produk, rincian implementasi tambahan, dan masalah terkait lainnya sampai mereka yakin bahwa teknologi tersebut akan digunakan secara bertanggung jawab dan sesuai dengan peraturan.

Para peneliti meyakini VASA-1 memiliki banyak manfaat meski berpotensi disalahgunakan. Namun, teknologi ini dapat digunakan untuk meningkatkan pemerataan pendidikan, meningkatkan aksesibilitas bagi orang-orang yang memiliki tantangan komunikasi, dan menyediakan mitra percakapan dan dukungan terapeutik bagi mereka yang membutuhkannya.

Menurut publikasi ilmiah mengenai teknologi tersebut, VASA-1 dilatih menggunakan kumpulan data VoxCeleb2 yang berisi lebih dari satu juta ucapan untuk 6.112 selebriti yang diambil dari video YouTube.

Meski dilatih menggunakan karakter nyata, VASA-1 juga dapat mengerjakan gambar artistik seperti Mona Lisa, yang peneliti gabungkan dengan file audio aktris Anne Hathaway.

Kiriman serupa

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *