Perkenalkan Voicebox, AI Generatif Audio dari Meta Inc

Meta baru-baru ini merilis salah satu pengembangan Artificial Intellegent atau AI baru mereka yang mana dikhususnya untuk pengenalan audio, melalui Voicebox penggunanya akan terbantu khususnya mereka tunanetra untuk mendengarkan pesan tertulis yang diubah menjadi suara.

Voicebox sendiri dikembangkan untuk memberikan bantuan kepada kreator agar dapat membuat sebuah tugas penting seperti menggunakan fitur Speech Generation Task (Audio Editor) hingga Stylising dan Sampling.

Pengembangan dari program ini memang memberikan dukungan teknologi yang tinggi, di mana salah satunya memberikan akses kepada kreator untuk dapat dengan mudah mendapatkan audio dengan kuaitas suara yang sangat tinggi.

Misalnya, ketika kreator tersebut sedang merekam suara namun terhalang dengan beberapa Noise atau gangguan, maka kreator dapat dengan mudah menghapusnya. Jadi, kualitas audio tetap bertahan karena dibekali dengan AI yang mampu bekerja untuk memindai audio dari gangguan yang tentunya tidak diinginkan.

Berani menantang AI lainnya, Meta bahkan merilis sebuah perbandingan yang menampilkan bahwa Voicebox bahkan lebih unggul untuk mendeteksi perbandingan kesalahan kata yang ada ketimbang beberapa kompetitornya seperti YouTTS hingga Vall-E.

Pengembangan Voicebox bahkan akan dilatih dalam kurung waktu 50.000 jam untuk membuat transkrip Audiobook, bahkan beberapa domain publik lainnya dalam berbagai macam bahasa seperti Bahasa Inggris, Portugis hingga Jerman dan Spanyol.

“There are many exciting use cases for generative speech models, but because of the potential risks of misuse, we are not making the Voicebox model or code publicly available at this time.

While we believe it is important to be open with the AI community and to share our research to advance the state of the art in AI, it’s also necessary to strike the right balance between openness with responsibility.

With these considerations, today we are sharing audio samples and a research paper detailing the approach and results we have achieved. In the paper, we also detail how we built a highly effective classifier that can distinguish between authentic speech and audio generated with Voicebox.” Tambah Meta.

Menurut penjelasan Meta, untuk saat ini mereka belum siap merilis Voicebox untuk semua pengguna dan hanya memberikannya untuk beberapa pengguna terpilih saja. Bagaimana menurutmu?

Editor: Hudalil Mustakim