ANDALPOST.COM – Meta Platforms, perusahaan asal Amerika Serikat (AS) milik Mark Zuckerberg mengumumkan rilisnya ‘Voicebox’, sebuah generatif AI untuk percakapan, Jumat (16/06/2023).
Diketahui, Voicebox ini merupakan model AI untuk penggunaan text to speech yang bersifat generatif. Alhasil, model tersebut dapat membantu dalam mengedit audio, sampling, dan styling.
Selain itu, Voicebox juga dapat memproduksi klip audio yang berkualitas tinggi dan mengedit audio yang sudah direkam sebelumnya.
Model AI itu, tentunya dapat menghilangkan suara atau memperbaiki konten dalam audio. Selain itu, model ini juga memiliki sifat multilingual dan dapat menghasilkan enam bahasa sampai saat ini.
Voicebox: Generatif AI untuk Speech
Melalui blog Meta, terdapat empat fitur Voicebox yang ditekankan dalam penggunaannya. Antara lain, in-context text-to-speech synthesis (kapabilitas dari teks ke percakapan), pengeditan percakapan dan penghapusan suara.
Selain itu, ada cross-lingual style transfer (multi bahasa) dan diverse speech sampling (contoh percakapan yang beraneka).
Pertama, untuk fitur produksi dari teks ke percakapan, Voicebox ini dapat menghasilkan suara dengan contoh rekaman audio yang berdurasi dua detik saja.
Percakapan yang direkam, akan menghasilkan gaya percakapan yang sesuai dengan pilihan pengguna.
Kedua, untuk fitur pengeditan percakapan dan penghapusan suara, Voicebox dapat memperbaiki beberapa konten dalam klip audio, yang diganggu oleh suara atau eror.
Tentunya, pengeditan dapat dilakukan tanpa harus membuat ulang rekaman klip audio tersebut. Dan, alur dan suara pengguna pun masih bersifat alami.
Contohnya, seperti ketika sebuah audio ada suara yang mengganggu percakapan pengguna, fitur ini dapat menghilangkan suara yang ganggu tersebut.
Ketiga, fitur multi bahasa ini, digunakan untuk meningkatkan kapabilitas Voicebox dalam penggunaannya untuk enam bahasa asing. Seperti Inggris, Prancis, Jerman, Spanyol, Polandia, dan Portugal.
Alhasil, ketika diberikan suatu sampel percakapan seseorang dan teks dalam enam bahasa tersebut, Voicebox dapat menghasilkan speech dalam enam bahasa tersebut.
Keempat, untuk fitur diverse speech sampling. Karena Meta sudah mengambil berbagai contoh dan beragam data percakapan yang ada.
Melalui fitur-fitur tersebutlah voicebox dapat menghasilkan berbagai speech atau percakapan yang didengar secara alami tanpa kelihatan seperti ‘robot’. Tentunya, dalam enam bahasa yang sudah diterbitkan sebelumnya.
Pendekatan Model VoiceBox
Diambil dari terbitan riset Meta akan pendekatan Voicebox, perusahaan tersebut menggunakan Flow Matching sebagai fondasi dari model AI itu.
Alhasil, Flow Matching merupakan model non-autoregressive generative Meta, yang dapat mempelajari non-deterministic mapping antara teks dan percakapan (speech).
Mapping non determinan tersebut, digunakan agar Voicebox dapat belajar dari berbagai data percakapan tanpa perlu adanya pelabelan data percakapan tersebut.
Dengan itu, Voicebox memiliki kapabilitas untuk belajar dari beraneka data dalam skala besar. Ini, merupakan kemajuan dari berbagai batasan yang dimiliki oleh beberapa aplikasi penghasil suara berbasis teks sebelumnya.
Dilaporkan, Meta sendiri telah mengambil sekitar 50.000 jam data rekaman percakapan di bawah kegunaan publik (public domain use) untuk melatih Voicebox. Tentunya, dari enam bahasa yang sudah dijelaskan sebelumnya.
Alhasil, itu memperbolehkan Voicebox untuk memprediksi bagian-bagian percakapan dalam sebuah rekaman klip audio, sesuai dengan konteks dan transkrip percakapan.
Simak selengkapnya di halaman berikutnya.