📌 OpenAI memperkenalkan sistem suara yang mampu melakukan penalaran, penerjemahan, dan transkripsi secara real-time
– OpenAI telah memperkenalkan model suara yang mampu melakukan penalaran, penerjemahan, dan transkripsi secara real-time.
OpenAI telah memperkenalkan tiga model suara real-time pada API-nya.
Model suara ini mendukung input dalam 70 bahasa dan menggunakan GPT-Realtime-Whisper untuk transkripsi instan.
Translate dan Whisper dikenakan biaya per menit, sedangkan GPT-Realtime-2 menggunakan tokenisasi.
Pada hari Rabu, OpenAI mengumumkan model suara generasi baru dalam API-nya, memberikan alat kepada pengembang untuk membangun aplikasi yang secara logis dapat memproses permintaan suara, menerjemahkan ke dalam 70 kata keterangan, dan mengubah ucapan menjadi teks saat terjadi.
Ketiga model tersebut diberi nama GPT-Realtime-2, GPT-Realtime-Translate, dan GPT-Realtime-Whisper. Mereka mengambil antarmuka suara AI lebih dari sekadar bertukar pertanyaan dan jawaban, memungkinkan asisten AI untuk mendengarkan, berpikir, dan bertindak berdasarkan dialog.
GPT-Realtime-2 adalah pengembangan lanjutan. OpenAI mengklaim bahwa ia menyediakan kemampuan penalaran tingkat GPT-5, yang merupakan langkah maju yang penting dari pendahulunya, GPT-Realtime-1.5.
Model ini mendapat nilai 15,2% lebih tinggi pada Big Bench Audio, tolok ukur kecerdasan audio, dan 13,8% lebih tinggi pada Audio MultiChallenge, yang menguji kemampuan mengikuti arahan dalam dialog yang panjang.
Peningkatan praktis ditargetkan pada pembuat agen suara. Model ini sekarang memiliki jendela konteks 128KB, empat kali lipat dari batas 32KB sebelumnya, dan menawarkan lima tingkat kompleksitas penalaran yang dapat disesuaikan, dari “minimum” hingga “maksimum”.
Ini dapat memulai beberapa alat sekaligus, menangani kegagalan melalui konfirmasi suara, dan memberikan frasa pendek dan kohesif seperti “biarkan saya periksa” saat permintaan sedang diproses.
GPT-Realtime-Translate menyediakan terjemahan waktu nyata dari ucapan yang diucapkan. Aplikasi ini menerima lebih dari 70 kata keterangan masukan dan mengeluarkan hasilnya dalam 13 kata keterangan untuk mengimbangi kecepatan pembicara.
GPT-Realtime-Whisper menyediakan streaming ucapan-ke-teks (STT), mengubah apa yang diucapkan dengan segera tanpa menunggu akhir kalimat.
Sejumlah organisasi telah menerima akses awal. Zillow sedang mengembangkan asisten suara yang mampu menangani pertanyaan properti yang kompleks, mengelola panggilan dengan fungsi pencarian daftar dan mematuhi standar Fair Housing.
Perusahaan ini melaporkan peningkatan 26 poin dalam tingkat keberhasilan panggilan pada tes tolok ukur yang paling sulit setelah penyempurnaan operasional dengan GPT-Realtime-2, mencapai 95 persen dibandingkan 69 persen sebelumnya.
Deutsche Telekom sedang menguji terjemahan instan untuk meja bantuannya, yang memungkinkan penelepon untuk berbicara dalam bahasa pilihan mereka sementara model menangani pertukaran informasi dari kedua belah pihak.
Priceline sedang mempertimbangkan untuk membuat asisten suara untuk wisatawan yang dapat menangani pencarian tiket pesawat, pemesanan hotel, dan permintaan terjemahan instan dalam satu percakapan.
Model-model ini ditujukan untuk bisnis yang ingin meningkatkan layanan pelanggan, tetapi juga melihat potensi dalam pelatihan, media, acara, dan platform pembuatan konten.
OpenAI mengatakan telah menerapkan mekanisme moderasi konten dalam model-model baru ini: pemicu dapat menghentikan dialog ketika pelanggaran kebijakan terdeteksi untuk konten berbahaya. Perusahaan menyebut langkah-langkah ini sebagai pertahanan terhadap spam, penipuan, dan bentuk penyalahgunaan lainnya.
Mengenai harga, model Translate dan Whisper dikenakan biaya per jam. GPT-Realtime-2 dikenakan biaya per token yang digunakan. Ketiga model tersebut tersedia melalui API Realtime OpenAI, diakses melalui koneksi WebRTC, WebSocket, dan SIP.