📌 OpenAI gerçek zamanlı muhakeme, çeviri ve transkripsiyon yapabilen ses sistemlerini tanıttı
– OpenAI gerçek zamanlı muhakeme, çeviri ve transkripsiyon yapabilen ses modellerini tanıttı.
OpenAI, API’sine üç adet gerçek zamanlı ses modeli ekledi.
Ses modelleri 70 dilde girişi destekliyor ve anında transkripsiyon için GPT-Realtime-Whisper kullanıyor.
Translate ve Whisper dakika başına ücretlendirilirken, GPT-Realtime-2 tokenize ediliyor.
Çarşamba günü OpenAI, API’sinde yeni nesil ses modellerini duyurdu ve geliştiricilere ses isteklerini mantıksal olarak işleyebilen, 70 zarfa çevirebilen ve konuşmayı olduğu gibi metne dönüştürebilen uygulamalar oluşturmaları için araçlar sağladı.
Üç model GPT-Realtime-2, GPT-Realtime-Translate ve GPT-Realtime-Whisper olarak adlandırıldı. Yapay zeka sesli arayüzlerini sadece soru ve cevap alışverişinin ötesine taşıyarak, yapay zeka asistanının diyaloğu dinlemesine, düşünmesine ve harekete geçmesine olanak tanıyor.
GPT-Realtime-2 gelişmiş bir gelişmedir. OpenAI, GPT-Realtime-1.5’ten önemli bir adım olan GPT-5 düzeyinde muhakeme yetenekleri sağladığını iddia ediyor.
Bu model, bir ses zekası kıyaslaması olan Big Bench Audio’da 15% ,2 ve uzun bir diyalogda yönergeleri takip etmeyi test eden Audio MultiChallenge’da 13% ,8 daha yüksek puan aldı.
Pratik iyileştirmeler ses aracısı yaratıcılarını hedefliyor. Model artık önceki 32KB sınırının dört katı olan 128KB’lık bir bağlam penceresine sahip ve “minimum” ile “maksimum” arasında beş seviyeli özelleştirilebilir muhakeme karmaşıklığı sunuyor.
Aynı anda birden fazla aracı başlatabilir, sesli onay yoluyla arızaları ele alabilir ve bir istek işlenirken “kontrol edeyim” gibi kısa, tutarlı ifadeler sağlayabilir.
GPT-Realtime-Translate, sözlü konuşmanın gerçek zamanlı çevirisini sağlar. 70’in üzerinde giriş zarfını kabul eder ve konuşmacının hızına ayak uydurmak için sonucu 13’te çıkarır.
GPT-Realtime-Whisper, konuşmadan metne (STT) akış sağlar ve cümlenin sonunu beklemeden konuşulanları anında dönüştürür.
Bazı kuruluşlar şimdiden erken erişim hakkı elde etti. Zillow, karmaşık emlak sorularını ele alabilen, listeleme arama işlevleriyle aramaları yönetebilen ve Adil Konut standartlarına uyabilen bir sesli asistan geliştiriyor.
Şirket, GPT-Realtime-2 ile operasyonel iyileştirmenin ardından en zor karşılaştırma testinde çağrı başarı oranında 26 puanlık bir artış bildirdi ve önceki yüzde 69’a kıyasla yüzde 95’e ulaştı.
Deutsche Telekom, yardım masası için anında çeviriyi test ediyor ve model her iki tarafın bilgi alışverişini gerçekleştirirken arayanların tercih ettikleri dilde konuşmalarına izin veriyor.
Priceline, yolcular için uçak bileti aramalarını, otel rezervasyonlarını ve anlık çeviri taleplerini tek bir görüşmede halledebilecek bir sesli asistan oluşturmayı düşünüyor.
Bu modeller müşteri hizmetlerini iyileştirmek isteyen işletmeleri hedefliyor, ancak öğrenme, medya, etkinlikler ve içerik yazma platformlarındaki potansiyelleri de lanse ediliyor.
OpenAI, yeni modellerde bir içerik denetleme mekanizması uyguladığını söyledi: kötü niyetli içerik için politika ihlalleri tespit edildiğinde tetikleyiciler diyaloğu kesebilir. Şirket bu önlemleri spam, aldatma ve diğer kötüye kullanım biçimlerine karşı bir savunma olarak nitelendirdi.
Fiyatlandırmaya gelince, Translate ve Whisper modelleri saat başına ücretlendiriliyor. GPT-Realtime-2 kullanılan token başına ücretlendirilir. Her üç model de OpenAI’nin WebRTC, WebSocket ve SIP bağlantıları üzerinden erişilen Realtime API’si aracılığıyla kullanılabilir.