Compass Investments

Crypto vs. Dollar

📌 OpenAI introduz sistemas de voz capazes de raciocínio, tradução e transcrição em tempo real

A OpenAI introduziu modelos de voz capazes de raciocínio, tradução e transcrição em tempo real. . Uma

– A OpenAI introduziu modelos de voz capazes de raciocínio, tradução e transcrição em tempo real.

A OpenAI introduziu três modelos de voz em tempo real na sua API.

Os modelos de voz suportam entradas em 70 idiomas e utilizam o GPT-Realtime-Whisper para transcrição instantânea.

O Translate e o Whisper são cobrados por minuto, enquanto o GPT-Realtime-2 é tokenizado. Na quarta-feira, a OpenAI anunciou uma nova geração de modelos de voz na sua API, dando aos programadores as ferramentas para criar aplicações capazes de processar logicamente os pedidos de voz, traduzir em 70 advérbios e converter o discurso em texto à medida que este acontece.

Os três modelos são denominados GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper. Levam as interfaces de voz de IA para além da simples troca de perguntas e respostas, permitindo que o assistente de IA ouça, pense e actue no diálogo.

O GPT-Realtime-2 é um desenvolvimento avançado. A OpenAI afirma que fornece capacidades de raciocínio de nível GPT-5, o que é um avanço notável em relação ao seu antecessor, o GPT-Realtime-1.5.

Este modelo obteve uma pontuação 15,2% superior no Big Bench Audio, um benchmark de inteligência de áudio, e 13,8% superior no Audio MultiChallenge, que testa o seguimento de instruções num diálogo longo.

As melhorias práticas destinam-se aos criadores de agentes de voz. O modelo tem agora uma janela de contexto de 128 KB, quatro vezes mais do que o anterior limite de 32 KB, e oferece cinco níveis de complexidade de raciocínio personalizáveis, do “mínimo” ao “máximo”.

Pode iniciar várias ferramentas ao mesmo tempo, lidar com falhas através de confirmação por voz e fornecer frases curtas e coesas como “deixe-me verificar” enquanto um pedido está a ser processado.

O GPT-Realtime-Translate fornece tradução em tempo real do discurso falado. Aceita mais de 70 advérbios de entrada e produz o resultado em 13 para acompanhar a velocidade do orador.

O GPT-Realtime-Whisper fornece transmissão de fala para texto (STT), convertendo o que é falado imediatamente sem esperar pelo final de uma frase.

Algumas organizações já receberam acesso antecipado. A Zillow está a desenvolver um assistente de voz capaz de lidar com pedidos de informação complexos sobre imóveis, gerir chamadas com funções de pesquisa de listagens e cumprir as normas Fair Housing.

A empresa relatou um aumento de 26 pontos na taxa de sucesso das chamadas no teste de referência mais difícil após o refinamento operacional com o GPT-Realtime-2, atingindo 95% em comparação com os 69% anteriores.

A Deutsche Telekom está a testar a tradução instantânea para o seu serviço de assistência, permitindo que os autores das chamadas falem no seu idioma preferido enquanto o modelo trata da troca de informações de ambos os lados.

A Priceline está a considerar a criação de um assistente de voz para viajantes que possa tratar de pesquisas de bilhetes de avião, reservas de hotéis e pedidos de tradução instantânea numa única conversa. Estes modelos destinam-se a empresas que procuram melhorar o serviço ao cliente, mas também vêem potencial em formação, meios de comunicação, eventos e plataformas de criação de conteúdos.

A OpenAI afirmou ter implementado um mecanismo de moderação de conteúdos nos novos modelos: os accionadores podem interromper o diálogo quando são detectadas violações da política de conteúdos maliciosos. A empresa considerou estas medidas uma defesa contra o spam, o engano e outras formas de utilização indevida.

Quanto aos preços, os modelos Translate e Whisper são cobrados à hora. O GPT-Realtime-2 é cobrado por token utilizado. Todos os três modelos estão disponíveis através da API Realtime da OpenAI, acedida através de ligações WebRTC, WebSocket e SIP.

Bitcoin

Bitcoin

$63,254.51

BTC 1.85%

Ethereum

Ethereum

$1,753.53

ETH -0.23%

Binance Coin

Binance Coin

$600.70

BNB -0.17%

XRP

XRP

$1.16

XRP -0.40%

Dogecoin

Dogecoin

$0.09

DOGE -0.79%

Cardano

Cardano

$0.17

ADA -10.01%

Solana

Solana

$68.42

SOL -0.17%