Compass Investments

Crypto vs. Dollar

📌 OpenAI introduce sistemas de voz capaces de razonar, traducir y transcribir en tiempo real

OpenAI ha introducido modelos de voz capaces de razonar, traducir y transcribir en tiempo real. . Token

– OpenAI ha introducido modelos de voz capaces de razonar, traducir y transcribir en tiempo real.

OpenAI ha introducido en su API tres modelos de voz en tiempo real.

Los modelos de voz admiten entradas en 70 idiomas y utilizan GPT-Realtime-Whisper para la transcripción instantánea.

Translate y Whisper se cobran por minuto, mientras que GPT-Realtime-2 se cobra por token. El miércoles, OpenAI anunció una nueva generación de modelos de voz en su API, dando a los desarrolladores las herramientas para construir aplicaciones que puedan procesar lógicamente las peticiones de voz, traducir en 70 adverbios y convertir el habla en texto a medida que sucede.

Los tres modelos se denominan GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper. Llevan las interfaces de voz de IA más allá del mero intercambio de preguntas y respuestas, al permitir que el asistente de IA escuche, piense y actúe en el diálogo. GPT-Realtime-2 es un desarrollo avanzado. OpenAI afirma que ofrece capacidades de razonamiento del nivel GPT-5, lo que supone un notable avance respecto a su predecesor, GPT-Realtime-1.5.

Este modelo obtuvo un 15,2% más de puntuación en Big Bench Audio, una prueba comparativa de inteligencia de audio, y un 13,8% más en Audio MultiChallenge, que evalúa el seguimiento de instrucciones en un diálogo largo.

Las mejoras prácticas están dirigidas a los creadores de agentes de voz. El modelo tiene ahora una ventana contextual de 128 KB, cuatro veces más que el límite anterior de 32 KB, y ofrece cinco niveles de complejidad de razonamiento personalizables, del “mínimo” al “máximo”.

Puede iniciar varias herramientas a la vez, gestionar fallos mediante confirmación de voz y proporcionar frases cortas y coherentes como “déjame comprobar” mientras se procesa una solicitud.

GPT-Realtime-Translate ofrece traducción en tiempo real de voz hablada. Acepta más de 70 adverbios de entrada y emite el resultado en 13 para adaptarse a la velocidad del hablante.

GPT-Realtime-Whisper proporciona transmisión de voz a texto (STT), convirtiendo lo hablado inmediatamente sin esperar al final de la frase.

Varias organizaciones ya han recibido acceso anticipado. Zillow está desarrollando un asistente de voz capaz de atender consultas inmobiliarias complejas, gestionar llamadas con funciones de búsqueda de listados y cumplir las normas de Vivienda Justa.

la empresa informó de un aumento de 26 puntos en la tasa de éxito de llamadas en la prueba de referencia más difícil tras el perfeccionamiento operativo con GPT-Realtime-2, alcanzando el 95 por ciento frente al 69 por ciento anterior.

Deutsche Telekom está probando la traducción instantánea para su servicio de asistencia, lo que permite a los llamantes hablar en su idioma preferido mientras el modelo gestiona el intercambio de información de ambas partes.

Priceline estudia crear un asistente de voz para viajeros que pueda gestionar búsquedas de billetes de avión, reservas de hotel y solicitudes de traducción instantánea en una sola conversación. Estos modelos se dirigen a empresas que buscan mejorar el servicio al cliente, pero también ven potencial en plataformas de formación, medios de comunicación, eventos y autoría de contenidos.

OpenAI dijo que ha implementado un mecanismo de moderación de contenidos en los nuevos modelos: los activadores pueden interrumpir el diálogo cuando se detectan violaciones de la política de contenidos maliciosos. La empresa calificó estas medidas de defensa contra el spam, el engaño y otras formas de uso indebido.

En cuanto a los precios, los modelos Translate y Whisper se cobran por horas. GPT-Realtime-2 se cobra por token utilizado. Los tres modelos están disponibles a través de la API Realtime de OpenAI, a la que se accede mediante conexiones WebRTC, WebSocket y SIP.

Bitcoin

Bitcoin

$62,900.81

BTC -0.32%

Ethereum

Ethereum

$1,674.70

ETH 0.87%

Binance Coin

Binance Coin

$602.54

BNB 1.26%

XRP

XRP

$1.17

XRP 2.48%

Dogecoin

Dogecoin

$0.09

DOGE 0.96%

Cardano

Cardano

$0.17

ADA 3.37%

Solana

Solana

$66.55

SOL 1.48%