Compass Investments OpenAI introduit des systèmes vocaux capables

📌 OpenAI introduit des systèmes vocaux capables de raisonnement, de traduction et de transcription en temps réel

OpenAI a introduit des modèles vocaux capables de raisonnement, de traduction et de transcription en temps réel. - OpenAI a introduit trois modèles vocaux en temps réel dans son API. . Op

– OpenAI a introduit des modèles vocaux capables de raisonnement, de traduction et de transcription en temps réel. – OpenAI a introduit trois modèles vocaux en temps réel dans son API.

Les modèles vocaux prennent en charge la saisie dans 70 langues et utilisent GPT-Realtime-Whisper pour une transcription instantanée.

Translate et Whisper sont facturés à la minute, tandis que GPT-Realtime-2 est facturé par jeton.

Mercredi, OpenAI a annoncé une nouvelle génération de modèles vocaux dans son API, donnant aux développeurs les outils nécessaires pour créer des applications capables de traiter logiquement les requêtes vocales, de traduire en 70 adverbes et de convertir la parole en texte au fur et à mesure.

Les trois modèles s’appellent GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper. Ils permettent aux interfaces vocales de l’IA d’aller au-delà du simple échange de questions et de réponses en permettant à l’assistant d’écouter, de réfléchir et d’agir en fonction du dialogue.

GPT-Realtime-2 est un développement avancé. OpenAI affirme qu’il offre des capacités de raisonnement de niveau GPT-5, ce qui constitue une avancée notable par rapport à son prédécesseur, GPT-Realtime-1.5.

Ce modèle a obtenu un score supérieur de 15,2 % au Big Bench Audio, un test d’intelligence audio, et de 13,8 % à l’Audio MultiChallenge, qui teste le suivi des instructions dans un long dialogue.

Les améliorations pratiques sont destinées aux créateurs d’agents vocaux. Le modèle dispose désormais d’une fenêtre contextuelle de 128 Ko, soit quatre fois plus que la limite précédente de 32 Ko, et offre cinq niveaux de complexité de raisonnement personnalisables, de “minimum” à “maximum”.

Il peut lancer plusieurs outils à la fois, gérer les échecs par le biais d’une confirmation vocale et fournir des phrases courtes et cohérentes telles que “laissez-moi vérifier” pendant le traitement d’une demande.

GPT-Realtime-Translate fournit une traduction en temps réel de la parole. Il accepte plus de 70 adverbes en entrée et produit le résultat en 13 pour suivre la vitesse de l’orateur.

GPT-Realtime-Whisper fournit un flux de parole en texte (STT), convertissant ce qui est dit immédiatement sans attendre la fin d’une phrase.

Un certain nombre d’organisations ont déjà bénéficié d’un accès anticipé. Zillow est en train de développer un assistant vocal capable de traiter des demandes de renseignements complexes sur les biens immobiliers, de gérer les appels avec des fonctions de recherche d’annonces et de respecter les normes en matière de logement équitable.

L’entreprise a enregistré une augmentation de 26 points du taux de réussite des appels sur le test de référence le plus difficile après l’amélioration opérationnelle de GPT-Realtime-2, atteignant 95 % contre 69 % auparavant.

Deutsche Telekom teste la traduction instantanée pour son service d’assistance, permettant aux appelants de s’exprimer dans la langue de leur choix tandis que le modèle gère l’échange d’informations des deux côtés.

Priceline envisage de créer un assistant vocal pour les voyageurs, capable de gérer les recherches de billets d’avion, les réservations d’hôtel et les demandes de traduction instantanée en une seule conversation.

Ces modèles sont destinés aux entreprises qui cherchent à améliorer le service à la clientèle, mais ils présentent également un potentiel dans les domaines de la formation, des médias, des événements et des plateformes de création de contenu.

OpenAI a déclaré avoir mis en place un mécanisme de modération du contenu dans les nouveaux modèles : des déclencheurs peuvent interrompre le dialogue lorsque des violations de la politique sont détectées pour des contenus malveillants. L’entreprise a qualifié ces mesures de défense contre le spam, la tromperie et d’autres formes d’abus.

En ce qui concerne la tarification, les modèles Translate et Whisper sont facturés à l’heure. GPT-Realtime-2 est facturé par jeton utilisé. Les trois modèles sont disponibles via l’API temps réel d’OpenAI, accessible via des connexions WebRTC, WebSocket et SIP.