Compass Investments

Crypto vs. Dollar

📌 OpenAI推出了能够进行实时推理、翻译和转录的语音系统

OpenAI推出了能够进行实时推理、翻译和转录的语音模型. 加密货币交易所

– OpenAI推出了能够进行实时推理、翻译和转录的语音模型。

OpenAI 在其 API 中引入了三种实时语音模型。

这些语音模型支持 70 种语言的输入,并使用 GPT-Realtime-Whisper 进行即时转录。

Translate 和 Whisper 是按分钟收费的,而 GPT-Realtime-2 则是标记化的。

本周三,OpenAI 在其 API 中宣布了新一代语音模型,为开发者提供了构建应用程序的工具,这些应用程序可以从逻辑上处理语音请求,翻译成 70 个副词,并在语音发生时将其转换为文本。

这三种模型被命名为 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。它们使人工智能语音界面超越了简单的问答交流,允许人工智能助手在对话中倾听、思考并采取行动。

GPT-Realtime-2 是一项先进的开发成果。OpenAI 声称,它提供了 GPT-5 级的推理能力,比其前身 GPT-Realtime-1.5 有了显著提升。

该模型在音频智能基准测试 “Big Bench Audio “中的得分提高了 15.2% ,在音频多重挑战中的得分提高了 13.8% 。

实际改进主要针对语音代理创建者。该模型现在有 128KB 的上下文窗口,是以前 32KB 限制的四倍,并提供从 “最小 “到 “最大 “五个级别的可定制推理复杂性。

它可以同时启动多个工具,通过语音确认处理失败,并在处理请求时提供简短、连贯的短语,如 “让我检查一下”。

GPT-Realtime-Translate 提供口语的实时翻译。它可接受 70 多个输入副词,并在 13 秒内输出结果,以跟上说话者的速度。

GPT-Realtime-Whisper 提供语音到文本(STT)流,无需等待句子结束就能立即转换语音内容。

许多组织已经获得了早期使用权。Zillow 公司正在开发一款语音助手,它能够处理复杂的房产咨询,通过列表搜索功能管理呼叫,并符合公平住房标准。

该公司报告称,在使用 GPT-Realtime-2 进行操作改进后,在最困难的基准测试中呼叫成功率提高了 26 个百分点,达到 95% ,而之前为 69% 。

德国电信正在测试其服务台的即时翻译功能,允许呼叫者用自己喜欢的语言通话,同时该模型处理双方的信息交换。

Priceline 正在考虑为旅行者创建一个语音助手,可以在一次对话中处理机票搜索、酒店预订和即时翻译请求。

这些模式针对的是希望改善客户服务的企业,但也看到了培训、媒体、活动和内容创作平台的潜力。

OpenAI表示,它已经在新模型中实施了内容节制机制:当检测到恶意内容违反政策时,触发器可以中断对话。该公司称这些措施是对垃圾邮件、欺骗和其他形式滥用的一种防御。

至于定价,Translate 和 Whisper 模型是按小时收费的。GPT-Realtime-2则按使用的令牌收费。所有三种模式都可通过 OpenAI 的实时 API 使用,可通过 WebRTC、WebSocket 和 SIP 连接访问。

Bitcoin

Bitcoin

$63,425.21

BTC 2.12%

Ethereum

Ethereum

$1,758.68

ETH 0.06%

Binance Coin

Binance Coin

$601.42

BNB -0.05%

XRP

XRP

$1.16

XRP -0.13%

Dogecoin

Dogecoin

$0.09

DOGE -0.39%

Cardano

Cardano

$0.17

ADA -9.53%

Solana

Solana

$68.66

SOL 0.18%