OpenAI 的 GPT-4o-audio-preview 模型为音频输入作为提示提供了强大的支持。这一重大增强使模型能够以卓越的准确性处理和理解口语,检测录音中的细微差别。此功能为生成的用户体验增添了相当大的深度,使其成为需要复杂音频分析和解释的应用程序的理想选择。 GPT-4o Audio 专为 PRO 访问设计,拥有 128K 令牌的巨大上下文窗口和 8K 令牌的最大输出。它支持流式传输、音频输入、函数和结构化输出。定价具有竞争力,输入令牌每百万 $2.50,输出令牌每百万 $10.00。虽然它在理解音频方面表现出色,但请注意目前不支持音频输出。在 Multi AI 上利用其强大功能,实现卓越的转录和音频驱动的 AI 应用程序。
95%质量
128K上下文窗口
70%速度
✅ 最适合
转录
音频分析
语音理解
🚀 能力
长上下文
结构化输出
JSON模式
语音合成
音频输入
函数
流式传输
❌ 限制
无音频输出
规格
| 提供商 | openai |
| 上下文窗口 | 128,000 代币 |
| 最大输出 | 16,384 代币 |
| 最低套餐 | 高级 |
价格
| 输入价格 | $2.5000 / 1M 代币 |
| 输出价格 | $10.0000 / 1M 代币 |
💡 PRO订阅可享20%折扣