Qwen3-VL-32B-Instruct 是一款尖端的大规模多模态视觉语言模型,经过精心设计,可在文本、图像和视频等多种数据类型上实现无与伦比的理解和推理。凭借令人印象深刻的320亿参数,该模型将深度视觉感知与先进的文本理解能力无缝结合。它在细粒度空间推理、全面的文档和场景分析以及长时序视频理解方面表现出色,使其成为复杂现实世界应用的理想选择。 该模型支持32种语言的强大OCR功能,并利用Interleaved-MRoPE和DeepStack架构等先进的多模态融合技术来增强性能。Qwen3-VL-32B 针对智能体交互和视觉工具使用进行了优化,为各种复杂的跨模态任务提供了最先进的性能。它提供了一个262K tokens的巨大上下文窗口,并以每1M tokens(输入/输出)0.50美元/1.50美元的竞争性价格在PRO访问层提供。
50%质量
262K上下文窗口
50%速度
✅ 最适合
空间推理
文档分析
视频理解
智能体交互
🚀 能力
流式输出
视觉能力
长上下文窗口
规格
| 提供商 | qwen |
| 上下文窗口 | 262,144 代币 |
| 最低套餐 | 高级 |
价格
| 输入价格 | $0.5000 / 1M 代币 |
| 输出价格 | $1.5000 / 1M 代币 |
💡 PRO订阅可享20%折扣