Qwen3-VL-235B-A22B Instruct是一个开源多模态模型,将强大的文本生成与跨图像和视频的视觉理解相结合。Instruct模型旨在用于通用视觉语言应用,包括视觉问答(VQA)、文档解析、图表/表格提取和多语言光学字符识别(OCR)。该系列强调鲁棒的感知(识别多样化的真实世界和合成类别)、空间理解(2D/3D定位)和长篇视觉理解,在公共多模态基准测试中,无论是感知还是推理都取得了有竞争力的结果。 除了分析,Qwen3-VL还支持代理交互和工具使用:它可以在多图像、多轮对话中遵循复杂的指令;将文本与视频时间线对齐以进行精确的时间查询;并操作GUI元素以进行自动化任务。这些模型还支持视觉编码工作流程——将草图或模型转换为代码并协助UI调试——同时保持与旗舰Qwen3语言模型相当的强大纯文本性能。这使得Qwen3-VL适用于文档AI、多语言OCR、软件/UI辅助、空间/具身任务以及视觉语言代理研究等生产场景。 主要规格包括262K tokens的上下文窗口和4K tokens的最大输出。它支持视觉、函数、代码和流式传输功能。定价具有竞争力,输入/输出每1M tokens分别为0.20美元/1.20美元,可在PRO访问层级使用。
78%质量
262K上下文窗口
70%速度
✅ 最适合
聊天
代码生成
数学
🚀 能力
视觉
函数
代码
流式传输
❌ 限制
不支持图像生成
无互联网访问
规格
| 提供商 | qwen |
| 上下文窗口 | 262,144 代币 |
| 最大输出 | 4,096 代币 |
| 最低套餐 | 高级 |
价格
| 输入价格 | $0.2000 / 1M 代币 |
| 输出价格 | $1.2000 / 1M 代币 |
💡 PRO订阅可享20%折扣