Q3
高级

Qwen: Qwen3 VL 235B A22B Instruct

来自 qwen

Qwen3-VL-235B-A22B Instruct是一个开源多模态模型,将强大的文本生成与跨图像和视频的视觉理解相结合。Instruct模型旨在用于通用视觉语言应用,包括视觉问答(VQA)、文档解析、图表/表格提取和多语言光学字符识别(OCR)。该系列强调鲁棒的感知(识别多样化的真实世界和合成类别)、空间理解(2D/3D定位)和长篇视觉理解,在公共多模态基准测试中,无论是感知还是推理都取得了有竞争力的结果。 除了分析,Qwen3-VL还支持代理交互和工具使用:它可以在多图像、多轮对话中遵循复杂的指令;将文本与视频时间线对齐以进行精确的时间查询;并操作GUI元素以进行自动化任务。这些模型还支持视觉编码工作流程——将草图或模型转换为代码并协助UI调试——同时保持与旗舰Qwen3语言模型相当的强大纯文本性能。这使得Qwen3-VL适用于文档AI、多语言OCR、软件/UI辅助、空间/具身任务以及视觉语言代理研究等生产场景。 主要规格包括262K tokens的上下文窗口和4K tokens的最大输出。它支持视觉、函数、代码和流式传输功能。定价具有竞争力,输入/输出每1M tokens分别为0.20美元/1.20美元,可在PRO访问层级使用。

视觉AI多模态代码生成OCR代理AI
78%质量
262K上下文窗口
70%速度
分类
标准
API访问
统一上下文
RAG + Knowledge Base
24/7支持
试用此模型比较模型

最适合

聊天
代码生成
数学

🚀 能力

视觉
函数
代码
流式传输

限制

不支持图像生成
无互联网访问

规格

提供商qwen
上下文窗口262,144 代币
最大输出4,096 代币
最低套餐高级

价格

输入价格$0.2000 / 1M 代币
输出价格$1.2000 / 1M 代币

💡 PRO订阅可享20%折扣

准备好试用 Qwen: Qwen3 VL 235B A22B Instruct 了吗?

注册即可获得1,000个免费代币

免费开始