平衡

Qwen: Qwen3 VL 235B A22B Instruct

Name: Qwen: Qwen3 VL 235B A22B Instruct
Brand: qwen
Price: 200 USD
Rating: 3.9 (1 reviews)

Qwen3-VL-235B-A22B Instruct是一个开源多模态模型，将强大的文本生成与跨图像和视频的视觉理解相结合。Instruct模型旨在用于通用视觉语言应用，包括视觉问答（VQA）、文档解析、图表/表格提取和多语言光学字符识别（OCR）。该系列强调鲁棒的感知（识别多样化的真实世界和合成类别）、空间理解（2D/3D定位）和长篇视觉理解，在公共多模态基准测试中，无论是感知还是推理都取得了有竞争力的结果。除了分析，Qwen3-VL还支持代理交互和工具使用：它可以在多图像、多轮对话中遵循复杂的指令；将文本与视频时间线对齐以进行精确的时间查询；并操作GUI元素以进行自动化任务。这些模型还支持视觉编码工作流程——将草图或模型转换为代码并协助UI调试——同时保持与旗舰Qwen3语言模型相当的强大纯文本性能。这使得Qwen3-VL适用于文档AI、多语言OCR、软件/UI辅助、空间/具身任务以及视觉语言代理研究等生产场景。主要规格包括262K tokens的上下文窗口和4K tokens的最大输出。它支持视觉、函数、代码和流式传输功能。定价具有竞争力，输入/输出每1M tokens分别为0.20美元/1.20美元，可在PRO访问层级使用。

视觉AI多模态代码生成OCR代理AI

78%质量

262K上下文窗口

70%速度

分类

经济

✓API访问

✓统一上下文

✓RAG + Knowledge Base

✓24/7支持

试用此模型比较模型