Q3
经济

Qwen: Qwen3 VL 8B Instruct

来自 qwen

Qwen3-VL-8B-Instruct是Qwen3-VL系列中一款尖端的多模态视觉语言模型,专为跨文本、图像和视频等多种数据类型的高保真理解和推理而设计。它融合了Interleaved-MRoPE以实现长时序推理,DeepStack以实现细粒度视觉-文本对齐,以及文本-时间戳对齐以实现精确的事件定位,确保在复杂场景中表现出色。 该模型拥有原生的256K令牌上下文窗口,可扩展至1M令牌,并能熟练处理静态和动态媒体输入。它擅长文档解析、视觉问答、空间推理和GUI控制等任务。它实现了与领先LLM媲美的文本理解能力,将OCR覆盖范围扩展到32种语言,并增强了在各种视觉条件下的鲁棒性。凭借视觉、函数、代码和流媒体等功能,以及每1M令牌(输入/输出)0.08美元/0.50美元的定价,它是一款多功能且强大的工具,可在Multi AI上免费使用。

多模态视觉语言OCR推理免费
67%质量
131K上下文窗口
74%速度
分类
经济
API访问
统一上下文
RAG + Knowledge Base
24/7支持
试用此模型比较模型

最适合

聊天
代码生成
数学

🚀 能力

长上下文
视觉
结构化输出
JSON模式
函数
代码
流媒体

限制

不支持图像生成
无互联网访问

规格

提供商qwen
上下文窗口131,072 代币
最大输出32,768 代币
最低套餐经济

价格

输入价格$0.0800 / 1M 代币
输出价格$0.5000 / 1M 代币

💡 PRO订阅可享20%折扣

准备好试用 Qwen: Qwen3 VL 8B Instruct 了吗?

注册即可获得1,000个免费代币

免费开始