GLM-4.6V 是一款尖端的大型多模态模型,专为卓越的视觉理解和高级长上下文推理而设计。它擅长处理各种输入,包括图像、复杂文档和混合媒体,使其成为复杂分析任务的理想选择。 该模型拥有 131K tokens 的大上下文窗口和 4K tokens 的最大输出,使其能够处理大量信息。它直接将复杂的页面布局和图表作为视觉输入进行处理,并集成了原生多模态函数调用,将感知与下游工具执行无缝连接。此外,GLM-4.6V 还支持交错的图像-文本生成和 UI 重建工作流程,包括屏幕截图到 HTML 的合成和迭代视觉编辑。定价为每 1M 输入 tokens 0.30 美元,每 1M 输出 tokens 0.90 美元,可通过 STARTER 级别访问。
70%质量
131K上下文窗口
70%速度
✅ 最适合
分析
文档处理
视觉推理
🚀 能力
长上下文
视觉
结构化输出
JSON模式
函数
代码
流式传输
视频理解
❌ 限制
不支持图像生成
规格
| 提供商 | z-ai |
| 上下文窗口 | 131,072 代币 |
| 最大输出 | 131,072 代币 |
| 最低套餐 | 平衡 |
价格
| 输入价格 | $0.3000 / 1M 代币 |
| 输出价格 | $0.9000 / 1M 代币 |
💡 PRO订阅可享20%折扣