Qwen2.5-VL 7B Instruct vom Qwen Team ist ein hochentwickeltes multimodales großes Sprachmodell, das für überragendes visuelles Verständnis konzipiert wurde. Es erreicht Spitzenleistungen bei verschiedenen visuellen Benchmarks, darunter MathVista, DocVQA, RealWorldQA und MTVQA, und demonstriert ein außergewöhnliches Verständnis von Bildern unabhängig von Auflösung oder Seitenverhältnis. Neben statischen Bildern kann Qwen2.5-VL 7B Instruct Videos von über 20 Minuten verstehen, was hochwertige videobasierte Fragenbeantwortung, Dialoge und Inhaltserstellung ermöglicht. Seine fortschrittlichen Denk- und Entscheidungsfähigkeiten ermöglichen es ihm, als Agent zu fungieren und mobile Geräte oder Roboter basierend auf visuellen Umgebungen und Textanweisungen zu bedienen. Das Modell bietet auch robuste mehrsprachige Unterstützung und versteht Texte in Bildern in zahlreichen Sprachen, darunter europäische Sprachen, Japanisch, Koreanisch, Arabisch und Vietnamesisch. Es verfügt über ein Kontextfenster von 32K Token und eine maximale Ausgabe von 4K Token, der Preis beträgt $0.20/0.20 pro 1M Token (Eingabe/Ausgabe). Greifen Sie kostenlos auf dieses leistungsstarke Vision-Modell auf Multi AI zu. Die Nutzung dieses Modells unterliegt der Tongyi Qianwen LIZENZVEREINBARUNG.
✅ Am besten für
🚀 Fähigkeiten
❌ Einschränkungen
Spezifikationen
| Anbieter | qwen |
| Kontextfenster | 32,768 Token |
| Max. Ausgabe | 4,096 Token |
| Mindestplan | Economy |
Preise
| Eingabepreis | $0.2000 / 1M Token |
| Ausgabepreis | $0.2000 / 1M Token |
💡 Mit PRO-Abo werden die Kosten um 20% reduziert
Bereit, Qwen: Qwen2.5-VL 7B Instruct auszuprobieren?
Erhalten Sie 1.000 Token kostenlos bei der Anmeldung
Kostenlos starten