Retour aux benchmarks
📊
Analyse
Analyse, résumé
8 modèlesMises à jour hebdomadaires
Exemples de tâches
Exemples de tâches dans cette catégorie
Facile
Sentiment Classification
Classify sentiment of customer reviews.
Difficile
Compare Two Documents
Compare two product descriptions and highlight differences.
Moyen
Data Summary
Analyze data and provide insights.
Classement des modèles
Voir la méthodologie →| Rang | Modèle | Score | Prix/1M | Tâches | |
|---|---|---|---|---|---|
| 🥇 | Qwen3 235B | 93.0 | $0.60 | 1 | |
| 🥈 | GPT-4o Mini | 93.0 | $0.60 | 1 | |
| 🥉 | DeepSeek R1 | 93.0 | $2.19 | 1 | |
| 4 | Qwen3 Max | 93.0 | $1.60 | 1 | |
| 5 | GPT-4o | 90.0 | $10.00 | 1 | |
| 6 | Claude 3.5 Haiku | 87.0 | $4.00 | 1 | |
| 7 | Llama 3.3 70B | 87.0 | $0.40 | 1 | |
| 8 | Gemini 2.0 Flash | 83.0 | $0.40 | 1 |