Volver a benchmarks
📊

Análisis

Análisis, resumen

8 modelosActualizaciones semanales

Ejemplos de tareas

Ejemplos de tareas en esta categoría

Fácil

Sentiment Classification

Classify sentiment of customer reviews.

Difícil

Compare Two Documents

Compare two product descriptions and highlight differences.

Medio

Data Summary

Analyze data and provide insights.

Rankings de modelos

Ver metodología
RangoModeloPuntuaciónPrecio/1MTareas
🥇Qwen3 235B93.0$0.601
🥈GPT-4o Mini93.0$0.601
🥉DeepSeek R193.0$2.191
4Qwen3 Max93.0$1.601
5GPT-4o90.0$10.001
6Claude 3.5 Haiku87.0$4.001
7Llama 3.3 70B87.0$0.401
8Gemini 2.0 Flash83.0$0.401