Volver a benchmarks
Metodología de benchmarks
Cómo probamos y evaluamos los modelos IA
Estructura de pruebas
- •40 tareas en 5 categorías
- •10 modelos desde económicos hasta premium
- •Ejecuciones semanales cada lunes a las 02:00 UTC
- •Evaluación LLM-judge por Claude 3.5 Sonnet
Categorías
Sistema de puntuación
Cada tarea se evalúa en una escala de 0-100 por Claude 3.5 Sonnet:
- 90-100: Excelente (perfecto)
- 70-89: Bueno (problemas menores)
- 50-69: Aceptable (defectos)
- 0-49: Malo (fallo)
Puntuación final = promedio de todas las tareas.
Juez LLM
Utilizamos Claude 3.5 Sonnet como juez imparcial para evaluar las respuestas según criterios específicos de cada categoría. Esto permite una evaluación automatizada de la calidad, cumplimiento de la tarea y completitud de la respuesta.
Enfoque: LLM-as-judge with category-specific criteria
Ejemplos reales de nuestras pruebas
codingPuntuación: 93.0/100
FizzBuzz
Entrada de tarea:
Write a Python function that prints numbers from 1 to 15. For multiples of 3, print 'Fizz' instead. For multiples of 5, print 'Buzz'. For multiples of both, print 'FizzBuzz'. Just write the function and call it.
Ejemplo de respuesta del modelo:
Here's a Python function for FizzBuzz:
```python
def fizzbuzz():
for i in range(1, 16):
if i % 3 == 0 and i % 5 == 0:
print('FizzBuzz')
elif i % 3 == 0:
print('Fizz')
elif i % 5 == 0:
print('Buzz')
else:
print(i)
fizzbuzz()
```
writingPuntuación: 95.0/100
Ad Headlines (5)
Entrada de tarea:
Write 5 different ad headlines for a new AI-powered writing assistant app. Target audience: content creators, bloggers, marketers. Key benefits: saves time, improves quality, works in multiple languages. Each headline should be under 60 characters.
Ejemplo de respuesta del modelo:
Here are 5 impactful ad headlines under 60 characters, targeting content creators, bloggers, and marketers, emphasizing speed, quality, and multilingual support:
1. **Craft Content Faster: AI-Powered. Time Saved.**
*(48 chars - Focuses on speed & efficiency)*
2. **Level Up Your Writing: AI Editor Inside.**
*(49 chars - Focuses on quality improvement)*
3. **Write Smarter, Not Harder. Your AI Assistant.**
*(52 chars - Highlights efficiency & intelligence)*
4. **Create in 30+...
translationPuntuación: 96.0/100
Technical RU→EN
Entrada de tarea:
Translate this technical text from Russian to English. Maintain technical accuracy:
'Для подключения к API используйте Bearer-токен в заголовке Authorization. Максимальное количество запросов — 100 в минуту. При превышении лимита сервер вернёт код 429 с указанием времени до сброса лимита в заголовк...
Ejemplo de respuesta del modelo:
Here's the English translation:
'To connect to the API, use a Bearer token in the Authorization header. The maximum request rate is 100 requests per minute. If the limit is exceeded, the server will return code 429 with the time until the limit resets specified in the Retry-After header.'
Modelos probados
Premium ($5-15/1M)
- • Claude 3.5 Sonnet
- • GPT-4o
- • Gemini 1.5 Pro
Gama media ($1-5/1M)
- • Claude 3.5 Haiku
- • DeepSeek R1
- • Qwen3 Max
Económicos ($0.4-1/1M)
- • GPT-4o Mini
- • Gemini 2.0 Flash
- • Llama 3.3 70B
- • Qwen3 235B
¿Listo para ver los resultados?
Explore el ranking actual de modelos y compare su rendimiento en diferentes categorías