Metodología de benchmarks

Cómo probamos y evaluamos los modelos IA

Estructura de pruebas

•40 tareas en 5 categorías
•10 modelos desde económicos hasta premium
•Ejecuciones semanales cada lunes a las 02:00 UTC
•Evaluación LLM-judge por Claude 3.5 Sonnet

Sistema de puntuación

Cada tarea se evalúa en una escala de 0-100 por Claude 3.5 Sonnet:

90-100: Excelente (perfecto)
70-89: Bueno (problemas menores)
50-69: Aceptable (defectos)
0-49: Malo (fallo)

Puntuación final = promedio de todas las tareas.

Juez LLM

Utilizamos Claude 3.5 Sonnet como juez imparcial para evaluar las respuestas según criterios específicos de cada categoría. Esto permite una evaluación automatizada de la calidad, cumplimiento de la tarea y completitud de la respuesta.

Enfoque: LLM-as-judge with category-specific criteria

Ejemplos reales de nuestras pruebas

codingPuntuación: 93.0/100

FizzBuzz

Entrada de tarea:

Write a Python function that prints numbers from 1 to 15. For multiples of 3, print 'Fizz' instead. For multiples of 5, print 'Buzz'. For multiples of both, print 'FizzBuzz'. Just write the function and call it.

Ejemplo de respuesta del modelo:

Here's a Python function for FizzBuzz: ```python def fizzbuzz(): for i in range(1, 16): if i % 3 == 0 and i % 5 == 0: print('FizzBuzz') elif i % 3 == 0: print('Fizz') elif i % 5 == 0: print('Buzz') else: print(i) fizzbuzz() ```

writingPuntuación: 95.0/100

Ad Headlines (5)

Entrada de tarea:

Write 5 different ad headlines for a new AI-powered writing assistant app. Target audience: content creators, bloggers, marketers. Key benefits: saves time, improves quality, works in multiple languages. Each headline should be under 60 characters.

Ejemplo de respuesta del modelo:

Here are 5 impactful ad headlines under 60 characters, targeting content creators, bloggers, and marketers, emphasizing speed, quality, and multilingual support: 1. **Craft Content Faster: AI-Powered. Time Saved.** *(48 chars - Focuses on speed & efficiency)* 2. **Level Up Your Writing: AI Editor Inside.** *(49 chars - Focuses on quality improvement)* 3. **Write Smarter, Not Harder. Your AI Assistant.** *(52 chars - Highlights efficiency & intelligence)* 4. **Create in 30+...

translationPuntuación: 96.0/100

Technical RU→EN

Entrada de tarea:

Translate this technical text from Russian to English. Maintain technical accuracy: 'Для подключения к API используйте Bearer-токен в заголовке Authorization. Максимальное количество запросов — 100 в минуту. При превышении лимита сервер вернёт код 429 с указанием времени до сброса лимита в заголовк...

Ejemplo de respuesta del modelo:

Here's the English translation: 'To connect to the API, use a Bearer token in the Authorization header. The maximum request rate is 100 requests per minute. If the limit is exceeded, the server will return code 429 with the time until the limit resets specified in the Retry-After header.'

Modelos probados

Premium ($5-15/1M)

• Claude 3.5 Sonnet
• GPT-4o
• Gemini 1.5 Pro

Gama media ($1-5/1M)

• Claude 3.5 Haiku
• DeepSeek R1
• Qwen3 Max

Económicos ($0.4-1/1M)

• GPT-4o Mini
• Gemini 2.0 Flash
• Llama 3.3 70B
• Qwen3 235B

¿Listo para ver los resultados?

Explore el ranking actual de modelos y compare su rendimiento en diferentes categorías

Ver clasificación Todos los modelos

Metodología de benchmarks

Estructura de pruebas

Categorías

💻 Código (8 tareas)

✍️ Escritura (8 tareas)

🌍 Traducción (8 tareas)

📊 Análisis (8 tareas)

🧠 Lógica (6 tareas)

Sistema de puntuación

Juez LLM

Ejemplos reales de nuestras pruebas

FizzBuzz

Ad Headlines (5)

Technical RU→EN

Modelos probados

Premium ($5-15/1M)

Gama media ($1-5/1M)

Económicos ($0.4-1/1M)

¿Listo para ver los resultados?