Retour aux benchmarks
Méthodologie des benchmarks
Comment nous testons et évaluons les modèles IA
Structure des tests
- •40 tâches dans 5 catégories
- •10 modèles du budget au premium
- •Tests hebdomadaires chaque lundi à 02h00 UTC
- •Évaluation LLM-judge par Claude 3.5 Sonnet
Catégories
Système de notation
Chaque tâche est évaluée sur une échelle de 0-100 par Claude 3.5 Sonnet :
- 90-100: Excellent (parfait)
- 70-89: Bon (problèmes mineurs)
- 50-69: Acceptable (défauts)
- 0-49: Mauvais (échec)
Score final = moyenne de toutes les tâches.
Juge LLM
Nous utilisons Claude 3.5 Sonnet comme juge impartial pour évaluer les réponses selon des critères spécifiques à chaque catégorie. Cela permet une évaluation automatisée de la qualité, de la conformité à la tâche et de la complétude de la réponse.
Approche: LLM-as-judge with category-specific criteria
Exemples réels de nos tests
codingScore: 93.0/100
FizzBuzz
Entrée de tâche:
Write a Python function that prints numbers from 1 to 15. For multiples of 3, print 'Fizz' instead. For multiples of 5, print 'Buzz'. For multiples of both, print 'FizzBuzz'. Just write the function and call it.
Exemple de réponse du modèle:
Here's a Python function for FizzBuzz:
```python
def fizzbuzz():
for i in range(1, 16):
if i % 3 == 0 and i % 5 == 0:
print('FizzBuzz')
elif i % 3 == 0:
print('Fizz')
elif i % 5 == 0:
print('Buzz')
else:
print(i)
fizzbuzz()
```
writingScore: 95.0/100
Ad Headlines (5)
Entrée de tâche:
Write 5 different ad headlines for a new AI-powered writing assistant app. Target audience: content creators, bloggers, marketers. Key benefits: saves time, improves quality, works in multiple languages. Each headline should be under 60 characters.
Exemple de réponse du modèle:
Here are 5 impactful ad headlines under 60 characters, targeting content creators, bloggers, and marketers, emphasizing speed, quality, and multilingual support:
1. **Craft Content Faster: AI-Powered. Time Saved.**
*(48 chars - Focuses on speed & efficiency)*
2. **Level Up Your Writing: AI Editor Inside.**
*(49 chars - Focuses on quality improvement)*
3. **Write Smarter, Not Harder. Your AI Assistant.**
*(52 chars - Highlights efficiency & intelligence)*
4. **Create in 30+...
translationScore: 96.0/100
Technical RU→EN
Entrée de tâche:
Translate this technical text from Russian to English. Maintain technical accuracy:
'Для подключения к API используйте Bearer-токен в заголовке Authorization. Максимальное количество запросов — 100 в минуту. При превышении лимита сервер вернёт код 429 с указанием времени до сброса лимита в заголовк...
Exemple de réponse du modèle:
Here's the English translation:
'To connect to the API, use a Bearer token in the Authorization header. The maximum request rate is 100 requests per minute. If the limit is exceeded, the server will return code 429 with the time until the limit resets specified in the Retry-After header.'
Modèles testés
Premium ($5-15/1M)
- • Claude 3.5 Sonnet
- • GPT-4o
- • Gemini 1.5 Pro
Milieu de gamme ($1-5/1M)
- • Claude 3.5 Haiku
- • DeepSeek R1
- • Qwen3 Max
Budget ($0.4-1/1M)
- • GPT-4o Mini
- • Gemini 2.0 Flash
- • Llama 3.3 70B
- • Qwen3 235B
Prêt à voir les résultats?
Explorez le classement actuel des modèles et comparez leurs performances dans différentes catégories