Méthodologie des benchmarks

Comment nous testons et évaluons les modèles IA

Structure des tests

•40 tâches dans 5 catégories
•10 modèles du budget au premium
•Tests hebdomadaires chaque lundi à 02h00 UTC
•Évaluation LLM-judge par Claude 3.5 Sonnet

Système de notation

Chaque tâche est évaluée sur une échelle de 0-100 par Claude 3.5 Sonnet :

90-100: Excellent (parfait)
70-89: Bon (problèmes mineurs)
50-69: Acceptable (défauts)
0-49: Mauvais (échec)

Score final = moyenne de toutes les tâches.

Juge LLM

Nous utilisons Claude 3.5 Sonnet comme juge impartial pour évaluer les réponses selon des critères spécifiques à chaque catégorie. Cela permet une évaluation automatisée de la qualité, de la conformité à la tâche et de la complétude de la réponse.

Approche: LLM-as-judge with category-specific criteria

Exemples réels de nos tests

codingScore: 93.0/100

FizzBuzz

Entrée de tâche:

Write a Python function that prints numbers from 1 to 15. For multiples of 3, print 'Fizz' instead. For multiples of 5, print 'Buzz'. For multiples of both, print 'FizzBuzz'. Just write the function and call it.

Exemple de réponse du modèle:

Here's a Python function for FizzBuzz: ```python def fizzbuzz(): for i in range(1, 16): if i % 3 == 0 and i % 5 == 0: print('FizzBuzz') elif i % 3 == 0: print('Fizz') elif i % 5 == 0: print('Buzz') else: print(i) fizzbuzz() ```

writingScore: 95.0/100

Ad Headlines (5)

Entrée de tâche:

Write 5 different ad headlines for a new AI-powered writing assistant app. Target audience: content creators, bloggers, marketers. Key benefits: saves time, improves quality, works in multiple languages. Each headline should be under 60 characters.

Exemple de réponse du modèle:

Here are 5 impactful ad headlines under 60 characters, targeting content creators, bloggers, and marketers, emphasizing speed, quality, and multilingual support: 1. **Craft Content Faster: AI-Powered. Time Saved.** *(48 chars - Focuses on speed & efficiency)* 2. **Level Up Your Writing: AI Editor Inside.** *(49 chars - Focuses on quality improvement)* 3. **Write Smarter, Not Harder. Your AI Assistant.** *(52 chars - Highlights efficiency & intelligence)* 4. **Create in 30+...

translationScore: 96.0/100

Technical RU→EN

Entrée de tâche:

Translate this technical text from Russian to English. Maintain technical accuracy: 'Для подключения к API используйте Bearer-токен в заголовке Authorization. Максимальное количество запросов — 100 в минуту. При превышении лимита сервер вернёт код 429 с указанием времени до сброса лимита в заголовк...

Exemple de réponse du modèle:

Here's the English translation: 'To connect to the API, use a Bearer token in the Authorization header. The maximum request rate is 100 requests per minute. If the limit is exceeded, the server will return code 429 with the time until the limit resets specified in the Retry-After header.'

Modèles testés

Premium ($5-15/1M)

• Claude 3.5 Sonnet
• GPT-4o
• Gemini 1.5 Pro

Milieu de gamme ($1-5/1M)

• Claude 3.5 Haiku
• DeepSeek R1
• Qwen3 Max

Budget ($0.4-1/1M)

• GPT-4o Mini
• Gemini 2.0 Flash
• Llama 3.3 70B
• Qwen3 235B

Prêt à voir les résultats?

Explorez le classement actuel des modèles et comparez leurs performances dans différentes catégories

Voir le classement Tous les modèles

Méthodologie des benchmarks

Structure des tests

Catégories

💻 Code (8 tâches)

✍️ Rédaction (8 tâches)

🌍 Traduction (8 tâches)

📊 Analyse (8 tâches)

🧠 Logique (6 tâches)

Système de notation

Juge LLM

Exemples réels de nos tests

FizzBuzz

Ad Headlines (5)

Technical RU→EN

Modèles testés

Premium ($5-15/1M)

Milieu de gamme ($1-5/1M)

Budget ($0.4-1/1M)

Prêt à voir les résultats?