Методология бенчмарков

Как мы тестируем и оцениваем AI-модели

Структура тестов

•40 задач в 5 категориях
•10 моделей от бюджетных до премиум
•Еженедельные запуски по понедельникам в 02:00 UTC
•Оценка LLM-судьёй (Claude 3.5 Sonnet)

Система оценок

Каждая задача оценивается по шкале 0-100 через Claude 3.5 Sonnet (LLM-judge):

90-100: Отлично (идеально или почти идеально)
70-89: Хорошо (незначительные недочёты)
50-69: Приемлемо (заметные недостатки)
0-49: Плохо (серьёзные проблемы или провал)

Итоговый балл = среднее по всем задачам категории/общее.

LLM Судья

Мы используем Claude 3.5 Sonnet в качестве беспристрастного судьи для оценки ответов по критериям, специфичным для каждой категории. Это позволяет автоматически оценивать качество, соответствие задаче и полноту ответа.

Подход: LLM-as-judge with category-specific criteria

Реальные примеры из наших тестов

codingБалл: 93.0/100

ФиззБазз

Входные данные:

Write a Python function that prints numbers from 1 to 15. For multiples of 3, print 'Fizz' instead. For multiples of 5, print 'Buzz'. For multiples of both, print 'FizzBuzz'. Just write the function and call it.

Пример ответа модели:

Here's a Python function for FizzBuzz: ```python def fizzbuzz(): for i in range(1, 16): if i % 3 == 0 and i % 5 == 0: print('FizzBuzz') elif i % 3 == 0: print('Fizz') elif i % 5 == 0: print('Buzz') else: print(i) fizzbuzz() ```

writingБалл: 95.0/100

Рекламные заголовки

Входные данные:

Write 5 different ad headlines for a new AI-powered writing assistant app. Target audience: content creators, bloggers, marketers. Key benefits: saves time, improves quality, works in multiple languages. Each headline should be under 60 characters.

Пример ответа модели:

Here are 5 impactful ad headlines under 60 characters, targeting content creators, bloggers, and marketers, emphasizing speed, quality, and multilingual support: 1. **Craft Content Faster: AI-Powered. Time Saved.** *(48 chars - Focuses on speed & efficiency)* 2. **Level Up Your Writing: AI Editor Inside.** *(49 chars - Focuses on quality improvement)* 3. **Write Smarter, Not Harder. Your AI Assistant.** *(52 chars - Highlights efficiency & intelligence)* 4. **Create in 30+...

translationБалл: 96.0/100

Технический RU→EN

Входные данные:

Translate this technical text from Russian to English. Maintain technical accuracy: 'Для подключения к API используйте Bearer-токен в заголовке Authorization. Максимальное количество запросов — 100 в минуту. При превышении лимита сервер вернёт код 429 с указанием времени до сброса лимита в заголовк...

Пример ответа модели:

Here's the English translation: 'To connect to the API, use a Bearer token in the Authorization header. The maximum request rate is 100 requests per minute. If the limit is exceeded, the server will return code 429 with the time until the limit resets specified in the Retry-After header.'

Протестированные модели

Премиум ($5-15/1M)

• Claude 3.5 Sonnet
• GPT-4o
• Gemini 1.5 Pro

Средний уровень ($1-5/1M)

• Claude 3.5 Haiku
• DeepSeek R1
• Qwen3 Max

Бюджетные ($0.4-1/1M)

• GPT-4o Mini
• Gemini 2.0 Flash
• Llama 3.3 70B
• Qwen3 235B

Готовы посмотреть результаты?

Изучите текущий рейтинг моделей и сравните их производительность по категориям

Смотреть рейтинг Все модели

Методология бенчмарков

Структура тестов

Категории

💻 Код (8 задач)

✍️ Тексты (8 задач)

🌍 Перевод (8 задач)

📊 Анализ (8 задач)

🧠 Логика (6 задач)

Система оценок

LLM Судья

Реальные примеры из наших тестов

ФиззБазз

Рекламные заголовки

Технический RU→EN

Протестированные модели

Премиум ($5-15/1M)

Средний уровень ($1-5/1M)

Бюджетные ($0.4-1/1M)

Готовы посмотреть результаты?