К бенчмаркам
Методология бенчмарков
Как мы тестируем и оцениваем AI-модели
Структура тестов
- •40 задач в 5 категориях
- •10 моделей от бюджетных до премиум
- •Еженедельные запуски по понедельникам в 02:00 UTC
- •Оценка LLM-судьёй (Claude 3.5 Sonnet)
Категории
Система оценок
Каждая задача оценивается по шкале 0-100 через Claude 3.5 Sonnet (LLM-judge):
- 90-100: Отлично (идеально или почти идеально)
- 70-89: Хорошо (незначительные недочёты)
- 50-69: Приемлемо (заметные недостатки)
- 0-49: Плохо (серьёзные проблемы или провал)
Итоговый балл = среднее по всем задачам категории/общее.
LLM Судья
Мы используем Claude 3.5 Sonnet в качестве беспристрастного судьи для оценки ответов по критериям, специфичным для каждой категории. Это позволяет автоматически оценивать качество, соответствие задаче и полноту ответа.
Подход: LLM-as-judge with category-specific criteria
Реальные примеры из наших тестов
codingБалл: 93.0/100
ФиззБазз
Входные данные:
Write a Python function that prints numbers from 1 to 15. For multiples of 3, print 'Fizz' instead. For multiples of 5, print 'Buzz'. For multiples of both, print 'FizzBuzz'. Just write the function and call it.
Пример ответа модели:
Here's a Python function for FizzBuzz:
```python
def fizzbuzz():
for i in range(1, 16):
if i % 3 == 0 and i % 5 == 0:
print('FizzBuzz')
elif i % 3 == 0:
print('Fizz')
elif i % 5 == 0:
print('Buzz')
else:
print(i)
fizzbuzz()
```
writingБалл: 95.0/100
Рекламные заголовки
Входные данные:
Write 5 different ad headlines for a new AI-powered writing assistant app. Target audience: content creators, bloggers, marketers. Key benefits: saves time, improves quality, works in multiple languages. Each headline should be under 60 characters.
Пример ответа модели:
Here are 5 impactful ad headlines under 60 characters, targeting content creators, bloggers, and marketers, emphasizing speed, quality, and multilingual support:
1. **Craft Content Faster: AI-Powered. Time Saved.**
*(48 chars - Focuses on speed & efficiency)*
2. **Level Up Your Writing: AI Editor Inside.**
*(49 chars - Focuses on quality improvement)*
3. **Write Smarter, Not Harder. Your AI Assistant.**
*(52 chars - Highlights efficiency & intelligence)*
4. **Create in 30+...
translationБалл: 96.0/100
Технический RU→EN
Входные данные:
Translate this technical text from Russian to English. Maintain technical accuracy:
'Для подключения к API используйте Bearer-токен в заголовке Authorization. Максимальное количество запросов — 100 в минуту. При превышении лимита сервер вернёт код 429 с указанием времени до сброса лимита в заголовк...
Пример ответа модели:
Here's the English translation:
'To connect to the API, use a Bearer token in the Authorization header. The maximum request rate is 100 requests per minute. If the limit is exceeded, the server will return code 429 with the time until the limit resets specified in the Retry-After header.'
Протестированные модели
Премиум ($5-15/1M)
- • Claude 3.5 Sonnet
- • GPT-4o
- • Gemini 1.5 Pro
Средний уровень ($1-5/1M)
- • Claude 3.5 Haiku
- • DeepSeek R1
- • Qwen3 Max
Бюджетные ($0.4-1/1M)
- • GPT-4o Mini
- • Gemini 2.0 Flash
- • Llama 3.3 70B
- • Qwen3 235B
Готовы посмотреть результаты?
Изучите текущий рейтинг моделей и сравните их производительность по категориям