Benchmark-Methodik

Wie wir KI-Modelle testen und bewerten

Teststruktur

•40 Aufgaben in 5 Kategorien
•10 Modelle von Budget bis Premium
•Wöchentliche Läufe jeden Montag um 02:00 UTC
•LLM-Judge-Bewertung durch Claude 3.5 Sonnet

Bewertungssystem

Jede Aufgabe wird auf einer Skala von 0-100 durch Claude 3.5 Sonnet bewertet:

90-100: Ausgezeichnet (perfekt)
70-89: Gut (kleinere Probleme)
50-69: Akzeptabel (Mängel)
0-49: Schlecht (Versagen)

Endpunktzahl = Durchschnitt aller Aufgaben.

LLM-Richter

Wir verwenden Claude 3.5 Sonnet als unparteiischen Richter zur Bewertung von Antworten anhand kategoriespezifischer Kriterien. Dies ermöglicht eine automatisierte Bewertung von Qualität, Aufgabenerfüllung und Vollständigkeit der Antwort.

Ansatz: LLM-as-judge with category-specific criteria

Echte Beispiele aus unseren Tests

codingPunktzahl: 93.0/100

FizzBuzz

Aufgabeneingabe:

Write a Python function that prints numbers from 1 to 15. For multiples of 3, print 'Fizz' instead. For multiples of 5, print 'Buzz'. For multiples of both, print 'FizzBuzz'. Just write the function and call it.

Beispielantwort des Modells:

Here's a Python function for FizzBuzz: ```python def fizzbuzz(): for i in range(1, 16): if i % 3 == 0 and i % 5 == 0: print('FizzBuzz') elif i % 3 == 0: print('Fizz') elif i % 5 == 0: print('Buzz') else: print(i) fizzbuzz() ```

writingPunktzahl: 95.0/100

Ad Headlines (5)

Aufgabeneingabe:

Write 5 different ad headlines for a new AI-powered writing assistant app. Target audience: content creators, bloggers, marketers. Key benefits: saves time, improves quality, works in multiple languages. Each headline should be under 60 characters.

Beispielantwort des Modells:

Here are 5 impactful ad headlines under 60 characters, targeting content creators, bloggers, and marketers, emphasizing speed, quality, and multilingual support: 1. **Craft Content Faster: AI-Powered. Time Saved.** *(48 chars - Focuses on speed & efficiency)* 2. **Level Up Your Writing: AI Editor Inside.** *(49 chars - Focuses on quality improvement)* 3. **Write Smarter, Not Harder. Your AI Assistant.** *(52 chars - Highlights efficiency & intelligence)* 4. **Create in 30+...

translationPunktzahl: 96.0/100

Technical RU→EN

Aufgabeneingabe:

Translate this technical text from Russian to English. Maintain technical accuracy: 'Для подключения к API используйте Bearer-токен в заголовке Authorization. Максимальное количество запросов — 100 в минуту. При превышении лимита сервер вернёт код 429 с указанием времени до сброса лимита в заголовк...

Beispielantwort des Modells:

Here's the English translation: 'To connect to the API, use a Bearer token in the Authorization header. The maximum request rate is 100 requests per minute. If the limit is exceeded, the server will return code 429 with the time until the limit resets specified in the Retry-After header.'

Getestete Modelle

Premium ($5-15/1M)

• Claude 3.5 Sonnet
• GPT-4o
• Gemini 1.5 Pro

Mittelklasse ($1-5/1M)

• Claude 3.5 Haiku
• DeepSeek R1
• Qwen3 Max

Budget ($0.4-1/1M)

• GPT-4o Mini
• Gemini 2.0 Flash
• Llama 3.3 70B
• Qwen3 235B

Bereit, die Ergebnisse zu sehen?

Erkunden Sie das aktuelle Modell-Ranking und vergleichen Sie deren Leistung in verschiedenen Kategorien

Rangliste ansehen Alle Modelle

Benchmark-Methodik

Teststruktur

Kategorien

💻 Programmierung (8 Aufgaben)

✍️ Schreiben (8 Aufgaben)

🌍 Übersetzung (8 Aufgaben)

📊 Analyse (8 Aufgaben)

🧠 Logik (6 Aufgaben)

Bewertungssystem

LLM-Richter

Echte Beispiele aus unseren Tests

FizzBuzz

Ad Headlines (5)

Technical RU→EN

Getestete Modelle

Premium ($5-15/1M)

Mittelklasse ($1-5/1M)

Budget ($0.4-1/1M)

Bereit, die Ergebnisse zu sehen?