Evals einfach erklärt

Vielleicht kennst du das: Du hast einen KI-Chatbot auf deiner Website, dein Team hat am Text – im Fachjargon am „Prompt“, also der Anweisung an die KI – herumgeschraubt, und alle sind sich einig: „Jetzt läuft er besser.“ Aber woher weißt du das eigentlich? Ein Bauchgefühl ist keine Messung. Vielleicht ist die KI bei den einen Fragen besser geworden und bei den anderen heimlich schlechter. Ohne einen festen Maßstab tappst du im Dunkeln.

Genau dafür gibt es Evals. Das Wort klingt technisch, das Prinzip ist banal – und wenn du es einmal verstanden hast, schaust du auf jede KI-Lösung anders. Versprochen.

Was ist ein Eval? Eine Prüfung für deine KI

Eval ist die Kurzform von „Evaluation“, also Bewertung. Ein Eval ist im Kern nichts anderes als eine Prüfung, die du deiner KI immer wieder vorlegst – wie eine Klassenarbeit mit einem festen Fragenkatalog. Du sammelst eine Reihe typischer Aufgaben, lässt die KI sie beantworten und schaust nach, ob die Antwort taugt oder nicht.

Der Trick ist, dass die Prüfung gleich bleibt. Wenn du morgen etwas an der KI änderst, legst du ihr genau denselben Fragenkatalog noch einmal vor. Dann siehst du schwarz auf weiß: Sind mehr Aufgaben richtig als vorher? Oder hast du an einer Stelle etwas repariert und dafür an drei anderen Stellen etwas kaputt gemacht? Ohne Eval merkst du das erst, wenn sich ein Kunde beschwert.

Stell dir vor: Du betreibst eine Hausverwaltung und hast einen Bot, der Mieteranfragen entgegennimmt. Immer wieder verrechnet er sich bei Terminen – „in zwei Wochen“ wird zu irgendeinem falschen Datum. Ein Eval dafür wäre eine Liste von, sagen wir, 30 echten oder nachgebauten Terminanfragen mit der jeweils korrekten Antwort. Läuft der Bot durch, siehst du sofort: Wie viele hat er richtig? Das ist deine Ausgangsmarke, an der sich jede Änderung messen lassen muss.

Binär statt Schulnoten: Pass oder Fail – mit kurzer Begründung

Jetzt kommt die wichtigste Entscheidung, und viele machen sie falsch. Wie bewertest du eine einzelne Antwort? Der naheliegende Reflex ist eine Skala von 1 bis 5, wie Sterne bei einer Bewertung. Klingt genauer – ist in Wahrheit eine Falle.

Denn was ist der Unterschied zwischen einer 3 und einer 4? Das kann dir keiner sauber sagen. Zwei Leute aus deinem Team vergeben für dieselbe Antwort verschiedene Noten, und du sammelst am Ende einen Haufen Zahlen, mit denen niemand etwas anfangen kann. Die Energie versickert in der Frage „ist das jetzt eine 3 oder eine 4?“, statt in echter Verbesserung.

Deshalb arbeite ich mit einem binären Urteil: bestanden oder nicht bestanden. Pass oder Fail. Die Frage ist simpel und ehrlich: Hat diese Antwort ihren Zweck erfüllt – ja oder nein? Das zwingt zu Klarheit. Und der Fortschritt wird sofort greifbar: „Letzte Woche haben 6 von 10 Antworten bestanden, jetzt sind es 9 von 10.“ Das versteht jeder. Eine „Verbesserung um 0,4 Punkte auf der Skala“ versteht keiner.

Damit dabei nichts verloren geht, gehört zu jedem Urteil eine kurze Begründung in einem Satz. Nicht „3 von 5″, sondern: „Nicht bestanden – der Bot hat das Datum zwei Wochen zu früh angesetzt.“ Diese kleinen Notizen sind Gold wert. Sie zeigen dir nicht nur, dass etwas schiefläuft, sondern warum – und sind später die Vorlage, um gezielt nachzubessern.

Dein wichtigstes Werkzeug: der Daten-Betrachter

Wie kommst du überhaupt an diese Urteile? Nicht mit einer komplizierten Software voller Diagramme, die schön aussehen, aber nichts aussagen. Sondern mit dem, was ich für die lohnendste Investition halte: einem einfachen Daten-Betrachter. Das ist eine schlichte Oberfläche, in der eine Person aus deinem Team tatsächlich sieht, was die KI im echten Gespräch getan hat – und mit einem Klick „bestanden“ oder „nicht bestanden“ vergibt, plus eine freie Notiz dazu.

Klingt unspektakulär, ist aber der Hebel. Der ganze Kontext liegt an einem Ort: die Frage, die Antwort, die Vorgeschichte. Kein Hin- und Herklicken zwischen fünf Systemen, kein Kopieren in irgendeine Tabelle. Genau diese Reibung ist sonst der Grund, warum niemand die Daten wirklich anschaut. In der Praxis kommen Teams mit so einem Werkzeug um ein Vielfaches schneller voran – und gebaut ist es oft in Stunden, nicht in Wochen.

Der schöne Nebeneffekt: Die beste Person zum Urteilen ist selten der Techniker, sondern die Fachkraft. Der Meister weiß, ob eine Angebotszusammenfassung stimmt. Die Verwalterin weiß, ob eine Mieterantwort passt. Genau die sollen den Daumen heben oder senken – nicht ich.

Testen ohne echte Nutzer: synthetische Testdaten

„Schön und gut“, sagst du jetzt vielleicht, „aber ich habe ja noch gar keine echten Gespräche, an denen ich testen könnte.“ Das ist der klassische Henne-Ei-Fall: Du brauchst Daten, um die KI gut zu machen, aber gute Daten bekommst du erst, wenn die KI läuft.

Der Ausweg heißt synthetische Testdaten – realistische Testfälle, die die KI selbst erzeugt. Man lässt sie an typischen Achsen entlang Beispiele ausdenken: Welche Aufgaben soll die KI können, in welchen Situationen, für welche Art von Kunden. Ein Handwerks-Anfragebot bekommt so Testfälle für die dringende Notreparatur, die unklare Anfrage und den Preisvergleicher. Wichtig ist nur, dass die Fälle in deiner echten Wirklichkeit verankert sind – mit echten Rahmenbedingungen wie deinen Terminfenstern oder Materialien, nicht im luftleeren Raum. So kannst du Schwächen ausbügeln, bevor der erste echte Kunde darüber stolpert.

Stimmt das KI-Urteil mit deinem überein?

Wenn du irgendwann viele Antworten prüfen willst, wird es dir zu viel, alles von Hand zu bewerten. Dann kann eine zweite KI das Vorsortieren übernehmen – sie spielt sozusagen den Prüfer. Nur: Kann man diesem KI-Prüfer trauen? Nicht blind.

Deshalb prüfe ich regelmäßig den Abgleich – im Fachjargon „Alignment“: Wie oft ist das KI-Urteil mit dem eines Menschen einer Meinung? Am Anfang liegt so eine automatische Bewertung erfahrungsgemäß noch deutlich daneben. Man schaut sich die Fälle an, in denen KI und Mensch sich uneinig sind, schärft die Kriterien nach – und über ein paar Runden wandert die Übereinstimmung von „schon oft daneben“ auf „stimmt fast immer mit dem Menschen überein“. Erst dann darf die KI mehr Prüfarbeit abnehmen. Und selbst dann bleibt ein Mensch im Spiel und kalibriert nach.

Das ist mir ehrlich wichtig: Ein Eval nimmt dir die stupide Klickarbeit ab, nicht die Verantwortung. Der Maßstab, was „gut genug“ ist, kommt von dir und deinem Team – nicht von der Maschine.

Und jetzt?

Ein Eval ist keine Raketentechnik. Es ist ein fester Fragenkatalog, ein klares Pass/Fail mit kurzer Begründung, ein schlichtes Werkzeug zum Draufschauen – und die Disziplin, ehrlich zu messen, statt zu hoffen. Genau das ist der Unterschied zwischen einer KI, die „irgendwie besser klingt“, und einer, von der du beweisen kannst, dass sie besser geworden ist.

Wie ich das für bestehende Chatbots aufsetze und Schritt für Schritt zuverlässig mache, liest du auf KI-Qualität & Evals. Oder du erzählst mir direkt von deinem Fall – im kostenlosen Erstgespräch schauen wir gemeinsam, wo bei dir der größte Hebel liegt. Ehrlich und ohne Hype.

Evals einfach erklärt: Woran du erkennst, ob deine KI wirklich besser wird