KI-Chatbot macht Unsinn? So misst du es

Vielleicht kennst du das: Du hast dir einen KI-Chatbot bauen lassen, für die Website oder die Kundenanfragen. Meistens läuft er gut. Aber dann liegt er plötzlich daneben – bei einer Terminfrage, bei einem Datum, bei einer eigentlich simplen Anfrage. Und keiner im Betrieb kann dir sagen, warum. Oder wie oft das passiert. Oder ob es besser wird.

Das ist unangenehm, aber es ist kein Grund, die ganze KI wegzuwerfen. Fast immer liegt es nicht daran, dass die KI „zu dumm“ ist. Es liegt daran, dass niemand systematisch hinschaut, wo genau sie stolpert. Und genau da fängt die Arbeit an, die wirklich etwas bringt.

Die Tools-Falle: schöne Technik, aber keiner misst

Der häufigste Fehler beim Thema KI-Qualität ist, dass Teams über Werkzeuge reden statt über Ergebnisse. Welches KI-Modell, welche Datenbank, welches Framework, welches schicke Dashboard – das fühlt sich nach Fortschritt an, weil man es anfassen und einstellen kann.

Ich nenne das die Tools-Falle (der Glaube, das richtige Werkzeug allein löse das Problem). Das Tückische: Man ist beschäftigt, es sieht professionell aus – aber die eigentliche Frage bleibt unbeantwortet. Nämlich: Funktioniert das Ding für deine Kunden wirklich?

Ein Bild dazu: Es bringt nichts, die Ladezeit deiner Website zu optimieren, wenn der Bestell-Button nicht funktioniert. Du wirst besser – aber in der falschen Sache.

Schönwetter-Zahlen sagen dir nichts

Dazu kommt ein zweites Problem: die falschen Zahlen. Viele Systeme zeigen dir einen „Hilfsbereitschafts-Wert“ oder eine allgemeine „Qualitäts-Punktzahl“ an, die brav nach oben klettert. Solche Kennzahlen nennt man Vanity-Metriken – auf Deutsch: Schönwetter-Zahlen. Sie sehen gut aus und beruhigen, aber sie hängen nicht mit den echten Problemen deiner Nutzer zusammen.

In der Praxis passiert genau das ständig: Ein Team feiert, dass der Wohlfühl-Wert um zehn Prozent gestiegen ist – während echte Kunden weiter an einer banalen Aufgabe scheitern. Man fühlt sich „datengetrieben“, weil ein Dashboard läuft. Aber gemessen wird das Falsche.

Und wenn du zu viele Zahlen gleichzeitig beobachtest, wird es nicht besser, sondern schlechter: Wenn alles wichtig ist, ist nichts wichtig. Deine Aufmerksamkeit zersplittert.

Ein Dashboard voller grüner Zahlen ist kein Beweis, dass deine KI funktioniert. Es ist nur ein Beweis, dass du etwas misst – vielleicht das Falsche.

Der eigentliche Hebel: echte Vorgänge ansehen

Die Alternative ist unspektakulär und genau deshalb so wirksam: echte Daten ansehen. Nicht Durchschnittswerte, nicht Balkendiagramme – die tatsächlichen Gespräche und Vorgänge, Zeile für Zeile.

Das ist der Kern der Fehleranalyse (englisch: Error Analysis – das systematische Durchsehen echter Fälle, um herauszufinden, was und warum schiefgeht). Es ist erfahrungsgemäß die Aktivität mit dem höchsten Ertrag überhaupt. Kein neues Werkzeug, keine neue KI schlägt den simplen Akt, sich fünfzig echte Vorgänge in Ruhe anzusehen und daneben zu notieren, was nicht stimmt.

Wichtig ist die Richtung. Der falsche Weg ist von oben herab: Man startet mit Standard-Begriffen wie „Halluzination“ oder „Höflichkeit“ und presst die eigenen Fälle da hinein. Der bessere Weg ist von unten herauf: Du liest die echten Vorgänge, schreibst frei auf, was dich stört, und lässt daraus die Fehlerkategorien wachsen, die zu deinem Betrieb passen. Erst dann bekommst du Muster, die wirklich deine sind – und nicht die aus einem Lehrbuch.

Pareto: wenige Fehlerklassen machen den Großteil aus

Und jetzt kommt die gute Nachricht, die diese Arbeit so lohnend macht. Wenn du echte Vorgänge durchgehst und die Fehler sortierst, stellst du fast immer dasselbe fest: Ein paar wenige Fehlerklassen verursachen den Großteil der Probleme. Das ist das Pareto-Prinzip (wenige Ursachen, große Wirkung – die berühmte 80/20-Regel).

Das heißt: Du musst nicht hundert Baustellen gleichzeitig angehen. Du musst die zwei, drei finden, die richtig wehtun – und genau die gezielt reparieren. In der Praxis reicht es oft, eine einzige schwache Fähigkeit anzupacken, um eine Trefferquote von „geht meistens schief“ auf „läuft fast immer rund“ zu heben. Nicht durch mehr Technik. Durch genaues Hinsehen an der richtigen Stelle.

So sieht das in deinem Alltag aus

Immobilienverwaltung: Dein Mieter-Bot beantwortet vieles gut, aber bei Datumsangaben verhaut er es regelmäßig – „in zwei Wochen“, „Anfang nächsten Monats“. Statt die ganze KI zu ersetzen, sehe ich mir echte Gespräche an, sammle die Datums-Fehler, baue gezielte Tests dagegen und bessere genau diesen einen Punkt nach. Der Rest bleibt, wie er war – er funktioniert ja.

Handwerksbetrieb: Dein Anfrage-Assistent fasst eingehende Kundenanfragen zusammen, schätzt aber die Dringlichkeit oft falsch ein – ein Wasserschaden landet in derselben Kiste wie eine unverbindliche Preisfrage. Hier setze ich mich mit dem Meister zusammen, wir schauen echte Beispiele an und schärfen gemeinsam, was „dringend“ für deinen Betrieb konkret bedeutet. Das Fachwissen steckt in deinem Kopf, nicht in der KI.

Ehrlich bleiben: Messen ist Arbeit, aber sie zahlt sich aus

Ich verspreche dir kein Wunder. Eine KI wird nie zu hundert Prozent fehlerfrei, und die Verantwortung bleibt beim Menschen – die KI bereitet vor, du gibst frei. Aber der Unterschied zwischen einem Bot, der „irgendwie so mittel“ läuft, und einem, dem du vertraust, ist selten ein neues Modell. Es ist die Arbeit, echte Fälle anzusehen, die entscheidenden Fehlerklassen zu finden und gezielt nachzubessern – und danach zu messen, ob es wirklich besser wurde und nicht nur anders.

Genau das mache ich: Statt an Schrauben zu drehen, die man gut sehen kann, schaue ich dahin, wo es tatsächlich hakt. Ich gebe dir außerdem ein kleines Werkzeug an die Hand, in dem dein eigenes Team schlechte Antworten mit einem Klick markieren kann – so wird aus dem einmaligen Aufräumen ein laufender Verbesserungs-Kreislauf. Und das läuft auf Wunsch auf eigenen Servern, damit deine Daten bei dir bleiben.

Wie ich bestehende KI-Systeme messbar zuverlässig mache, liest du auf KI-Qualität & Evals. Oder du erzählst mir direkt von deinem Bot, der manchmal Unsinn macht – im kostenlosen Erstgespräch. Ehrlich, geerdet und ohne Hype.

Warum dein KI-Chatbot manchmal Unsinn macht — und wie du es misst