KI-Qualität, Evals & Optimierung

Du hast schon eine KI – nur läuft sie nicht rund. Der Chatbot verhaut Termine, der Anfrage-Zusammenfasser schätzt die Dringlichkeit falsch, „manchmal macht das Ding einfach Unsinn“. Ich mache deine KI messbar zuverlässig: Ich sehe mir an, was sie wirklich tut, finde die wenigen Fehler, die den Großteil ausmachen, und bessere gezielt nach – statt blind an Prompts zu schrauben und zu hoffen.

Erstgespräch anfragen
phillip@growento.com

Das Problem

„Wird das eigentlich besser – oder nur anders?“

Der häufigste Fehler bei KI-Projekten ist nicht der falsche Prompt und nicht das falsche Modell. Es ist, dass niemand hinschaut, ob das Ding wirklich funktioniert. Man verliebt sich in Werkzeuge, Frameworks und schicke Dashboards mit bunten Zahlen – und übersieht, dass diese Zahlen (die Fachleute nennen sie „Vanity-Metriken“, also Schönwetter-Kennzahlen) mit den echten Problemen deiner Kunden oft gar nichts zu tun haben. Die „Hilfsbereitschaft“ steigt angeblich um zehn Prozent, während der Bot beim Termin-Datum weiter danebenliegt.

Ein Beispiel aus der Immobilienverwaltung: Ein Mieter- oder Exposé-Bot beantwortet fast alles gut – aber bei Datumsangaben („einen Termin in zwei Wochen“) liegt er in der Praxis erstaunlich oft daneben. Oder im Handwerk: Ein Assistent fasst eingehende Anfragen zusammen, schätzt aber die Dringlichkeit falsch ein und schiebt den tropfenden Wasserhahn hinter die Routine-Anfrage. Solche Muster findet man nicht im Bauchgefühl. Man findet sie nur, wenn man echte Gespräche durchsieht – systematisch.

Für wen

Wenn du schon KI hast – oder vor dem Launch sichergehen willst

Handwerk

Dein Anfrage-Zusammenfasser sortiert falsch oder verschätzt sich bei der Dringlichkeit? Ich schärfe die Kriterien gemeinsam mit dem Meister – der weiß am besten, was „dringend“ wirklich heißt – und baue Tests, die genau das absichern.

Immobilien

Der Mieter- oder Exposé-Bot verhaut Datums- und Terminangaben oder erfindet Details? Ich finde die konkrete Fehlerklasse, baue gezielte Tests dagegen und hebe genau die Trefferquote, die dich stört – nicht irgendeine Kennzahl.

Vor dem Launch

Du willst eine KI live schalten, aber nicht ins Blaue? Auch ohne echte Nutzerdaten teste ich vorab mit realistischen, erfundenen Testfällen – geerdet in deinen echten Rahmenbedingungen. Du gehst mit Zahlen live, nicht mit Hoffnung.

Leistung

So mache ich deine KI zuverlässig

Das ist ein Add-on- und Betriebs-Baustein – er passt zu jedem der drei Pakete auf der Hub-Seite. Richtwert für einen ersten Eval-Sprint: ca. 1.500 – 4.000 €. Alle Beträge sind Orientierungswerte, kein Festpreis; das verbindliche Angebot kommt nach dem kostenlosen Erstgespräch.

Fehleranalyse

Die Aktivität mit dem höchsten Ertrag. Ich sehe mir echte Gesprächs- und Vorgangs-Protokolle an – oft reichen 50 Stück –, sortiere die Patzer in Fehler-Typen und finde die wenigen Klassen, die erfahrungsgemäß 80 % der Probleme verursachen. Aus den echten Daten wachsen die Muster, nicht aus einer Standard-Checkliste.

echte LogsFehler-TypenPareto

Dein Daten-Betrachter

Die wichtigste Investition ist kein Dashboard, sondern ein schlichtes Werkzeug, in dem du siehst, was die KI wirklich tut – alles an einem Ort, mit Ein-Klick-Bewertung („gut / schlecht“), freien Notizen und Filtern. Teams mit so einem Betrachter verbessern in der Praxis um ein Vielfaches schneller. Lässt sich in wenigen Stunden bauen und gehört dir.

Ein-Klick-UrteilNotizenFilter

Tests & Testdaten

Gegen die gefundenen Fehlerklassen baue ich gezielte Tests – Evals (kurz für „Evaluations“, also automatische Prüfungen: erledigt die KI die Aufgabe oder nicht?). Fehlen echte Nutzerdaten, erzeuge ich realistische Testfälle entlang Funktionen × Szenarien × Personas, geerdet in deinen echten Objekten, Preisen und Regeln.

Evalssynthetische FällePass/Fail

Vertrauenswürdige Bewertung

Ich bewerte lieber binär – bestanden oder nicht, plus kurze Begründung – statt mit einer 1-bis-5-Skala, bei der niemand weiß, was eine 3 von einer 4 unterscheidet. Und wo eine KI die Bewertung übernimmt, prüfe ich in mehreren Runden, wie gut sie mit dem menschlichen Urteil übereinstimmt – in der Praxis von rund zwei Dritteln auf über neun von zehn.

binär + BegründungAlignmentnachvollziehbar

Kein Bauchgefühl, keine Schönwetter-Zahlen. Du siehst schwarz auf weiß, dass es besser wird – an genau der Fähigkeit, die dich stört.

Warum GROWENTO

Ich betreibe KI selbst – ich weiß, wo sie stolpert

Für eigene Kundenprojekte betreibe ich KI-gestützte Chat-CMS-Systeme rund um die Uhr – in Docker-Containern (abgeschottete Pakete, in denen jede Anwendung sauber für sich läuft), hinter Nginx mit verschlüsselten Verbindungen, mit täglichen Backups, Login-Schutz und Versionierung. Ich weiß aus dem Alltag, wo so ein System aus der Rolle fällt und wie man das früh erkennt.

Dazu ein Grundsatz, den ich mir zu eigen mache: Anweisungen für die KI sind nur Text – auf Deutsch. Die Leute mit dem Fachwissen – Meister, Verwalter, Sachbearbeiter – sollen mitgestalten dürfen. Deshalb baue ich Jargon ab: statt „RAG“ heißt es „die KI bekommt die richtigen Unterlagen“. Und ehrlich bleibt ehrlich: Ich verspreche keine perfekte Wahrheit, sondern messbar bessere Kontrolle. Bei KI plant man klug in kurzen Experimenten – „schafft die KI das überhaupt?“ –, statt „Feature X bis Q2″ zu versprechen.

growento@hamburg: ~/ki-qualitaet

# messen statt raten

schritt_1: echte logs ansehen

schritt_2: fehler-typen finden # pareto

schritt_3: tests bauen (evals)

urteil: pass/fail + begründung

vorher: ~1/3 · nachher: ~9/10 # typischer praxiswert

werkzeug: gehört dir # self-hosted

Ablauf

So läuft die Zusammenarbeit

Erstgespräch (kostenlos). Du zeigst mir, wo deine KI danebenliegt. Ich sage ehrlich, ob sich ein Eval-Sprint lohnt – oder ob ein kleiner Prompt-Fix reicht.
Hinschauen. Ich sehe echte Protokolle durch (oder erzeuge realistische Testfälle, wenn noch keine da sind) und sortiere die Fehler in Klassen. Du bekommst schwarz auf weiß, was wirklich schiefläuft.
Werkzeug & Tests. Du bekommst einen schlichten Daten-Betrachter, in dem dein Team schlechte Antworten mit einem Klick markiert – plus Tests gegen die Top-Fehlerklassen.
Gezielt nachbessern & messen. Ich schraube dort, wo es zählt, und belege die Verbesserung mit Zahlen. Auf Wunsch bleibt der Betrieb inklusive laufender Prüfung bei mir.

FAQ

Häufige Fragen

Was ist ein „Eval“ in einem Satz?

Eine automatische Prüfung, die für viele echte Beispiele beantwortet: Hat die KI die Aufgabe bestanden oder nicht? So siehst du, ob eine Änderung wirklich hilft – statt es zu raten.

Ich habe schon einen Bot, der nicht rundläuft – hilfst du auch da?

Ja, das ist genau der Fall für diese Seite. Egal, wer die KI gebaut hat: Ich sehe mir echte Gespräche an, finde die Fehlerklassen, die den Großteil ausmachen, und bessere gezielt nach. Du musst nicht bei null anfangen.

Woher weiß ich, dass es besser wird und nicht nur anders?

Weil ich vorher und nachher an denselben Testfällen messe. Kein Bauchgefühl, keine Schönwetter-Zahl – eine konkrete Trefferquote an genau der Fähigkeit, die dich stört, mit nachvollziehbarer Begründung je Fall.

Muss ich dafür Daten herausgeben?

Nein. Ich arbeite bevorzugt auf deiner Infrastruktur; der Daten-Betrachter und die Tests können auf deinem eigenen Server laufen. Und wenn noch keine echten Daten da sind, teste ich mit realistischen, erfundenen Fällen.

Wie lange dauert so ein erster Durchgang?

Ein erster Eval-Sprint – Logs ansehen, Fehlerklassen finden, Werkzeug und erste Tests aufsetzen – dauert in der Regel wenige Tage bis zwei Wochen, je nach Datenlage. Danach ist die Basis gelegt, auf der laufend verbessert wird.

Passt zusammen

Die drei Bausteine hinter meiner KI-Arbeit

Diese Seite ist der Baustein „damit es zuverlässig bleibt“. Wenn du noch am Anfang stehst, schau dir die KI-Agenten-Entwicklung an („womit & wie ich baue“) oder die Multi-Agenten-Automatisierung für verzweigte, mehrstufige Abläufe. Den Überblick mit den drei Paketen findest du auf der Hub-Seite KI-Agenten & Automatisierung.

Loslegen

Zeig mir, wo deine KI danebenliegt

Ein konkreter Fehler, der dich nervt, reicht als Einstieg. Ich schaue mir echte Beispiele an und sage dir ehrlich, ob und wie schnell sich das messbar beheben lässt – persönlich betreut, ohne Konzern-Overhead.

Jetzt Erstgespräch anfragen
+49 163 9248557

KI, die zuverlässig bleibt – Qualität, Evals & Optimierung