05.07.2026

Inter-Annotator Agreement für LLM-Evaluation: Praxisleitfaden

Inter-Annotator Agreement ist die quantitative Grundlage jeder glaubwürdigen LLM-Evaluation mit menschlichem Urteil. Dieser Leitfaden erklärt, warum Uneinigkeit ein Qualitätssignal ist, welche Kennzahlen wirklich relevant sind, wie Zielwerte je nach Subjektivität gesetzt werden und wie Teams IAA als kontinuierliches Monitoring in produktiven Evaluations- und Annotation-Pipelines nutzen.

Praxisleitfaden zu Inter-Annotator Agreement in der LLM-Evaluation: Cohen Kappa, Fleiss Kappa, Krippendorff Alpha, Zielwerte und Monitoring.

Wenn zwei Fachexperten sich nicht einig sind, ob eine LLM-Antwort hilfreich, korrekt oder riskant ist, wer hat dann recht? Wenn drei Annotatoren dieselbe Antwort mit 4, 5 und 2 bewerten, was wissen Sie wirklich über die Qualität dieser Antwort? Und wenn ein RLHF-Datensatz nur 60 % Konsens erreicht, ist das ein schlechtes Ergebnis — oder ein erwartbares Signal für eine subjektive Aufgabe?

Diese Fragen stehen im Zentrum jeder LLM-Evaluation, die menschliche Urteile nutzt. Inter-Annotator Agreement, oft IAA genannt, misst, wie stark mehrere Annotatoren bei denselben Aufgaben übereinstimmen. Es ist kein akademisches Detail. Es entscheidet darüber, ob Benchmark-Zahlen belastbar sind, ob ein Reward Model ein konsistentes Signal lernt und ob Compliance-Dokumentation einer Prüfung standhält.

Viele Teams behandeln IAA als einmaligen Pilot-Check. Sie lassen 100 Beispiele doppelt annotieren, berechnen eine Kennzahl und gehen dann zur Produktion über. In der Praxis ist IAA aber ein kontinuierliches Qualitätssignal. Es zeigt, ob Guidelines verstanden werden, ob Taxonomien stabil sind, ob neue Annotatoren kalibriert sind und ob die Aufgabe selbst vielleicht subjektiver ist als ursprünglich angenommen.

Warum Uneinigkeit kein reines Rauschen ist

Uneinigkeit zwischen Annotatoren ist nicht automatisch ein Fehler. Sie kann auf schlechte Guidelines hinweisen, aber auch auf echte Mehrdeutigkeit im Task. Bei objektiven Aufgaben — etwa ob ein JSON-Output valide ist — sollte die Übereinstimmung sehr hoch sein. Bei Bewertungen von Nützlichkeit, Stil, Sicherheit oder Präferenz ist ein geringerer Konsens oft normal.

Der Fehler besteht darin, jede Abweichung wie individuelles Versagen zu behandeln. Wenn kompetente Annotatoren systematisch unterschiedliche Entscheidungen treffen, liegt die Ursache häufig in der Aufgabenformulierung: unklare Kriterien, fehlende Beispiele, überlappende Klassen, uneindeutige Skalen oder nicht dokumentierte Grenzfälle.

Die vier Kennzahlen, die Teams kennen sollten

Cohen’s Kappa

Cohen’s Kappa misst die Übereinstimmung zwischen zwei Annotatoren und berücksichtigt, wie viel Übereinstimmung zufällig zu erwarten wäre. Es ist nützlich für Pilotphasen, Kalibrierung und einfache Zwei-Personen-Vergleiche. Ein hoher Prozentwert allein reicht nicht aus, weil er Zufallstreffer nicht sauber herausrechnet.

Fleiss’ Kappa

Fleiss’ Kappa erweitert die Logik auf mehr als zwei Annotatoren. Es eignet sich für größere Evaluationsprojekte, in denen mehrere Personen dieselben Items bewerten. Es ist besonders nützlich, wenn Kategorien diskret sind, etwa „korrekt“, „teilweise korrekt“, „falsch“ oder „nicht bewertbar“.

Krippendorff’s Alpha

Krippendorff’s Alpha ist flexibler und kann mit fehlenden Bewertungen, unterschiedlichen Skalenniveaus und mehreren Annotatoren umgehen. Für komplexe LLM-Evaluationen ist diese Kennzahl oft robuster, insbesondere wenn nicht jedes Item von denselben Personen bewertet wird.

Korrelation und Rangmetriken

Bei numerischen Scores, Rankings oder pairwise Preferences können Korrelationsmetriken sinnvoller sein als Kappa. Wenn Annotatoren nicht exakt dieselbe Punktzahl vergeben, aber dieselbe Reihenfolge von Antworten bevorzugen, kann das für den Anwendungsfall ausreichend sein.

Welche Zielwerte sind realistisch?

Es gibt keinen universellen IAA-Zielwert. Der richtige Wert hängt von der Aufgabe ab. Objektive Aufgaben sollten sehr hohe Übereinstimmung erreichen, oft 0,90 oder mehr. Moderat subjektive Aufgaben, etwa Qualitätsstufen oder Fehlerkategorien, liegen häufig im Bereich von 0,70 bis 0,85. Stark subjektive Aufgaben wie Präferenzdaten für RLHF, Stilbewertungen oder kreative Qualität können auch mit 0,60 bis 0,75 produktiv nutzbar sein, wenn der Workflow entsprechend gestaltet ist.

Wichtiger als eine einzelne Zahl ist die Interpretation nach Task-Risiko. Ein Sicherheits- oder Compliance-Label mit niedrigem IAA-Wert ist ein Warnsignal. Ein niedrigerer Wert bei einer bewusst subjektiven Präferenzaufgabe kann dagegen erwartbar sein. Entscheidend ist, dass Teams dokumentieren, warum ein Zielwert angemessen ist und welche Maßnahmen bei Abweichungen greifen.

IAA als kontinuierliches Signal betreiben

In produktiven Pipelines sollte ein Teil der Daten regelmäßig überlappt werden. Das bedeutet: dieselben Items werden von mehreren Annotatoren bearbeitet, ohne dass sie die Entscheidungen der anderen sehen. Die Ergebnisse fließen in Dashboards, Kalibrierungssitzungen und Guideline-Updates ein.

Ein praktikabler Ansatz ist eine gestaffelte Überlappung. Neue Annotatoren erhalten mehr Overlap, erfahrene Annotatoren weniger. Kritische Klassen, seltene Fälle und kürzlich geänderte Guidelines werden stärker kontrolliert. Sobald IAA unter einen definierten Schwellenwert fällt, wird nicht einfach mehr QA durchgeführt, sondern die Ursache analysiert: Personenproblem, Guideline-Problem, Taxonomieproblem oder echter Grenzfall?

Interventionen bei niedrigem Agreement

  • Guidelines mit positiven, negativen und grenzwertigen Beispielen erweitern.
  • Konfliktfälle in Kalibrierungssitzungen gemeinsam diskutieren.
  • Skalen vereinfachen, wenn Annotatoren Zwischenstufen nicht konsistent unterscheiden können.
  • Klassen zusammenlegen oder trennen, wenn sie operativ nicht eindeutig sind.
  • Goldstandard-Beispiele einführen und regelmäßig neu validieren.
  • Annotatoren nach Domänenkompetenz, Sprache oder Fehlertyp segmentieren.

Wann IAA selbst irreführend sein kann

IAA ist mächtig, aber nicht perfekt. Hohe Übereinstimmung kann trügerisch sein, wenn die Aufgabe zu einfach ist oder Annotatoren dieselben falschen Annahmen teilen. Niedrige Übereinstimmung kann akzeptabel sein, wenn die Aufgabe bewusst subjektiv ist. Außerdem können unausgewogene Klassen Kappa-Werte verzerren: Wenn fast alle Beispiele negativ sind, sieht die Prozentübereinstimmung gut aus, obwohl das Modell oder die Annotatoren seltene positive Fälle schlecht behandeln.

Deshalb sollte IAA nie isoliert gelesen werden. Teams sollten zusätzlich Fehlertypen, Klassenverteilung, Reviewer-Kommentare, Modellperformance und Auswirkungen auf nachgelagerte Entscheidungen betrachten.

Bedeutung für EU AI Act und Compliance

Für europäische Teams wird IAA auch aus Governance-Sicht wichtig. Wenn menschliche Bewertungen zur Validierung eines KI-Systems genutzt werden, müssen diese Bewertungen nachvollziehbar, konsistent und dokumentiert sein. Der EU AI Act verlangt für Hochrisiko-Systeme unter anderem Daten-Governance, Risikomanagement, technische Dokumentation und menschliche Aufsicht. IAA kann belegen, dass menschliche Qualitätsurteile nicht beliebig, sondern kontrolliert und kalibriert sind.

Das bedeutet nicht, dass jede Annotation einen perfekten Kappa-Wert benötigt. Es bedeutet, dass Teams erklären können sollten, wie Guidelines erstellt wurden, wie Annotatoren geschult wurden, welche Agreement-Ziele gelten, wie Abweichungen behandelt werden und welche Daten für Audits erhalten bleiben.

Ein produktionsreifer Workflow

Ein guter IAA-Workflow beginnt vor der Massenannotation. Zuerst wird ein Pilotdatensatz erstellt. Mehrere Annotatoren bearbeiten dieselben Items. Danach werden Uneinigkeiten analysiert, Guidelines verbessert und Zielwerte definiert. Erst dann beginnt die skalierte Produktion mit regelmäßiger Überlappung, QA und Drift-Monitoring.

Besonders wichtig ist die Versionierung. Jede Änderung an Taxonomie, Skala oder Guideline muss dokumentiert werden. Sonst lassen sich IAA-Werte über Zeit nicht sinnvoll vergleichen. Wenn ein Kappa-Wert fällt, muss klar sein, ob sich die Aufgabe, das Team oder die Datenverteilung verändert hat.

Fazit

Inter-Annotator Agreement ist nicht nur eine Qualitätskennzahl. Es ist ein Frühwarnsystem für unklare Aufgaben, unzureichende Guidelines, instabile Bewertungslogik und regulatorische Risiken. Teams, die IAA kontinuierlich messen, können ihre LLM-Evaluation robuster, auditierbarer und kosteneffizienter machen.

DataVLab unterstützt KI-Teams bei LLM-Evaluation, Präferenzdaten, Red Teaming, Human Review und qualitätsgesicherter Annotation. Wenn Sie eine produktive Evaluationspipeline mit belastbaren Agreement-Metriken aufbauen möchten, sprechen Sie mit uns.

Topics

Lassen Sie uns Ihr Projekt besprechen

Wir können zuverlässige und spezialisierte Annotationsdienste anbieten und die Leistung Ihrer KI verbessern.

Abstract blue gradient background with a subtle grid pattern.

Blog und Ressourcen

Lesen Sie unsere neuesten Artikel zu Datenannotation, Trainingsdaten, Qualitätssicherung, LLM-Evaluation und Best Practices für KI-Teams.

Entdecken Sie unsere verschiedenen
Anwendungen in der Industrie

Unsere Datenkennzeichnungsdienste richten sich an verschiedene Branchen und gewährleisten qualitativ hochwertige Anmerkungen, die auf Ihre spezifischen Bedürfnisse zugeschnitten sind.

Dienste zur Datenanmerkung

Schöpfen Sie das volle Potenzial Ihrer KI-Anwendungen mit unserer erfahrenen Datenkennzeichnungstechnologie aus. Wir sorgen für qualitativ hochwertige Anmerkungen, die Ihre Projektzeitpläne verkürzen.