Was ist Datenannotation und warum ist der Typ wichtig?
Jedes überwachte KI-Modell lernt aus strukturierten Beispielen. Die Art der Annotation entscheidet, welche Information dem Modell zur Verfügung steht: nur eine Kategorie, die Position eines Objekts, seine exakte Fläche, eine Bewegung über Zeit, eine Textentität, eine Transkription oder eine 3D-Position im Raum.
Der falsche Annotationstyp führt zu Modellen, die die eigentliche Aufgabe nicht lösen können. Ein Modell für Objekterkennung braucht räumliche Markierungen, nicht nur Bildklassen. Ein Modell für präzise medizinische Flächen braucht Segmentierung, nicht nur Bounding Boxes. Ein LLM-Evaluationsprozess braucht oft mehrdimensionale menschliche Bewertungen, nicht nur ein binäres Gut/Schlecht-Label.
Dieser Leitfaden erklärt die wichtigsten Arten der Datenannotation für Bild, Text, Audio, Video und 3D-Daten und zeigt, wann welcher Typ sinnvoll ist.
Arten der Bildannotation
Bounding-Box-Annotation
Eine Bounding Box ist ein Rechteck um ein Objekt. Sie beschreibt Position und grobe Größe, aber nicht die exakte Form. Bounding Boxes sind schnell, gut skalierbar und kompatibel mit den meisten Objekterkennungsmodellen. Sie eignen sich für Fahrzeuge, Personen, Produkte, Maschinen, Pflanzen oder Defekte, wenn präzise Kanten nicht entscheidend sind.
Grenze: Die Box enthält immer auch Hintergrundpixel. Für Aufgaben, bei denen exakte Flächen wichtig sind, reicht sie nicht aus.
Polygon-Annotation
Polygone folgen der Kontur eines Objekts mit mehreren Punkten. Sie sind präziser als Boxen und eignen sich für unregelmäßige Formen: Straßenränder, Dächer, Schäden, Organe, Kleidungsstücke, Pflanzen oder Bauteile. Polygone kosten mehr Zeit, liefern aber ein besseres räumliches Signal.
Semantische Segmentierung
Bei semantischer Segmentierung erhält jeder relevante Pixelbereich eine Klasse. Alle Pixel einer Straße werden beispielsweise als Straße markiert, alle Pixel eines Gebäudes als Gebäude. Diese Annotation ist wichtig für autonome Systeme, medizinische Bildanalyse, Satellitenbilder und industrielle Inspektion.
Instanzsegmentierung
Instanzsegmentierung trennt einzelne Objekte derselben Klasse voneinander. Zwei Personen erhalten nicht nur die Klasse „Person“, sondern zwei separate Instanzen. Das ist wichtig, wenn Modelle zählen, einzelne Objekte verfolgen oder Überlappungen verstehen müssen.
Keypoints und Landmarken
Keypoints markieren bestimmte Punkte: Gelenke am Körper, Gesichtspunkte, technische Referenzpunkte, Ecken eines Kennzeichens oder Landmarken in medizinischen Bildern. Sie werden für Pose Estimation, Gesichtsanalyse, Robotik, Sportanalyse und geometrische Korrekturen genutzt.
Bildklassifikation
Bei der Bildklassifikation erhält das gesamte Bild ein oder mehrere Labels. Das ist einfach und günstig, eignet sich aber nur, wenn das Modell nicht wissen muss, wo etwas im Bild liegt. Beispiele sind „defekt/nicht defekt“, „enthält Produkt X“ oder „Dokumenttyp Rechnung“.
Arten der Text- und NLP-Annotation
Named Entity Recognition
NER markiert Entitäten in Texten: Personen, Organisationen, Orte, Produkte, medizinische Begriffe, juristische Referenzen oder Beträge. Diese Annotation unterstützt Informationsextraktion, Suche, Compliance, Dokumentanalyse und RAG-Systeme.
Sentiment- und Emotionsannotation
Sentiment-Annotation klassifiziert Texte nach Stimmung, etwa positiv, negativ oder neutral. Emotionstags gehen weiter und markieren Ärger, Freude, Angst, Frustration oder Dringlichkeit. Solche Labels werden für Kundenservice, Social Listening und Moderation genutzt.
Intent- und Dialogannotation
Intent-Annotation erfasst, was ein Nutzer erreichen möchte: Termin buchen, Rechnung anfragen, Bestellung stornieren, Beschwerde einreichen. In Dialogsystemen können zusätzlich Slots, Kontext, Eskalationsbedarf und Antwortqualität annotiert werden.
Relation Extraction
Relation Extraction markiert Beziehungen zwischen Entitäten: Unternehmen A übernimmt Unternehmen B, Medikament X behandelt Krankheit Y, Person P arbeitet bei Organisation O. Diese Annotation ist wichtig für Knowledge Graphs, wissenschaftliche Extraktion und Enterprise Search.
Coreference Resolution
Coreference Annotation verbindet verschiedene Ausdrücke, die auf dieselbe Entität verweisen. Zum Beispiel „Marie“, „sie“ und „die Gründerin“. Sie hilft Modellen, längere Texte und Dokumente konsistent zu verstehen.
Textklassifikation
Textklassifikation weist einem Dokument, Absatz oder Satz eine Kategorie zu: Spam, Beschwerde, Risiko, Thema, Sprache oder Policy-Verstoß. Sie ist oft der Einstieg in NLP-Projekte, benötigt aber trotzdem klare Guidelines für Grenzfälle.
Arten der Audio- und Sprachannotation
Transkription
Transkription wandelt Sprache in Text um. Je nach Ziel kann sie wörtlich, bereinigt, mit Zeitstempeln oder mit Sprecherinformationen erfolgen. Sie ist Grundlage für Speech-to-Text, Call-Center-Analyse, Untertitelung und Sprachassistenz.
Sprecherdiarisierung und Sprecheridentifikation
Diarisierung beantwortet die Frage: Wer spricht wann? Sprecheridentifikation geht weiter und ordnet Segmente bekannten Personen zu. Diese Annotation ist wichtig für Meetings, Interviews, Support Calls und Audioanalyse.
Akustische Ereignisse
Sound-Classification markiert Geräusche wie Glasbruch, Motoren, Alarme, Schritte, Husten oder Maschinenfehler. Sie wird in Sicherheit, Industrie, Smart Home und medizinischen Anwendungen eingesetzt.
Phoneme, Prosodie und Emotion
Fortgeschrittene Sprachprojekte benötigen Markierungen für Phoneme, Betonung, Pausen, Tempo, Tonhöhe oder Emotion. Diese Annotationen sind komplexer und erfordern häufig linguistische Kompetenz.
Arten der Videoannotation
Frame-by-Frame-Annotation
Bei der Frame-by-Frame-Annotation werden Objekte oder Ereignisse in einzelnen Frames markiert. Sie ist präzise, aber aufwendig. Sie wird genutzt, wenn Modelltraining oder Evaluation eine genaue zeitliche Auflösung benötigt.
Objekttracking
Objekttracking verfolgt dieselbe Instanz über mehrere Frames. Das Modell lernt nicht nur, ein Objekt zu erkennen, sondern auch seine Identität und Bewegung über Zeit. Das ist zentral für autonome Fahrzeuge, Sportanalyse, Drohnen, Überwachung und Robotik.
Action- und Event-Recognition
Hier werden Handlungen oder Ereignisse markiert: Sturz, Betreten eines Bereichs, Greifen eines Objekts, gefährliches Verhalten, Tor, Foul oder Maschinenstillstand. Die Herausforderung besteht darin, Start- und Endzeitpunkte konsistent zu definieren.
Videoklassifikation
Bei Videoklassifikation erhält ein ganzer Clip ein Label. Das ist günstiger als detailliertes Tracking, reicht aber nur, wenn die genaue Position oder Zeit des Ereignisses nicht gebraucht wird.
Arten der 3D- und Spatial-Annotation
3D-Bounding-Box-Annotation
3D-Boxen beschreiben Position, Größe und Orientierung eines Objekts im Raum. Sie werden vor allem in autonomen Fahrzeugen, Robotik, Logistik und industrieller Inspektion genutzt. Die Annotation ist anspruchsvoller als 2D-Boxen, weil Tiefe und Rotation stimmen müssen.
Punktwolkenannotation
Punktwolken aus LiDAR oder anderen Sensoren können klassifiziert, segmentiert oder mit Instanzen versehen werden. Annotatoren müssen oft in 3D navigieren und spärliche Daten interpretieren. QA ist hier besonders wichtig.
Sensorfusion
Sensorfusion verbindet Daten aus Kamera, LiDAR, Radar oder GPS. Annotationen müssen über Modalitäten hinweg konsistent sein. Das erhöht den Aufwand, liefert aber robuste Trainingsdaten für Systeme, die in komplexen realen Umgebungen arbeiten.
Wie Sie den richtigen Annotationstyp wählen
Beginnen Sie mit der Modellaufgabe. Soll das Modell klassifizieren, lokalisieren, segmentieren, zählen, verfolgen, transkribieren, vergleichen oder bewerten? Danach bestimmen Sie die minimale Annotation, die diese Aufgabe zuverlässig unterstützt. Mehr Präzision ist nicht immer besser, wenn sie den Kostenrahmen sprengt und dem Modellziel kaum hilft.
Ein Pilotbatch ist der beste Weg, die Entscheidung zu validieren. Er zeigt, ob Guidelines verständlich sind, wie lange die Aufgabe dauert, welche Grenzfälle auftreten und welche QA-Metriken realistisch sind.
Kosten und Komplexität nach Annotationstyp
Im Allgemeinen ist Bild- oder Textklassifikation am günstigsten. Bounding Boxes und einfache NER liegen im mittleren Bereich. Polygone, Segmentierung, Video-Tracking, OCR auf schwierigen Bildern, LLM-Human-Evaluation und 3D-Annotation sind komplexer. Medizinische, juristische oder sicherheitskritische Annotation benötigt zusätzlich Fachwissen und Review.
Die richtige Entscheidung verbindet Modellziel, Qualitätsrisiko und Budget. Ein günstiger Annotationstyp ist nicht günstig, wenn er ein Modell erzeugt, das die eigentliche Aufgabe nicht lösen kann.
Von Anfang an richtig annotieren
DataVLab unterstützt Teams bei der Auswahl des passenden Annotationstyps, der Erstellung von Guidelines, Pilotbatches, Qualitätssicherung und skalierter Produktion. Wenn Sie nicht sicher sind, ob Ihr Projekt Klassifikation, Bounding Boxes, Segmentierung, Textannotation, Video-Tracking oder 3D-Annotation benötigt, kontaktieren Sie uns.









