October 21, 2025

Fallstudie: Kommentieren von Dashcam-Aufnahmen für einen Tier-1-Lieferanten

Im Wettlauf um die perfekte Technologie für autonomes Fahren sind Dashcam-Rohaufnahmen das neue Gold. Es ist jedoch alles andere als einfach, sie in trainingsbereite Daten umzuwandeln. In dieser ausführlichen Fallstudie untersuchen wir, wie ein Tier-1-Automobilzulieferer den komplizierten Prozess der Scale AIsgetreuen Kommentierung von Dashcam-Videos bewältigt hat, um Systeme zur Kraftstofferkennung für Fahrerassistenzsysteme (ADAS (Advanced Driver Assistance Systems) und vollständig autonom fahrende Module zu verwenden. Sie erfahren mehr über die einzigartigen Herausforderungen von realem Filmmaterial, wie mit Randfällen umgegangen wurde und was das Projekt zu einem langfristigen Erfolg gemacht hat.

Der wahre Wert von Dashcam-Annotationen beim autonomen Fahren

Dashcam-Annotationen sind nicht nur ein technischer Prozess — sie sind strategischer Wegbereiter für sicheres und zuverlässiges autonomes Fahren. Während die Automobilindustrie ein höheres Maß an Autonomie anstrebt, wächst der Bedarf an Wahrnehmungsmodellen, die mit der Unvorhersehbarkeit realer Straßen umgehen können, exponentiell. Und nichts bietet dieses Maß an unvorhersehbarer Vielfalt besser als Dashcam-Aufnahmen.

Warum Dashcams für AV-Schulungen von unschätzbarem Wert sind

Im Gegensatz zu zweckmäßig gesammelten Datensätzen in geschlossenen Umgebungen Dashcam-Daten bieten beispiellosen Realismus. Es ist das, was echte Fahrer sehen und erleben — Stoßstange an Stoßstange, abrupte Fahrspurübergänge, rücksichtslose Fußgänger, regnerische Kreuzungen und sogar Bauschilder am Straßenrand, die in regionalen Dialekten geschrieben sind.

Diese Variabilität ist eine Goldgrube für das Training robuster Wahrnehmungssysteme. Hier ist der Grund:

Diversität der Umwelt: Dashcam-Aufnahmen fangen auf natürliche Weise eine ganze Reihe von Bedingungen ein — sonnige Autobahnen, überfüllte Straßen der Stadt, neblige Morgen und schwach beleuchtete Tunnel. Aufgrund dieser unterschiedlichen Umweltbedingungen lassen sich Modelle weitaus besser verallgemeinern als synthetische oder im Labor kuratierte Daten.
Geografische Breite: Autos, die mit Dashcams ausgestattet sind, zeichnen unterschiedliche Länder, Kulturen und Straßeninfrastrukturen auf und liefern so wichtige Informationen für globale AV-Installationen. Von Pariser Kreisverkehren bis hin zu ländlichen Nebenstraßen in Texas — in jedem Clip wird das Modell trainiert, um kontextspezifische Muster zu erkennen.
Seltenheit des Ereignisses: Viele sicherheitskritische Ereignisse — z. B. ein Kind, das über die Straße rennt oder ein plötzlich bremsendes Fahrzeug — treten zu selten auf, als dass sie inszeniert oder manuell erfasst werden könnten. Aber Dashcam-Aufnahmen, insbesondere solche, die im Laufe jahrelanger Fahrt aufgenommen wurden, Erfassen Sie versehentlich diese seltenen, aber wichtigen Grenzfälle.
Verhaltenshinweise: Dashcam-Aufnahmen fangen mehr als nur Objekte ein; sie zeigen wie sich Straßenschauspieler verhalten. Ein Fußgänger, der vor dem Überqueren zögert, ein Fahrer, der auf eine Kreuzung zufährt, oder ein Radfahrer, der unerwartet ausweicht — diese subtilen Verhaltensweisen sind unerlässlich, um autonom fahrende Fahrzeuge in der prädiktiven Entscheidungsfindung zu schulen.
Niedrige Einrichtungskosten: Im Vergleich zu LiDAR oder hochwertigen Sensorgeräten sind Dashcams billig, allgegenwärtig und zeichnen ständig auf. Das macht sie zu einem der skalierbarste Quellen für Fahrdaten, insbesondere für Startups oder Tier-1-Lieferanten, die internationale Datensätze erstellen.

Dashcam-Annotation aus der realen Welt = Sicherere, intelligentere AVs

Wenn Dashcam-Daten mit genauen, kontextbezogenen Anmerkungen angereichert werden, werden sie zu einem strategischen Datensatz, der:

Verbessert die AV-Wahrnehmung in unkontrollierten Umgebungen (z. B. ungewöhnliche Kreuzungen, beschädigte Infrastruktur, komplexes menschliches Verhalten)
Füttert Simulationsplattformen mit authentischen Szenen zu Stresstest-Algorithmen
Verbessert Module zur VerhaltensprognoseDadurch können Fahrzeuge besser vorhersehen, was andere Verkehrsteilnehmer als Nächstes tun könnten
Validiert Entscheidungen in Echtzeit, insbesondere in Regionen mit vielen Randfällen wie Indien, Mexiko oder Südostasien

Für Tier-1-Lieferanten, die Hardware-/Software-Stacks für OEMs entwickeln, ist kommentiertes Dashcam-Filmmaterial nicht nur nützlich —es ist ein Unterscheidungsmerkmal im Wettbewerb. Diejenigen, die Datenvielfalt, Qualität und Kontextreichtum beherrschen, werden die nächste Generation wirklich autonomer Fahrzeuge vorantreiben.

Der Kunde: Ein Tier-1-Lieferant mit der Mission für sicherere Straßen

Unser Kunde, ein globaler Tier-1-Zulieferer, der mit mehreren großen Autoherstellern zusammenarbeitet, benötigte kommentierte Dashcam-Daten, um die Entwicklung seiner Wahrnehmungsmodul der nächsten Generation. Ihre Systeme sind in beide integriert ADAS-Plattformen und vollständig autonome Stacks.

Ihr internes Forschungs- und Entwicklungsteam hatte Terabyte an Dashcam-Filmmaterial aus mehreren Ländern gesammelt, verfügte jedoch nicht über die Kapazität und Infrastruktur, um es Scale AIsgetreu zu kommentieren.

Sie kamen auf uns zu, um Folgendes in Angriff zu nehmen:

Hochpräzise Etikettierung von Objekten, Fahrspuren und Verkehrsschildern
Sequenzbasiertes Tracking zum Erfassen von Bewegungen über mehrere Frames hinweg
Kontextuelles Tagging von herausfordernden Fahrszenarien (z. B. Blendung, Schnee, Nachtfahrten)
Identifizierung von Randfällen für seltene oder riskante Ereignisse (z. B. Fußgänger, stehengebliebene Fahrzeuge)

Wichtigste Herausforderungen beim Kommentieren von Dashcam-Filmmaterial

Dashcam-Annotationen unterscheiden sich grundlegend von Anmerkungen zu kuratierten Videos in Laborqualität. Aus den folgenden Gründen waren für dieses Projekt maßgeschneiderte Lösungen erforderlich:

1. Artefakte von Bewegungsunschärfe und Komprimierung

Dashcams nehmen oft mit 30 Bildern pro Sekunde mit aggressiver Komprimierung auf. Frames können verschwommen oder verzerrt sein. Dadurch werden Objektkanten weniger definiert und es ist schwieriger, sie zu beschriften.

🧩 Lösung: Wir haben eine entwickelt Pipeline zur Frame-Validierung um unbrauchbare Frames zu erkennen und zu löschen, wodurch die Datenqualität erhalten bleibt, ohne Zeit für Anmerkungen zu verschwenden.

2. Unvorhersehbare Licht- und Wetterbedingungen

Von direkter Sonneneinstrahlung über neblige Morgen bis hin zu regenbespritzten Windschutzscheiben wirken sich Lichtveränderungen auf die Sichtbarkeit und das Erscheinungsbild der Objekte aus.

🧩 Lösung: Die Kommentatoren erhielten szenariospezifische Richtlinien (z. B. zum Umgang mit Reflexionen in der Abenddämmerung), und die Überprüfung der Anmerkungen wurde nach Zustandstypen aufgeteilt, um die Konsistenz zu gewährleisten.

3. Versperrte oder verdeckte Objekte

Fußgänger, die teilweise von geparkten Autos verdeckt werden, oder Radfahrer, die sich zwischen Fahrzeugen bewegen, sind weit verbreitet — und für Sicherheitsanwendungen von entscheidender Bedeutung.

🧩 Lösung: Wir haben eine integriert Tracking-First-Ansatz, wo der zeitliche Kontext dazu beitrug, teilweise sichtbare Objekte zu disambiguieren.

4. Beschriftungen über ausgedehnte Videosequenzen

Das Kommentieren langer Videoclips führt zu Ermüdung und Labeldrift. Ohne zeitliche Kohärenz fallen Tracking-IDs und Objektkonsistenz auseinander.

🧩 Lösung: Wir haben benutzt halbautomatische Interpolations- und ID-Propagierungswerkzeuge, was die konsistente Objektverfolgung erheblich beschleunigt und gleichzeitig die menschliche Aufsicht behält.

Maßgeschneiderte Workflows für eine anspruchsvolle Annotationspipeline

Bei dem Projekt ging es nicht darum, ein generisches Annotationstool auszuführen — es ging darum, ein maßgeschneiderte Datenmaschine. Wir haben mehrere wichtige Workflows eingeführt, um den sich ändernden Bedürfnissen des Kunden gerecht zu werden:

Objektverfolgung mit hoher Genauigkeit

Jeder Instanz (Fußgänger, Auto, Motorrad, Ampel) wurde eine zugewiesen persistente ID rahmenübergreifend, mit ausführlichen Hinweisen zum Betreten und Verlassen des Sichtfeldes.

Insbesondere dynamische Objekte (Busse, Roller, Einsatzfahrzeuge) erforderlich:

Präzise Entwicklung der Bounding-Box im Laufe der Zeit
Geschwindigkeits- und Bewegungsvektorschätzung
Klassifizierung nach Bewegungsmustern (z. B. Zusammenführen, Stoppen, unberechenbares Verhalten)

Adaptive Fahrspurmarkierung

Fahrspuranmerkungen waren besonders knifflig. Aufgrund unterschiedlicher Straßenmarkierungen, schlechter Sicht und Baustellen konnten wir uns nicht auf statische Annahmen verlassen.

Wir haben mit dem Kunden zusammengearbeitet, um zu entwickeln benutzerdefinierte Fahrspurklassen basierend auf:

Typ (durchgehend, gestrichelt, doppelt)
Sichtweite (klar, teilweise, abgenutzt)
Anwendungsfall (Radweg, Abbiegespur, Busspur)

Dies half ihren Modellen, nicht nur Fahrspuren zu erkennen, sondern auch ihre Funktion zu verstehen.

Szenario-Tagging und Metadatenebene

Neben Objektbeschriftungen haben wir hinzugefügt Metadaten-Overlays beschreibt jeden Fahrkontext. Zu den Beispielen gehören:

„Starker Regen“
„Tunnel mit schlechter Beleuchtung“
„Kreuzung mit verdeckten Ampeln“
„Fußgänger tritt zwischen geparkte Autos ein“

Diese Tags waren entscheidend für die Erstellung von Edge-Case-Datensätzen und für die gezielte Modellbewertung.

Qualitätskontrolle: Sicherstellung der Konsistenz über mehr als 1 Mio. Frames

Wenn Sie mit riesigen Mengen sequentieller Daten arbeiten, Konsequenz ist Trumpf. Eine falsche Bezeichnung kann die Leistung des Modells beeinträchtigen. So haben wir die Qualität während der gesamten Pipeline aufrechterhalten:

Mehrschichtiges Überprüfungssystem

Wir haben eine implementiert 3-stufige Bewertung:

Erste Überprüfung von einem Peer-Annotator mit szenariospezifischer Ausbildung
Batch-QA von einem erfahrenen Annotator, der sowohl die Etikettenqualität als auch die Sequenzkonsistenz überprüft
Stichprobenartige Prüfungen durch das interne Validierungsteam des Kunden unter Verwendung unserer Berichte

Erkennung zeitlicher Labeldrift

Bei benutzerdefinierten Skripten wurde festgestellt, dass die Bezeichnung im Laufe der Zeit abweicht — Warnung:

Plötzliches Verschwinden von Objekten
Größenanomalien beim Bounding-Box-Bereich
Falsche ID-Neuzuweisung über Okklusionen hinweg

Dadurch können wir subtile Inkonsistenzen frühzeitig erkennen.

Visuelle QA-Dashboards

Um sowohl unserem Team als auch dem Kunden zu helfen, Fortschritt und Qualität zu überwachen, haben wir interaktive Dashboards zeigt:

Klassenverteilung im Datensatz
Beispielbilder pro Tag
Zyklusstatistiken überprüfen
Heatmaps mit Geschwindigkeit und Fehlerrate bei Anmerkungen

Was hat dieses Projekt einzigartig (und erfolgreich) gemacht 🚀

Mehrere Faktoren trugen dazu bei, dass dieses Projekt die Erwartungen übertraf:

Enge Zusammenarbeit mit dem Kunden: Wöchentliche Synchronisationen sorgten für schnelles Feedback und sich ändernde Prioritäten wurden in Echtzeit berücksichtigt.
Scale AIsgetreue Anmerkung: Wir haben uns darum gekümmert 10.000 Sequenzen und kommentierte mehr als 1 Million Bilder in weniger als 4 Monaten.
Zukunftssicheres Design: Unsere Datenlieferungspipeline wurde so konzipiert, dass sie direkt in den MLOps-Stack des Kunden integriert werden kann.

Dank dieses Projekts hat der Kunde jetzt:

✅ Hat eine kuratierte Bibliothek mit herausfordernden Randfällen
✅ Kann seltene Szenarien für AV-Modelltests simulieren
✅ Fügt reale Sequenzen in ihr Verhaltensvorhersagemodul ein

Die mit diesem Datensatz trainierten Modelle zeigten deutliche Verbesserung des MaP-Zustands auf der ganzen Linie — insbesondere für Klassen wie Motorräder und teilweise versperrte Fußgänger.

Gelernte Erkenntnisse: Annotation ist nicht nur eine Aufgabe — es ist eine Partnerschaft

Im Laufe des Projekts wurde es immer klarer: Bei einer erfolgreichen Annotation auf dieser Skala geht es weniger darum, Kästchen anzukreuzen, sondern mehr um die kontinuierliche Abstimmung zwischen menschlichen Annotatoren, Ingenieuren für maschinelles Lernen und Fachexperten.

Hier sind die wertvollsten Erkenntnisse, die wir von der Reise mitgenommen haben:

1. Annotationen sind keine Universallösung

Das Dashcam-Filmmaterial ist sehr unterschiedlich. Selbst innerhalb derselben Stadt sieht ein sonniges Pendeln am Morgen nicht wie eine regnerische Hauptverkehrszeit am Abend aus. Eine statische Richtlinie kann nicht alle Nuancen abdecken. Die Anweisungen für Anmerkungen müssen sich mit dem Filmmaterial weiterentwickeln—vor allem, wenn es um Blendung, Okklusionen, Bauzonen oder Änderungen des Kamerawinkels geht.

Essen zum Mitnehmen: Halten Sie die Annotationsprotokolle dynamisch. Führen Sie Pilotbatches durch und passen Sie Regeln an, die auf realen Randfällen basieren, nicht auf theoretischen Beispielen.

2. Menschliches Fachwissen ist immer noch besser als Vollautomatisierung

Trotz des Aufstiegs von Automatisierungstools und Interpolationsalgorithmen war menschliches Urteilsvermögen unersetzlich — insbesondere in folgenden Bereichen:

Absicht interpretieren (z. B. ist der Fußgänger kurz davor, sie zu überqueren, oder steht er nur?)
Klassifizieren von teilweise verdeckten oder mehrdeutigen Objekten
Umgang mit ungewöhnlichen Interaktionen, z. B. Rettungsfahrzeugen, die gegen Verkehrsregeln verstoßen

Das haben wir gefunden halbautomatische Workflows, die durch menschliche Überprüfung unterstützt wurden, haben das richtige Gleichgewicht zwischen Geschwindigkeit und Genauigkeit gefunden.

Essen zum Mitnehmen: Die Automatisierung erhöht den Umfang, aber reale Randfälle erfordern immer noch geschultes menschliches Auge.

3. Wahrnehmungsorientiertes Denken übertrifft pixelzentrisches Denken

Herkömmliche Annotationen konzentrieren sich oft auf Pixel: das Zeichnen des perfekten Quaders, der perfekten Maske oder des perfekten Polygons. Aber beim Training von AV-Wahrnehmungsmodellen Kontextuelles Verständnis ist wichtiger. Zum Beispiel:

Ein verschwommenes Objekt ist möglicherweise immer noch anhand seines Bewegungspfads in früheren Frames erkennbar.
Eine Fahrbahnmarkierung, die bei Blendung verschwindet, sollte trotzdem mit Anmerkungen versehen werden, wenn der Straßenkontext Kontinuität vermuten lässt.

Durch die Schulung von Annotatoren zu denken wie Wahrnehmungsingenieure, haben wir einen Datensatz erstellt, der im Downstream nützlicher war — auch wenn das bedeutete, manchmal von der Pixelperfektion abzuweichen.

Essen zum Mitnehmen: Bringen Sie den Kommentatoren bei, in Bezug auf die Logik der AV-Wahrnehmung zu denken — nicht nur in Bezug auf die Bildgenauigkeit.

4. Rückkopplungsschleifen zwischen Annotation und Modelltraining sind entscheidend

Modellentwickler arbeiten oft isoliert von Annotationsteams. Aber in diesem Projekt gibt es häufige Feedback-Zyklen (z. B. „Unser Modell hat Probleme mit diesen Bauzonen — können wir sie besser kennzeichnen?“) hat uns geholfen Optimieren Sie den Datensatz speziell für die reale Modellleistung.

Diese Schleife ermöglichte proaktive Verbesserungen wie:

Erstellen eines separaten Tags für „temporäre Fahrspuren“
Anpassen der Bounding-Box-Dichtheit an Objekten mit hoher Geschwindigkeit
Hinzufügen von Ereignismarkern, um abnormales Verhalten hervorzuheben

Essen zum Mitnehmen: Die Anmerkung sollte nicht „geliefert und fertig“ sein. Schließen Sie frühzeitig und häufig den Kreis mit den Modellteams.

5. Edge Case Curation ist das wahre Geheimrezept

Es ist zwar beeindruckend, mehr als 1 Mio. Frames zu beschriften, aber was den Wert wirklich gesteigert hat, war unsere Fähigkeit Ergründe und markiere seltene Szenarien, bei denen viel auf dem Spiel steht:

Abgelenkte Fußgänger mit Ohrstöpseln, die von Bordsteinen herunterkommen
Fahrer ignorieren Stoppschilder
Radfahrer weichen wegen Schlaglöchern aus

Diese seltenen Fälle machen das AV nicht nur intelligenter, sondern auch sicherer.

Essen zum Mitnehmen: Behandeln Sie Randfälle nicht als statistisches Rauschen. Behandle sie als Trainingsgold.

6. Die Qualität der Anmerkungen verbessert sich mit der Unterstützung von Annotatoren

Wenn Kommentatoren wie Zahnradarbeit behandelt werden, leidet die Qualität. Wenn sie jedoch das „Warum“ hinter der Aufgabe verstehen — was das Modell mit den Daten machen wird —, sind sie genauer und haben mehr Erfahrung.

Wir haben Annotatoren mit folgenden Funktionen ausgestattet:

Zugriff auf Modellfeedback in Echtzeit
Klare Erläuterungen zu den Auswirkungen des Projekts
Möglichkeiten, Grenzfälle zu melden oder Protokolländerungen vorzuschlagen

Essen zum Mitnehmen: Investieren Sie in das Verständnis und das Engagement der Kommentatoren. Ihr Wissen ist Ihr unsichtbarer Vorteil.

7. Die Zusammenarbeit mit Kunden fördert den langfristigen Erfolg

Bei wöchentlichen Synchronisationen mit dem Tier-1-Anbieter ging es nicht nur um Updates — sie ermöglichten:

Feedback in Echtzeit zu sich entwickelnden Randfällen
Gemeinsames Problemlösen (z. B. wie man Lichtreflexe auf nassen Straßen behandelt)
Abstimmung auf die nachgelagerte Nutzung des Datensatzes

Die Zusammenarbeit wurde gefördert Vertrauen, Agilität und gemeinsame Verantwortung, die alle zum dauerhaften Erfolg des Projekts beigetragen haben.

Essen zum Mitnehmen: Behandeln Sie den Kunden wie einen Produktpartner — nicht nur wie einen Käufer.

Am Ende des Projekts lieferten wir nicht nur kommentierte Videos — wir lieferten eine Datengrundlage, die in der Lage ist, die AV-Sicherheit in komplexen, realen Umgebungen zu gewährleisten.

Wenn Anmerkungen auf die Wahrnehmung abgestimmt, mit Kontext angereichert und durch kollaboratives Feedback unterstützt werden, verwandelt sie sich von einer Kostenstelle in eine strategische Säule der autonomen Entwicklung.

Neugierig, wie Dashcam Annotation Ihren AV-Stack aufwerten kann? 👇

Wenn Ihr Team stundenlang (oder Terabyte) an Dashcam- oder Sensormaterial sitzt und sich fragt, wie es modellfertig gemacht werden kann —du bist nicht allein.

Bei DataVLab haben wir Tier-1-Zulieferern, AV-Startups und OEMs dabei geholfen, alles zu kommentieren, von Spurwechseln bis hin zu herumlaufenden Fußgängern im realen Verkehr.

Lass uns reden—egal, ob Sie Ihren ersten Datensatz planen oder auf Millionen von Frames skalieren, wir würden uns freuen, mit Ihnen zusammenzuarbeiten.

🔗 DataVLab
📩 Oder wenden Sie sich direkt an uns, um das Gespräch zu beginnen.

Blog und Ressourcen