August 11, 2025

Étude de cas : ensemble de données LiDAR Fusion pour une start-up de mobilité urbaine

Dans le monde en évolution rapide de la mobilité autonome et des villes intelligentes, la fusion LiDAR se situe à la croisée de la précision de la perception et de la faisabilité dans le monde réel. Cette étude de cas vous explique le parcours d'une start-up européenne de mobilité urbaine qui a entrepris de créer un ensemble de données annotées multi-capteurs de haute qualité combinant des données LiDAR, RGB et GPS, constituant l'épine dorsale de son système de navigation IA avancé.

Découvrez comment un ensemble de données LiDAR Fusion transforme la mobilité urbaine pour une start-up innovante. Une avancée en transport intelligent

La vision de la start-up : une micro-mobilité plus intelligente grâce à l'IA 🛴

Le client, une start-up financée par du capital-risque basée en Europe du Nord, avait une mission audacieuse : repenser le transport du dernier kilomètre avec des solutions de micromobilité alimentées par l'IA. Pensez aux trottinettes électriques, aux robots de trottoir autonomes et aux véhicules de livraison compacts capables de comprendre leur environnement et de prendre des décisions en temps réel.

Pour concrétiser cette vision, ils avaient besoin de bien plus qu'un simple véhicule : ils avaient besoin perception. Et cela nécessitait des données fiables :

  • Nuages de points LiDAR annotés
  • Séquences de caméra synchronisées
  • Horodatage GPS précis
  • Étiquettes sémantiques riches

Ensembles de données prêts à l'emploi tels que KITTI ou Scènes NuS étaient trop généralisés. Ils ne reflétaient pas la densité, les obstacles ou le bruit du GPS typiques des centres urbains historiques avec leurs pavés, leurs ruelles étroites et leur encombrement piétonnier. La start-up avait besoin de quelque chose de personnalisé.

Portée et contraintes du projet : trouver un équilibre entre ambition et réalité 🧭

La demande initiale était ambitieuse :

  • Scans LiDAR 3D Fuse avec données de caméra stéréo avant/arrière et journaux IMU/GPS
  • Annotez les objets en mouvement (voitures, vélos, piétons) et les infrastructures statiques (bordures, panneaux de signalisation, poteaux)
  • Fournir une segmentation panoptique pour les zones critiques telles que les trottoirs et les pistes cyclables
  • Diffusez 200 scènes de 5 villes en 3 mois

🔍 Mais voici la réalité :

  • Taille des données par scène: ~2 à 4 Go non compressé
  • Complexité de fusion: L'alignement des images nécessitait une synchronisation temporelle précise
  • Dérive LiDAR dans les rues étroites était un problème récurrent
  • Plusieurs capteurs a créé des désalignements nécessitant un étalonnage constant

Afin de respecter le budget et les délais, la portée a évolué en cours de projet, une décision qui a finalement évité au client de s'épuiser et de gaspiller ses ressources. Nous allons vous expliquer comment.

De la capture brute aux données prêtes à être fusionnées : Configuration du pipeline 🔧

À première vue, la collecte des données des capteurs peut sembler une tâche simple : conduisez le véhicule, collectez des enregistrements et envoyez les fichiers à votre équipe d'étiquetage. Mais en réalité, transformer une entrée multicapteur brute en jeu de données prêt à la fusion et facile à annoter est un processus techniquement exigeant qui touche au matériel, aux logiciels et à l'ingénierie des données.

La start-up de mobilité urbaine s'est vite rendu compte que le pipeline de fusion lui-même serait la pierre angulaire de l'ensemble du projet. Sans un pipeline bien structuré, même les meilleurs annotateurs seraient ralentis par des incohérences, des images manquantes et des erreurs de synchronisation.

Voici comment l'équipe a relevé le défi de la fusion, étape par étape.

Configuration matérielle multi-capteurs : le véhicule de capture

Pour percevoir avec précision l'environnement urbain, le véhicule était équipé d'un système de capteurs personnalisé qui collectait des données en temps réel. Les principaux éléments étaient les suivants :

  • Capteur LiDAR (Velodyne VLP-32C): Nuages de points capturés en haute résolution à 360° à 10 Hz, idéal pour détecter la géométrie 3D dans les scènes urbaines.
  • Caméras stéréo RGB: Deux caméras frontales 1080p ont fourni un contexte visuel et ont facilité la segmentation sémantique, particulièrement utile dans les zones occluses ou ambiguës.
  • GPS avec correction RTK: précision de localisation au centimètre près, cruciale dans les zones urbaines denses dotées de zones d'ombre GPS.
  • Unité de mesure inertielle (IMU): tangage, lacet et accélération enregistrés pour faciliter la fusion des capteurs et corriger la dérive GPS.
  • Enregistreur de données + module de calcul Edge: Un système informatique embarqué compact horodaté, synchronisé et stocké toutes les données entrantes avec une bande passante élevée.

Cette configuration a permis au scooter de capturer informations spatiales et visuelles de haute fidélité chaque seconde, générant environ 2 à 4 Go de données brutes par scène.

Synchronisation et étalonnage des capteurs

La synchronisation n'était pas facultative : même de légères différences d'horodatage entre le LiDAR et les images de la caméra pouvaient fausser les superpositions projetées, entraînant des erreurs d'annotation et un mauvais alignement de l'IA.

Pour résoudre ce problème, l'équipe a mis en œuvre :

  • Correspondance d'horodatage à haute fréquence via ROS (système d'exploitation pour robots)
  • Étalonnage extrinsèque utilisation de cibles en échiquier pour l'alignement des caméras LiDAR
  • Protocoles de synchronisation horaire basé sur PTP (Precision Time Protocol)
  • Recalibrage dynamique procédures déclenchées tous les 2 à 3 jours de capture pour tenir compte de la dérive du capteur due aux vibrations et aux changements de température

Chaque flux de données (LiDAR, image, GPS, IMU) a été horodaté individuellement, puis fusionné à l'aide de scripts Python personnalisés qui alignaient les images à la milliseconde.

Formatage et stockage des données

Une fois étalonnées et alignées dans le temps, les données ont été formatées pour une utilisation en aval :

  • Nuages de points LiDAR ont été stockés dans .pcd et .bin formats, compatibles avec des outils de visualisation tels que Ouvrir en 3D et PCL.
  • Des images ont été sauvés dans Lossless .png pour préserver les détails des bords pour les annotations.
  • Métadonnées combinées (y compris la pose, le titre et l'index du cadre) a été emballé dans .json et .yaml fichiers par scène.
  • Segmentation des scènes les outils divisent les longues captures en tranches de 30 secondes pour une meilleure efficacité des annotations.

Le résultat ? Un ensemble de données prêt à la fusion, préparé pour les annotateurs comme pour les ingénieurs en IA : propre, synchronisé et riche en sémantiquement.

Annoter LiDAR Fusion : un défi aux enjeux élevés 🎯

Si la mise en place du pipeline était complexe, annoter les données se sont révélés encore plus exigeants. L'étiquetage des données de fusion LiDAR est une tâche différente de celle de simples cadres de délimitation 2D : vous travaillez dans un espace 3D, avec des points clairsemés, des cibles mobiles et des occlusions environnementales.

L'annotation devait aller au-delà des simples classifications. Il fallait capturez la profondeur, le mouvement et la géométrie, tout en maintenant la cohérence entre les cadres et les modalités des capteurs.

Pourquoi l'annotation LiDAR est si difficile

Le LiDAR fournit des informations de profondeur, mais manque de texture. Un arbre et un poteau peuvent renvoyer des signatures de points identiques. Les surfaces vitrées, les voitures brillantes et les allées étroites déforment ou effacent souvent complètement des points. Et contrairement aux annotations d'images, où les objets sont visibles en couleur, le LiDAR capture souvent silhouettes partielles, en particulier pour les objets dynamiques tels que les cyclistes qui se faufilent entre des voitures garées.

Les principaux défis étaient notamment les suivants :

  • Sparcimonie à la périphérie — la faible résolution du faisceau LiDAR signifiait que les petits objets tels que les chiens ou les cônes de signalisation étaient sous-représentés.
  • Occlusions — les véhicules garés ou les piétons derrière le mobilier urbain manquaient souvent de données dans le LiDAR, ce qui nécessitait de s'appuyer sur les entrées visuelles des caméras.
  • Incohérence du capteur — même après étalonnage, certaines paires d'images étaient mal alignées, ce qui exigeait un réalignement manuel ou une annotation sur la couche projetée uniquement.

Pipeline d'annotation hybride : allier précision et vitesse

Pour surmonter ces obstacles, l'équipe a adopté un flux de travail d'annotation en deux étapes:

1. Segmentation axée sur le LiDAR

  • Les annotateurs ont utilisé des outils de visualisation 3D pour segmenter les nuages de points bruts.
  • Les objets ont été regroupés en fonction de l'agrégation géométrique et d'antécédents spatiaux connus (par exemple, la taille moyenne d'un piéton).
  • Ce processus a été plus lent mais a permis d'établir une vérité de base en 3D sur le terrain.

2. Raffinement guidé par l'image

  • Les projections RGB des nuages de points ont été examinées pour vérifier les limites des objets, résoudre les ambiguïtés et corriger les occlusions manquées.
  • Les annotateurs pouvaient zoomer sur les images projetées pour saisir de petits détails tels que les roues de poussettes ou les guidons de vélo.

La combinaison de la précision spatiale et des repères visuels a permis à l'équipe de étiquetez même les scènes complexes en toute confiance — des intersections où des flux piétonniers se chevauchent, des ruelles pleines de scooters garés ou des routes étroites à sens unique remplies de fourgons de livraison.

Format d'annotation et sortie

Pour chaque cadre, les annotations comprenaient :

  • Boîtes de délimitation 3D: Pour déplacer des objets tels que des voitures, des vélos et des personnes.
  • Masques de segmentation d'instance: Sur des images projetées pour des classes sémantiques telles que la route, le trottoir, le bâtiment.
  • Métadonnées de l'objet: Vitesse, orientation et type de mouvement (statique ou dynamique).
  • Balises contextuelles de scène: Si la scène s'est produite aux heures de pointe, par temps pluvieux ou nocturne.

Chaque cadre annoté a été enregistré dans un format multicouche:

  • .json pour les métadonnées et les balises au niveau de l'objet
  • .bin pour la segmentation des nuages de points bruts
  • .png superpositions pour les visualisations d'assurance qualité

Tous les actifs ont été liés à l'aide d'un système d'identification de trame unifié et vérifiés par des validateurs de cohérence automatisés avant l'examen d'assurance qualité.

Création d'un moteur d'assurance qualité axé sur l'humain

Les annotations manuelles n'étaient qu'un début. UNE processus d'assurance qualité axé sur l'humain a été intégré pour détecter les incohérences dans le temps et selon les modalités.

Les principales couches d'assurance qualité étaient les suivantes :

  • Contrôles de continuité image par image: Pour s'assurer qu'un objet n'a pas été mal étiqueté à mi-chemin de sa trajectoire
  • Révision de la superposition 3D vers 2D: Chaque étiquette LiDAR a été validée en la projetant dans l'espace de l'image et en confirmant qu'elle correspondait aux limites visuelles
  • Escalade des cas extrêmes: Des scénarios complexes (par exemple, des reflets, des occlusions) ont été signalés pour examen par un expert

L'équipe d'assurance qualité a utilisé des tableaux de bord personnalisés qui faisaient apparaître des classes et des scènes sujettes aux erreurs avec des métadonnées manquantes. Cette approche réduction des retouches de 37 %, libérant ainsi plus de temps pour l'annotation de nouvelles scènes.

Stratégie d'étiquetage : Segment Smart, Not Hard 🧠

La segmentation manuelle de la scène complète aurait nécessité des milliers d'heures, ce qui n'est pas évolutif. L'équipe a donc adopté une stratégie mixte :

Hybride sémantique et instance

  • Segmentation sémantique a été utilisé pour les zones carrossables, les trottoirs et les pistes cyclables
  • Segmentation des instances a été utilisé pour des objets dynamiques tels que des personnes et des voitures

Priorisation des régions d'intérêt (ROI)

Au lieu d'annoter toutes les données à 360°, l'accent a été mis sur cône avant à 120°, qui correspondait à la priorité de navigation du scooter.

Cela a considérablement réduit les heures de travail. sans affectant les performances du modèle.

Utilisation intelligente des pré-étiquettes et de l'assurance qualité assistée par modèle ✅

Pour maintenir la précision sans augmenter les coûts, l'équipe a utilisé des modèles d'IA pré-entraînés pour générer masques bruts et des boîtiers de délimitation.

Voici comment cela a fonctionné :

  • Le masque R-CNN a été utilisé sur des cadres de caméra
  • Les modèles de complétion de scène sémantique ont guidé les patchs LiDAR manquants
  • Les annotateurs ont reçu des suggestions, et non des réponses, pour chaque cadre

Une couche d'assurance qualité distincte a validé la cohérence des étiquettes entre les différentes trames temporelles. Cela a permis de réduire les révisions d'annotations de 40 %, accélérant la livraison de près de 3 semaines.

Gouvernance des étiquettes : révisions, cas extrêmes et gestion des versions 🔁

Les environnements urbains présentent des courbes : des enfants courent, des trottinettes garées, des vitres réfléchissantes, des ombres en mouvement. Une stratégie de gestion des versions a donc été mise en œuvre.

Système de gestion des versions d'étiquettes

  • v1.0: Livraison de MVP avec limites connues
  • v1.1: Segmentation supplémentaire incluse pour les cas extrêmes signalés lors de l'assurance qualité
  • v2.0: Feedback post-déploiement intégré à la reconversion des modèles d'IA

Les modifications ont été suivies dans un système basé sur GIT avec des identifiants de scène et des notes de révision. Les clients pouvaient retracer n'importe quelle étiquette jusqu'à l'annotateur d'origine et au réviseur d'assurance qualité.

Leçons apprises : ce que les futures équipes devraient savoir 🧩

Chaque projet d'IA enseigne plus qu'il n'apporte de solutions. Voici ce qui en est ressorti :

✅ Ce qui a fonctionné

  • Stratégies d'annotation hybrides réduisez les heures sans prendre de raccourcis
  • Étiquetage assisté par modèle fatigue réduite et débit accru
  • Boucles de rétroaction précoces avec des ingénieurs en IA, a évité le désalignement des ensembles

⚠️ Ce qui n'a pas fonctionné (au début)

  • Une ambition d'étiquetage complète a fait face aux contraintes du monde réel
  • Dérive du capteur a nécessité un recalibrage plus fréquent que prévu
  • Ruelles étroites zones d'ombre GPS créées — atténuées uniquement par des corrections IMU

🔁 Ce qui a changé

À l'origine, la start-up avait imaginé un ensemble de données unique. Mais ils ont appris à prioriser les zones de perception critiques, et prévoir plusieurs versions de jeux de données qui évoluent avec la pile d'IA.

Impact : au-delà de l'ensemble de données 📈

Cet ensemble de données n'était pas qu'un simple livrable. Il est devenu la base du pipeline d'IA de la startup.

  • A permis la formation de modèles de suivi d'objets et d'évitement d'obstacles
  • A servi de matériel de démonstration pour les présentations d'investisseurs et les demandes de subvention
  • A été réutilisé pour des tests internes dans 3 nouvelles villes dans lesquelles la start-up s'est développée

Plus important encore, cela a donné à la startup un avantage exclusif. Contrairement aux ensembles open source, celui-ci reflétait leur environnement, leur véhicules, et leur cas d'utilisation.

Conclusion : Construire plus intelligemment, pas simplement plus grand 🚀

La création d'un jeu de données de fusion LiDAR dans un contexte urbain n'est pas une mince affaire. Mais grâce à une gestion intelligente des oscilloscopes, à des flux de travail de pré-étiquetage et à des stratégies d'étalonnage précises, même une petite équipe peut fournir un ensemble de données qui dépasse son poids.

Si votre système d'IA a besoin de « voir » le monde comme le fait votre produit, ne vous fiez pas à des ensembles de données génériques. Construisez le vôtre, stratégiquement.

Vous souhaitez créer un ensemble de données multimodal adapté à votre projet de mobilité ou de robotique ? Voyons comment nous pouvons vous aider, de la capture à l'assurance qualité.

👉 DataVLab et créons ensemble le futur de la perception automatique.

Améliorer les performances de votre IA dès aujourd'hui

Nous sommes là pour vous accompagner dans l'amélioration des performances de votre IA