12.07.2026

Cómo crear conjuntos de datos de señales de tráfico para IA de conducción autónoma

El reconocimiento de señales de tráfico es clave para la seguridad y el cumplimiento de los vehículos autónomos. Esta guía explica cómo crear conjuntos de datos robustos para IA: recopilación, mapeo de clases, cobertura geográfica, señales raras, anotación y control de calidad.

Por qué el reconocimiento de señales de tráfico es imprescindible en la conducción autónoma

En el entorno dinámico del tráfico vial, las señales de tráfico funcionan como indicaciones críticas para la navegación, el cumplimiento legal y la seguridad del conductor. Para los sistemas de conducción autónoma, comprender las señales de tráfico no es opcional: es obligatorio.

Ya sea una señal de stop, una zona de prohibido adelantar o una advertencia de cruce escolar, el motor de decisión del vehículo depende de una interpretación precisa y en tiempo real de las señales. No detectar una señal o clasificarla de forma incorrecta podría derivar en una infracción legal o, peor aún, en un accidente.

Por eso, los modelos de IA para conducción autónoma deben entrenarse con conjuntos de datos de señales de tráfico amplios, diversos y altamente precisos. Estos conjuntos de datos son la base de los modelos de clasificación, detección y, en algunos casos, incluso segmentación integrados en la pila de percepción de los sistemas de vehículos autónomos.

¿Qué hace que un conjunto de datos de señales de tráfico sea bueno?

Conviene aclarar qué diferencia a un conjunto de datos de alto rendimiento de uno mediocre en el contexto del reconocimiento de señales de tráfico:

Amplia cobertura geográfica (zonas urbanas y rurales, distintos países)
Variedad de tipos de señales (reglamentarias, de advertencia, informativas)
Representación equilibrada de clases frecuentes y raras
Múltiples condiciones de iluminación y clima
Imágenes claras y de alta resolución
Diversidad contextual (fondos, oclusiones y ángulos variados)

Conjuntos de datos para conducción autónoma como Mapillary Traffic Sign Dataset y LISA Traffic Sign Dataset son buenos puntos de partida, pero muchos proyectos requieren conjuntos de datos personalizados para cubrir carencias o adaptarse a matices regulatorios locales.

Comience con una estrategia clara de conjunto de datos

Antes de recopilar gigabytes de vídeo o invertir en herramientas de anotación, conviene tomar distancia y diseñar una estrategia sólida de conjunto de datos. No se trata solo de una lista de verificación técnica: es el plano que alinea las capacidades del modelo de IA con los objetivos de negocio, las necesidades regulatorias y los entornos de despliegue.

Defina primero objetivos claros

Empiece respondiendo estas preguntas fundamentales:

¿Cuál es la aplicación principal? ¿El sistema de vehículo autónomo está pensado para autopistas, entornos urbanos o entregas de última milla en zonas suburbanas?
¿Qué tipo de señales de tráfico debe detectar el modelo? ¿El objetivo es una cobertura integral (todas las señales de las vías públicas) o una detección focalizada (por ejemplo, solo señales reglamentarias)?
¿Qué tareas se deben respaldar? ¿Detección, clasificación, seguimiento o un sistema de decisión basado en fusión?

Las respuestas determinarán la granularidad de las anotaciones, la diversidad de los datos y el volumen necesario. Por ejemplo, un clasificador centrado únicamente en señales de stop para robots de reparto puede apoyarse en conjuntos de datos más pequeños y muy especializados. En cambio, un sistema de percepción completo para robotaxis requiere un enfoque multipaís y multiformato.

Defina el alcance geográfico con intención

No trate la ubicación como un aspecto secundario. Los diseños de las señales de tráfico, las condiciones de las carreteras e incluso los comportamientos de los conductores varían ampliamente por región. Aclare:

Geografía principal: ¿Dónde se desplegará inicialmente el sistema?
Geografías secundarias: ¿Hay regiones previstas para expansión en los próximos 6 a 12 meses?
Normas superpuestas: ¿Existen regulaciones ISO, de la ONU o específicas de cada país que afecten a la señalización?

Esto informa todo, desde las taxonomías de clases hasta los estilos visuales (por ejemplo, señales codificadas por color, iconos frente a texto). No conviene que el modelo falle porque nunca vio una señal de “Ceda el paso” con forma de triángulo invertido en lugar de una rectangular.

Alinee el conjunto de datos con los requisitos regulatorios

En regiones como la UE, los sistemas de vehículos autónomos deben interpretar señales de tráfico con consecuencias legales. Si el sistema pasa por alto una señal de “Prohibido adelantar” y causa un accidente, no es solo un error: es una responsabilidad.

Construya el conjunto de datos teniendo en cuenta el cumplimiento:

Priorice las señales legalmente vinculantes
Haga seguimiento del versionado de señales que puedan cambiar
Incluya normativas viales actualizadas para mercados emergentes

Incorporar esto a nivel de conjunto de datos proporciona a los modelos posteriores el contexto que necesitan para respaldar decisiones críticas para la seguridad.

Planifique casos límite y clases de cola larga

La mayoría de las señales que se encuentran en carretera son límites de velocidad, señales de stop o pasos peatonales. Pero las clases de cola larga, como “Zona de fauna silvestre” o “Peligro: desprendimientos”, suelen presentar los riesgos más serios si no se detectan.

Planifique lo siguiente:

Análisis de distribución de clases desde el inicio
Simulaciones de señales raras mediante herramientas sintéticas (por ejemplo, Blender, CARLA)
Misiones de recopilación de casos límite en carretera (por ejemplo, rutas de montaña, zonas industriales)

Además, es importante recordarlo: la precisión en clases de cola larga puede marcar la diferencia entre un piloto exitoso y un sistema retirado de la vía por los reguladores.

Defina el ciclo de retroalimentación

Un conjunto de datos nunca está “terminado”. Debe evolucionar a medida que:

El sistema de vehículo autónomo se expande a nuevas ciudades
Las autoridades locales actualizan formatos de señalización o introducen otros nuevos
Se recibe retroalimentación de campo sobre el rendimiento de la flota de vehículos autónomos

Planifique actualizaciones continuas del conjunto de datos mediante:

Minería automática de datos (por ejemplo, a partir de errores de inferencia o intervenciones humanas)
Sugerencias de etiquetas semisupervisadas
Pruebas A/B con nuevas clases de señales

Una estrategia de conjunto de datos que incluya reentrenamiento y monitorización mantendrá el sistema de IA relevante y seguro.

Recopilación de datos: ¿campo, flota o datos sintéticos?

Datos reales de cámaras de salpicadero y a nivel de calle

Uno de los métodos más comunes consiste en recopilar datos de:

Cámaras de salpicadero montadas en vehículos de prueba
Vehículos de flotas comerciales (por ejemplo, furgonetas de reparto)
Plataformas de imágenes a nivel de calle (Mapillary, OpenStreetCam)

Estos datos aportan complejidad del mundo real: desenfoque por movimiento, oclusión parcial, señales cubiertas de nieve o pintura descolorida; condiciones que el modelo debe aprender a gestionar.

Recomendación: asegúrese de registrar los metadatos de calibración de la cámara si el caso de uso implica estimación de distancia o cajas delimitadoras 3D.

Datos sintéticos para casos límite

La generación de datos sintéticos de señales de tráfico ha ganado relevancia. Herramientas como CARLA o Unity + AirSim permiten a los desarrolladores simular:

Escenarios raros o peligrosos (por ejemplo, señales de desvío de emergencia)
Colocación de señales en ángulos inusuales
Condiciones de iluminación variables

Sin embargo, los conjuntos de datos sintéticos deben combinarse con datos reales para evitar problemas de cambio de dominio.

Conjuntos de datos públicos: qué hay disponible

Algunos conjuntos de datos públicos populares para enriquecer el trabajo o usar como referencia comparativa son:

Debe tenerse en cuenta que las restricciones de licencia, los formatos de anotación y la asignación de clases pueden variar.

Mapeo de clases: una de las partes más difíciles

El mundo está lleno de señales, pero no todas encajan de forma limpia en la misma taxonomía.

Por ejemplo:

La señal europea de “Prohibido el paso” tiene una forma distinta de la versión estadounidense.
“Yield” en Estados Unidos frente a “Give Way” en Reino Unido: símbolos diferentes, mismo significado.
Algunas señales son pictográficas (como los cruces de ciervos), mientras que otras dependen de un idioma específico.

El modelo, y el conjunto de datos, deben navegar por este laberinto semántico. Muchos equipos construyen una ontología interna que mapea señales equivalentes de distintos países a identificadores compartidos.

También resulta útil agrupar las clases por categoría:

Reglamentarias (por ejemplo, límite de velocidad, stop)
Advertencia (por ejemplo, curvas próximas, desprendimientos)
Informativas (por ejemplo, estacionamiento, hospital)

Esto ayuda a entrenar clasificadores jerárquicos o lógica de decisión posterior basada en confianza.

Internacionalización: piense globalmente, etiquete localmente

Entrenar el modelo con un conjunto de datos centrado en Estados Unidos o en Europa puede funcionar para pruebas locales, pero no escalará bien. Los vehículos autónomos se están volviendo globales, y el diseño del conjunto de datos también debe hacerlo. Las señales de tráfico están lejos de ser universales, y la complejidad va más allá de la traducción o del reconocimiento de símbolos.

Comprenda la diversidad real de las señales de tráfico

Cada país tiene características propias:

Formas de las señales: octágonos para las señales de stop en Estados Unidos, triángulos invertidos en Japón para ceder el paso.
Códigos de color: el azul puede indicar una acción obligatoria en Europa, pero ser informativo en otros lugares.
Iconos y tipografías: algunos países utilizan pictogramas; otros dependen de texto en el idioma local.
Estilos de montaje: la altura del poste, los ángulos y la agrupación de señales varían por región.

Para gestionar esta diversidad, el conjunto de datos necesita una amplia representación geográfica, no solo un gran volumen de imágenes de una misma ciudad. Una señal de stop en São Paulo puede verse muy diferente de una en Zúrich, aunque ambas cumplan la misma función.

Adopte mapeos regionales de clases

La idea de “una clase = una instancia visual” deja de sostenerse a escala internacional.

En su lugar, construya una ontología semántica en la que señales equivalentes de distintos países se asignen a la misma categoría operativa. Por ejemplo:

“STOP” (Estados Unidos)
“ARRÊT” (Canadá)
Señal de stop japonesa (triángulo rojo con kanji japonés)

Todas deberían alimentar una misma clase stop, desde el punto de vista funcional, aunque sean visual y lingüísticamente distintas. Este mapeo cruzado ayuda a la IA a generalizar el comportamiento mientras aprende la diversidad de apariencias.

Utilice herramientas como:

Convención de la ONU sobre señales y señales de tráfico
Manuales nacionales de tráfico (por ejemplo, UK Highway Code)

para construir un sistema de mapeo de etiquetas sensible al país.

No ignore el contexto local

Las señales suelen depender de:

Normas culturales: cómo interpretan los conductores las advertencias opcionales frente a las obligatorias
Convenciones de conducción: la circulación por la izquierda o por la derecha afecta a la colocación de las señales
Actualizaciones gubernamentales: algunas ciudades están probando señales digitales dinámicas (actualizaciones de velocidad con LED o avisos temporales de prohibido el paso)

La estrategia de conjunto de datos debe incluir:

Metadatos de etiqueta, como país, ciudad y lado de circulación
Clasificación de señales dinámicas frente a estáticas
Historial de versiones para regiones donde la señalización se está modernizando

Este nivel de metadatos garantiza que los modelos no solo vean señales, sino que las interpreten de una forma coherente con las expectativas humanas y las leyes locales.

Considere la localización para la expansión

¿Se planea escalar un sistema de vehículos autónomos a nivel global? Se necesitarán:

Equipos localizados de recopilación de datos para capturar matices regionales
Revisores de anotación nativos del idioma para detectar interpretaciones culturales erróneas
Mecanismos de geoetiquetado para filtrar datos por jurisdicción

La localización también aplica a los equipos de control de calidad. No sería adecuado que una persona sin familiaridad con la señalización vial tailandesa verificara anotaciones procedentes de Bangkok.

Trabajar con proveedores preparados para la localización, como Lionbridge o DataVLab, puede ayudar a garantizar que el conjunto de datos de cada región sea tan sólido como el principal.

Diseñe para un uso global multimodal

Los sistemas de vehículos autónomos combinan cada vez más cámara, LiDAR y datos basados en mapas para interpretar las señales. Para escalar internacionalmente, esto implica:

Relacionar los datos de señales de tráfico con mapas HD locales
Validar de forma cruzada la detección con API externas de geolocalización
Anotar señales con posibilidades de acción específicas por país (por ejemplo, distancia hasta la zona de acción)

Entrenar una IA para comprender no solo qué dice una señal, sino qué significa en ese contexto, es esencial. La internacionalización no consiste solo en traducir datos: consiste en transferir significado operativo entre fronteras.

Gestión del desequilibrio de clases y de las señales raras

Es habitual tener miles de señales de “Límite de velocidad 50”, pero solo unas pocas muestras de “Fin de autopista de peaje” o “Paso a nivel con barrera”.

Esto genera un desequilibrio de clases extremo, que puede sesgar los modelos.

Algunas tácticas para abordarlo son:

Sobremuestrear las clases raras durante el entrenamiento
Submuestrear las clases comunes durante la validación
Aplicar funciones de pérdida ponderadas por clase
Generar ejemplos sintéticos para señales raras
Usar Curriculum Learning: entrenar primero con un subconjunto equilibrado y luego escalar

Las señales raras suelen ser más importantes para la seguridad que las comunes. El conjunto de datos debe reflejar esa realidad ponderada por riesgo.

El contexto importa: capture también el entorno

Las señales no existen de forma aislada. Su interpretación suele depender de:

Proximidad a intersecciones
Posición del vehículo en el carril
Señales cercanas o marcas viales
Oclusiones provocadas por árboles, camiones o postes

Un modelo entrenado solo con imágenes recortadas de señales puede fallar en entornos donde el contexto es determinante.

Para construir robustez en el mundo real, capture siempre imágenes de fotograma completo que incluyan el entorno de cada señal de tráfico, no solo la señal en sí.

Si es posible, etiquete metadatos adicionales como:

Distancia hasta la señal
Orientación de la señal (guiñada, cabeceo, alabeo)
Contexto ambiental (día/noche, niebla, lluvia)

Esto habilita sistemas de percepción más avanzados, como fusión de sensores, clasificación contextual o modelos basados en atención.

Consejos de etiquetado: del caos a la consistencia

Cuando llega el momento de anotar el conjunto de datos de señales de tráfico, la consistencia es fundamental.

Así se puede mantener una alta calidad de anotación:

Crear directrices detalladas: incluir casos límite, reglas de oclusión y definiciones de clases
Formar a los anotadores: usar pruebas comparativas entre datos reales y sintéticos
Usar revisión anidada: anotador de primer nivel → validador → revisor de control de calidad
Hacer seguimiento de estadísticas de anotación: tasas de error, tiempo de revisión y confusión entre clases

Muchos equipos con buenos resultados realizan auditorías puntuales semanales y usan plataformas como CVAT o Labelbox para gestionar los flujos de trabajo de manera eficiente.

Versionado, divisiones y estrategia de iteración

Una vez etiquetado el conjunto de datos, será necesario estructurarlo de forma que respalde los ciclos de desarrollo del modelo.

Recomendaciones clave:

División de entrenamiento/validación/prueba: asegúrese de que todos los tipos de señales estén representados en cada partición
Diversidad geográfica entre particiones: no coloque todas las señales de París en entrenamiento y las de Marsella en prueba
Versionado: use nombres claros como v1.2-balanced, v2.0-with-rare-signs
Mantenga un registro de cambios del conjunto de datos para trazabilidad

Cada ciclo de entrenamiento del modelo debe referenciar una versión congelada y documentada del conjunto de datos para evitar filtraciones entre entrenamiento y prueba.

Evaluación de la calidad del conjunto de datos: ¿está realmente listo para entrenar?

Un conjunto de datos grande no es automáticamente un buen conjunto de datos.

Utilice la siguiente lista de verificación para validar si el conjunto de datos está listo:

¿Están representadas todas las clases?
¿Cuál es la distribución de frecuencia por clase?
¿Hay muestras urbanas, rurales, nocturnas y con lluvia?
¿Cuál es la precisión de la anotación en una muestra de 500 señales?
¿Existe algún sesgo hacia una región, condición de iluminación o tipo de cámara?

Solo después de superar esta lista de verificación debería avanzarse al entrenamiento del modelo. Omitir este paso se traduce en tiempo de GPU desperdiciado y una generalización deficiente.

Casos de éxito en el mundo real

El modo sombra de Tesla

Tesla entrena sus sistemas basados en visión utilizando grandes flujos de vídeo real procedentes de su flota. Pero, para las señales de tráfico, utiliza el modo sombra: detecta señales sin actuar sobre ellas para validar la calidad del conjunto de datos y mejorar la captura de casos raros.

La expansión regional de Mobileye

Mobileye, una empresa de Intel, construyó un gran motor de detección de señales de tráfico para mercados europeos y asiáticos. Tenía que gestionar:

Señales multilingües
Apilamiento vertical de múltiples señales
Paneles electrónicos o dinámicos

Para respaldarlo, desarrollaron canalizaciones de datos personalizadas para cada nueva geografía, lo que muestra la importancia de la agilidad del conjunto de datos.

El resultado: los conjuntos de datos de alta calidad impulsan vehículos autónomos más seguros

Crear un buen conjunto de datos de señales de tráfico requiere tiempo y recursos. ¿Cuál es el beneficio?

Mayor precisión del modelo
Mejor cumplimiento de las leyes de tráfico
Menos fallos en casos límite
Aprobaciones regulatorias más rápidas

Y, sobre todo, permite lograr carreteras más seguras.

Con el conjunto de datos adecuado, no solo se entrena un modelo: se enseña a una IA cómo comportarse en el mundo.

¿Listo para crear su propio conjunto de datos?

Si está desarrollando sistemas de conducción autónoma y necesita crear o auditar un conjunto de datos de señales de tráfico, este es el momento de invertir en su estrategia de etiquetado.

Tanto si se está formando un equipo pequeño para un proyecto piloto como si se está escalando a nivel global, podemos ayudar a agilizar el proceso con:

Orientación experta sobre la estructura del conjunto de datos
Servicios de anotación de extremo a extremo
Canalizaciones de datos listas para modelos

Defina los objetivos de su conjunto de datos. Contacte con DataVLab o programe una consulta gratuita.

Topics

Text Link

Comience ahora

Let's discuss your project

We can provide realible and specialised annotation services and improve your AI's performances

Get a Quote

Abstract blue gradient background with a subtle grid pattern.

Insights

Blog & Resources

Descubre nuestros artículos más recientes sobre anotación de datos y modelos de IA

Ver todos

July 12, 2026

Cómo crear datos de entrenamiento para reconocimiento de matrículas ANPR: cajas, keypoints, OCR por carácter, casos límite, balance del dataset y GDPR.

Coches autónomos

Anotación de matrículas: cómo crear datos de entrenamiento para modelos ANPR

July 23, 2026

Cómo funcionan los sistemas automotrices de reconocimiento de gestos: sensores del habitáculo, modelos de IA, conjuntos de datos y seguridad.

Coches autónomos

Reconocimiento de gestos en IA automotriz: cómo los sistemas de visión del habitáculo entienden la intención del conductor

July 10, 2026

Guía sobre evaluación de daños en vehículos con IA: anotación, conjuntos de datos, detección de daños y automatización de siniestros.

Coches autónomos

Evaluación de daños en vehículos: cómo la IA en seguros automatiza siniestros y detección de daños

Industrias

Explore nuestros diferentes
Aplicaciones industriales

Obtenga una cotización gratuita

Anotación de datos para IA en automoción y movilidad

Automoción y movilidad

Nuestros servicios de etiquetado de datos se adaptan a diversas industrias, lo que garantiza anotaciones de alta calidad adaptadas a sus necesidades específicas.

Nuestras soluciones

Servicios de anotación de datos

Libere todo el potencial de sus aplicaciones de IA con nuestra tecnología experta en etiquetado de datos. Garantizamos anotaciones de alta calidad que aceleran los plazos de sus proyectos.

Obtenga una cotización gratuita

Servicios de anotación para ADAS y conducción autónoma

Anotación de datos para ADAS y conducción autónoma

Imagen, video y LiDAR: conjuntos de datos etiquetados para percepción en automoción con control de calidad.

Servicios de anotación de imágenes para automoción

Servicios de anotación de imágenes para automoción: detección, segmentación y clasificación con control de calidad para visión artificial.

Servicios de anotación LiDAR

Anotación LiDAR: cuboides 3D, nubes de puntos, segmentación y seguimiento con control de calidad.

Servicios de anotación para fusión de sensores

Anotación para fusión de sensores

Anotación multimodal para alinear cámaras, LiDAR, radar y otros sensores.

Let's discuss your project

Blog & Resources

Anotación de matrículas: cómo crear datos de entrenamiento para modelos ANPR

Reconocimiento de gestos en IA automotriz: cómo los sistemas de visión del habitáculo entienden la intención del conductor

Evaluación de daños en vehículos: cómo la IA en seguros automatiza siniestros y detección de daños

Explore nuestros diferentes Aplicaciones industriales

Anotación de datos para IA en automoción y movilidad

Servicios de anotación de datos

Servicios de anotación para ADAS y conducción autónoma

Servicios de anotación de imágenes para automoción

Servicios de anotación LiDAR

Servicios de anotación para fusión de sensores

Explore nuestros diferentes
Aplicaciones industriales