05.07.2026

Acuerdo entre anotadores para la evaluación de LLM: guía práctica

El acuerdo entre anotadores es la base cuantitativa de cualquier pipeline creíble de evaluación de LLM. Esta guía explica por qué el desacuerdo no es ruido, qué métricas usar (kappa de Cohen, kappa de Fleiss, alfa de Krippendorff y métricas de correlación), qué objetivos fijar según la subjetividad de la tarea y cómo operar el IAA de forma continua para evaluación humana, RLHF, calidad y cumplimiento del Reglamento de IA de la UE.

Guía de acuerdo entre anotadores para evaluación de LLM: kappa de Cohen, alfa de Krippendorff, objetivos IAA, RLHF, QA continua y cumplimiento UE.

Cuando dos expertos de dominio no están de acuerdo sobre si una respuesta de un LLM es “útil” o “dañina”, ¿quién tiene razón? Cuando tres anotadores puntúan la misma salida del modelo con 4, 5 y 2 en una escala de calidad, ¿qué sabe realmente sobre esa salida? Cuando cincuenta anotadores etiquetan datos de preferencia para RLHF y alcanzan un consenso del 60%, ¿es bueno, malo o esperable?

Estas preguntas están en la base de cualquier pipeline de evaluación de LLM que utiliza juicio humano. Sus respuestas determinan si sus benchmarks significan algo, si su modelo de recompensa está aprendiendo una señal coherente y si su documentación de cumplimiento resistirá una revisión regulatoria.

Sin embargo, muchos equipos tratan el acuerdo entre anotadores como una comprobación única durante el piloto, no como la señal continua de calidad que realmente es. El acuerdo entre anotadores, o IAA por sus siglas en inglés, no es una casilla metodológica heredada del NLP académico. Es la única forma cuantitativa de saber si sus guidelines son suficientemente claras, si sus anotadores están suficientemente calibrados y si sus resultados de evaluación son suficientemente fiables para tomar decisiones.

Sin IAA, dos equipos que ejecutan la “misma” evaluación sobre el mismo modelo pueden llegar a conclusiones contradictorias sin saber por qué. Con IAA, el desacuerdo deja de ser una molestia operativa y se convierte en una señal medible sobre la calidad de su proceso.

Por qué el desacuerdo es información, no ruido

El primer cambio conceptual para usar bien el IAA consiste en entender que el desacuerdo entre anotadores no es un fallo que deba eliminarse siempre. Es una señal informativa que, cuando se mide correctamente, dice algo importante sobre la tarea, las guidelines o los anotadores.

En tareas objetivas —por ejemplo, si una respuesta contiene el año 2024 o si un fragmento de código es sintácticamente válido— el desacuerdo suele indicar ambigüedad en las instrucciones o error del anotador. La solución es directa: afinar las guidelines, volver a entrenar a los anotadores o ambas cosas. El objetivo de acuerdo es alto, a menudo por encima de 0,90, porque la tarea lo permite.

En tareas moderadamente subjetivas —por ejemplo, si una respuesta suena profesional o si un resumen es completo— el desacuerdo refleja variación interpretativa legítima incluso entre anotadores atentos. El objetivo suele situarse entre 0,70 y 0,85. Forzar un acuerdo mayor mediante reglas excesivamente rígidas tiende a reducir la calidad de la evaluación, no a mejorarla: empuja a los anotadores a aplicar reglas mecánicas en lugar de ejercer el juicio que la tarea requiere.

En tareas inherentemente subjetivas —qué respuesta se prefiere, si un tono es apropiado, si una respuesta resulta realmente útil— el desacuerdo forma parte de la señal. En datos de preferencia para RLHF, por ejemplo, la distribución de preferencias humanas es precisamente lo que el modelo debe aprender. El objetivo no es eliminar la varianza, sino distinguir entre desacuerdo informado y ruido operativo.

Las métricas que realmente importan

Tres familias de métricas de IAA cubren la mayoría de las necesidades de anotación en producción. Cada una tiene usos específicos, supuestos específicos y modos de fallo concretos cuando se aplica mal.

Kappa de Cohen: dos anotadores y etiquetas categóricas

La kappa de Cohen corrige el acuerdo observado por el acuerdo esperado al azar. Produce un valor que puede ir de -1, desacuerdo perfecto, a 1, acuerdo perfecto. La métrica, desarrollada originalmente para medir fiabilidad en diagnósticos psiquiátricos, sigue siendo el estándar para tareas categóricas con dos anotadores.

Cuándo usarla: comparación pareada de dos anotadores en etiquetas categóricas binarias o multiclase: sentimiento, moderación de contenido, clasificación de intención o categorías de seguridad. Es fácil de calcular y su interpretación es conocida.

Cuándo no usarla: con más de dos anotadores, etiquetas ordinales o continuas, o cuando no todos los anotadores ven los mismos ítems. La kappa de Cohen también puede ser engañosa cuando la distribución de clases está muy desequilibrada: un reparto 90/10 puede producir una puntuación aparentemente alta aunque el etiquetado de la clase minoritaria sea débil.

Kappa de Fleiss: varios anotadores y etiquetas categóricas

La kappa de Fleiss extiende la kappa de Cohen a más de dos anotadores. Asume que los anotadores son intercambiables y que todos los ítems reciben el mismo número de valoraciones. Es una restricción fuerte, pero común en estudios piloto y sesiones de calibración.

Cuándo usarla: pilotos donde entre 3 y 10 anotadores valoran los mismos ítems con etiquetas categóricas. Es útil para calibrar guidelines antes de escalar a producción.

Cuándo no usarla: pipelines de producción donde distintos ítems reciben distinta cobertura de anotadores, o cuando los datos son ordinales o continuos. En la práctica, el supuesto de intercambiabilidad rara vez se cumple cuando los anotadores tienen niveles de experiencia diferentes.

Alfa de Krippendorff: pipelines de producción

Para pipelines de anotación en producción, el alfa de Krippendorff es la métrica que mejor escala. Generaliza a cualquier número de anotadores, admite datos faltantes y funciona con escalas nominales, ordinales, de intervalo y de razón. Esa flexibilidad aumenta la complejidad del cálculo, pero las herramientas de anotación y las implementaciones en Python lo hacen manejable.

Cuándo usarlo: anotación a escala, especialmente cuando no todos los anotadores ven todos los ítems, cuando las tareas incluyen escalas ordinales —por ejemplo, puntuaciones de calidad de 1 a 5— o cuando necesita comparar modalidades de anotación distintas.

Detalle crítico de implementación: el alfa depende de especificar correctamente el tipo de dato —nominal, ordinal o de intervalo— y la función de distancia. Tratar datos ordinales como nominales subestima el acuerdo; tratar datos nominales como ordinales lo sobreestima. La elección cambia de forma sustancial la puntuación resultante.

Métricas de correlación: valoraciones continuas

Cuando los anotadores proporcionan valoraciones continuas —puntuaciones de calidad de 1 a 10, confianza entre 0 y 1— las correlaciones de Pearson y Spearman entre pares de anotadores miden la consistencia del orden relativo sin exigir acuerdo exacto. Para rankings de preferencia, la tau de Kendall captura si los anotadores ordenan los pares de forma consistente aunque sus puntuaciones absolutas difieran.

En datos de preferencia para RLHF, métricas de ranking como la tau de Kendall o marcos como Bradley-Terry capturan mejor la naturaleza relativa de las preferencias que una métrica categórica de acuerdo.

Fijar los objetivos correctos

La decisión más importante en IAA es qué objetivo fijar. Un objetivo incorrecto puede aceptar datos demasiado ruidosos y comprometer el entrenamiento del modelo, o rechazar datos útiles que reflejan subjetividad real.

Tareas objetivas: kappa o alfa por encima de 0,90

Detección de objetos, reconocimiento de entidades, corrección sintáctica, verificación factual, etiquetas de presencia o ausencia. Estas tareas tienen respuestas correctas claras; un acuerdo sostenido por debajo de 0,90 indica guidelines poco claras o problemas de calidad del equipo de anotación.

En anotación médica para IA, el listón suele ser aún más alto. En contextos clínicos, a menudo se exige un alfa superior a 0,90 antes de liberar datasets, porque la fiabilidad clínica requiere un acuerdo casi perfecto antes de confiar en sistemas de IA.

Tareas moderadamente subjetivas: kappa o alfa entre 0,70 y 0,85

Categorización de contenido, clasificación temática, completitud de resúmenes o puntuación de calidad de respuesta en escalas gruesas. Estas tareas tienen una convergencia importante hacia una respuesta común, pero admiten diferencias interpretativas legítimas. Por debajo de 0,70 suele haber huecos en las guidelines o una definición de tarea que necesita más refinamiento.

Tareas subjetivas: alfa entre 0,60 y 0,75

Anotación de preferencias para RLHF, evaluación de tono, valoración de utilidad en escalas finas o evaluación de daño en casos matizados. Estas tareas tienen varianza subjetiva inherente que no puede eliminarse con más instrucciones sin deformar la tarea. Las distribuciones de desacuerdo entre anotadores se convierten en señal de entrenamiento para el modelo.

En tareas profundamente subjetivas, como detección de sarcasmo o análisis de tono en redes sociales, el alfa puede ser legítimamente bajo. La conclusión no siempre es que los anotadores sean malos; a veces la tarea es realmente subjetiva y el benchmark debe diseñarse en consecuencia.

Evitar la trampa de la falsa precisión

La tentación al leer literatura sobre IAA es reportar el alfa con cuatro decimales y tratar diferencias minúsculas como si fueran significativas. No lo son. El intervalo de confianza del 95% de un alfa suele abarcar 0,05 a 0,10 incluso con cientos de ítems anotados. Un alfa de 0,78 frente a 0,81 dice muy poco sobre qué pipeline es mejor. Trate las puntuaciones de IAA como bandas —bajo, moderado, bueno, excelente— y no como medidas exactas.

Operar el IAA como señal continua

El error más frecuente consiste en medir el IAA solo durante el piloto. Debe monitorizarse de forma continua durante toda la campaña de anotación. La razón es simple: la deriva de los anotadores existe. La calidad puede degradarse tras semanas de trabajo repetitivo. Guidelines claras durante el piloto se vuelven ambiguas cuando aparecen nuevos casos límite. Anotadores calibrados al inicio pueden divergir a medida que sus interpretaciones individuales evolucionan.

Estrategia de solapamiento

En producción, rara vez todos los anotadores valoran todos los ítems: el coste sería prohibitivo. El patrón estándar es el solapamiento estructurado: entre el 5% y el 15% de los ítems reciben 2 o 3 anotaciones específicamente para monitorizar IAA, mientras que el resto recibe una sola anotación por eficiencia de coste.

Los ítems solapados deben representar toda la distribución del trabajo, no concentrarse solo en casos fáciles o difíciles. El muestreo aleatorio dentro de estratos —por dominio, tipo de consulta o dificultad esperada— suele producir el solapamiento más útil.

Monitorización continua

Calcule el IAA en ventanas móviles: las últimas 1.000 anotaciones, la última semana de trabajo o el último lote. Haga seguimiento de alfa o kappa en el tiempo. Configure alertas cuando las puntuaciones caigan por debajo de los umbrales. Cuando el acuerdo baja, investigue antes de que el problema se propague al resto del trabajo.

Los patrones a vigilar son: descenso gradual, que puede indicar fatiga o deriva de guidelines; caída repentina, que puede indicar entrada de un nuevo anotador sin calibración suficiente o una nueva categoría de casos límite; y acuerdo persistentemente bajo en subcategorías concretas, que suele señalar un hueco de guideline.

Protocolos de intervención

Cuando el IAA cae, la respuesta debe calibrarse según la causa. Para problemas específicos de un anotador, feedback individual y reentrenamiento. Para problemas de categoría, aclaración de guidelines y ejemplos resueltos. Para un descenso general, sesiones de calibración en grupo donde los anotadores discuten desacuerdos concretos y alcanzan consenso explícito sobre cómo tratarlos.

La intervención no debe ser “forzar más acuerdo a toda costa”. En tareas subjetivas, ese camino destruye la varianza natural que captura juicio humano real. La intervención correcta es asegurar que el desacuerdo sea informado —los anotadores entienden las opciones y han considerado alternativas— y no desacuerdo no informado, causado por incoherencia individual o falta de comprensión.

IAA para RLHF: por qué los datos de preferencia son diferentes

El aprendizaje por refuerzo a partir de feedback humano utiliza anotaciones de preferencia para entrenar modelos de recompensa. La conversación sobre IAA es diferente a la de tareas de clasificación o puntuación de calidad.

En anotación de preferencias, el objetivo no es el consenso. El objetivo es capturar la distribución de preferencias humanas en la población relevante. Si el 70% de los anotadores prefiere la respuesta A frente a la respuesta B, esa distribución 70/30 es la señal de entrenamiento. Forzar un consenso del 95% mediante guidelines rígidas reduciría la calidad del modelo de recompensa al eliminar varianza natural.

El objetivo adecuado de IAA para datos de preferencia RLHF suele situarse alrededor de 0,60 a 0,75 de alfa. Por debajo de ese rango, los anotadores probablemente no entienden la tarea o las guidelines necesitan refinamiento. Por encima de 0,85, los anotadores pueden estar aplicando reglas mecánicas en lugar de ejercer el juicio que el modelo necesita aprender.

En anotación de preferencias de alto riesgo —aplicaciones críticas de seguridad o juicios relevantes para alineamiento— una capa adicional de modelos probabilísticos de etiquetas, como Dawid-Skene y enfoques similares, gestiona mejor la variación de fiabilidad entre anotadores que la agregación simple. Estos modelos estiman la calidad de cada anotador a partir de los propios datos y ponderan sus contribuciones, produciendo señales de consenso más fiables que una votación mayoritaria.

Para equipos europeos que construyen modelos de recompensa bajo restricciones del Reglamento de IA de la UE, la carga documental es importante. La creación de datasets de preferencia con anotadores basados en la UE genera la documentación IAA que requieren los sistemas de IA de alto riesgo, incluyendo decisiones metodológicas y datos demográficos de anotadores documentados para revisión regulatoria.

Cuándo el propio IAA puede ser engañoso

Varias condiciones pueden producir puntuaciones IAA aparentemente correctas y, aun así, ocultar problemas serios de calidad de anotación.

Distorsión por desequilibrio de clases

Cuando una etiqueta domina —por ejemplo, 90% de ejemplos positivos— un acuerdo observado alto puede coexistir con etiquetado casi aleatorio en la clase minoritaria. La corrección por azar en kappa y alfa ayuda, pero no lo elimina por completo. En datasets desequilibrados, reporte IAA por clase además del IAA global y preste especial atención a la clase minoritaria, donde suele estar la señal accionable.

Acuerdo superficial, desacuerdo profundo

Los anotadores pueden coincidir en la etiqueta y discrepar por completo sobre el motivo. Dos anotadores pueden puntuar una respuesta como “útil” por razones diferentes: uno por completitud, otro por tono. El IAA a nivel de etiqueta es alto; la calidad del juicio subyacente es pobre. Las revisiones periódicas de razonamiento, donde los anotadores explican su criterio sobre una muestra, detectan este patrón que el IAA puro no ve.

Colusión o sesgo compartido entre anotadores

Cuando los anotadores proceden de la misma formación, comparten el mismo contexto demográfico o trabajan en comunicación estrecha, su acuerdo puede reflejar supuestos compartidos más que fiabilidad real entre perspectivas independientes. La puntuación IAA es alta porque los anotadores son, en la práctica, una sola perspectiva con varias voces. La diversidad del pool de anotadores —origen, geografía, experiencia— puede producir IAA más bajo, pero juicios más representativos.

Medición solo en piloto

El IAA de piloto casi siempre supera al IAA de producción, porque las condiciones del piloto —menor escala, atención concentrada, entrenamiento reciente— no se reproducen a largo plazo. Los equipos que reportan solo el IAA de piloto en documentación de cumplimiento están reportando un número que no refleja la realidad operativa. La monitorización continua es el único enfoque honesto para anotación en producción.

Construir infraestructura IAA para producción

Para equipos que operan anotación a escala, el patrón práctico es el siguiente.

Capa de herramientas

Label Studio, Datasaur u otras plataformas comparables ofrecen cálculo de IAA integrado. En workflows personalizados, implementaciones en Python con paquetes como krippendorff o simpledorff se integran de forma limpia en pipelines de evaluación. La elección entre plataforma alojada e infraestructura propia depende del volumen, las necesidades de personalización y los requisitos de cumplimiento.

Dashboards y alertas

Las puntuaciones IAA necesitan visibilidad. Los dashboards operativos deben mostrar IAA móvil por proyecto, tipo de tarea y cohorte de anotadores. Las alertas deben activarse cuando las puntuaciones caen por debajo de los umbrales configurados. Sin esa visibilidad, la degradación del IAA suele pasar desapercibida hasta que ya ha contaminado una cantidad importante de trabajo anotado.

Documentación para cumplimiento

En aplicaciones de alto riesgo bajo el Reglamento de IA de la UE, la evidencia de IAA forma parte de la documentación de cumplimiento. Conviene capturar y conservar: datos demográficos de anotadores sin comprometer privacidad, versiones de guidelines, puntuaciones IAA por lote de anotación, registros de sesiones de calibración y acciones de intervención tomadas ante caídas de IAA. Esta documentación puede ser requerida durante una revisión regulatoria.

Calibración continua

Las sesiones trimestrales de calibración en grupo, donde los anotadores discuten ítems difíciles y alcanzan consenso explícito sobre cómo tratarlos, consumen tiempo de anotador, pero se compensan con IAA sostenido y menor deriva individual. Saltárselas suele tener un coste gradual en calidad.

Qué significa esto para operaciones de anotación europeas

Para equipos europeos que operan pipelines de anotación bajo cumplimiento del Reglamento de IA de la UE, el IAA no es infraestructura opcional. La categoría de alto riesgo exige metodología de anotación demostrable, procesos de calidad documentados y decisiones trazables. El reporting de IAA es la columna vertebral cuantitativa de esa documentación.

Los pools de anotadores basados en la UE ofrecen ventajas más allá del cumplimiento. La familiaridad cultural y lingüística con el contexto europeo produce juicios más representativos para productos de IA europeos. La anotación por hablantes nativos de contenido francés, alemán, italiano o español evita errores sistemáticos que introducen anotadores entrenados en inglés o jueces LLM sobre contenido multilingüe.

Para equipos que despliegan sistemas de IA para usuarios europeos, la combinación de soberanía UE, expertise nativo en idiomas y documentación IAA rigurosa diferencia cada vez más los pipelines de evaluación que resisten escrutinio regulatorio de los que no. DataVLab opera servicios de evaluación de LLM con expertos de dominio basados en la UE, diseñados específicamente para producir la documentación IAA que requieren las aplicaciones de IA de alto riesgo.

El balance honesto

El acuerdo entre anotadores es la base cuantitativa de cualquier pipeline creíble de evaluación de LLM. Sin él, sus benchmarks, sus datos de entrenamiento para modelos de recompensa y su documentación de cumplimiento descansan sobre supuestos que no ha verificado. Con él, dispone de una señal continua de calidad que detecta degradación antes de que se propague y demuestra fiabilidad de evaluación ante quien la solicite.

La métrica adecuada depende de la tarea. Kappa de Cohen para trabajo categórico con dos anotadores. Kappa de Fleiss para pilotos con varios anotadores. Alfa de Krippendorff para producción a escala. Métricas de correlación para valoraciones continuas. Marcos Bradley-Terry para datos de preferencia. Ajuste la métrica a la tarea; no escoja una y obligue todo a pasar por ella.

El objetivo adecuado depende de la subjetividad de la tarea. Más de 0,90 en tareas objetivas. Entre 0,70 y 0,85 en tareas moderadamente subjetivas. Entre 0,60 y 0,75 en tareas inherentemente subjetivas. Forzar objetivos más altos en tareas subjetivas destruye la señal que necesita; aceptar objetivos demasiado bajos en tareas objetivas introduce ruido que compromete todo lo posterior.

El modelo operativo adecuado es continuo, no limitado al piloto. Solapamiento estructurado del 5% al 15% del trabajo en producción. Cálculo móvil de IAA. Alertas ante caídas. Sesiones trimestrales de calibración. Protocolos de intervención documentados. Esta infraestructura marca la diferencia entre pipelines de anotación que producen datos de evaluación fiables y pipelines que producen números en los que nadie debería confiar.

Para equipos que empiezan, el orden de prioridad es claro: escoger la métrica adecuada para el tipo de tarea, fijar objetivos calibrados según la subjetividad, construir monitorización continua antes de escalar y documentarlo todo. Los beneficios de calidad y cumplimiento se acumulan. El coste de saltarse esta capa suele ser invisible hasta la primera auditoría regulatoria o el primer modelo de recompensa que no converge por razones que nadie puede explicar.

Si está construyendo infraestructura de calidad de anotación

DataVLab ofrece servicios de anotación y evaluación para equipos europeos de IA que operan bajo restricciones de cumplimiento del Reglamento de IA de la UE. Nuestros expertos de dominio basados en la UE trabajan dentro de marcos estructurados de monitorización IAA diseñados para producir la documentación que requieren las aplicaciones de IA de alto riesgo. Trabajamos con laboratorios europeos de IA, programas de defensa y equipos empresariales cuyos pipelines de anotación necesitan evidencia rigurosa de calidad, no solo reportes de IAA de piloto. Si está diseñando infraestructura de calidad de anotación y quiere hablar de objetivos IAA, patrones de monitorización o documentación de cumplimiento, contacte con nosotros.

Topics

Let's discuss your project

We can provide realible and specialised annotation services and improve your AI's performances

Abstract blue gradient background with a subtle grid pattern.

Blog & Resources

Descubre nuestros artículos más recientes sobre anotación de datos y modelos de IA

Explore nuestros diferentes
Aplicaciones industriales

Nuestros servicios de etiquetado de datos se adaptan a diversas industrias, lo que garantiza anotaciones de alta calidad adaptadas a sus necesidades específicas.

Servicios de anotación de datos

Libere todo el potencial de sus aplicaciones de IA con nuestra tecnología experta en etiquetado de datos. Garantizamos anotaciones de alta calidad que aceleran los plazos de sus proyectos.