Regulación IA

9 min read

Reglamento IA y Artículo 10: arquitectura de evidencia para datasets de entrenamiento

El Artículo 10 del Reglamento IA aterriza en agosto. Cómo construir la arquitectura de evidencia que la auditoría exige para datasets de entrenamiento.

author-image

Sara Codarlupo

Marketing Specialist @Gigantics

La aplicación efectiva del bloque del Reglamento IA dedicado a sistemas de alto riesgo comienza en agosto. Una de las cuestiones técnicas de mayor relevancia para el sector regulado es la capacidad de reconstruir, con la precisión que la norma exige, la composición exacta del dataset que entrenó cada modelo en producción.



El Artículo 10 establece obligaciones documentales específicas sobre los datasets utilizados para entrenar, validar y probar sistemas clasificados como de alto riesgo. La distancia entre lo que se documenta habitualmente y lo que la norma exigirá demostrar a partir de agosto se resuelve fundamentalmente en la capa de arquitectura, más que en la capa de políticas.



Este análisis técnico aborda tres cuestiones concretas: qué exige reproducir el Artículo 10, qué configura una respuesta técnica suficiente ante una auditoría, y qué condiciones de arquitectura permiten alcanzarla sin reescribir los pipelines de entrenamiento.




Lo que dice el Artículo 10 del Reglamento europeo de Inteligencia Artificial


El Artículo 10 del Reglamento (UE) 2024/1689 obliga al proveedor del sistema de IA de alto riesgo a someter los datasets de entrenamiento, validación y prueba a prácticas de gobernanza y gestión de datos apropiadas. Las prácticas deben cubrir, como mínimo:


  • La elección del diseño del dataset

  • Los procesos de recopilación de datos

  • Las operaciones de preparación (etiquetado, limpieza, enriquecimiento y agregación)

  • La formulación de supuestos sobre lo que el dataset representa

  • La evaluación previa de su disponibilidad, cantidad y adecuación

  • El examen para detectar posibles sesgos que puedan afectar a la salud y la seguridad de las personas o producir discriminación



A esta exigencia técnica se añade una operativa: los datasets deben ser pertinentes, suficientemente representativos, libres de errores y completos en función de la finalidad prevista. Y deben tener en cuenta las características del entorno geográfico, contextual, conductual o funcional específico en el que se utilizará el sistema.



El cumplimiento del Artículo 10 se evaluará en auditoría con evidencia técnica reproducible. La descripción declarativa de las prácticas, incluso cuando está bien documentada, no opera por sí sola como demostración suficiente ante la autoridad supervisora.




El reto operativo: reconstruir la composición exacta del dataset



En la práctica habitual del ciclo de desarrollo de modelos de IA, los datasets de entrenamiento suelen construirse mediante:


  1. Extracciones de bases de datos productivas hacia entornos no productivos
  2. Transformaciones manuales o semi-automatizadas (anonimización, enmascaramiento, agregación)
  3. Consolidaciones en pipelines de entrenamiento, validación y prueba
  4. Versiones sucesivas del dataset que se acumulan a medida que el modelo evoluciona


La trazabilidad de la procedencia de cada campo, las transformaciones aplicadas y el momento en que se aplicaron es uno de los aspectos que el Reglamento europeo de IA prioriza explícitamente. En los marcos actuales, los datasets resultan funcionales para entrenar el modelo, pero su composición exacta no siempre queda registrada de forma reproducible.




Respuesta del sistema a una consulta de auditoría



La forma más útil de entender la exigencia del Artículo 10 es proyectarla sobre una pregunta concreta que la autoridad supervisora podría formular durante una auditoría documental:



"Para el modelo de detección de fraude desplegado en producción desde el 12 de marzo, indique cuántos registros con datos personales de ciudadanos no comunitarios entraron en el dataset de entrenamiento. Detalle qué transformaciones de anonimización se aplicaron a cada campo y bajo qué versión de la política de gobernanza vigente en el momento."



Sobre esta pregunta, dos arquitecturas producen respuestas radicalmente distintas:



Arquitectura A — Documentación paralela. La organización mantiene políticas escritas, registros operativos en hojas de cálculo y descripciones de pipelines en documentos de diseño. La respuesta requiere convocar al equipo de datos, recuperar el pipeline que generó la versión del dataset, intentar reconstruir las transformaciones aplicadas. Tiempo estimado de respuesta: 3 a 6 semanas. Resultado: parcial, con incertidumbre sobre la exactitud de la reconstrucción.



Arquitectura B — Evidencia reproducible. El sistema registra, para cada dato sensible incorporado al dataset, su origen (tap, tabla, columna), las transformaciones aplicadas (regla, parámetros, versión de política) y su destino (sink, modelo, entorno). La respuesta se obtiene mediante consulta directa al registro de linaje. Tiempo estimado de respuesta: minutos. Resultado: completo y verificable.



La diferencia entre ambas arquitecturas no es de calidad documental. Es estructural: depende de si la trazabilidad por campo está integrada en el comportamiento del sistema o si requiere reconstrucción puntual.




Las tres condiciones técnicas



Tres capacidades, en conjunto, permiten construir la evidencia reproducible que el Artículo 10 exigirá sin imponer sobrecarga operativa al ciclo de desarrollo de modelos. No son nuevas; lo nuevo es su exigibilidad ante una auditoría.



1. Linaje a nivel de campo



El sistema debe registrar, para cada dato sensible que entra en un dataset de entrenamiento, validación o prueba:


  • Origen: tap, tabla, columna, identificador de registro

  • Transformaciones aplicadas: anonimización, enmascaramiento, síntesis, agregación, con parámetros y versión de la regla

  • Destino final: sink, dataset version, modelo, entorno



Esta trazabilidad debe persistir más allá del ciclo del pipeline que la generó. Si el pipeline se elimina o reescribe, el registro de linaje debe seguir disponible para responder a consultas retrospectivas. La forma habitual de lograrlo es separar la capa de registro de linaje de la capa de ejecución, con almacenamiento de eventos auditable e inmutable.



El detalle técnico de cómo se preserva el linaje sin perder integridad referencial entre tablas cuando se aplica anonimización está desarrollado en Integridad referencial al enmascarar datos: cómo preservarla y validarla.



2. Política versionada como código



Las reglas de gobernanza —qué campos se consideran sensibles, qué transformación aplica cada uno, qué excepciones existen— deben estar definidas en artefactos versionables (policy-as-code), no en documentos.



La razón es operacional. Cuando un auditor pregunta qué política regía la transformación de datos hace catorce meses, debe ser posible:


  • Recuperar la versión exacta de esa política aplicable al momento en cuestión

  • Demostrar quién la modificó, cuándo y bajo qué proceso de aprobación

  • Reproducir el comportamiento de la política sobre un dato concreto de entonces


Esto se materializa con artefactos de política almacenados en repositorios Git, versionados con tags semánticos, integrados en pipelines CI/CD del sistema de gobernanza, y con un registro que asocia cada operación ejecutada con la versión de política aplicable en su momento.



3. Ejecución en origen


La transformación de datos sensibles se aplica antes de que el dataset abandone el perímetro controlado del entorno productivo, y no como tarea posterior aislada sobre copias ya extraídas.


Esta condición resulta especialmente relevante cuando el Reglamento IA se combina con NIS2 sobre la cadena de suministro TIC. Los entornos no productivos donde se construyen los datasets de entrenamiento entran en el perímetro regulatorio si contienen datos reales sin control equivalente al productivo. La ejecución en origen elimina la ventana de exposición entre la extracción y la anonimización.


Este principio arquitectural está expandido en Arquitectura de Seguridad por Diseño, donde se trata como motor de agilidad operativa además de cumplimiento.


Reglamento IA, NIS2 y DORA: una arquitectura, tres normas


Los tres marcos regulatorios europeos que más impacto operativo tienen sobre la gestión del dato no productivo —Reglamento IA, NIS2 y DORA— comparten un núcleo técnico común: la exigencia de evidencia auditable sobre el tratamiento de datos sensibles a lo largo de la cadena.


Norma Qué exige sobre datos no productivos
Reglamento IA Artículo 10 Composición exacta y trazabilidad del dataset de entrenamiento, validación y prueba de los sistemas de IA de alto riesgo.
NIS2 Artículo 20 Control equivalente al del entorno productivo sobre la cadena de suministro TIC, incluyendo entornos no productivos con datos reales.
DORA Artículo 28 Trazabilidad y supervisión continua de terceros TIC que procesan datos, con evidencia auditable de los flujos de tratamiento.

Las tres normas convergen en una misma condición técnica: linaje a nivel de campo, política versionada y ejecución en origen.

La consecuencia operativa es que una organización en sector regulado que invierta en arquitectura de evidencia para el Reglamento IA está, simultáneamente, construyendo los cimientos del cumplimiento de NIS2 y DORA. Las tres normas comparten linaje, política versionada y ejecución en origen como condiciones técnicas mínimas.


El detalle de la operacionalización de DORA en este marco está disponible en Reglamento DORA: cómo reducir exposición, gestionar terceros TIC y generar evidencia auditable.




Plan de migración en doce meses


La aplicación efectiva del marco comienza en agosto. Los primeros plazos de cumplimiento para los sistemas de alto riesgo desplegados se computan desde esa fecha, y las primeras auditorías documentales resultan razonablemente esperables en los doce meses siguientes.



El plazo de doce meses resulta insuficiente para reescribir pipelines de entrenamiento o reconstruir manualmente la trazabilidad de modelos ya desplegados. Resulta suficiente, en cambio, para incorporar arquitectura de evidencia en los pipelines que se construyan a partir de ese momento. La ruta práctica se distribuye en tres fases.



Fase 1 — Meses 1 a 3: inventario y mapeo. Inventario de modelos de IA clasificables como de alto riesgo según el Anexo III del Reglamento. Mapeo de los datasets de entrenamiento, validación y prueba que alimentaron cada modelo. Identificación de la documentación existente y de los gaps de trazabilidad por campo.



Fase 2 — Meses 4 a 9: incorporación arquitectural. Despliegue de las tres condiciones técnicas en los pipelines de entrenamiento de nuevos modelos. Política versionada como código en repositorios Git. Ejecución en origen integrada en el ETL de no-producción. Registro de linaje a nivel de campo con almacenamiento auditable.



Fase 3 — Meses 10 a 12: documentación operativa para auditoría. Generación de informes de evidencia reproducibles para los modelos ya desplegados, con la documentación que la herramienta actual permita. Definición del playbook interno de respuesta a consultas de la autoridad supervisora. Validación con auditoría interna o consultoría externa.



A los doce meses, la organización dispone de arquitectura de evidencia para los pipelines nuevos y de un protocolo de respuesta documental para los modelos heredados. Esa es la posición que permite afrontar la primera auditoría sin reconstrucción puntual.




Conclusión



El Artículo 10 introduce una exigencia técnica distinta a la del RGPD y a la de NIS2: la composición exacta del dataset que entrena cada modelo de alto riesgo debe ser reconstruible bajo demanda, mediante evidencia que el propio sistema produce en su ejecución. La obligación documental ya existía; lo que cambia es la exigibilidad técnica de su reproducción.



La diferencia clave en la preparación de la auditoría no se decide en la capa de políticas, sino en si la trazabilidad por campo está integrada en el comportamiento del sistema o si depende de reconstrucción manual.



Gigantics implementa las tres condiciones técnicas que el Artículo 10 está convirtiendo en exigencia. La plataforma genera linaje a nivel de campo sobre cada dato sensible que entra en un dataset de entrenamiento, mantiene la política de gobernanza versionada como código, y ejecuta la anonimización en origen — antes de que el dataset abandone el perímetro productivo, con integridad referencial preservada entre bases.


Ver demo técnica de 20 minutos →