seudonimización

8 min read

Seudonimización de datos: qué es, técnicas y diferencia con la anonimización

Qué es la seudonimización de datos, en qué se diferencia de la anonimización, qué técnicas existen y qué exige el RGPD para su correcta implementación.

author-image

Sara Codarlupo

Marketing Specialist @Gigantics

La seudonimización reemplaza los datos personales por identificadores ficticios. El dato mantiene su estructura y comportamiento —sigue siendo útil para desarrollar, probar o analizar— pero quien accede a él sin autorización no puede vincular ningún registro con una persona real.


El RGPD la reconoce en el artículo 4(5) como medida técnica válida y la menciona explícitamente en los artículos 25 y 32. No elimina las obligaciones de cumplimiento: mientras exista la clave de reversibilidad, el dato seudonimizado sigue siendo un dato personal. Lo que cambia es el nivel de riesgo —y las consecuencias en caso de brecha.




Qué significa que un dato esté seudonimizado



Un dato seudonimizado no puede atribuirse a una persona concreta sin recurrir a información adicional —la clave de reversibilidad— que se mantiene separada y sujeta a controles de acceso estrictos.



En la práctica: un nombre real se convierte en un código. Ese código funciona igual que el nombre dentro del sistema —permite cruzar tablas, ejecutar consultas, correr tests de integración— pero no revela a quién pertenece. La correspondencia entre el dato original y el seudónimo existe, pero reside en un repositorio independiente con acceso restringido.



Esta característica es la que distingue la seudonimización de la supresión: el dato seudonimizado conserva su utilidad operativa; el dato suprimido, no.




En qué se diferencia la seudonimización de la anonimización



Ambos términos se emplean con frecuencia como equivalentes. Técnica y legalmente no lo son, y la distinción tiene implicaciones directas sobre el cumplimiento normativo.


Seudonimización Anonimización
¿Es reversible? Sí, con la clave No
¿Dato personal bajo RGPD? No
¿Mantiene funcionalidad operativa? Parcialmente
¿Cuándo aplicarla? Entornos de prueba, analytics internos, staging Publicación de datasets, transferencia sin restricciones



La seudonimización conserva la utilidad del dato: integridad referencial entre tablas, comportamiento equivalente al de producción, capacidad de realizar joins y análisis. La anonimización elimina esa trazabilidad de forma irreversible.



La elección entre una y otra depende del caso de uso. Cuando se requiere que un entorno de QA o staging se comporte de forma equivalente a producción sin exponer datos reales, la seudonimización es la opción técnicamente adecuada. Cuando el dataset va a publicarse o transferirse sin restricciones de acceso, la anonimización completa es el estándar aplicable.




Qué técnicas de seudonimización existen



La técnica adecuada depende del tipo de dato, del nivel de consistencia requerido y del perfil de riesgo de reidentificación que se quiere mitigar.



Cifrado determinista



Un mismo valor de entrada produce siempre el mismo seudónimo. Si el DNI 12345678A se transforma en X9F3K2, ese mismo DNI generará X9F3K2 en cualquier tabla y en cualquier ejecución posterior.



Es la técnica más adecuada para bases de datos relacionales: el ID de cliente en la tabla de pedidos sigue correspondiendo al mismo registro en la tabla de clientes, aunque ninguna de las dos contenga datos reales. Garantiza la integridad referencial sin exponer identidades.



Tokenización



El dato original se sustituye por un token —un identificador sin valor propio— y la correspondencia se almacena en un repositorio separado y controlado. El sistema que procesa los datos opera únicamente con el token; el dato real permanece en un entorno con acceso diferenciado.



Es el método habitual para números de tarjeta en el sector financiero, pero su aplicación se extiende a cualquier identificador personal.



Hashing con salt



El dato pasa por una función hash que genera un valor de longitud fija. El salt —un valor aleatorio incorporado antes de aplicar la función— evita que dos registros con el mismo dato original generen el mismo hash, bloqueando ataques por diccionario o tablas arcoíris.



A diferencia del cifrado determinista, el hashing no tiene reversión directa. Se combina con otras técnicas cuando se requiere la posibilidad de reconstruir la identidad original bajo condiciones controladas.



Generalización y supresión



Una fecha de nacimiento exacta se convierte en un rango de edad. Un código postal se trunca a los primeros dígitos. Un identificador nominal se elimina y se sustituye por un ID numérico.



Estas técnicas reducen la precisión del dato sin sustituirlo por un equivalente funcional. Son adecuadas para análisis estadísticos donde el análisis opera sobre distribuciones agregadas, no sobre registros individuales.




Entornos de prueba y exposición de datos personales



Los entornos no productivos —desarrollo, QA, staging— concentran un riesgo de exposición que con frecuencia no recibe el mismo tratamiento que los sistemas de producción. Estos entornos suelen contener réplicas de datos reales, con accesos más amplios que facilitan la depuración, controles de auditoría menos exhaustivos y, en muchos casos, conexiones a herramientas o proveedores externos.



El RGPD no establece distinción entre tipos de entorno: si un entorno de QA contiene datos personales reales, aplican las mismas obligaciones que en producción, incluidas la base legal de tratamiento, la minimización y las medidas de seguridad técnica del artículo 32.



Los estándares técnicos complementarios de DORA van en la misma dirección: los entornos no productivos deben contener únicamente datos anonimizados, seudonimizados o aleatorizados. El uso de datos de producción sin transformar se contempla como excepción acotada, sujeta a gobernanza explícita, aprobación documentada y plazo definido.



Aplicar seudonimización antes de poblar estos entornos elimina la exposición desde el origen. Los equipos de desarrollo y QA trabajan con datos que se comportan de forma equivalente a los reales, sin que ningún dato personal salga del entorno productivo sin transformación previa.




Qué requisitos técnicos debe cumplir una implementación de seudonimización



Una seudonimización incorrectamente implementada genera una exposición residual que puede no ser evidente hasta que ocurre un incidente. Tres requisitos condicionan su efectividad:



Separación de la clave de reversibilidad. El mapa entre datos originales y seudónimos no puede residir en el mismo sistema que los datos transformados. Si un atacante accede simultáneamente a ambos, la protección queda anulada. La clave debe almacenarse en un repositorio independiente, con acceso basado en roles y registro de auditoría de cada consulta.



Trazabilidad auditable. Cada operación —seudonimización, reversión, entrega a un entorno— debe quedar registrada: qué se ejecutó, quién lo autorizó, cuándo y bajo qué justificación. Sin este registro no es posible demostrar control ante una auditoría interna ni ante la AEPD en caso de inspección.



Consistencia determinística. El mismo campo debe producir siempre el mismo seudónimo en todos los sistemas y ejecuciones. Si el ID de cliente CL-001 genera X9F3 en la base de datos principal y A2B7 en el sistema de facturación, los entornos de prueba presentarán comportamientos divergentes respecto a producción, lo que invalida la utilidad de los tests.




Seudonimización y RGPD: artículos aplicables



Tres artículos del RGPD son directamente relevantes para la aplicación de seudonimización en entornos empresariales:



Artículo 25 (privacidad desde el diseño): la seudonimización se cita como ejemplo de medida técnica para aplicar protección de datos por defecto desde las fases iniciales del ciclo de desarrollo.


Artículo 32 (seguridad del tratamiento): incluye la seudonimización entre las medidas técnicas adecuadas para garantizar un nivel de seguridad proporcional al riesgo del tratamiento.


Artículo 34 (notificación a los interesados): cuando los datos afectados por una brecha estaban seudonimizados con claves inaccesibles para el atacante, puede no ser exigible la notificación individual a los afectados. Esto limita de forma significativa el impacto reputacional y operativo de un incidente de seguridad.



El dato seudonimizado sigue siendo un dato personal bajo el RGPD mientras exista la clave de reversibilidad. Únicamente cuando esa clave se destruye de forma irreversible el dato deja de estar sujeto al ámbito de aplicación del reglamento.




Preguntas frecuentes sobre seudonimización



¿La seudonimización es suficiente para cumplir el RGPD?


No de forma autónoma. Es una medida técnica reconocida y recomendada por el RGPD, pero requiere complementarse con control de acceso a la clave de reversibilidad, trazabilidad de operaciones y separación física entre el repositorio de reversión y los datos transformados.



¿Los datos seudonimizados son datos personales?


Sí, mientras exista la clave de reversibilidad. Es lo que los distingue de los datos anonimizados. El RGPD les aplica con la misma intensidad que a los datos no transformados.



¿Qué es la seudonimización según el RGPD?


El RGPD define la seudonimización en el artículo 4(5) como el tratamiento de datos personales de manera que ya no puedan atribuirse a un interesado sin utilizar información adicional, siempre que dicha información adicional figure por separado y esté sujeta a medidas técnicas y organizativas destinadas a garantizar que los datos personales no se atribuyan a una persona física identificada o identificable.



¿Qué diferencia hay entre seudonimización estática y dinámica?


La seudonimización estática transforma el dato antes de almacenarlo o entregarlo —es la modalidad habitual en entornos de prueba y staging. La dinámica aplica la transformación en el momento de la consulta, sin modificar el dato en origen; se utiliza principalmente para controlar accesos en producción sin alterar la base de datos subyacente.



¿Es posible usar datos seudonimizados para entrenar modelos de inteligencia artificial?


Depende del nivel de riesgo de reidentificación y de la finalidad del tratamiento. El RGPD exige una base legal compatible con la finalidad original de recogida. En tratamientos internos de análisis y entrenamiento, la seudonimización es habitualmente suficiente; cuando el dataset se publica o se transfiere de forma amplia, la anonimización es el estándar aplicable.