No es posible proteger una información cuya ubicación se desconoce. Antes de enmascarar, anonimizar o aplicar cualquier política de seguridad, una organización necesita responder a una pregunta previa: ¿dónde reside exactamente la información sensible dentro de sus sistemas? El descubrimiento automatizado de datos resuelve ese punto de partida: analiza las bases de datos, localiza la información personal y la deja inventariada para su protección.
Constituye la primera fase de cualquier programa de seguridad del dato y de cumplimiento del RGPD. Esta guía aborda qué es, cómo funciona, en qué se distingue de la clasificación y qué criterios considerar al implementarlo.
¿Qué es el descubrimiento automatizado de datos?
El descubrimiento de datos es el proceso de identificar y localizar la información sensible distribuida por las fuentes de datos de una organización: bases de datos SQL y NoSQL, respaldos y copias. Que el proceso sea automatizado implica que un motor analiza los esquemas y las muestras de datos, reconoce los campos que contienen información personal y registra su ubicación.
El método manual es simplemente inviable a esta escala. Una organización mediana acumula miles de columnas distribuidas en decenas de sistemas; revisarlas una a una consume tiempo y el inventario queda obsoleto en cuanto cambia el esquema. La automatización lo convierte en un proceso repetible.
Descubrimiento de datos frente a clasificación de datos
Son dos fases encadenadas que conviene no confundir. El descubrimiento responde a dónde está la información sensible: localiza los campos que contienen datos personales. La clasificación responde a qué es y qué nivel de protección requiere: asigna etiquetas y niveles de sensibilidad a esos campos para determinar su tratamiento.
En la práctica operan en cadena: primero se localiza el dato y después se etiqueta según su sensibilidad, una decisión que depende de la herramienta de clasificación utilizada.
Cómo funciona el descubrimiento automatizado
El descubrimiento automatizado no depende del nombre de la columna, que con frecuencia resulta poco fiable. Para localizar la información personal (PII), las soluciones de la categoría combinan varias técnicas de detección.
El nivel más básico analiza los metadatos: nombres de columnas y tipos de datos. Dado que una columna denominada campo_07 puede contener un DNI, ese análisis se complementa con la inspección del contenido: muestras de valores reales que se contrastan con expresiones regulares y diccionarios de formatos conocidos, como el de un IBAN o un correo electrónico. Las soluciones más avanzadas incorporan modelos de aprendizaje automático, capaces de reconocer patrones que una regla fija no captura, y expresan cada detección mediante una probabilidad en lugar de una respuesta binaria.
Sobre esos hallazgos se aplica una puntuación de riesgo que permite priorizar: la criticidad de una columna con datos de salud no es comparable a la de un código interno. El resultado es un inventario de la ubicación de la información sensible y de su nivel de criticidad.
Qué datos localiza el descubrimiento
Un motor de descubrimiento no se limita a lo evidente, sino que identifica distintas capas de información sensible:
- Identificadores directos —nombre, DNI, correo, teléfono, IBAN— que señalan a una persona por sí solos.
- Cuasi-identificadores —código postal, fecha de nacimiento, profesión— que no identifican de forma aislada, pero sí al combinarse entre ellos. Constituyen la principal causa de reidentificación y los que una revisión manual suele pasar por alto.
- Categorías especiales del RGPD —datos de salud, biométricos o de origen étnico— que requieren una protección reforzada y, por tanto, una detección fiable.
La información sensible no reside únicamente en columnas con nombres claros: también aparece en campos de texto libre, comentarios y documentos adjuntos, donde solo la detección basada en patrones logra identificarla.
Por qué es la base del cumplimiento del RGPD
El RGPD obliga a las organizaciones a conocer qué datos personales tratan y dónde: es la base del registro de actividades de tratamiento (artículo 30) y del principio de responsabilidad proactiva. Sin un inventario fiable, ese registro se sostiene sobre suposiciones, y el descubrimiento automatizado lo convierte en un mapa preciso y mantenido en el tiempo.
Ese inventario no debería limitarse a producción. Los entornos no productivos acumulan copias que rara vez se rastrean y se convierten en un punto ciego; en ellos, un descubrimiento periódico evita que la información personal se disperse sin control.
Casos de uso del descubrimiento automatizado
Más allá del inventario, el descubrimiento sostiene procesos concretos:
- Respuesta a brechas: conocer qué datos contenía un sistema comprometido permite evaluar su alcance real y notificar dentro del plazo que establecen el RGPD y la NIS2.
- Auditorías de cumplimiento: un inventario con trazabilidad facilita demostrar el control ante el RGPD, la NIS2 o el ENS.
- Migraciones a la nube: antes de trasladar datos a un nuevo entorno, el descubrimiento determina qué debe protegerse de forma prioritaria.
Qué buscar en una solución de data discovery
Las herramientas de descubrimiento no ofrecen todas el mismo rendimiento, y unos pocos criterios marcan la diferencia. El primero es la cobertura: una solución solvente analiza bases de datos SQL y NoSQL, así como los entornos productivos y no productivos, dado que la información sensible reside en ambos. El segundo es el método de detección. Las soluciones que se limitan a buscar columnas denominadas "email" o "dni" no identifican los campos con nomenclatura no estándar; la detección basada en patrones y diccionarios, con porcentaje de confianza, es la que realmente localiza la información relevante.
A partir de ahí, conviene que el motor puntúe el riesgo de cada campo para priorizar los más críticos y que se ejecute de forma periódica, no puntual, ya que los esquemas evolucionan y un inventario estático pierde utilidad. Por último, en el tratamiento de datos sensibles el análisis debería ejecutarse en la propia infraestructura de la organización, sin transferir información a terceros, y registrar cada hallazgo con fines de auditoría.
Cómo lo hace Gigantics
El descubrimiento de Gigantics ejecuta este proceso de forma automatizada y local-first. Conecta las fuentes, examina nombres de columnas, tipos y valores de muestra, y aplica modelos de aprendizaje automático junto con diccionarios para identificar la información sensible. A cada campo le asigna etiquetas y un nivel de sensibilidad con porcentaje de confianza, y genera un mapa de calor del riesgo en el esquema.
El proceso incluye una fase de confirmación para revisar las detecciones y produce informes de auditoría listos para cumplimiento. A partir de ahí, esas mismas etiquetas alimentan las reglas de anonimización y de generación de datos sintéticos, de modo que el descubrimiento y la protección forman parte de un mismo flujo.

