Integridad de los datos o calidad ¿Cuál es la diferencia?

Integridad de los datos o calidad ¿Cuál es la diferencia?

Big Data ha sido ampliamente etiquetado como el nuevo oro negro, sin embargo, Big Data se convierte en un producto realmente valioso solo cuando los datos son de alta calidad determinados en función de un rango de variables cualitativas y cuantitativas. En este post exploramos las diferencias entre la calidad de los datos y la integridad de los datos:

Calidad de los datos frente a la integridad de los datos

La calidad de los datos se refiere a las características que determinan la confiabilidad de la información para cumplir un fin previsto, incluida la planificación, la toma de decisiones y las operaciones.

Es el estado de características, además de atributos completos que definen la usabilidad de la información, para abordar necesidades específicas en el contexto de las circunstancias y las implicaciones del mundo real.

La integridad de los datos, se refiere a las características que determinan la confiabilidad de la información, en términos de su validez física y lógica. La integridad de los datos se basa en parámetros tales como, la precisión, la validez y la coherencia de los datos en todo su ciclo de vida.

Es la ausencia de cambios involuntarios en la información, entre dos actualizaciones sucesivas o modificaciones en los registros de datos. la integridad de datos se puede considerar como un polo opuesto a la corrupción de datos, que hace que la información no sea efectiva para cumplir los requisitos de datos deseados.

Explorando la calidad de los datos frente a la integridad de los datos

Básicamente, la integridad de los datos es un subconjunto de la calidad de los datos, que se relaciona con las características más allá de la validez de los datos, tal como describimos a continuación:

1. Completitud

Una indicación de la amplitud de los datos disponibles, como una proporción de todo el conjunto de datos posible para abordar los requisitos de información específicos. Esta proporcionalidad se mide como un porcentaje y se define en función de variables específicas y reglas comerciales.

Por ejemplo, considera una lista de los registros de salud de los pacientes que visitan el centro médico entre fechas específicas y ordenados por nombre y apellido.

El recurso de datos se considerará completo al 100%, incluso si no incluye la dirección o los números de teléfono de los pacientes, pero incluye todos los registros de salud necesarios, el nombre y los apellidos en fechas específicas. El porcentaje de integridad se reduce en ausencia de cualquier elemento de datos críticos.

2. Singularidad

Una medida discreta de la duplicación de elementos de datos identificados, dentro de un conjunto de datos o en comparación con su contraparte en otro conjunto de datos, que cumple con las mismas especificaciones de información o reglas de negocio. Por ejemplo, considera la misma lista de registros de salud que se mencionó anteriormente, que debe cubrir 100 pacientes según la evaluación del mundo real. Si la lista contiene más de 100 elementos, entonces uno o más pacientes deben tener sus datos duplicados, y enumerados como una entidad separada.

Dependiendo de las circunstancias y los requisitos comerciales para el análisis de los datos, esta duplicación podría dar lugar a resultados erróneos e imprecisiones.

Matemáticamente, la singularidad se puede definir como 100 por ciento si la cantidad de elementos de datos en el contexto del mundo real es única e igual a la cantidad de elementos de datos identificados en el conjunto de datos disponible.

3. Puntualidad

El grado en que los datos están actualizados y disponibles dentro de un marco de tiempo, duración y duración aceptables. El valor de las decisiones basadas en datos no solo depende de la exactitud de la información sino también de respuestas rápidas y oportunas.

El tiempo de ocurrencia de los eventos del mundo real asociados se considera como una referencia y la medida se evalúa de forma continua.

El valor y la precisión de los datos pueden disminuir con el tiempo. Por ejemplo, los datos sobre el número de incidentes de tráfico de hace varios años pueden no ser completamente relevantes para tomar decisiones sobre los requisitos de la infraestructura vial para el futuro inmediato.

4. Validez

Una medida de conformidad con los requisitos empresariales definidos y la sintaxis de su definición. El alcance de la sintaxis puede incluir el tipo permitido, rango, formato y otros atributos de preferencia.

Se mide como una proporción porcentual de elementos de datos válidos en comparación con los conjuntos de datos disponibles.

En el contexto de la Integridad de los Datos, la validez de los datos abarca las relaciones entre los elementos de datos que pueden rastrearse y conectarse a otras fuentes de datos con fines de validación.

Si no se establecen enlaces de elementos de datos válidos al contexto del mundo real, se puede considerar que la información es inadecuada en términos de su integridad.

La validez de los datos es una de las dimensiones críticas de la calidad de los datos y se mide junto con los parámetros relacionados que definen la integridad, la precisión y la coherencia de los datos, todos los cuales también afectan a la integridad de los datos.

5. Exactitud

El grado en que el elemento de datos describe correctamente el objeto en el contexto del contexto y los atributos del mundo real apropiados.

contexto del mundo real puede identificarse como una versión única de la verdad establecida y utilizarse como referencia para identificar la desviación de los elementos de datos de esta referencia.

Las especificaciones de las referencias del mundo real se pueden basar en los requisitos del negocio y todos l os elementos de datos que reflejan con precisión las características de los objetos del mundo real dentro de las especificaciones permitidas se pueden considerar como una información precisa.

La precisión de los datos afecta directamente la corrección de las decisiones y debe considerarse como un componente clave para las prácticas de análisis de datos.

6. Consistencia

Esta medida representa la ausencia de diferencias entre los elementos de datos que representan los mismos objetos en función de requisitos de información específicos. Los datos se pueden comparar por consistencia dentro de la misma base de datos o en comparación con otros conjuntos de datos de especificaciones similares.

La medición discreta se puede utilizar como una evaluación de la calidad de los datos y se puede medir como un porcentaje de los datos que reflejan la misma información que la prevista para todo el conjunto de datos.

Por el contrario, los datos inconsistentes pueden incluir la presencia de atributos que no se esperan para la información prevista.

Por ejemplo, un conjunto de datos que contiene información sobre los usuarios de la aplicación se considera inconsistente si el recuento de usuarios activos es mayor que el número de usuarios registrados.

También te pude interesar: Guía de la A a la Z para flujos de trabajo ágiles

Conclusión relevancia de la integridad de los datos

La comparación de Calidad de Datos vs Integridad de Datos se centra principalmente en la dimensión de validez asociada con los datos.

En el contexto de la integridad de los datos, los atributos de precisión y coherencia de la integridad de los datos también están estrechamente relacionados, seguidos por la integridad de la información.

La puntualidad y la singularidad de los datos son más útiles para comprender la calidad general de los datos en lugar de la integridad de la información.

Además de estas seis dimensiones clave de la calidad de los datos, cada organización puede usar sus propias métricas y atributos para comprender el verdadero valor que la información disponible tiene para ellos.

Consulta la información original en inglés

Tipos de plataformas low-code

En el siguiente blog analizamos diferentes desafíos que atraviesan las empresas y los tipos de herramientas low-code que pueden ayudarte.

Transformación digital con ayuda de Low-Code

La transformación digital implica muchos desafíos, pero con ayuda de Low-code podemos superar estos problemas y abrir el camino para el cambio

5 consejos para elegir la suite de Gestión de Procesos de Negocio (BPM)

El enfoque de suite de gestión de procesos empresariales ayuda en el ciclo de vida de mejora de procesos como analizamos en este blog.

Plataforma de código abierto low-code, qué es y cuáles son sus ventajas

En el siguiente blog exploramos la definición de las plataformas de código abierto low-code, sus ventajas y desventajas

Plataformas no-code frente a los problemas de TI

Ingresa en nuestro blog para aprender cómo las plataformas no-code ayudan a resolver los problemas en los departamentos de TI

Características de los sistemas de low-code qué los hace mejores

En el siguiente blog hablamos sobre el impacto de los sistemas low-code en el desarrollo de aplicaciones y sus ventajas en los negocios

6 puntos clave para elegir la plataforma RAD adecuada

El siguiente blog analizamos el desarrollo de aplicaciones RAD y las características que debe tener para tu negocio.

No-code: qué es y cómo aplicarlo en el desarrollo sin código

Con la llegada de la programación no-code, diseñar las soluciones que tu empresa necesita es más fácil, descubre cómo lograrlo en este post

Los 6 principales desafíos en adquisiciones que enfrentan las empresas

En este blog analizamos los principales problemas en el área de adquisiciones que enfrentan las empresas de todos los tamaños

7 beneficios de implementar el desarrollo ciudadano

Con el desarrollo ciudadano tu empresa puede eliminar los cuellos de botella y reducir la carga de trabajo de TI. Descubre más en este blog