La calidad de datos es esencial para el éxito de tu negocio

La calidad de los datos es una medida de la condición de los datos basados ​​en factores como la precisión, la integridad, la coherencia, la confiabilidad y si está actualizado. La medición de los niveles de calidad de los datos puede ayudar a las organizaciones a identificar errores de datos que deben resolverse y evaluar si los datos en sus sistemas de TI son adecuados para cumplir con su propósito previsto.

El énfasis en la calidad de los datos en los sistemas empresariales ha aumentado a medida que el procesamiento de datos se ha vinculado más intrincadamente con las operaciones comerciales y las organizaciones utilizan cada vez más análisis de datos para ayudar a impulsar las decisiones comerciales. La gestión de la calidad de los datos es un componente central del proceso general de gestión de datos, y los esfuerzos de mejora de la calidad de los datos a menudo están estrechamente vinculados a los programas de gobernanza de datos que tienen como objetivo garantizar que los datos se formateen y se usen de manera consistente en toda una organización.

Los malos datos pueden tener consecuencias comerciales significativas para las empresas. Los datos de baja calidad a menudo se vinculan como la fuente de los obstáculos operativos, el análisis inexacto y las estrategias comerciales mal concebidas. Ejemplos del daño económico que los problemas de calidad de los datos pueden causar incluyen gastos adicionales cuando los productos se envían a las direcciones de los clientes equivocadas, las oportunidades de ventas perdidas debido a registros de clientes erróneos o incompletos y multas por informes de cumplimiento financiero o regulatorio inadecuado.

Una estimación citada por IBM calculó que el costo anual de los problemas de calidad de los datos en los EE. UU. Ascendió a $ 3.1 billones en 2016. En un artículo escribió para la revisión del MIT Sloan Management en 2017, el consultor de calidad de datos Thomas Redman estimó que corrigiendo los errores de datos y lidiar con los problemas comerciales causados ​​por los malos datos, las empresas cuestan entre el 15 y el 25% de sus ingresos anuales en promedio.

¿Qué es la calidad de los datos?

La calidad de los datos se refiere al desarrollo e implementación de actividades que aplican técnicas de gestión de calidad a los datos para garantizar que los datos sean adecuados para satisfacer las necesidades específicas de una organización en un contexto particular. Los datos que se consideran adecuados para su propósito previsto se consideran datos de alta calidad.

Las evaluaciones de calidad de los datos son ejecutadas por analistas de calidad de datos, que evalúan e interpretan cada métrica de calidad de datos individual, agregan una puntuación para la calidad general de los datos y proporcionan a las organizaciones un porcentaje para representar la precisión de sus datos. Un cuadro de mando de baja calidad de datos indica una mala calidad de datos, que es de bajo valor, es engañoso y puede conducir a una mala toma de decisiones que puede dañar a la organización.

Las reglas de calidad de los datos son un componente integral de la gobernanza de datos, que es el proceso de desarrollar y establecer un conjunto de reglas y estándares definidos y acordados por los cuales se rigen todos los datos en una organización. El gobierno efectivo de los datos debe armonizar datos de varias fuentes de datos, crear y monitorear las políticas de uso de datos, y eliminar las inconsistencias e inexactitudes que de otro modo afectarían negativamente la precisión del análisis de datos y el cumplimiento regulatorio.

¿Por qué métricas medimos la calidad de los datos? Hay seis dimensiones principales de la calidad de los datos: precisión, integridad, consistencia, validez, singularidad y puntualidad.

  • Precisión: los datos deben reflejar escenarios reales del mundo real; La medida de precisión se puede confirmar con una fuente verificable.
  • Completa: la integridad es una medida de la capacidad de los datos para entregar efectivamente todos los valores requeridos que están disponibles.
  • Consistencia: la consistencia de los datos se refiere a la uniformidad de los datos a medida que se mueve a través de redes y aplicaciones. Los mismos valores de datos almacenados en ubicaciones de diferencia no deben entrar en conflicto entre sí.
  • Validez: los datos deben recopilarse de acuerdo con las reglas y parámetros comerciales definidos, y deben ajustarse al formato correcto y caer dentro del rango correcto.
  • Singularidad: la singularidad asegura que no haya duplicaciones o superposiciones de valores en todos los conjuntos de datos. La limpieza de datos y la deduplicación pueden ayudar a remediar un puntaje de bajo singularidad.
  • Puntualidad: los datos oportunos son datos disponibles cuando se requiere. Los datos se pueden actualizar en tiempo real para garantizar que esté disponible y accesible.
  • Lote y tiempo real: una vez que los datos se limpian inicialmente, un marco efectivo de calidad de datos debería poder implementar las mismas reglas y procesos en todas las aplicaciones y tipos de datos a escala.

Un buen servicio de calidad de datos debe proporcionar un tablero de calidad de datos que brinde una experiencia de usuario flexible y se puede adaptar a las necesidades específicas de los administradores de calidad de datos y los científicos de datos que ejecutan la supervisión de la calidad de los datos. Estas herramientas y soluciones pueden proporcionar pruebas de calidad de datos, pero no pueden arreglar datos completamente rotos e incompletos. Debe existir un marco sólido de gestión de datos para desarrollar, ejecutar y administrar las políticas, estrategias y programas que rigen, aseguran y mejoran el valor de los datos recopilados por una organización.

¿Que se entiende por calidad de datos?

En general, para determinar el nivel de calidad de sus datos, las organizaciones inicialmente llevan a cabo un inventario, durante el cual la precisión relativa, la singularidad y la validez de los datos para establecer un marco de referencia. Los valores de referencia así determinados luego permiten una comparación continua con los datos en los sistemas para identificar y luego resolver cualquier problema de calidad.

Otro paso actual, la creación de reglas de calidad de datos a partir de necesidades comerciales sobre datos operativos y analíticos. Este tipo de regla establece los niveles de calidad requeridos en los juegos de datos y detalla los diversos elementos que deben incluir para permitir la verificación de los atributos de calidad de los datos, como la precisión y la consistencia.

Una vez que se han establecido las reglas, el equipo de gestión de datos generalmente realiza una evaluación para medir la calidad de los conjuntos de datos y documentar errores y otros problemas. Este procedimiento se puede repetir a intervalos regulares para mantener el nivel más alto de calidad posible.

Es posible que sean diferentes metodologías para llevar a cabo estas evaluaciones, como el Marco de Evaluación de Calidad de Datos (DQAF), creada por la subsidiaria de atención médica del Grupo Unido, Optum, para formalizar su método para evaluar la calidad de los datos. Completa, noticias, validez, coherencia e integridad, el DQAF hace recomendaciones que permiten medir las dimensiones de la calidad de los datos. Optum ha puesto a disposición los detalles de su marco de referencia para cualquier organización que necesite un modelo.

El FMI (Fondo Monetario Internacional), que supervisa el sistema monetario global y otorga préstamos a países con dificultades económicas, también ha definido su propia metodología de evaluación, llamado Marco de Evaluación de Calidad de Datos (CEQD). Este marco se centra en varias características de la calidad de los datos, incluida la precisión, la confiabilidad, la coherencia que el FMI requiere de los países miembros, cuando se someten a datos estadísticos.

¿Cómo se aplica la calidad de datos?

La calidad de los datos es una parte integral del gobierno de datos que garantiza que los datos de su organización sean adecuados para su propósito. Se refiere a la utilidad general de un conjunto de datos y su capacidad para procesarse y analizar fácilmente para otros usos. La gestión de dimensiones de calidad de datos, como integridad, conformidad, consistencia, precisión e integridad, ayuda a sus iniciativas de gobierno, análisis e IA/ML a ofrecer resultados confiables confiables.

Los datos de calidad son datos útiles. Para ser de alta calidad, los datos deben ser consistentes e inequívocos. Los problemas de calidad de los datos son a menudo el resultado de fusiones de base de datos o sistemas/procesos de integración en la nube en los que los campos de datos que deben ser compatibles no se deben a un esquema o un formato de inconsistencias. Los datos que no son de alta calidad pueden someterse a una limpieza de datos para aumentar su calidad.

Cuando los datos son de excelente calidad, se pueden procesar y analizar fácilmente, lo que lleva a ideas que ayudan a la organización a tomar mejores decisiones. Los datos de alta calidad son esenciales para el análisis en la nube, las iniciativas de IA, los esfuerzos de inteligencia empresarial y otros tipos de análisis de datos.

Además de ayudar a su organización a extraer más valor de sus datos, el proceso de gestión de la calidad de los datos mejora la eficiencia y la productividad de la organización, junto con la reducción de los riesgos y los costos asociados con datos de baja calidad. En resumen, la calidad de los datos es la base de los datos de confianza que impulsa la transformación digital, y una inversión estratégica en la calidad de los datos valdrá la pena repetidamente, en múltiples casos de uso, en toda la empresa.

Las actividades de calidad de los datos implican racionalización y validación de datos. Los esfuerzos de calidad de los datos a menudo se necesitan al integrar aplicaciones dispares que ocurren durante las actividades de fusión y adquisición, pero también cuando los sistemas de datos en conjunto dentro de una sola organización se unen por primera vez en un almacén de datos en la nube o el lago de datos. La calidad de los datos también es crítica para la eficiencia de las aplicaciones comerciales horizontales, como la planificación de recursos empresariales (ERP) o la gestión de relaciones con el cliente (CRM).

¿Qué es control de calidad de datos?

El control de calidad de los datos es el proceso de control del uso de datos para una aplicación o un proceso. Este proceso se realiza tanto antes como después de un proceso de garantía de calidad de datos (QA), que consiste en el descubrimiento de la inconsistencia y la corrección de datos.

  • Restringe las entradas

Después del proceso de control de calidad, se recopilan las siguientes estadísticas para guiar el proceso de control de calidad (QC):

  • Restringe las entradas
  • Gravedad de la inconsistencia
  • Incompletitud
  • Precisión
  • Precisión
  • Faltante / desconocido
  • El proceso de control de calidad de datos utiliza la información del proceso de control de calidad para decidir usar los datos para el análisis o en una aplicación o proceso comercial. Ejemplo general: si un proceso de control de calidad de datos encuentra que los datos contienen demasiados errores o inconsistencias, entonces evita que los datos se utilicen para su proceso previsto que podría causar interrupción. Ejemplo específico: proporcionar mediciones no válidas de varios sensores a la función de piloto automático en una aeronave podría hacer que se bloquee. Por lo tanto, el establecimiento de un proceso de CC proporciona protección de uso de datos. [Cita necesaria]

    La calidad de los datos (DQ) es un área de nicho requerida para la integridad de la gestión de datos al cubrir las brechas de los problemas de datos. Esta es una de las funciones clave que ayudan a la gobernanza de datos al monitorear los datos para encontrar excepciones no descubiertas por las operaciones actuales de gestión de datos. Las verificaciones de calidad de los datos pueden definirse a nivel de atributo para tener un control total en sus pasos de remediación. [Cita necesaria]

    ¿Por qué es importante la calidad de los datos?

    Los datos de calidad son clave para tomar decisiones precisas e informadas. Y aunque todos los datos tienen cierto nivel de «calidad», una variedad de características y factores determina el grado de calidad de los datos (alta calidad versus baja calidad). Además, las diferentes características de calidad de datos probablemente serán más importantes para varios interesados ​​en toda la organización.

    Una lista de características y dimensiones de calidad de datos populares incluye:

    • Precisión
    • Lo completo
    • Consistencia
    • Integridad
    • Razonabilidad
    • Oportunidad
    • Singularidad/deduplicación
    • Validez
    • Accesibilidad

    Debido a que la precisión de los datos es un atributo clave de los datos de alta calidad, un solo punto de datos inexacto puede causar estragos en todo el sistema.

    Sin precisión y confiabilidad en la calidad de los datos, los ejecutivos no pueden confiar en los datos o tomar decisiones informadas. Esto puede, a su vez, aumentar los costos operativos y causar estragos para los usuarios posteriores. Los analistas terminan confiando en informes imperfectos y haciendo conclusiones equivocadas basadas en esos hallazgos. Y la productividad de los usuarios finales disminuirá debido a que las pautas y prácticas defectuosas están en su lugar.

    Los datos mal mantenidos también pueden conducir a una variedad de otros problemas. Por ejemplo, la información desactualizada del cliente puede dar lugar a oportunidades perdidas para productos y servicios de ventas transversales.

    Los datos de baja calidad también pueden hacer que una empresa envíe sus productos a las direcciones incorrectas, lo que resulta en una menor calificación de satisfacción del cliente, disminuciones en las ventas repetidas y mayores costos debido a la requisitos.

    ¿Cuáles son los pasos para asegurar la calidad de los datos?

    Hace varios años, conocí a un director senior de una gran empresa. Mencionó que la compañía para la que trabajaba se enfrentaba a problemas de calidad de datos que erosionaban la satisfacción del cliente, y había pasado meses investigando las posibles causas y cómo solucionarlas. «¿Qué has encontrado?» Pregunté con entusiasmo. “Es un tema difícil. No encontré una sola causa, por el contrario, muchas cosas salieron mal ”, respondió. Luego comenzó a citar una larga lista de lo que contribuyó a los problemas de calidad de los datos: casi todos los departamentos de la compañía estaban involucrados y fue difícil para él decidir por dónde comenzar a continuación. Este es un caso típico cuando se trata de la calidad de los datos, que se relaciona directamente con cómo una organización está haciendo su negocio y todo el ciclo de vida de los datos en sí.

    Antes de que la ciencia de datos se convirtiera en la corriente principal, la calidad de los datos se mencionó principalmente para los informes entregados a clientes internos o externos. Hoy en día, debido a que el aprendizaje automático requiere una gran cantidad de datos de capacitación, los conjuntos de datos internos dentro de una organización tienen una gran demanda. Además, los análisis siempre tienen hambre de datos y buscan constantemente activos de datos que puedan agregar valor, lo que ha llevado a la adopción rápida de nuevos conjuntos de datos o fuentes de datos que no se exploran o usan antes. Esta tendencia ha hecho que la gestión de datos y las buenas prácticas para garantizar una buena calidad de datos sea más importante que nunca.

    El objetivo de este artículo es darle una idea clara de cómo construir una tubería de datos que cree y mantenga una buena calidad de datos desde el principio. En otras palabras, la calidad de los datos no es algo que pueda mejorarse fundamentalmente al encontrar problemas y solucionarlos. En cambio, cada organización debe comenzar produciendo datos con buena calidad en primer lugar.

    ¿Cómo podemos medir la calidad de datos?

    Problemas con la transformación de datos, es decir, el proceso de tomar datos que se almacenan en un formato y convertirlos en un formato diferente, a menudo son un signo de problemas de calidad de datos. Al medir el número de operaciones de transformación de datos que fallan (o tardan mucho en completar), puede obtener información sobre la calidad general de sus datos.

    Los datos oscuros son datos que no se pueden usar de manera efectiva, a menudo debido a problemas de calidad de datos. Cuantos más datos oscuros tenga, más problemas de calidad de datos probablemente tendrá.

    Si está ejecutando una campaña de marketing, la mala calidad de los datos es una de las causas más comunes de los rebotes de correo electrónico. Suceden porque los errores, los datos faltantes o los datos obsoletos le hacen enviar correos electrónicos a las direcciones incorrectas.

    ¿Están aumentando los costos de almacenamiento de datos, mientras que la cantidad de datos que realmente usa sigue siendo la misma? Este es otro posible signo de problemas de calidad de datos. Si está almacenando datos sin usarlo, podría deberse a que los datos tienen problemas de calidad. Si, por el contrario, sus costos de almacenamiento disminuyen mientras sus operaciones de datos se mantienen igual o crecen, es probable que mejore el frente de la calidad de los datos.

    Calcular cuánto tiempo lleva a su equipo obtener resultados de un conjunto de datos determinado es otra forma de medir la calidad de los datos. Si bien una serie de factores (como cómo están las herramientas de transformación de datos automatizadas) afectan el tiempo de valor de los datos, los problemas de calidad de los datos son un inconveniente común que ralentiza los esfuerzos para obtener información valiosa de los datos.

    ¿Cómo se mide la calidad de los datos obtenidos durante una investigación?

    Los investigadores generalmente evalúan la calidad de los datos tanto a nivel de grupo como a nivel individual. En ambos niveles, los investigadores buscan evidencia de que los datos son: 1) consistentes, 2) correcto, 3) completo y 4) creíble.

    Evaluar la consistencia de las respuestas de las personas a nivel grupal a menudo significa examinar las medidas de confiabilidad interna, como la puntuación alfa de un Chronbach.

    Las medidas de confiabilidad le dicen al investigador qué tan bien una prueba mide lo que debe medir. Para las medidas validadas que se han utilizado antes, una puntuación de baja confiabilidad puede indicar respuestas inconsistentes de los participantes de la investigación.

    Los investigadores evalúan el
    consistencia de las respuestas a nivel individual identificando cualquiera de las contradicciones lógicas
    en respuestas de las personas o respuestas inconsistentes a preguntas específicas diseñadas para
    Obtenga la misma información (por ejemplo, «¿Cuál es su edad?» «¿Qué año fue usted?
    ¿nacido?»). Las personas que proporcionan muchas respuestas inconsistentes a menudo se eliminan de
    el conjunto de datos.

    ¿Qué significa para
    ¿Los datos serán «correctos»? En pocas palabras, los datos correctos son datos que miden con precisión
    una construcción de interés. Una construcción puede ser felicidad, satisfacción del cliente,
    La intención de las personas de comprar un nuevo producto o algo tan complejo como sentimientos de
    lamentar.

    Independientemente de la construcción específica, los investigadores típicamente
    Evaluar la corrección a nivel de grupo de sus datos examinando si los datos
    están relacionados con construcciones similares con las que deben relacionarse (validez convergente) y diferentes
    de construcciones no deberían relacionar
    a (validez discriminante).

    ¿Cómo medir la integridad de los datos?

    El costo de los malos datos es bastante alto. Si está utilizando datos malos en su análisis, entonces es probable que tome malas decisiones basadas en ello. Dado que los datos ahora se consideran el activo más valioso de todas las organizaciones, vale la pena invertir el tiempo para asegurarse de que sea lo más preciso y confiable posible. Y mirar su integridad de datos es un gran lugar para comenzar.

    En primer lugar, consideremos la diferencia entre la integridad de los datos y la calidad de los datos. La integridad de los datos es la integridad, precisión, consistencia, puntualidad y cumplimiento de los datos dentro de sus sistemas. La integridad de los datos incluye: integridad física, lo que significa que los datos se almacenan en una plataforma física segura y confiable; Integridad lógica, lo que significa que los datos son precisos y correctos, y sin cambios, incluso si se usa en diferentes contextos en una base de datos relacional; y cumplimiento, lo que significa que los datos cumplen y mantienen los estándares de cumplimiento necesarios, como los estándares para GDPR.

    La integridad de los datos es un componente importante de la calidad de los datos. No puede tener datos de alta calidad si no tiene integridad de datos. La calidad de los datos incluye todas las características de la integridad de los datos, así como:

    • ¿La razonabilidad de los datos cumple razonablemente los criterios establecidos para ello?
    • ¿Se han eliminado la singularidad?
    • Validez ¿Los datos cumplen con los criterios establecidos para el campo y/o tabla particular en la que aparece?
    • ¿La accesibilidad puede los usuarios llegar a los datos que necesitan cuando los necesitan?

    Aquí hay algunas características de integridad de datos a considerar.

    ¿Están sus datos completos? Hay varias formas diferentes de responder a esta pregunta. Es bastante fácil saber si se completa un registro, como tener el nombre, la dirección de correo electrónico y el número de teléfono para un cliente. Es más difícil determinar si tiene un conjunto completo de datos. ¿Tenemos un registro en nuestra base de datos para cada cliente nuestro?

    ¿Cuáles son las 6 dimensiones de calidad?

    El término «precisión» se refiere al grado en que la información refleja con precisión un evento u objeto descrito. Por ejemplo, si la edad de un cliente tiene 32 años, pero el sistema dice que tiene 34 años, esa información es inexacta.

    ¿Qué pasos puedes tomar para mejorar tu precisión? Pregúntese si la información representa la realidad de la situación. ¿Hay datos incorrectos (que deben ser solucionados)?

    Los datos se consideran «completos» cuando cumple con las expectativas de integridad. Digamos que le pide al cliente que suministre su nombre. Puede hacer que el segundo nombre de un cliente sea opcional, pero siempre que tenga el primer y apellido, los datos están completos.

    Hay cosas que puede hacer para mejorar esta dimensión de calidad de los datos. Deberá evaluar si toda la información requerida está disponible y si hay elementos faltantes.

    En muchas empresas, la misma información puede almacenarse en más de un lugar. Si esa información coincide, se considera «consistente». Por ejemplo, si sus sistemas de información de recursos humanos dicen que un empleado ya no trabaja allí, sin embargo, su nómina dice que todavía está recibiendo un cheque, eso es inconsistente.

    Para resolver problemas con la inconsistencia, revise sus conjuntos de datos para ver si son iguales en cada caso. ¿Hay casos en los que la información entra en conflicto consigo misma?

    ¿Está su información disponible justo cuando se necesita? Esa dimensión de calidad de datos se llama «puntualidad». Digamos que necesita información financiera cada trimestre; Si los datos están listos cuando se supone que debe ser, es oportuno.

    ¿Cuáles son las 6 dimensiones de la calidad?

    En salud y atención social, la calidad es crucial. Sin embargo, ahí es donde se encuentra un gran desafío. Para cerrar la brecha entre lo que sabemos es una buena atención versus lo que los usuarios de atención realmente reciben, el Instituto de Medicina publicó un informe que describe estas preocupaciones. El informe también describió los seis dominios de la calidad de la atención, que exploraremos en este artículo.

    La diferencia entre el cuidado actual e ideal no es un concepto simple. Requiere cambios sistémicos en los seis dominios. Para tener una idea de dónde deben ocurrir los cambios, estos seis dominios proporcionan sistemas de pasos simples pero procesables que pueden tomar.

    La antigua máxima, «no hacer daño», crea una base para este principio. El objetivo de la atención médica debe ser mejorar el resultado de un paciente sin causar daño en el proceso. Desde errores con procedimientos médicos hasta resultados más desafiantes, como las actitudes hacia la atención médica, los proveedores de atención médica deben garantizar que sus prácticas no causen daño.

    Para lograr este objetivo en cualquier área de atención médica, la seguridad debe ser una propiedad del sistema. Cada sistema o área de atención médica puede observar sus procesos, encontrar áreas donde la seguridad está en riesgo y luego trabajar para mejorar o resolver esas áreas. La construcción de una cultura de seguridad se basa tanto en los procesos como en las personas involucradas.

    Por lo tanto, la seguridad es uno de los dominios más importantes de la calidad de la atención.

    ¿Qué son las dimensiones de la calidad?

    Un producto de calidad es un producto que cumple con las expectativas de los clientes. Las ocho dimensiones de la calidad ayudan a los productores a cumplir con estas expectativas.

    Es una herramienta de gestión estratégica que puede usarse como un marco para analizar las características de calidad. Las ocho dimensiones son rendimiento, características, confiabilidad, conformidad, durabilidad, capacidad de servicio, estética y calidad percibida.

    El rendimiento tiene que ver con las características operativas esperadas de un producto o servicio. ¿Un servicio o producto hace lo que se supone que debe hacer? Las características operativas principales implican elementos medibles, lo que facilita la medición objetiva del rendimiento.

    Algunos de los requisitos de rendimiento están relacionados con las preferencias subjetivas, pero cuando son preferencias de casi todos los consumidores, se vuelven tan poderosos como un requisito objetivo.

    En lo que el «rendimiento» de la dimensión no se centra son las características, las características que deciden cuán atractivo es un producto o servicio para el consumidor.

    Dichas características son los extras de un producto o servicio y complementan su funcionamiento básico. Esto significa que los que diseñan un producto o servicio deben estar familiarizados con los usuarios finales y deben actualizarse sobre los desarrollos en las preferencias del consumidor. A menudo es difícil ver una línea clara entre los atributos de rendimiento primario y las características adicionales.

    Un ejemplo de características en el servicio es ofrecer bebidas gratis en un avión. Un ejemplo de características en los productos es agregar un enfriador de bebidas en el automóvil.

    Artículos Relacionados:

    Más posts relacionados:

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *