Datos estadísticos: Qué son y cómo usarlos para optimizar su estrategia de marketing

Las estadísticas se utilizan en casi todos los aspectos de la ciencia de datos. Se utiliza para analizar, transformar y limpiar datos. Evaluar y optimizar los algoritmos de aprendizaje automático. También se usa en la presentación de ideas y hallazgos.

El campo de las estadísticas es extremadamente amplio y determina qué necesita aprender exactamente y en qué orden puede ser difícil. Además, mucho material para aprender este tema es muy complejo y, en algunos casos, puede ser bastante difícil de digerir. Particularmente si no tiene un título avanzado de matemáticas y está haciendo la transición a la ciencia de datos de un campo como la ingeniería de software.

En el siguiente artículo, voy a presentar ocho conceptos estadísticos fundamentales que necesita para poder comprender al aprender ciencia de datos. Estas no son técnicas particularmente avanzadas, pero son una selección de los requisitos básicos que necesita saber antes de pasar a aprender métodos más complejos.

En estadísticas, todo el conjunto de datos sin procesar que puede tener disponible para una prueba o experimento se conoce como la población. Por varias razones, no necesariamente no puede medir los patrones y tendencias en toda la población. Por esa razón, las estadísticas nos permiten tomar una muestra, realizar algunos cálculos en ese conjunto de datos, y utilizando la probabilidad y algunas suposiciones podemos, con un cierto grado de certeza, comprender las tendencias para toda la población o predecir eventos futuros.

Las estadísticas nos permiten tomar una muestra, o la parte de la población, realizar algunos cálculos en ese conjunto de datos y usar la probabilidad y algunos supuestos que podemos con cierto grado de certeza comprender las tendencias para toda la población.

¿Cómo describir datos estadísticos?

Encontramos estadísticas en todas las áreas de nuestra vida y es importante que comprendamos cómo las estadísticas extraen el significado de los datos. Esta publicación explorará los métodos y descriptivos que puede usar para describir sus datos.

Antes de continuar con esta publicación, primero puede encontrar útil leer «Introducción a las estadísticas», le dará una introducción básica a la terminología estadística, los gráficos y los tipos de datos.

El objetivo principal de cualquier estadística es condensar los datos en resúmenes fáciles de entender. Poder describir de manera efectiva sus datos abrirá su conjunto de datos a una audiencia más amplia. También le permitirá realizar un análisis más fácilmente. Esta publicación explorará:

Una distribución normal es un tipo de distribución de datos, a veces denominada curva de campana (después de su forma) o distribución gaussiana, y es una de las más fáciles de usar matemáticamente. Muchas variables son normales distribuidas.

Un conjunto de datos que tiene una distribución normal puede describirse mediante dos números:

  • Media: medida de ubicación del centro de la curva
  • Desviación estándar: medida de variación; el ancho de la curva

Aquí puede ver un conjunto de datos que tiene una distribución normal.

La variable en el eje horizontal (x) podría ser «altura en centímetros», y el eje vertical (y) «número de personas». Si la distribución de altura para una muestra de personas se parecía a este gráfico, entonces podemos decir que la muestra está distribuida normal.

Una hipótesis es una explicación propuesta para algo que desea probar. Cuando realice una prueba estadística, abordará una hipótesis que ha propuesto.

¿Cómo se pueden describir los datos?

La creación de una base de datos es un proceso complejo dividido en una cascada en las siguientes fases:

  • Recolección y análisis de los requisitos. El resultado de esta fase es una descripción en el lenguaje natural del micro-mondo (universo del habla) que desea modelar. Se deben describir tanto los aspectos estáticos (datos) como la dinámica (operaciones o transacciones en los datos). Por lo general, esta fase tiene lugar en contacto cercano con el cliente del sistema insertando los diseñadores de DBMS en el lugar de trabajo en el que la aplicación debe llevarse a cabo (diseño contextual). Además, es necesario interactuar con los usuarios potenciales del sistema recolectando las formas en que tienen la intención de usar el sistema. Una vez que se han recopilado los requisitos, es necesario analizarlos obteniendo una breve descripción y especifica que las entidades esenciales del universo del habla y las relaciones entre ellos son las entidades esenciales.
  • Diseño conceptual de la base de datos. El objetivo de esta fase es la formalización de los requisitos de la base de datos en un esquema conceptual independiente tanto del tipo como de los DBM específicos que se utilizarán. El modelo de relación de entidad (ER) se utiliza para usarse durante el diseño conceptual para definir los aspectos estáticos del sistema, es decir, datos. Es un modelo esquemático que describe las entidades para ser modeladas (por ejemplo, en un contexto universitario, estudiante y curso), los atributos de las entidades (por ejemplo, número de serie para el estudiante y el nombre por curso), las relaciones entre las entidades (Por ejemplo, el informe del examen de que los estudiantes asociados con cursos cuyo examen se ha aprobado), y la cardinalidad de las relaciones (un estudiante puede haber pasado cero o más cursos y un curso puede haber pasado de cero o más estudiantes).
    El modelo ER no permite la especificación de transacciones, que se describen en términos de su entrada, salida y comportamiento funcional. Un modelo conceptual que le permite especificar los aspectos estáticos y dinámicos del sistema de manera integrada es el lenguaje de modelado unificado (UML).
  • Elección del tipo de base de datos. Antes de comenzar el diseño lógico, debe elegir el tipo de base de datos que se utilizará, es decir, el modelo de datos que desea adoptar. La elección de los DBM específicos se realiza después del diseño lógico y antes del físico.
  • Diseño lógico de la base de datos. Durante esta fase, el esquema conceptual (referido a los datos) se traduce en un esquema lógico que refleja el modelo de los datos elegidos en el paso anterior. El esquema lógico es independiente de los DBM específicos que se eligirán después de esta fase. El modelo de los datos de las bases relacionales toma el nombre del modelo relacional. El modelo de informe de datos utiliza una colección de tablas para modelar tanto las entidades como las relaciones del modelo conceptual. Las columnas de las tablas corresponden a los atributos de las entidades.
    Por ejemplo, podríamos traducir la entidad estudiantil en una tabla del mismo nombre con, entre otros, la columna de serie, la entidad llovida en una tabla del mismo nombre con, entre otros, la columna de nombre y la relación de examen en una Tercera tabla del mismo nombre con las columnas en serie del estudiante, el nombre del curso, la fecha y el voto del examen. Además, durante el diseño lógico, se definen esquemas externos (vistas) para aplicaciones específicas.
  • Elección de un DBMS. En esta fase es necesario elegir los DBM específicos que pertenecen al tipo previamente identificado. La elección de un DBMS está influenciada por factores técnicos (por ejemplo, las estructuras de almacenamiento y acceso a los archivos ofrecidos por el DBMS) y por factores económicos y organizacionales (por ejemplo, costo del sistema y asistencia postventa).
  • Diseño físico de la base de datos. Durante esta fase, el esquema lógico de la base de datos se traduce en un esquema físico que consiste en las definiciones de las tablas, restricciones relacionadas y cualquier opinión en un lenguaje formal (SQL en las bases relacionales). Además, en esta etapa, entre los que están disponibles por el DBMS, se eligen las estructuras de almacenamiento y acceso a las tablas con el objetivo de garantizar la eficiencia del sistema. Finalmente, las transacciones se implementan en lenguaje formal (SQL en las bases relacionales).
  • Realización y optimización del sistema de base de datos. En esta etapa, las tablas, las limitaciones de integridad en los datos y las vistas se crean físicamente explotando las definiciones del esquema físico. Las tablas se poblan luego insertando los datos reales. En este punto, comienza la optimización del sistema (ajuste): las transacciones se realizan en los datos y se monitorizan el rendimiento del sistema, posiblemente cambiando los parámetros elegidos durante el diseño físico.

La ejecución de estas fases es teóricamente secuencial. De hecho, durante el desarrollo del sistema puede haber ciclos de retroalimentación durante los cuales se cambia una fase anterior durante una fase posterior.

Es importante tener en cuenta que las fases más importantes son las más generales, es decir, las iniciales. De hecho, un error en una fase inicial, por ejemplo, olvidar una relación importante entre dos entidades durante el análisis de los requisitos, afecta a Cascade en todas las etapas posteriores. Por el contrario, un error en una fase terminal, por ejemplo, un error de programación en una transacción, puede corregirse fácilmente sin influir en las fases anteriores.

¿Cómo se describe un análisis estadístico?

¿Ha recopilado información con un cuestionario, o mediante bases de datos, registros médicos u otras fuentes, y le gustaría llevar a cabo un análisis estadístico simple sobre estos datos? En este artículo encontrará una guía práctica con las respuestas a muchas de las preguntas que podría llevar a su camino.

Para llevar a cabo un análisis estadístico, no es suficiente tener datos y un programa para analizarlos. También es necesario saber cuál es la técnica estadística más adecuada para responder a sus preguntas de investigación.

Y, sobre este último aspecto, tengo una buena y mala noticia para ti. La mala noticia es que los análisis estadísticos varían no solo sobre la base de los objetivos de la investigación, sino también dependiendo del tipo de variables que se consideren. La buena noticia es que los análisis más simples que las técnicas para usar no son tantas.

Para llevar a cabo los análisis más simples, simplemente use una hoja como sábanas de Excel o Google. Sin embargo, si la información a analizar es muchas, considere que usar un software estadístico (por ejemplo, Jamovi, que es gratuito y muy intuitivo, podría ahorrarle mucho tiempo.

En general, especialmente para los análisis básicos, todo el software está bien y la elección de la cual usar es más que cualquier otra cosa una cuestión de su comodidad y conocimiento de la herramienta. Los resultados que obtendrá, aunque formateados de una manera diferente, siempre serán los mismos en el nivel numérico y siempre lo llevarán a las mismas conclusiones.

Artículos Relacionados:

Related Posts

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *