Los 5 principales tipos de distribución de datos para tu negocio

Comencemos con la distribución más fácil que es la distribución de Bernoulli. ¡En realidad es más fácil de entender de lo que parece!

¡Todos ustedes para adictos al cricket por ahí! Al comienzo de cualquier partido de cricket, ¿cómo decides quién va a batear o pelear? ¡Un lanzamiento! Todo depende de si ganas o pierdes el lanzamiento, ¿verdad? Digamos que si el lanzamiento resulta en una cabeza, ganas. De lo contrario, pierdes. No hay a mitad de camino.

Una distribución de Bernoulli tiene solo dos resultados posibles, a saber, 1 (éxito) y 0 (falla), y una sola prueba. Entonces, la variable aleatoria X que tiene una distribución de Bernoulli puede tomar el valor 1 con la probabilidad de éxito, digamos P, y el valor 0 con la probabilidad de falla, digamos Q o 1-P.

Aquí, la aparición de una cabeza denota el éxito, y la aparición de una cola denota el fracaso.
Probabilidad de obtener una cabeza = 0.5 = probabilidad de obtener una cola ya que solo hay dos resultados posibles.

La función de masa de probabilidad viene dada por: PX (1-P) 1-X donde x € (0, 1).
También se puede escribir como

Las probabilidades del éxito y el fracaso no necesitan ser igualmente probables, como el resultado de una pelea entre yo y yo y Undertaker. Está bastante seguro de ganar. Entonces, en este caso, la probabilidad de mi éxito es 0.15, mientras que mi falla es 0.85

Aquí, la probabilidad de éxito (P) no es la misma que la probabilidad de falla. Entonces, el cuadro a continuación muestra la distribución de Bernoulli de nuestra lucha.

Aquí, la probabilidad de éxito = 0.15 y probabilidad de falla = 0.85. El valor esperado es exactamente lo que suena. Si te golpeo, puedo esperar que me golpees. Básicamente, el valor esperado de cualquier distribución es la media de la distribución. El valor esperado de una variable aleatoria X de una distribución de Bernoulli se encuentra de la siguiente manera:

La varianza de una variable aleatoria de una distribución de Bernoulli es:

Hay muchos ejemplos de distribución de Bernoulli, como si va a llover mañana o no, donde la lluvia denota el éxito y ninguna lluvia denota fracaso y ganador (éxito) o perder (fracaso) el juego.

¿Cómo saber el tipo de distribución de los datos?

Para elegir el análisis estadístico correcto, debe conocer la distribución de sus datos. Supongamos que desea evaluar la capacidad de su proceso. Si realiza un análisis que supone que los datos siguen una distribución normal cuando, de hecho, los datos no son normales, sus resultados serán inexactos. Para evitar este error costoso, debe determinar la distribución de sus datos.

Entonces, ¿cómo se determina la distribución? La identificación de distribución individual de Minitab es una forma simple de encontrar la distribución de sus datos para que pueda elegir el análisis estadístico apropiado. Puedes usarlo para:

Determine si una distribución que utilizó anteriormente todavía es válida para los datos actuales
Elija la distribución correcta cuando no esté seguro de qué distribución usar
Transforme sus datos para seguir una distribución normal

Echemos un vistazo más de cerca a tres formas en que puede usar la herramienta de identificación de distribución individual en nuestro software estadístico.

En la mayoría de los casos, el conocimiento de su proceso lo ayuda a identificar la distribución de sus datos. En estas situaciones, puede usar la identificación de distribución individual de Minitab para confirmar la distribución conocida se ajusta a los datos actuales.

Suponga que desea realizar un análisis de capacidad para garantizar que el peso de los recipientes de helados de su línea de producción cumpla con las especificaciones. En el pasado, los pesos de los contenedores de helados se han distribuido normalmente, pero desea confirmar la normalidad. Así es como utiliza la identificación de distribución individual para evaluar rápidamente el ajuste.

¿Qué tipos de distribución existen en estadística?

Dependiendo del tipo de datos que utilizamos, hemos agrupado distribuciones en dos categorías, distribuciones discretas para datos discretos (resultados finitos) y distribuciones continuas para datos continuos (resultados infinitos).

En estadísticas, la distribución uniforme se refiere a una distribución estadística en la que todos los resultados son igualmente probables. Considere rodar un dado de seis lados. Tiene la misma probabilidad de obtener los seis números en su próximo rollo, es decir, obtener precisamente uno de 1, 2, 3, 4, 5 o 6, igualando una probabilidad de 1/6, de ahí un ejemplo de una distribución uniforme discreta .

Como resultado, el gráfico de distribución uniforme contiene barras de igual altura que representan cada resultado. En nuestro ejemplo, la altura es una probabilidad de 1/6 (0.166667).

La distribución uniforme está representada por la función U (A, B), donde A y B representan los valores iniciales y finales, respectivamente. Similar a una distribución uniforme discreta, existe una distribución uniforme continua para variables continuas.

Los inconvenientes de esta distribución son que a menudo nos proporciona información relevante. Usando nuestro ejemplo de un dado rodante, obtenemos el valor esperado de 3.5, lo que no nos da una intuición precisa ya que no existe la mitad de un número en un dados. Dado que todos los valores son igualmente probables, no nos da un poder predictivo real.

La distribución de Bernoulli es una de las distribuciones más fáciles de entender. Se puede usar como punto de partida para derivar distribuciones más complejas. Cualquier evento con una sola prueba y solo dos resultados posibles siguen una distribución de Bernoulli. Voltear una moneda o elegir entre verdadero y falso en un cuestionario son ejemplos de una distribución de Bernoulli. Tienen una sola prueba y solo dos resultados. Supongamos que volteas una moneda una vez; Este es un solo sendero. Los únicos dos resultados posibles son cabezas o colas. Este es un ejemplo de una distribución de Bernoulli.

¿Cómo saber si mis datos siguen una distribución normal?

«Sus variables/características de entrada deben tener una distribución gaussiana» es la demanda hecha por algunos modelos de aprendizaje automático (modelos lineales). Pero, ¿cómo sabría si mi distribución de mi variable es gaussiana? Este artículo destaca algunos métodos para garantizar que una distribución de una variable sea gaussiana.

Este artículo asume que el lector tiene una idea de distribución gaussiana/normal. En este artículo utilizaremos los datos de Iris conocidos de Scikit-Learn. Primero, importemos los paquetes requeridos.

Los nombres de la columna del marco de datos (o) las características/variables de entrada son [0,1,2,3]

Este es el primer y un método simple utilizado para tener una idea justa de una distribución de una variable. Entriquemos los histogramas de las variables de los datos del iris.

Imagen del autor

Los histogramas anteriores muestran que las variables 0 y 1 están cerca de una distribución gaussiana (1 parece ser las más cercanas). Mientras que 3 y 4 no miran gaussianos en absoluto. Una nota de precaución es que los histogramas pueden ser engañosos.

Los gráficos de densidad es otra forma de trazar una distribución de una variable. Son similares a los histogramas, pero dan una imagen más clara de una distribución de una variable en comparación con los histogramas.

Ahora puedo ver que las variables 0 y 1 son más gaussianas que las que se muestran en los histogramas. Las variables 2 y 3 también se ven algo cerca del gaussiano, excepto los dos picos.

Los gráficos Q-Q trazan los datos en una distribución especificada. En este caso, la distribución especificada sería «norma». En Python, el gráfico Q-Q se puede trazar utilizando el método «Probplot» del módulo «Scipy.stats» como se muestra a continuación.

¿Qué es una distribución de probabilidad y cuántos tipos hay?

Una distribución de frecuencia describe una muestra o conjunto de datos específico. Es el número de veces que cada valor posible de una variable ocurre en el conjunto de datos.

El número de veces que ocurre un valor en una muestra se determina por su probabilidad de ocurrencia. La probabilidad es un número entre 0 y 1 que dice qué tan probable es que ocurra algo:

0 significa que es imposible.
1 significa que es seguro.

Cuanto mayor sea la probabilidad de un valor, mayor es su frecuencia en una muestra.

Más específicamente, la probabilidad de un valor es su frecuencia relativa en una muestra infinitamente grande.

Las muestras infinitamente grandes son imposibles en la vida real, por lo que las distribuciones de probabilidad son teóricas. Son versiones idealizadas de distribuciones de frecuencia que tienen como objetivo describir la población de la que se extrajo la muestra.

Las distribuciones de probabilidad se utilizan para describir las poblaciones de variables de la vida real, como lanzamientos de monedas o el peso de los huevos de gallina. También se usan en las pruebas de hipótesis para determinar los valores de P.

Ella puede tener una idea aproximada de la probabilidad de diferentes tamaños de huevo directamente de esta distribución de frecuencia. Por ejemplo, ella puede ver que hay una alta probabilidad de que un huevo sea de alrededor de 1.9 oz, y hay una baja probabilidad de que un huevo sea mayor de 2.1 oz.

Supongamos que el agricultor quiere estimaciones de probabilidad más precisas. Una opción es mejorar sus estimaciones pesando muchos más huevos.

Una mejor opción es reconocer que el tamaño del huevo parece seguir una distribución de probabilidad común llamada distribución normal. El agricultor puede hacer una versión idealizada de la distribución del peso del huevo suponiendo que los pesos se distribuyan normalmente:

Dado que las distribuciones normales son bien entendidas por los estadísticos, el agricultor puede calcular estimaciones de probabilidad precisas, incluso con un tamaño de muestra relativamente pequeño.

¿Cuántos tipos de distribución de probabilidad hay?

Una distribución de probabilidad le dice cuál es la probabilidad de que sea un evento. Las distribuciones de probabilidad pueden mostrar eventos simples, como tirar una moneda o elegir una tarjeta. También pueden mostrar eventos mucho más complejos, como la probabilidad de que un determinado medicamento trate con éxito el cáncer.

Hay muchos tipos diferentes de distribuciones de probabilidad en estadísticas que incluyen:

La suma de todas las probabilidades en una distribución de probabilidad es siempre el 100% (o 1 como decimal).

Las distribuciones de probabilidad se pueden mostrar en tablas y gráficos o también pueden describirse mediante una fórmula. Por ejemplo, la fórmula binomial se usa para calcular las probabilidades binomiales.

La siguiente tabla muestra la distribución de probabilidad de una planta de empaque de tomate que recibe tomates podridos. Tenga en cuenta que si agrega todas las probabilidades en la segunda fila, suman 1 (.95 + .02 +.02 + 0.01 = 1).

El siguiente gráfico muestra una distribución normal estándar, que es probablemente la distribución de probabilidad más utilizada. La distribución normal estándar también se conoce como la «curva de campana». Muchos fenómenos naturales se ajustan a la curva de campana, incluidas alturas, pesas y puntajes de IQ. La curva normal es una distribución de probabilidad continua, por lo que en lugar de agregar probabilidades individuales bajo la curva, decimos que el área total bajo la curva es 1. En una distribución normal, los porcentajes de puntajes que puede esperar encontrar para cualquier desviación estándar de la media es la misma.

¿Qué es la probabilidad y cuántos tipos existen?

Los tipos de probabilidad son uno de los temas más importantes de las matemáticas. Está presente en el plan de estudios de clases más bajas y superiores. Porque nos ayuda de muchas maneras, como resolver problemas de matemáticas a una situación de la vida real.

La probabilidad está en todas partes. Tomemos algunos ejemplos de ello.

Planificación sobre el clima

Los meteorólogos usan varios instrumentos para predecir si lloven o no en un día en particular.

Por ejemplo, si se dice que hay una probabilidad del 60% de lluvia, significa que 60 de cada 100 días serían la posibilidad de lluvia. Por lo tanto, sería mejor usar zapatos de lluvia en lugar de sandalias.

Planificación sobre el clima

Estrategias deportivas

Los entrenadores y atletas utilizan conceptos de probabilidad para examinar las mejores estrategias deportivas para las competiciones y los juegos. Un entrenador de cricket estima el promedio de bateo del jugador cuando alinea a los jugadores.

Por ejemplo, el jugador que tiene un promedio de 200 de bateo significa que el jugador golpeó 2 de cada 10 en el bate. Al mismo tiempo, el jugador con un promedio de bateo de 400 tiene más tendencia a golpear la pelota 4 de cada 10 bolas.

Por lo tanto, es posible que tenga un poco de idea sobre la probabilidad realmente, pero mantener eso de lado ya que discutiremos qué significa la probabilidad.

Probabilidad = posibilidad; A corto plazo, la posibilidad de hacer algo o la posibilidad de resolver algún problema o la posibilidad de hacer algo. Y también, hay diferentes tipos de probabilidad que discutiremos a continuación.

¿Qué tipos de distribución son discretas?

Hay dos tipos de distribuciones basadas en el tipo de datos generados por los experimentos.

Estas distribuciones modelan las probabilidades de variables aleatorias que pueden tener valores discretos como resultados. Por ejemplo, los valores posibles para la variable aleatoria x que representa el número de cabezas que pueden ocurrir cuando una moneda se arroja dos veces son el conjunto {0, 1, 2} y no hay ningún valor de 0 a 2 como 0.1 o 1.6.

Estas distribuciones modelan las probabilidades de variables aleatorias que pueden tener cualquier resultado posible. Por ejemplo, los valores posibles para la variable aleatoria X que representa pesos de ciudadanos en una ciudad que puede tener cualquier valor como 34.5, 47.7, etc.,

Ejemplos: Normal, estudiante T, chi-cuadrado, exponencial, etc.,

Cada PD nos proporciona información adicional sobre el comportamiento de los datos involucrados. Cada PD está dada por una función de probabilidad que generaliza las probabilidades de los resultados.

Usando esto, podemos estimar la probabilidad de un resultado particular (discreto) o la posibilidad de que se encuentre dentro de un rango particular de valores para cualquier resultado dado (continuo). La función se denomina función de masa de probabilidad (PMF) para distribuciones discretas y una función de densidad de probabilidad (PDF) para distribuciones continuas. El valor total de PMF y PDF en todo el dominio siempre es igual a uno.

El PDF da la probabilidad de un resultado particular, mientras que la función de distribución acumulativa da la probabilidad de ver un resultado menor o igual a un valor particular de la variable aleatoria. Los CDF se utilizan para verificar cómo se ha sumado la probabilidad hasta cierto punto. Por ejemplo, si P (x = 5) es la probabilidad de que el número de cabezas al voltear una moneda sea 5, entonces, p (x <= 5) denota la probabilidad acumulativa de obtener 1 a 5 cabezas.

¿Cuáles son las principales distribuciones discretas?

Una distribución discreta es una distribución de datos en estadísticas que tiene valores discretos. Los valores discretos son enteros contables, finitos, no negativos, como 1, 10, 15, etc.

Distribuciones discretas
Distribuciones continuas

Una distribución discreta, como se mencionó anteriormente, es una distribución de valores que son números enteros contables. Por otro lado, una distribución continua incluye valores con lugares decimales infinitos. Un ejemplo de un valor en una distribución continua sería «Pi». Pi es un número con lugares decimales infinitos (3.14159…).

Ambas distribuciones se relacionan con las distribuciones de probabilidad, que son la base del análisis estadístico y la teoría de la probabilidad.

Una distribución de probabilidad es una función estadística que se utiliza para mostrar todos los valores y probabilidades posibles de una variable aleatoria en un rango específico. El rango estaría sujeto a valores máximos y mínimos, pero el valor real dependería de numerosos factores. Hay estadísticas descriptivas utilizadas para explicar dónde puede terminar el valor esperado. Algunos de los cuales son:

También surgen distribuciones discretas en las simulaciones de Monte Carlo. Una simulación de Monte Carlo es un método de modelado estadístico que identifica las probabilidades de diferentes resultados al ejecutar una gran cantidad de simulaciones. De las simulaciones de Monte Carlo, los resultados con valores discretos producirán una distribución discreta para el análisis.

Considere un ejemplo en el que está contando el número de personas que entran en una tienda en una hora determinada. Los valores tendrían que ser enteros contables, finitos y no negativos. No sería posible que 0.5 personas entraran a una tienda, y no sería posible tener una cantidad negativa de personas que entren en una tienda. Por lo tanto, la distribución de los valores, cuando se representa en un gráfico de distribución, sería discreta.

¿Cuáles son las distribuciones de probabilidad discreta?

Una distribución de probabilidad discreta y una distribución de probabilidad continua son dos tipos de distribuciones de probabilidad que definen variables aleatorias discretas y continuas respectivamente. Una distribución de probabilidad se puede definir como una función que describe todos los valores posibles de una variable aleatoria, así como las probabilidades asociadas.

Una distribución de probabilidad discreta puede definirse como una distribución de probabilidad que proporciona la probabilidad de que una variable aleatoria discreta tenga un valor especificado. Dicha distribución representará datos que tienen un número contable finito de resultados. Hay dos condiciones que debe satisfacer una distribución de probabilidad discreta. Estos se dan de la siguiente manera:

0 ≤ P (x = x) ≤ 1. Esto implica que la probabilidad de una variable aleatoria discreta, x, que toma un valor exacto, x, se encuentra entre 0 y 1.
∑P (x = x) = 1. La suma de todas las probabilidades debe ser igual a 1.

Supongamos que se enrolla un dado justo y se debe crear la distribución de probabilidad discreta. Los posibles resultados son {1, 2, 3, 4, 5, 6}. Por lo tanto, el número total de resultados será 6. Todos los números tienen una posibilidad justa de aparecer. Esto significa que la probabilidad de obtener cualquier número es 1 / 6. Usando estos datos, la tabla de distribución de probabilidad discreta para un rollo de dados se puede dar de la siguiente manera:

Se utiliza una variable aleatoria discreta para modelar una distribución de probabilidad discreta. Hay dos funciones principales asociadas con una variable tan aleatoria. Estas son la función de masa de probabilidad (PMF) y la función de distribución de probabilidad o la función de distribución acumulativa (CDF).