Las pruebas no paramétricas son un mundo de sombras de las pruebas paramétricas. En la tabla a continuación, muestro pares vinculados de pruebas de hipótesis estadística.
Para este tema, es crucial que comprenda el concepto de análisis estadísticos robustos. Para obtener más información, lea mi publicación, ¿qué son las estadísticas robustas?
Muchas personas no son conscientes de este hecho, pero los análisis paramétricos pueden producir resultados confiables incluso cuando sus datos continuos están distribuidos normalmente. Solo debe asegurarse de que el tamaño de su muestra cumpla con los requisitos para cada análisis en la tabla a continuación. Los estudios de simulación han identificado estos requisitos. Lea aquí para obtener más información sobre estos estudios.
- Para 2-9 grupos, cada grupo debería tener más de 15 observaciones
- Para 10-12 grupos, cada grupo debería tener más de 20 observaciones
Puede usar estas pruebas paramétricas con datos no distribuidos normalmente gracias al teorema del límite central. Para obtener más información al respecto, lea mi publicación: Teorema del límite central explicado.
Es cierto que las pruebas no paramétricas no requieren datos que normalmente se distribuyan. Sin embargo, las pruebas no paramétricas tienen la desventaja de un requisito adicional que puede ser muy difícil de satisfacer. Los grupos en un análisis no paramétrico generalmente deben tener la misma variabilidad (dispersión). Los análisis no paramétricos pueden no proporcionar resultados precisos cuando la variabilidad difiere entre los grupos.
¿Qué es estadística paramétrica y ejemplos?
Las estadísticas paramétricas son parte de la inferencia estadística que utiliza estadísticas y criterios de resolución basados en distribuciones conocidas.
Las estadísticas paramétricas, como parte de la inferencia estadística, intenta estimar ciertos parámetros de una población de datos. La estimación, como casi siempre en las estadísticas, se lleva a cabo en una muestra estadística. Ahora, las estadísticas paramétricas siempre basan sus cálculos sobre el supuesto de que se conoce la distribución de la variable que se estudiará.
En este sentido, para comprender bien este concepto, es esencial familiarizarse primero con los siguientes conceptos:
- Muestra estadística
- Estadísticas
- Inferencia estadística
- Distribución de probabilidad
Como se define en nuestro diccionario, una distribución de probabilidad es una herramienta que indica cómo se distribuyen las posibilidades. Dependiendo de la estructura que tenga esta distribución, la distribución será de un tipo u otro.
La distribución de probabilidad más conocida es la distribución normal. Tenga en cuenta que simplemente indicamos ‘distribución’ por simplicidad. Sin embargo, el nombre completo teórico sería la distribución de la probabilidad normal. Su representación gráfica es la siguiente:
La distribución normal se aplica a la mayoría de los fenómenos aleatorios. Se cree que muchos fenómenos tienden a comportarse como normales cuando lo repitemos una gran cantidad de veces. Ver Teorema del límite central
¿Cuáles son las pruebas paramétricas estadísticas más utilizadas?
Indispensables, estas son pruebas matemáticas que se aplican a las estadísticas para determinar su grado de certeza y su significado.
Métodos estadísticos de interferencia no paramétrica:
Estos son procesos matemáticos que se utilizan para probar la hipótesis estadística que, a diferencia de las estadísticas paramétricas, no suponen sobre las distribuciones de frecuencia de las variables que se determinan.
La distribución de frecuencia no necesita ser normal.
Métodos estadísticos deductivos paramétricos:
Son los procedimientos matemáticos evaluar la hipótesis estadística los que suponen que las distribuciones de variables determinadas tienen ciertas características.
El nivel de medición debe ser racional o intervalo.
La variación de los resultados entre cada frecuencia debe ser similar.
Z Comparación de proporciones. Chi en la plaza. Prueba exacta de Fisher.
Prueba de señales. Wilcoxon asignó filas.
Cuando las pruebas estadísticas aplicables a las variables cuantitativas no logren los supuestos necesarios para su aplicación, las pruebas correspondientes deben usarse como si las variables de respuesta fueran una variable ordinal (pruebas no paramétricas).
Es una prueba de significación estadística no paramétrica para contrastar la hipótesis nula cuando los parámetros de ubicación de los dos grupos serán iguales.
¿Cómo saber si los datos son Parametricos o no Parametricos?
La estadística de prueba le dice cuán diferentes o más grupos son de la población general de la población, o cuán diferente es una pendiente lineal de la pendiente predicha por una hipótesis nula. Se utilizan diferentes estadísticas de prueba en diferentes pruebas estadísticas.
La significación estadística es arbitraria: depende del umbral, o valor alfa, elegido por el investigador. El umbral más común es P <0.05, lo que significa que es probable que los datos ocurran menos del 5% del tiempo bajo la hipótesis nula.
Cuando el valor p cae por debajo del valor alfa elegido, entonces decimos que el resultado de la prueba es estadísticamente significativo.
Su elección de la prueba t depende de si está estudiando un grupo o dos grupos y si le importa la dirección de la diferencia en los medios grupales.
Si está estudiando un grupo, use una prueba t pareada para comparar la media del grupo con el tiempo o después de una intervención, o use una prueba t de una muestra para comparar la media del grupo con un valor estándar. Si está estudiando dos grupos, use una prueba t de dos muestras.
Si desea saber solo si existe una diferencia, use una prueba de dos colas. Si desea saber si un grupo de grupo es mayor o menor que el otro, use una prueba de cola de cola izquierda o de cola derecha.
Una prueba t mide la diferencia en las medias grupales divididas por el error estándar agrupado de las dos medias de grupo.
De esta manera, calcula un número (el valor T) que ilustra la magnitud de la diferencia entre los dos medios de grupo que se comparan, y estima la probabilidad de que esta diferencia exista puramente por casualidad (valor p).
¿Que estadística no paramétrica?
El conteo de comerciales recopila datos, pero los números no cambiarán. Una pregunta no estadística tendrá datos, pero los resultados no variarán. Solo habrá una respuesta. Esta es la clave para saber cuándo una pregunta no es estadística: una posible respuesta.
Aquí hay algunas preguntas no estadísticas y cómo serían respondidas.
- ¿Cuánto tiempo tienen los alumnos de sexto grado en Central Middle para el almuerzo?
Este grupo representa a los alumnos de sexto grado que asisten a una escuela específica, no a todos los estudiantes de sexto grado en un estado en particular. El tiempo no variará. Los estudiantes tienen un tiempo establecido para almorzar. Almuerzan de 11:00 a.m. a 11:25 a.m., los estudiantes tienen 25 minutos para el almuerzo. Solo hay una respuesta: 25 minutos.
- ¿Cuánto tiempo tienen los alumnos de sexto grado en Central Middle para el almuerzo?
El número de frutas comidas el martes es específica y no cambiará. Los niños pequeños comieron 42 piezas de fruta el martes. Esta guardería mantiene el inventario de su fruta. Al final del día, 42 piezas habían desaparecido. Solo hay una respuesta: 42 piezas de fruta.
- ¿Cuánto tiempo tienen los alumnos de sexto grado en Central Middle para el almuerzo?
La cantidad de zapatos se puede contar y se proporcionará exacta. Mi madre tiene 10 pares de zapatos en su armario. Mi madre tiene 3 pares de zapatillas de deporte, 2 pares de botas, 4 pares de mocasines y 1 par de tacones en su armario. Solo hay una respuesta: 10 pares.
Hay algunas similitudes entre las preguntas estadísticas y no estadísticas. A veces, las dos preguntas parecen superponerse, pero queda una diferencia importante. La única diferencia entre ellos distingue las dos preguntas. Las tablas muestran lo que tienen en común y su diferencia.
¿Qué es paramétrica y no Parametrica?
Dado que ahora podemos definir modelos paramétricos y no paramétricos, podemos comparar ambos en esta sección siguiente. Luego analizaremos los beneficios y limitaciones de ambos tipos de modelos.
Primero notemos que los puntos de datos en los dos escenarios en la imagen de arriba son los mismos.
Recordando la ecuación que describimos anteriormente, la primera imagen ilustra la función de mapeo como una línea de regresión lineal. Esto representa un modelo paramétrico. Vemos la consecuencia de la función lineal en los datos. Se ignoran muchos puntos de datos.
La imagen con una función Wiggly representa un modelo no paramétrico. Como mencionamos, estos algoritmos hacen poca o ninguna suposición sobre la función de mapeo. Como resultado, muestran una mayor flexibilidad y ofrecen un mejor ajuste a los datos sobre los paramétricos.
Sencillez. Los métodos de algoritmos paramétricos son más fáciles de entender. La interpretabilidad de los resultados también es más fácil en comparación con los modelos no paramétricos.
Velocidad de entrenamiento. Son computacionalmente más rápido que los métodos no paramétricos. Pueden ser entrenados más rápido que los no paramétricos, ya que generalmente tienen menos parámetros para entrenar.
Actuación. Los modelos no paramétricos pueden ofrecer predicciones más precisas, ya que ofrecen un mejor ajuste a los datos que los paramétricos.
Flexibilidad. Como se muestra en la imagen de arriba, estos algoritmos proporcionan un buen ajuste para los datos. Pueden ajustar muchas formas de una función.
Poco o ninguna suposición. Se hacen poca o ninguna suposición sobre la función de mapeo. En comparación con los algoritmos paramétricos, los algoritmos no paramétricos aprenden más de los datos. Esto se debe a que el aprendizaje de algoritmos paramétricos puede estar limitado por los supuestos que hacen.
¿Qué tipo de datos procesa la estadística no paramétrica?
Las estadísticas no paramétricas es la rama de las estadísticas que no se basan exclusivamente en familias parametrizadas de distribuciones de probabilidad (los ejemplos comunes de parámetros son promedio y varianza). Las estadísticas no paramétricas se basan en estar sin distribución o en tener una distribución específica pero con los parámetros de distribución no especificados. Las estadísticas no paramétricas incluyen estadísticas descriptivas e inferencia estadística. Las pruebas no paramétricas a menudo se usan cuando se violan los supuestos de las pruebas paramétricas.
Las hipótesis estadísticas se refieren al comportamiento de las variables aleatorias observables… por ejemplo, la hipótesis (a) que una distribución normal tiene un promedio específico y la varianza son las estadísticas; Por lo tanto, es la hipótesis (b) la que tiene una fecha promedio pero una varianza sin problemas; Así es la hipótesis (c) que una distribución es normal con los medios y la varianza no especificadas; Finalmente, también es la hipótesis (d) que dos distribuciones continuas no especificadas son idénticas.
Se habrá observado que en los ejemplos (a) y (b) la distribución debajo de las observaciones se consideró de una determinada forma (lo normal) y la hipótesis se refería completamente al valor de uno o ambos parámetros. Esta hipótesis, por razones obvias, se llama paramétrica.
La hipótesis (c) era de una naturaleza diferente, ya que no se especifica ningún valor de parámetro en la declaración de la hipótesis; Podríamos llamar razonablemente a esta hipótesis no paramétrica. Incluso la hipótesis (d) no es paramétrica pero, además, ni siquiera especifica la forma subyacente de la distribución y ahora puede definirse razonablemente sin distribución. A pesar de estas distinciones, la literatura estadística ahora aplica comúnmente la etiqueta «no paramétrica» para probar los procedimientos que acabamos de definir «sin distribución», perdiendo así una clasificación útil.
- El segundo significado de las técnicas de cubiertas no paramétricas que no presuponen que la estructura de un modelo sea fija. En general, el tamaño del modelo aumenta para adaptarse a la complejidad de los datos. En estas técnicas, generalmente se supone que las variables individuales pertenecen a distribuciones paramétricas e hipótesis también se realizan en los tipos de conexiones entre las variables. Estas técnicas incluyen, entre otras:
- Regresión no paramétrica, que es el modelado según el cual la estructura de la relación entre las variables se trata de manera no paramétrica, pero donde, sin embargo, puede haber hipótesis paramétricas en la distribución de los residuos del modelo.
- Los modelos bayesianos jerárquicos no paramétricos, como los modelos basados en el proceso de Dirichlet, que permiten que el número de variables latentes crezca según sea necesario para adaptarse a los datos, pero donde las variables individuales siguen distribuciones paramétricas e incluso el proceso que controla la tasa de crecimiento de variables latentes siguen una distribución paramétrica.
Los métodos no paramétricos se utilizan ampliamente para estudiar las poblaciones que adquieren un orden clasificado (como las reseñas de las películas que reciben de una de cuatro estrellas). El uso de métodos no paramétricos puede ser necesario cuando los datos tienen una clasificación pero no hay una interpretación numérica clara, como cuando evalúa las preferencias. En términos de niveles de medición, los métodos no paramétricos producen datos ordinales.
¿Cuando una prueba es paramétrica?
El principio básico detrás de las pruebas paramétricas es que tenemos un conjunto fijo de parámetros que se utilizan para determinar un modelo probabilístico que también puede usarse en el aprendizaje automático.
Las pruebas paramétricas son aquellas pruebas para las cuales tenemos conocimiento previo de la distribución de la población (es decir, normal), o si no, podemos aproximarlo fácilmente a una distribución normal que es posible con la ayuda del teorema del límite central.
- Significar
- Desviación Estándar
Finalmente, la clasificación de una prueba para ser paramétrica depende completamente de los supuestos de la población. Hay muchas pruebas paramétricas disponibles de las que algunas de ellas son las siguientes:
- Significar
- Desviación Estándar
En las pruebas no paramétricas, no suponemos sobre los parámetros para la población dada o la población que estamos estudiando. De hecho, estas pruebas no dependen de la población.
Por lo tanto, no hay un conjunto fijo de parámetros disponibles, y tampoco hay distribución (distribución normal, etc.) de ningún tipo disponible para su uso.
Esta es también la razón por la que las pruebas no paramétricas también se denominan pruebas sin distribución.
En los días modernos, las pruebas no paramétricas están ganando popularidad y un impacto de la influencia, algunas razones detrás de esta fama son:
¿Cuando una prueba no es paramétrica?
Para las pruebas estadísticas, una división a menudo se lleva a cabo en las pruebas de parámetros y no paramétricos, por un lado. Las diferencias entre
Estos dos tipos de prueba se pueden resumir de la siguiente manera.
- Las pruebas paramétricas tienen ciertos requisitos. Si se cumplen estos requisitos, las pruebas paramétricas tienen una mayor resistencia a la prueba que
Pruebas no paramétricas. - Si no se cumple el requisito previo para una prueba paramétrica, esta prueba puede proporcionar resultados falsos o poco confiables.
- Por lo tanto, las pruebas paramétricas siempre deben usarse cuando se cumplan sus respectivos requisitos.
- Las pruebas no paramétricas tienen solo unos pocos o incluso requisitos en comparación con las pruebas paramétricas.
- En una situación en la que no se cumple el requisito previo de una prueba paramétrica, una prueba no paramétrica sigue siendo resultados correctos
entregar. - Si se cumple el requisito previo para la prueba paramétrica, la prueba paramétrica generalmente tiene una mayor resistencia de prueba que la no paramétrica
Prueba. - Las pruebas no paramétricas siempre deben usarse si no se cumplen el requisito previo para las pruebas paramétricas.
En resumen, las pruebas no paramétricas tienen una mayor resistencia de prueba, por lo que esta ventaja se compra por el hecho de que solo
puede ser usado. Las pruebas no paramétricas tienen una fuerza de prueba más baja, por la cual esta desventaja se compensa siempre usandolas.
¿Cuáles son los datos paramétricos?
Las estadísticas paramétricas es una rama de estadísticas que supone que los datos de la muestra provienen de una población que puede modelarse adecuadamente por una distribución de probabilidad que tiene un conjunto fijo de parámetros. [1] Por el contrario, un modelo no paramétrico no asume una forma matemática explícita (finita-paramétrica) para la distribución al modelar los datos. Sin embargo, puede hacer algunas suposiciones sobre esa distribución, como la continuidad o la simetría.
Los métodos estadísticos más conocidos son paramétricos. [2] Con respecto a los modelos no paramétricos (y semiparamétricos), Sir David Cox ha dicho: «Estos generalmente implican menos supuestos de estructura y forma de distribución, pero generalmente contienen supuestos fuertes sobre las independencias». [3]
La familia normal de distribuciones tiene la misma forma general y está parametrizada por la media y la desviación estándar. Eso significa que si se conoce la media y la desviación estándar y si la distribución es normal, se conoce la probabilidad de que se tenga en cuenta cualquier observación futura en un rango dado.
Suponga que tenemos una muestra de 99 puntajes de prueba con una media de 100 y una desviación estándar de 1. Si suponemos que los puntajes de prueba 99 son observaciones aleatorias de una distribución normal, entonces predecimos que hay una probabilidad del 1% de que la prueba número 100 La puntuación será superior a 102.33 (es decir, la media más 2.33 desviaciones estándar), suponiendo que el puntaje de prueba número 100 proviene de la misma distribución que las otras. Los métodos estadísticos paramétricos se utilizan para calcular el valor 2.33 anterior, dadas 99 observaciones independientes de la misma distribución normal.
Artículos Relacionados: