Aprende a optimizar tus datos con estadística no paramétrica

Las estadísticas no paramétricas es la rama de las estadísticas que no se basa únicamente en familias parametrizadas de distribuciones de probabilidad (los ejemplos comunes de parámetros son la media y la varianza). Las estadísticas no paramétricas se basan en estar libres de distribución o tener una distribución especificada, pero con los parámetros de la distribución no especificados. Las estadísticas no paramétricas incluyen estadísticas descriptivas e inferencia estadística. Las pruebas no paramétricas a menudo se usan cuando se violan los supuestos de las pruebas paramétricas. [1]

Las hipótesis estadísticas se refieren al comportamiento de las variables aleatorias observables… por ejemplo, la hipótesis (a) que una distribución normal tiene una media especificada y la varianza es estadística; También lo es la hipótesis (b) que tiene una varianza media pero no especificada dada; También lo es la hipótesis (c) que una distribución es de forma normal con media y varianza sin especificar; Finalmente, también lo es la hipótesis (d) que dos distribuciones continuas no especificadas son idénticas.

Se habrá notado que en los ejemplos (a) y (b) la distribución subyacente a las observaciones se consideró de una determinada forma (lo normal) y la hipótesis se refería por completo al valor de uno o ambos parámetros. Tal hipótesis, por razones obvias, se llama paramétrica.

La hipótesis (c) era de una naturaleza diferente, ya que no se especifican valores de parámetros en la declaración de la hipótesis; Podríamos llamar razonablemente tal hipótesis no paramétrica. La hipótesis (d) tampoco es no paramétrica pero, además, ni siquiera especifica la forma subyacente de la distribución y ahora puede denominarse razonablemente libre de distribución. A pesar de estas distinciones, la literatura estadística ahora aplica comúnmente la etiqueta «no paramétrica» ​​para probar los procedimientos que acabamos de denominar «libres de distribución», perdiendo así una clasificación útil.

  • El segundo significado de las técnicas de cubiertas no paramétricas que no suponen que la estructura de un modelo es fija. Por lo general, el modelo crece en tamaño para acomodar la complejidad de los datos. En estas técnicas, se supone que las variables individuales pertenecen a distribuciones paramétricas, y también se realizan suposiciones sobre los tipos de conexiones entre las variables. Estas técnicas incluyen, entre otras:
  • La regresión no paramétrica, que está modelando mediante el cual la estructura de la relación entre variables se trata no paramétricamente, pero donde, sin embargo, puede haber suposiciones paramétricas sobre la distribución de los residuos del modelo.
  • Los modelos bayesianos jerárquicos no paramétricos, como los modelos basados ​​en el proceso de Dirichlet, que permiten que el número de variables latentes crezca según sea necesario para adaptarse a los datos, pero donde las variables individuales siguen siendo distribuciones paramétricas e incluso el proceso que controla la tasa de crecimiento de Las variables latentes siguen una distribución paramétrica.

Los métodos no paramétricos se utilizan ampliamente para estudiar poblaciones que toman un pedido clasificado (como reseñas de películas que reciben una a cuatro estrellas). El uso de métodos no paramétricos puede ser necesario cuando los datos tienen una clasificación pero no hay una interpretación numérica clara, como al evaluar las preferencias. En términos de niveles de medición, los métodos no paramétricos dan como resultado datos ordinales.

¿Que se entiende por estadística no paramétrica?

Se ha realizado la prueba de hipótesis y hemos llegado a una decisión. Ahora debemos comunicar estas conclusiones para que sean completas, precisas y entendidas por el público objetivo. Cómo se escribe una conclusión está abierta al análisis subjetivo, pero aquí hay algunas sugerencias.

Rechazar (H_O ) requiere una declaración sólida en apoyo de (H_A ), mientras que no rechazar (H_O ) no respalda (H_O ), pero requiere una declaración débil de evidencia insuficiente para respaldar (H_A ).

Un investigador quiere apoyar la afirmación de que, en promedio, los estudiantes envían más de 1000 mensajes de texto por mes, y las hipótesis de investigación son (H_O: MU = 1000 ) vs. (H_A: MU> 1000 )

Conclusión Si (H_O ) es rechazado: el número medio de mensajes de texto enviados por los estudiantes excede 1000.

Conclusión Si (H_O ) no es rechazado: no hay evidencia suficiente para respaldar la afirmación de que el número medio de mensajes de texto enviados por los estudiantes excede 1000.

No use lenguaje técnico o jerga, sino que consulte el lenguaje de la pregunta general original o las hipótesis de investigación. Decir menos es mejor que decir más.

Una prueba respaldaba la hipótesis alternativa de que los precios de la vivienda y el tamaño de las casas en pies cuadrados se correlacionaron positivamente. Compare estas dos conclusiones y decida cuál es más clara:

Conclusión 1: Al rechazar la hipótesis nula, estamos inferiendo que la hipótesis alternativa es compatible y que existe una correlación significativa entre las variables independientes y dependientes en el problema original que comparan los precios de la vivienda con los pies cuadrados.

¿Que se entiende como estadística no paramétrica?

Una prueba no paramétrica es una prueba de hipótesis que no requiere que la distribución de la población se caracterice por ciertos parámetros. Por ejemplo, muchas pruebas de hipótesis se basan en el supuesto de que la población sigue una distribución normal con parámetros μ y σ. Las pruebas no paramétricas no tienen esta suposición, por lo que son útiles cuando sus datos son fuertemente no normales y resistentes a la transformación.

En estadísticas paramétricas, suponemos que las muestras se extraen de distribuciones completamente especificadas caracterizadas por uno o más parámetros desconocidos por los que queremos hacer inferencia. En un método no paramétrico, suponemos que la distribución principal de la muestra no está especificada y a menudo estamos interesados ​​en hacer inferencia sobre el centro de la distribución. Para ejemplos, muchas pruebas en estadísticas paramétricas como la prueba t de 1 muestra se derivan bajo el supuesto de que los datos provienen de la población normal con media desconocida. En un estudio no paramétrico se elimina la suposición de normalidad.

Los métodos no paramétricos son útiles cuando la suposición de normalidad no se mantiene y el tamaño de su muestra es pequeño. Sin embargo, las pruebas no paramétricas no están completamente libres de suposiciones sobre sus datos. Por ejemplo, es crucial suponer que las observaciones en las muestras son independientes y provienen de la misma distribución. Además, en diseños de dos muestras se requiere la suposición de igual forma y propagación.

  • ¿El salario mediano en su empresa es igual a un cierto valor? Use la prueba de signo de 1 muestra.
  • ¿Es el salario mediano en la sucursal urbana de un banco mayor que el salario medio de la sucursal rural del banco? Use la prueba de Mann-Whitney o la prueba Kruskal-Wallis.
  • ¿Son los salarios medios diferentes en las sucursales bancarias rurales, urbanas y suburbanas? Use la prueba mediana del estado de ánimo.
  • ¿Cómo afecta el nivel de educación los salarios en la rama rural y urbana? Use la prueba de Friedman.
  • Las pruebas no paramétricas suelen ser menos potentes que la prueba paramétrica correspondiente cuando se mantiene la suposición de normalidad. Por lo tanto, es menos probable que rechace la hipótesis nula cuando es falso si los datos provienen de la distribución normal.
  • Las pruebas no paramétricas a menudo requieren que modifique las hipótesis. Por ejemplo, la mayoría de las pruebas no paramétricas sobre el centro de población son pruebas sobre la mediana en lugar de la media. La prueba no responde la misma pregunta que el procedimiento paramétrico correspondiente si la población no es simétrica.

Cuando existe una opción entre usar un procedimiento paramétrico o no paramétrico, y está relativamente seguro de que los supuestos para el procedimiento paramétrico están satisfechos, luego use el procedimiento paramétrico. También puede usar el procedimiento paramétrico cuando la población no se distribuye normalmente si el tamaño de la muestra es adecuadamente grande.

¿Dónde se aplica la estadística no paramétrica?

Comencemos con una definición de estadísticas aplicadas: las estadísticas aplicadas es la raíz del análisis de datos. La práctica de las estadísticas aplicadas implica el análisis de datos para ayudar a definir y determinar las necesidades comerciales. Los lugares de trabajo modernos están abrumados con Big Data y buscan estadísticos, analistas de datos, científicos de datos y otros profesionales con conocimiento de estadísticas aplicadas que pueden organizar, analizar y usar datos para resolver problemas del mundo real.

Analizar adecuadamente los datos de la compañía puede conducir a aumentos marcados en la eficiencia y la rentabilidad. De hecho, los estudios muestran que las empresas que emplean estrategias de marketing basadas en datos están viendo hasta un 20% de aumentos en los ingresos y disminuciones del 30% en el gasto. Las agencias gubernamentales, las organizaciones sin fines de lucro y otras organizaciones pueden usar datos para ayudar a prevenir enfermedades, recopilar información demográfica importante, dirigir campañas políticas y probar posibles productos farmacéuticos que salvan vidas.

Como la raíz del análisis de datos, el estudio de estadísticas aplicadas prepara a los profesionales para carreras como estadísticos, científicos de datos, analistas de datos y más. Las estadísticas aplicadas es una base sobre la cual se ha construido la ciencia de datos. A través de métodos estadísticos, análisis y un énfasis en los datos del mundo real, los estadísticos aplicados buscan soluciones concretas a problemas tangibles. Las personas con una sólida experiencia en estadísticas aplicadas pueden convertirse en científicos de datos, pero la relación no funciona inversamente, aquellos que estudian ciencia de datos exclusivamente no se prepararían necesariamente para las carreras como estadísticos aplicados.

Dependiendo del enfoque de una empresa sobre las estadísticas y los datos, pueden posicionar a un científico de datos y aplicar estadístico en el mismo equipo o delegar sus responsabilidades laborales de manera superpuesta. Las estadísticas aplicadas están ancladas por las propias estadísticas.

Los científicos de datos, por otro lado, emplean técnicas de computación compleja, inferencia estadística y aprendizaje automático (la ciencia de la enseñanza de las computadoras a analizar los datos como lo hacen los humanos) para extraer información de grandes conjuntos de datos. A medida que los científicos de datos observan tendencias y patrones, pueden equipar a sus empresas para pronosticar posibles problemas, centrarse en las áreas maduras con potencial de crecimiento y tomar decisiones comerciales estratégicas basadas en datos.

¿Dónde se usan las pruebas no paramétricas?

Las pruebas o técnicas no paramétricas incluyen una serie de pruebas estadísticas que tienen en común la ausencia de hipótesis en la ley de probabilidad seguida de la población en la que se ha tomado la muestra. Por lo tanto, estas técnicas se aplican cuando no sabemos si la población en la que se deduce la muestra es normal o aproximadamente normal.

Estas técnicas no paramétricas se usan con frecuencia porque muchas variables no siguen las condiciones de configuración. Este es el uso de variables cuantitativas continuas, la distribución normal de muestras, variaciones similares y muestras equilibradas.

Cuando estos requisitos previos no se cumplen o existen serias dudas sobre su respeto, se utilizan pruebas de distribución no paramétricas o libres. Por lo tanto, las pruebas no paramétricas tienen las siguientes características:

  • Se usan mucho menos de lo que recomendaría (son menos conocidos por los investigadores)
  • Son aplicables a los datos jerárquicos
  • Además, se pueden usar cuando dos series de observaciones provienen de diferentes poblaciones (poblaciones en las que la variable no se distribuye también)
  • Son la única alternativa realista cuando el tamaño de la muestra es pequeño

En esta clasificación de pruebas no paramétricas, no hay consenso sobre su agrupación. Los autores Berlanga y Rubio (2012) resumieron las principales pruebas paramétricas.

¿Qué significa paramétrica y no paramétrica?

En estadísticas, las metodologías paramétricas y no paramétricas se refieren a aquellas en las que un conjunto de datos tiene una distribución normal versus no normal, respectivamente. Las pruebas paramétricas hacen ciertas suposiciones sobre un conjunto de datos; a saber, que los datos se extraen de una población con una distribución específica (normal). Las pruebas no paramétricas hacen menos suposiciones sobre el conjunto de datos. La mayoría de los métodos estadísticos elementales son paramétricos, y las pruebas paramétricas generalmente tienen un mayor poder estadístico. Si no se pueden hacer los supuestos necesarios sobre un conjunto de datos, se pueden usar pruebas no paramétricas. Aquí, se le presentará dos pruebas estadísticas paramétricas y no paramétricas.

Se utiliza una prueba t para comparar entre las medias de dos conjuntos de datos, cuando los datos se distribuyen normalmente. Los dos grupos de datos deben ser independientes entre sí. La estadística T es igual a la diferencia entre las medias de grupo divididas por el error estándar de la diferencia entre las medias del grupo.

Un método paramétrico común para medir la correlación entre dos variables es la correlación de productos de productos de Pearson. Las dos variables, x e y, deben distribuirse normalmente. Se calculan las medias y las variaciones de las variables. Luego, la correlación se puede calcular como la covarianza entre las dos variables divididas por el producto de sus desviaciones estándar.

¿Qué significa no Parametrica?

return-type es el tipo variable que devuelve la función. Esto no puede ser un tipo de matriz o un tipo de función. Si no se da, entonces int
se supone.

Parameter List es la lista de parámetros que la función toma separada por las comas. Si no se dan parámetros, entonces la función
no toma ninguno y debe definirse con un conjunto vacío de
paréntesis o con la palabra clave vacío. Si ningún tipo de variable está al frente
de una variable en la lista de parámetros, entonces se supone int. Matrices y
Las funciones no se pasan a funciones, sino que se convierten automáticamente
a punteros. Si la lista se termina con un elipsis (,…), entonces
No hay un número establecido de parámetros. Nota: el encabezado stdarg.h puede ser
Se utiliza para acceder a los argumentos cuando se usa un elipsis.

En C func () significa que puede aprobar cualquier cantidad de argumentos. Si no desea argumentos, entonces debe declarar como func (nulo). El tipo que está pasando a su función, si no se especifica, por valor de valor predeterminado a int.

int func (); es una declaración de función obsoleta de los días en que no había un estándar C, es decir, los días de K&R C (antes de 1989, el año se publicó el primer estándar «Ansi C»).

Recuerde que no había prototipos en K&R C y la palabra clave Void aún no se inventó. Todo lo que podía hacer era decirle al compilador sobre el tipo de retorno de una función. La lista de parámetros vacías en K&R C significa «un número de argumentos no especificados pero fijos». Se corrigió que debe llamar a la función con el mismo número de args cada vez (en lugar de una función variádica como printf, donde el número y el tipo pueden variar para cada llamada).

¿Qué es un método no paramétrico?

Perdón por mencionar esto nuevamente, pero no creo que esta pregunta en particular haya sido respondida todavía:

(1) Preferiría que las funciones sin métodos no tengan una vinculación para | esto | en absoluto.

(2) La solución para ES.Next parece ser (por ejemplo, internamente, a través de =>) ANTAR a | esto | del método circundante.

¿No es (1) una mejor solución? Supongo que (2) se hace, porque (1) sería un cambio demasiado radical (contextos de ejecución, etc.)? (1) podría simularse siempre vinculando | esto | En funciones no métodas, pero eso no se hace debido a problemas de rendimiento (?)

Hará un error temprano para muchas funciones escritas hoy como declaraciones de funciones, que usan | esto | Porque se asignan como valores de propiedad (es decir, como métodos), para llamar al | esto | Uso en tales funciones un error temprano. Ese sería un duro impuesto de migración, a pesar de que el tiempo de compilación. No estamos cambiando mucho la armonía.

Por otro lado, si te refieres a un error de tiempo de ejecución, eso es una trampa de migración no más probable.

Supongo que (2) se hace, porque (1) sería un cambio demasiado radical (contextos de ejecución, etc.)?

Piense en el impuesto de migración. Muchas funciones, ya sea declaradas o expresadas, use | esto | Este Dia. Se utilizan como métodos, pero el enlace a su nombre de método (propiedad de un objeto) no se declara ni se expresa cerca. ¿Cómo prohibiría que tales funciones usen?

¿Qué es una medida no paramétrica?

Este método es el corresponsal no paramétrico del análisis de varianza en el que los datos son reemplazados por su rango, y generalmente se usa cuando no se puede tomar una distribución normal de la población.

Las pruebas paramétricas se definen como una prueba estadística que se puede aplicar en presencia de una distribución gratuita de datos, o en cualquier caso en el contexto de estadísticas paramétricas.

Las estadísticas no paramétricas son parte de las estadísticas en las que se supone que los modelos matemáticos no requieren hipótesis a priori sobre las características de la población (es decir, de un parámetro), o en cualquier caso las hipótesis son menos restrictivas que las utilizadas En estadísticas paramétricas.

La prueba Wilcoxon y la prueba de Mann-Whitney (también conocida como Mann-Whitney Test U) son dos de las pruebas no paramétricas más poderosas para verificar, en presencia de valores ordinales de una distribución continua, si vienen dos campeones estadísticos de la misma población.

La prueba de Mann-Whitney es una prueba no paramétrica que se utiliza para comparar dos muestras independientes cuando la escala de medición de datos es al menos ordinal.

La prueba le permite verificar si lo diferente entre los datos puede deberse al caso; En el caso de que la prueba demuestre que no pueden ser el resultado del caso, hablamos de «significación estadística». Se usa en situaciones donde hay dos variables nominales dicotómicas y pequeños campeones.

Artículos Relacionados:

Más posts relacionados:

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *