- La teoría estadística muestra que la distribución de estas medias de muestra es normal
con un medio de y un
Desviación Estándar. - Más precisamente, en caso de que esté interesado, este resultado proviene del llamado
teorema del límite central. - Observe que el valor esperado de la muestra de la muestra es igual al valor de la población ()
Pero la desviación estándar, llamada error estándar de la media, es la
Desviación estándar de población dividida por N. - Aquí hay una imagen de una de las consecuencias de este hecho. En el diagrama, significa
han sido extraídos de alguna población (no necesariamente normal). En el primero
instancia, donde n es 80, la muestra significa clúster bastante bien alrededor del «verdadero»
significar (). Esto se debe a que 80 se está dividiendo. En el segundo caso, donde el
Los tamaños de muestra son 20, las medias de muestra están más extendidas alrededor de la media verdadera.
Eso, por supuesto, es porque S está siendo dividido por un número más pequeño y, por lo tanto, el
El error estándar (es decir, la desviación estándar) es mayor. Por lo tanto, la muestra significa en el caso 2
están más dispersos. - Ejemplo adicional de prueba de medios:
- Aquí hay otro problema; Esta vez podemos discutirlo con menos comentarios. Vamos
Sobre ello y si surgen preguntas, asegúrese de preguntarles. El transporte se ha convertido en un
problema nacional. La Administración Federal de Carreteras está estudiando diferentes maneras
Para fusionar automóviles en autopistas y carreteras interestatales de alta velocidad. Un proyecto
involucró un experimento en Florida en el que se usa una serie de luces de exhibición para decir
conductores si están viajando o no a una velocidad adecuada para fusionarse con el
trafico en sentido contrario. Se ha conocido por muchos estudios previos que el estrés promedio
de los conductores que se fusionaron en carreteras congestionadas es 8.2 (medida en un estrés de 10 puntos
escala donde 10 significa más estresado). En una muestra de 200 controladores utilizando el
Sistema de luz de señal, la puntuación de estrés promedio fue de 7.6 con una desviación estándar de
1.8. ¿Hay alguna evidencia de que el sistema esté reduciendo el estrés? - Hipótesis:
- Hipótesis de investigación: el sistema reduce el estrés de modo que para los conductores que lo usan
<8.2. - Hipótesis nula: H0: = 8.2 (el sistema no reduce el estrés).
- Esta es nuevamente una prueba de una cola. La hipótesis alternativa (investigación)
sugiere la dirección en la que esperaríamos encontrar la media de los conductores
usando el sistema. - Distribución muestral:
- Dado que N es 200, use la distribución normal. Si la hipótesis nula es verdadera
Entonces, la muestra de muestra tomada de esta población se distribuirá normalmente
con media 8.2 y error estándar igual a Sigma dividido por la raíz cuadrada
de 200. Desde Sigma, se desconoce la desviación estándar de la población que lo haremos
Estime con la desviación estándar de muestra, 1.8. - Región crítica:
- Usemos el nivel .01: queremos asegurarnos de que nuestra decisión sobre H0 sea
razonable; es decir, no queremos cometer un error tipo I (rechazar el nulo
hipótesis cuando en realidad es cierto) porque de lo contrario seríamos
Instituir un sistema que realmente no funcionó. - Por lo tanto, encuentre la Z crítica que marca la proporción .01 inferior de la
distribución. Resulta ser alrededor de 2.326. (Ver el diagrama a continuación). - Estadística de prueba:
- Usando la fórmula dada anteriormente, encontramos la Z observada como:
- Por lo tanto, la Z observada es -4.714
- Decisión:
- Dado que el valor absoluto de la Z observada es mucho mayor que el
Valor crítico, rechazamos la hipótesis nula en el nivel .01. Es decir, hay
Solo una posibilidad muy pequeña de que H0 sea cierto. - Interpretación:
- Aunque la hipótesis nula ha sido rechazada la diferencia entre
Los conductores que usan el sistema de luces y todos los demás controladores son relativamente pequeños.
Por lo tanto, uno siguiente tiene que preguntar si esta diferencia tiene alguna práctica
significado. El sistema de luz, en otras palabras, ¿reducirá la tensión lo suficiente?
para prevenir accidentes? - SOFTWARE DE ORDENADOR:
- Si tiene datos sin procesar, use la estadística de Minitab,
luego estadísticas básicas, luego 1 muestra
Z. - SPSS tiene un procedimiento similar.
- t Prueba de medios:
- Problema: Supongamos que se sabe que el peso corporal al nacer de niños normales
(nacimientos individuales) dentro de los Estados Unidos se distribuye aproximadamente normalmente y
tiene una media, de 115.2 onzas. Un pediatra cree que los pesos al nacer de
Los niños normales nacidos de madres que fuman regularmente pueden ser más bajos en promedio
que para la población en su conjunto. Para probar esta hipótesis, el médico
obtiene los pesos al nacer de una muestra aleatoria de 8 niños cuyas madres son
Fumadores pesados. La media de esta muestra es de 114.0 onzas con una desviación estándar
de = 4.3 onzas.
Evaluar la corazonada del pediatra. (Tomado de William L. Hays,
Estadísticas para las ciencias sociales, 2ª edición, p. 428.) - Hipótesis:
- NULL: H0: = 115.2
- Investigación: <115.2
- Tenga en cuenta la media, aquí significa el peso al nacer promedio de la población
de niños nacidos de madres que son fumadores pesados. - La investigación o la hipótesis alternativa sugiere una prueba de una cola:
Los pesos del nacer son iguales o superiores a 115.2 conducirán automáticamente
a la aceptación de H0. Son solo pesos «más pequeños» al nacer, que son esos
Menos de 115.2 onzas, eso arrojará dudas sobre H0. El único
La pregunta es qué tan pequeños deben ser los pesos de la muestra antes de uno
rechaza H0. En consecuencia, definiremos la región crítica como aquellos
Los resultados de la muestra suficientemente por debajo de 115.2 para hacernos dudar de los
Tenabilidad de la hipótesis nula. - Si el médico no tenía idea de a qué se nacieron los pesos al nacer de los niños
Los fumadores pesados podrían ser, rechazaríamos la hipótesis nula si el
El peso promedio de la muestra del nacer fue mucho mayor que 115.2 o
mucho más bajo que 115.2. En este caso construiríamos críticos
regiones en ambos extremos de la distribución de muestreo, creando así un
Prueba de dos colas. - Pero dado que el pediatra especifica con anticipación una alternativa
Hipótesis, nos quedaremos con una prueba de una cola. - Nota finalmente
que H0 y HA son mutuamente excluyentes y
exhaustivo. Es decir, una y solo una hipótesis puede ser cierta. - Distribución muestral:
- Dado que n es pequeño
(o porque no conocemos el estándar de la población
desviación) Necesitamos usar una distribución diferente llamada Distribución T. - La distribución t es realmente una familia de distribuciones con cada en particular
dependiendo del tamaño de la muestra, N o más exactamente en los llamados grados
de libertad que se define como: - Los grados de libertad para este problema en el que n es 17 es:
- Cada distribución T tiene forma más o menos en forma de «montículo»:
se ve un poco como una normalidad
distribución pero es más plana en el medio y tiene más probabilidad (área) en las colas.
Sin embargo, las distribuciones T son simétricas alrededor de una media de 0. - La distribución t se usa al igual que la normal estándar: la única excepción es que
primero tiene que calcular los grados de libertad, un asunto simple porque el
La fórmula es muy fácil. - Cuando se encuentran los grados de libertad y un nivel apropiado de importancia
(nivel alfa) se elige, consulte una tabla de valores t. - Se adjunta una tabla de la distribución t y también está disponible en Agresti y
Finlay, métodos estadísticos - Para usar la tabla, haga esto:
- Encuentre la fila correspondiente a los grados de libertad.
- Encuentre la columna correspondiente al nivel de significación deseado
y tipo de prueba (una cola o dos colas) - La entrada será el valor crítico que se comparará con el
valor observado (ver más abajo). - Región crítica y valores:
- Esta es una prueba de una cola ya que solo las estadísticas de muestra grandes nos harán
rechazar la hipótesis nula. - Se cree que los pesos al nacer de los niños normales son normalmente
repartido. Además, estamos considerando una media de muestra basada en un
Muestra pequeña (n = 8). Por lo tanto, la distribución apropiada es la T
Distribución con 8 – 1 = 7 grados de libertad. - Nivel de importancia y región crítica
- Supongamos que queremos trabajar en el nivel de significancia de .05.
Es decir, establecemos un
= .05. En otras palabras, estamos dispuestos a vivir con una probabilidad de hacer un
Error tipo I (rechazando incorrectamente la hipótesis nula) de .05. Podríamos elegir
esta probabilidad relativamente «alta» porque incluso si estamos equivocados y
concluyen erróneamente que los bebés nacidos de fumadores tienen en promedio más bajo
Peso al nacer que los bebés normales En general, los «costos» del error son
No demasiado genial. Aconsejar a las personas que dejen de fumar es un buen consejo para otros
razones. - La distribución de muestreo, la naturaleza de la prueba (una cola) y el muestreo
Distribución Determinar la elección de una región crítica. Necesitamos consultar un
versión tabular de la distribución t con 7 grados de libertad y encontrar el
valor crítico asociado con un crítico
región igual a a = .05. - El valor que se muestra en la tabla T es 1.895. Esto se encuentra mirando en
La séptima fila (correspondiente a 7 grados de libertad) y el T.050
columna. (Si estábamos usando una prueba de dos colas en el nivel de .05,
usaría
la columna A/2 = .05/2 = .025.) - Rechazar h0 si el absoluto
el valor de los tobs es mayor o igual al
valor absoluto de 1.895. - De lo contrario, no rechazar H0.
- Estadística de muestra:
- Dado que n = 8
y = 4.3,
La T observada es: - Tenga en cuenta que el error estándar estimado de la media viene dado por lo habitual
fórmula: - Decisión
- El valor absoluto de la T, -.7893,
no es mayor o igual a
El valor absoluto de la t. Por lo tanto, no rechazamos (o no) rechazamos
La hipótesis nula. - Interpretación
- Aunque los pesos de la muestra son más bajos en promedio que el
La población significa, tenemos que concluir que esta discrepancia podría haber
ocurrió por casualidad. - Personalmente, me gustaría un tamaño de muestra más grande.
- El poder de esta prueba: la probabilidad de encontrar un tamaño de efecto
mayor que 0-es relativamente bajo. - Pero también tenemos que tener en cuenta la diferencia «significativa». Incluso si
La media de la población para bebés de madres fumadoras es 115.2 – 114 = 1.2
onzas menos que todos los bebés normales, ¿esta diferencia de peso pone el
bebés en riesgo? Esta es, por supuesto, una pregunta médica. Lo crío porque, si n
Eran lo suficientemente grandes, habríamos rechazado la hipótesis nula. A
convenciéndose de este punto, use los mismos datos presentados en el
Problema, pero suponga que N es 10,000. - Prueba de hipótesis revisitadas: supongamos que un investigador está interesado en los efectos de
Violencia televisada sobre el comportamiento de los niños. Ella toma una muestra aleatoria de 20 jóvenes
niños y los asignan al azar a dos grupos. Un grupo mira especialmente
Episodio violento de un programa de televisión infantil; el otro ve una película sobre un extranjero
cultura. Luego, los jóvenes se observan en juego. El investigador registra el
Número de veces que un niño se comporta agresivamente hacia una muñeca grande o figura de juego. - Supongamos que el investigador propone lo siguiente sustantivo o investigación
hipótesis. Los niños que ven la violencia en la televisión tenderán a imitar a esos
comportamientos agresivos que se refuerzan en los programas. Niños no expuestos a
Tal violencia tiende a comportarse mucho menos agresivamente. - Las hipótesis estadísticas se pueden afirmar de esta manera:
- H0: M1 = M2
- HA: M1> M2
donde m1
es el número medio de actos agresivos realizados por el
«población» de niños que ven la violencia en la televisión y
M2 es el
Número medio de actos agresivos realizados por la «población» de los niños
que no ven la violencia en la televisión.
- La teoría estadística muestra que la distribución de estas medias de muestra es normal
con un medio de y un
Desviación Estándar. - Más precisamente, en caso de que esté interesado, este resultado proviene del llamado
teorema del límite central. - Observe que el valor esperado de la muestra de la muestra es igual al valor de la población ()
Pero la desviación estándar, llamada error estándar de la media, es la
Desviación estándar de población dividida por N. - Aquí hay una imagen de una de las consecuencias de este hecho. En el diagrama, significa
han sido extraídos de alguna población (no necesariamente normal). En el primero
instancia, donde n es 80, la muestra significa clúster bastante bien alrededor del «verdadero»
significar (). Esto se debe a que 80 se está dividiendo. En el segundo caso, donde el
Los tamaños de muestra son 20, las medias de muestra están más extendidas alrededor de la media verdadera.
Eso, por supuesto, es porque S está siendo dividido por un número más pequeño y, por lo tanto, el
El error estándar (es decir, la desviación estándar) es mayor. Por lo tanto, la muestra significa en el caso 2
están más dispersos. - Ejemplo adicional de prueba de medios:
- Aquí hay otro problema; Esta vez podemos discutirlo con menos comentarios. Vamos
Sobre ello y si surgen preguntas, asegúrese de preguntarles. El transporte se ha convertido en un
problema nacional. La Administración Federal de Carreteras está estudiando diferentes maneras
Para fusionar automóviles en autopistas y carreteras interestatales de alta velocidad. Un proyecto
involucró un experimento en Florida en el que se usa una serie de luces de exhibición para decir
conductores si están viajando o no a una velocidad adecuada para fusionarse con el
trafico en sentido contrario. Se ha conocido por muchos estudios previos que el estrés promedio
de los conductores que se fusionaron en carreteras congestionadas es 8.2 (medida en un estrés de 10 puntos
escala donde 10 significa más estresado). En una muestra de 200 controladores utilizando el
Sistema de luz de señal, la puntuación de estrés promedio fue de 7.6 con una desviación estándar de
1.8. ¿Hay alguna evidencia de que el sistema esté reduciendo el estrés? - Hipótesis:
- Hipótesis de investigación: el sistema reduce el estrés de modo que para los conductores que lo usan
<8.2. - Hipótesis nula: H0: = 8.2 (el sistema no reduce el estrés).
- Esta es nuevamente una prueba de una cola. La hipótesis alternativa (investigación)
sugiere la dirección en la que esperaríamos encontrar la media de los conductores
usando el sistema. - Distribución muestral:
- Dado que N es 200, use la distribución normal. Si la hipótesis nula es verdadera
Entonces, la muestra de muestra tomada de esta población se distribuirá normalmente
con media 8.2 y error estándar igual a Sigma dividido por la raíz cuadrada
de 200. Desde Sigma, se desconoce la desviación estándar de la población que lo haremos
Estime con la desviación estándar de muestra, 1.8. - Región crítica:
- Usemos el nivel .01: queremos asegurarnos de que nuestra decisión sobre H0 sea
razonable; es decir, no queremos cometer un error tipo I (rechazar el nulo
hipótesis cuando en realidad es cierto) porque de lo contrario seríamos
Instituir un sistema que realmente no funcionó. - Por lo tanto, encuentre la Z crítica que marca la proporción .01 inferior de la
distribución. Resulta ser alrededor de 2.326. (Ver el diagrama a continuación). - Estadística de prueba:
- Usando la fórmula dada anteriormente, encontramos la Z observada como:
- Por lo tanto, la Z observada es -4.714
- Decisión:
- Dado que el valor absoluto de la Z observada es mucho mayor que el
Valor crítico, rechazamos la hipótesis nula en el nivel .01. Es decir, hay
Solo una posibilidad muy pequeña de que H0 sea cierto. - Interpretación:
- Aunque la hipótesis nula ha sido rechazada la diferencia entre
Los conductores que usan el sistema de luces y todos los demás controladores son relativamente pequeños.
Por lo tanto, uno siguiente tiene que preguntar si esta diferencia tiene alguna práctica
significado. El sistema de luz, en otras palabras, ¿reducirá la tensión lo suficiente?
para prevenir accidentes? - SOFTWARE DE ORDENADOR:
- Si tiene datos sin procesar, use la estadística de Minitab,
luego estadísticas básicas, luego 1 muestra
Z. - SPSS tiene un procedimiento similar.
- t Prueba de medios:
- Problema: Supongamos que se sabe que el peso corporal al nacer de niños normales
(nacimientos individuales) dentro de los Estados Unidos se distribuye aproximadamente normalmente y
tiene una media, de 115.2 onzas. Un pediatra cree que los pesos al nacer de
Los niños normales nacidos de madres que fuman regularmente pueden ser más bajos en promedio
que para la población en su conjunto. Para probar esta hipótesis, el médico
obtiene los pesos al nacer de una muestra aleatoria de 8 niños cuyas madres son
Fumadores pesados. La media de esta muestra es de 114.0 onzas con una desviación estándar
de = 4.3 onzas.
Evaluar la corazonada del pediatra. (Tomado de William L. Hays,
Estadísticas para las ciencias sociales, 2ª edición, p. 428.) - Hipótesis:
- NULL: H0: = 115.2
- Investigación: <115.2
- Tenga en cuenta la media, aquí significa el peso al nacer promedio de la población
de niños nacidos de madres que son fumadores pesados. - La investigación o la hipótesis alternativa sugiere una prueba de una cola:
Los pesos del nacer son iguales o superiores a 115.2 conducirán automáticamente
a la aceptación de H0. Son solo pesos «más pequeños» al nacer, que son esos
Menos de 115.2 onzas, eso arrojará dudas sobre H0. El único
La pregunta es qué tan pequeños deben ser los pesos de la muestra antes de uno
rechaza H0. En consecuencia, definiremos la región crítica como aquellos
Los resultados de la muestra suficientemente por debajo de 115.2 para hacernos dudar de los
Tenabilidad de la hipótesis nula. - Si el médico no tenía idea de a qué se nacieron los pesos al nacer de los niños
Los fumadores pesados podrían ser, rechazaríamos la hipótesis nula si el
El peso promedio de la muestra del nacer fue mucho mayor que 115.2 o
mucho más bajo que 115.2. En este caso construiríamos críticos
regiones en ambos extremos de la distribución de muestreo, creando así un
Prueba de dos colas. - Pero dado que el pediatra especifica con anticipación una alternativa
Hipótesis, nos quedaremos con una prueba de una cola. - Nota finalmente
que H0 y HA son mutuamente excluyentes y
exhaustivo. Es decir, una y solo una hipótesis puede ser cierta. - Distribución muestral:
- Dado que n es pequeño
(o porque no conocemos el estándar de la población
desviación) Necesitamos usar una distribución diferente llamada Distribución T. - La distribución t es realmente una familia de distribuciones con cada en particular
dependiendo del tamaño de la muestra, N o más exactamente en los llamados grados
de libertad que se define como: - Los grados de libertad para este problema en el que n es 17 es:
- Cada distribución T tiene forma más o menos en forma de «montículo»:
se ve un poco como una normalidad
distribución pero es más plana en el medio y tiene más probabilidad (área) en las colas.
Sin embargo, las distribuciones T son simétricas alrededor de una media de 0. - La distribución t se usa al igual que la normal estándar: la única excepción es que
primero tiene que calcular los grados de libertad, un asunto simple porque el
La fórmula es muy fácil. - Cuando se encuentran los grados de libertad y un nivel apropiado de importancia
(nivel alfa) se elige, consulte una tabla de valores t. - Se adjunta una tabla de la distribución t y también está disponible en Agresti y
Finlay, métodos estadísticos - Para usar la tabla, haga esto:
- Encuentre la fila correspondiente a los grados de libertad.
- Encuentre la columna correspondiente al nivel de significación deseado
y tipo de prueba (una cola o dos colas) - La entrada será el valor crítico que se comparará con el
valor observado (ver más abajo). - Región crítica y valores:
- Esta es una prueba de una cola ya que solo las estadísticas de muestra grandes nos harán
rechazar la hipótesis nula. - Se cree que los pesos al nacer de los niños normales son normalmente
repartido. Además, estamos considerando una media de muestra basada en un
Muestra pequeña (n = 8). Por lo tanto, la distribución apropiada es la T
Distribución con 8 – 1 = 7 grados de libertad. - Nivel de importancia y región crítica
- Supongamos que queremos trabajar en el nivel de significancia de .05.
Es decir, establecemos un
= .05. En otras palabras, estamos dispuestos a vivir con una probabilidad de hacer un
Error tipo I (rechazando incorrectamente la hipótesis nula) de .05. Podríamos elegir
esta probabilidad relativamente «alta» porque incluso si estamos equivocados y
concluyen erróneamente que los bebés nacidos de fumadores tienen en promedio más bajo
Peso al nacer que los bebés normales En general, los «costos» del error son
No demasiado genial. Aconsejar a las personas que dejen de fumar es un buen consejo para otros
razones. - La distribución de muestreo, la naturaleza de la prueba (una cola) y el muestreo
Distribución Determinar la elección de una región crítica. Necesitamos consultar un
versión tabular de la distribución t con 7 grados de libertad y encontrar el
valor crítico asociado con un crítico
región igual a a = .05. - El valor que se muestra en la tabla T es 1.895. Esto se encuentra mirando en
La séptima fila (correspondiente a 7 grados de libertad) y el T.050
columna. (Si estábamos usando una prueba de dos colas en el nivel de .05,
usaría
la columna A/2 = .05/2 = .025.) - Rechazar h0 si el absoluto
el valor de los tobs es mayor o igual al
valor absoluto de 1.895. - De lo contrario, no rechazar H0.
- Estadística de muestra:
- Dado que n = 8
y = 4.3,
La T observada es: - Tenga en cuenta que el error estándar estimado de la media viene dado por lo habitual
fórmula: - Decisión
- El valor absoluto de la T, -.7893,
no es mayor o igual a
El valor absoluto de la t. Por lo tanto, no rechazamos (o no) rechazamos
La hipótesis nula. - Interpretación
- Aunque los pesos de la muestra son más bajos en promedio que el
La población significa, tenemos que concluir que esta discrepancia podría haber
ocurrió por casualidad. - Personalmente, me gustaría un tamaño de muestra más grande.
- El poder de esta prueba: la probabilidad de encontrar un tamaño de efecto
mayor que 0-es relativamente bajo. - Pero también tenemos que tener en cuenta la diferencia «significativa». Incluso si
La media de la población para bebés de madres fumadoras es 115.2 – 114 = 1.2
onzas menos que todos los bebés normales, ¿esta diferencia de peso pone el
bebés en riesgo? Esta es, por supuesto, una pregunta médica. Lo crío porque, si n
Eran lo suficientemente grandes, habríamos rechazado la hipótesis nula. A
convenciéndose de este punto, use los mismos datos presentados en el
Problema, pero suponga que N es 10,000. - Prueba de hipótesis revisitadas: supongamos que un investigador está interesado en los efectos de
Violencia televisada sobre el comportamiento de los niños. Ella toma una muestra aleatoria de 20 jóvenes
niños y los asignan al azar a dos grupos. Un grupo mira especialmente
Episodio violento de un programa de televisión infantil; el otro ve una película sobre un extranjero
cultura. Luego, los jóvenes se observan en juego. El investigador registra el
Número de veces que un niño se comporta agresivamente hacia una muñeca grande o figura de juego. - Supongamos que el investigador propone lo siguiente sustantivo o investigación
hipótesis. Los niños que ven la violencia en la televisión tenderán a imitar a esos
comportamientos agresivos que se refuerzan en los programas. Niños no expuestos a
Tal violencia tiende a comportarse mucho menos agresivamente. - Las hipótesis estadísticas se pueden afirmar de esta manera:
- H0: M1 = M2
- HA: M1> M2
mutuamente excluyente y exhaustivo (como son), entonces si H0 es
negado, ha ser aceptado.
(El investigador busca negar H0, o anularlo.
Por lo tanto, el término hipótesis nula).
Consulte los parámetros de la población
(es decir, m1
y m2), pero
Solo estadísticas de muestra
()
están disponibles.
Muestra de medias, por ejemplo) es solo más o menos probable dada la verdad de uno de los
hipótesis estadísticas. Es decir, no podemos decir definitivamente sobre la base de una muestra
ya sea H0 o HA es cierto. Solo podemos hacer una inferencia.
Vocabulario, estamos investigando la probabilidad de obtener un resultado de la muestra
tan grande (o más grande que) el observado, dado que la hipótesis nula es
verdadero. Por lo tanto, si H0 es cierto, preguntamos qué tan probable es que observemos un
diferencia en comportamientos agresivos de tal y tal magnitud.
Este caso la diferencia entre las medias de la muestra) es solo una instancia de una infinita
Gran número de estadísticas de muestra que surgirían si el experimento se repitiera
un número infinito de veces. Las diferencias entre las estadísticas de muestra reflejarían
Dos fuentes de variación: primero los caprichos del muestreo aleatorio de un infinito
población, y segundo, si y solo si la hipótesis alternativa fuera cierta, la
diferencias entre las poblaciones. La teoría estadística demuestra que mediante el uso
información de las muestras y al hacer algunos supuestos, uno puede construir
Una distribución de muestreo de la diferencia de medias de muestra. (Una suposición es que
H0: 1 = 2 es verdadero.)
Distribución formada trazando la diferencia de dos medias de muestra sobre un infinito
El número de replicaciones hipotéticas sería en forma de campana y simétrica con
media igual a 0 y desviación estándar
(es decir, error estándar) igual
a.
Grados de libertad, donde los N son los tamaños de muestra de los dos grupos.
- La teoría estadística muestra que la distribución de estas medias de muestra es normal
con un medio de y un
Desviación Estándar. - Más precisamente, en caso de que esté interesado, este resultado proviene del llamado
teorema del límite central. - Observe que el valor esperado de la muestra de la muestra es igual al valor de la población ()
Pero la desviación estándar, llamada error estándar de la media, es la
Desviación estándar de población dividida por N. - Aquí hay una imagen de una de las consecuencias de este hecho. En el diagrama, significa
han sido extraídos de alguna población (no necesariamente normal). En el primero
instancia, donde n es 80, la muestra significa clúster bastante bien alrededor del «verdadero»
significar (). Esto se debe a que 80 se está dividiendo. En el segundo caso, donde el
Los tamaños de muestra son 20, las medias de muestra están más extendidas alrededor de la media verdadera.
Eso, por supuesto, es porque S está siendo dividido por un número más pequeño y, por lo tanto, el
El error estándar (es decir, la desviación estándar) es mayor. Por lo tanto, la muestra significa en el caso 2
están más dispersos. - Ejemplo adicional de prueba de medios:
- Aquí hay otro problema; Esta vez podemos discutirlo con menos comentarios. Vamos
Sobre ello y si surgen preguntas, asegúrese de preguntarles. El transporte se ha convertido en un
problema nacional. La Administración Federal de Carreteras está estudiando diferentes maneras
Para fusionar automóviles en autopistas y carreteras interestatales de alta velocidad. Un proyecto
involucró un experimento en Florida en el que se usa una serie de luces de exhibición para decir
conductores si están viajando o no a una velocidad adecuada para fusionarse con el
trafico en sentido contrario. Se ha conocido por muchos estudios previos que el estrés promedio
de los conductores que se fusionaron en carreteras congestionadas es 8.2 (medida en un estrés de 10 puntos
escala donde 10 significa más estresado). En una muestra de 200 controladores utilizando el
Sistema de luz de señal, la puntuación de estrés promedio fue de 7.6 con una desviación estándar de
1.8. ¿Hay alguna evidencia de que el sistema esté reduciendo el estrés? - Hipótesis:
- Hipótesis de investigación: el sistema reduce el estrés de modo que para los conductores que lo usan
<8.2. - Hipótesis nula: H0: = 8.2 (el sistema no reduce el estrés).
- Esta es nuevamente una prueba de una cola. La hipótesis alternativa (investigación)
sugiere la dirección en la que esperaríamos encontrar la media de los conductores
usando el sistema. - Distribución muestral:
- Dado que N es 200, use la distribución normal. Si la hipótesis nula es verdadera
Entonces, la muestra de muestra tomada de esta población se distribuirá normalmente
con media 8.2 y error estándar igual a Sigma dividido por la raíz cuadrada
de 200. Desde Sigma, se desconoce la desviación estándar de la población que lo haremos
Estime con la desviación estándar de muestra, 1.8. - Región crítica:
- Usemos el nivel .01: queremos asegurarnos de que nuestra decisión sobre H0 sea
razonable; es decir, no queremos cometer un error tipo I (rechazar el nulo
hipótesis cuando en realidad es cierto) porque de lo contrario seríamos
Instituir un sistema que realmente no funcionó. - Por lo tanto, encuentre la Z crítica que marca la proporción .01 inferior de la
distribución. Resulta ser alrededor de 2.326. (Ver el diagrama a continuación). - Estadística de prueba:
- Usando la fórmula dada anteriormente, encontramos la Z observada como:
- Por lo tanto, la Z observada es -4.714
- Decisión:
- Dado que el valor absoluto de la Z observada es mucho mayor que el
Valor crítico, rechazamos la hipótesis nula en el nivel .01. Es decir, hay
Solo una posibilidad muy pequeña de que H0 sea cierto. - Interpretación:
- Aunque la hipótesis nula ha sido rechazada la diferencia entre
Los conductores que usan el sistema de luces y todos los demás controladores son relativamente pequeños.
Por lo tanto, uno siguiente tiene que preguntar si esta diferencia tiene alguna práctica
significado. El sistema de luz, en otras palabras, ¿reducirá la tensión lo suficiente?
para prevenir accidentes? - SOFTWARE DE ORDENADOR:
- Si tiene datos sin procesar, use la estadística de Minitab,
luego estadísticas básicas, luego 1 muestra
Z. - SPSS tiene un procedimiento similar.
- t Prueba de medios:
- Problema: Supongamos que se sabe que el peso corporal al nacer de niños normales
(nacimientos individuales) dentro de los Estados Unidos se distribuye aproximadamente normalmente y
tiene una media, de 115.2 onzas. Un pediatra cree que los pesos al nacer de
Los niños normales nacidos de madres que fuman regularmente pueden ser más bajos en promedio
que para la población en su conjunto. Para probar esta hipótesis, el médico
obtiene los pesos al nacer de una muestra aleatoria de 8 niños cuyas madres son
Fumadores pesados. La media de esta muestra es de 114.0 onzas con una desviación estándar
de = 4.3 onzas.
Evaluar la corazonada del pediatra. (Tomado de William L. Hays,
Estadísticas para las ciencias sociales, 2ª edición, p. 428.) - Hipótesis:
- NULL: H0: = 115.2
- Investigación: <115.2
- Tenga en cuenta la media, aquí significa el peso al nacer promedio de la población
de niños nacidos de madres que son fumadores pesados. - La investigación o la hipótesis alternativa sugiere una prueba de una cola:
Los pesos del nacer son iguales o superiores a 115.2 conducirán automáticamente
a la aceptación de H0. Son solo pesos «más pequeños» al nacer, que son esos
Menos de 115.2 onzas, eso arrojará dudas sobre H0. El único
La pregunta es qué tan pequeños deben ser los pesos de la muestra antes de uno
rechaza H0. En consecuencia, definiremos la región crítica como aquellos
Los resultados de la muestra suficientemente por debajo de 115.2 para hacernos dudar de los
Tenabilidad de la hipótesis nula. - Si el médico no tenía idea de a qué se nacieron los pesos al nacer de los niños
Los fumadores pesados podrían ser, rechazaríamos la hipótesis nula si el
El peso promedio de la muestra del nacer fue mucho mayor que 115.2 o
mucho más bajo que 115.2. En este caso construiríamos críticos
regiones en ambos extremos de la distribución de muestreo, creando así un
Prueba de dos colas. - Pero dado que el pediatra especifica con anticipación una alternativa
Hipótesis, nos quedaremos con una prueba de una cola. - Nota finalmente
que H0 y HA son mutuamente excluyentes y
exhaustivo. Es decir, una y solo una hipótesis puede ser cierta. - Distribución muestral:
- Dado que n es pequeño
(o porque no conocemos el estándar de la población
desviación) Necesitamos usar una distribución diferente llamada Distribución T. - La distribución t es realmente una familia de distribuciones con cada en particular
dependiendo del tamaño de la muestra, N o más exactamente en los llamados grados
de libertad que se define como: - Los grados de libertad para este problema en el que n es 17 es:
- Cada distribución T tiene forma más o menos en forma de «montículo»:
se ve un poco como una normalidad
distribución pero es más plana en el medio y tiene más probabilidad (área) en las colas.
Sin embargo, las distribuciones T son simétricas alrededor de una media de 0. - La distribución t se usa al igual que la normal estándar: la única excepción es que
primero tiene que calcular los grados de libertad, un asunto simple porque el
La fórmula es muy fácil. - Cuando se encuentran los grados de libertad y un nivel apropiado de importancia
(nivel alfa) se elige, consulte una tabla de valores t. - Se adjunta una tabla de la distribución t y también está disponible en Agresti y
Finlay, métodos estadísticos - Para usar la tabla, haga esto:
- Encuentre la fila correspondiente a los grados de libertad.
- Encuentre la columna correspondiente al nivel de significación deseado
y tipo de prueba (una cola o dos colas) - La entrada será el valor crítico que se comparará con el
valor observado (ver más abajo). - Región crítica y valores:
- Esta es una prueba de una cola ya que solo las estadísticas de muestra grandes nos harán
rechazar la hipótesis nula. - Se cree que los pesos al nacer de los niños normales son normalmente
repartido. Además, estamos considerando una media de muestra basada en un
Muestra pequeña (n = 8). Por lo tanto, la distribución apropiada es la T
Distribución con 8 – 1 = 7 grados de libertad. - Nivel de importancia y región crítica
- Supongamos que queremos trabajar en el nivel de significancia de .05.
Es decir, establecemos un
= .05. En otras palabras, estamos dispuestos a vivir con una probabilidad de hacer un
Error tipo I (rechazando incorrectamente la hipótesis nula) de .05. Podríamos elegir
esta probabilidad relativamente «alta» porque incluso si estamos equivocados y
concluyen erróneamente que los bebés nacidos de fumadores tienen en promedio más bajo
Peso al nacer que los bebés normales En general, los «costos» del error son
No demasiado genial. Aconsejar a las personas que dejen de fumar es un buen consejo para otros
razones. - La distribución de muestreo, la naturaleza de la prueba (una cola) y el muestreo
Distribución Determinar la elección de una región crítica. Necesitamos consultar un
versión tabular de la distribución t con 7 grados de libertad y encontrar el
valor crítico asociado con un crítico
región igual a a = .05. - El valor que se muestra en la tabla T es 1.895. Esto se encuentra mirando en
La séptima fila (correspondiente a 7 grados de libertad) y el T.050
columna. (Si estábamos usando una prueba de dos colas en el nivel de .05,
usaría
la columna A/2 = .05/2 = .025.) - Rechazar h0 si el absoluto
el valor de los tobs es mayor o igual al
valor absoluto de 1.895. - De lo contrario, no rechazar H0.
- Estadística de muestra:
- Dado que n = 8
y = 4.3,
La T observada es: - Tenga en cuenta que el error estándar estimado de la media viene dado por lo habitual
fórmula: - Decisión
- El valor absoluto de la T, -.7893,
no es mayor o igual a
El valor absoluto de la t. Por lo tanto, no rechazamos (o no) rechazamos
La hipótesis nula. - Interpretación
- Aunque los pesos de la muestra son más bajos en promedio que el
La población significa, tenemos que concluir que esta discrepancia podría haber
ocurrió por casualidad. - Personalmente, me gustaría un tamaño de muestra más grande.
- El poder de esta prueba: la probabilidad de encontrar un tamaño de efecto
mayor que 0-es relativamente bajo. - Pero también tenemos que tener en cuenta la diferencia «significativa». Incluso si
La media de la población para bebés de madres fumadoras es 115.2 – 114 = 1.2
onzas menos que todos los bebés normales, ¿esta diferencia de peso pone el
bebés en riesgo? Esta es, por supuesto, una pregunta médica. Lo crío porque, si n
Eran lo suficientemente grandes, habríamos rechazado la hipótesis nula. A
convenciéndose de este punto, use los mismos datos presentados en el
Problema, pero suponga que N es 10,000. - Prueba de hipótesis revisitadas: supongamos que un investigador está interesado en los efectos de
Violencia televisada sobre el comportamiento de los niños. Ella toma una muestra aleatoria de 20 jóvenes
niños y los asignan al azar a dos grupos. Un grupo mira especialmente
Episodio violento de un programa de televisión infantil; el otro ve una película sobre un extranjero
cultura. Luego, los jóvenes se observan en juego. El investigador registra el
Número de veces que un niño se comporta agresivamente hacia una muñeca grande o figura de juego. - Supongamos que el investigador propone lo siguiente sustantivo o investigación
hipótesis. Los niños que ven la violencia en la televisión tenderán a imitar a esos
comportamientos agresivos que se refuerzan en los programas. Niños no expuestos a
Tal violencia tiende a comportarse mucho menos agresivamente. - Las hipótesis estadísticas se pueden afirmar de esta manera:
- H0: M1 = M2
- HA: M1> M2
mutuamente excluyente y exhaustivo (como son), entonces si H0 es
negado, ha ser aceptado.
(El investigador busca negar H0, o anularlo.
Por lo tanto, el término hipótesis nula).
Consulte los parámetros de la población
(es decir, m1
y m2), pero
Solo estadísticas de muestra
()
están disponibles.
Muestra de medias, por ejemplo) es solo más o menos probable dada la verdad de uno de los
hipótesis estadísticas. Es decir, no podemos decir definitivamente sobre la base de una muestra
ya sea H0 o HA es cierto. Solo podemos hacer una inferencia.
Vocabulario, estamos investigando la probabilidad de obtener un resultado de la muestra
tan grande (o más grande que) el observado, dado que la hipótesis nula es
verdadero. Por lo tanto, si H0 es cierto, preguntamos qué tan probable es que observemos un
diferencia en comportamientos agresivos de tal y tal magnitud.
Este caso la diferencia entre las medias de la muestra) es solo una instancia de una infinita
Gran número de estadísticas de muestra que surgirían si el experimento se repitiera
un número infinito de veces. Las diferencias entre las estadísticas de muestra reflejarían
Dos fuentes de variación: primero los caprichos del muestreo aleatorio de un infinito
población, y segundo, si y solo si la hipótesis alternativa fuera cierta, la
diferencias entre las poblaciones. La teoría estadística demuestra que mediante el uso
información de las muestras y al hacer algunos supuestos, uno puede construir
Una distribución de muestreo de la diferencia de medias de muestra. (Una suposición es que
H0: 1 = 2 es verdadero.)
Distribución formada trazando la diferencia de dos medias de muestra sobre un infinito
El número de replicaciones hipotéticas sería en forma de campana y simétrica con
media igual a 0 y desviación estándar
(es decir, error estándar) igual
a.
puede tomar cualquier valor de menos a más infinito. Pero la distribución de muestreo
nos muestra la frecuencia relativa de los tobos que caen en cualquier intervalo de la distribución
¿Cuando una muestra es pequeña en estadística?
Ha sido una suposición bastante conocida en estadísticas que un tamaño de muestra de 30 es un llamado número mágico en la estimación de la distribución o los errores estadísticos. El problema es que, en primer lugar, según Andrew Messing del Centro para la Ciencia del Cerebro, la Universidad de Harvard, como una gran regla de pulgar medidas de sentido común, esta suposición no tiene una base teórica sólida para demostrar su veracidad. En segundo lugar, el número 30 es en sí mismo arbitrario, y algunos libros de texto dan números mágicos alternativos de 50 o 20. ¿Se pueden encontrar ejemplos en 30 problemas de números mágicos en la estimación del tamaño de la muestra? o el chamanismo como conocimiento estadístico: ¿es un tamaño de muestra de 30 todo lo que necesita?, por ejemplo. Lo curioso es que no hay una prueba formal de que alguno de estos números sea útil porque todos confían en suposiciones que pueden no ser verdaderas de una o más formas y, como resultado, el tamaño de muestra adecuado no se puede derivar utilizando los métodos típicamente enseñado (y usado) en las ciencias médicas, sociales, cognitivas y conductuales.
Como muchos otros antes que yo, esto me hizo pensar. Uno de mis dominios es Healthcare Data Analytics, un campo que está perpetuamente inundado de datos. ¿Debo probar esta regla general y ver si hay alguna verdad?
Establezcamos primero el fondo. Los datos que estaba analizando los centros alrededor del tratamiento de la hepatitis C. El objetivo de la terapia con la hepatitis C es eliminar la sangre del paciente del virus de la hepatitis C (VHC). Durante este tratamiento, los médicos controlan rutinariamente el nivel de virus en la sangre del paciente, una medición conocida como carga viral, generalmente en términos de unidades internacionales por mililitro (UI/ml). Cuando estaba cortando y cortando los datos utilizando diferentes criterios, como edad, sexo, genotipo, etc., para informar la efectividad del tratamiento, a veces los tamaños de muestra de estas cohortes se estaban volviendo demasiado pequeños. Entonces, ¿cuál debe establecer el tamaño mínimo de mi muestra antes de que pueda informar con confianza ese resultado?
Veamos un modelo matemático bastante simple ahora. En este caso específico, asumimos una distribución en T de nuestros datos. La distribución en T casi está diseñada, por lo que ofrece una mejor estimación de nuestros intervalos de confianza, especialmente porque tenemos un pequeño tamaño de muestra. Se ve muy similar a una distribución normal. Tiene un «medio», que es nuestra media de nuestra distribución de muestreo. Pero también tiene colas más gordas. Entonces, normalmente lo que podemos hacer es que encontremos la estimación de la verdadera desviación estándar, y luego podemos decir que la desviación estándar de la distribución de muestreo es igual a la verdadera desviación estándar de nuestra población dividida por la raíz cuadrada de N, que es el tamaño de la muestra.
¿Que se entiende por inferencia estadística con muestras pequeñas?
Cuando investigamos, queremos comprender cuán seguros podemos ser que nuestros resultados o inferencia son correctos. Dos medidas de esto son grados de libertad e intervalos de confianza.
Grados de libertad (la cantidad de variación permitida en un conjunto de observaciones) se encuentran restando uno del número de participantes (u observaciones), N – 1. Por lo tanto, si tuviera un tamaño de muestra de 100, los grados de libertad lo harían Be 100 – 1 = 99. Esto no cambia con tamaños de muestra pequeños.
Al realizar pruebas específicas, verá diferentes resultados basados en pequeños grados de libertad:
- 1 prueba t de muestra: cuanto más pequeño sea el tamaño de la muestra, las colas de la prueba (menos rechazos de la hipótesis nula hecha)
- Prueba de chi -cuadrado: los tamaños de muestra pequeños dan como resultado una tabla de resultados sesgada positivamente
- Regresión: los pequeños tamaños de muestra con grandes cantidades de parámetros que se están probando pueden dar lugar a informes de error cuando se analizan los datos
El intervalo de confianza es básicamente lo positivo que puede ser un investigador sobre los resultados de cualquier estudio. Se da en porcentajes. Los resultados calculados se comparan con los gráficos que otorgan requisitos mínimos para los niveles de confianza predeterminados, como el 95%, el 90%, etc.
Calcular el nivel de confianza requiere la desviación estándar de la población, que a menudo se desconoce. Estimamos este número dividiendo la desviación estándar de la muestra por la raíz cuadrada del tamaño de la muestra, n. Sin embargo, esto frecuentemente da una estimación imprecisa cuando el tamaño de la muestra es pequeño (cualquier cosa menos de aproximadamente 30).
¿Qué tipo de prueba se utiliza para muestras grandes?
- Aprender a aplicar el procedimiento de prueba de cinco pasos para una prueba de hipótesis con respecto a una media de población cuando el tamaño de la muestra es grande.
- Aprender a interpretar el resultado de una prueba de hipótesis en el contexto de la situación narrada original.
En esta sección describimos y demostramos el procedimiento para realizar una prueba de hipótesis sobre la media de una población en el caso de que el tamaño de la muestra (n ) es al menos (30 ). El teorema del límite central establece que ( overline {x} ) se distribuye aproximadamente normalmente, y tiene media ( mu _ { overline {x}} = mu ) y desviación estándar ( sigma _ { Overline {x}} = sigma / sqrt {n} ), donde ( mu ) y ( sigma ) son la media y la desviación estándar de la población. Esto implica que la estadística
tiene la distribución normal estándar, lo que significa que las probabilidades relacionadas con ella se dan en la Figura 7.1.5 y la última línea en la Figura 7.1.6.
Si sabemos ( Sigma ), la estadística en la pantalla es nuestra estadística de prueba. Si, como suele ser el caso, no sabemos ( Sigma ), entonces lo reemplazamos por la desviación estándar de muestra (S ). Dado que la muestra es grande, la estadística de prueba resultante todavía tiene una distribución que es aproximadamente estándar normal.
- Aprender a aplicar el procedimiento de prueba de cinco pasos para una prueba de hipótesis con respecto a una media de población cuando el tamaño de la muestra es grande.
- Aprender a interpretar el resultado de una prueba de hipótesis en el contexto de la situación narrada original.
La estadística de prueba tiene la distribución normal estándar.
¿Qué es la prueba de hipótesis para muestras grandes?
- Aprender a aplicar el procedimiento de prueba de cinco pasos para una prueba de hipótesis con respecto a una media de población cuando el tamaño de la muestra es grande.
- Aprender a interpretar el resultado de una prueba de hipótesis en el contexto de la situación narrada original.
En esta sección describimos y demostramos el procedimiento para realizar una prueba de hipótesis sobre la media de una población en el caso de que el tamaño de la muestra n es al menos 30. El teorema del límite central establece que X- está aproximadamente normalmente distribuido, y tiene media μX- = μ y desviación estándar σx- = σ ∕ n, donde μ y σ son la media y la desviación estándar de la población. Esto implica que la estadística
Si sabemos σ, la estadística en la pantalla es nuestra estadística de prueba. Si, como suele ser el caso, no sabemos σ, entonces lo reemplazamos por la desviación estándar de muestra s. Dado que la muestra es grande, la estadística de prueba resultante todavía tiene una distribución que es aproximadamente estándar normal.
Figura 8.4 Distribución de la estadística de prueba estandarizada y la región de rechazo
Se espera que un analgésico recientemente desarrollado produzca más rápidamente una reducción perceptible en el dolor a los pacientes después de cirugías menores que un analgésico estándar. Se sabe que el analgésico estándar trae alivio en un promedio de 3.5 minutos con una desviación estándar de 2.1 minutos. Para probar si el nuevo analgésico funciona más rápidamente que el estándar, se registraron 50 pacientes con cirugías menores al nuevo analgésico y sus tiempos de alivio. El experimento produjo la media de la muestra X- = 3.1 minutos y la desviación estándar de muestra s = 1.5 minutos. ¿Hay evidencia suficiente en la muestra para indicar, al nivel de significancia del 5%, que el analgésico recientemente desarrollado ofrece un alivio perceptible más rápidamente?
¿Cuándo se dice que la muestra es grande?
- Familiarizarse con el concepto de una estimación de intervalo de la media de la población.
- Comprender cómo aplicar fórmulas para un intervalo de confianza para una media población.
El teorema del límite central dice que, para muestras grandes (muestras de tamaño (n ge 30 )), cuando se ve como una variable aleatoria, la media de muestra ( overline {x} ) normalmente se distribuye con la media ( ( ( ( mu_ { overline {x}} = mu ) y desviación estándar ( sigma _ { overline {x}} = frac { sigma} { sqrt {n}} ). La regla empírica dice que debemos seguir dos desviaciones estándar de la media para capturar (95 %) de los valores de ( Overline {x} ) generados por muestra después de la muestra. Una distancia más precisa basada en la normalidad de ( overline {x} ) es (1.960 ) desviaciones estándar, que es (e = frac {1.960 sigma} { sqrt {n}} ).
La idea clave en la construcción del intervalo de confianza (95 %) es esta, como se ilustra en la figura ( pageIndex {1} ), porque en la muestra después de la muestra (95 %) de los valores de ( Overline {x} ) se encuentra en el intervalo ([ mu -e, mu +e] ), si contamos a cada lado de la estimación puntual (x -a ) «ala» de longitud (E ), (95 %) de los intervalos formados por los puntos alados contienen ( mu ). El intervalo de confianza (95 %) es, por lo tanto, ( bar {x} pm 1.960 frac { sigma} { sqrt {n}} ). Para un nivel diferente de confianza, digamos (90 %) o (99 %), el número (1.960 ) cambiará, pero la idea es la misma.
¿Qué es la teoría de pequeñas muestras?
Cuando preguntamos «¿Qué nos enseña la ciencia?» O «¿Qué nos dicen los datos?». Lo hacemos bien, damos la noción de la muestra de conveniencia otra mirada. En el sistema de estadísticas de Fisher, todas las muestras son muestras de conveniencia en el sentido de que no sabemos de qué población fueron dibujadas y, por lo tanto, no sabemos a qué población podemos generalizar los resultados estadísticos. Esta ignorancia de la población debería amortiguar nuestro entusiasmo inductivo. Por supuesto, cualquier muestra es un conjunto aleatorio de observaciones con respecto a alguna población, pero esta es una tautología y, por lo tanto, inútil. Algunas poblaciones atribuidas post hoc a la muestra dibujada son raras y poco informativas. Si, por ejemplo, hacemos un estudio que utiliza el servicio en línea de Mechanical Turk, podemos decir que nuestra muestra proviene de la población de trabajadores turcos. Incluso si tuviéramos motivos para afirmar que la muestra era aleatoria, ¿qué tipo de categoría es «trabajadores turcos»?
El muestreo de conveniencia es un secreto culpable en la ciencia. Muchos de nosotros lo hacemos, y transmitimos las incertidumbres que aporta al salto inductivo de los datos a la teoría. No tenemos herramientas estadísticas que hacer de lo contrario. El esfuerzo del diseño experimental se asegura de que los encuestados se asignen aleatoriamente a condiciones experimentales y de control. El muestreo aleatorio de una población bien definida a menudo está fuera de alcance.
Otro tipo de esfuerzo se destina a seleccionar tamaños de muestra. Hacer la selección sabiamente es responder la pregunta del poder estadístico. Como el complemento de la probabilidad de un error tipo II (no detectar un efecto verdadero), el análisis de potencia proviene del paradigma de Neyman-Pearson (NPP) de las estadísticas, no de Fisher. El NPP solicita que sepa, o fingir creíblemente saber, el tamaño de un efecto suponiendo que de hecho existe (por supuesto, podemos realizar múltiples análisis de potencia y mostrar los resultados como una curva; pero aún necesitamos seleccionar un en particular N para nuestro estudio, que revela nuestra apuesta sobre qué hipótesis es cierta). El NPP supone que hacemos lo que sabemos que es más difícil: muestra de poblaciones conocidas o bien imaginadas. De lo contrario, no hay razón para pensar que en muchas replicaciones exactas encontraríamos errores tipo I y tipo II con las probabilidades especificadas.
Incluso si no podemos realizar un análisis de potencia basado en la teoría y si no podemos probar al azar, el tamaño de la muestra es importante. Cuanto mayor sea la muestra, mayor es la precisión con la que estamos midiendo lo que estamos midiendo. ¿Cómo determinamos el tamaño de la muestra? ¿Qué tan grande es lo suficientemente grande en ausencia de un criterio proporcionado por el análisis de potencia? Muchos investigadores usan una heurística dura y una suave. La heurística dura es que quieren evitar el gasto deficiente. Los fondos e instalaciones de investigación imponen limitaciones que son difíciles (aunque no imposibles, de ahí una «heurística») para superar. Por esta razón, los estudios que involucran imágenes cerebrales tienen muestras mucho más pequeñas que los estudios de encuesta o economía del comportamiento en MTURK. La heurística suave es seleccionar una muestra del tamaño que típicamente se ve en la literatura del campo de estudio particular. En la mayoría de los campos, la mayoría de los artículos publicados informan resultados significativos, y en muchos campos, la mayoría de los estudios tienen poca potencia (Ioannidis, 2005).
¿Cómo sabemos si un estudio individual tiene poco poder si no hay una estimación a priori del tamaño del efecto? Nosotros no. Realizar un análisis de potencia después del hecho, suponiendo que el tamaño del efecto observado es el verdadero, solo justificará la importancia obtenida que probablemente ocurra. Podríamos realizar un análisis de curva P en muchos estudios (si están disponibles) para ver si hay resultados más significativos de los que esperaríamos dado el tamaño de efecto promedio. Si lo hay, entonces es probable que (muchos) más estudios se realizaran que los publicados. En otras palabras, el uso de la literatura-n heurística corre el riesgo de hacer que la no significativa sea probable, y la importancia, cuando ocurre, sospecha.
¿Qué es una población desde la teoría del muestreo?
Una muestra es algo concreto. Puede abrir un archivo de datos y están los datos de su muestra. Una población, por otro lado, es una idea más abstracta. Se refiere al conjunto de todas las personas posibles, o todas las observaciones posibles, sobre las que desea sacar conclusiones, y generalmente es mucho más grande que la muestra. En un mundo ideal, el investigador comenzaría el estudio con una idea clara de cuál es la población de interés, ya que el proceso de diseño de un estudio y pruebas de hipótesis sobre los datos que produce depende de la población sobre la cual desea hacer declaraciones. Sin embargo, eso no siempre sucede en la práctica: generalmente el investigador tiene una idea bastante vaga de lo que es la población y diseña el estudio lo mejor que puede sobre esa base.
A veces es fácil indicar la población de interés. Por ejemplo, en el ejemplo de «compañía de votación» que abrió el capítulo, la población consistió en todos los votantes inscritos en el momento del estudio: millones de personas. La muestra era un conjunto de 1000 personas que pertenecen a esa población. En la mayoría de las situaciones, la situación es mucho menos simple. En un experimento psicológico típico, determinar la población de interés es un poco más complicada. Supongamos que ejecuto un experimento usando 100 estudiantes de pregrado como mis participantes. Mi objetivo, como científico cognitivo, es tratar de aprender algo sobre cómo funciona la mente. Entonces, ¿cuál de los siguientes contaría como «la población»:
- ¿Todos los estudiantes de pregrado de psicología de la Universidad de Adelaida?
- Estudiantes de psicología de pregrado en general, ¿en cualquier parte del mundo?
- Australianos que viven actualmente?
- ¿Australianos de edades similares a mi muestra?
- ¿Alguien actualmente vivo?
- ¿Algún ser humano, pasado, presente o futuro?
- ¿Algún organismo biológico con un grado suficiente de inteligencia que opere en un entorno terrestre?
- ¿Algún ser inteligente?
Cada uno de estos define un grupo real de entidades de posesión mental, todas las cuales podrían ser de interés para mí como científico cognitivo, y no está en absoluto claro cuál debería ser la verdadera población de interés. Como otro ejemplo, considere el juego Wellesley-Croker que discutimos en el Preludio. La muestra aquí es una secuencia específica de 12 victorias y 0 pérdidas para Wellesley. ¿Cual es la población?
- ¿Todos los estudiantes de pregrado de psicología de la Universidad de Adelaida?
- Estudiantes de psicología de pregrado en general, ¿en cualquier parte del mundo?
- Australianos que viven actualmente?
- ¿Australianos de edades similares a mi muestra?
- ¿Alguien actualmente vivo?
- ¿Algún ser humano, pasado, presente o futuro?
- ¿Algún organismo biológico con un grado suficiente de inteligencia que opere en un entorno terrestre?
- ¿Algún ser inteligente?
Independientemente de cómo defino la población, el punto crítico es que la muestra es un subconjunto de la población, y nuestro objetivo es utilizar nuestro conocimiento de la muestra para generar inferencias sobre las propiedades de la población. La relación entre los dos depende del procedimiento por el cual se seleccionó la muestra. Este procedimiento se conoce como un método de muestreo, y es importante comprender por qué importa.
¿Cómo se le llama al estudio que se hace de una población por medio de muestras representativas que posee todas las características de una población?
«¿Es el representante del estudio?» Esta pregunta juega un papel importante para los representantes de los medios. Porque en el código de prensa del Consejo de Prensa alemán está anclado que en el caso de los resultados de la encuesta, siempre debe comunicarse si son representativos. Tomamos esto como una oportunidad y preguntamos a los expertos del TNS Infratest. Muchas gracias a Oliver Janßen por esta publicación de blog.
Suena como un sello científico de calidad para una encuesta y parece mucho más grave que «un buen estudio ha demostrado…». La representación crea confianza en los resultados y es con razón una demanda frecuentemente para la implementación de estudios. ¿Pero cuándo es un representante de estudio? Para anticiparlo y limpiarlo con un extenso juicio erróneo: ¡la representatividad en realidad no tiene nada que ver con la cantidad de entrevistas!… o tal vez un poco.
No existe una definición científica general de representatividad. Y mucho menos una regla que se determinaría claramente sobre la base de si un estudio es representativo. Sin embargo, es fácil determinar cuándo no lo es.
Un ejemplo simple: si quiero saber si la población alemana es más a favor o en contra de la introducción de una velocidad general en las carreteras, sería muy complejo preguntar a todos los alemanes. Entonces se selecciona un grupo que se entrevista para todos. Esta muestra está destinada a representar a la población alemana, es decir, la población. Los resultados de la encuesta permiten sacar conclusiones sobre la opinión de la población. Si solo los hombres son entrevistados, el resultado no es representativo, independientemente de si se entrevistó a 100 o 100,000 hombres. Si elegimos correctamente el 50 por ciento de hombres y el 50 por ciento de mujeres que vienen de Hamburgo, no poseen un automóvil y tienen entre 20 y 30 años, el resultado no sería representativo aquí, independientemente del tamaño de la muestra.
Artículos Relacionados:
