Está en la página 1de 8

Unidad 3: comparación de grupos

Hasta ahora habíamos buscado RELACIONES entre variables, pero ahora vamos a buscar
DIFERENCIAS entre grupos.
Queremos conocer si existen diferencias entre grupos respecto de la variable A, B, etc. 
estudio cómo se comporta una variable en distintos grupos y lo comparo.

Cada sujeto va a tener una diferencia diferente, por lo tanto, debo obtener una media de cada
diferencia (diferencia promedio).

- Error estándar: muestral


- Desvió estándar: poblacional.

EJEMPLO:

 Hipótesis nula: Media poblacional (Mu) = 0


 Hipótesis alternativa: Media poblacional (Mu) ≠ 0  no digo ni mayor ni menor
porque me interesan ambas colas.

Luego, obtuve como resultados:

o Media de X: 6,7
o Error estándar: 26,3
o Desvió estándar: 1,75
o N: 225
o Mínimo: -67
o Máximo: 78

Ahora tengo que ver si esta media de 6,7 es distinta o igual a lo que ocurre en la población
general  necesito saber la relación que hay entre lo que encontré y la vida real. Esto lo
puedo hacer de una manera: hay que imaginar que la H0 es verdadera, por lo tanto, la Mu es
0, y la Mx es 6,7

ESTADISTICO Z:
La media que yo encontré (6,7) – la media poblacional (0) / el desvío estándar (1,75) = 3,82 –>
Z.

Z es un estadístico con distribución normal, es decir, todos los puntos de Z se distribuyen bajo
la curva. El puntaje Z tiene media 0 y desvío estándar 1.
Si tengo una muestra grande (+30), por teorema central de limite puedo asumir la distribución
normal y puedo usar el TEST Z.
El numero que me da el estadístico de Z lo comparo con la curva que tiene distribución normal
y lo estandarizo y lo llevo a la curva tabulada (con media 0 y desvío estándar 1)  así calculo
cual es la probabilidad de encontrar lo que encontré.

- Si el p-valor te da cercano a 0, rechazo la H0 y mas coinciden los datos con la H1.


- El p-valor lo tengo porque la curva Z esta estudiada con todas las probabilidades, esta
tabulado.

Por lo tanto, en el SPSS cuando pido el Test Z se me estandariza todo y obtengo el p-valor.
ELEMENTOS BASICOS DE UN TEST DE HIPOTESIS:
Son: test para muestras grandes (test Z), test T de student, métodos para evaluar la
normalidad.

 Hipótesis: nula y alternativa.


 P-valor: peso de la evidencia acerca de la H0. Menos valor de p, mayor evidencia en
contra de H0. Probabilidad de encontrar lo que yo encontré si la H0 es verdadera.
 Estadístico del test: compara el valor de la estimación muestral del parámetro con el
valor propuesto por H0. Debe tener distribución exacta o aproximada.
 Reporte: la conclusión del test se reporta acompañada del p-valor.

Siempre suponen aleatoridad en la eleccion de la muestra.

TEST Z:
Test para muestras grandes.

>> Elementos del Test:

1) Supuestos:
 El tamaño de muestra debe ser lo suficientemente grande (N mayor que 30).
 La muestra debe haber sido seleccionada en forma aleatoria, por lo que las
observaciones son independientes y con idéntica distribución. Es decir, el método
de muestreo debe ser siempre aleatorio.

2) Hipótesis:
 La hipótesis nula tiene la forma H0: μ = μ0 (donde μ0 es algún valor propuesto por
el investigador).
 La hipótesis alternativa puede ser cualquiera de las siguientes:
a) H1 = μ < μ
b) H1 = μ > μ
c) H1 = μ ≠ μ

3) Estadístico del Test: compara el valor de la estimación muestral del parámetro con el
valor propuesto por H0. Debe tener distribución exacta o aproximada.

4) Cálculo del p-valor: es el peso de la evidencia acerca de H0. Menos valor de p, mayor
evidencia en contra de H0.
 H1 = μ < μ; p = P (Z ≤ Zobs)
 H1 = μ > μ; p = P (Z ³ Z obs )
 H1 = μ ≠ μ; p = P (Z ³ |Z obs|)

5) Conclusión del test: Para un test de nivel de significación a, rechazamos H0 si p < a.


Siempre se reporta acompañada del p-valor.
TEST T DE STUDENT

Tanto el intervalo de confianza como el Test Z son válidos cuando la muestra es grande y
asegura que:

- La distribución de muestreo de la media de X es aproximadamente normal.


- La desviación estándar muestral estará cerca de la desviación estándar de la población
(cuyo desvío exacto desconocemos).

Son muchas las investigaciones en los que el número de observaciones es pequeño. Esto
ocurre debido al costo o al tiempo necesarios para obtener los datos  Gosset propuso una
distribución para muestras pequeñas (menos de 30 casos) que se llamó Distribución t de
Student.
Cuando tengo menos caso, se me agrupan muy cerca de lo que s promedio, entonces todos los
matices que hacen gordita a la curva no están, por lo que la curva se transforma a distribución
t: acampanada, simetría, pero mas alta, ya que agrupa más cosas entorno a la media y tiene
mas error (acumula mas casos en las colas, la cola de normalidad solo acumula 5%).

El test T esta tabulado, y nos permite comparar.

>> Características de la distribución T de Student:

- Forma: simétrica y acampanada centrada en cero.


- Parámetro: grados de libertad (df), se determina en (n – 1). Siempre es uno menos que
la cantidad de sujetos. Es el movimiento que tengo para hacer inferencias. Cuando
aumentan los df, aumenta la altura de la curva.
 Por ej.: si yo tengo 17 sujetos, tengo 16 grados de libertad.
- Media: o
- Dispersión: depende de los grados de libertad. Cuando los df aumentan, la dispersión
tiene a 1, es decir, a ser la distribución de la curva de normalidad.

>> Elementos del Test T:

1) Supuestos:
 La variable tiene distribución normal, media µ y varianza o^2
 Debe ser una muestra aleatoria de n observaciones.

2) Hipótesis:
 La hipótesis nula tiene la forma H0: μ = μ0 (donde μ0 es algún valor propuesto
por el investigador)  es decir, va a decir que no hay diferencia entre las
medias, que son iguales (a=b) y no hay efectos.
 La hipótesis alternativa puede ser cualquiera de las siguientes: es igual al test
Z, va a decir que las medias son distintas, mayores, o menores.
a) H1 = μ < μ
b) H1 = μ > μ
c) H1 = μ ≠ μ

3) Estadístico del Test:

4) Cálculo del p-valor:


 H1 = μ < μ; p = P( T ≤ Tobs)
 H1 = μ > μ; p = P( T ³ Tobs)
 H1 = μ ≠ μ; p = P( T ³ |T obs|)

5) Conclusión del test: para un test de nivel de significación a, rechazamos H0 si p < a.

El cálculo del estadístico es idéntico al del test para muestras grandes debido a que estamos
suponiendo que es una variable con distribución normal. Pero tienen diferente distribución
porque considera a los grados de libertad en su distribución debido a que la cantidad de
observaciones no permite inferir que la media muestral se distribuye normalmente. Vale decir
entonces, que cualquiera sea el tamaño de la muestra, es estadístico tiene distribución t de
Student.

 Cualquiera sea el tamaño de la muestra, siempre puedo usar el test T de Student ya


que esta construido bajo el mismo estadístico que muestras grandes. Solo considera
los grados de libertad.
 La distribución se iguala cuando hablamos de varios sujetos.

EVALUACION DEL SUPUESTO DE NORMALIDAD:


Tenemos al menos dos estrategias razonables para suponer que en la población de la cual
proviene la muestra, la variable de interés tiene distribución normal:

Métodos gráficos: Box plot e Histograma. También existe otro tipo de gráficos como el
de tallo-hojas y el Q-Q plot que es el gráfico de probabilidad normal.
Métodos analíticos: Son tests de hipótesis cuya hipótesis nula es, justamente, la
normalidad de los datos. Por eso, interesa un p-valor grande ya que si rechazamos la
hipótesis nula no podemos estar seguros de que la distribución de la variable sea
normal. Tenemos el Test de Shapiro-Wilk y Kolmogorov-Smirnov, entre otros.
 Test de Shapiro-Wilk: es un test de hipótesis particular, porque la H0 dice que la
distribución de los datos es normal, mientras que la H1 dice que la distribución no
es normal. Me interesa encontrar un p-valor grande, porque no quiero rechazar la
H0, sino aceptarla

Solo debo testear la normalidad cuando tengo 30 sujetos, si tengo mas de 30 no necesito
chequear la normalidad debido al Teorema Central del Límite.

>> Comentarios sobre la validez de supuestos:

- El método es robusto: me va a permitir hacer inferencias adecuadas aun cuando no


cumpla con los supuestos y aplique el test T. Es decir, si se comporta adecuadamente
aun cuando algún supuesto sea violado.
Un método estadístico es robusto si se comporta adecuadamente aún cuando algún
supuesto sea violado. El estudio de la robustez de los métodos estadísticos es
importante ya que rara vez todos los supuestos del método de cumplirán
perfectamente.
- Test T a dos colas: robustez frente a la violación de normalidad especialmente si N es
mayor que 15.
- Frente a distribución muy asimétrica: el test unilateral puede dar valores incorrectos.
Cuando la distribución es muy asimétrica, el Test T unilateral puede dar valores
incorrectos llevando a la interpretación errónea de los datos. La presencia de outliers
en una dirección suele ser evidencia de asimetría fuerte.
- Conclusión: las conclusiones del test T no es robusta frente a la violación del supuesto
de aleatoriedad en la selección de la muestra. Si este supuesto no se cumple, no
podemos decir nada acerca de la distribución de muestreo del estadístico, sobre la
cual se construye toda la inferencia
ALTERNATIVAS NO PARAMÉTRICAS
Son menos precisas, por eso es ideal usar métodos paramétricos. Se usa cuando tenes valores
que no están tabulados, es decir, datos categóricos que no se conocen.
Las variables continuas nos dan más probabilidad de usar métodos paramétricos y tener mayor
precisión en el nivel de inferencia que hacemos.
Se usan cuando no hay normalidad y menos de 30 casos.

>> Test del signo:


Tiene una distribución binomial y básicamente busca que tan distinto es un lado y el otro de la
mediana.
Permite decidir si el parámetro de centralidad de la población de la cual proviene la muestra
coincide o no con cierto valor, pero no hace supuestos sobre la distribución de los datos.

>> Test de rangos asignados de Wilcoxon:


Testea las mismas hipótesis que el Test del Signo, pero tiene en cuenta la magnitud de las
observaciones. Define el rango de cada observación como la posición que ocupa en la muestra
ordenada de menor a mayor.

MUESTRA APAREADA
En la muestra tengo un sujeto, y en otra muestra tengo a un sujeto totalmente análogo (por
ej., misma altura, misma edad, mismo sexo). Hay dos grupos con características iguales.

MUESTRAS INDEPENDIENTES
Muestras aleatorias, que se seleccionan independientemente de cualquier tipo de
característica. Se seleccionan a partir de una población seleccionada como objetivo, pero la
elección es totalmente aleatoria, no están filtradas por características.

MEDIDAS CENTRALES:
Media, moda, mediana.

- Media: el promedio de los datos.


- Moda-modo: es el valor de una variable que aparece mas veces en el conjunto de los
datos.
- Mediana: es el valor medio de un conjunto de datos que se ordena de menor a mayor.

__

TESTS PARA DOS MUESTRAS

Mediante estos tests podremos decidir si la diferencia observada en las medias muestrales es
suficientemente grande como para ser atribuida al azar. Un test de hipótesis para dos
muestras es similar en muchos aspectos al test para una muestra.

 Especificamos la hipótesis nula que propone que las medias de las dos poblaciones
son iguales y establecemos si estamos interesados en la hipótesis alternativa uni o
bilateral.
 Ej.: H0 no hay diferencia entre mujeres y hombres en cuando al trato medico // H1
hay una diferencia entre la cantidad de analgésicos entregados a hombres y
mujeres.
 Especificamos un nivel de significación a (alfa), es decir, especificamos el nivel de
significación del test. Por ejemplo, si yo quiero trabajar con el 95% de confianza, tengo
que trabajar con el 0,05 de significación.
 Calculamos p-valor. Me va a decir hasta que punto la diferencia que yo encuentro es
debida al azar o a la intervención.
 En cuanto a la conclusión, si el p-valor es chico rechazamos H0 y concluimos que las
medias de las dos poblaciones son diferentes. Si p-valor es mayor no rechazamos la H0
y no pude juntar evidencia a favor de mi hipótesis.

Interesa, en estos casos, decidir si los datos provienen de muestras apareadas o


independientes.

Test para datos apareados: Test para dos muestras independientes:


Para cada observación del primer grupo hay Comparación de dos muestras aleatorias que
una observación relacionada en el segundo provienen, cada una, de una población
grupo. distinta.
Puede ser el mismo sujeto en dos momentos Si tenemos dos conjuntos de observaciones
diferentes o literalmente, dos grupos independientes, una forma natural de
distintos en los que se buscaron sujetos compara las medias de las dos poblaciones
apareados para determinadas condiciones. es estimar la diferencia de las medias �+ −
El hecho de que los grupos estén apareados, �) (parámetro) con el estadístico X – Y.
reduce el problema de la comparación al
planteo de una muestra única en la cual la Si tomásemos muchas muestras de la
variable de interés es la diferencia entre las población 1 y de la población 2 (te tamaño
observaciones del par. n1 y n2), podríamos construir la distribución
del estadístico X – Y.
 Dependiendo de la distribución de
los datos y del tamaño de las Para establecer la comparación, necesitamos
muestras, podremos usar el Test T, un estadístico con distribución conocida
el Test de la mediana, el Test de basado en X – Y. Como en el caso anterior,
Wilcoxon o el Test para muestras vamos a considerar diferentes situaciones:
grandes (Test Z).
 n1 y n2 son grandes.
Algo importante a tener en cuenta es que la  X e Y distribuidas normalmente y
evaluación de los supuestos no debe hacerse con la misma varianza.
sobre cada grupo en forma individual, sino  X e Y distribuidas normalmente,
sobre la variable DIFERENCIA. Entendiéndola pero con distinta varianza.
como la diferencia entre el valor de la media  X e Y no normales y n1 ó n2
de la variable en un grupo y el del segundo pequeños.
grupo.

Si tenemos muestras grandes (más de 30) tenemos la ventaja del Teorema Central del Limite
 ahora el TCL va a decir que la distribución de la diferencia de las medias muestrales es
normal.
El desvío estándar va a ser en este caso la diferencia entre el desvío de A y el desvío de B (A=5
y B=3  desvío = 2).

>> Puntaje Z:
Cuando n1 y n2 son lo suficientemente grandes, podemos basarnos en el estadístico Z.

También podría gustarte