Está en la página 1de 75

ESTADÍSTICA

CÁTEDRA I
UNIDAD 5
Segunda Parte
Sobre una media cuando se conoce la desviación estándar
poblacional
Sobre una media cuando la desviación estándar poblacional es
desconocida
Sobre una proporción
Sobre la diferencia de medias de muestras independientes
Sobre la media de la diferencia de datos pareados
Sobre la Independencia de dos variables cualitativas

Pruebas (Tests) de Hipótesis:


Medias, Proporciones e
Independencia
Caps. 12 y 13
La lógica de todas las pruebas de hipótesis es la
misma. Ahora veremos los aspectos particulares de
algunas de ellas.
Lo que cambia es el estadístico de prueba y su
distribución de probabilidades bajo H0 dependiendo
de sobre qué parámetros se formulan las hipótesis, los
supuestos sobre las variables que intervienen, el
diseño de la experiencia y el tamaño de muestra.

Diversas Pruebas de
Hipótesis
X = Variable sobre cuya población de valores se realizarán las
inferencias.
Denotamos con m = E(X) y s = DS(X); esto es, respectivamente, la media
y la desviación estándar de la población de todos los valores de X.
Supuestos: Se necesitará suponer que X se distribuye normalmente
cuando el tamaño de muestra sea pequeño (típicamente n < 30) para que
se pueda conocer la distribución de probabilidades del estadístico de
prueba y hallar los valores críticos de la zona de rechazo o calcular el
valor p.
Hipótesis
H0: m = m0
H1: la que corresponda a cada problema (m < m0 , m > m0 o m  m0).
El estadístico de prueba es porque es el estimador del parámetro m sobre

Test sobre  cuando


el cual se están formulando las hipótesis.

 es conocida
La distribución de será exacta o aproximada dependiendo de los
supuestos sobre la distribución de X.
Si X es normal, es exactamente normal (  N).
Si no se especifica la distribución de X, se sabe por el Teorema Central
del Límite que es aproximadamente normal (  N) si n es suficientemente
grande (digamos n > 30).
Ya se han visto en las clases anteriores los parámetros de : la misma
media de X y la n - ésima parte de su varianza.
Resumiendo:
X  N(m,s)   N(m,)

X  ? (m,s) y n ≥ 30   N(m,) por el Teorema Central del Límite.


De modo que si el tamaño de muestra es pequeño y se desconoce la
distribución de X, también se desconoce la distribución de .

Distribución de
En cualquiera de los dos casos antedichos se utilizará
la distribución Normal del estadístico de prueba para
determinar la zona de rechazo o valor p.
 N(m0,)

Una manera alternativa de presentar el estadístico de


prueba es con la media estandarizada. Esto era lo
habitual cuando no se disponía de las aplicaciones;
aunque ya no es necesario, es común verlo aún en la
bibliografía:
 N(0,1)

Distribución de
bajo H0
Los puntajes en el Early Numeracy Test revised (ENT-
r) se distribuyen normalmente con una media de 19 y una
desviación estándar de 6 entre los niños españoles de 5
años. Se quiere verificar si estos baremos también
corresponden a los niños argentinos de la misma edad de
Sta. Fe. Para ello se toma una muestra aleatoria de 300
niños. La distribución de frecuencias observada permite
sostener el supuesto de que los datos provienen de una
distribución con la misma desviación estándar de la
población española. La media observada fue 19,4. ¿Puede
sostenerse con un nivel de significación del 10% que no
hay diferencias entre la media de los niños de la ciudad
de Sta. Fe y los españoles?

Ejemplo
RESOLUCIÓN
 
1) Mencionar la/s variable/s de interés en la población respecto de
la cual se desea hacer inferencia estadística y explicitar los
supuestos mínimos necesarios (si los hubiere) para llevar a cabo la
prueba.
X = Puntaje en el ENT-r de los niños de 5 años de la ciudad de Sta. Fe.
Supuesto:  = 6
2) Plantear las hipótesis por contrastar
H0: m = 19 No difieren en promedio de la población española.
H1: m  19 Difieren en promedio de la población española.
3) Elegir un nivel de significación
a = 0,10

Variable – Supuestos
Planteo de las Hipótesis
4) Indicar el estadístico de prueba adecuado y explicitar su distribución
bajo la hipótesis nula.

por el Teorema Central del Límite ya que la muestra es


suficientemente grande.

(
𝑋 ≈ 𝑁 19 ,
6
)
√ 3 00
= 𝑁 (19 ; 0,3464)

Bajo H0

Distribución del
Estadístico de Prueba
5) Determinar la zona de rechazo de H0 y establecer la regla de
decisión
Como la hipótesis alternativa postula que m  19, se
rechazaría H0 si la media muestral tomara valores
suficientemente inferiores a 19 o suficientemente superiores a
19; es decir es un test bilateral.
Por tanto, la Zona de rechazo, para un nivel de
significación de 0,10 está dada por todos los valores menores
que el percentil 5 o mayores que el percentil 95 de la
distribución normal con media 19 y desviación estándar
0,3464. Es decir, el nivel de significación 0,10 está repartido
en dos colas con la mitad de la probabilidad: 0,05. Los valores
críticos los obtenemos utilizando la aplicación, entrando dos
veces, una para cada percentil.
Test Bilateral
Zona de rechazo bilateral

Se rechazará H0 si y sólo si el valor observado de la media


muestral es inferior a 18,43022 o superior a 19,56978

Regla de Decisión
6) Calcular el valor observado del estadístico de prueba
  En este caso el valor observado de la media es un dato directo del
enunciado del problema; en la realidad cuando se trabaja con una base de
datos hay que calcular la media, usualmente lo hace el mismo programa.
  
7) Tomar la decisión

  Como 18,43022 <19,4 < 19,56978 no se rechaza H0 al 10%.

8) Dar una conclusión en términos del problema planteado


  Se concluye que no hay evidencias al 10% de que los niños de 5
años de la ciudad de Sta. Fe difieran de los de la población
española (la diferencia de 4 décimas que puntuaron por encima de
la media no es estadísticamente significativa).

Cálculo, Decisión y
Conclusión
Como el test es bilateral hay que considerar la
probabilidad de “la cola más corta” y multiplicarla por 2
para comparar con el nivel de significación que está
repartido en dos colas.
En este caso, como el valor observado (19,4) fue
mayor a la media bajo H0 (19), la “cola más corta” es la
probabilidad a derecha de 19,4.
Valor p = = 2x0,1241 = 0,2482
De haber tomado la decisión sobre la base del valor p
se habría dicho: “Como 0,2482 > 0,10 no se rechaza H0”.

Valor p
La desviación estándar poblacional, en la práctica, suele ser
desconocida como ocurre con todos los parámetros poblacionales.
Cuando se dice “ conocida”, generalmente debe entenderse en
alguno de estos dos sentidos:
1) Hay un supuesto sobre  que se ha probado previamente. En
nuestro ejemplo el supuesto fue que la desviación estándar de los
niños santafecinos era la misma que la de los españoles. Este
supuesto constituye a su vez una hipótesis estadística (H0:  = 6)
que puede ponerse a prueba y rechazarse o no según cómo sea la
desviación estándar muestral. Esa prueba no está dentro de los
temas de este curso.
2) Se le atribuye a  un valor que surge de estimaciones a partir
de datos preliminares, históricos, y no de la misma muestra que se
utilizará para inferir sobre .
Lo más común es realizar el test que se verá a continuación
con  desconocida.

¿ conocida?
Como el estadístico  N(m0 ,) bajo H0, si s es desconocida
faltaría información para hallar los puntos críticos o para
calcular el valor p. Entonces se necesita estimarla a través de la
desviación estándar S proveniente de la misma muestra que se
utiliza para estimar m. Es decir, que se utiliza la muestra para
estimar conjuntamente a m y a s. Pero esto agrega variabilidad
al estadístico que puede hacer modificar su distribución.
En este caso, sí se necesita estandarizar y estimar su error
estándar reemplazando s por S.

De modo que el estadístico que se utilizará es .

Test sobre  cuando


 es desconocida
Su distribución depende de si se supone o no que X es
normal y, según esto, del tamaño de muestra.
El denominador de se denomina error estándar del
estimador y en las salidas computacionales en inglés se
denota como SE (Standard Error) .
Si X es normal, el estadístico tiene distribución
exacta t de Student con n-1 grados de libertad y por eso
se lo denomina con t.

Distribución de
Este supuesto de normalidad de X se hace indispensable si la
muestra es pequeña (n < 30), ya que una muestra pequeña da
poca información y no sería posible conocer la distribución del
estadístico si no se conociera la de X. Si n es grande, aunque se
desconociera la distribución de X, el estadístico se distribuye de
manera aproximadamente normal estándar (Teorema de Slutzky).
Por otra parte, cuando n es grande la distribución t de
Student es similar a la normal y lleva prácticamente a los mismos
resultados. Por esa razón es que suele usarse la distribución t en
los softwares (t-test), sea por el supuesto de normalidad de la
variable X, sea porque cuando n es grande es similar a la normal.
Se prefiere evitar supuestos si no es imprescindible hacerlos.
Si se hacen, habría que chequearlos. El supuesto de normalidad
puede chequearse mediante un diagrama de tallo-hoja, de caja y
bigotes, y utilizando los índices de asimetría y curtosis, entre
otros modos.
Distribución de
Resumiendo

 tn-1 si X es Normal.
𝑋 − 𝜇0
𝑆
√𝑛  N(0,1) si n grande (n > 30).

Distribución de
Ver el artículo de Novo, M. et al (2019). Evaluación de los efectos
de un programa educativo en los problemas de salud mental en
padres separados. Psicothema 2019,31,3, 284-291.
Los investigadores compararon los puntajes del Brief Symptom
Inventory (BSI) de un grupo de padres separados que asistieron al
programa “Ruptura de pareja, no de familia” con las medias en el
grupo normativo. Tomaremos como ejemplo el total de síntomas
positivos (PST), para el que hemos simulado los datos. La hipótesis
implícita es que, en promedio, puntúan más alto que la media del
grupo normativo (11,45). Se evaluó con el BSI a 116 progenitores
participantes del programa.
Realizar el test de hipótesis correspondiente, al 1% de
significación, de modo manual y con Statistix. Calcule el valor p y el
tamaño del efecto.

Ejemplo
Los 116 datos se muestran a continuación y fueron cargados en Statistix.

4 23 19 16 21 10
42 20 17 29 16 15
6 29 18 14 1 21
13 5 20 7 23 34
21 21 10 30 34 23
19 16 11 42 19 27
42 28 12 50 8 24
15 34 29 28 31 22
31 26 41 19 24 11
53 26 6 18 24 23
21 29 23 45 17 25
39 12 14 46 35 25
18 27 28 13 20 21
31 2 35 14 42 30
5 3 15 4 20 22
22 46 23 27 47 14
26 38 51 34 35 22
31 28 6 27 49 40
38 9 28 16 38 34
15
16
1) X = Puntaje del total de síntomas positivos PST del BSI de los
padres separados que asisten al programa “Ruptura de pareja, no
de familia”.
2) H0: m = 11,45
H1: m > 11,45
3) a = 0,01
4) bajo H0 (por el Teorema de Slutzky, ya
que n es grande.
5) Como es un test unilateral a derecha, el valor crítico es el
percentil 99 de la distribución normal estándar (deja una
probabilidad 0,01 a derecha. Éste es: 2,32635. Luego, se rechaza
H0 si y sólo si el valor observado de Z (Zobs) supera a dicho valor.

Resolución Manual
6) Para el cálculo del Zobs hay que computar la media y la desviación
estándar de los 116 datos. Lo hacemos con Statistix.
. Estos valores se reemplazan en el estadístico y se obtiene:
= 11,1855
7) Como 11,1855 > 2,32635 se rechaza H0.
8) Se concluye que, en promedio, los padres que asisten al programa
puntúan más alto en PST que la población general.
El valor p es prácticamente nulo, ya que 11 es un valor que excede
en mucho los 3 desvíos estándar por encima de la media, donde se
acumula casi toda la probabilidad en una distribución normal.
Tamaño del Efecto
d de Cohen: = 1,04  Efecto grande. Hay una diferencia relevante
con respecto a la población normativa.

Resolución Manual
T – test con Statistix
1) X = Puntaje del total de síntomas positivos PST del BSI de los
padres separados que asisten al programa Ruptura de pareja, no de
familia.
2) H0: m = 11,45
H1: m > 11,45

3) a = 0,01

4) El programa utiliza la distribución t en lugar de la normal, dado


que cuando el tamaño de muestra es grande, son muy similares.
Entonces considera: bajo H0.

T – test con Statistix


5)

Media muestral Valor t observado Grados Valor p


observada: de
libertad
6) Como 0,0000 < 0,01 se rechaza H0.

7) Conclusión. Los progenitores que asisten al programa puntúan en promedio por


encima de la media del grupo normativo en PST.
Obsérvese que el valor p dio igual con la distribución normal (al hacerlo
manualmente) que con la distribución t.

T – test con Statistix


Los datos fueron simulados, inspirados en el artículo. A continuación se
muestran los resultados verdaderos de los T-test que los autores reportaron
para las distintas dimensiones del BSI. Se resalta la última línea,
correspondiente al PST.

Los Resultados
Reales
La probabilidad de que un suceso ocurra (éxito) modeliza la proporción de casos favorables
a ese suceso en la población.
Por ejemplo, si se elige un enfermero al azar del sistema de salud de CABA la probabilidad p
de que tenga el síndrome de Burnout corresponde a la proporción p de enfermeros de CABA
que tienen dicho síndrome. Un valor p = 0,15 indica, tanto que hay una probabilidad 0,15 de
que al elegir un enfermero al azar del sistema de salud de CABA tenga el síndrome de Burnout
como que 15 de cada 100 (15/100, en términos porcentuales 15%) de los enfermeros en dicha
población, tienen el síndrome.
Otro ejemplo más simple es si se extrae al azar una bolilla de un bolillero donde hay 6
bolillas rojas y 4 azules. La probabilidad de que salga una bolilla roja es p = 6/10 = 0,6, que
corresponde a la proporción de bolillas rojas en el bolillero.
Utilizamos la palabra “proporción” por su amplia difusión en la bibliografía estadística
aunque lo correcto sería decir “razón”, ya que proporción es una igualdad entre dos razones
(p. ej. 5/10 = 1/2; esa igualdad es una proporción mientras que 5/10 o 1/2 son razones).

Probabilidad de Éxito y
Proporción Poblacional p
Al ser la probabilidad una característica poblacional, es
un parámetro usualmente desconocido que se lo estima por la
correspondiente proporción muestral o frecuencia relativa
muestral. Es decir, se toma una muestra aleatoria de tamaño n,
se cuenta la cantidad de casos favorables al suceso en cuestión
y se lo divide por n.
Como todo estimador, es un estadístico; una variable
cuyos valores dependen de la muestra que salga sorteada. Se lo
denotará con (estimador de p).

Proporción Muestral o Frecuencia


Relativa como Estimador de p:
La proporción muestral se obtiene a partir de una variable Y que
cuenta la cantidad de veces que ocurre el suceso de interés en la
muestra de tamaño n. Es decir =
Esta variable Y tiene distribución binomial de parámetros (n, ).
donde n indica el número de ensayos y indica la probabilidad de
éxito de la variable Bernoulli subyacente a la variable Binomial Y,
coincide con la proporción de ocurrencia del suceso en la población.
De acuerdo con lo estudiado acerca de la variables con distribución
binomial, si Y ~ B (n; ) entonces E(Y) n y
DS(Y) .

Proporción Muestral
Su distribución.
Por tanto, para el estimador proporción muestral = , vale que
sus parámetros son :
E () y DS()
Para tamaños de muestras grandes, n  y para variables
binomiales aproximadamente simétricas, condiciones que pueden
sintetizarse como np 5 y n(1-) 5, se puede aproximar la distribución
binomial por la distribución normal con estos mismos parámetros,
es decir, que para la proporción muestral puede afirmarse que:
 ;)

Proporción Muestral
Su distribución.
Dicho de otra forma, el Teorema Central del Límite asegura que a
medida que n aumenta las probabilidades obtenidas según el modelo
binomial para la variable con sus parámetros más se asemejan a las
obtenidas según el modelo normal con esos mismos parámetros.

𝜎 ^
𝑃

𝜇^
𝑃
=𝑝Valores de
Es usual estandarizar al estimador ; ) según la transformación Z =
donde Z es ;) y reemplazando por la expresión de sus parámetros se
tiene: Z = que es la expresión de la distribución muestral de la
proporción estandarizada.

Proporción Muestral
Su distribución.
X = Variable Bernoulli sobre cuyo parámetro p se desea inferir.
Hipótesis
H0 : p = p 0
H1: la que corresponda a cada problema (p < p0 , p > p0 o p  p0).
El estadístico de prueba es porque es el estimador del parámetro p
sobre el cual se están formulando las hipótesis.
Su distribución aproximada, bajo H0 es, según se ha visto:
;)
Para que esta aproximación sea suficientemente buena se debe
verificar que n 5 y n(1-) 5. Utilizando esta distribución se procede
determinando la zona de rechazo o cálculo del valor p para tomar la
decisión como en cualquier otra prueba de hipótesis.

Test sobre
una Proporción p
En Rev. Hosp. Ital. B.Aires 2015; 35(1): 9-13, Bonavita, G. Et al.
reportan una proporción de 16,7 % de quinesiólogos del Hospital Italiano con
niveles altos agotamiento (puntajes mayores a 26 en el Maslach Burnout
Inventory-HSS). Afirman textualmente: La baja tasa de Síndrome de Burnout
(SBO) contrasta fuertemente con los resultados encontrados en
publicaciones internacionales, las cuales hallaron niveles de SBO intenso
hasta 5 veces superiores a las informadas en nuestra investigación.
El cuestionario fue respondido por una muestra de 60 kinesiólogos, 10 de
los cuales obtuvieron puntajes mayores a 26 en la escala de agotamiento
emocional.
Por otra parte, los baremos del Maslach Burnout Inventory-HSS en su
adaptación española de Granada indican un 35% de enfermeros de la
población española con puntaje superior a 26.
Con fines didácticos imaginaremos que esta muestra de 60 fue extraída
al azar de una población mucho mayor de quinesiólogos similares a los del
Hospital Italiano. Probar que la proporción de quinesiólogos con altos niveles
de SBO hallada en el estudio local es significativamente menor, con un nivel
del 1%, a la hallada entre enfermeros españoles. Calcular valor p y tamaño
del efecto.

Ejemplo
X = Condición de tener altos niveles de agotamiento emocional (1) o no
tenerlo (0) en quinesiólogos del Hospital Italiano y similares.
X B(p)
donde p representa la probabilidad o proporción local de quinesiólogos que
tienen altos niveles de agotamiento emocional según el Maslach Burnout
Inventory-HSS.
H0: p = 0,35 La proporción local es Igual a la de los enfermeros españoles.
H1: p < 0,35 La proporción local es menor a la de los enfermeros españoles.

a = 0,01
Verifiquemos las condiciones de simetría aproximada.
60x0,35 = 21 > 5 y 60x(1-0,35) = 39 > 5. Se cumplen, luego:
; ) = ; bajo H0.

Resolución Manual
Siendo una prueba unilateral a izquierda, buscamos el valor crítico
en la distribución normal con los parámetros indicados, que
corresponden al percentil 1 de la distribución (probabilidad 0,01 a
izquierda). Se obtiene así: 0,20674.
Se rechaza H0 si y sólo si en la muestra de 60 se observara un valor
de < 0,20674 (es decir, menos de un 20,67% de kinesiólogos con alto
agotamiento emocional).
= 10/60  0,1667
Como 0,1667 < 0,20674 se rechaza H0.
Se concluye que la proporción observada es significativamente
menor a la de los baremos españoles.
El valor p = P( < 0,1667 / p = 0,35) = 0,00146
Tamaño del efecto
 Efecto mediano.

Resolución Manual
Test sobre una
Proporción con Statistix
Test sobre la proporción de
una población utilizando una
sola muestra.

Datos: Tamaño de muestra


Cantidad de éxitos en la
muestra.

Valor de la proporción postulado


en H0. En este problema es 0,35.

Relación postulada en la
alternativa. En este caso “<“.
Nivel de confianza de la
estimación por intervalos.

Test sobre una


Proporción con Statistix
Valor p corregido y sin corregir.
El corregido alude a un
mejoramiento en la
aproximación de la binomial
por la normal, llamada
corrección por continuidad,
que no vemos en este curso.
Por eso, manualmente hemos
calculado sin corregir.
En cualquiera de los dos
casos se rechaza H0 por ser
inferior a 0,01.

Test sobre una


Proporción con Statistix
Es uno de los más usados para comparar dos grupos; por
ejemplo un grupo control con otro experimental.
Cuando se comparan dos grupos que representan dos
poblaciones a través de una variable cuantitativa como, por
ejemplo, el puntaje en un test, y se toma como resumen de
los mismos las medias; entonces se comparan ambas medias
muestrales como representantes de sus correspondientes
medias poblacionales y de allí se concluye si hubo un efecto
del tratamiento, si las poblaciones difieren o no, o en qué
sentido lo hacen.

Test sobre una Diferencia de


Medias para Muestras
Independientes
X1= Valores de la variable en la Población 1
X2= Valores de la variable en la Población 2

X1 X2
1 2
1 ? 2
Interesa conocer la rela
ción

1
2
1
2
1
2

n1 y n2 = Tamaños de muestra.
s1 y s2 = Desviaciones Estándar
de las muestras. Comparación de dos
Poblaciones
Las poblaciones se comparan a través de la diferencia de sus medias
1-2 que se estiman con 1 - 2.
X1 X2
1 2
1 ? 2

e
obr
re s
1

e
Infi
2
1
2
1
2

Comparación de dos
Poblaciones
X1 = Valores de la variable en la Población 1
X2 = Valores de la variable en la Población 2

Supuestos: Si n1 y n2 son pequeños se necesita el supuesto de normalidad


de las variables X1 y X2.
X1 y X2 son independientes.
Si 1 y2 son desconocidos, se hace una prueba de hipótesis para
decidir si son o no iguales y se procede acorde.

H0: m1 = m2  m1 - m2 = 0  m2 – m1 = 0
H1: la que corresponda al problema: m1 < m2 , m1 > m2 o m1  m2
equivalentemente a m1-m2<0, m1-m2>0 o m1-m2  0
Test sobre una Diferencia de
Medias para Muestras
Independientes
El estadístico de prueba es la diferencia de medias
muestrales (en el mismo sentido en que se haya planteado la
diferencia en las hipótesis) estandarizada bajo H0. Se divide la
diferencia de las medias muestrales por el error estándar
(desviación estándar) de dicha diferencia:
será de una manera u otra según se sostenga o no el
supuesto de igualdad de varianzas. No lo explicitaremos según el
caso ni detallaremos su deducción porque resolveremos esta
prueba de hipótesis con Statistix y analizaremos la salida
computacional.
El valor de la diferencia de parámetros postulado
Estadístico en H0. Típicamente ese valor es cero (no hay
diferencia entre las poblaciones. Pero también
podrían plantearse otras situaciones en H0. En
este curso sólo abordaremos H0: m1 - m2 = 0

Estadístico
La distribución del estadístico depende de los supuestos y
tamaños de muestra.
Hay una variedad de situaciones que no contemplaremos en este
curso. Nos remitiremos a lo más común, que es el test t a través de
un software. Los grados de libertad también dependen de cada
situación.
Si los tamaños de muestra son pequeños, se necesita el supuesto
de normalidad y en entonces habría que chequearlo.
Resumiendo, utilizaremos que

Estadístico
 tn donde los grados de libertad n dependen de los supuestos y
tamaños muestrales que no detallaremos aquí.

Distribución del Estadístico


Se administró la escala del Síndrome de Dependencia de la
Nicotina (NDSS) en una muestra de 41 fumadores que
demandaron tratamiento para dejar de fumar en una Unidad de
Tabaquismo de la Universidad de Santiago de Compostela, entre
marzo de 2007 y noviembre de 2008. También se les administró
el Cuestionario de Screening de Episodios de Depresión Mayor
(MDE; Muñoz, 1998) y se los clasificó en aquellos que habían
tenido algún episodio en el pasado (16) y los que no (25). Los
puntajes (ficticios) en el NDSS para cada grupo fueron cargados
en la base de Sx. Probar que el promedio obtenido para el grupo
que respondió haber tenido episodios de depresión es
significativamente mayor que para el resto. Utilizar un nivel de
significación del 5%. Calcular el tamaño del efecto.

Ejemplo
Inspirado en Becoña et al (2009). La escala del Síndrome de
Dependencia de la Nicotina (NDSS) en una muestra de fumadores que
demandan tratamiento para dejar de fumar. Psicothema 21,4,579-584
X1 = Puntaje en la escala NDSS de los fumadores que tuvieron algún episodio
de depresión.
X2 = Puntaje en la escala NDSS de los fumadores que no tuvieron episodios de
depresión.
Ambos casos están referidos a quienes solicitaron tratamiento en la unidad
de tabaquismo de Santiago de Compostela entre marzo de 2007 y noviembre
de 2008.
Supuestos: Como las muestras son pequeñas se necesita el supuesto de
normalidad de X1 y X2: X1  N(m1 , s1) y X2  N(m2 , s2).

H0: m1 = m2 ⇔ m1 – m2 = 0

H1: m1 > m2 ⇔ m1 – m2 > 0

a = 0,05

t =  tn bajo H0.

Planteo
Datos
Selección
En este problema la
diferencia se contrasta
contra cero.

Diferencia mayor
que cero, acorde
con la alternativa
planteada.

Especificaciones
Para concluir sobre la
media, se mira esta línea
porque se rechazó la
igualdad de varianzas; si
2 no, se miraría la de arriba.

Mirar primero para


1 decidir si se sostiene o
se rechaza al 10% el
supuesto de s1 = s2 .

Salida
La tabla presenta las medias, desvíos estándar y errores
estándar de cada muestra y la diferencia entre la mismas.
Luego se hallan los resultados para la prueba de hipótesis sobre
la diferencia de medias bajo el supuesto de que las varianzas
poblacionales sean iguales y también bajo el supuesto de que sean
diferentes; es decir, se contemplan las dos posibilidades.
La salida proporciona abajo el test de hipótesis sobre la
igualdad de varianzas (H0: 1 = 2). Si no se rechaza la H0, entonces
hay que remitirse al test de “Equal Variances” para decidir sobre
las medias; de lo contrario a la línea de abajo “Unequal
Variances”. Para la prueba de hipótesis sobre igualdad de
varianzas se sugiere considerar un nivel de significación de 0,10
porque, en caso de no rechazarse H0, se tendría mayor potencia.

Descripción de la Salida
Como 0,0020 < 0,10 se rechaza la igualdad de varianzas.
Por tanto, vamos a ver el test sobre la diferencia de medias
en la línea “Unequal Variances”.
Como el valor p = 0,0185 < 0,05 se rechaza la igualdad de
las medias en pos de la alternativa que postulaba que la
media en la población de los que habían tenido algún
episodio depresivo era mayor que en la otra población.
Conclusión: la media del puntaje en la escala NDSS que
se observó en los fumadores que dijeron haber tenido un
episodio de depresión mayor fue significativamente mayor
que en el otro grupo.

Resolución
|𝑥 1 − 𝑥2|
𝑔=


2 2
( 𝑛1 − 1 ) 𝑠1 +(𝑛 2 −1) 𝑠 2
𝑛 1+𝑛 2 − 2
Reemplazamos en la fórmula buscando los componentes en la salida

s1
s2

𝑥1 − 𝑥 2
4,8250
𝑔= = 0,6


2 2
( 16 − 1 ) 4,5295 +( 25 − 1) 9,5917
16 +25 − 2

Es un tamaño de efecto mediano.

Tamaño del Efecto


Como las muestras eran pequeñas, se necesitó suponer la
normalidad de las variables. El aspecto más importante es la
simetría. Los tests de hipótesis resisten apartamientos
moderados del supuesto de normalidad; se dice que son
“robustos” a la falta de normalidad pero al menos se
necesita que la distribución no sea demasiado asimétrica.
Para chequear este supuesto pueden utilizarse medidas
descriptivas como los índices de asimetría y curtosis, los
diagramas de tallo-hoja y de caja y bigotes. También existen
tests de hipótesis sobre la normalidad.
En este ejercicio utilizaremos los diagramas de caja y las
medidas descriptivas.

Chequeo de Supuestos
Los diagramas de caja muestran bastante simetría. También los índices de
asimetría (skew), aunque las distribuciones de los datos muestrales son más
“chatas” que la normal (menos cúrticas). Sin embargo no se rechaza que los datos
pudieran venir de una población normal (o aproximadamente normal); es decir no
se invalidan los resultados del test de hipótesis.

Chequeo de Supuestos
Los autores trabajaron con una muestra de 241 fumadores
pero no indicaron cuántos correspondían a cada grupo.
Informaron textualmente (pág.582):

En relación a haber padecido depresión en el último año, los


que contestan positivamente tienen una puntuación
significativamente superior en las escalas NDSS-T (45.11
frente a 39.23, t= 3.164, p<.01) (…) En relación a haber
padecido depresión alguna vez en la vida ocurre algo
semejante, con mayores puntuaciones los que contestan
afirmativamente en las escalas NDSS-T (42.16 frente a
37.71)

Los Resultados Reales


Son pares de valores que corresponden a dos variables
medidas sobre cada individuo. Cada individuo aporta un par
de observaciones.
Hemos visto ejemplos de datos pareados al presentar el
coeficiente de correlación lineal r de Pearson o al clasificar
en una tabla de contingencia a un mismo individuo según
dos criterios de clasificación (p. ej. nivel de ansiedad y de
estrés).
Un ejemplo típico de datos pareados es el de los
puntajes de sujetos antes y después de cierta intervención.

Datos Pareados
Se analiza el efecto que tiene la Terapia de activación conductal como
tratamiento de ansiedad y depresión en supervivientes de cáncer. Para ello
se consideran los puntajes en la HADS-A: Anxiety subscale of HADS (Hospital
Anxiety and Depression Scale) antes (Pre) y después (Post) de recibir la
terapia.
X1= Puntaje Pre X2= Puntaje Post
11
12 7
9
10
14 12 16
m1 18 m2
10 11
20
16 18
16 10
9
15 13 7

Ejemplo
Basado en González F. et al (2018) Treating anxiety and depression of cancer
survivors: Behavioral activation versus acceptance and commitment therapy.
Psicothema, 30,1,14-20
El primer óvalo de la ilustración representa la población de
individuos sobre los que se desea realizar inferencias. En este
ejemplo se trata de supervivientes de cáncer de cierta localidad de
España. A cada uno de ellos “le correspondería” un puntaje antes y
otro después de la terapia “si la hicieran” y si fueran medidos. Es
decir, no toda la población fue medida pero, potencialmente, cada
uno tiene un par de valores. Con siluetas en negro y flechas
punteadas representamos a los individuos de la población que no
participaron de la experiencia y con color y flechas de trazo entero a
quienes participaron de la experiencia, los que constituyen “la
muestra”.
Los otros óvalos representan las poblaciones hipotéticas de los
puntajes de ansiedad pre y post terapia sobre cuya diferencia se
desea inferir a partir de la muestra correspondiente.

Población y Muestra
de Datos Pareados
Estas poblaciones son las que se desea comparar a través
de sus medias, los valores de
X1 = Puntaje pre terapia.
X2 = Puntaje post terapia.
Lo que se espera es que, si la terapia es efectiva, los
puntajes en ansiedad disminuyan después de la terapia. La
hipótesis alternativa es m1 – m2 > 0.
Se trata, entonces, de una prueba sobre la diferencia de
medias pero que provienen de datos pareados, no como el caso
anterior, donde las poblaciones eran independientes.
El modo en que se procede es generar una única población
restando dichos valores pareados y considerar la media de esas
diferencias: m1 – m2 = mD donde D = X1 – X2 .
La hipótesis queda reformulada así: mD > 0

Comparación de Datos
Cada persona de la población (haya o no participado de la experiencia) tiene
asignada una diferencia (medida o potencialmente medida) en la población
de diferencias. Interesa saber si, en promedio, esas diferencias son nulas o no
(según las hipótesis de interés).
X2 D=X1-X2
X 1
11 7
12 9 4
10 16 3
14 12 2
18 12
m 1 - m2 mD
10 11 -1
20 18
16 0
16
9 7 10 5
2
13
15

Población de Diferencias
Generada la población de diferencias, el problema se reduce al caso ya
visto de probar una hipótesis sobre una media ( mD) con desviación estándar
desconocida y estimada por SD.
Variable D = X1 - X 2
Supuesto D  N(mD,D)

Hipótesis H0: mD= m0 vs H1: mD < m0 , mD > m0 o mD  m0


Estadístico t tn-1 bajo H0
Cálculo del valor observado del Estadístico.
Se restan los valores de los pares observados (siempre en el mismo
sentido) y con la muestra de las diferencias se procede a calcular la media
y la desviación estándar.

t-Test para la Media de la


Diferencia de Datos Pareados
En el contexto de un estudio para analizar el efecto que tiene
la Terapia de activación conductual como tratamiento de
ansiedad y depresión en supervivientes de cáncer se administró la
Anxiety subscale of HADS a una muestra de 17 personas elegidas
aleatoriamente entre las que se curaron de algún tipo de cáncer
en cierta localidad española. Respondieron el HADS antes y
después de recibir la terapia. Los resultados fueron cargados en la
base Sx. A partir de los mismos, pruebe con un nivel del 1% que la
terapia es efectiva para bajar la ansiedad. Realice el
procedimiento manualmente y verifique los resultados con la
salida de un software.
Ejemplo
X1 = Puntaje que tendrían las personas curadas de cáncer si
respondieran a la HADS antes de recibir la terapia.
X2 = Puntaje que tendrían las personas curadas de cáncer si
respondieran a la HADS después de recibir la terapia.
D = X1 - X2
Supuesto D  N(mD,D)
Hipótesis H0: mD= 0 vs H1: mD > 0
Estadístico t t17-1 bajo H0
Cálculo del valor observado del Estadístico.
Utilizaremos el Statistix para ayudarnos a calcular la media y
la desviación estándar de las diferencias (puede usarse EXCEL o
cualquier otra aplicación).
Planteo
Cómputo
tobs
Valor p = P(t16 > 4,5367 / mD= 0) = 0,00017

Como 0,00017 < 0,01 se rechaza H0.

Tamaño del Efecto


 Efecto alto

Conclusión: La terapia de activación conductual es


efectiva para disminuir la ansiedad en personas curadas
de algún tipo de cáncer.

Resolución
t – Test con Statistix
Los valores resaltados coinciden con los hallados en la resolución anterior.

t – Test con Statistix


Para estudiar la independencia entre dos variables
cualitativas se dispone de una muestra de datos en una tabla de
contingencia. Las frecuencias relativas conjuntas estiman las
correspondientes probabilidades poblacionales.
Ya se ha visto el modo de calcular el coeficiente c2 a partir de
las discrepancias entre las frecuencias conjuntas observadas y las
teóricas bajo la hipótesis de independencia.
Las hipótesis en este caso no son sobre parámetros sino sobre
las distribuciones de probabilidades (estimadas por las
frecuencias relativas observadas). Bajo la hipótesis de
independencia, las probabilidades conjuntas son el producto de
las marginales. En símbolos:
H0 : pXY = pX pY  X e Y son independientes.
H1 : pXY  pX pY  X e Y están asociadas.

Test de Independencia
El estadístico es

Donde los grados de libertad  = (nf-1)x(nc-1)

La hipótesis de independencia se mantendrá si el valor observado


de está suficientemente cerca de cero; es decir, si hay poca
discrepancia entre las frecuencias conjuntas observadas y las que se
habrían de observar si las variables fueran independientes. Pero si su
valor excede determinado valor crítico (poco probable), se rechazará
la hipótesis de independencia. Por tanto el test de Independencia es
unilateral a derecha.

Test de Independencia
Se rechaza H0 si y sólo si
obs > C

Regla de Decisión
Retomando el ejemplo de la diapositiva 3 de la Clase 6,
donde se estudiaba si la etapa vital del paciente estaba
asociada a su decisión de incluir o no a su familia en el
tratamiento. Realizar la prueba de hipótesis utilizando Sx.
Inclusión de la familia
(consecuente)

Etapa vital del Sí No Totales


paciente
(antecedente)
Niñez 17 8 25

Adolescencia 5 15 20

Adultez 5 35 40

Vejez 13 2 15

Totales 40 60
Ejemplo
100
Chi Square Test
Como el valor p  0 se rechaza H0 (la
independencia) para cualquier nivel de
significación.
Conclusión: La decisión del terapeuta de incluir o no a la familia está
asociada a la etapa evolutiva del paciente.

Chi Square Test


Cuando se concluye que hay asociación es de interés
analizar en qué consiste la misma. Para ello es útil examinar
cómo resultaron las frecuencias observadas en relación a las
teóricas.
Vemos que dentro de la columna correspondiente al Sí
(inclusión) en el caso de los niños y de los ancianos fue más
frecuente el incluir a la familia que lo que se habría
esperado si fueran independientes mientras que en los
adolescentes y adultos se dio lo contrario.
Por tanto puede decirse que hay una tendencia a que el
terapeuta incluya a la familia si el paciente es niño o anciano
más que si es adolescente o adulto.

AMDG Análisis

También podría gustarte