Documentos de Académico
Documentos de Profesional
Documentos de Cultura
paramétricas y no paramétricas
Dos
nominales Dos ordinales Dos de intervalo / razón Una nominal /ordinal
V. Cualitativa V. Cuantitativa y una de razón
G. independientes Grupos relacionados
Rho de Correlación
Spearman Pearson
Prueba t
Chi cuadrado Más de 2 regresión
de una 2 grupos
(bondad Chi grupos
media
ajuste) cuadrado
Prueba Prueba Q
McNemar Cochran
Dos
Más de dos Más de dos
Dos grupos grupos
grupos grupos
independientes relacionad
independientes relacionados
os
Se cumplen Se cumplen
Se cumplen los No se cumplen Se cumplen los No se cumplen No se cumplen No se cumplen
los los
supuestos los supuestos supuestos los supuestos los supuestos los supuestos
supuestos supuestos
One-sample t test
Variable Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
type of race
school hispanic asian african-a white Total
Chi-cuadrado es un estadístico que compara las frecuencias observadas con las frecuencias que se
esperarían si no hubiera relación entre las variables. Cuanto mayor sea la diferencia entre frecuencias
observadas y frecuencias esperadas, más intensa será la relación entre variables.
f i. f. j
f eij
n
type of school
race public private Total
hispanic 22 2 24
asian 10 1 11
african-amer 18 2 20
white 118 27 145
f i. f. j
f eij
n
Públicas Privadas
Hispano 24 168 fo = 24
fe
200
Asiatico fo = fo = 11
Afroamericano fo = fo = 20
Blanco fo = 50 fo = 10 145
168 32
Cálculo de las frecuencias esperadas
¿Cómo se calculan las frecuencias esperadas? La frecuencia esperada en una celda es el
producto los marginales de la celda dividido por el número total de casos.
f i. f. j
f eij
n
type of race
school hispanic asian african-a white Total
private 2 1 2 27 32
3.8 1.8 3.2 23.2 32.0
Chi-cuadrado es un estadístico que compara las frecuencias observadas con las frecuencias que se
esperarían si no hubiera relación entre las variables. Cuanto mayor sea la diferencia entre frecuencias
observadas y frecuencias esperadas, más intensa será la relación entre variables.
Para cada celda de la tabla tendremos que calcular la diferencia entre la frecuencia
observada y la frecuencia esperada, elevarla al cuadrado, y finalmente dividir por la
frecuencia esperada.
1. χ2 = 0 Relación nula
2. Cuanto mayor sea el valor de χ2 , más intensa será la relación entre las
variables.
Por todo ello un valor concreto de χ2 diferente de 0 es difícil de interpretar. Para solucionar
este problema se han propuesto otros estadísticos, basados en χ2, pero que son más
fácilmente interpretables.
2 n = tamaño de la muestra
V L = mínimo (filas, columnas) V
1.62
0.10
n( L 1) 150(2 1)
Interpretación de V de Cramer
Para interpretar el valor de la V de Cramer debemos tener en cuenta que
En el ejemplo anterior, dado que V = 0.10, diríamos que existe una débil
elación entre sexo y orientación profesional
1
Estas recomendaciones sólo son aplicables a tablas de contingencia 2x2, 2x3, 2x4,…, y deben ser aplicadas con
cautela
OBSERVACIÓN RESPECTO A
CHI-CUADRADO
• Si alguna de las casillas de la tabla tiene una frecuencia
esperada menor de 5, no es muy conveniente usar este
estadístico.
• Es mejor usar el estadístico exacto de Fisher, con el
siguiente comando
• tabulate schtyp race, exact
• De hecho, en nuestro ejemplo habia casillas con menos
de 5 sujetos, cuando pedimos el estadistido exacto de
Fisher obtenemos esto:
• Fisher's exact = 0.597
• El dato que aparece es directamente el p valor, sobre el
que se puede tomar una decisión.
COEFICIENTE PHI
• La función de la correlación de Phi es determinar si
existe una relación lineal entre dos variables a nivel
nominal con dos valores cada una (dicotómico) y que
esta relación no sea debida al azar; es decir, que la
relación sea estadísticamente significativa.
• Problema
• Se desea saber si existe relación entre el consumo de
alcohol del padre y el consumo de alcohol de
estudiantes de preparatoria.
• VD, VI, Ho
COEFICIENTE PHI
Prueba de McNemar
• La prueba de McNemar se utiliza para decidir si puede o no aceptarse
que determinado ''tratamiento'' induce un cambio en la respuesta
dicotómica o dicotomizada de los elementos sometidos al mismo, y es
aplicable a los diseños del tipo ''antes-después'' en los que cada elemento
actúa como su propio control.
• Los resultados correspondientes a una muestra de n elementos se
disponen en una tabla de frecuencias 2 x 2 para recoger el conjunto de
las respuestas de los mismos elementos antes y después.
• El aspecto general de dicha tabla, en la que los signos + y - se utilizan
para representar las diferentes respuestas, es el siguiente:
Después
- +
Antes - a b
+ c d
Prueba de McNemar
• a es el número de elementos cuya respuesta es la misma, -
• b es el número de elementos cuya respuesta es - antes del ''tratamiento''
y + después de éste;
• c es el número de elementos que han cambiado de + a -;
• d es el número de elementos que mantienen la respuesta +.
• b+c es el número total de elementos cuyas respuestas han cambiado, y
son los únicos que intervienen en el contraste.
Después
+ -
Antes + a b
- c d
Prueba de McNemar
• La hipótesis nula es que el ''tratamiento'' no induce cambios significativos
en las respuestas, es decir, los cambios observados en la muestra se
deben al azar, de forma que es igualmente probable un cambio de + a -
que un cambio de - a +.
• Si H0 es cierta, de los b+c elementos cuya respuesta ha cambiado es de
esperar que (b+c)/2 hayan pasado de + a -, y (b+c)/2 hayan pasado de - a
+.
• En otras palabras, si H0 es cierta, la frecuencia esperada en las
correspondientes celdas es (a+b)/2.
Después
+ -
Antes + a b
- c d
Prueba de McNemar
• Para contrastar la significación de los cambios interesan sólo las celdas
que recogen cambios, por tanto el estadístico puede expresarse como
Después
+ -
Antes + a b
- c d
Prueba de McNemar
• Problema
• Se desea conocer si la participación en un taller de socialización
cambia el sentirse sólo en pacientes con esquizofrenia, para ello se
pregunta a los pacientes si se sienten solos o no antes y después
del taller.
• Problema
• Se desea evaluar la efectividad de un programa para eliminar el consumo
en usuarios de drogas, para ello se registra si los usuarios consumen
drogas al finalizar el programa, y se hace un seguimiento a 3 y 6 meses en
que se les vuelve a preguntar si consumen drogas.
Esta prueba no viene esta incluida en Stata, hay que instalar un paquete
package cochran from http://fmwww.bc.edu/RePEc/bocode/c
DOS VARIABLES
• Para analizar la relación entre dos variables, lo primero hay que ver
el tipo de variable:
– Dos variables cualitativas:
• Grupos independientes: Chi - cuadrado
• Grupos relacionados: McNemar (2 grupos) y Cochran (mas
de dos grupos)
– Dos variables cuantitativas
• Correlación de Pearson, Spearman, Regresión…
– Una variable cualitativa y una cuantitativa (cumplimiento de
normalidad)
• Grupos independientes
– Dos grupos: Prueba de T de medias independientes
– Mas de dos grupos: ANOVA de 1 factor CA
• Grupos relacionados:
– Dos grupos: Prueba T de medias relacionadas
– Más de dos grupos: ANOVA de 1 factor MR
Análisis de la relación entre
una variable cualitativa y una
cuantitativa
DOS VARIABLES
• Para analizar la relación entre dos variables, lo primero hay que ver
el tipo de variable:
– Dos variables cualitativas:
• Grupos independientes: Chi - cuadrado
• Grupos relacionados: McNemar (2 grupos) y Cochran (mas
de dos grupos)
– Dos variables cuantitativas
• Correlación de Pearson, Spearman, Regresión…
– Una variable cualitativa y una cuantitativa (cumplimiento de
normalidad)
• Grupos independientes
– Dos grupos: Prueba de T de medias independientes
– Mas de dos grupos: ANOVA de 1 factor CA
• Grupos relacionados:
– Dos grupos: Prueba T de medias relacionadas
– Más de dos grupos: ANOVA de 1 factor MR
T de Student
• Es una prueba paramétrica de comparación de dos muestras
independientes, debe cumplir las siguientes características:
• Asignación aleatoria de los grupos
• Homocedasticidad (homogeneidad de las varianzas de la variable
dependiente de los grupos)
• Distribución normal de la variable dependiente en los dos grupos
• Nivel intervalo o de razón de la variable dependiente
• Su función es comparar dos grupos de puntuaciones (medias
aritméticas) y determinar que la diferencia no se deba al azar (que las
diferencia sea estadísticamente significativa).
• Problema:
• Queremos saber si chicos y chicas difieren en su capacidad de redacción,
• Hipótesis:
• Las chicas tienen mejore habilidades de redacción que los chicos
70
60
writing score
50
40
30
male female
T de Student
Usando el comando: ttest write, by(female)
Group Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
Variable Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
Variabilidad Variabilidad
Variabilidad debida a debida a
observada factores factores no
en la VD = tenidos en + controlados
cuenta (error)
4.1. ANOVA DE 1 FACTOR
COMPLETAMENTE ALEATORIZADO
• 1.- Hipótesis:
– Ho: µ1 = µ2 = … = µn (las medias poblacionales son iguales)
– H1: µj ≠ µj’ (alguna media es diferente)
• 2.- Supuestos:
– - Independencia: las J muestras son aleatorias y las N observaciones
independientes entre si
– - Normalidad: las J poblaciones son normales
– - Homocedasticidad: esas J poblaciones tienen la misma varianza
60
70
40
mean of math
60
math score
50
20
40
0
general academic vocation
30
A PRIORI
IMPLEMENTADOS COMO A
POSTERIORI
-Prueba de Dunn-Bonferroni
-- Prueba de Dunnet
No controlan la Tasa de - Diferencia Mínima
Error tipo 1 significativa (DMS o LSD en
ingles) de Fisher
COMPARACIONES A
POSTERIORI CON STATA
Comparison of math score by type of program
(Scheffe)
Row Mean-
Col Mean general academic
academic 6.71111
0.000
80
vocation -3.60222 -10.3133
70
0.108 0.000
60
math score
50 40