Teoría Estadística

TEMA 6: Contraste ANOVA
RELACIÓN DE DOS VARIABLES

Cuando tratamos de predecir una variable “y”, “y” es la variable respuesta y “x” es la variable explicativa
Las variables se clasifican en dos grandes tipos: cuantitativas y cualitativas (factores, con diferentes niveles).
Comparamos la respuesta a los diferentes niveles
Según al tipo de variables que aparezcan en el problema, se requiere el uso de técnicas estadísticas distintas
TEST ANOVA
El análisis de la varianza (o Anova) es un método para comparar dos o más medias,
que es necesario porque cuando se quiere comparar más de dos medias es
incorrecto utilizar repetidamente el contraste basado en la t de Student.
ANOVA es el método que nos permite encontrar diferencias significativas entre el
efecto medio de diferentes niveles de un factor estudiado
ANÁLISIS PARAMÉTRICO DE UN VALOR

FACTOR: se define factor como cada una de las variables que se manipulan en un experimento y que pueden afectar
a la variable en el estudio. Según se hayan elegido los niveles del factor, éste será de tipo fijo o aleatorio
NIVEL DE FACTOR: cada una de las maneras en las que se puede presentar un factor. Los niveles se pueden fijar
por el experimentador o se pueden elegir aleatoriamente
VARIABLE RESPUESTA: una variable cuantitativa que “mide” el resultado del experimento
TRATAMIENTO: combinación de niveles de los distintos factores que pueden intervenir en un experimento. Si sólo
hay un factor, el número de niveles y de tratamientos coinciden
MODELO ANOVA
O Unifactorial porque sólo tenemos en cuenta cómo depende X del tratamiento aplicado sin contar otras variables
O Completamente aleatorio porque los pacientes son asignados de forma aleatoria a cada grupo, sin agruparlos de
ninguna manera
O Efectos fijos porque hemos seleccionado los tratamientos (niveles) que queremos analizar sin elegirlos al azar de
entre un posible conjunto más amplio de tratamientos
DESCRIPCIÓN DEL EXPERIMENTO
Suponemos un experimento en el que se estudia el efecto de un
único factor K, que se presenta con k niveles (o tratamientos)
distintos. Para ello, planteamos el siguiente contraste de hipótesis
El contraste que vamos a utilizar está basado en analizar la variación de la variable respuesta Y. El estimador de
esta variación (SCT^) viene dato por:
SUMA DE CUADRADOS TOTAL

Se define la suma de cuadrados total como la medida de la variabilidad total de los datos mediante la variación
de la variable respuesta Y. Su estimador SCT^ viene dado por:
SUMA DE CUADRADOS DEL FACTOR
Se define la suma de cuadrados del factor como la medida de la variabilidad de los datos atribuida a emplear
tratamientos diferentes, lo que representa la cantidad de la variabilidad explicada por el modelo planteada. También
se le denomina suma de cuadrados entre o entre tratamientos. Su estimador SCF^ vi ene dado por:
SUMA DE CUADRADOS DE LOS ERRORES

Se define la duma de cuadrados de los errores como la medida de la variabilidad de los datos atribuida a las
diferencias aleatorias de los sujetos dentro del mismo nivel del factor, lo que representa la cantidad de variabilidad
de la variable respuesta Y no explicada por el modelo. También se le denomina suma de cuadrados dentro de
grupos o intra-tratamientos. Su estimador SCE^ viene dado por:
CONTRASTE DE IGUALDAD DE MEDIAS

ESTIMADOR Y ESTADÍSTICO DE CONTRASTE
TABLA ANOVA
CONCLUSIÓN DEL CONTRASTE DE HIPÓTESIS

Entonces, una vez fijado el nivel de significación α que se está dispuesto a tolerar:
Si p-valor < α entonces rechazamos Ho y aceptamos H1 como cierta. En estos casos concluiremos, en
consecuencia, que al menos dos de los tratamientos son distintos y , en este caso, tendremos que analizar entre
cuáles existen diferencias con las comparaciones entre medias
Si p-valor >= α entonces no rechazamos Ho y asumimos Ho como cierta. En este caso concluiremos, en
consecuencia, que no existen diferencias entre los tratamientos
CONDICIONES PARA REALIZAR EL TEST ANOVA

Para poder realizar este análisis debe cumplirse:
O Las observaciones son independientes y aleatorias: me lo da el diseño del experimento
O Las muestras siguen una distribución normal  podemos comprobar la normalidad con gráficos como el qqplot
O Todas tienen varianzas iguales (homocedasticidad)  mediante un gráfico de residuos
INDEPENDENCIA DE LAS MUESTRAS

Depende de un diseño experimental correcto. No vamos a entrar en detalles sobre diseño de experimentos,
supondremos que esa independencia está garantizada
NORMALIDAD
O Es la más difícil de verificar (sobre todo con muestras pequeñas)
O El contraste ANOVA de un factor es robusto frente a desviaciones moderadas respecto a la normalidad
O Análisis exploratorio: histogramas, boxplot y qqplots de cada grupo
O Para muestras pequeñas, los histogramas, boxplots, etc. no ayudan
Para muestras normales podemos utilizar histogramas Para probar la simetría podemos usar boxplots
Los qqplots son los muy utilizados para verificar la normalidad Muestras pequeñas provenientes de poblaciones normales
HOMOCEDASTICIDAD
O Si los grupos son todos del mismo tamaño, ANOVA es bastante robusto frente a diferencias no demasiado grandes
en las varianzas. Pero con grupos de distinto tamaño, ligeras diferencias afectan mucho
O Podemos calcular las cuasivarianzas muestrales de cada uno de los grupos, y comprobar si existen grandes
diferencias entre ellas
O Lo más sencillo, recurrir al método gráfico para comprobar si existe dependencia entre la media y la varianza
Utilizar la prueba de Cochran

Requiere que el diseño sea
balanceado (el número de repeticiones
debe ser igual para cada tratamiento)
COMPARACIONES DOS A FOS ENTRE LAS MEDIAS

En el caso de tener diferencias entre los tratamientos debemos empezar a indagar entre qué medias hay diferencias
significativas. Para ello se debe recurrir a métodos de comparación múltiple
MÉTODOS BASADOS EN INTERVALOS DE CONFIANZA SIMULTÁNEOS
En estos métodos se comparan todos los pares de medias
MÉTODO DE LA DIFERENCIA MÍNIMA DE FISHER
Este método también se conoce como método LSD. Este método fue inicialmente propuesto por Fisher, y en él se
utiliza el estadístico F para calcular una diferencia crítica a la que se comparan cada par de promedios
MÉTODO DE BONFERRONI
La corrección de Bonferroni es uno de los varios métodos utilizados para contrarrestar el problema de las
comparaciones múltiples. No es el más preciso pero es muy sencillo y aporta una primera idea de lo que se busca.
El nivel de significación se reparte entre las distintas comparaciones. Es decir, se garantiza que la probabilidad de
cometer un error de tipo I, en el conjunto completo de comparaciones dos a dos, se mantiene por debajo de α. Se
basa en la creación de un umbral, por encima del cual, la diferencia entre las dos medias será significativa y, por
debajo del cual, esa diferencia no será estadísticamente significativa.
MÉTODO DE SCHEFFÉ
La prueba de Scheffé se realiza comparando todos los posibles pares de medias, utilizando para ello el SCE (Suma
de los Cuadrados de los Errores) obtenido en el ANOVA.
MÉTODO DE TUKEY
La prueba Tukey se usa en experimentos que implican un número elevado de comparaciones. Para ello, se define
un solo comparador, resultante del producto del error estándar de la media por el valor tabulado en la tabla de
Tukey, usando como numerador el número de tratamientos y como denominador los grados de libertad del error. Si
las muestras no tienen el mismo tamaño, la prueba se denomina método de Tukey-Kramer.
ANÁLISIS VISUAL
Si el contraste ANOVA ha resultado significativo, y en las comparaciones post-
hoc también hemos detectado diferencias significativas entre pares concretos
de medias, nos preguntamos cuál es la media más grande
BOXPLOTS PARALELOS
Tienen una muesca doble alrededor de la mediana. La anchura de esa muesca es
un análogo de los intervalos de confianza, pero aplicado a la mediana en lugar de la
media. Con esas muescas evaluamos gráficamente si existen diferencias
significativas entre las medianas
REGLA: si los biseles correspondientes a dos niveles no se solapan entre sí (en
vertical), podemos sospechar que existen diferencias significativas entre las
medianas correspondientes a esos dos niveles.
MÉTODOS BASADOS EN RECORRIDOS ESTUDENTIZADOS

En estos métodos no es necesario comparar todos los pares de medias, ya que consiste en realizar comparaciones
que eliminen otras comparaciones
MÉTODO DE NEWMAN-KEULS
Este método utiliza un umbral móvil basado en el número de medias que están implicadas en el recorrido de la resta
de medias comparada, donde el nivel de significación no cambia.
MÉTODO DE DUNCAN
Este método prueba las diferencias entre las medias empezando con la media más grande contra la segunda más
grande, y así sucesivamente, comparando en cada caso con un valor crítico obtenido por tablas. El método de
Duncan tiene mayor error tipo I que el método de Newman-Keuls, que es un test más conservador y presenta menos
potencia que el método de Duncan. Por tanto, si dos medias son distintas para el método de Newman-Keuls,
también lo serán para el método de Duncan
Tema 7 ANOVA - I
Comparación múltiple de medias
Estadística - Biología sanitaria - UAH
Marcos Marvá Ruiz
Estadística - Biología sanitaria - UAH Tema 7 ANOVA - I Marcos Marvá Ruiz 1 / 14

Objetivos
1 Contrastar simultáneamente la igualdad de medias de varias poblaciones.
Secciones 11.1, 11.2 y 11.3 del libro

Contexto
Empezamos un nuevo bloque: INFERENCIA EN LA ASOCIACION ENTRE DOS VARIABLES
Consideramos:
Variable explicativa (independiente)

Variable respuesta (dependiente)
Notación: variable respuesta ~variable explicativa
Ejemplos:
11 C ∼ C . en crabs, FL ∼ CL
12 C ∼ F . Descenso Ta (en Co ) ∼ distintos antitérmicos (niveles)
13 F ∼ F . Ser alérgico/no alérgico ∼ tipo de población (rural/urbana)
14 F ∼ C . Sobrevivir o no ∼ ingesta (mg) de cierta sustancia
ANOVA
Analizaremos la relación entre una variable cualitativa y una cuantitativa
C (respuesta) ∼ F (explicativa)
Ejemplo: Se toman muestras de aire en estaciones de la D.G. del Medio Ambiente Area de
Calidad Atmosférica - Red de Calidad del Aire en varios municipios de la CAM y se mide la
concentración media de ozono en cada estación
Ejemplo: Cortesía del Hospital Ramón y Cajal

Se quiere evaluar la eficacia de distintas dosis de un fármaco contra la hipertensión arterial y
comparárla con la de una dieta sin sal.

ANOVA - el contraste
Hay dos preguntas naturales:
1.- ¿Son todos los tratamientos igual de efectivos? Si µi es la respuesta media al nivel
(tratamiento) i del factor,
H0 : {µ1 = · · · = µk } H1 : {alguna media diferente del resto}
Se trata de la comparación simultánea de 3 o más medias
Comentario: Cuando se rechaza H0 se dice que las variables esán asociadas, pero no que una
influye sobre la otra en el sentido de causa-efecto. Sólo podemos inferir asociación entre variables
(igual que en la regresión).
2 .- Si no son todas las medias iguales: ¿cómo ordenarlas?

ANOVA
¿Por qué no hacer varios contrastes de diferencia de (pares de) medias?

Ejercicio: Considera 5 tratamientos antitérmicos diferentes y decides comparar las medias 2 a 2
(cada par de tratamientos).
1 ¿Cuántos contrastes (parejas) habría que hacer?
2 Si en todas las comparaciones el error de tipo I vale 0.05 ¿qué probabilidad hay de cometer
al menos una vez error de tipo I?

ANOVA - ejemplo
Se quiere determinar cuál de los productos
Alirón plus Vuelagra Plumiprofeno Elevantolín
es mejor para mejorar el número de aleteos por minuto de los frailecillos.
Se toman 4 m.a. independientes de 100 frailecillos. Cada grupo se trata con un producto
diferente. Los resultados, en aleteos por minuto, están la siguiente tabla (y aquí los datos)
Aliron Elevantolin Plumiprofeno Vuelagra

1 76.65 88.66 87.14 76.74
2 79.36 78.12 82.34 74.72
3 71.83 81.74 94.06 68.61
4 73.24 89.11 88.12 72.84
5 79.73 82.90 84.47 75.83
6 74.50 80.84 83.11 66.81

ANOVA - ejemplo
Aleteos por minuto en función del tratamiento

95
90
Aleteos por minuto
85
80
75
70
65
Tratamiento
Punto rojo: la respuesta media a cada tratamiento.

Linea de puntos: respuesta media sin considerar grupos.
Se observa que:
1 Dentro de cada tratamiento los individuos responden de manera diferente.
2 Comparando tratamientos, en al menos dos la respuesta media está alejada de la media global.

ANOVA - ejemplo

95
Aleteos por minuto
85
75
65
Tratamiento
Dos fuentes de variabilidad:

1 Intra-grupo:
▶ Cada individuo responde de forma diferente al mismo tratamiento.
▶ Comparar la respuesta de cada individuo con la respuesta media de su grupo.
▶ Es la variabilidad debida al azar.
2 Entre-grupos:
▶ Cada grupo responde en promedio de forma diferente a distintos tratamientos.
▶ Comparar la respuesta media de cada grupo con la media sin tener en cuenta grupos.
▶ Si la respuesta es independiente del tratamiento, las medias no deberían ser significativamente
diferentes.
▶ Es la variabilidad debida al modelo.
ANOVA - un poco de notación
Hay un factor (v. cualit.) con k niveles (valores diferentes, tratamientos) t1 , t2 , · · · , tk .
Se mide la misma variable cuantitativa en los k grupos.
Tenemos k muestras independientes
Y1 , Y2 , · · · , Yk
Todos los grupos tienen el mismo número de datos n (experimento equilibrado)
Nivel del tratamiento (j de 1 a k)
t1 t2 t3 ··· tk
y11 y12 y13 ··· y1k
Respuestas y21 y22 y23 ··· y2k
y31 y32 y33 ··· y3k
.. .. .. .. ..
. . . . .
yn1 yn2 yn3 ··· ynk
El total de valore es N = k · n
Consideramos, además,
Pk Pn
yij
j=1 i=1
La media total: Ȳ = N
Pn yij
La media de cada nivel (tratamiento): Ȳj = i=1 n
ANOVA
Idea: agrupar las variabilidades debidas al azar y al modelo. Al comparar la respuesta de cada
individuo frente a la repuesta media
yij − Ȳ
cuantificar dos aspectos:
Efecto del tratamiento recibido (nivel del factor) -> modelo

Las características individuales -> azar
Podemos escribir
yij − Ȳ =
|
yij − Ȳ
{z
·} j
+ Ȳ
|
·{z
j
− Ȳ
}
azar modelo
Entonces, se cumple
Identidad de la suma de cuadrados para Anova
k n k n k
XX X X X
2 2 2
(yij − Ȳ ) = (yij − Ȳj ) + n(Ȳj − Ȳ )
j=1 i=1 j=1 i=1 j=1

| {z } | {z } | {z }
SSTotal SSresidual SSmodelo
Ojo: esta esta idea la conoces de la recta de regresión. De hecho, ANOVA se puede ver como un
modelo lineal (11.4 del libro).
Contraste Anova
Para cuantificar el peso de cada sumando (azar o modelo), partimos de la identidad ANOVA
SST = SSresidual + SSmodelo (1)

De forma análoga a la recta de regresión, tenemos
Al dividir (1) entre SST se tiene
SSresidual SSmodelo
1= +
SST SST
El coeficiente de determinación es
SSmodelo
r2 =
SST
y es la proporción de la variabilidad total explicada por el modelo
Este coeficiente es útil, SIN EMBARGO para hacer el contraste ANOVA
H0 : {µ1 = · · · = µk } H1 : {alguna media diferente del resto}
necesitamos un estadístico del que conozcamos su distribución de probabilidades para calcular

p-valor, región de rechazo,. . .

Contraste Anova
Distribución muestral de los componentes del Anova unifactorial

para el caso de un modelo equilibrado.
Supongamos que
La hipótesis nula H0 : {µ1 = · · · = µk } es cierta.
Todas las muestras son del mismo tamaño:
Si las muestras siguen distribuciones normales con varianzas iguales
(homocedasticidad)
Y1 ∼ N(µ1 , σ), Y2 ∼ N(µ2 , σ), · · · , Yk ∼ N(µk , σ)
Entonces:
SSmodelo /(k − 1)
Ξ= ∼ Fk−1;N−k
SSresidual /(N − k)
donde Fk−1;N−k es la distribución de Fisher-Snedecor con k − 1 y N − k grados
de libertad, N es el total de observaciones.
El p-valor del contraste es

P (Fk−1;N−k > Ξ)

La tabla ANOVA
Fuente de Grados de Suma de Cuadrado Estadístico p-valor
variación libertad cuadrados medio
SSmodelo
Modelo k −1 SSmodelo Ξ P(F > Ξ)
k −1
SSresidual
Residuos N−k SSresidual
N−k
Ejemplo: continuación del ejemplo de los frailecillos

datos = read.table(file = "T6_1_frailecillos.csv", sep = " ", header = T)
colnames(datos) <- c("Tratamiento", "Respuesta")
modelo = lm(Respuesta ~ Tratamiento, datos)
anova(modelo)
Analysis of Variance Table
Response: Respuesta
Df Sum Sq Mean Sq F value Pr(>F)
Tratamiento 3 7897.0 2632.32 149.25 < 2.2e-16 ***
Residuals 396 6984.4 17.64
---
Signif. codes:
0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
a la vista del p-valor, podemos rechazar la hipótesis nula.

Tema 7 ANOVA - II
Condiciones Anova y comparaciones 2 a 2
Marcos Marvá Ruiz
Estadística - Biología sanitaria - UAH Tema 7 ANOVA - II Marcos Marvá Ruiz 1 / 13

Objetivos
1 Varificar las condiciones para hacer ANOVA. Sección 11.5 del libro.
2 En caso de que haya diferencias significativas, ordenar las medias. Sección 11.6 del libro.

Verificación de las condiciones Anova: independencia
1. Independencia de las muestras
Depende de un diseño experimental correcto.

Sabemos poco sobre diseño de experimentos,
supondremos que esa independencia está garantizada
Obviamente, sí sabemos que las muestras no pueden ser pareadas.
Sección 11.5 del libro

Verificación de las condiciones Anova: normalidad
2. Normalidad: Xi ∼ N(µi , σ) para cada nivel i del factor
1 Muchas variables se distribuyen normalmente (otras muchas no)

2 El contraste Anova de un factor es robusto frente a desviaciones moderadas respecto a la
normalidad. Es decir, que si se verifican las otras dos condiciones (independencia e igualdad
de varianzas), Anova funciona aunque los datos sean sólo aproximadamente normales.
3 Análisis exploratorio (ojo a la escala): qq-plots (global, pero también de cada grupo si falla).
4 Para muestras pequeñas, histogramas, boxplots, etc. no ayudan
5 También hay contrastes de hipótesis sobre la normalidad de una muestras (en prácticas).

Verificación de las condiciones Anova: normalidad
Ejemplo: (el de los frailecillos, normalidad), hacer el qqplot de los datos (a veces se estandarizan,
aunque no es necesario)
Normal Q−Q Plot

2
Sample Quantiles
1
0
−1
−2
−3 −2 −1 0 1 2 3
Theoretical Quantiles
En las prácticas veremos contrastes de hipótesis sobre la normalidad.

Es interesante combinar métodos gráficos (qqplot) y analíticos (contraste).
Verificación de las condiciones Anova: homocedasticidad
Ejemplo: el de los frailecillos, homocedasticidad (¿son las varianzas diferentes?). Se pueden usar
métodos Representar residuos por medicamento. Se aprecia dispersiones similares
Residuals vs Fitted
92
10
59
5
Residuals
0
−10 −5
93
72 74 76 78 80 82 84
Fitted values
aov(frai$aleteos ~ frai$medicamento)
En las prácticas veremos contrastes de hipótesis sobre la homocedasticidad.

Es interesante combinar métodos gráficos (qqplot) y analíticos (contraste).
Verificación de las condiciones Anova: homocedasticidad
Tres situaciones DIFERENTES en las que no hay homocedasticidad
Residuals vs Fitted Residuals vs Fitted
10
92 59
10
59 229 22
5
5
Residuals
Residuals
0
0
−10 −5
−5
−10
93
72 74 76 78 80 82 84 72 74 76 78 80 82 84
Fitted values Fitted values
aov(frai$aleteos ~ frai$medicamento) aov(frai$aleteos ~ frai$medicamento)
Residuals vs Fitted
10
59
22
5
Residuals
0
−5
−10
383
72 74 76 78 80 82 84
Fitted values
aov(frai$aleteos ~ frai$medicamento)

ANOVA significativo: comparaciones 2 a 2 (post hoc)
Suponer que un contraste ANOVA es significativo (no todas las medias son iguales). ¿Qué
medias son significativamente diferentes?
Ejemplo: el de los frailecillos

Aleteos por minuto
65 75 85 95
Tratamiento

Ejemplo: (continuación)
Analysis of Variance Table
Response: Respuesta
Df Sum Sq Mean Sq F value Pr(>F)
Tratamiento 3 7897.0 2632.32 149.25 < 2.2e-16 ***
Residuals 396 6984.4 17.64
---
Signif. codes:
0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Las medias muestrales son diferentes

aggregate(datos$Respuesta~datos$Tratamiento, FUN = mean)
datos$Tratamiento datos$Respuesta
1 Aliron 78.3993
2 Elevantolin 80.3997
3 Plumiprofeno 84.4001
4 Vuelagra 72.0999
claro, pero las medias poblacionales ¿son significativamente diferentes?

Estrategia
Fijado un nivel de significación α para el ANOVA, se reparte el error tipo I entre las
comparaciones. Es decir, para cada una se toma un nivel de significación más pequeño que el
original de modo que el error tipo I acumulado sea similar a α.
Esto se puede hacer de distintas maneras:
Ajuste de Bonferroni (sección 11.6.1 del libro).
Ajuste de Tuckey
Muchos otros...
El ajuste de Bonferroni es más estricto (conservador) que el de Tuckey Esto quiere decir que de
acuerdo con Bonferroni las diferencias deben ser mayores para ser consideradas significativas.

Ejemplo: Salida de R, ajuste de Bonferroni para los datos de los frailecillos
Aliron Elevantolin Plumiprofeno

Elevantolin 0.005 - -
Plumiprofeno <2e-16 1e-09 -
Vuelagra <2e-16 <2e-16 <2e-16
P value adjustment method: bonferroni
Todas las diferencias son significativas; podemos ordenar las medias poblacionales a partir de las
muestrales
aggregate(datos$Respuesta~datos$Tratamiento, FUN = mean)
datos$Tratamiento datos$Respuesta
1 Aliron 78.3993
2 Elevantolin 80.3997
3 Plumiprofeno 84.4001
4 Vuelagra 72.0999
µVuelgra < µAliron < µElevantolin < µPlumiprofeno

Ejemplo Salida de R, Bonferroni, otros datos, PIZARRA
grupo1 grupo2 grupo3 grupo4 grupo5

grupo2 3.83e-10 - - - -
grupo3 1.000000 1.34e-10 - - -
grupo4 0.175126 9.59e-09 1.000000 - -
grupo5 1.00e-06 1.000000 7.93e-06 0.000229 -
grupo6 0.005100 3.50e-06 0.087394 1.000000 0.008866
P value adjustment method: bonferroni
¿Cómo ordenar las medias, a nivel de significación del 95%?
25
20
respuesta
15
10
grupo1 grupo2 grupo3 grupo4 grupo5 grupo6

Estadística - Biología sanitaria - UAH Tema tratamiento
7 ANOVA - II Marcos Marvá Ruiz 12 / 13
Ejemplo: salida gráfica de para el ajuste de Tuckey, PIZARRA

TEMA 7: CONTRASTE
CHI CUADRADO
TABLAS DE CONTINGENCIA. TEST DE INDEPENDENCIA. CHI CUADRADO – X
RELACIÓN DE DOS VARIABLES
Dos aplicaciones del contraste χ²:
1. Estudiar la relación entre dos factores
2. Averiguar si los datos de una muestra dada se
corresponden o no con una distribución teórica de la que
presuntamente proceden
TABLAS DE CONTINGENCIA
DATOS BIVARIANTES: vienen de la observación simultánea de dos variables (X, Y) en una muestra de n individuos
O Son tablas de doble entrada (bidimensionales) de variables
categóricas
O Se emplean para analizar relaciones entre variables categóricas o
bien explorar la distribución que posee una variable categórica entre
diferentes muestras
La independencia de dos variables consiste en que la distribución
de una de las variables es similar sea cual sea el nivel que
examinemos de la otra. Esto se traduce en una tabla de
contingencia en que las frecuencias de las filas (y las columnas) son
aproximadamente proporcionales. Esto es equivalente a observar
que los porcentajes por columnas (o filas) son similares
Las utilizamos principalmente para representar la relación de dos
variables cualitativas
Queremos analizar si los niveles de un factor siguen cierta
distribución. Para ello, añadiríamos a la tabla los valores marginales
TABLAS DE INDEPENDENCIA
¿Cómo comprobamos si la diferencia entre los resultados obtenidos en mi estudio y los esperados es significativa o
no? → Contraste de hipótesis
- Ho = La proporción de positivos NO DEPENDE de la renta
- Ha = La proporción de positivos DEPENDE de la renta
RELACIÓN ENTRE DOS FACTORES

O En el caso en el que tanto la variable respuesta como la variable explicativa admitan solo dos valores posibles
(tabla 2 × 2), el problema se puede abordar como un contraste de diferencia de proporciones para dos poblaciones.
En este caso, Ho: {p1 = p2}
O Cuando tenemos más de dos valores posibles para la variable respuesta, ya no podemos utilizar métodos hasta
ahora conocidos
O El contraste que hemos visto es unilateral, y debemos fijarnos en la cola derecha de la distribución χ2
(estadístico χ2) para calcular el p-valor
TEST DE INDEPENDENCIA. ESTADÍSTICO χ2 PARA UNA TABLA DE CONTINGENCIA 𝑛1 × 𝑛2

Dada una tabla de contingencia 𝑛1 × 𝑛2, con valores observados 𝑜𝑖j, y valores esperados 𝑒𝑖j, definimos el
estadístico:
𝐻o = El factor 𝐹1 es independiente del factor 𝐹2

Es decir, sumamos un término para cada casilla de la tabla. Entonces, mientras n>30 y ninguno de los valores 𝑒𝑖j sea
menor de 5 (se permite hasta un 20 %), el estadístico E sigue una distribución χ2𝑘, con k= (𝑛1−1) × (𝑛2 − 1) grados de
libertad. El p-valor del contraste es:
TEST DE HOMOGENEIDAD
O Con el test de independencia estudiábamos la posible relación entre dos variables categóricas (factores) F1 y F2
O Ahora sólo hay una variable y queremos decidir si los valores observados se ajustan a una distribución
teórica de probabilidades
Ejemplo: imaginemos que tenemos los resultados de lanzar 5000 veces un dado
¿Es significativa esa diferencia? → Contraste de hipótesis
CONTRASTE DE HIPÓTESIS
Ho: {dado no cargado} = la probabilidad de cada uno de los valores es 1/6
Ha: {dado cargado} = la probabilidad de al menos dos valores no es 1/6
Calculamos el estadístico, siempre que tengamos muestras grandes (n>30) y ei > 5, como:
Nos lleva a rechazar

Ho en favor de H1
TEST DE HOMOGENEIDAD VS. TEST DE INDEPENDENCIA

Homogeneidad e independencia: similitudes
- Comparamos valores observados con valores esperados
- El estadístico de contraste es la suma de:
Homogeneidad e independencia: diferencias
- Independencia: hay dos variables cualitativas
- Homogeneidad: los valores observados y esperados se refieren a una única variable
- Los grados de libertad son diferentes
Tema 8 Contrastes Chi cuadrado
Contrastes de independencia y homogeneidad
Marcos Marvá Ruiz
Estadística - Biología sanitaria - UAH Tema 8 Contrastes Chi cuadrado Marcos Marvá Ruiz 1 / 13
Objetivos
1 Determinar cuándo dos variables cualitativas medidas sobre los mismos individuos son
independientes.
2 Analizar si determinada variable sigue una distribución de probabilidad dada.
Contraste de independencia
Ejemplo: Considera las variables cualitativas
Nivel de exposición a cierto contaminante: bajo/medio/alto.

Estatus frente a cierta enfermedad: enfermo/sano
Bajo Medio Alto Total

Enfermo 10 43 167 220
Sano 40 57 233 330
Total 50 100 400 550
Idea: para determinar si las variables son independientes, comparar esa tabla con la tabla de
valores que deberíamos haber observado si las variables fueran independientes.
Observa que hay 2/5 de individuos enfermos y 3/5 de individuos sanos.

Aplicar esta proporción a los 50, 100 y 400 individuos con niveles de exposición bajo, medio
y alto.
En la siguiente tabla, teniendo en cuenta los valores marginales ¿cuántas celdas hay que
completar para que el resto queden unívocamente determinadas?

Enfermo 220
Sano 330
Total 50 100 400 550
Ese número se conoce “grados de libertad”.
¿Qué deberíamos haber observado si las variables fueran independientes?

Valores esperados: recuerda que hay 2/5 de enfermos y 3/5 de sanos.

Enfermo 50*2/5 = 20 40 160 220
Sano 50*2/5 = 30 60 240 330
Total 50 100 400 550
¿Cómo medir el nivel de discrepancia entre los valores observados y esperados? llamaremos
oij valor observado de los niveles i y j de las variables.
eij valor esperado (si las variables fueran independientes) de los niveles i y j de las variables.
Da igual qué variable esté en las filas y cuál en las columnas, pero en las dos tablas con la misma
estructura.
Test de independencia
Estadístico χ2 para una tabla de contingencia n1 × n2
Se miden 2 variables cualitativas sobre el mismo conjunto de n individuos, se obtiene
una tabla de contingencia n1 × n2 , con valores observados oij , y valores esperados eij ,
definimos el estadístico:
n1 n2
X X (oij − eij )2 X (observado − esperado)2
Ξ= =
eij esperado
i=1 j=1 tabla
Entonces, si n > 30 y eij ≥ 5, el estadístico Ξ sigue una distribución χ2k , con
k = (n1 − 1)(n2 − 1)
grados de libertad. El p-valor del contraste
H0 : {El factor F1 es independiente del factor F2 }

es P χ2(n >Ξ
1 −1)(n2 −1)
(tabla = matrix(c(10, 43, 176, 40, 57, 233),

nrow = 2,
byrow = T))
[,1] [,2] [,3]

[1,] 10 43 176
[2,] 40 57 233
chisq.test(tabla)
Pearson’s Chi-squared test
data: tabla
X-squared = 9.9809, df = 2, p-value = 0.006802
Con este p-valor, se rechaza H0: las variables son independientes
Contraste de homogeneidad
El objetivo es contrastar si una variable aleatoria sigue (o no) una determinada distribución de
probabilidad.
Aunque se emplea para variables discretas y continuas, se recomienda su uso con las discretas y
hay quienes desaconsejan utilizar esta técnica con variables continuas.
Vamos con un par de ejemplos
Ejemplo: cuando se localiza un fragmento de ADN, una vez secuenciado, una prueba preliminar
para decidir si es funcional o no consiste en analizar si el contenido en nucleótidos es uniforme
Factor: nucleótido.
Niveles: A - T - C - G.
Distribución teórica (caso no funcional): frecuencias relativas = 1/4 - 1/4 - 1/4 - 1/4
Veamos si el genoma del bacteriófago ΦX174, primer genoma basado en ADN secuenciado
(1977), supera esta prueba. Usaremos el paquete ape del proyecto Bioconductor y su número de
acceso en la base de datos GenBank del NCBI para descargar su genoma (esto ya lo hicimos
cuando trabajamos con variables aleatorias discretas):
if (!requireNamespace("ape", quietly = TRUE)){install.packages("ape") }
library(ape)
# guardar el identificador del genoma

myID <- c("NC_001422.1")
# descargar el genoma
mySequence <- read.GenBank(access.nb = myID, seq.names = myID,
species.names = TRUE, as.character = TRUE)
# tabla de frecuencias
table(mySequence$NC_001422.1)
a c g t
1291 1157 1254 1684
Continuación: Calculamos los valores que deberíamos haber observado la distribución de
nucleótidos fuera uniforme. Como hay
length(mySequence$NC_001422.1)
[1] 5386
bases, en caso de independencia se esperan
length(mySequence$NC_001422.1)/4
[1] 1346.5
bases de cada tipo.

Valores esperados
A C G T
e1 = 1346.5 e1 = 1346.5 e1 = 1346.5 e1 = 1346.5
¿Cómo medir el nivel de discrepancia entre los valores observados y esperados? llamaremos
oi valor observado del nivel i de la variable.

ei valor esperado (si sigue la dstribución teórica de probabilidades) del nivel i de la variable.
Contraste de hipótesis χ2 de homogeneidad (bondad del ajuste)

Sea X una variable aleatoria con función de densidad
Valor x1 x2 ··· xk
Probabilidad p1 p2 ··· pk
Dada una muestra de tamaño n con valores observados:

Valor x1 x2 ··· xk Total
Frecuencia o1 o2 ··· ok n
y dados los valores esperados

e 1 = n · p1 , e2 = n · p2 , ..., e k = n · pk
el estadístico
k
(oj − ej )2
X
2
Ξ= sigue una distribución χn−1
ej
j=1
siempre que n > 30, ej ≥ 5, ∀j y que sea cierta

H0 : {Los niveles de distribuyen según p1 , · · · , pk }

El p-valor del contraste es P χ2n−1 > Ξ
Ejemplo: (continuación)
chisq.test(table(mySequence$NC_001422.1), p = c(1/4, 1/4, 1/4, 1/4))
Chi-squared test for given probabilities
data: table(mySequence$NC_001422.1)
X-squared = 119.91, df = 3, p-value < 2.2e-16
Se rechaza H0, y se asume que la distribución de nucleótidos no es uniforme.
Ejemplo En su famoso experimento con guisantes, Mendel esperaba
H0 : {plisa = 0.75, prugosa = 0.25}
Obtuvo 7324 semillas clasificadas como
Semilla lisa rugosa total

Frec abs o1 = 5474 o2 = 1850 7324
Frec rel 0.7474 0.2526 1
chisq.test(c(5474,1850), p = c(3/4, 1/4))
Chi-squared test for given probabilities
data: c(5474, 1850)

X-squared = 0.26288, df = 1, p-value = 0.6081
Mendel no encontró motivos para dudar de su hipótesis (no existía el contraste Chi cuadrado).
Contrastes de independencia y de homogeneidad
Similitudes
Comparamos valores observados con valores esperados (si H0 cierta)
El estadístico de contraste es la suma de
(observado - esperado)2
esperado
extendido a todas las celdas de la tabla y sigue una χ2
Diferencias
Independencia: hay 2 variables cualitativas.
Homogeneidad: los valores observados y esperados (teóricos) se refieren a una única variable.
Tema 8: El modelo de regresión lineal, Regresión avanzada.
Ver tema 2 para intro
Para estar totalmente seguro del que el modelo es el adecuado, tenemos que analizar más a
fondo los residuos. Al analizar los residuos podemos descubrir:
-Que el modelo funciona para cierto rango de los valores del regresor, pero no para todos.
-Que es mejor separar los datos conforme a un cierto criterio (sexo, zona…)
-Que necesitamos considerar más regresiones y movernos a un modelo más complejo:

regresión múltiple.
-Que no podemos utilizar un modelo lineal sino de otro tipo.
Cuando una variable sí se explica bien con un modelo lineal:
𝑌 = 𝛽0 + 𝛽1𝑋 + 𝜖
Donde 𝜖 recibe el nombre de residuo.
Hipótesis del modelo:
● 𝜖 = (0,1): residuos normales, lo comprobaremos con un QQplot.
● Homocedasticidad: la varianza de los residuos es la misma para todos los valores de yi . Lo

comprobaremos mediante el diagrama de dispersión.
Los valores b0, b1 (muestrales) que calculamos para la recta de regresión Y = b0 +b1X no son
más que estimaciones del verdadero valor de β0, β1.
Podemos realizar un test H0: β1 = 0; H1 : β1 6= 0 para ver si hay linealidad o no (es decir, si es
adecuado o no un modelo lineal); recordemos que:
En lugar de calcular estimaciones puntuales de β0, β1 (es decir, b0, b1) podemos calcular
intervalos de confianza para β0, β1.
De ese modo, en lugar de estimaciones puntuales para 𝑦^i (es decir, 𝑦^i = b0 + b1xi) podemos
predecir utilizando intervalos de confianza.
1. Fuentes de variabilidad:
-Señal: (patrón que estamos buscando) asociación lineal.
-Ruido: Variabilidad individual, variables no consideradas
Disponemos de:
-Valores observados (xj, yj)
-Valores predichos 𝑦^j
-Respuesta media 𝒚
¯
Reagrupando términos, se verifica la identidad ANOVA (Analysis of variance)

→Coeficientes de correlación r y determinación r2
Propiedades de los coeficientes de correlación r y determinación r2

2. Modelo de regresión lineal - inferencia
Disponemos de una muestra de (pares de) valores (x1, y1), · · · , (xn, yn)
Sabemos:
• Calcular una recta:
-Predecir valores no observados.
-Su pendiente indica “cuánto” responde la variable respuesta.
• r2 cuantifica la variabilidad explicada por el modelo.
Rectas calculadas con 4 muestras de la misma población:
Con cada muestra (x1, y1), · · ·, (xn, yn) la recta de regresión “muestral”
es una “manifestación” del modelo teórico (poblacional)
Para cada muestra los coeficientes de esa recta de regresión: b0 b1

son estimadores de los coeficientes de la recta teórica: β0 β1
-Si conocemos la distribución de probabilidad de un estadístico que involucre a los bi y βi:
• Intervalo de conf para estimar β0 y β1
• Intervalo de conf para las predicciones puntuales hechas con la recta
• Contraste de hipótesis sobre β0 y β1

Un estadístico para β1:
Si se cumplen las hipótesis del modelo de regresión lineal simple
no hay que saberlo
Con esto se puede
-Calcular IC β1
-Contrastar H1: β1 ≠0
p-valor
IC
Además:
-Fijado x, intervalo de confianza para el valor medio predicho de la variable respuesta
-Fijado x, intervalo de predicción para el valor predicho para la variable respuesta
Como analizar la existencia o no de relación (dependencia/independencia) de dos variables:
Cuantitativa/Cuantitativa: Regresión.
Cuantitativa/Cualitativa: ANOVA.
Cualitativa/Cualitativa: Chi-cuadrado
Tema 9: El modelo de regresión lineal
Inferencia sobre la recta de regresión
Marcos Marvá Ruiz
Estadística - Biología sanitaria - UAH Tema 9: El modelo de regresión lineal Marcos Marvá Ruiz 1 / 13
Objetivos
1 Varificar las condiciones para hacer ANOVA. Sección 11.5 del libro.
2 En caso de que haya diferencias significativas, ordenar las medias. Sección 11.6 del libro.
Modelo de regresión lineal vs regresión por mínimos cuadrados
Disponemos de una muestra de (pares de) valores (x1 , y1 ), · · · , (xn , yn ). Con la recta de regresión:
Predecir valores no observados.
Su pendiente indica “cuánto” responde la variable respuesta.
¡¡TODO DEPENDE DE LA MUESTRA OBTENIDA!!
4 rectas calculadas con 4 muestras extraídas de la misma población

18
18
18
18
16
16
16
16
14
14
14
14
12
12
12
12
5 6 7 8 9 10 5 6 7 8 9 10 5 6 7 8 9 10 5 6 7 8 9 10
¿Qué b0 , b1 , r 2 son los más adecuados?
¿Existe una recta “poblacional”?
Situación análoga al caso de la media/varianza/proporción muestral y poblacional. GeoGebra
Sección 10.4 del libro

Modelo de regresión lineal vs regresión por mínimos cuadrados
Con cada muestra (x1 , y1 ), · · · , (xn , yn ) la recta de regresión
y (x ) = b0 + b1 x
es una “realización” (estimación) del modelo te'orico (poblacional)
Y = β0 + β1 X + ϵ
donde ϵ indica un cierto error aleatorio.
Para cada muestra los coeficientes de esa recta de regresión (los del tema 2)
b0 b1
son estimadores de los coeficientes de la recta teórica
β0 β1
Buscamos la distribución de probabilidad de un estadístico que combine a bi y βi :

Intervalo de confianza para estimar β0 y β1 .
Intervalo de confianza para las predicciones hechas con la recta.
Contraste de hipótesis sobre β0 y β1 .
Modelo de regresión lineal: hipótesis
Son las mismas que las de ANOVA

1 Observaciones (datos) independientes: supondremos que es así.
2 Residuos normales y homocedásticos: comprobar que los residuos ej ∼ N(0, σ)
En la práctica, para comprobar las hipótesis se combinan

Gráficos de diagnóstico: QQ-plot y dispersión de los residuos
Contrastes paramétricos/no paramétricos
Se suelen usar varios métodos a la vez: lo haremos en prácticas
Modelo de regresión lineal: hipótesis
Ejemplo: Anchura (CW) y longitud (CL) del caparazon de los cangrejos de crabs. Comprobar
condiciones del modelo lineal.
library(MASS); longitud = crabs$CL; anchura = crabs$CW
(modelo = lm(longitud ~ anchura))
Call:
lm(formula = longitud ~ anchura)
Coefficients:
(Intercept) anchura
-0.6619 0.8998
Standardized residuals
Residuals vs Fitted Normal Q−Q
2
142 145 142 145
2
Residuals
1
0
0
−2
70
−2
70
15 20 25 30 35 40 45 −3 −2 −1 0 1 2 3
Fitted values Theoretical Quantiles
Parecen cumplirse las condiciones
Modelo de regresión lineal - un estadístico para β1
Si se cumplen las hipótesis del modelo de regresión lineal simple
Estadístico para β1 , la pendiente de la recta teórica de regresión

El estadístico
b1 − β1
Ξ= r ∼ tn−2 (1)
ECM
(n − 2)s 2 (x )
sigue una distribución t de Student con n − 2 grados de libertad.
Esto permite
1 Calcular intervalo de confianza para β1

2 Contrastes sobre β1 .
▶ El contraste más habitual es H0 : β1 = 0; caso de rechazarse, se puede asumir que las variables
varían conjuntamente, que la variable respuesta no es uniforme en relación a la explicativa (caso de
pendiente no diferente de 0).
Ejemplo: fichero Crabs, longitud y anchura caparazon, calcular IC, H0 : β1 = 0.91, nc = 0.99:
library(MASS); library(smatr); par(mar = c(4, 4, 0, 0))
lmXY = lm(crabs$CL ~ crabs$CW)
lmXY$coefficients
(Intercept) crabs$CW
-0.6619479 0.8998462
CH_b1 = slope.test(crabs$CL, crabs$CW, test.value = 0.91, method = "OLS", alpha = 0.01)
plot(crabs$CW, crabs$CL, xlab = "Anchura", ylab = "Longitud"); abline(lmXY, col = "red", lwd = 3)
45
35
Longitud
25
15
20 30 40 50
Anchura
CH_b1$p; CH_b1$ci
[1] 0.1144619
[,1] [,2]
[1,] 0.883189 0.9165034
Ejemplo: Frahminham, edad frente a colesterol de los 100 primeros datos, calcular IC,
H0 : β1 = 0, nc = 0.95
library(smatr); par(mar = c(3,3,0,0))
d1 = read.table(file = "datos/FraminghamDataSet.csv", sep = ";", header = T);
lmXY2 = lm(d1$totchol1[1:100] ~ d1$age1[1:100])
lmXY2$coefficients
(Intercept) d1$age1[1:100]
210.1983361 0.5262936
CH_b1 = slope.test(y = d1$totchol1[1:100], x = d1$age1[1:100], test.value = 0, method = "OLS", alpha = 0.05)

plot(d1$age1[1:100], d1$totchol1[1:100], xlab = "Edad", ylab = "Col tot"); abline(lmXY2, col = "red", lwd = 3)
300
Col tot
200
35 40 45 50 55 60 65
Edad
CH_b1$p; CH_b1$ci
[1] 0.2246032
[,1] [,2]
[1,] -0.3283691 1.380956
Modelo de regresión lineal - inferencia en los valores predichos
Observa la siguiente figura (datos inventados)
16
14
12
10
8
6
4 5 6 7 8 9
En gris: valores observados. En azul: valor medio observado.

En rojo: recta de regresión.
x
Para cada valor de x se puede usar el modelo lineal para estimar el valor de y :
1 Estimación puntual (recta, tema 2).
2 Un intervalo para el valor predicho.
3 Un intervalo para el valor medio predicho.
El intervalo de confianza:
Está centrado en el valor predicho por el modelo (sobre la recta).

Contiene la media de las predicciones de y para un valor concreto de x con un nc prefijado.
El intervalo de predicción:
Está centrado en el valor predicho por el modelo (sobre la recta).

Contiene el valor predicho de y para un valor concreto de x con un nc prefijado hecho con el
modelo (no con la recta).
predict(lmXY3, newdata = data.frame(x = 6), level = 0.95, interval = "confidence")
fit lwr upr

1 10.88945 10.69445 11.08445
predict(lmXY3, newdata = data.frame(x = 6), level = 0.95, interval = "prediction")
fit lwr upr

1 10.88945 9.548406 12.2305
fit: valor sobre la recta.

lwr, upr: extremos del correspondiente intervalo.
Bandas de confianza (naranja) y bandas de predicción (azul): es el resultado de yuxtaponer

todos los posibles intervalos de confianza (predicción) calculados a partir de la muestra.
Datos Pima
16
14
12
bmi
10
8
6
4 5 6 7 8 9
skin
Con los valores x = skin e y = bmi del fichero Pima.tr
Datos Pima
60
50
bmi
40
30
20
10 20 30 40 50 60
skin
predict(lmXY5, newdata = data.frame(x = 44), level = 0.95, interval = "confidence")
fit lwr upr

1 40.53982 39.45943 41.62021
predict(lmXY5, newdata = data.frame(x = 44), level = 0.95, interval = "prediction")
fit lwr upr

1 40.53982 29.68806 51.39157
Inferencia, ANOVA, chi-cuadrado y regresión avanzada. Score:
1. Queremos investigar si el hábito de lectura de los padres (medido como "alto",

"medio", "bajo") influye o no en el hábito de lectura de los hijos (medido de la
misma manera). ¿Qué deberíamos hacer?
A Un intervalo de confianza
B Un test chi-cuadrado
C Un contraste de ANOVA
D Un estudio de regresión
E Ninguna de las anteriores
2. Nos preguntamos si la preocupación por el cambio climático (medida como

"alta", "media", "baja") guarda relación con el nivel económico de la población
(medido por el salario neto anual). ¿Qué deberíamos hacer?
3. Sospechamos que el nivel de CO2 en el centro de una pequeña población se ha

incrementado, tras la apertura de algunas urbanizaciones, con respecto al del año
pasado. ¿Qué deberíamos hacer?
E Un contraste de hipótesis sobre las medias
F Ninguna de las anteriores
4. Queremos comparar los registros de temperatura en las provincias de

Castilla-la-Mancha. ¿Qué deberíamos utilizar?
Page 1 of 2
5. Al construir el diagrama de dispersión de dos variables (densidad frente a
diámetro, en un conjunto de hayas), obtenemos el resultado que se muestra en la
figura. Indica qué respuestas te parecen correctas.
A los residuos no son normales
B los residuos no son homocedásticos
C el coeficiente de correlación es negativo
D el porcentaje de variabilidad explicada es bajo
E para valores bajos del diámetro, el modelo lineal podría funcionar.
6. Al estudiar la esperanza de vida entre los enfermos de dos tipos de cáncer, se

obtiene un intervalo de confianza para la diferencia de medias de [-2.034,4.156].
¿Qué podemos decir?
A ambos tipos de cáncer tienen esperanzas de vida similares.
B hay diferencias significativas entre ambas medias.
C Sería más correcto realizar un contraste de hipótesis.
D Sería más correcto realizar un estudio de regresión.
7. Queremos investigar la relación entre el nivel de humedad del suelo, medido en

milímetros de agua por centímetro cuadrado, y la tasa de mortalidad en lombrices
de tierra. ¿Qué deberíamos utilizar?
A Un contraste de ANOVA.
B Un contraste de hipótesis sobre la igualdad de medias.
C Un intervalo de confianza.
D Un estudio de regresión.
E Un test de independencia chi-cuadrado.
Page 2 of 2

Teoría Estadística

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Teoría Estadística

Cargado por

Copyright:

Formatos disponibles

TEMA 6: Contraste ANOVA

RELACIÓN DE DOS VARIABLES

ANÁLISIS PARAMÉTRICO DE UN VALOR

SUMA DE CUADRADOS TOTAL

SUMA DE CUADRADOS DE LOS ERRORES

CONTRASTE DE IGUALDAD DE MEDIAS

CONCLUSIÓN DEL CONTRASTE DE HIPÓTESIS

CONDICIONES PARA REALIZAR EL TEST ANOVA

INDEPENDENCIA DE LAS MUESTRAS

Utilizar la prueba de Cochran

COMPARACIONES DOS A FOS ENTRE LAS MEDIAS

MÉTODOS BASADOS EN RECORRIDOS ESTUDENTIZADOS

Estadística - Biología sanitaria - UAH

Marcos Marvá Ruiz

Estadística - Biología sanitaria - UAH Tema 7 ANOVA - I Marcos Marvá Ruiz 1 / 14

1 Contrastar simultáneamente la igualdad de medias de varias poblaciones.

Secciones 11.1, 11.2 y 11.3 del libro

Estadística - Biología sanitaria - UAH Tema 7 ANOVA - I Marcos Marvá Ruiz 2 / 14

Variable explicativa (independiente)

Notación: variable respuesta ~variable explicativa

Analizaremos la relación entre una variable cualitativa y una cuantitativa

Ejemplo: Cortesía del Hospital Ramón y Cajal

Estadística - Biología sanitaria - UAH Tema 7 ANOVA - I Marcos Marvá Ruiz 4 / 14

H0 : {µ1 = · · · = µk } H1 : {alguna media diferente del resto}

Se trata de la comparación simultánea de 3 o más medias

2 .- Si no son todas las medias iguales: ¿cómo ordenarlas?

Estadística - Biología sanitaria - UAH Tema 7 ANOVA - I Marcos Marvá Ruiz 5 / 14

¿Por qué no hacer varios contrastes de diferencia de (pares de) medias?

Estadística - Biología sanitaria - UAH Tema 7 ANOVA - I Marcos Marvá Ruiz 6 / 14

Se quiere determinar cuál de los productos

Alirón plus Vuelagra Plumiprofeno Elevantolín

es mejor para mejorar el número de aleteos por minuto de los frailecillos.

Aliron Elevantolin Plumiprofeno Vuelagra

Estadística - Biología sanitaria - UAH Tema 7 ANOVA - I Marcos Marvá Ruiz 7 / 14

Aleteos por minuto en función del tratamiento

Aliron Elevantolin Plumiprofeno Vuelagra

Punto rojo: la respuesta media a cada tratamiento.

Estadística - Biología sanitaria - UAH Tema 7 ANOVA - I Marcos Marvá Ruiz 8 / 14

Aleteos por minuto en función del tratamiento

Aliron Elevantolin Plumiprofeno Vuelagra

Dos fuentes de variabilidad:

Nivel del tratamiento (j de 1 a k)

Efecto del tratamiento recibido (nivel del factor) -> modelo

j=1 i=1 j=1 i=1 j=1

SST = SSresidual + SSmodelo (1)

Al dividir (1) entre SST se tiene

Este coeficiente es útil, SIN EMBARGO para hacer el contraste ANOVA

H0 : {µ1 = · · · = µk } H1 : {alguna media diferente del resto}

necesitamos un estadístico del que conozcamos su distribución de probabilidades para calcular

Estadística - Biología sanitaria - UAH Tema 7 ANOVA - I Marcos Marvá Ruiz 12 / 14

Distribución muestral de los componentes del Anova unifactorial

Y1 ∼ N(µ1 , σ), Y2 ∼ N(µ2 , σ), · · · , Yk ∼ N(µk , σ)

El p-valor del contraste es

Estadística - Biología sanitaria - UAH Tema 7 ANOVA - I Marcos Marvá Ruiz 13 / 14

Ejemplo: continuación del ejemplo de los frailecillos

Analysis of Variance Table

a la vista del p-valor, podemos rechazar la hipótesis nula.

Estadística - Biología sanitaria - UAH

Marcos Marvá Ruiz

Estadística - Biología sanitaria - UAH Tema 7 ANOVA - II Marcos Marvá Ruiz 1 / 13

Estadística - Biología sanitaria - UAH Tema 7 ANOVA - II Marcos Marvá Ruiz 2 / 13

1. Independencia de las muestras

Depende de un diseño experimental correcto.