Está en la página 1de 74

TEMA 6: Contraste ANOVA

RELACIÓN DE DOS VARIABLES


Cuando tratamos de predecir una variable “y”, “y” es la variable respuesta y “x” es la variable explicativa
Las variables se clasifican en dos grandes tipos: cuantitativas y cualitativas (factores, con diferentes niveles).
Comparamos la respuesta a los diferentes niveles
Según al tipo de variables que aparezcan en el problema, se requiere el uso de técnicas estadísticas distintas

TEST ANOVA
El análisis de la varianza (o Anova) es un método para comparar dos o más medias,
que es necesario porque cuando se quiere comparar más de dos medias es
incorrecto utilizar repetidamente el contraste basado en la t de Student.
ANOVA es el método que nos permite encontrar diferencias significativas entre el
efecto medio de diferentes niveles de un factor estudiado

ANÁLISIS PARAMÉTRICO DE UN VALOR


FACTOR: se define factor como cada una de las variables que se manipulan en un experimento y que pueden afectar
a la variable en el estudio. Según se hayan elegido los niveles del factor, éste será de tipo fijo o aleatorio
NIVEL DE FACTOR: cada una de las maneras en las que se puede presentar un factor. Los niveles se pueden fijar
por el experimentador o se pueden elegir aleatoriamente
VARIABLE RESPUESTA: una variable cuantitativa que “mide” el resultado del experimento
TRATAMIENTO: combinación de niveles de los distintos factores que pueden intervenir en un experimento. Si sólo
hay un factor, el número de niveles y de tratamientos coinciden

MODELO ANOVA
O Unifactorial porque sólo tenemos en cuenta cómo depende X del tratamiento aplicado sin contar otras variables
O Completamente aleatorio porque los pacientes son asignados de forma aleatoria a cada grupo, sin agruparlos de
ninguna manera
O Efectos fijos porque hemos seleccionado los tratamientos (niveles) que queremos analizar sin elegirlos al azar de
entre un posible conjunto más amplio de tratamientos
DESCRIPCIÓN DEL EXPERIMENTO
Suponemos un experimento en el que se estudia el efecto de un
único factor K, que se presenta con k niveles (o tratamientos)
distintos. Para ello, planteamos el siguiente contraste de hipótesis
El contraste que vamos a utilizar está basado en analizar la variación de la variable respuesta Y. El estimador de
esta variación (SCT^) viene dato por:

SUMA DE CUADRADOS TOTAL


Se define la suma de cuadrados total como la medida de la variabilidad total de los datos mediante la variación
de la variable respuesta Y. Su estimador SCT^ viene dado por:
SUMA DE CUADRADOS DEL FACTOR
Se define la suma de cuadrados del factor como la medida de la variabilidad de los datos atribuida a emplear
tratamientos diferentes, lo que representa la cantidad de la variabilidad explicada por el modelo planteada. También
se le denomina suma de cuadrados entre o entre tratamientos. Su estimador SCF^ vi ene dado por:

SUMA DE CUADRADOS DE LOS ERRORES


Se define la duma de cuadrados de los errores como la medida de la variabilidad de los datos atribuida a las
diferencias aleatorias de los sujetos dentro del mismo nivel del factor, lo que representa la cantidad de variabilidad
de la variable respuesta Y no explicada por el modelo. También se le denomina suma de cuadrados dentro de
grupos o intra-tratamientos. Su estimador SCE^ viene dado por:

CONTRASTE DE IGUALDAD DE MEDIAS


ESTIMADOR Y ESTADÍSTICO DE CONTRASTE

TABLA ANOVA

CONCLUSIÓN DEL CONTRASTE DE HIPÓTESIS


Entonces, una vez fijado el nivel de significación α que se está dispuesto a tolerar:
Si p-valor < α entonces rechazamos Ho y aceptamos H1 como cierta. En estos casos concluiremos, en
consecuencia, que al menos dos de los tratamientos son distintos y , en este caso, tendremos que analizar entre
cuáles existen diferencias con las comparaciones entre medias
Si p-valor >= α entonces no rechazamos Ho y asumimos Ho como cierta. En este caso concluiremos, en
consecuencia, que no existen diferencias entre los tratamientos

CONDICIONES PARA REALIZAR EL TEST ANOVA


Para poder realizar este análisis debe cumplirse:
O Las observaciones son independientes y aleatorias: me lo da el diseño del experimento
O Las muestras siguen una distribución normal  podemos comprobar la normalidad con gráficos como el qqplot
O Todas tienen varianzas iguales (homocedasticidad)  mediante un gráfico de residuos

INDEPENDENCIA DE LAS MUESTRAS


Depende de un diseño experimental correcto. No vamos a entrar en detalles sobre diseño de experimentos,
supondremos que esa independencia está garantizada
NORMALIDAD
O Es la más difícil de verificar (sobre todo con muestras pequeñas)
O El contraste ANOVA de un factor es robusto frente a desviaciones moderadas respecto a la normalidad
O Análisis exploratorio: histogramas, boxplot y qqplots de cada grupo
O Para muestras pequeñas, los histogramas, boxplots, etc. no ayudan

Para muestras normales podemos utilizar histogramas Para probar la simetría podemos usar boxplots

Los qqplots son los muy utilizados para verificar la normalidad Muestras pequeñas provenientes de poblaciones normales

HOMOCEDASTICIDAD
O Si los grupos son todos del mismo tamaño, ANOVA es bastante robusto frente a diferencias no demasiado grandes
en las varianzas. Pero con grupos de distinto tamaño, ligeras diferencias afectan mucho
O Podemos calcular las cuasivarianzas muestrales de cada uno de los grupos, y comprobar si existen grandes
diferencias entre ellas
O Lo más sencillo, recurrir al método gráfico para comprobar si existe dependencia entre la media y la varianza

Utilizar la prueba de Cochran


Requiere que el diseño sea
balanceado (el número de repeticiones
debe ser igual para cada tratamiento)

COMPARACIONES DOS A FOS ENTRE LAS MEDIAS


En el caso de tener diferencias entre los tratamientos debemos empezar a indagar entre qué medias hay diferencias
significativas. Para ello se debe recurrir a métodos de comparación múltiple
MÉTODOS BASADOS EN INTERVALOS DE CONFIANZA SIMULTÁNEOS
En estos métodos se comparan todos los pares de medias
MÉTODO DE LA DIFERENCIA MÍNIMA DE FISHER
Este método también se conoce como método LSD. Este método fue inicialmente propuesto por Fisher, y en él se
utiliza el estadístico F para calcular una diferencia crítica a la que se comparan cada par de promedios
MÉTODO DE BONFERRONI
La corrección de Bonferroni es uno de los varios métodos utilizados para contrarrestar el problema de las
comparaciones múltiples. No es el más preciso pero es muy sencillo y aporta una primera idea de lo que se busca.
El nivel de significación se reparte entre las distintas comparaciones. Es decir, se garantiza que la probabilidad de
cometer un error de tipo I, en el conjunto completo de comparaciones dos a dos, se mantiene por debajo de α. Se
basa en la creación de un umbral, por encima del cual, la diferencia entre las dos medias será significativa y, por
debajo del cual, esa diferencia no será estadísticamente significativa.

MÉTODO DE SCHEFFÉ
La prueba de Scheffé se realiza comparando todos los posibles pares de medias, utilizando para ello el SCE (Suma
de los Cuadrados de los Errores) obtenido en el ANOVA.

MÉTODO DE TUKEY
La prueba Tukey se usa en experimentos que implican un número elevado de comparaciones. Para ello, se define
un solo comparador, resultante del producto del error estándar de la media por el valor tabulado en la tabla de
Tukey, usando como numerador el número de tratamientos y como denominador los grados de libertad del error. Si
las muestras no tienen el mismo tamaño, la prueba se denomina método de Tukey-Kramer.

ANÁLISIS VISUAL
Si el contraste ANOVA ha resultado significativo, y en las comparaciones post-
hoc también hemos detectado diferencias significativas entre pares concretos
de medias, nos preguntamos cuál es la media más grande

BOXPLOTS PARALELOS
Tienen una muesca doble alrededor de la mediana. La anchura de esa muesca es
un análogo de los intervalos de confianza, pero aplicado a la mediana en lugar de la
media. Con esas muescas evaluamos gráficamente si existen diferencias
significativas entre las medianas
REGLA: si los biseles correspondientes a dos niveles no se solapan entre sí (en
vertical), podemos sospechar que existen diferencias significativas entre las
medianas correspondientes a esos dos niveles.

MÉTODOS BASADOS EN RECORRIDOS ESTUDENTIZADOS


En estos métodos no es necesario comparar todos los pares de medias, ya que consiste en realizar comparaciones
que eliminen otras comparaciones

MÉTODO DE NEWMAN-KEULS
Este método utiliza un umbral móvil basado en el número de medias que están implicadas en el recorrido de la resta
de medias comparada, donde el nivel de significación no cambia.

MÉTODO DE DUNCAN
Este método prueba las diferencias entre las medias empezando con la media más grande contra la segunda más
grande, y así sucesivamente, comparando en cada caso con un valor crítico obtenido por tablas. El método de
Duncan tiene mayor error tipo I que el método de Newman-Keuls, que es un test más conservador y presenta menos
potencia que el método de Duncan. Por tanto, si dos medias son distintas para el método de Newman-Keuls,
también lo serán para el método de Duncan
Tema 7 ANOVA - I
Comparación múltiple de medias

Estadística - Biología sanitaria - UAH

Marcos Marvá Ruiz

Estadística - Biología sanitaria - UAH Tema 7 ANOVA - I Marcos Marvá Ruiz 1 / 14


Objetivos

1 Contrastar simultáneamente la igualdad de medias de varias poblaciones.

Secciones 11.1, 11.2 y 11.3 del libro

Estadística - Biología sanitaria - UAH Tema 7 ANOVA - I Marcos Marvá Ruiz 2 / 14


Contexto
Empezamos un nuevo bloque: INFERENCIA EN LA ASOCIACION ENTRE DOS VARIABLES
Consideramos:

Variable explicativa (independiente)


Variable respuesta (dependiente)

Notación: variable respuesta ~variable explicativa

Ejemplos:

11 C ∼ C . en crabs, FL ∼ CL
12 C ∼ F . Descenso Ta (en Co ) ∼ distintos antitérmicos (niveles)
13 F ∼ F . Ser alérgico/no alérgico ∼ tipo de población (rural/urbana)
14 F ∼ C . Sobrevivir o no ∼ ingesta (mg) de cierta sustancia
Estadística - Biología sanitaria - UAH Tema 7 ANOVA - I Marcos Marvá Ruiz 3 / 14
ANOVA

Analizaremos la relación entre una variable cualitativa y una cuantitativa

C (respuesta) ∼ F (explicativa)

Ejemplo: Se toman muestras de aire en estaciones de la D.G. del Medio Ambiente Area de
Calidad Atmosférica - Red de Calidad del Aire en varios municipios de la CAM y se mide la
concentración media de ozono en cada estación

Ejemplo: Cortesía del Hospital Ramón y Cajal


Se quiere evaluar la eficacia de distintas dosis de un fármaco contra la hipertensión arterial y
comparárla con la de una dieta sin sal.

Estadística - Biología sanitaria - UAH Tema 7 ANOVA - I Marcos Marvá Ruiz 4 / 14


ANOVA - el contraste
Hay dos preguntas naturales:

1.- ¿Son todos los tratamientos igual de efectivos? Si µi es la respuesta media al nivel
(tratamiento) i del factor,

H0 : {µ1 = · · · = µk } H1 : {alguna media diferente del resto}

Se trata de la comparación simultánea de 3 o más medias

Comentario: Cuando se rechaza H0 se dice que las variables esán asociadas, pero no que una
influye sobre la otra en el sentido de causa-efecto. Sólo podemos inferir asociación entre variables
(igual que en la regresión).

2 .- Si no son todas las medias iguales: ¿cómo ordenarlas?

Estadística - Biología sanitaria - UAH Tema 7 ANOVA - I Marcos Marvá Ruiz 5 / 14


ANOVA

¿Por qué no hacer varios contrastes de diferencia de (pares de) medias?


Ejercicio: Considera 5 tratamientos antitérmicos diferentes y decides comparar las medias 2 a 2
(cada par de tratamientos).
1 ¿Cuántos contrastes (parejas) habría que hacer?
2 Si en todas las comparaciones el error de tipo I vale 0.05 ¿qué probabilidad hay de cometer
al menos una vez error de tipo I?

Estadística - Biología sanitaria - UAH Tema 7 ANOVA - I Marcos Marvá Ruiz 6 / 14


ANOVA - ejemplo

Se quiere determinar cuál de los productos

Alirón plus Vuelagra Plumiprofeno Elevantolín

es mejor para mejorar el número de aleteos por minuto de los frailecillos.

Se toman 4 m.a. independientes de 100 frailecillos. Cada grupo se trata con un producto
diferente. Los resultados, en aleteos por minuto, están la siguiente tabla (y aquí los datos)

Aliron Elevantolin Plumiprofeno Vuelagra


1 76.65 88.66 87.14 76.74
2 79.36 78.12 82.34 74.72
3 71.83 81.74 94.06 68.61
4 73.24 89.11 88.12 72.84
5 79.73 82.90 84.47 75.83
6 74.50 80.84 83.11 66.81

Estadística - Biología sanitaria - UAH Tema 7 ANOVA - I Marcos Marvá Ruiz 7 / 14


ANOVA - ejemplo

Aleteos por minuto en función del tratamiento


95
90
Aleteos por minuto

85
80
75
70
65

Aliron Elevantolin Plumiprofeno Vuelagra

Tratamiento

Punto rojo: la respuesta media a cada tratamiento.


Linea de puntos: respuesta media sin considerar grupos.
Se observa que:
1 Dentro de cada tratamiento los individuos responden de manera diferente.
2 Comparando tratamientos, en al menos dos la respuesta media está alejada de la media global.

Estadística - Biología sanitaria - UAH Tema 7 ANOVA - I Marcos Marvá Ruiz 8 / 14


ANOVA - ejemplo

Aleteos por minuto en función del tratamiento


95
Aleteos por minuto

85
75
65

Aliron Elevantolin Plumiprofeno Vuelagra

Tratamiento

Dos fuentes de variabilidad:


1 Intra-grupo:
▶ Cada individuo responde de forma diferente al mismo tratamiento.
▶ Comparar la respuesta de cada individuo con la respuesta media de su grupo.
▶ Es la variabilidad debida al azar.
2 Entre-grupos:
▶ Cada grupo responde en promedio de forma diferente a distintos tratamientos.
▶ Comparar la respuesta media de cada grupo con la media sin tener en cuenta grupos.
▶ Si la respuesta es independiente del tratamiento, las medias no deberían ser significativamente
diferentes.
▶ Es la variabilidad debida al modelo.
Estadística - Biología sanitaria - UAH Tema 7 ANOVA - I Marcos Marvá Ruiz 9 / 14
ANOVA - un poco de notación
Hay un factor (v. cualit.) con k niveles (valores diferentes, tratamientos) t1 , t2 , · · · , tk .
Se mide la misma variable cuantitativa en los k grupos.
Tenemos k muestras independientes
Y1 , Y2 , · · · , Yk
Todos los grupos tienen el mismo número de datos n (experimento equilibrado)

Nivel del tratamiento (j de 1 a k)

t1 t2 t3 ··· tk
y11 y12 y13 ··· y1k
Respuestas y21 y22 y23 ··· y2k
y31 y32 y33 ··· y3k
.. .. .. .. ..
. . . . .
yn1 yn2 yn3 ··· ynk

El total de valore es N = k · n

Consideramos, además,
Pk Pn
yij
j=1 i=1
La media total: Ȳ = N
Pn yij
La media de cada nivel (tratamiento): Ȳj = i=1 n
Estadística - Biología sanitaria - UAH Tema 7 ANOVA - I Marcos Marvá Ruiz 10 / 14
ANOVA
Idea: agrupar las variabilidades debidas al azar y al modelo. Al comparar la respuesta de cada
individuo frente a la repuesta media
yij − Ȳ
cuantificar dos aspectos:

Efecto del tratamiento recibido (nivel del factor) -> modelo


Las características individuales -> azar

Podemos escribir    
yij − Ȳ =
|
yij − Ȳ
{z
·} j
+ Ȳ
|
·{z
j
− Ȳ
}
azar modelo

Entonces, se cumple
Identidad de la suma de cuadrados para Anova

k n k n k
XX X X X
2 2 2
(yij − Ȳ ) = (yij − Ȳj ) + n(Ȳj − Ȳ )

j=1 i=1 j=1 i=1 j=1


| {z } | {z } | {z }
SSTotal SSresidual SSmodelo

Ojo: esta esta idea la conoces de la recta de regresión. De hecho, ANOVA se puede ver como un
modelo lineal (11.4 del libro).
Estadística - Biología sanitaria - UAH Tema 7 ANOVA - I Marcos Marvá Ruiz 11 / 14
Contraste Anova

Para cuantificar el peso de cada sumando (azar o modelo), partimos de la identidad ANOVA

SST = SSresidual + SSmodelo (1)


De forma análoga a la recta de regresión, tenemos

Al dividir (1) entre SST se tiene

SSresidual SSmodelo
1= +
SST SST
El coeficiente de determinación es
SSmodelo
r2 =
SST
y es la proporción de la variabilidad total explicada por el modelo

Este coeficiente es útil, SIN EMBARGO para hacer el contraste ANOVA

H0 : {µ1 = · · · = µk } H1 : {alguna media diferente del resto}

necesitamos un estadístico del que conozcamos su distribución de probabilidades para calcular


p-valor, región de rechazo,. . .

Estadística - Biología sanitaria - UAH Tema 7 ANOVA - I Marcos Marvá Ruiz 12 / 14


Contraste Anova

Distribución muestral de los componentes del Anova unifactorial


para el caso de un modelo equilibrado.
Supongamos que
La hipótesis nula H0 : {µ1 = · · · = µk } es cierta.
Todas las muestras son del mismo tamaño:
Si las muestras siguen distribuciones normales con varianzas iguales
(homocedasticidad)

Y1 ∼ N(µ1 , σ), Y2 ∼ N(µ2 , σ), · · · , Yk ∼ N(µk , σ)

Entonces:
SSmodelo /(k − 1)
Ξ= ∼ Fk−1;N−k
SSresidual /(N − k)
donde Fk−1;N−k es la distribución de Fisher-Snedecor con k − 1 y N − k grados
de libertad, N es el total de observaciones.

El p-valor del contraste es


P (Fk−1;N−k > Ξ)

Estadística - Biología sanitaria - UAH Tema 7 ANOVA - I Marcos Marvá Ruiz 13 / 14


La tabla ANOVA
Fuente de Grados de Suma de Cuadrado Estadístico p-valor
variación libertad cuadrados medio

SSmodelo
Modelo k −1 SSmodelo Ξ P(F > Ξ)
k −1

SSresidual
Residuos N−k SSresidual
N−k

Ejemplo: continuación del ejemplo de los frailecillos


datos = read.table(file = "T6_1_frailecillos.csv", sep = " ", header = T)
colnames(datos) <- c("Tratamiento", "Respuesta")
modelo = lm(Respuesta ~ Tratamiento, datos)
anova(modelo)

Analysis of Variance Table

Response: Respuesta
Df Sum Sq Mean Sq F value Pr(>F)
Tratamiento 3 7897.0 2632.32 149.25 < 2.2e-16 ***
Residuals 396 6984.4 17.64
---
Signif. codes:
0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

a la vista del p-valor, podemos rechazar la hipótesis nula.


Estadística - Biología sanitaria - UAH Tema 7 ANOVA - I Marcos Marvá Ruiz 14 / 14
Tema 7 ANOVA - II
Condiciones Anova y comparaciones 2 a 2

Estadística - Biología sanitaria - UAH

Marcos Marvá Ruiz

Estadística - Biología sanitaria - UAH Tema 7 ANOVA - II Marcos Marvá Ruiz 1 / 13


Objetivos

1 Varificar las condiciones para hacer ANOVA. Sección 11.5 del libro.

2 En caso de que haya diferencias significativas, ordenar las medias. Sección 11.6 del libro.

Estadística - Biología sanitaria - UAH Tema 7 ANOVA - II Marcos Marvá Ruiz 2 / 13


Verificación de las condiciones Anova: independencia

1. Independencia de las muestras

Depende de un diseño experimental correcto.


Sabemos poco sobre diseño de experimentos,
supondremos que esa independencia está garantizada
Obviamente, sí sabemos que las muestras no pueden ser pareadas.

Sección 11.5 del libro

Estadística - Biología sanitaria - UAH Tema 7 ANOVA - II Marcos Marvá Ruiz 3 / 13


Verificación de las condiciones Anova: normalidad

2. Normalidad: Xi ∼ N(µi , σ) para cada nivel i del factor

1 Muchas variables se distribuyen normalmente (otras muchas no)


2 El contraste Anova de un factor es robusto frente a desviaciones moderadas respecto a la
normalidad. Es decir, que si se verifican las otras dos condiciones (independencia e igualdad
de varianzas), Anova funciona aunque los datos sean sólo aproximadamente normales.
3 Análisis exploratorio (ojo a la escala): qq-plots (global, pero también de cada grupo si falla).
4 Para muestras pequeñas, histogramas, boxplots, etc. no ayudan
5 También hay contrastes de hipótesis sobre la normalidad de una muestras (en prácticas).

Estadística - Biología sanitaria - UAH Tema 7 ANOVA - II Marcos Marvá Ruiz 4 / 13


Verificación de las condiciones Anova: normalidad
Ejemplo: (el de los frailecillos, normalidad), hacer el qqplot de los datos (a veces se estandarizan,
aunque no es necesario)

Normal Q−Q Plot


2
Sample Quantiles

1
0
−1
−2

−3 −2 −1 0 1 2 3

Theoretical Quantiles

En las prácticas veremos contrastes de hipótesis sobre la normalidad.


Es interesante combinar métodos gráficos (qqplot) y analíticos (contraste).
Estadística - Biología sanitaria - UAH Tema 7 ANOVA - II Marcos Marvá Ruiz 5 / 13
Verificación de las condiciones Anova: homocedasticidad
Ejemplo: el de los frailecillos, homocedasticidad (¿son las varianzas diferentes?). Se pueden usar
métodos Representar residuos por medicamento. Se aprecia dispersiones similares

Residuals vs Fitted

92
10
59
5
Residuals
0
−10 −5

93

72 74 76 78 80 82 84
Fitted values
aov(frai$aleteos ~ frai$medicamento)

En las prácticas veremos contrastes de hipótesis sobre la homocedasticidad.


Es interesante combinar métodos gráficos (qqplot) y analíticos (contraste).
Estadística - Biología sanitaria - UAH Tema 7 ANOVA - II Marcos Marvá Ruiz 6 / 13
Verificación de las condiciones Anova: homocedasticidad

Tres situaciones DIFERENTES en las que no hay homocedasticidad

Residuals vs Fitted Residuals vs Fitted

10
92 59
10

59 229 22
5

5
Residuals

Residuals
0

0
−10 −5

−5
−10
93

72 74 76 78 80 82 84 72 74 76 78 80 82 84
Fitted values Fitted values
aov(frai$aleteos ~ frai$medicamento) aov(frai$aleteos ~ frai$medicamento)

Residuals vs Fitted
10

59
22
5
Residuals
0
−5
−10

383

72 74 76 78 80 82 84
Fitted values
aov(frai$aleteos ~ frai$medicamento)

Estadística - Biología sanitaria - UAH Tema 7 ANOVA - II Marcos Marvá Ruiz 7 / 13


ANOVA significativo: comparaciones 2 a 2 (post hoc)

Suponer que un contraste ANOVA es significativo (no todas las medias son iguales). ¿Qué
medias son significativamente diferentes?
Ejemplo: el de los frailecillos

Aleteos por minuto en función del tratamiento


Aleteos por minuto

65 75 85 95

Aliron Elevantolin Plumiprofeno Vuelagra

Tratamiento

Estadística - Biología sanitaria - UAH Tema 7 ANOVA - II Marcos Marvá Ruiz 8 / 13


ANOVA significativo: comparaciones 2 a 2 (post hoc)

Ejemplo: (continuación)

Analysis of Variance Table

Response: Respuesta
Df Sum Sq Mean Sq F value Pr(>F)
Tratamiento 3 7897.0 2632.32 149.25 < 2.2e-16 ***
Residuals 396 6984.4 17.64
---
Signif. codes:
0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Las medias muestrales son diferentes


aggregate(datos$Respuesta~datos$Tratamiento, FUN = mean)

datos$Tratamiento datos$Respuesta
1 Aliron 78.3993
2 Elevantolin 80.3997
3 Plumiprofeno 84.4001
4 Vuelagra 72.0999

claro, pero las medias poblacionales ¿son significativamente diferentes?

Estadística - Biología sanitaria - UAH Tema 7 ANOVA - II Marcos Marvá Ruiz 9 / 13


ANOVA significativo: comparaciones 2 a 2 (post hoc)

Estrategia
Fijado un nivel de significación α para el ANOVA, se reparte el error tipo I entre las
comparaciones. Es decir, para cada una se toma un nivel de significación más pequeño que el
original de modo que el error tipo I acumulado sea similar a α.
Esto se puede hacer de distintas maneras:
Ajuste de Bonferroni (sección 11.6.1 del libro).
Ajuste de Tuckey
Muchos otros...

El ajuste de Bonferroni es más estricto (conservador) que el de Tuckey Esto quiere decir que de
acuerdo con Bonferroni las diferencias deben ser mayores para ser consideradas significativas.

Estadística - Biología sanitaria - UAH Tema 7 ANOVA - II Marcos Marvá Ruiz 10 / 13


ANOVA significativo: comparaciones 2 a 2 (post hoc)
Ejemplo: Salida de R, ajuste de Bonferroni para los datos de los frailecillos

Aliron Elevantolin Plumiprofeno


Elevantolin 0.005 - -
Plumiprofeno <2e-16 1e-09 -
Vuelagra <2e-16 <2e-16 <2e-16

P value adjustment method: bonferroni

Todas las diferencias son significativas; podemos ordenar las medias poblacionales a partir de las
muestrales

aggregate(datos$Respuesta~datos$Tratamiento, FUN = mean)

datos$Tratamiento datos$Respuesta
1 Aliron 78.3993
2 Elevantolin 80.3997
3 Plumiprofeno 84.4001
4 Vuelagra 72.0999

µVuelgra < µAliron < µElevantolin < µPlumiprofeno


Estadística - Biología sanitaria - UAH Tema 7 ANOVA - II Marcos Marvá Ruiz 11 / 13
ANOVA significativo: comparaciones 2 a 2 (post hoc)
Ejemplo Salida de R, Bonferroni, otros datos, PIZARRA

grupo1 grupo2 grupo3 grupo4 grupo5


grupo2 3.83e-10 - - - -
grupo3 1.000000 1.34e-10 - - -
grupo4 0.175126 9.59e-09 1.000000 - -
grupo5 1.00e-06 1.000000 7.93e-06 0.000229 -
grupo6 0.005100 3.50e-06 0.087394 1.000000 0.008866
P value adjustment method: bonferroni
¿Cómo ordenar las medias, a nivel de significación del 95%?
25
20
respuesta
15
10

grupo1 grupo2 grupo3 grupo4 grupo5 grupo6


Estadística - Biología sanitaria - UAH Tema tratamiento
7 ANOVA - II Marcos Marvá Ruiz 12 / 13
ANOVA significativo: comparaciones 2 a 2 (post hoc)
Ejemplo: salida gráfica de para el ajuste de Tuckey, PIZARRA

Estadística - Biología sanitaria - UAH Tema 7 ANOVA - II Marcos Marvá Ruiz 13 / 13


TEMA 7: CONTRASTE
CHI CUADRADO
TABLAS DE CONTINGENCIA. TEST DE INDEPENDENCIA. CHI CUADRADO – X
RELACIÓN DE DOS VARIABLES
Dos aplicaciones del contraste χ²:
1. Estudiar la relación entre dos factores
2. Averiguar si los datos de una muestra dada se
corresponden o no con una distribución teórica de la que
presuntamente proceden

TABLAS DE CONTINGENCIA
DATOS BIVARIANTES: vienen de la observación simultánea de dos variables (X, Y) en una muestra de n individuos
O Son tablas de doble entrada (bidimensionales) de variables
categóricas
O Se emplean para analizar relaciones entre variables categóricas o
bien explorar la distribución que posee una variable categórica entre
diferentes muestras
La independencia de dos variables consiste en que la distribución
de una de las variables es similar sea cual sea el nivel que
examinemos de la otra. Esto se traduce en una tabla de
contingencia en que las frecuencias de las filas (y las columnas) son
aproximadamente proporcionales. Esto es equivalente a observar
que los porcentajes por columnas (o filas) son similares
Las utilizamos principalmente para representar la relación de dos
variables cualitativas
Queremos analizar si los niveles de un factor siguen cierta
distribución. Para ello, añadiríamos a la tabla los valores marginales

TABLAS DE INDEPENDENCIA
¿Cómo comprobamos si la diferencia entre los resultados obtenidos en mi estudio y los esperados es significativa o
no? → Contraste de hipótesis
- Ho = La proporción de positivos NO DEPENDE de la renta
- Ha = La proporción de positivos DEPENDE de la renta

RELACIÓN ENTRE DOS FACTORES


O En el caso en el que tanto la variable respuesta como la variable explicativa admitan solo dos valores posibles
(tabla 2 × 2), el problema se puede abordar como un contraste de diferencia de proporciones para dos poblaciones.
En este caso, Ho: {p1 = p2}
O Cuando tenemos más de dos valores posibles para la variable respuesta, ya no podemos utilizar métodos hasta
ahora conocidos
O El contraste que hemos visto es unilateral, y debemos fijarnos en la cola derecha de la distribución χ2
(estadístico χ2) para calcular el p-valor

TEST DE INDEPENDENCIA. ESTADÍSTICO χ2 PARA UNA TABLA DE CONTINGENCIA 𝑛1 × 𝑛2


Dada una tabla de contingencia 𝑛1 × 𝑛2, con valores observados 𝑜𝑖j, y valores esperados 𝑒𝑖j, definimos el
estadístico:

𝐻o = El factor 𝐹1 es independiente del factor 𝐹2


Es decir, sumamos un término para cada casilla de la tabla. Entonces, mientras n>30 y ninguno de los valores 𝑒𝑖j sea
menor de 5 (se permite hasta un 20 %), el estadístico E sigue una distribución χ2𝑘, con k= (𝑛1−1) × (𝑛2 − 1) grados de
libertad. El p-valor del contraste es:
TEST DE HOMOGENEIDAD
O Con el test de independencia estudiábamos la posible relación entre dos variables categóricas (factores) F1 y F2
O Ahora sólo hay una variable y queremos decidir si los valores observados se ajustan a una distribución
teórica de probabilidades
Ejemplo: imaginemos que tenemos los resultados de lanzar 5000 veces un dado

¿Es significativa esa diferencia? → Contraste de hipótesis

CONTRASTE DE HIPÓTESIS
Ho: {dado no cargado} = la probabilidad de cada uno de los valores es 1/6
Ha: {dado cargado} = la probabilidad de al menos dos valores no es 1/6
Calculamos el estadístico, siempre que tengamos muestras grandes (n>30) y ei > 5, como:

Nos lleva a rechazar


Ho en favor de H1

TEST DE HOMOGENEIDAD VS. TEST DE INDEPENDENCIA


Homogeneidad e independencia: similitudes
- Comparamos valores observados con valores esperados
- El estadístico de contraste es la suma de:
Homogeneidad e independencia: diferencias
- Independencia: hay dos variables cualitativas
- Homogeneidad: los valores observados y esperados se refieren a una única variable
- Los grados de libertad son diferentes
Tema 8 Contrastes Chi cuadrado
Contrastes de independencia y homogeneidad

Estadística - Biología sanitaria - UAH

Marcos Marvá Ruiz

Estadística - Biología sanitaria - UAH Tema 8 Contrastes Chi cuadrado Marcos Marvá Ruiz 1 / 13
Objetivos

1 Determinar cuándo dos variables cualitativas medidas sobre los mismos individuos son
independientes.

2 Analizar si determinada variable sigue una distribución de probabilidad dada.

Estadística - Biología sanitaria - UAH Tema 8 Contrastes Chi cuadrado Marcos Marvá Ruiz 2 / 13
Contraste de independencia

Ejemplo: Considera las variables cualitativas

Nivel de exposición a cierto contaminante: bajo/medio/alto.


Estatus frente a cierta enfermedad: enfermo/sano

Bajo Medio Alto Total


Enfermo 10 43 167 220
Sano 40 57 233 330
Total 50 100 400 550

Idea: para determinar si las variables son independientes, comparar esa tabla con la tabla de
valores que deberíamos haber observado si las variables fueran independientes.

Observa que hay 2/5 de individuos enfermos y 3/5 de individuos sanos.


Aplicar esta proporción a los 50, 100 y 400 individuos con niveles de exposición bajo, medio
y alto.

Estadística - Biología sanitaria - UAH Tema 8 Contrastes Chi cuadrado Marcos Marvá Ruiz 3 / 13
Contraste de independencia
En la siguiente tabla, teniendo en cuenta los valores marginales ¿cuántas celdas hay que
completar para que el resto queden unívocamente determinadas?

Bajo Medio Alto Total


Enfermo 220
Sano 330
Total 50 100 400 550

Ese número se conoce “grados de libertad”.

¿Qué deberíamos haber observado si las variables fueran independientes?


Valores esperados: recuerda que hay 2/5 de enfermos y 3/5 de sanos.

Bajo Medio Alto Total


Enfermo 50*2/5 = 20 40 160 220
Sano 50*2/5 = 30 60 240 330
Total 50 100 400 550

¿Cómo medir el nivel de discrepancia entre los valores observados y esperados? llamaremos
oij valor observado de los niveles i y j de las variables.
eij valor esperado (si las variables fueran independientes) de los niveles i y j de las variables.
Da igual qué variable esté en las filas y cuál en las columnas, pero en las dos tablas con la misma
estructura.
Estadística - Biología sanitaria - UAH Tema 8 Contrastes Chi cuadrado Marcos Marvá Ruiz 4 / 13
Contraste de independencia

Test de independencia
Estadístico χ2 para una tabla de contingencia n1 × n2
Se miden 2 variables cualitativas sobre el mismo conjunto de n individuos, se obtiene
una tabla de contingencia n1 × n2 , con valores observados oij , y valores esperados eij ,
definimos el estadístico:
n1 n2
X X (oij − eij )2 X (observado − esperado)2
Ξ= =
eij esperado
i=1 j=1 tabla

Entonces, si n > 30 y eij ≥ 5, el estadístico Ξ sigue una distribución χ2k , con

k = (n1 − 1)(n2 − 1)

grados de libertad. El p-valor del contraste

H0 : {El factor F1 es independiente del factor F2 }


 
es P χ2(n >Ξ
1 −1)(n2 −1)

Estadística - Biología sanitaria - UAH Tema 8 Contrastes Chi cuadrado Marcos Marvá Ruiz 5 / 13
Contraste de independencia

(tabla = matrix(c(10, 43, 176, 40, 57, 233),


nrow = 2,
byrow = T))

[,1] [,2] [,3]


[1,] 10 43 176
[2,] 40 57 233

chisq.test(tabla)

Pearson’s Chi-squared test

data: tabla
X-squared = 9.9809, df = 2, p-value = 0.006802

Con este p-valor, se rechaza H0: las variables son independientes

Estadística - Biología sanitaria - UAH Tema 8 Contrastes Chi cuadrado Marcos Marvá Ruiz 6 / 13
Contraste de homogeneidad

El objetivo es contrastar si una variable aleatoria sigue (o no) una determinada distribución de
probabilidad.

Aunque se emplea para variables discretas y continuas, se recomienda su uso con las discretas y
hay quienes desaconsejan utilizar esta técnica con variables continuas.

Vamos con un par de ejemplos

Estadística - Biología sanitaria - UAH Tema 8 Contrastes Chi cuadrado Marcos Marvá Ruiz 7 / 13
Contraste de homogeneidad
Ejemplo: cuando se localiza un fragmento de ADN, una vez secuenciado, una prueba preliminar
para decidir si es funcional o no consiste en analizar si el contenido en nucleótidos es uniforme
Factor: nucleótido.
Niveles: A - T - C - G.
Distribución teórica (caso no funcional): frecuencias relativas = 1/4 - 1/4 - 1/4 - 1/4
Veamos si el genoma del bacteriófago ΦX174, primer genoma basado en ADN secuenciado
(1977), supera esta prueba. Usaremos el paquete ape del proyecto Bioconductor y su número de
acceso en la base de datos GenBank del NCBI para descargar su genoma (esto ya lo hicimos
cuando trabajamos con variables aleatorias discretas):
if (!requireNamespace("ape", quietly = TRUE)){install.packages("ape") }
library(ape)

# guardar el identificador del genoma


myID <- c("NC_001422.1")

# descargar el genoma
mySequence <- read.GenBank(access.nb = myID, seq.names = myID,
species.names = TRUE, as.character = TRUE)

# tabla de frecuencias
table(mySequence$NC_001422.1)

a c g t
1291 1157 1254 1684
Estadística - Biología sanitaria - UAH Tema 8 Contrastes Chi cuadrado Marcos Marvá Ruiz 8 / 13
Contraste de homogeneidad
Continuación: Calculamos los valores que deberíamos haber observado la distribución de
nucleótidos fuera uniforme. Como hay

length(mySequence$NC_001422.1)

[1] 5386

bases, en caso de independencia se esperan

length(mySequence$NC_001422.1)/4

[1] 1346.5

bases de cada tipo.


Valores esperados

A C G T
e1 = 1346.5 e1 = 1346.5 e1 = 1346.5 e1 = 1346.5

¿Cómo medir el nivel de discrepancia entre los valores observados y esperados? llamaremos

oi valor observado del nivel i de la variable.


ei valor esperado (si sigue la dstribución teórica de probabilidades) del nivel i de la variable.
Estadística - Biología sanitaria - UAH Tema 8 Contrastes Chi cuadrado Marcos Marvá Ruiz 9 / 13
Contraste de homogeneidad

Contraste de hipótesis χ2 de homogeneidad (bondad del ajuste)


Sea X una variable aleatoria con función de densidad
Valor x1 x2 ··· xk
Probabilidad p1 p2 ··· pk

Dada una muestra de tamaño n con valores observados:


Valor x1 x2 ··· xk Total
Frecuencia o1 o2 ··· ok n

y dados los valores esperados


e 1 = n · p1 , e2 = n · p2 , ..., e k = n · pk
el estadístico
k
(oj − ej )2
X
2
Ξ= sigue una distribución χn−1
ej
j=1

siempre que n > 30, ej ≥ 5, ∀j y que sea cierta


H0 : {Los niveles de distribuyen según p1 , · · · , pk }

El p-valor del contraste es P χ2n−1 > Ξ

Estadística - Biología sanitaria - UAH Tema 8 Contrastes Chi cuadrado Marcos Marvá Ruiz 10 / 13
Contraste de homogeneidad

Ejemplo: (continuación)
chisq.test(table(mySequence$NC_001422.1), p = c(1/4, 1/4, 1/4, 1/4))

Chi-squared test for given probabilities

data: table(mySequence$NC_001422.1)
X-squared = 119.91, df = 3, p-value < 2.2e-16

Se rechaza H0, y se asume que la distribución de nucleótidos no es uniforme.

Estadística - Biología sanitaria - UAH Tema 8 Contrastes Chi cuadrado Marcos Marvá Ruiz 11 / 13
Contraste de homogeneidad

Ejemplo En su famoso experimento con guisantes, Mendel esperaba

H0 : {plisa = 0.75, prugosa = 0.25}

Obtuvo 7324 semillas clasificadas como

Semilla lisa rugosa total


Frec abs o1 = 5474 o2 = 1850 7324
Frec rel 0.7474 0.2526 1

chisq.test(c(5474,1850), p = c(3/4, 1/4))

Chi-squared test for given probabilities

data: c(5474, 1850)


X-squared = 0.26288, df = 1, p-value = 0.6081

Mendel no encontró motivos para dudar de su hipótesis (no existía el contraste Chi cuadrado).

Estadística - Biología sanitaria - UAH Tema 8 Contrastes Chi cuadrado Marcos Marvá Ruiz 12 / 13
Contrastes de independencia y de homogeneidad

Similitudes
Comparamos valores observados con valores esperados (si H0 cierta)
El estadístico de contraste es la suma de

(observado - esperado)2
esperado

extendido a todas las celdas de la tabla y sigue una χ2

Diferencias
Independencia: hay 2 variables cualitativas.
Homogeneidad: los valores observados y esperados (teóricos) se refieren a una única variable.

Estadística - Biología sanitaria - UAH Tema 8 Contrastes Chi cuadrado Marcos Marvá Ruiz 13 / 13
Tema 8: El modelo de regresión lineal, Regresión avanzada.
Ver tema 2 para intro

Para estar totalmente seguro del que el modelo es el adecuado, tenemos que analizar más a
fondo los residuos. Al analizar los residuos podemos descubrir:

-Que el modelo funciona para cierto rango de los valores del regresor, pero no para todos.

-Que es mejor separar los datos conforme a un cierto criterio (sexo, zona…)

-Que necesitamos considerar más regresiones y movernos a un modelo más complejo:


regresión múltiple.

-Que no podemos utilizar un modelo lineal sino de otro tipo.

Cuando una variable sí se explica bien con un modelo lineal:

𝑌 = 𝛽0 + 𝛽1𝑋 + 𝜖
Donde 𝜖 recibe el nombre de residuo.

Hipótesis del modelo:

● 𝜖 = (0,1): residuos normales, lo comprobaremos con un QQplot.

● Homocedasticidad: la varianza de los residuos es la misma para todos los valores de yi . Lo


comprobaremos mediante el diagrama de dispersión.

Los valores b0, b1 (muestrales) que calculamos para la recta de regresión Y = b0 +b1X no son
más que estimaciones del verdadero valor de β0, β1.

Podemos realizar un test H0: β1 = 0; H1 : β1 6= 0 para ver si hay linealidad o no (es decir, si es
adecuado o no un modelo lineal); recordemos que:

En lugar de calcular estimaciones puntuales de β0, β1 (es decir, b0, b1) podemos calcular
intervalos de confianza para β0, β1.

De ese modo, en lugar de estimaciones puntuales para 𝑦^i (es decir, 𝑦^i = b0 + b1xi) podemos
predecir utilizando intervalos de confianza.
1. Fuentes de variabilidad:
-Señal: (patrón que estamos buscando) asociación lineal.

-Ruido: Variabilidad individual, variables no consideradas

Disponemos de:

-Valores observados (xj, yj)

-Valores predichos 𝑦^j

-Respuesta media 𝒚
¯

Reagrupando términos, se verifica la identidad ANOVA (Analysis of variance)


→Coeficientes de correlación r y determinación r2

Propiedades de los coeficientes de correlación r y determinación r2


2. Modelo de regresión lineal - inferencia
Disponemos de una muestra de (pares de) valores (x1, y1), · · · , (xn, yn)

Sabemos:

• Calcular una recta:

-Predecir valores no observados.

-Su pendiente indica “cuánto” responde la variable respuesta.

• r2 cuantifica la variabilidad explicada por el modelo.

Rectas calculadas con 4 muestras de la misma población:

Con cada muestra (x1, y1), · · ·, (xn, yn) la recta de regresión “muestral”

es una “manifestación” del modelo teórico (poblacional)

Para cada muestra los coeficientes de esa recta de regresión: b0 b1


son estimadores de los coeficientes de la recta teórica: β0 β1

-Si conocemos la distribución de probabilidad de un estadístico que involucre a los bi y βi:

• Intervalo de conf para estimar β0 y β1

• Intervalo de conf para las predicciones puntuales hechas con la recta

• Contraste de hipótesis sobre β0 y β1


Un estadístico para β1:

Si se cumplen las hipótesis del modelo de regresión lineal simple

no hay que saberlo

Con esto se puede

-Calcular IC β1

-Contrastar H1: β1 ≠0

p-valor

IC
Además:

-Fijado x, intervalo de confianza para el valor medio predicho de la variable respuesta

-Fijado x, intervalo de predicción para el valor predicho para la variable respuesta

Como analizar la existencia o no de relación (dependencia/independencia) de dos variables:

Cuantitativa/Cuantitativa: Regresión.

Cuantitativa/Cualitativa: ANOVA.

Cualitativa/Cualitativa: Chi-cuadrado
Tema 9: El modelo de regresión lineal
Inferencia sobre la recta de regresión

Estadística - Biología sanitaria - UAH

Marcos Marvá Ruiz

Estadística - Biología sanitaria - UAH Tema 9: El modelo de regresión lineal Marcos Marvá Ruiz 1 / 13
Objetivos

1 Varificar las condiciones para hacer ANOVA. Sección 11.5 del libro.

2 En caso de que haya diferencias significativas, ordenar las medias. Sección 11.6 del libro.

Estadística - Biología sanitaria - UAH Tema 9: El modelo de regresión lineal Marcos Marvá Ruiz 2 / 13
Modelo de regresión lineal vs regresión por mínimos cuadrados
Disponemos de una muestra de (pares de) valores (x1 , y1 ), · · · , (xn , yn ). Con la recta de regresión:
Predecir valores no observados.
Su pendiente indica “cuánto” responde la variable respuesta.

¡¡TODO DEPENDE DE LA MUESTRA OBTENIDA!!

4 rectas calculadas con 4 muestras extraídas de la misma población


18

18

18

18
16

16

16

16
14

14

14

14
12

12

12

12
5 6 7 8 9 10 5 6 7 8 9 10 5 6 7 8 9 10 5 6 7 8 9 10

¿Qué b0 , b1 , r 2 son los más adecuados?

¿Existe una recta “poblacional”?

Situación análoga al caso de la media/varianza/proporción muestral y poblacional. GeoGebra

Sección 10.4 del libro


Estadística - Biología sanitaria - UAH Tema 9: El modelo de regresión lineal Marcos Marvá Ruiz 3 / 13
Modelo de regresión lineal vs regresión por mínimos cuadrados

Con cada muestra (x1 , y1 ), · · · , (xn , yn ) la recta de regresión

y (x ) = b0 + b1 x

es una “realización” (estimación) del modelo te'orico (poblacional)

Y = β0 + β1 X + ϵ
donde ϵ indica un cierto error aleatorio.
Para cada muestra los coeficientes de esa recta de regresión (los del tema 2)

b0 b1

son estimadores de los coeficientes de la recta teórica

β0 β1

Buscamos la distribución de probabilidad de un estadístico que combine a bi y βi :


Intervalo de confianza para estimar β0 y β1 .
Intervalo de confianza para las predicciones hechas con la recta.
Contraste de hipótesis sobre β0 y β1 .

Estadística - Biología sanitaria - UAH Tema 9: El modelo de regresión lineal Marcos Marvá Ruiz 4 / 13
Modelo de regresión lineal: hipótesis

Son las mismas que las de ANOVA


1 Observaciones (datos) independientes: supondremos que es así.
2 Residuos normales y homocedásticos: comprobar que los residuos ej ∼ N(0, σ)

En la práctica, para comprobar las hipótesis se combinan


Gráficos de diagnóstico: QQ-plot y dispersión de los residuos
Contrastes paramétricos/no paramétricos
Se suelen usar varios métodos a la vez: lo haremos en prácticas

Estadística - Biología sanitaria - UAH Tema 9: El modelo de regresión lineal Marcos Marvá Ruiz 5 / 13
Modelo de regresión lineal: hipótesis

Ejemplo: Anchura (CW) y longitud (CL) del caparazon de los cangrejos de crabs. Comprobar
condiciones del modelo lineal.
library(MASS); longitud = crabs$CL; anchura = crabs$CW
(modelo = lm(longitud ~ anchura))

Call:
lm(formula = longitud ~ anchura)

Coefficients:
(Intercept) anchura
-0.6619 0.8998

Standardized residuals
Residuals vs Fitted Normal Q−Q
2

142 145 142 145

2
Residuals

1
0

0
−2
70
−2

70

15 20 25 30 35 40 45 −3 −2 −1 0 1 2 3

Fitted values Theoretical Quantiles

Parecen cumplirse las condiciones

Estadística - Biología sanitaria - UAH Tema 9: El modelo de regresión lineal Marcos Marvá Ruiz 6 / 13
Modelo de regresión lineal - un estadístico para β1

Si se cumplen las hipótesis del modelo de regresión lineal simple

Estadístico para β1 , la pendiente de la recta teórica de regresión


El estadístico
b1 − β1
Ξ= r ∼ tn−2 (1)
ECM
(n − 2)s 2 (x )
sigue una distribución t de Student con n − 2 grados de libertad.

Esto permite

1 Calcular intervalo de confianza para β1


2 Contrastes sobre β1 .
▶ El contraste más habitual es H0 : β1 = 0; caso de rechazarse, se puede asumir que las variables
varían conjuntamente, que la variable respuesta no es uniforme en relación a la explicativa (caso de
pendiente no diferente de 0).

Estadística - Biología sanitaria - UAH Tema 9: El modelo de regresión lineal Marcos Marvá Ruiz 7 / 13
Modelo de regresión lineal - un estadístico para β1
Ejemplo: fichero Crabs, longitud y anchura caparazon, calcular IC, H0 : β1 = 0.91, nc = 0.99:
library(MASS); library(smatr); par(mar = c(4, 4, 0, 0))
lmXY = lm(crabs$CL ~ crabs$CW)
lmXY$coefficients

(Intercept) crabs$CW
-0.6619479 0.8998462
CH_b1 = slope.test(crabs$CL, crabs$CW, test.value = 0.91, method = "OLS", alpha = 0.01)
plot(crabs$CW, crabs$CL, xlab = "Anchura", ylab = "Longitud"); abline(lmXY, col = "red", lwd = 3)
45
35
Longitud

25
15

20 30 40 50

Anchura
CH_b1$p; CH_b1$ci

[1] 0.1144619

[,1] [,2]
[1,] 0.883189 0.9165034

Estadística - Biología sanitaria - UAH Tema 9: El modelo de regresión lineal Marcos Marvá Ruiz 8 / 13
Modelo de regresión lineal - un estadístico para β1
Ejemplo: Frahminham, edad frente a colesterol de los 100 primeros datos, calcular IC,
H0 : β1 = 0, nc = 0.95
library(smatr); par(mar = c(3,3,0,0))
d1 = read.table(file = "datos/FraminghamDataSet.csv", sep = ";", header = T);
lmXY2 = lm(d1$totchol1[1:100] ~ d1$age1[1:100])
lmXY2$coefficients

(Intercept) d1$age1[1:100]
210.1983361 0.5262936

CH_b1 = slope.test(y = d1$totchol1[1:100], x = d1$age1[1:100], test.value = 0, method = "OLS", alpha = 0.05)


plot(d1$age1[1:100], d1$totchol1[1:100], xlab = "Edad", ylab = "Col tot"); abline(lmXY2, col = "red", lwd = 3)
300
Col tot

200

35 40 45 50 55 60 65

Edad
CH_b1$p; CH_b1$ci

[1] 0.2246032

[,1] [,2]
[1,] -0.3283691 1.380956

Estadística - Biología sanitaria - UAH Tema 9: El modelo de regresión lineal Marcos Marvá Ruiz 9 / 13
Modelo de regresión lineal - inferencia en los valores predichos
Observa la siguiente figura (datos inventados)
16
14
12
10
8
6

4 5 6 7 8 9

En gris: valores observados. En azul: valor medio observado.


En rojo: recta de regresión.
x
Para cada valor de x se puede usar el modelo lineal para estimar el valor de y :
1 Estimación puntual (recta, tema 2).
2 Un intervalo para el valor predicho.
3 Un intervalo para el valor medio predicho.
Estadística - Biología sanitaria - UAH Tema 9: El modelo de regresión lineal Marcos Marvá Ruiz 10 / 13
Modelo de regresión lineal - inferencia en los valores predichos

El intervalo de confianza:

Está centrado en el valor predicho por el modelo (sobre la recta).


Contiene la media de las predicciones de y para un valor concreto de x con un nc prefijado.

El intervalo de predicción:

Está centrado en el valor predicho por el modelo (sobre la recta).


Contiene el valor predicho de y para un valor concreto de x con un nc prefijado hecho con el
modelo (no con la recta).
predict(lmXY3, newdata = data.frame(x = 6), level = 0.95, interval = "confidence")

fit lwr upr


1 10.88945 10.69445 11.08445

predict(lmXY3, newdata = data.frame(x = 6), level = 0.95, interval = "prediction")

fit lwr upr


1 10.88945 9.548406 12.2305

fit: valor sobre la recta.


lwr, upr: extremos del correspondiente intervalo.

Estadística - Biología sanitaria - UAH Tema 9: El modelo de regresión lineal Marcos Marvá Ruiz 11 / 13
Modelo de regresión lineal - inferencia en los valores predichos

Bandas de confianza (naranja) y bandas de predicción (azul): es el resultado de yuxtaponer


todos los posibles intervalos de confianza (predicción) calculados a partir de la muestra.

Datos Pima
16
14
12
bmi

10
8
6

4 5 6 7 8 9

skin

Estadística - Biología sanitaria - UAH Tema 9: El modelo de regresión lineal Marcos Marvá Ruiz 12 / 13
Modelo de regresión lineal - inferencia en los valores predichos
Con los valores x = skin e y = bmi del fichero Pima.tr

Datos Pima
60
50
bmi

40
30
20

10 20 30 40 50 60

skin
predict(lmXY5, newdata = data.frame(x = 44), level = 0.95, interval = "confidence")

fit lwr upr


1 40.53982 39.45943 41.62021
predict(lmXY5, newdata = data.frame(x = 44), level = 0.95, interval = "prediction")

fit lwr upr


1 40.53982 29.68806 51.39157
Estadística - Biología sanitaria - UAH Tema 9: El modelo de regresión lineal Marcos Marvá Ruiz 13 / 13
Inferencia, ANOVA, chi-cuadrado y regresión avanzada. Score:

1. Queremos investigar si el hábito de lectura de los padres (medido como "alto",


"medio", "bajo") influye o no en el hábito de lectura de los hijos (medido de la
misma manera). ¿Qué deberíamos hacer?
A Un intervalo de confianza

B Un test chi-cuadrado

C Un contraste de ANOVA

D Un estudio de regresión

E Ninguna de las anteriores

2. Nos preguntamos si la preocupación por el cambio climático (medida como


"alta", "media", "baja") guarda relación con el nivel económico de la población
(medido por el salario neto anual). ¿Qué deberíamos hacer?
A Un intervalo de confianza

B Un test chi-cuadrado

C Un contraste de ANOVA

D Un estudio de regresión

E Ninguna de las anteriores

3. Sospechamos que el nivel de CO2 en el centro de una pequeña población se ha


incrementado, tras la apertura de algunas urbanizaciones, con respecto al del año
pasado. ¿Qué deberíamos hacer?
A Un intervalo de confianza

B Un test chi-cuadrado

C Un contraste de ANOVA

D Un estudio de regresión

E Un contraste de hipótesis sobre las medias

F Ninguna de las anteriores

4. Queremos comparar los registros de temperatura en las provincias de


Castilla-la-Mancha. ¿Qué deberíamos utilizar?
A Un intervalo de confianza

B Un test chi-cuadrado

C Un contraste de ANOVA

D Un estudio de regresión

E Ninguna de las anteriores

Page 1 of 2
5. Al construir el diagrama de dispersión de dos variables (densidad frente a
diámetro, en un conjunto de hayas), obtenemos el resultado que se muestra en la
figura. Indica qué respuestas te parecen correctas.
A los residuos no son normales

B los residuos no son homocedásticos

C el coeficiente de correlación es negativo

D el porcentaje de variabilidad explicada es bajo

E para valores bajos del diámetro, el modelo lineal podría funcionar.

6. Al estudiar la esperanza de vida entre los enfermos de dos tipos de cáncer, se


obtiene un intervalo de confianza para la diferencia de medias de [-2.034,4.156].
¿Qué podemos decir?
A ambos tipos de cáncer tienen esperanzas de vida similares.

B hay diferencias significativas entre ambas medias.

C Sería más correcto realizar un contraste de hipótesis.

D Sería más correcto realizar un estudio de regresión.

7. Queremos investigar la relación entre el nivel de humedad del suelo, medido en


milímetros de agua por centímetro cuadrado, y la tasa de mortalidad en lombrices
de tierra. ¿Qué deberíamos utilizar?
A Un contraste de ANOVA.

B Un contraste de hipótesis sobre la igualdad de medias.

C Un intervalo de confianza.

D Un estudio de regresión.

E Un test de independencia chi-cuadrado.

Page 2 of 2

También podría gustarte