Documentos de Académico
Documentos de Profesional
Documentos de Cultura
09 Guiones Bioestadistica CAP.9
09 Guiones Bioestadistica CAP.9
Individuo nº 1 2 …… n
Valor de A o de x x x …… x
Valor de B o de y x x …… x
IX.1. Introducción
IX.1.1. Objetivos (R.9.1.a)
• En las Ciencias Exactas la relación entre dos variables puede ser exacta: conocido el
valor de una de ellas se conoce exactamente el de la otra:
1/V
¡la relación es determinista! (conocido el valor de V se conoce perfectamente el valor
de P) ⇒ la estadística NO se preocupa de eso.
• En la Estadística la relación es aleatoria: conocido el valor de una variable (x) se
conoce el de la otra (y) sólo de un modo aproximado. Ello sucede en las Ciencias de la
Salud por dos motivos:
→ Por la variabilidad biológica de los objetos muestrales (la estatura y depende de
más cosas que de solo la edad x).
114 IX.- REGRESIÓN LINEAL SIMPLE
• Dadas n parejas de valores (xi; yi) obtenidos de una muestra, su representación por
puntos en el plano cartesiano da lugar a una nube de puntos (como en las figuras de
abajo) que será útil para varias cosas.
• Si a ella se ajusta alguna curva se dice que existe regresión, a la curva se le llama
línea de regresión y a la función que la representa se le llama función de regresión: en
las Figuras 9.1 (a), (b) y (c) SÍ/SÍ/NO existe regresión. La función de regresión será
del tipo y = 3 + 2x − 5x2 por ejemplo.
y y y
x x x
x x
• Lineal simple: si y vs. x se relacionan mediante una línea recta (¡lo que veremos en
este capítulo!). Aunque lo parezca, no es demasiada restricción.
• Curvilínea: si y vs. x se relacionan mediante una línea curva (veremos algo aquí, pero
es un concepto para la asignatura optativa).
• Múltiple: si y se relaciona no sólo con una variable x, sino con varias (x1, x2, …, xK).
Se verá en la asignatura optativa.
¡cada caso está contenido en el siguiente!
Ejemplo clásico
• y = “número de nacimientos en Inglaterra” vs. x = “producción de hierro dulce en
EEUU” ⇒ en varios años da una línea casi perfecta que parece implicar una casi total
relación entre ambas ⇒ ¡absurdo! ⇒ ¡relación falsa! provocada por no contemplar:
z = año de cada medida
pues si z (tiempo) ↑ ⇒ x (hierro) ↑ + y (nacimientos) ↓ ⇒ de rechazo parece que
{x (hierro) ↑ ⇒ y (nacimientos) ↓} ¡falso!
r = −1
(e)
116 IX.- REGRESIÓN LINEAL SIMPLE
x
0 1
• Interpretación:
→ a = altura en el origen o término independiente ⇒ a = 2 (valor de y cuando x = 0).
→ b = pendiente de la recta ⇒ b = 3 (lo que crece y cuando x aumenta en una unidad).
→ Ambos: coeficientes de la recta.
• Más sobre la pendiente:
y y y
x x x
b>0 b<0 b=0
→ b > 0 ≡ Asociación + ≡ {Si x↑ ⇒ y↑}.
→ b < 0 ≡ Asociación − ≡ {Si x↑ ⇒ y↓}.
BIOESTADÍSTICA – GRADO – MEDICINA, ENFERMERÍA 117
• Sean x = “edad de un niño (en meses)” e y = “estatura del niño (en centímetros)”.
• Para cada valor de x (x = 5 por ej.), los infinitos valores de y seguirán una distribución
que se asume es la Normal ⇒ hipótesis de Normalidad.
• Tal distribución tendrá una media µx: se asume es µ x = α + β x ⇒ las medias están en
de homogeneidad de varianzas.
y x → N {µ x = α + β x;σ } ≡ Figura 9.2 (9.1)
E (y )= α + β x
µx = α + βx
x
Figura 9.2
Ilustración gráfica del modelo de regresión lineal
⇓
• Para cada valor de x, la variable y sigue una distribución Normal de media α +βx y de
varianza σ2 (independiente de x), en donde:
→ α = altura en el origen poblacional (altura en que corta la recta al eje vertical, es
decir cuando x = 0 ≡ estatura media de los niños al nacer),
→ β = pendiente poblacional (lo que aumenta la media de y cuando x aumenta en
una unidad ≡ incremento de la estatura media de los niños por cada mes que pasa).
→ σ2 = varianza poblacional (variabilidad de y alrededor de la recta de regresión),
→ µx = α +βx = recta de regresión poblacional.
• α, β y σ2 son desconocidos ⇒ estimarlos a través de una muestra de n niños de
valores (xi; yi) como los de la Tabla 9.1 (a):
→ α̂ = a = altura en el origen muestral, experimental o estimada,
1 3 55 61,0 −6,0
2 6 68 68,3 −0,3
3 5 64 65,8 −1,8
4 5 66 65,8 0,2
5 3 62 61,0 1,0
6 4 65 63,4 1,6
7 9 74 75,6 −1,6
8 8 75 73,2 1,8
9 9 73 75,6 −2,6
10 7 69 70,7 −1,7
11 6 73 68,3 4,7
12 5 68 65,8 2,2
13 8 73 73,2 −0,2
14 6 71 68,3 2,7
Totales 84 =Σxi 956 =Σyi 956 =Σŷi 0 =Σdi
• ¿Qué valor tendrá la estatura y de un niño con x meses de edad? ≈ α+βx (la media de y
en x) ⇒ estimada por ŷ = a+bx ⇒ ŷ = 53,65 + 2,44x en Tabla 9.1 (b).
• Niño nº 1:
→ Debería tener: ŷ1 = 53,65 + 2,44×3 = 61,0 cm.
→ Tiene: y1 = 55.
→ Discrepancia (residual): d1 = y1− ŷ1 = 55−61,0 = −6 (mide la bondad de la recta
para predecir la estatura en base a la edad).
• Dos últimas columnas de la Tabla 9.1 (a) contiene los valores de:
→ Las predicciones ŷi : ¡observar que Σyi = Σŷi ! + Sucederá siempre.
→ y: ha de ser variable aleatoria (¡es Normal!) ⇒ sus valores han de elegirse al azar.
→ x: no viene obligada a nada.
⇓
y = Variable a predecir ≡ Sus valores elegidos al azar
(¡no siempre es factible, como se verá!)
Tipos de muestreo
• α, β y σ son desconocidos ⇒ habrá que estimarlos a partir de una muestra de n niños
⇒ necesitamos de n parejas de datos (xi; yi) como los de la Tabla 9.1.
• Ellos pueden obtenerse por dos tipos de muestreo (similares al capítulo anterior):
→ Muestreo de Tipo I: Tomar n individuos al azar y anotar sus valores de x e y
(tomar n =14 niños al azar y anotar sus edades xi y sus estaturas yi) ⇒
(xi; yi) se eligen al azar (≡ Transversal) como en la Tabla 9.1 (a).
→ Muestreo de Tipo II: Tomar n valores de x elegidos de antemano (que no tienen
porqué ser todos distintos) y obtener un valor de y al azar en cada uno de tales x
(tomar un niño de 1 mes, otro de 2 meses, etc. y anotar sus estaturas) ⇒
xi = fijados, yi = al azar (≡ Prospectivo/Retrospectivo).
• ¡Se omite “elegir y + obtener al azar los x”!: y ha de ser variable aleatoria ⇒ los
valores de y han de ser obtenidos al azar (la regresión ha de ser de “y sobre x”).
c u rv o
lin e a l
c u rv o
x1 x2 x
Comprobación de la Normalidad
• La variable y debe ser continua.
• Para hacer el test de Normalidad hace falta tener datos repetidos (varios valores de y
en cada valor de x) y aplicarlo en cada uno de estos conjuntos de valores y.
• La técnica de regresión lineal es robusta ante la ausencia de Normalidad (si esta es
moderada).
Linealidad + Homogeneidad: por la nube de puntos normal
• Linealidad: debe ajustarse a una recta: Fig. 9.1 (a) = SÍ; Fig. 9.1 (b) = NO.
• Homogeneidad: debe tener igual anchura en cada x: Fig. 9.4 = NO.
BIOESTADÍSTICA – GRADO – MEDICINA, ENFERMERÍA 121
y y
x x
ŷ
Figura 9.4 x Figura 9.5 Figura 9.6 ŷ
La varianza de y aumenta al El modelo de regresión lineal Las varianzas no son
aumentar el valor de x es correcto. homogéneas.
y y
80
75
(x; y) real
70 y
d = y − yˆ
65 ŷ
ˆ predicho
(x; y)
60
55
x x
x
3 4 5 6 7 8 9 10
(a) Nube de puntos para los datos de la (b) Ampliación de uno de los puntos de la
Tabla 9.1 (a), recta de mejor ajuste y figura anterior.
desviaciones de la misma (trazos verticales)
Figura 9.7
IX.3.2. Objetivo
Fórmulas
• a y b serán aquellos valores que proporcionen la recta que mejor se ajuste a los datos
≡ la que mejores predicciones haga.
• Si d i = yi − ˆyï = Real − Predicho = Residual ⇒ será la que haga mínima esas
discrepancias (sumadas para todos los datos y elevadas previamente al cuadrado para
evitar que las diferencias + y − se compensen) ⇒
b=
( xy ) , a = y − bx con:
( xx )
( Σxi )
2
(xx) = Σ(xi− x ) 2
=Σx − 2
i
n
( Σyi )
2
(yy) = Σ(yi− y )2
= Σ yi −
2
n
(xy) = Σ(xi− x )(yi− y ) = Σxiyi −
( Σxi )( Σyi )
n
en donde la segunda expresión es la definición, la tercera su método de cálculo
abreviado y la primera su símbolo corto para referencias.
• ¡Observar!:
→ (xx), (yy) ≥ 0 ≡ numerador de las varianzas de x e y respectivamente (términos ya
conocidos).
→ (xy) >, = o < 0 (igual signo que b): relacionado con la covarianza entre x e y
(término nuevo).
• Interpretación real: los niños parten de una estatura media de 61,0 a los x = 3 meses
(mínima edad de la muestra) y van elevándola a razón de 2,44 por mes hasta llegar a
los x = 9 meses (máxima edad de la muestra) pues ¡antes de 3 y después de 9 no se
sabe qué pasa!: serían extrapolaciones).
• Representación de la recta: A partir de dos valores (xi; ŷi ) como en la Figura 9.7 (a).
Tabla 9.1
(a) Edad y talla de un grupo de 14 niños de entre 3 y 9 meses elegidos al azar
Edad Talla Predicciones Residuales
Niño (meses) (cm)
nº xi yi ŷi di = yi − ˆyi
1 3 55 61,0 −6,0
2 6 68 68,3 −0,3
3 5 64 65,8 −1,8
4 5 66 65,8 0,2
5 3 62 61,0 1,0
6 4 65 63,4 1,6
7 9 74 75,6 −1,6
8 8 75 73,2 1,8
9 9 73 75,6 −2,6
10 7 69 70,7 −1,7
11 6 73 68,3 4,7
12 5 68 65,8 2,2
13 8 73 73,2 −0,2
14 6 71 68,3 2,7
Totales 84 =Σxi 956 =Σyi 956 =Σŷi 0 =Σdi
( xy) = ∑ xi yi −
(∑ xi )(∑ yi ) = 3×55+ 6×68 + ... + 6×71−
84×956
= 127
n 14
Línea de Regresión Mínimo Cuadrática:
Pendiente: b = ( xy) / ( xx) = 127 / 52 = 2 ,44
Altura: a = y − b x = 68,29 − 2,44×6 = 53,65
Ecuación de la recta: ŷ = 53,65 + 2 ,44 x
(c) Estimación de la varianza de regresión
( xy )2
( yy) −
( xx) 1 1272
s2 = = 402 ,86 − = 7 ,72 ⇒ s = 7 ,72 = 2 ,778
n −2 12 52
124 IX.- REGRESIÓN LINEAL SIMPLE
1 1
• Hipérbola (Fig.9.8 b): y = a + b ⇒ y = a+bx' con x′ = → ¡lineal!
x x
• Crecimiento exponencial (Fig.9.8 c):
→ y = aebx ⇒ ln y = ln a+bx ⇒ y' = a'+bx con y' = ln y y a' = ln a ⇒ ¡lineal!
→ Aquí: ∆y ∝ y (∆y = b = constante en el caso de la recta).
→ Típico del interés compuesto, el ↑ cultivos, el ↑ organismos, etc.
• Decrecimiento exponencial (Fig.9.8 d): Bis arriba (típico de las emisiones radioactivas).
• En general: probar con y, 1/y, y , y2, ln y vs. x, 1/x, x , x2, ln x.
y y
y = a+bx 2
1
y = a+b
x
a
a
x x
(a) Parábola (b) Hipérbola
y y
a
y = aebx
y = ae − bx
a
x x
IX.4.3. Ejemplo
• Fig. 9.9 (a): no lineal con los datos originales (es hipérbola).
• Fig. 9.9 (b): sí lineal con los datos transformados (x cambiada por x' = 1/x).
• Hacer y vs. x' = 1/x del modo tradicional ⇒ y = − 0,165 + 125,345x'.
126 IX.- REGRESIÓN LINEAL SIMPLE
x 1/x
texp = b
( xx ) vs. tα ( n − 2 gl ) de la Tabla 3
s2
52
Tabla 9.1 ⇒ texp = 2 ,44 = 6,333 (12 gl ) ⇒ H1 (P < 1‰)
7 ,72
⇒ hay fuertes evidencias (P < 1‰) de que la estatura depende positivamente de la
edad (pues b = 2,44 > 0).
• Es lo segundo a hacer en regresión (tras verificar el modelo): si β = 0 el problema
finaliza.
• Alude a la “dependencia lineal”:
→ y = 3x2: da β = 0 (no hay término βx), pero son dependientes.
→ y = 2+3x+5x2: da β ≠ 0, pero hay curvatura.
BIOESTADÍSTICA – GRADO – MEDICINA, ENFERMERÍA 127
s2 7 ,72
• β ∈ b ± tα = 2 ,44 ± 2 ,179 ⇒ 1,60 ≤ β ≤ 3,28 al 95% de confianza ⇒ la
( xx ) 52
estatura media de los niños aumenta cada mes en un valor desconocido que (con
confianza del 95%) es algún valor entre 1,60 y 3,28 cm.
• Intervalo es amplio pues n = 14 es pequeño.
• ¡El intervalo ha de ser compatible con el test!: el 0 no está dentro (el test concluyó H1:
β ≠ 0).
• ¡Observar!: (xx) >>> ⇒ radio <<< ⇒ bueno para la inferencia. Pero (xx) >>> (y la
inferencia mejora) en estos dos casos:
→ n >>> (pues hay muchos sumandos): lo habitual de la estadística.
→ sx2 >>> (pues (xx) es su numerador): lo nuevo del caso ⇒ de ahí la afirmación de
que el muestreo II era preferible, pues permite controlar los valores de (xx).