09 Guiones Bioestadistica CAP.9

IX.
REGRESIÓN LINEAL SIMPLE
Individuo nº 1 2 …… n
Valor de A o de x x x …… x
Valor de B o de y x x …… x
• Son dos muestras de parejas de valores de:

→ 2 Cualidades (A y B): ¿son independientes? ⇒ Test χ2.
→ 2 Cantidades (x e y): ¿son independientes? ⇒ Regresión (actual) y Correlación.
• x = edad, colesterol, estatura, … ,, y = presión, peso, …
IX.1. Introducción
IX.1.1. Objetivos (R.9.1.a)
Dadas dos variables cuantitativas x e y medidas en los mismos individuos, la técnica de

regresión persigue tres objetivos:
i) Estudiar si ambas variables están relacionadas o son independientes.
ii) Estudiar el tipo de relación que las liga (si existe): lineal, parabólica, etc.
iii) Predecir los valores de una de ellas (y) a través de los de la otra (x).
IX.1.2. Relaciones deterministas y aleatorias (R.9.1.b)
• En las Ciencias Exactas la relación entre dos variables puede ser exacta: conocido el
valor de una de ellas se conoce exactamente el de la otra:
P (presión) = Cte / V (volumen) en gases ⇒
1/V
¡la relación es determinista! (conocido el valor de V se conoce perfectamente el valor
de P) ⇒ la estadística NO se preocupa de eso.
• En la Estadística la relación es aleatoria: conocido el valor de una variable (x) se
conoce el de la otra (y) sólo de un modo aproximado. Ello sucede en las Ciencias de la
Salud por dos motivos:
→ Por la variabilidad biológica de los objetos muestrales (la estatura y depende de
más cosas que de solo la edad x).
114 IX.- REGRESIÓN LINEAL SIMPLE
→ Por la variabilidad aleatoria de los métodos de medida (error aleatorio de las

mediciones): aún cuando y solo dependa de x (como en P vs. 1/V), los valores de x
e y no se pueden determinar exactamente, sino solo aproximadamente.
⇓
¡la relación es aleatoria! (conocido el valor de x, se conoce solo de modo aproximado
el valor de y): la estadística SÍ se preocupa de eso.
IX.1.3. Sobre la existencia de regresión (R.9.1.c)
• Dadas n parejas de valores (xi; yi) obtenidos de una muestra, su representación por
puntos en el plano cartesiano da lugar a una nube de puntos (como en las figuras de
abajo) que será útil para varias cosas.
• Si a ella se ajusta alguna curva se dice que existe regresión, a la curva se le llama
línea de regresión y a la función que la representa se le llama función de regresión: en
las Figuras 9.1 (a), (b) y (c) SÍ/SÍ/NO existe regresión. La función de regresión será
del tipo y = 3 + 2x − 5x2 por ejemplo.
y y y
x x x
(a) Regresión lineal (b) Regresión curvilínea (c) Ausencia de regresión

y y
x x
(d) ¿Hay regresión? (e) ¿Parábola o hipérbola?

Figura 9.1
• El tipo de la regresión puede ser vario:

→ Lineal la Fig. 9.1 (a),
→ Parabólico en la Fig. 9.1 (b), etc.
• Estas decisiones “a ojo” pueden dar lugar a dudas:
→ Fig. 9.1 (d): ¿existe regresión?
→ Fig. 9.1 (e): ¿la curva es una parábola o una hipérbola?
BIOESTADÍSTICA – GRADO – MEDICINA, ENFERMERÍA 115
lo que se solventa con métodos que no vemos en este curso.

• Por causa del lenguaje funcional, es común llamar por:
→ Variable independiente o controlada: a la ubicada en el eje horizontal (usualmente x);
→ Variable dependiente: a la ubicada en el eje vertical (usualmente y),
pero quien sea una u otra depende del objetivo: y = variable a predecir.
IX.1.4. Tipos de regresión (R.9.1.d)
• Lineal simple: si y vs. x se relacionan mediante una línea recta (¡lo que veremos en
este capítulo!). Aunque lo parezca, no es demasiada restricción.
• Curvilínea: si y vs. x se relacionan mediante una línea curva (veremos algo aquí, pero
es un concepto para la asignatura optativa).
• Múltiple: si y se relaciona no sólo con una variable x, sino con varias (x1, x2, …, xK).
Se verá en la asignatura optativa.
¡cada caso está contenido en el siguiente!
IX.1.5. Asociación y Causalidad (R.9.1.e)

Concepto
• La demostración estadística de que dos variables x e y están asociadas no constituye
una prueba de que una de ellas sea causa de la otra (la causalidad se ve por otros
mecanismos). Puede ocurrir que:
→ x sea realmente causa de y: % muertes ratas (y) vs. dosis veneno administrado (x).
→ Ambas variables se influyan mutuamente: nota teoría (x) vs. nota problemas (y).
→ Ambas variables dependan de una causa común (una tercera variable z no
contemplada): diámetro craneal (x) vs. perímetro torácico (y) (falta considerar z =
envergadura del individuo).
Ejemplo clásico
• y = “número de nacimientos en Inglaterra” vs. x = “producción de hierro dulce en
EEUU” ⇒ en varios años da una línea casi perfecta que parece implicar una casi total
relación entre ambas ⇒ ¡absurdo! ⇒ ¡relación falsa! provocada por no contemplar:
z = año de cada medida
pues si z (tiempo) ↑ ⇒ x (hierro) ↑ + y (nacimientos) ↓ ⇒ de rechazo parece que
{x (hierro) ↑ ⇒ y (nacimientos) ↓} ¡falso!
r = −1
(e)
• Igual ocurre a veces en las tablas 2×2:

y ≡ E = Enfermedad
x ≡ FR = Factor de riesgo
z ≡ ES = Estratos (Hombres y Mujeres, por ejemplo)
⇒ la asociación global entre FR y E puede ser aparente (al evaluarla en Hombres y
Mujeres por separado puede dar otra cosa). Se verá en la Optativa.
IX.2. Modelo de Regresión Lineal Simple y sus consecuencias

IX.2.1. Recordatorio sobre la “línea recta”
• Ecuación línea recta: y = a + bx (como y = 2 + 3x).

• Representación: dar dos valores cualesquiera a x + calcular el correspondiente valor
de y + representar los dos puntos (x, y) obtenidos + unirlos con una recta:
→ x = 0 ⇒ y = 2+3×0 = 2 ⇒ punto (0; 2) + en general (0; a),
→ x = 1 ⇒ y = 2+3×1 = 5 ⇒ punto (1; 5) + en general (1; a+b),
y
x
0 1
• Interpretación:
→ a = altura en el origen o término independiente ⇒ a = 2 (valor de y cuando x = 0).
→ b = pendiente de la recta ⇒ b = 3 (lo que crece y cuando x aumenta en una unidad).
→ Ambos: coeficientes de la recta.
• Más sobre la pendiente:
y y y
x x x
b>0 b<0 b=0
→ b > 0 ≡ Asociación + ≡ {Si x↑ ⇒ y↑}.
→ b < 0 ≡ Asociación − ≡ {Si x↑ ⇒ y↓}.
→ b = 0 ≡ Asociación nula (x e y son independientes) ≡ y no se deja afectar por los

cambios de x.
IX.2.2. Descripción del modelo (R.9.2.a)
• Sean x = “edad de un niño (en meses)” e y = “estatura del niño (en centímetros)”.
• Para cada valor de x (x = 5 por ej.), los infinitos valores de y seguirán una distribución
que se asume es la Normal ⇒ hipótesis de Normalidad.
• Tal distribución tendrá una media µx: se asume es µ x = α + β x ⇒ las medias están en
una línea recta ⇒ hipótesis de linealidad.

• También tendrá una varianza σ x2 : se asume que es constante (σ x2 = σ 2 ) ⇒ hipótesis
de homogeneidad de varianzas.
y x → N {µ x = α + β x;σ } ≡ Figura 9.2 (9.1)
E (y )= α + β x
µx = α + βx
x
Figura 9.2
Ilustración gráfica del modelo de regresión lineal
⇓
• Para cada valor de x, la variable y sigue una distribución Normal de media α +βx y de
varianza σ2 (independiente de x), en donde:
→ α = altura en el origen poblacional (altura en que corta la recta al eje vertical, es
decir cuando x = 0 ≡ estatura media de los niños al nacer),
→ β = pendiente poblacional (lo que aumenta la media de y cuando x aumenta en
una unidad ≡ incremento de la estatura media de los niños por cada mes que pasa).
→ σ2 = varianza poblacional (variabilidad de y alrededor de la recta de regresión),
→ µx = α +βx = recta de regresión poblacional.
• α, β y σ2 son desconocidos ⇒ estimarlos a través de una muestra de n niños de
valores (xi; yi) como los de la Tabla 9.1 (a):
→ α̂ = a = altura en el origen muestral, experimental o estimada,
→ β̂ = b = pendiente muestral, experimental o estimada.
→ σ̂ 2 = s2 = varianza muestral, experimental o estimada.

→ ŷ = a +bx = recta de regresión muestral, experimental o estimada.

Tabla 9.1
(a) Edad y talla de un grupo de 14 niños de entre 3 y 9 meses elegidos al azar
Edad Talla Predicciones Residuales
Niño (meses) (cm)
nº xi yi ŷi di = yi − ˆyi
1 3 55 61,0 −6,0
2 6 68 68,3 −0,3
3 5 64 65,8 −1,8
4 5 66 65,8 0,2
5 3 62 61,0 1,0
6 4 65 63,4 1,6
7 9 74 75,6 −1,6
8 8 75 73,2 1,8
9 9 73 75,6 −2,6
10 7 69 70,7 −1,7
11 6 73 68,3 4,7
12 5 68 65,8 2,2
13 8 73 73,2 −0,2
14 6 71 68,3 2,7
Totales 84 =Σxi 956 =Σyi 956 =Σŷi 0 =Σdi
IX.2.3. Predicciones y Residuales (R.9.2.b)
• ¿Qué valor tendrá la estatura y de un niño con x meses de edad? ≈ α+βx (la media de y
en x) ⇒ estimada por ŷ = a+bx ⇒ ŷ = 53,65 + 2,44x en Tabla 9.1 (b).
• Niño nº 1:
→ Debería tener: ŷ1 = 53,65 + 2,44×3 = 61,0 cm.
→ Tiene: y1 = 55.
→ Discrepancia (residual): d1 = y1− ŷ1 = 55−61,0 = −6 (mide la bondad de la recta
para predecir la estatura en base a la edad).
• Dos últimas columnas de la Tabla 9.1 (a) contiene los valores de:
→ Las predicciones ŷi : ¡observar que Σyi = Σŷi ! + Sucederá siempre.
→ Los residuales di = yi− ŷi : ¡observar que Σdi = 0! + Sucederá siempre.
IX.2.4. Regresión de “y sobre x” y de “x sobre y” (R.9.2.c)
• Objetivo (9.1): “Predecir y a partir de x” ≡ “Regresión de y sobre x”: ŷi = a+bxi:
Edad (x) para predecir la Estatura del niño (y)

(es lo usual en la clínica para ver si el niño evoluciona bien)
• Otra posibilidad: “Predecir x a partir de y” ≡ “Regresión de x sobre y”: x̂i = a’+b’yi:
Estatura (y) para predecir la Edad del niño (x)

(se utilizará para conocer la edad aproximada de un niño encontrado en la selva)
(una regresión diferente).
• ¿Cuál utilizar?: Depende del objetivo (de la variable a predecir).
IX.2.5. Tipos de muestreo y sus consecuencias (R.9.2.d)
Características de las variables x e y

• Variables de (9.1): y x → N {µ x = α + β x;σ }
→ y: ha de ser variable aleatoria (¡es Normal!) ⇒ sus valores han de elegirse al azar.
→ x: no viene obligada a nada.
⇓
y = Variable a predecir ≡ Sus valores elegidos al azar
(¡no siempre es factible, como se verá!)
Tipos de muestreo
• α, β y σ son desconocidos ⇒ habrá que estimarlos a partir de una muestra de n niños
⇒ necesitamos de n parejas de datos (xi; yi) como los de la Tabla 9.1.
• Ellos pueden obtenerse por dos tipos de muestreo (similares al capítulo anterior):
→ Muestreo de Tipo I: Tomar n individuos al azar y anotar sus valores de x e y
(tomar n =14 niños al azar y anotar sus edades xi y sus estaturas yi) ⇒
(xi; yi) se eligen al azar (≡ Transversal) como en la Tabla 9.1 (a).
→ Muestreo de Tipo II: Tomar n valores de x elegidos de antemano (que no tienen
porqué ser todos distintos) y obtener un valor de y al azar en cada uno de tales x
(tomar un niño de 1 mes, otro de 2 meses, etc. y anotar sus estaturas) ⇒
xi = fijados, yi = al azar (≡ Prospectivo/Retrospectivo).
• ¡Se omite “elegir y + obtener al azar los x”!: y ha de ser variable aleatoria ⇒ los
valores de y han de ser obtenidos al azar (la regresión ha de ser de “y sobre x”).
Es preferible en general el Muestreo de Tipo II

• Permite las dos regresiones: “y sobre x” y “x sobre y” (asunto menor: prever antes).
• Permite controlar los valores x ⇒ dos ventajas:
→ Rango amplio de variabilidad de las x ⇒ mejores inferencias (como se verá).
→ Permite elegir el rango de valores x de interés: 3 ≤ x ≤ 9 (en el ejemplo) lo viene
garantizado por el Muestreo II, pero no por el Muestreo I.
• Complemento a lo último: las afirmaciones que se hacen mediante regresión sólo son
válidas para el rango de valores de x muestreado, pues fuera de él no se sabe qué
sucede (ver Figura 9.3) ⇒ en el ejemplo no se puede predecir qué pasa en x = 10.
c u rv o
lin e a l
c u rv o
x1 x2 x
Figura 9.3: La linealidad puede existir en un tramo, pero no en otro
IX.2.6. Calibración lineal (R.9.2.d)
• A veces entran en contradicción: “y al azar” e “y la variable a predecir”.

• Predicción en laboratorio:
→ x = dosis reales = fijadas de antemano ⇒ eje horizontal.
→ y = dosis medidas = al azar ⇒ eje vertical.
→ Única regresión factible: ŷ = a + bx.
→ ¡Pero interesa predecir x (lo real)! ⇒ invertir lo anterior ⇒ x̂ = − ( a b ) + (1 b ) y :
calibración lineal (funciona mal, pero no hay otra cosa).
IX.2.7. Comprobación del modelo (R.9.2.e)
¿Es válido el modelo de regresión lineal?

• Lo primero antes de cálculo alguno: ¿Normalidad + Linealidad + Homogeneidad var.?
• La más importante es la linealidad (ser laxo con las otras dos).
• Para las dos últimas son útiles las:
→ Nube de puntos normal: (xi ; yi) : más sencilla + menos eficaz.
→ Nube de puntos de residuales: ( ˆyi ; yi − ˆyi ) : más compleja + más eficaz.
Comprobación de la Normalidad
• La variable y debe ser continua.
• Para hacer el test de Normalidad hace falta tener datos repetidos (varios valores de y
en cada valor de x) y aplicarlo en cada uno de estos conjuntos de valores y.
• La técnica de regresión lineal es robusta ante la ausencia de Normalidad (si esta es
moderada).
Linealidad + Homogeneidad: por la nube de puntos normal
• Linealidad: debe ajustarse a una recta: Fig. 9.1 (a) = SÍ; Fig. 9.1 (b) = NO.
• Homogeneidad: debe tener igual anchura en cada x: Fig. 9.4 = NO.
y y
x x
F.9.1 (a) Regresión lineal F.9.1 (b) Regresión curvilínea
Linealidad + Homogeneidad: por nube de puntos de residuales

• Linealidad: debe ser paralela al eje de abcisas: Fig. 9.5 + 9.6 = SÍ.
• Homogeneidad: debe tener igual anchura en cada ŷ : Fig. 9.5 = SÍ; Fig. 9.6 = NO.
y − yˆ
y
y − yˆ
ŷ
Figura 9.4 x Figura 9.5 Figura 9.6 ŷ
La varianza de y aumenta al El modelo de regresión lineal Las varianzas no son
aumentar el valor de x es correcto. homogéneas.
IX.3. Estimación de los parámetros del modelo de regresión lineal simple

IX.3.1. Ejemplo base
• Datos de la Tabla 9.1 (a): 3 primeras columnas.

• Nube de puntos: Figura 9.7 (a) ⇒ parece que el modelo de regresión es lícito.
y y
80
75
(x; y) real
70 y
d = y − yˆ
65 ŷ
ˆ predicho
(x; y)
60
55
x x
x
3 4 5 6 7 8 9 10
(a) Nube de puntos para los datos de la (b) Ampliación de uno de los puntos de la
Tabla 9.1 (a), recta de mejor ajuste y figura anterior.
desviaciones de la misma (trazos verticales)
Figura 9.7
IX.3.2. Objetivo
• α, β y σ2 = valores poblacionales desconocidos (parámetros poblacionales) ⇒

→ Estimarlos por αˆ = a , βˆ = b y σˆ 2 = s 2 como se indicará (parámetros muestrales).
→ Una vez determinados, la recta α+βx se estimará por ŷ = a + bx (predicciones).
IX.3.3. Estimación de la recta por el método de los mínimos cuadrados (R.9.3)
Fórmulas
• a y b serán aquellos valores que proporcionen la recta que mejor se ajuste a los datos
≡ la que mejores predicciones haga.
• Si d i = yi − ˆyï = Real − Predicho = Residual ⇒ será la que haga mínima esas
discrepancias (sumadas para todos los datos y elevadas previamente al cuadrado para
evitar que las diferencias + y − se compensen) ⇒
a,b Mín ∑ d i2 = Mín ∑ ( yi − ˆyi ) = Mín ∑ ( yi − a − bxi )

2 2
(principio de los mínimos cuadrados ≡ Fig. 9.7)

• Derivando lo anterior en a y b e igualando a 0 se obtiene:
b=
( xy ) , a = y − bx con:
( xx )
( Σxi )
2
(xx) = Σ(xi− x ) 2
=Σx − 2
i
n
( Σyi )
2
(yy) = Σ(yi− y )2
= Σ yi −
2
n
(xy) = Σ(xi− x )(yi− y ) = Σxiyi −
( Σxi )( Σyi )
n
en donde la segunda expresión es la definición, la tercera su método de cálculo
abreviado y la primera su símbolo corto para referencias.
• ¡Observar!:
→ (xx), (yy) ≥ 0 ≡ numerador de las varianzas de x e y respectivamente (términos ya
conocidos).
→ (xy) >, = o < 0 (igual signo que b): relacionado con la covarianza entre x e y
(término nuevo).
Aplicación a la Tabla 9.1

• Cálculos de la Tabla 9.1 (b) ⇒ 2 últimas columnas de Tabla 9.1 (a).
• Interpretación inicial de ŷ = a + bx = 53, 65 + 2 , 44 x : los niños parten de una estatura
media al nacer (x = 0) de 53,65 cm y van elevándola a razón de 2,44 cm por mes.
• ¡No así!: sólo pueden hacerse afirmaciones dentro del rango de muestreo (x = 3 a 9).
• Interpretación real: los niños parten de una estatura media de 61,0 a los x = 3 meses
(mínima edad de la muestra) y van elevándola a razón de 2,44 por mes hasta llegar a
los x = 9 meses (máxima edad de la muestra) pues ¡antes de 3 y después de 9 no se
sabe qué pasa!: serían extrapolaciones).
• Representación de la recta: A partir de dos valores (xi; ŷi ) como en la Figura 9.7 (a).
Tabla 9.1
(a) Edad y talla de un grupo de 14 niños de entre 3 y 9 meses elegidos al azar
Edad Talla Predicciones Residuales
Niño (meses) (cm)
nº xi yi ŷi di = yi − ˆyi
1 3 55 61,0 −6,0
2 6 68 68,3 −0,3
3 5 64 65,8 −1,8
4 5 66 65,8 0,2
5 3 62 61,0 1,0
6 4 65 63,4 1,6
7 9 74 75,6 −1,6
8 8 75 73,2 1,8
9 9 73 75,6 −2,6
10 7 69 70,7 −1,7
11 6 73 68,3 4,7
12 5 68 65,8 2,2
13 8 73 73,2 −0,2
14 6 71 68,3 2,7
Totales 84 =Σxi 956 =Σyi 956 =Σŷi 0 =Σdi
(b) Estimación de la recta de regresión

Tamaño de muestra: n = 14
Medias: x = 84 / 14 = 6 ,, y = 956 / 14 = 68,29
Sumas de Cuadrados y de Productos Corregidos:
(∑ x ) =
2
842
( xx) = ∑x 2
i −
i
32 + 62 + 52 +...+ 62 − = 52
n 14
(∑ y ) =
2
9562
( yy) = ∑y 2
i −
i
552 + 682 + 642 + ...+ 712 − = 402 ,86
n 14
( xy) = ∑ xi yi −
(∑ xi )(∑ yi ) = 3×55+ 6×68 + ... + 6×71−
84×956
= 127
n 14
Línea de Regresión Mínimo Cuadrática:
Pendiente: b = ( xy) / ( xx) = 127 / 52 = 2 ,44
Altura: a = y − b x = 68,29 − 2,44×6 = 53,65
Ecuación de la recta: ŷ = 53,65 + 2 ,44 x
(c) Estimación de la varianza de regresión
( xy )2
( yy) −
( xx) 1  1272 
s2 = = 402 ,86 −  = 7 ,72 ⇒ s = 7 ,72 = 2 ,778
n −2 12  52 
IX.3.4. Estimación de la varianza de regresión (R.9.3)
• σˆ 2 = s 2 ≡ mide la dispersión de los datos alrededor de la recta

≡ promedio de las distancias verticales di al cuadrado ⇒
( xy ) 2
∑ ( yi − ˆyi )
2
( yy ) − b ( xy )
( yy ) −
∑ d i2 ( xx)
s2 = = = = ⇒ ver Tabla 9.1 (c).
n−2 n−2 n−2 n−2
(la última expresión es la apropiada para el cálculo)
• s 2 = 0 ⇒ d i = 0 ⇒ yi = ˆyi ⇒ el modelo lineal es perfecto.
• s2>>> ⇒ di>>> ⇒ yi≠ ≠ ≠ ŷi ⇒ el modelo lineal es poco útil.
IX.3.5. Las dos rectas de regresión (R.9.2.c)
• Los parámetros anteriores se entiende que son a y x , by x y s 2y x por haber sido
obtenidos de la regresión de “y sobre x”.

• Los resultados NO son los mismos ( a x y , bx y y sx2 y ) si en el eje horizontal se pone a la
variable y y en el vertical la variable x (regresión de “x sobre y”): ¡no es lo mismo

minimizar las distancias verticales ( yi − ˆyi ) que las horizontales ( xi − xˆ i ) !
IX.4. Linealizaciones (R.9.2.e)

IX.4.1. Introducción
• Modelo Lineal: es sencillo ⇒ los investigadores lo prefieren.

• Si “y vs. x” es no lineal: convertir la curva en recta mediante una linealización a través
de un cambio de escala apropiado: “f (y) vs. g (x)” ya es lineal. El cambio:
→ Es más fuerte que un simple cambio de unidades de medida (que no altera la
curvatura).
→ Se determina por ensayo-error o por conocimientos teóricos previos (si se conoce
la forma de la función y = h(x)).
• Problema:
→ La transformación que linealiza puede ocasionar que falle la Normalidad y/o
homogeneidad de varianzas.
→ La práctica indica que esos problemas son menos importantes y que la
transformación suele ser útil para que se verifiquen las 3 hipótesis del modelo.
IX.4.2. Casos más comunes
• Parábola (Fig.9.8 a): y = a+bx2 ⇒ y = a+b x' con x' = x2 ⇒ ¡lineal!

1 1
• Hipérbola (Fig.9.8 b): y = a + b ⇒ y = a+bx' con x′ = → ¡lineal!
x x
• Crecimiento exponencial (Fig.9.8 c):
→ y = aebx ⇒ ln y = ln a+bx ⇒ y' = a'+bx con y' = ln y y a' = ln a ⇒ ¡lineal!
→ Aquí: ∆y ∝ y (∆y = b = constante en el caso de la recta).
→ Típico del interés compuesto, el ↑ cultivos, el ↑ organismos, etc.
• Decrecimiento exponencial (Fig.9.8 d): Bis arriba (típico de las emisiones radioactivas).
• En general: probar con y, 1/y, y , y2, ln y vs. x, 1/x, x , x2, ln x.
y y
y = a+bx 2
1
y = a+b
x
a
a
x x
(a) Parábola (b) Hipérbola
y y
a
y = aebx
y = ae − bx
a
x x
(c) Crecimiento exponencial (d) Decrecimiento exponencial
Figura 9.8: Curvas más usuales en las Ciencias de la Salud
IX.4.3. Ejemplo
Ejemplo 9.1 El conocimiento de la tasa de filtración glomerular (TFG) es de interés en

la clínica por dar idea de la capacidad de filtración del riñón. Con el fin de
determinarla, se tomó una muestra de 5 individuos (con excreción de creatinina
constante) y se les midió la concentración plasmática de creatinina (PCR) en
mg/dl y la TFG en ml/min, obteniéndose los resultados de abajo. Estudiar el tipo
de relación que liga a ambas variables.
PCR = x: 1 2,1 4 8,3 15
TFG = y: 125 60 31 15 8
• Fig. 9.9 (a): no lineal con los datos originales (es hipérbola).
• Fig. 9.9 (b): sí lineal con los datos transformados (x cambiada por x' = 1/x).
• Hacer y vs. x' = 1/x del modo tradicional ⇒ y = − 0,165 + 125,345x'.
125, 345 125,345

• Deshacer el cambio: y = − 0,165 + ⇒ TFG = −0 ,165 + .
x PCR
y y
x 1/x
(a) Datos originales (b) Datos transformados

Figura 9.9: Nubes de puntos para los datos del Ejemplo 9.1
IX.5. Inferencias en regresión lineal simple (R.9.4)

IX.5.1. Introducción
• Hasta ahora todo es descriptivo.
• Interesan test + IC (y otras) para α, β, σ2 en base a a, b, s2.
• Sólo vemos el caso de b → β.
IX.5.2. Inferencias sobre la pendiente β

Test de independencia
• β = 0 ≡ Media de y = α+βx = α = cte ⇒ y no varía con x ⇒ ¡x e y son independientes!
• Es el test de independencia (lineal) entre dos cantidades (el de cualidades era la χ2).
• H0: β = 0 (independientes) vs. H1: β ≠ 0 (dependientes) mediante:
texp = b
( xx ) vs. tα ( n − 2 gl ) de la Tabla 3
s2
52
Tabla 9.1 ⇒ texp = 2 ,44 = 6,333 (12 gl ) ⇒ H1 (P < 1‰)
7 ,72
⇒ hay fuertes evidencias (P < 1‰) de que la estatura depende positivamente de la
edad (pues b = 2,44 > 0).
• Es lo segundo a hacer en regresión (tras verificar el modelo): si β = 0 el problema
finaliza.
• Alude a la “dependencia lineal”:
→ y = 3x2: da β = 0 (no hay término βx), pero son dependientes.
→ y = 2+3x+5x2: da β ≠ 0, pero hay curvatura.
IC para β (tα como antes)
s2 7 ,72
• β ∈ b ± tα = 2 ,44 ± 2 ,179 ⇒ 1,60 ≤ β ≤ 3,28 al 95% de confianza ⇒ la
( xx ) 52
estatura media de los niños aumenta cada mes en un valor desconocido que (con
confianza del 95%) es algún valor entre 1,60 y 3,28 cm.
• Intervalo es amplio pues n = 14 es pequeño.
• ¡El intervalo ha de ser compatible con el test!: el 0 no está dentro (el test concluyó H1:
β ≠ 0).
• ¡Observar!: (xx) >>> ⇒ radio <<< ⇒ bueno para la inferencia. Pero (xx) >>> (y la
inferencia mejora) en estos dos casos:
→ n >>> (pues hay muchos sumandos): lo habitual de la estadística.
→ sx2 >>> (pues (xx) es su numerador): lo nuevo del caso ⇒ de ahí la afirmación de
que el muestreo II era preferible, pues permite controlar los valores de (xx).
Hacer ya la relación de Cuestiones + Problemas

(en la parte que se puede)

09 Guiones Bioestadistica CAP.9

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

09 Guiones Bioestadistica CAP.9

Cargado por

Copyright:

Formatos disponibles

IX.

REGRESIÓN LINEAL SIMPLE

• Son dos muestras de parejas de valores de:

Dadas dos variables cuantitativas x e y medidas en los mismos individuos, la técnica de

IX.1.2. Relaciones deterministas y aleatorias (R.9.1.b)

P (presión) = Cte / V (volumen) en gases ⇒

→ Por la variabilidad aleatoria de los métodos de medida (error aleatorio de las

IX.1.3. Sobre la existencia de regresión (R.9.1.c)

(a) Regresión lineal (b) Regresión curvilínea (c) Ausencia de regresión

(d) ¿Hay regresión? (e) ¿Parábola o hipérbola?

• El tipo de la regresión puede ser vario:

lo que se solventa con métodos que no vemos en este curso.

IX.1.4. Tipos de regresión (R.9.1.d)

IX.1.5. Asociación y Causalidad (R.9.1.e)

• Igual ocurre a veces en las tablas 2×2:

IX.2. Modelo de Regresión Lineal Simple y sus consecuencias

• Ecuación línea recta: y = a + bx (como y = 2 + 3x).

→ b = 0 ≡ Asociación nula (x e y son independientes) ≡ y no se deja afectar por los

IX.2.2. Descripción del modelo (R.9.2.a)

una línea recta ⇒ hipótesis de linealidad.

→ β̂ = b = pendiente muestral, experimental o estimada.

→ σ̂ 2 = s2 = varianza muestral, experimental o estimada.

→ ŷ = a +bx = recta de regresión muestral, experimental o estimada.

IX.2.3. Predicciones y Residuales (R.9.2.b)

→ Los residuales di = yi− ŷi : ¡observar que Σdi = 0! + Sucederá siempre.

IX.2.4. Regresión de “y sobre x” y de “x sobre y” (R.9.2.c)

• Objetivo (9.1): “Predecir y a partir de x” ≡ “Regresión de y sobre x”: ŷi = a+bxi:

Edad (x) para predecir la Estatura del niño (y)

• Otra posibilidad: “Predecir x a partir de y” ≡ “Regresión de x sobre y”: x̂i = a’+b’yi:

Estatura (y) para predecir la Edad del niño (x)

• ¿Cuál utilizar?: Depende del objetivo (de la variable a predecir).

IX.2.5. Tipos de muestreo y sus consecuencias (R.9.2.d)

Características de las variables x e y

Es preferible en general el Muestreo de Tipo II

Figura 9.3: La linealidad puede existir en un tramo, pero no en otro

IX.2.6. Calibración lineal (R.9.2.d)

• A veces entran en contradicción: “y al azar” e “y la variable a predecir”.

→ ¡Pero interesa predecir x (lo real)! ⇒ invertir lo anterior ⇒ x̂ = − ( a b ) + (1 b ) y :

calibración lineal (funciona mal, pero no hay otra cosa).

IX.2.7. Comprobación del modelo (R.9.2.e)

¿Es válido el modelo de regresión lineal?

F.9.1 (a) Regresión lineal F.9.1 (b) Regresión curvilínea

Linealidad + Homogeneidad: por nube de puntos de residuales

IX.3. Estimación de los parámetros del modelo de regresión lineal simple

• Datos de la Tabla 9.1 (a): 3 primeras columnas.

• α, β y σ2 = valores poblacionales desconocidos (parámetros poblacionales) ⇒

→ Estimarlos por αˆ = a , βˆ = b y σˆ 2 = s 2 como se indicará (parámetros muestrales).

→ Una vez determinados, la recta α+βx se estimará por ŷ = a + bx (predicciones).

IX.3.3. Estimación de la recta por el método de los mínimos cuadrados (R.9.3)

a,b Mín ∑ d i2 = Mín ∑ ( yi − ˆyi ) = Mín ∑ ( yi − a − bxi )

(principio de los mínimos cuadrados ≡ Fig. 9.7)

Aplicación a la Tabla 9.1

(b) Estimación de la recta de regresión

IX.3.4. Estimación de la varianza de regresión (R.9.3)

• σˆ 2 = s 2 ≡ mide la dispersión de los datos alrededor de la recta

• s2>>> ⇒ di>>> ⇒ yi≠ ≠ ≠ ŷi ⇒ el modelo lineal es poco útil.

IX.3.5. Las dos rectas de regresión (R.9.2.c)

• Los parámetros anteriores se entiende que son a y x , by x y s 2y x por haber sido

obtenidos de la regresión de “y sobre x”.

variable y y en el vertical la variable x (regresión de “x sobre y”): ¡no es lo mismo

IX.4. Linealizaciones (R.9.2.e)

• Modelo Lineal: es sencillo ⇒ los investigadores lo prefieren.

IX.4.2. Casos más comunes

• Parábola (Fig.9.8 a): y = a+bx2 ⇒ y = a+b x' con x' = x2 ⇒ ¡lineal!