Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresión y correlación
En este capítulo comentamos dos tipos de problemas. El primero, llamado regresión, implica
necesariamente la obtención de una ecuación mediante la cual pueda estimarse el valor medio
de una variable aleatoria, desde el conocimiento de los valores tomados por una o más varia-
bles diferentes. El segundo problema, llamado correlación, consiste en medir la fuerza de la
relación lineal entre dos variables aleatorias. Comenzamos con una breve introducción al
tema de la regresión.
regresores no se tratan como variables aleatorias. Por el contrario, son entidades que pueden
asumir valores diferentes, pero cuyos valores, en el momento en que debe hacerse la predicción,
no se determinan al azar. Para ilustrarlo, supóngase que deseamos obtener una ecuación para
describir la temperatura del agua fuera de la plataforma continental. Puesto que la temperatura
depende en parte de su profundidad, hay dos variables implicadas: X, profundidad del agua, e Y,
temperatura. No estamos interesados en hacer inferencias sobre la profundidad del agua. En
cambio, queremos describir el comportamiento de la temperatura del agua bajo la suposición de
que su profundidad se conoce de antemano con precisión. La temperatura del agua es la res-
puesta; la profundidad es el único regresor considerado.
Para ilustrar la notación que se utilizará, obsérvese que, incluso si la profundidad del agua
está fijada en algún valor x, la temperatura del agua variará debido a otras influencias aleato-
rias. Por ejemplo, si se toman varias mediciones de temperatura en diferentes lugares, cada
una a una profundidad de x = 1000 pies, los valores de las mediciones variarán. Por esta
razón, debemos admitir que para una x dada, estamos realmente tratando con una variable
aleatoria «condicional», que indicamos mediante Y Yx (Y dado que X = x). Esta variable alea-
toria condicional tiene una media a la que se notará mediante kY Yx. Resulta obvio que la
temperatura media del agua del océano depende en parte de la profundidad del agua; no
389
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
390 Estadística para Biología y Ciencias de la Salud
esperamos que la temperatura media x = 1000 pies sea la misma que x = 5000 pies. Es decir,
es razonable suponer que kY Yx es una función de x. A la gráfica de esta función la denomina-
mos curva de regresión de Y sobre X. Esta idea se ilustra en la Figura 11.1.
Nuestro problema inmediato es estimar la forma de kY Yx a partir de los datos obtenidos en
algunos valores seleccionados x1, x2, x3, ..., xn de la variable predictora X. Los valores reales
utilizados para desarrollar el modelo no son demasiado importantes. Si existe una relación
funcional, ésta se manifestará independientemente de qué valores de X se utilicen para descu-
brirlo. Sin embargo, por razones prácticas, estos valores deberían representar una gama bas-
tante amplia de los valores posibles de la variable independiente X. A veces se pueden prese-
leccionar los valores utilizados. Por ejemplo, al estudiar la relación entre la temperatura del
agua y su profundidad, podemos saber que nuestro modelo debe utilizarse para predecir la
temperatura del agua a profundidades de 1000 a 5000 pies. Podemos medir las temperaturas
del agua a cualquier profundidad deseada dentro de este rango. Por ejemplo, podemos tomar
mediciones en incrementos de 1000 pies. De esta forma, prefijamos nuestros valores a
x1 = 1000, x2 = 2000, x3 = 3000, x4 = 4000 y x5 = 5000. Cuando se preseleccionan los valores X
utilizados para desarrollar la ecuación de regresión, se dice que el estudio está controlado. A
menudo, los valores X utilizados para desarrollar la ecuación se eligen mediante algún meca-
nismo aleatorio. Por ejemplo, al estudiar el efecto de la calidad del aire sobre el pH del agua
de lluvia, nos veremos forzados a seleccionar una muestra de días, anotar la lectura de la
calidad del aire ese día y medir el pH del agua de lluvia. En este caso, los valores de X
utilizados para desarrollar la ecuación de regresión no están preseleccionados por el investi-
gador. Representan un conjunto de valores típicos de X. Los estudios de este tipo se denomi-
nan estudios observacionales. Los dos ejemplos siguientes ilustran este tipo de estudios.
y
Copyright © 2014. McGraw-Hill Interamericana. All rights reserved.
Curva de regresión de
Y sobre X = gráfica
de la temperatura media
Temperatura
como función de la
profundidad del agua
x
1000 2000 3000 4000 5000
Profundidad
Figura 11.1. Para una profundidad de agua dada, la temperatura varía alrededor de un valor medio
desconocido kY Yx. La curva que une estos valores medios se denomina curva de regresión de Y
sobre X.
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
Regresión y correlación 391
Ejemplo 11.1.2. Un ecólogo desea predecir el cambio de temperatura del agua que tiene
lugar en un punto situado una milla por debajo de una planta industrial, tras el vertido de
aguas residuales calientes en la corriente (Y). La predicción se basará en la cantidad de agua
liberada (X). La respuesta es el cambio de la temperatura del agua; el único regresor es la
cantidad de agua liberada. Puesto que la cantidad de agua caliente liberada varía dependien-
do del nivel de actividad en la planta, el experimentador no controla los valores del regre-
sor utilizado para desarrollar la ecuación de predicción. Más bien, los valores se miden
simplemente en el momento de liberación del agua. Este es un ejemplo de estudio obser-
vacional.
(x1, µY x ) (x2, µY x )
1
2
x
0 x1 x2
(a)
(x0, µY x )
0
gráfica de µY x
Copyright © 2014. McGraw-Hill Interamericana. All rights reserved.
x
0 x0
(b)
gráfica de µY x
(x0, µY x )
0
x
0 x0
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
392 Estadística para Biología y Ciencias de la Salud
teóricas. Son los gráficos de las medias teóricas de la variable dependiente Y para valores
dados de la variable independiente X. Sirven como curvas ideales de predicción. General-
mente, no conocemos las ecuaciones exactas para estas curvas. Nuestro problema es estimar-
las a partir de datos observados sobre X e Y. Cuando el gráfico de kY Yx es una línea recta
(Figura 11.2b), decimos que la regresión de Y sobre X es lineal. De lo contrario, se dice que es
la regresión no lineal (Figuras 11.2a y 11.2c). El término regresión lineal se define, de mane-
ra más precisa, como sigue:
Definición 11.1.1. Regresión lineal. Una curva de regresión de Y sobre X se dice que es
una regresión lineal si y sólo si:
kY Yx = a + bx
para a y b números reales, b | 0.
mente una línea recta. Sin embargo, si la regresión lineal es aplicable, deberán mostrar una
notable tendencia a la linealidad. Los dos ejemplos siguientes ilustran el uso de una nube de
puntos para detectar la tendencia a la linealidad.
Ejemplo 11.1.3. Se realiza un experimento para estudiar la relación entre la altura de la
concha (X) y su longitud (Y), cada una medida en milímetros, de Patelloida pygmaea, una
lapa pegada a las rocas y conchas a lo largo de las costas protegidas en el área Indo-Pacífica.
Se tienen los siguientes datos:
x y x y x y x y
0.9 3.1 1.9 5.0 2.1 5.6 2.3 5.8
1.5 3.6 1.9 5.3 2.1 5.7 2.3 6.2
1.6 4.3 1.9 5.7 2.1 5.8 2.3 6.3
1.7 4.7 2.0 4.4 2.2 5.2 2.3 6.4
1.7 5.5 2.0 5.2 2.2 5.3 2.4 6.4
1.8 5.7 2.0 5.3 2.2 5.6 2.4 6.3
1.8 5.2 2.1 5.4 2.2 5.8 2.7 6.3
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
Regresión y correlación 393
7.0
Longitud de la concha, y
6.0
5.0
4.0
3.0
2.0
Figura 11.3. La nube de puntos de la altura de la concha frente a su longitud muestra una tenden-
cia lineal.
µY x =+
α βx
6.5
Copyright © 2014. McGraw-Hill Interamericana. All rights reserved.
6.0
5.5
Longitud de la concha, y
5.0
4.5
4.0
3.5
3.0
2.5
2.0
Figura 11.4. Curva teórica lineal (recta) de regresión y curva ideal para predecir la longitud de la
concha basándose en su altura.
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
394 Estadística para Biología y Ciencias de la Salud
Gráficos del tipo de los mostrados en las Figuras 11.3 y 11.5 se obtienen fácilmente
utilizando la TI83 u otras calculadoras gráficas. También pueden realizarse con SAS u otros
paquetes informáticos. Dibujar una nube de puntos debería ser siempre el primer paso en
cualquier estudio de regresión lineal simple.
Nuestro problema en el Ejemplo 11.1.3 es estimar matemáticamente la ecuación para kY Yx
basándonos en los datos observados. Fijémonos en que, a través de la nube de puntos, pueden
trazarse muchas líneas rectas que pasan por algunos de los datos puntuales, y pueden trazarse
otras que estén «próximas» a la mayor parte de los datos puntuales. ¿Cuál de estas líneas
debemos escoger como nuestro estimado para kY Yx? ¿Cuál es la línea que mejor se «ajusta» a
los datos? Responderemos a estas preguntas en la Sección 11.2.
x
0 50 100 150
Densidad inicial de Paramecium
Copyright © 2014. McGraw-Hill Interamericana. All rights reserved.
x
0 50 100 150
Densidad inicial de Paramecium
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
Regresión y correlación 395
EJERCICIOS 11.1
1. Considérense las siguientes observaciones sobre una variable dependiente Y y una varia-
ble independiente X.
x y x y
x y x y x y x y
75 2.0 95 5.2 110 7.2 130 3.8
80 3.0 100 5.5 115 6.8 135 2.9
85 4.5 105 6.0 115 6.4 140 2.0
85 4.7 110 6.5 120 5.5
90 5.0 110 6.7 125 4.2
pueda predecir el tiempo medio de incubación Y a partir del conocimiento del período de
incubación X. Utilizando fotografías a intervalos se obtuvieron los siguientes datos:
x y x y x y
0.25 30 4 18 12 38
0.50 18 5 26 18 55
0.50 25 6 21 19 35
1.0 21 7 52 20 30
1.0 22 8 62 20 50
1.0 40 9 45 20 155
1.5 19 10 39 21 35
2 10 10 120 21 38
2.5 55 11 18
3 23 11 50
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
396 Estadística para Biología y Ciencias de la Salud
4. Se realiza un estudio para investigar la relación entre el nivel de humedad del suelo y la
tasa de mortalidad en lombrices de tierra. La tasa de mortalidad, Y, es la proporción de
lombrices de tierra que mueren tras un período de dos semanas; el nivel de humedad, x,
viene medido en milímetros de agua por centímetro cuadrado de suelo. Se obtuvieron los
siguientes datos:
x y x y
0 0.5 0.632 0
0 0.4 0.947 0.1
0 0.5 0.947 0.2
0.316 0.2 0.947 0.1
0.316 0.3 1.26 0.6
0.316 0.3 1.26 0.5
0.632 0 1.26 0.4
0.632 0.1
Dibujar una nube de puntos para estos datos. ¿Muestran los datos una tendencia lineal?
¿Qué tipo de curva debe usarse para describir la tendencia mostrada por los datos? (Basa-
do en un estudio realizado por Jeffrey A. Hollar, Departamento de Biología, Universidad
de Radford, 1996.)
Recordemos que en la regresión lineal simple se da por supuesto que el gráfico de la media de
la variable dependiente Y, para valores dados de la variable independiente X, es una línea
recta. Es decir,
kY Yx = a + bx
12.8 110
13.9 54
14.1 98
14.7 50
15.0 67
15.1 58
16.0 52
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
Regresión y correlación 397
16.5 50
16.6 43
17.2 15
17.9 28
En la Figura 11.7 se recogen los datos formando la nube de puntos, junto con una línea
teórica imaginaria de regresión. Para estimar la línea teórica de regresión, debemos estimar a,
valor «y» de la intersección de la línea con eje vertical, y b, su pendiente. Las estimaciones
para estos parámetros se designan como a y b, respectivamente. De este modo, la línea de
regresión estimada viene dada por
kY Yx = a + bx
El razonamiento que está detrás del método de los mínimos cuadrados es muy sencillo. De
las muchas líneas rectas que pueden trazarse a través de la nube de puntos, conviene elegir
aquella que «mejor se ajusta» a los datos. El ajuste es el mejor en el sentido de que los valores
adoptados por a y b serán aquellos que minimicen la suma de los cuadrados de las distancias
entre los datos puntuales y la línea de regresión ajustada. De esta forma, estamos determinan-
do la línea recta que está tan próxima como sea posible a todos los datos puntuales simultá-
neamente.
La distancia entre un dato puntual y el valor estimado por la recta de regresión se denomi-
na residuo. Los residuos se indican mediante e1, e2, e3, ..., en. Se ilustran en la Figura 11.8.
Utilizando esta notación,
e1 = diferencia entre el primer dato puntual
y el estimado por la línea de regresión
= y1 − (a + bx1)
e2 = y2 − (a + bx2)
e3 = y3 − (a + bx3)
F
e11 = y11 − (a + bx11)
Copyright © 2014. McGraw-Hill Interamericana. All rights reserved.
100
Período de cría, en días
µY x =+
α βx
80
60
40
20
0 12 13 14 15 16 17 18
Fotoperíodo, en horas
Figura 11.7. Línea de regresión teórica y curva ideal para predecir la duración del período de cría,
desconocida por el experimentador, basándose en el fotoperíodo.
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
398 Estadística para Biología y Ciencias de la Salud
(x1, y1)
α βx (Línea de regresión
µY x =+
teórica y curva de
100 predicción efectiva)
e1
Período de cría, en días 80
a bx (Línea estimada de
µ4 Y x =+
60 regresión y curva
e2
de predicción real)
40
(x2, y2)
20
0 12 13 14 15 16 17 18
Fotoperíodo, en horas
Figura 11.8. La curva de predicción efectiva minimiza la suma de los cuadrados de las distancias ei,
donde ei es la distancia vertical del dato puntual (xi, yi) a la recta de regresión estimada.
11 11
; e2i = ; [yi − (a + bxi)]2
i=1 i=1
Esta suma, indicada mediante SSE, es una función tanto de a como de b. Es decir, su valor
depende de los valores numéricos elegidos para la pendiente y el término independiente de la
recta de regresión estimada. Deseamos elegir a y b de forma que SSE sea lo más pequeña
posible. Las técnicas de cálculo pueden utilizarse para demostrar que esto ocurre siempre que
se satisfagan estas ecuaciones:
11 11
; yi = 11a + b ; xi
i=1 i=1
Copyright © 2014. McGraw-Hill Interamericana. All rights reserved.
11 11 11
; xi yi = a ; xi + b ; xi2
i=1 i=1 i=1
11 11 11
11 ; xi yi − ; xi ; yi
i=1 i=1 i=1
b=b=
C D
11 11 2
11 ; x − ; xi2
i
i=1 i=1
a = a = y − bx
Así, para calcular a y b en este conjunto de datos, necesitaremos solamente calcular cuatro
valores:
11 11 11 11
; xi ; xi2 ; yi ; xi yi
i=1 i=1 i=1 i=1
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
Regresión y correlación 399
De este modo:
11(9286.2) − 169.8(625)
b=b= = −15.11
11(2645.02) − (169.8)2
625 (169.8)
a=a= − (−15.11) = 290.06
11 (11)
La línea de regresión estimada y la ecuación de predicción real basada en estos datos es:
kY Yx = 290.06 − 15.11x
Para predecir la duración media de la época de cría, cuando el fotoperíodo bajo el cual se
inició la reproducción es 14.5 horas, sustituimos x = 14.5 en la ecuación anterior. Así, nuestro
valor predicho es:
Las ecuaciones normales y las estimadas para a y b dadas en el Ejemplo 11.2.1 se genera-
lizan reemplazando el número 11, tamaño de la muestra para el conjunto de datos dado, por n,
tamaño de la muestra para un conjunto de datos en general. De este modo, las ecuaciones
normales para el modelo de regresión lineal simple son:
n n
; yi = na + b ; xi
i=1 i=1
(Ecuaciones normales)
Copyright © 2014. McGraw-Hill Interamericana. All rights reserved.
n n n
; xi y i = a ; x i + b ; x 2
i
i=1 i=1 i=1
a = a = y − bx
n n n
n ; xi y i − ; xi ; yi (Estimaciones para a y b)
i=1 i=1 i=1
b =b=
C D
n n 2
n ; xi2 − ; xi
i=1 i=1
Debemos llamar la atención sobre un punto: un conjunto de datos proporciona una prueba
de linealidad solamente sobre aquellos valores de X cubiertos por el conjunto de datos. Para
valores de X fuera de los cubiertos no hay evidencia de linealidad. Es peligroso, por tanto,
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
400 Estadística para Biología y Ciencias de la Salud
utilizar una línea de regresión estimada para predecir valores de Y correspondientes a valores
de X que estén fuera del campo de los valores de X cubiertos por el conjunto de datos.
Aclararemos este punto en el Ejemplo 11.2.2.
Ejemplo 11.2.2. Se obtuvieron los siguientes datos sobre los tiempos más rápidos «Y» (en
segundos) invertidos por corredores de la carrera de la milla, en los campeonatos mundiales
que tuvieron lugar entre 1954 y 1972:
En la Figura 11.9 se representa la nube de puntos de estos datos. Parecen tener una tenden-
cia lineal. Para ajustar una línea de regresión se precisan los siguientes valores:
Copyright © 2014. McGraw-Hill Interamericana. All rights reserved.
20 20
; xi = 1260 ; yi = 4687.3
i=1 i=1
20 20
; xi2 = 80 040 ; xi yi = 295 024.2
i=1 i=1
x = 63 y = 234.37
n ; xy − ; x ; y 20(295 024.2) − (1260)(4687.3)
b=b= = = −0.42
n; x2 − G; xH2 20(80 040) − 12602
a = a = y − bx = 234.37 − (−0.42)(63) = 260.83
kY Yx = 260.83 − 0.42x
Esta línea puede utilizarse sin problemas para predecir el tiempo invertido por un corredor de
la milla en un campeonato mundial celebrado entre 1954 y 1972, los años cubiertos por el
conjunto de datos. El peligro está en utilizar esta ecuación para predecir el tiempo para la
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
Regresión y correlación 401
y
240
238
Tiempo en segundos
236
234
232
230
x
0 1954 1956 1958 1960 1962 1964 1966 1968 1970 1972
Año
Figura 11.9. Nube de puntos de años frente a tiempo empleado en la carrera de la milla por cam-
peones del mundo.
carrera de la milla mucho después de 1972, porque, a partir del conjunto de datos, no hay prueba
de que la tendencia lineal continúe indefinidamente. En particular, supongamos que suponemos
erróneamente que la tendencia lineal continúa y tratamos así de predecir el tiempo invertido en la
carrera para un corredor en el año 2521. Para dicho año, x = 621. Así, el valor predicho de Y es:
kY Yx = 260.83 − 0.42(621) = 0.01 segundos
¡Este valor es inconcebible como tiempo posible para correr una milla! El problema surge
porque en algún punto después de 1972, cesa la tendencia lineal y los tiempos se mantienen en
un determinado valor.
kY Yx = a + bx
Copyright © 2014. McGraw-Hill Interamericana. All rights reserved.
estamos subrayando el hecho de que los puntos sobre la recta representan la respuesta media
estimada cuando la variable predictora asume el valor x. Esta recta también puede utilizarse
para predecir la respuesta misma. El sentido común nos dice que una elección lógica del valor
predicho de Y para un valor x dado es su valor medio estimado cuando X = x. Por ejemplo, si
nos pidieran que predijéramos la temperatura del agua oceánica en un punto concreto donde
la profundidad es de 1000 pies, una elección lógica para esta predicción es la temperatura
media estimada a esta profundidad. Si nos piden que predigamos la duración del tiempo de
reproducción de un pato buceador en particular, que comenzó la puesta cuando el fotoperíodo
era de 14.5 horas, nuestra mejor estimación es la duración media estimada bajo estas condi-
ciones. En el Ejemplo 11.2.1 se ha hallado que este promedio estimado era de 70.97 días. Por
lo tanto, es correcto escribir:
Al leer los resultados de un estudio de regresión hay que ser cuidadoso. La ecuación obtenida
es la ecuación del valor medio de Y como función de x. Se utiliza para estimar tanto la
respuesta media como la individual cuando el regresor asume el valor x.
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
402 Estadística para Biología y Ciencias de la Salud
Hemos proporcionado una forma lógica para estimar a y b, y así ajustar una línea recta a
cualquier conjunto de datos. También hemos visto que una nube de puntos da una cierta idea
sobre si es aplicable o no una regresión lineal. En todo caso, todavía hay que comprobar una
cuestión importante: ¿Tiene realmente sentido la regresión lineal o se ajustaría más a los
datos algún otro tipo de curva, proporcionando así una mejor ecuación de predicción? Esta
pregunta no puede ignorarse. Nos dedicamos a ella en la Sección 11.4.
La regresión lineal simple es una técnica estadística muy útil. Por esta razón, muchas calcula-
doras manuales están programadas para efectuar análisis de regresión introduciendo simple-
mente los pares (x, y). Consulte el manual de su calculadora para ver si tiene esta capacidad.
La sección de Herramientas Computacionales, al final del capítulo, mostrará cómo utilizar la
TI83 para estimar una recta de regresión.
El análisis de regresión para grandes conjuntos de datos se realiza, habitualmente, por
ordenador. En el Ejemplo 11.2.3 se trata el análisis por ordenador de los datos del Ejem-
plo 11.2.1. El código SAS utilizado para generar el printout se muestra en la sección de
Herramientas Computacionales de este capítulo.
kY Yx = 290.07044608 − 15.11057071x
Copyright © 2014. McGraw-Hill Interamericana. All rights reserved.
Esto concuerda, al margen de las diferencias de redondeo, con la ecuación hallada anterior-
mente. La duración media estimada del tiempo de reproducción, cuando la reproducción co-
mienza durante las 14.5 horas de luz, se muestra en c.
EJERCICIOS 11.2
Nota: Aunque en esta sección se han dado las fórmulas para calcular a y b, los problemas
deberían ser resueltos utilizando un ordenador o una calculadora estadística cuando sea posible.
1. Para los datos del Ejercicio 1 de la Sección 11.1, hallar ; x, ; x2, ; y, ; xy, x, y. Utilizar
estas cantidades para estimar a y b. Escribir la ecuación de la línea de regresión estimada
y emplearla para predecir el valor medio de Y cuando x = 3.7; así como el mismo valor de
Y cuando x = 3.7.
2. Utilizar la ecuación de regresión obtenida en el Ejemplo 11.2.1 para predecir la duración
de la época de reproducción si ésta se inició cuando había catorce horas de luz por día.
¿Puede emplearse esta ecuación con cierta seguridad para estimar la duración de la época
de reproducción si ésta se inició cuando había diez horas de luz por día? Explicarlo.
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
Regresión y correlación 403
110 A
100
A
90
80
70
A
Longitud
60
A
A
A
50 A A
A
40
30
A
20
A
10
0
12.6 13.2 13.8 14.4 15.0 15.6 16.2 16.8 17.4
Fotoperíodo
Copyright © 2014. McGraw-Hill Interamericana. All rights reserved.
Figura 11.10. Nube de puntos para los datos del Ejemplo 11.2.1. Los datos presentan una tenden-
cia lineal descendente.
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
404 Estadística para Biología y Ciencias de la Salud
Copyright © 2014. McGraw-Hill Interamericana. All rights reserved.
Figura 11.11. Salida de un programa SAS, utilizado para estimar la recta de regresión y aproximar
la duración media del tiempo de reproducción cuando ésta comienza en el momento en que hay
14.5 horas de luz al día.
Manejar esta información para estimar a, b y kY Yx. ¿Cuál es la puntuación estimada me-
diante el índice antiguo para un paciente cuya puntuación por el nuevo índice es 5.5? ¿Se
puede predecir con cierta seguridad la puntuación mediante el índice antiguo de un pa-
ciente con una puntuación de x = 16 por el nuevo índice? Razonar la respuesta.
4. Se realiza un estudio para establecer una ecuación mediante la cual se pueda utilizar la
concentración de estrona en la saliva, para predecir la concentración del esteroide en
plasma libre. Se extrajeron los siguientes datos de 14 varones sanos:
7.4 30.0
7.5 25.0
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
Regresión y correlación 405
8.5 31.5
9.0 27.5
9.0 39.5
11.0 38.0
13.0 43.0
14.0 49.0
14.5 55.0
16.0 48.5
17.0 51.0
18.0 64.5
20.0 63.0
23.0 68.0
a) ¿Cuál es la respuesta media estimada para cada una de estas variables en pacientes
para los que la distancia máxima a la que pueden apagar la vela es de 10 cm?
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
406 Estadística para Biología y Ciencias de la Salud
5 7.50 15 6.75
5 7.30 15 6.73
5 7.00 15 6.70
5 6.95 15 6.68
5 6.88 15 6.70
10 6.85 20 6.55
10 6.83 20 6.65
10 6.80 20 6.63
10 6.78 20 6.62
10 6.80 20 6.60
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
Regresión y correlación 407
Recuérdese que el análisis de regresión estadística aborda la relación entre una variable inde-
pendiente X y la media de una variable dependiente Y. No estamos interesados en extraer
conclusiones sobre X, puesto que esta variable sólo nos interesa debido al hecho de que ayuda
a estimar la respuesta media kY Yx, o a predecir una respuesta individual Y Yx. En la determina-
ción de la regresión, la variable predictora X no es aleatoria, mientras que la respuesta Y es
una variable aleatoria. Hemos estado particularmente interesados en situaciones en las que la
relación entre x y kY Y x es lineal. Nuestra atención ha estado centrada en estimar la recta:
kY Yx = a + bx
de forma que la ecuación obtenida se puede utilizar para estimar respuestas futuras y respues-
Copyright © 2014. McGraw-Hill Interamericana. All rights reserved.
Y = a + bX
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
408 Estadística para Biología y Ciencias de la Salud
Obsérvese que si los valores pequeños de X tienden a estar asociados con valores peque-
ños de Y y los valores grandes de X con valores grandes de Y, entonces X − kX e Y − kY
tenderán a tener el mismo signo algebraico. Esto implica que (X − kX)(Y − kY) tenderá a ser
positivo produciendo una covarianza positiva. Si es cierto lo contrario y los valores pequeños
de X tienden a ser asociados con valores grandes de Y y viceversa, entonces X − kX e Y − kY
tenderán a tener signos algebraicos opuestos. Ello produce la tendencia de (X − kX)(Y − kY) a
ser negativo, proporcionando una covarianza negativa.
Es evidente que podemos decir algo sobre la relación entre X e Y a partir del signo alge-
braico de la covarianza. Sin embargo, este parámetro no está acotado. Puede asumir cualquier
valor real, y su magnitud no tiene significado. Para corregir este problema, dividimos la
covarianza por ∂(Var X)(Var Y) para formar el coeficiente de correlación de Pearson pre-
sentado en la Definición 11.3.2.
Cov(X, Y)
o=
∂(Var X)(Var Y)
A pesar de que la prueba está fuera del objetivo de este texto, se puede demostrar que o se
sitúa entre −1 y +1, ambos inclusive. Si o = 1, decimos que existe una correlación positiva
perfecta entre X e Y. Los valores grandes de X están asociados con valores grandes de Y, y los
valores pequeños de X están asociados con valores pequeños de Y. En este caso, los puntos (x,
y) se situarán en una línea recta con pendiente ascendente tal como se muestra en la Figura
11.12a. Si o = −1, decimos que existe una correlación negativa perfecta entre X e Y. Aquí, los
valores grandes de X están asociados con valores pequeños de Y, y los valores pequeños de X
están asociados con valores grandes de Y. Los puntos se situarán en una línea recta con
pendiente descendente, tal como se muestra en la Figura 11.12b. Si o = 0, decimos que X e Y
no están correlacionados. Esto sólo significa que no existe asociación lineal entre X e Y. No
significa que X e Y no estén relacionados. Sin embargo, ello implica que si existe una relación
entre estas dos variables aleatorias, ésta no será lineal. Las Figuras 11.12c y d ilustran dos
casos en los que o = 0. En la parte c no existe una relación obvia entre X e Y. En la parte d, hay
Copyright © 2014. McGraw-Hill Interamericana. All rights reserved.
Ejemplo 11.3.2. Sea X la altitud e Y el índice de diversidad del arbolado. Puesto que el
número de especies de árboles que pueden sobrevivir a grandes altitudes es bastante pequeño,
a medida que aumenta la altitud debería disminuir el número de especies halladas. Por lo
tanto, los valores grandes de X deberán asociarse con valores pequeños de Y y viceversa. La
correlación entre estas dos variables aleatorias será negativa.
Estimación de o
Téngase en cuenta que Cov (X, Y) y o son parámetros teóricos. Ni uno ni otro pueden calcularse
sin el conocimiento de la distribución de probabilidad del par de variables (X, Y). El problema
estadístico es estimar sus valores a partir de un conjunto de datos. Puesto que Cov (X, Y)
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
Regresión y correlación 409
y y
Y =+
α βX
Y =+
α βX
x x
(a) (b)
y y
x x
(c) (d)
Figura 11.12. (a) Correlación positiva perfecta: o = 1, b > 0, todos los puntos están sobre una línea recta
con pendiente positiva; (b) correlación negativa perfecta: o = −1, b < 0, todos los puntos están sobre una
línea recta con pendiente negativa; (c) no correlacionados: o = 0, los puntos están aleatoriamente dis-
puestos; (d) no correlacionados: o = 0, los puntos indican una relación entre X e Y, pero no lineal.
puede expresarse como diferencia entre las medias teóricas E[XY] y E[X]E[Y], es posible
estimarla fácilmente reemplazando cada media teórica por su correspondiente media mues-
tral. De este modo estimamos:
n
; xi y i
i=1
E[XY] mediante
n
Copyright © 2014. McGraw-Hill Interamericana. All rights reserved.
n
; xi
i=1
E[X] mediante
n
n
; yi
i=1
E[Y] mediante
n
Sustituyendo, la covarianza estimada se convierte en:
n n
xi yi x n y
Cov (X, Y) = ; − ; i ; i
i=1 n i=1 n i=1 n
n n n
n ; x i yi − ; xi ; y i
i=1 i=1 i=1
=
n2
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
410 Estadística para Biología y Ciencias de la Salud
C D
n 2
i=1 xi
Var X = − ;
n i=1 n
C D
n n 2
n ; xi2 − ; xi
i=1 i=1
=
n2
Combinando estos resultados, obtenemos una estimación lógica para el coeficiente de corre-
lación o:
n n n
n ; x i yi − ; xi ; yi
i=1 i=1 i=1
n2
o=
JC C DD C C DD
n n 2 n n 2
n ; xi2 − ; xi n ; yi2 − ; yi
i=1 i=1 i=1 i=1
n2 n2
respuesta al dolor se mide utilizando el umbral de reflejo de flexión nociceptiva (Y), que es
una medida de sensación de punzada. Obsérvese que ambas, X e Y, son variables aleatorias.
Queremos estimar o, el coeficiente de correlación para estas variables. Se obtienen los si-
guientes datos:
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
Regresión y correlación 411
En la Figura 11.13 se dibuja la nube de puntos. Parece haber alguna tendencia a que los
valores pequeños de X estén asociados con valores grandes de Y, y viceversa. Sin embargo, no
es una tendencia fuerte, como lo demuestran los puntos (30, 4.5), en los que se empareja un
valor pequeño de X con un valor pequeño de Y, y (20, 14), para el que ocurre lo contrario.
Basándonos en estos comentarios, esperaremos que r, la estimación para o, sea negativa; pero
no que esté muy próxima a −1. Es decir, esperaremos que X e Y presenten una ligera correla-
ción negativa. Para verificar estas observaciones, estimamos o utilizando la Definición
11.3.3. Se necesitan los siguientes estadísticos muestrales:
; x = 627 ; y = 77 ; xy = 4461.5
; x2 = 45 141 ; y2 = 799.5
n; x y − ; x ; y
o =r=
∂[n;x − G;xH2] [n; y2 − G; yH2]
2
10(4461.5) − 627(77)
=
∂[10(45 141) − 6272] [10(799.5) − 772]
= −0.33
y
16
14
12
Umbral de dolor
10
8
6
4
2
x
0 10 20 30 40 50 60 70 80 90
Porcentaje de sobrepeso
Figura 11.13. Nube de puntos del porcentaje de sobrepeso frente al umbral de reflejo de flexión
nociceptiva, indicando una ligera correlación negativa.
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
412 Estadística para Biología y Ciencias de la Salud
Este contraste debe verse con precaución. Sólo comprueba si X e Y están o no correlaciona-
dos. De ninguna forma contrasta si la correlación que existe tiene alguna importancia prácti-
ca. Para un conjunto de datos grande, se puede comprobar que una correlación de 0.05 es
diferente de cero. Sin embargo, como hemos visto, esta correlación se considera débil. En la
sección siguiente explicaremos lo débil que es. Verá en artículos de investigación que ciertas
correlaciones son «estadísticamente significativas». Recuerde el hecho de que esto general-
Copyright © 2014. McGraw-Hill Interamericana. All rights reserved.
Figura 11.15. Salida de SAS para hallar el coeficiente de correlación de los datos del Ejemplo
11.3.3. No se rechaza la hipótesis nula de no correlación.
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
Regresión y correlación 413
se muestra en b. Dado que este valor P(0.3457) es alto, no rechazaremos H0. La correlación
negativa débil no es lo suficientemente grande como para poder concluir que, de hecho, existe
una asociación lineal entre el umbral de reflexión nociceptiva y el porcentaje de sobrepeso.
EJERCICIOS 11.3
x y
2.0 5.0
2.5 5.5
3.0 6.2
3.5 6.4
4.0 7.0
x y
2.0 7.2
2.5 7.0
3.0 6.5
3.5 6.0
4.0 5.3
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
414 Estadística para Biología y Ciencias de la Salud
x y
2.0 4.0
2.1 4.4
2.5 6.3
3.0 9.0
3.5 6.2
3.9 4.3
4.0 4.0
Hallar r.
5. Para estudiar el efecto de las aguas residuales de las alcantarillas que afluyen a un lago,
se toman medidas de la concentración de nitrato en el agua. Para monitorizar la variable,
se ha utilizado un antiguo método manual. Se idea un nuevo método automático. Si se
pone de manifiesto una alta correlación positiva entre las medidas tomadas empleando
los dos métodos, se hará uso habitual del método automático. Los datos obtenidos son los
siguientes (las unidades son microgramos de nitrato por litro de agua):
Copyright © 2014. McGraw-Hill Interamericana. All rights reserved.
x (manual) y (automático)
25 30
40 80
120 150
75 80
150 200
300 350
270 240
400 320
450 470
575 583
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
Regresión y correlación 415
6. Se ha realizado un estudio para evaluar la precisión con que las madres pueden juzgar el
consumo de alimentos de sus hijos. Se obtuvieron datos de las madres y de un observador
externo que pasó mucho tiempo observando la preparación de los alimentos y los hábitos
nutritivos del niño. Entre el informe de la madre y el del observador se hallaron estas
correlaciones:
Alimento r Alimento r
Como hemos puesto de manifiesto en la Sección 11.2, el método de los mínimos cuadrados
puede utilizarse para ajustar una línea recta a cualquier conjunto de datos. Sin embargo, la
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
416 Estadística para Biología y Ciencias de la Salud
utilidad de esta línea como pronóstico de valores futuros de la variable dependiente Y está
condicionada por completo a que el supuesto de linealidad sea apropiado. Por esta razón,
necesitamos un método analítico para determinar la bondad del ajuste de la línea recta a los
lados puntuales. Presentamos dos métodos. El primero utiliza un estadístico llamado coefi-
ciente de determinación; el segundo emplea una técnica de análisis de la varianza para descu-
brir si la variabilidad de Y está bien explicada por medio de una relación lineal con X.
Coeficiente de determinación
n; xy − ; x ; y Sxy
b= =
n; x 2 − G; xH2 Sxx
n; xy − ; x ; y Sxy
r= =
∂[n; x − G; xH ] [n; y − G; yH ]
2 2 2 2
∂SxxSyy
Obsérvese que:
∂Sxx
r=b
∂Syy
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
Regresión y correlación 417
La consecuencia práctica de esta relación es que b y r tienen siempre el mismo signo algebrai-
co. Así, una correlación positiva implica una línea de regresión con pendiente positiva (una
línea que se eleva de izquierda a derecha); una correlación negativa implica una línea de
regresión con pendiente negativa (una línea que desciende de izquierda a derecha).
Reconsideremos ahora la suma de cuadrados SSE que está siendo minimizada en el proce-
so de mínimos cuadrados:
n n
SSE = ; e2i = ; [yi − (a + bxi )]2
i=1 i=1
La suma mide la variabilidad de los datos puntuales yi en torno a la línea de regresión ajustada
a + bxi. Si la línea se ajusta estrechamente a los datos puntuales, entonces SSE será pequeña;
de lo contrario, será grande.
Se puede utilizar un argumento algebraico bastante astuto que comprende el uso de las
reglas de la suma dadas en el Apéndice A, para demostrar que:
El argumento viene dado enteramente en [11]. Dividiendo cada miembro de la ecuación por
Syy, obtenemos:
SSE S
= 1 − b xy
Syy Syy
SSE S2
= 1 − xy
Syy Sxx Syy
SSE
= 1 − r2
Syy
o que:
SSE Syy − SSE
r 2 =1 − =
Syy Syy
Dado que Syy mide la variación total en Y y SSE mide la variación aleatoria de Y en torno a la
línea de regresión, Syy − SSE es una medida de variación de Y que no es aleatoria. Es decir,
Syy − SSE es una medida de la variabilidad de Y que puede ser atribuida a su asociación lineal
con X.
El estadístico r2 se llama coeficiente de determinación. En la práctica,
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
418 Estadística para Biología y Ciencias de la Salud
Ejemplo 11.4.1. Volvamos a examinar la relación entre X, porcentaje por encima del peso
ideal, e Y, umbral individual del dolor. En el Ejemplo 11.3.3 hallamos que r = −0.33 e inter-
pretamos que hay una ligera correlación negativa entre las dos variables. Para hacerse una
idea mejor de la consistencia de la relación lineal, calculamos r 2, coeficiente de determina-
ción. El valor de este estadístico es r 2 =(−0.33)2 = 0.1089. Multiplicando por 100, concluimos
que solamente el 10.89 % de la variación de Y es atribuible a su asociación lineal con X.
Puesto que este porcentaje es pequeño, una correlación de −0.33 no es realmente muy fuerte.
Ello indica que no hay una fuerte tendencia de los individuos obesos a mostrar un bajo umbral
de dolor, y viceversa.
Análisis de la varianza
Existe una técnica de análisis de la varianza que se utiliza para comprobar si una línea recta
muestra una cantidad significativa de la variabilidad observada de Y. Como en cualquier
proceso de análisis de la varianza, la idea es dividir la variabilidad total de Y, Syy, en compo-
nentes que puedan ser atribuidas a orígenes reconocibles. Esto se puede hacer fácilmente
puesto que ya hemos establecido que SSE, la variabilidad aleatoria en torno a la línea de
regresión ajustada, puede escribirse en la forma:
Copyright © 2014. McGraw-Hill Interamericana. All rights reserved.
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
Regresión y correlación 419
Modelo
i = 1, 2, ..., k
Yij = a + bxi + Eij
j = 1, 2, ..., ni
C DC DC D
Valor observado Valor medio de Desviación
de Y para un Y para este valor aleatoria de la
= +
valor particular de X media
de X
Las hipótesis hechas sobre Y implican los siguientes supuestos respecto al modelo:
Supuestos del modelo. Las desviaciones aleatorias Eij son variables aleatorias normales
independientes con media 0 y varianza p2.
Copyright © 2014. McGraw-Hill Interamericana. All rights reserved.
Con ellos es posible formular matemáticamente las hipótesis nula y alternativa apropiadas, y
contrastar la hipótesis nula utilizando SSR y SSE. Queremos contrastar:
µY x =+
α βx
x1 x2 xk
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
420 Estadística para Biología y Ciencias de la Salud
MSR
MSE
n; xy − ; x ; y n; x2 − G; xH2
Sxy = Sxx =
Copyright © 2014. McGraw-Hill Interamericana. All rights reserved.
n n
n; y2 − G; yH2 Sxy
Syy = b=
n Sxx
Tabla 11.1. ANOVA utilizado para contrastar H0: b = 0 (no hay regresión lineal)
SSE
Error n−2 Syy − bSx y
n−2
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
Regresión y correlación 421
Ejemplo 11.4.2. En el Ejemplo 11.1.3, las variables de interés son X e Y, altura y longi-
tud, respectivamente, de la concha de la lapa Patelloida pygmaea. La nube de puntos indica
que el supuesto de regresión lineal es válido. Comprobamos estadísticamente ese supuesto
en lugar de confiar únicamente en el modelo gráfico de los datos. Necesitamos los siguien-
tes valores:
a = a = 1.36 r = 0.8638
b = b = 1.99 r 2 = 0.7461
kY Yx = 1.36 + 1.99x
Observemos que, cuando se rechaza la hipótesis nula de que no hay regresión lineal, se ha
llegado a la conclusión de que mediante el modelo lineal puede explicarse una parte significa-
Tabla 11.2. ANOVA para los datos del Ejemplo 11.4.2. La hipótesis nula de no
regresión lineal se rechaza con P < 0.01
Origen DF SS MS F
12.97
Regresión 1 bSxy = 12.97 12.97 = 76.29
0.17
4.48
Error 26 17.45 − 12.97 = 4.48 = 0.17
26
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
422 Estadística para Biología y Ciencias de la Salud
tiva de la variabilidad de Y. Ello no quiere decir que el modelo lineal sea necesariamente el
mejor modelo a utilizar, sino que es razonable hacerlo.
Ahora es posible explicar algo más del printout que se muestra en la Figura 11.11. En el
Ejemplo 11.2.3, hemos observado que en la nube de puntos parece haber una tendencia lineal
en los datos. La recta de regresión estimada aparece como:
kY Yx = 290.07044608 − 15.11057071x
EJERCICIOS 11.4
1. Se lleva a cabo un estudio sobre las características corporales y el modo de actuar de los
levantadores de peso olímpicos, superiores y de primera clase. Se estudian dos variables,
la X, peso corporal del sujeto, e Y, su mejor levantamiento dictaminado en cuanto a
limpieza y empuje. Se obtuvieron los siguientes datos en libras:
x y x y
a) Dibujar la nube de puntos. Basándose en ella, ¿se puede esperar que b sea positivo o
negativo?
b) Hallar ; x, ; x2, ; y, ; y2, ; xy, y r.
c) Hallar e interpretar el coeficiente de determinación.
d) Comprobar la idoneidad del modelo lineal de regresión. Si es adecuado, hallar la
línea de regresión estimada de Y sobre X, y utilizarla para estimar el mejor levanta-
miento en cuanto a limpieza y empuje para un levantador de peso que pese 200
libras.
2. Se lleva a cabo un estudio, por medio de técnicas de seguimiento de marcadores radiacti-
vos, de la capacidad corporal para absorber hierro y plomo. Participan en el estudio diez
sujetos. A cada uno se le da una dosis oral idéntica de hierro (sulfato ferroso) y de plomo
(cloruro de plomo-203). Después de doce días, se mide la cantidad de cada componente
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
Regresión y correlación 423
x (porcentaje de y (porcentaje de
hierro absorbido) plomo absorbido)
17 8
22 17
35 18
43 25
80 58
85 59
91 41
92 30
96 43
100 58
a) Dibujar la nube de puntos. Basándose en ella, ¿se puede determinar si b será positivo
o negativo?
b) Hallar ; x, ; x2, ; y, ; y2, ; xy y r.
c) Hallar e interpretar el coeficiente de determinación.
d) Comprobar la idoneidad del modelo lineal de regresión. Si es apropiado, estimar
la verdadera línea de regresión y utilizarla para predecir el porcentaje de hierro
absorbido por un individuo cuyo sistema corporal absorbe el 15 % del plomo
ingerido.
3. Verificar la tabla del análisis de la varianza de la Figura 11.11.
4. a) Hallar e interpretar el coeficiente de determinación para los datos del Ejercicio 4 de
la Sección 11.2.
b) Comprobar la idoneidad del modelo lineal de regresión utilizando los datos del Ejer-
cicio 4 de la Sección 11.2. ¿Cree el lector que la predicción dada en el apartado d del
Ejercicio 4 de la Sección 11.2 es un buen estimador para y?
Copyright © 2014. McGraw-Hill Interamericana. All rights reserved.
5. Utilizar los datos del Ejercicio 5 de la Sección 11.3 para hallar el coeficiente de determi-
nación para las variables X, lectura de nitrato hecha mediante una antigua técnica ma-
nual, e Y, lectura hecha mediante un nuevo método automático. Sobre esta base, ¿cree el
lector que el nuevo método reflejará con precisión las lecturas que habrían sido obtenidas
con la técnica antigua?
6. Considérense las correlaciones del Ejercicio 6 de la Sección 11.3.
a) Hallar el coeficiente de determinación para cada tipo de alimento.
b) ¿Cuál es el porcentaje de variación máxima en Y (el informe de la madre) explicado
por su asociación lineal con X (informe del observador)?
c) Basándose en el valor r 2, ¿piensa usted que la correlación negativa asociada al fósfo-
ro tiene alguna importancia práctica? Explicarlo.
7. Considérese el Ejercicio 7 de la Sección 11.3. Hallar el coeficiente de determinación de
cada correlación dada.
8. Considérense las ecuaciones de regresión del Ejercicio 6 de la Sección 11.2. Los valores
de r para las ecuaciones son 0.805 (FVC), 0.836 (FEV1), 0.825 (PEFR) y −0.689 (FET).
En cada caso, ¿qué porcentaje de variación en la respuesta está ligado a la asociación
lineal con X, la distancia más lejana a la que puede apagarse la vela?
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
424 Estadística para Biología y Ciencias de la Salud
x y x y x y
5 6.1 25 3.7 42 3.4
5 6.2 25 3.7 42 3.6
5 6.1 25 3.8 42 3.5
5 6.0 25 3.9 42 3.2
15 5.2 32 3.9 55 3.7
15 5.0 32 3.8 55 3.9
15 4.9 32 3.9 55 3.6
15 5.1 32 3.7 55 3.8
En la Figura 11.17 se muestra la nube de puntos. Parece existir una tendencia lineal des-
cendente. Por lo tanto, anticipamos una pendiente negativa para la línea de regresión estima-
da. Primero comprobamos la idoneidad del modelo lineal de regresión. Para estos datos,
; x = 696 ; y = 103.7 ; xy = 2692.5
Sxy
x = 29 y = 4.32 b= = −0.048
Sxx
Sxx = 6568 Syy = 21.74 a = y − bx = 5.71
En la Tabla 11.3 se muestra el análisis de la varianza. En la tabla F observamos que
P[F1, 22 ß 7.95] = 0.01. Dado que 50.37, el valor observado de F, excede este punto,
P < 0.01. Este valor P es pequeño, de forma que podemos rechazar H0: b = 0 en favor de
H1: b | 0 y concluir que está garantizado el supuesto de linealidad. Disponemos ahora de
estimaciones puntuales para a y b, a saber, a = a = 5.71 y b = b = −0.048.
Supongamos que estamos particularmente interesados en la concentración de silicona a
una distancia de 10 km de la costa. Se pueden plantear dos preguntas: ¿Cuál es la concentra-
ción media a esta distancia?, y, si se extrae una única muestra de agua a esta distancia, ¿cuál
será la concentración de silicona para la muestra? Estas preguntas pueden responderse ya
utilizando estimadores puntuales. En concreto, se nos está pidiendo estimar kY Yx = 10 e Y Yx = 10.
Se trata de la misma estimación, es decir:
kY Yx = y = a + bx
= 5.71 − 0.048x = 5.23 kg/litro
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
Regresión y correlación 425
Nuestro problema es extender cada una de estas estimaciones puntuales a intervalos de esti-
mación, de modo que se pueda establecer un nivel de confianza.
∂nSxx
Origen DF SS MS F
Total 23 21.74
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
426 Estadística para Biología y Ciencias de la Salud
S∂; x 2
a±t
∂nSxx
; x 2 = 26 752 n = 24 a = 5.71
J
SSE
Sxx = 6568 S= = ∂0.30 = 0.5477
n−2
∂0.3∂26 752
5.71 ± 2.074 = 5.71 ± 0.47
∂24(6568)
S
b±t
∂Sxx
Copyright © 2014. McGraw-Hill Interamericana. All rights reserved.
∂0.3
−0.048 ± 2.074 = −0.048 ± 0.014
∂6568
0.025 0.025
t
0 2.074
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
Regresión y correlación 427
Recuérdese que la recta de regresión estimada puede utilizarse para obtener una estima-
ción puntual de la respuesta media para un valor de X dado, kY Yx, o para una respuesta indivi-
dual, Y Yx. Las dos estimaciones puntuales son idénticas. Sin embargo, sus estimaciones de
intervalo no son idénticas. Puesto que es mucho más difícil predecir el comportamiento indi-
vidual que el comportamiento en grupo, es mucho más difícil precisar Y Yx que kY Yx. Un
intervalo previsto para incluir Y Yx debe ser más amplio que aquél cuyo objetivo es incluir
kY Yx. Para distinguir estos intervalos tan similares, nos referiremos al intervalo utilizado para
contener a kY Yx, como intervalo de confianza; un intervalo construido para contener a Y Yx se
denominará intervalo de predicción. Se utilizan las fórmulas siguientes:
J
1 (x − x)2 (Intervalo de confianza de la
kY Yx ± tS +
n Sxx respuesta media cuando X = x)
J
1 (x − x)2 (Intervalo de predicción de la
y ± tS 1 + +
n Sxx respuesta individual cuando X = x)
J
1 (x − x)2
kY Yx ± tS +
n Sxx
J
1 (10 − 29)2
5.23 ± 2.074∂0.3 + = 5.23 ± 0.35
24 6568
Copyright © 2014. McGraw-Hill Interamericana. All rights reserved.
J
1 (x − x)2
y ± tS 1 + +
n Sxx
El intervalo resultante es:
J
1 (10 − 29)2
5.23 ± 2.074∂0.3 1 + + = 5.23 ± 1.19
24 6568
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
428 Estadística para Biología y Ciencias de la Salud
EJERCICIOS 11.5
1. Se obtuvieron los siguientes datos para X, latitud del espacio natural de cría, e Y, duración
del período de cría, en días, de 11 especies de patos buceadores:
x y x y
29 112 53 42
42 98 54 50
45 58 55 18
45 68 60 51
50 28 65 49
50 46
x y x y x y x y
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
Regresión y correlación 429
x y x y x y x y
2.7 2.5 4.3 5.0 12.5 11.0 5.6 5.7
3.0 3.8 5.0 4.5 11.3 13.0 9.1 9.0
3.7 2.5 5.0 6.2 13.0 13.1 16.2 12.5
3.7 3.5 6.3 6.2 14.5 13.8 9.0 14.0
Ejemplo 11.6.1. Se sabe que en los mamíferos se puede alterar la toxicidad de diferentes
tipos de fármacos, pesticidas y carcinógenos químicos induciendo la actividad enzimática del
hígado. Se ha informado de un estudio para investigar este tipo de fenómeno en pollos realiza-
do por M. Ehrich, C. Larson y J. Arnold, «Organophosphate Detoxification Related by Indu-
ced Hepatic Microsomal Enzymes in Chickens», American Journal of Veterinary Research,
vol. 45, 1983. Se utilizó el análisis de regresión para estudiar las relaciones entre la actividad
enzimática inducida y la detoxificación del insecticida malatión. El hidroxitolueno butilatado
(BHT) fue el inductor enzimático utilizado. Se emplearon como regresores cinco actividades
enzimáticas y la respuesta fue el porcentaje de detoxificación del malatión. El modelo de
regresión lineal múltiple expresa la idea de que el porcentaje medio de detoxificación del
malatión depende del nivel de cada una de las cinco enzimas. Matemáticamente escribimos:
Al igual que con la regresión lineal simple, nuestro problema es utilizar el método de los
mínimos cuadrados para estimar los parámetros b0, b1, b2, ..., bk. Deseamos hallar los valores
de estos parámetros que minimizan la suma de los cuadrados de los residuos, donde un resi-
duo es la diferencia entre el dato puntual observado y el valor de la respuesta predicha por la
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
430 Estadística para Biología y Ciencias de la Salud
Ejemplo 11.6.2. Cuando se realizó el estudio descrito en el Ejemplo 11.6.1, se obtuvo esta
ecuación con ayuda del ordenador:
Esto es también el porcentaje predicho de detoxificación de un pollo individual con estos nive-
les de las cinco enzimas. Obsérvese el impacto del signo algebraico de los coeficientes sobre la
respuesta. Un coeficiente positivo implica que el aumento en el nivel enzimático tiende a
aumentar el porcentaje de detoxificación. Un signo negativo significa lo opuesto. En todos los
casos excepto en el enzima 4, a medida que aumenta el nivel enzimático aumenta el porcentaje
de detoxificación. Con el enzima 4, el aumento del nivel tiende a inhibir la detoxificación.
plo 11.6.2 se determinó que r 2 era 0.976. Este valor es muy alto. Podemos decir que el 97.6 %
de la variación de la respuesta puede explicarse por la asociación lineal entre la respuesta y
los cinco niveles enzimáticos.
La regresión múltiple es un tema muy complejo. Normalmente, cuando se realiza un
estudio de regresión múltiple, el experimentador intenta señalar todas las variables que cree
que son factores importantes para explicar la respuesta. Estos regresores no son elegidos por
el profesional de la estadística sino por el experto en la materia, el experimentador. A conti-
nuación se realiza un experimento que implica tomar decisiones sobre todos los regresores y
sobre la respuesta. Una vez realizado esto, se efectúa un poco de trabajo detectivesco. El
experimentador, junto con el experto en estadística, deben decidir cuáles de los regresores
propuestos desempeñan el mejor trabajo en explicar la respuesta. ¿Deben utilizarse todos los
regresores como se ha hecho en el Ejemplo 11.6.1, o algún subconjunto de regresores funcio-
na igualmente bien o aún mejor? El objetivo es hallar el mejor conjunto de regresores. Exis-
ten varios criterios utilizados para decidir cuál es el mejor conjunto. De éstos, r 2 y MSE ya le
son familiares. Para el modelo final, es deseable tener un valor alto de r 2. Deseamos que
explique un alto porcentaje de la variación observada en la respuesta. Puesto que MSE es una
medida de la variación no explicada en la respuesta, el modelo final tendrá una media de
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
Regresión y correlación 431
cuadrados pequeña debido al error. Sin embargo, se sabe que a medida que se añaden más y
más regresores al modelo, r 2 siempre aumenta. ¿Significa esto que «más es mejor»? La res-
puesta a la pregunta es no. Existen otros criterios que son indicadores mucho mejores de la
capacidad predictiva de una ecuación de regresión que r 2 o MSE. Estos criterios se ven afectados
al añadir regresores innecesarios al modelo. Se puede realmente dañar la capacidad predictiva del
modelo incluyendo regresores sin importancia. Así pues, para escoger el mejor modelo, debemos
considerar todos los criterios y hacer un juicio de valor. Deseamos tomar el conjunto menor de
regresores que produce un MSE razonablemente pequeño, un r 2 aceptablemente alto y que
tiene un buen valor predictivo según lo medido por los demás criterios. Existen muchos textos
que tratan esas ideas con detalle. Si usted tiene un proyecto de investigación en el que aparezca
regresión múltiple, le sugerimos que consulte [12] e inmediatamente a un especialista en esta-
dística para ayudar a diseñar su experimento y analizar sus datos.
EJERCICIOS 11.6
1. Utilizar la ecuación de regresión del Ejemplo 11.6.1 para estimar la respuesta media
cuando x1 = 233, x2 = 260, x3 = 82, x4 = 80, x5 = 88. Estimar el porcentaje de detoxifica-
ción para un pollo con estos niveles enzimáticos.
2. Al derivar la ecuación de regresión del Ejemplo 11.6.1, la respuesta observada cuando
x1 = 233, x2 = 260, x3 = 82, x4 = 80, x5 = 88, ha sido 152. Utilizar la estimación hallada en
el Ejercicio 1 para encontrar el residuo en este punto.
3. Considerar la ecuación de regresión del Ejemplo 11.6.1. Supóngase que mantenemos los
niveles enzimáticos para las enzimas 1, 2, 3 y 5 como se ha indicado en el Ejercicio 1,
pero cambiamos la x4 de 80 a 81. ¿Qué efecto tendrá esto sobre la respuesta media
estimada?
4. Utilizar la idea sugerida en el Ejercicio 3 para hacer una afirmación general en relación a
la interpretación de los coeficientes b1, b2, ..., bk en una ecuación de regresión múltiple.
5. Se realiza un estudio sobre la compactación mecánica de la arenisca en Alaska. El objeto
del estudio es determinar factores que afectan la porosidad. La ecuación de regresión
obtenida es
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
432 Estadística para Biología y Ciencias de la Salud
6. La ecuación de regresión del Ejercicio 5 tiene tres regresores. Hay siete ecuaciones de
regresión que pueden escribirse y que implican el uso de uno o más de estos regresores.
Escribir estas siete ecuaciones.
7. ¿Cuántas ecuaciones de regresión pueden escribirse implicando el uso de uno o más de
los regresores mencionados en el Ejemplo 11.6.1?
8. En cada uno de estos casos, utilice sus conocimientos sobre la materia para sugerir regre-
sores que puedan utilizarse para estimar la respuesta media a la variable considerada.
a) Y =pérdida de peso alcanzada tras un régimen de adelgazamiento de seis meses.
b) Y = tamaño del anillo de crecimiento, por estación de crecimiento, de un árbol selec-
cionado aleatoriamente.
c) Y = peso de un bebé recién nacido.
d) Y = altura de un ser humano adulto.
e) Y = tiempo requerido para que un paciente se recupere totalmente de una cadera rota.
f ) Y = nivel de colesterol en un adulto sano.
g) Y = salto vertical de un jugador universitario de baloncesto.
h) Y = velocidad de un pájaro en vuelo.
HERRAMIENTAS COMPUTACIONALES
TI83
ENTER
F
2.7
ENTER
3. e 3. Introduce valores de y en la columna L2.
3.1
ENTER
3.6
ENTER
F
6.3
ENTER
4. WINDOW 4. Accede a la ventana para especificar
opciones gráficas.
5. 0 5. Establece 0 como valor mínimo de x, un
ENTER valor ligeramente por debajo del menor de
los valores de x.
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
Regresión y correlación 433
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
434 Estadística para Biología y Ciencias de la Salud
e
e
1
GRAPH
11. VARS 11. Estima la longitud media de la duración de
e la estación de cría cuando x = 14.5.
4
1
1
ENTER
2ND
TRACE
1
14.5
ENTER
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
Regresión y correlación 435
XXVII. Correlación
Para ilustrar el uso de la TI83 para el cálculo de r utilizaremos los datos del Ejemplo 11.3.3.
Se utilizan los datos del Ejemplo 11.1.3 para mostrar el código SAS necesario para dibujar
una nube de puntos.
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
436 Estadística para Biología y Ciencias de la Salud
0.9 3.1
1.5 3.6
1.6 4.3 Líneas de datos.
F
2.7 6.3
; Señal de fin de datos.
PROC PLOT; Dibujar datos con Y en el
PLOT Y*X; eje horizontal.
TITLE ‘ES REGRESIÓN LINEAL?’; Titular la salida.
Is Regression Linear?
Plot of Y*X. Ledgend: A = 1 obs, B = 2obs, etc.
Y
6.4 A A
6.3 A A A
6.2 A
6.1
6.0
5.9
5.8 A A A
5.7 A A A
5.6 A A
5.5 A
5.4 A
5.3 A A A
5.2 A A A
5.1
5.0 A
4.9
4.8
4.7 A
Copyright © 2014. McGraw-Hill Interamericana. All rights reserved.
4.6
4.5
4.4 A
4.3 A
4.2
4.1
4.0
3.9
3.8
3.7
3.6 A
3.5
3.4
3.3
3.2
3.1 A
0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7
X
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
Regresión y correlación 437
XV. Correlación
A continuación se muestra el código SAS usado para generar la Figura 11.15. Los datos son
los del Ejemplo 11.3.3.
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.
Copyright © 2014. McGraw-Hill Interamericana. All rights reserved.
Milton, J. Susan. Estadística para biología y ciencias de la salud (3a. ed.), McGraw-Hill Interamericana, 2014. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliofescsp/detail.action?docID=3196185.
Created from bibliofescsp on 2018-08-21 13:18:19.