Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Correlación.
Regresión Lineal.
Ms. Zoraida Yanet Vidal Melgarejo zvidalm@upao.edu.pe
Dr. Alex Napoleón Castañeda Sabogal acastanedas1@upao.edu.pe
Ing. Agustín Eduardo Ullón Ramírez aullonr@upao.edu.pe
-2-
-3-
La hipertensión, definida como la presión sistólica mayor a 140 mm Hg o la presión diastólica mayor
de 90 mm Hg, se encuentra en 20 a 30% de la población de EUA. El diagnóstico y tratamiento de la
hipertensión ha reducido de modo significativo la morbilidad y mortalidad relacionadas con las
complicaciones de la hipertensión. Se han comercializado muchos dispositivos para uso casero para
tomar la presión arterial en los dedos de los propios pacientes, para que éstos tengan un modo fácil
y conveniente de hacerse a sí mismos el monitoreo de su presión arterial. ¿Qué tan precisos son los
dispositivos de los dedos para medir la presión arterial? Nesselroad et al. (1996) estudiaron estos
aparatos para corroborar su precisión.
-4-
-5-
-6-
-7-
-8-
Correlación
-9-
D: 𝒓 = −𝟎. 𝟒 E: 𝒓 = 𝟎. 𝟎 F: 𝒓 = 𝟎. 𝟎
- 10 -
Correlación
Se utilizará el estudio de Jackson et al. (2002) para una mejor comprensión de la correlación.
La fórmula para el coeficiente de correlación momento – producto de Pearson, simbolizada
por r, es:
ഥ
σ(𝑿 − 𝑿)(𝒀 ഥ
− 𝒀)
𝒓=
ഥ 𝟐 σ(𝒀 − 𝒀)
σ(𝑿 − 𝑿) ഥ 𝟐
- 11 -
Correlación
Un primer paso muy recomendado al buscar las relaciones entre dos características
numéricas es examinar las relaciones desde el punto de vista gráfico. En la figura 2 se
muestra una gráfica de dispersión de los datos, con el IMC en el eje de las X y del
porcentaje de grasa corporal en el eje de las Y. Al observar la figura 2 se advierte que existe
relación positiva entre las dos características; pequeños valores del IMC se relacionan con
cifras pequeñas en el porcentaje de grasa corporal. El aspecto de interés es si la relación
observada tiene significancia estadística.
La extensión de la relación puede encontrarse calculando el coeficiente de correlación.
Utilizando un programa estadístico, la correlación entre el IMC y el porcentaje de grasa
corporal es de 0.73, lo que indica una relación poderosa entre esas dos mediciones.
- 12 -
Correlación
Figura 2. Gráfica de dispersión del IMC y porcentaje de grasa corporal.
- 13 -
Correlación
El tamaño de la correlación requerida para obtener significancia estadística está, desde luego,
relacionado con el tamaño de la muestra. Una mejor manera de interpretar el tamaño de
correlación es considerar lo que dice sobre la fuerza de la correlación.
Coeficiente de determinación
El coeficiente de correlación puede elevarse al cuadrado para obtener la estadística llamada
coeficiente de determinación.
Para los sujetos en el estudio de Jackson, el coeficiente de determinación es 0.53; lo que
significa que 53% de la variación en los valores para uno de los parámetros, como es el
porcentaje de grasa corporal puede obtenerse a partir del IMC.
- 14 -
Correlación
2 Interpretación del tamaño de r
Coeficiente de determinación
En los diagramas de Venn en la figura 3 se puede apreciar, para el diagrama de la izquierda,
𝑟 2 = 0.25 por tanto 25% de la variación en A es dada por el conocimiento de B (o
viceversa). El diagrama central muestra que 𝑟 2 = 0.50 , en tanto que el diagrama de la
derecha 𝑟 2 = 0.80
Figura 3. Ilustración de 𝑟 2 , proporción de varianza explicada.
- 15 -
Correlación
2 Interpretación del tamaño de r
Correlación
Permítase usar esta relación t para determinar si el valor observado de r = 0.73 es prueba
suficiente con 655 observaciones para concluir que el verdadero valor de la población de la
correlación 𝜌 es diferente de cero.
- 17 -
Correlación
Distribución Binomial
2 Interpretación del tamaño de r
Paso 1
𝑯𝟎 : No existe relación alguna entre el IMC y el porcentaje de grasa corporal, o la verdadera
correlación es cero: 𝜌 = 0.
Paso 2
Debido a que la hipótesis nula es una prueba de que ρ es o no cero, la relación de t puede
usarse cuando se cumplan las suposiciones de correlación.
- 18 -
Paso 3
Selecciónese para este ejemplo 𝛼 de 0.01.
Paso 4
Los grados de libertad son n – 2 = 655 – 2 = 653. El valor de una distribución t con 653 grados
de libertad que divide el área en 99% central, donde los extremos bajo y alto del 1.0% son,
aproximadamente, 2.617. Por tanto, se rechaza la hipótesis nula de la correlación cero, si (el
valor absoluto de) el valor observado de t es mayor que 2.617.
- 19 -
Correlación
Distribución Binomial
2 Interpretación del tamaño de r
Paso 5
El cálculo es: 𝟎. 𝟕𝟑 𝟔𝟓𝟑
𝒕= = 𝟐𝟕. 𝟐𝟗
𝟏 − 𝟎. 𝟕𝟑𝟐
Paso 6
El valor observado para la proporción t con 653 grados de libertad es de 27.29, que con
mucho es mayor a 2.617; por tanto, se rechaza la hipótesis de nulidad de correlación 0, y se
concluye que la relación entre IMC y el porcentaje de grasa corporal es lo suficientemente
grande para concluir que estas dos variables están asociadas.
- 20 -
Correlación
Transformación z de Fisher para
3 demostrar la correlación
Los investigadores por lo general desean saber si 𝜌 = 0, y esto en ocasiones puede hacerse
con facilidad con programas de cómputo; sin embargo es de interés saber si la correlación es
igual a una cifra específica diferente a 0. Por ejemplo, considérese una prueba diagnóstica
que proporciona datos numéricos precisos pero es invasora e implica ciertos riesgos para el
paciente. Si alguien desarrolla un procedimiento alternativo, es importante demostrar que el
nuevo procedimiento tiene la misma precisión que la prueba en uso.
El método es seleccionar una muestra de pacientes y realizar la prueba actual y el nuevo
procedimiento en cada paciente y después calcular el coeficiente de correlación entre los
dos procedimientos probados.
- 21 -
Correlación
Transformación z de Fisher para
3 demostrar la correlación
La transformación z de Fisher es:
𝟏 𝟏+𝒓
𝒛(𝒓) = 𝒍𝒏
𝟐 𝟏−𝒓
Con muestras de tamaño moderado, esta transformación sigue una distribución normal y
puede usarse la siguiente expresión para la prueba z:
𝒛 𝒓 − 𝒛(𝝅)
𝒛=
𝟏/(𝒏 − 𝟑)
Supóngase que querían saber si la correlación es significativamente más grande que 0.65.
- 22 -
Correlación
TransformaciónDistribución Binomial
z de Fisher para
3 demostrar la correlación
Paso 1
𝑯𝟎 : La relación entre el IMC y el porcentaje de grasa corporal es ≤ 0.65; o la correlación
real es 𝜌 ≤ 0.65
Paso 2
La transformación z de Fisher puede emplearse con el coeficiente de correlación para
contrastar cualquier hipótesis.
- 23 -
Correlación
Transformación z de Fisher para
3 demostrar la correlación
Paso 3
Paso 4
La hipótesis alterna especifica una prueba de una cola. El valor de la distribución de z que
divide el área en 99% bajo y 1% alto es aproximadamente 2.326. Por tanto, se rechaza la
hipótesis de nulidad de que la correlación es ≤ 0.65 si el valor observado de z > 2.326.
- 24 -
Correlación
Distribución Binomial
Transformación z de Fisher para
3 demostrar la correlación
Paso 5
El primer paso consiste en encontrar los valores transformados para r = 0.73 y 𝜌 = 0.65; estos
valores son 0.929 y 0.775, respectivamente. Los cálculos para la prueba de z son:
- 25 -
Correlación
Transformación z de Fisher para
3 demostrar la correlación
- 26 -
Correlación
Transformación z de Fisher para
3 demostrar la correlación
Correlación
4 Suposiciones en la correlación
1 Comparar las correlaciones entre las dos mismas variables que han sido medidas en
dos grupos independientes de individuos.
Comparar dos correlaciones que implican una variable común en el mismo grupo de
2
individuos.
- 29 -
- 31 -
(𝑛 − 3)(1 + 𝑟𝑦𝑧 )
𝒕 = (𝑟𝑥𝑦 − 𝑟𝑥𝑧 ) 2 2 − 𝑟 2 + 2𝑟 𝑟 𝑟 )
2(1 − 𝑟𝑥𝑦 − 𝑟𝑥𝑧 𝑦𝑧 𝑥𝑦 𝑥𝑧 𝑦𝑧
- 32 -
- 33 -
100 − 3 1 + 0.54
𝑡 = 0.32 − 0.45 2 2 2
2 1 − 0.32 − 0.45 − 0.54 + 2 0.32 0.45 0.54
149.39
= −0.13 = −𝟏. 𝟓𝟎
2 0.40 + 0.56
- 34 -
1 Rho de Spearman
• Los valores del coeficiente de correlación están notablemente influenciados por valores
extremos y, por ende, éste no proporciona una buena descripción de la relación entre dos
variables cuando su distribución está sesgada o contiene valores desfasados. Por ejemplo,
considérese la relación entre los diferentes dispositivos para el dedo y el manguito estándar
para medir la presión arterial del Planteamiento del problema 2, se toman los primeros 25
individuos de este estudio, listados en el cuadro 2.
• Resulta difícil decir si las observaciones tienen distribución normal sin ver la gráfica de los
datos. Algunos programas estadísticos tienen rutinas para hacer el trazado de los valores
contra una distribución normal, y con ello ayudan a los investigadores a decidir si un
procedimiento no paramétrico debe o no utilizarse. La gráfica de probabilidad normal de la
medición con el manguito de presión diastólica, se muestra en la figura 5.
- 35 -
- 36 -
1 Rho de Spearman
• Cuando las observaciones se trazan en una gráfica, como en la figura 5, pareciera que los
datos no están excesivamente sesgados. Esta conclusión es consistente con las pruebas
dadas por NCSS para la normalidad de una distribución. En la gráfica de probabilidad
normal, si las observaciones caen dentro de las líneas curvas puede suponerse que los
datos tienen distribución normal.
• El cuadro 3 muestra los rangos de las lecturas diastólicas tomadas a los primeros individuos.
Nótese que a cada variable se le da rango por separado; cuando se dan empates, se toma el
promedio de los rangos de los valores empatados.
• Los rangos de las variables se emplean para la ecuación del coeficiente de correlación, y los
cálculos resultantes dan la correlación de rangos de Spearman (𝑟𝑠 ), también conocida como
rho de Spearman:
- 37 -
1 Rho de Spearman
- 39 -
1 Rho de Spearman
Paso 1
𝑯𝟎 : El valor de la rho de Spearman para la población es cero; es decir 𝜌𝑠 = 0.
𝑯𝟏 : El valor de la rho de Spearman para la población no es cero; es decir𝜌𝑠 ≠ 0.
Paso 2
Debido a que la hipótesis de nulidad es una prueba para decidir si 𝜌𝑠 = 0 o no, se puede
utilizar la proporción de t.
- 40 -
1 Rho de Spearman
Paso 3
Úsese para este ejemplo 𝛼 = 0.05.
Paso 4
Los grados de libertad son n – 2 = 25 – 2 = 23. El valor de la distribución t con 23 grados de
libertad que divide al área en 95% central y 2.5% bajo y alto es igual a 2.069. Por tanto se
rechaza la hipótesis de nulidad que plantea la no correlación si (el valor absoluto de) el valor
observado de t es mayor que 2.069
- 41 -
1 Rho de Spearman
Paso 5 𝑟 𝑛−2
𝑡=
1 − 𝑟2
0.33 23
= = 1.677
1 − 0.332
Paso 6
El valor observado de la proposición t con 23 grados de libertad es 1.677, menor que 2.069;
por tanto, no se rechaza la hipótesis de nulidad y se concluye que hay evidencia insuficiente,
que existe una correlación no paramétrica significativa entre las mediciones de la presión
arterial diastólica tomadas con el manguito y las que se tomaron con el dispositivo 2 para el
dedo.
- 42 -
1 Rho de Spearman
• Es fácil demostrar que, realizando la prueba antes mencionada con los datos en rangos, se
obtiene casi los mismos resultados que con la prueba de rho de Spearman calculada de la
manera tradicional. Usando la fórmula de Pearson en rangos, se encuentra que la rho de
Spearman, en la muestra de 25 individuos, fue de 0.33 entre las mediciones con el
manguito de la presión diastólica y las tomadas por el dispositivo 2 para el dedo.
• La rho de Spearman resulta adecuada cuando los investigadores desean medir la relación
entre: 1) dos variables ordinales, o 2) dos variables numéricas siempre que una o las dos no
tengan distribución normal y los investigadores decidan no usar la transformación de datos.
La correlación de rangos de Spearman es adecuada cuando, entre las observaciones,
aparecen valores desfasados.
- 43 -
• En la literatura médica cada vez se recurre con más frecuencia a los intervalos de confianza
para las tasas de riesgo o la razón de momios. Ballard et al., informaron sobre intervalos de
confianza de 95% para la razón de momios (0.8 a 1.5).
• El hallazgo de los intervalos de confianza para la razón de momios es un poco más
complicado que lo usual porque estas tasas no tienen distribución normal, de manera que
el cálculo de intervalos de confianza requiere encontrar los logaritmos natural y los
antilogaritmos. La fórmula para los intervalos de confianza de 95% de la razón de momios
es:
𝟏 𝟏 𝟏 𝟏
𝒆𝒙𝒑 𝐥𝐧(𝑶𝑹) ± 𝟏. 𝟗𝟔 + + +
𝒂 𝒃 𝒄 𝒅
- 44 -
• Cuando una variable se mida en una escala nominal y la otra es numérica pero se ha
clasificado en categorías, cuando una variable es nominal y la otra es ordinal, o cuando
ambas son ordinales pero sólo ocurren pocas categorías. En estos casos se forman tablas
de contingencia y se recurre a la prueba de chi cuadrada.
• En otras ocasiones, la variable numérica no se colapsa en categorías. Por ejemplo, Hodgson
y Cutler (1997) estudiaron 25 individuos con un pariente vivo con enfermedad de
Alzheimer y a un grupo similar sin historia familiar de demencia. Los sujetos de
investigación contestaron un interrogatorio sobre la preocupación de desarrollar la
enfermedad de Alzheimer y para evaluar su preocupación sobre la memoria, la índice de
valoración de la memoria (IVM). Los datos aparecen en el cuadro 4.
- 45 -
- 46 -
- 47 -
- 48 -
Regresión Lineal
• El término regresión simple significa que sólo una variable (independiente) explicativa se
utiliza para predecir un resultado. En la regresión múltiple se incluye más de una variable
independiente en la ecuación de predicción.
- 50 -
Regresión Lineal
Método de los cuadrados mínimos 1
• El método de cuadrados mínimos es una Figura 6. Interpretación geométrica de
manera de determinar la ecuación de la línea una línea de regresión.
que se ajusta en buena medida a los puntos.
Considérese la línea recta de la figura 6. Para
determinar la ecuación de cualquier línea
recta se puede recurrir a la geometría
elemental. Si el punto donde se cruza las
líneas o interceptan el eje de la Y se
representa por a y la pendiente de la línea
por b, la ecuación es:
𝒀′ = 𝒂 + 𝒃𝑿
- 51 -
Regresión Lineal
Método de los cuadrados mínimos 1
• La pendiente de la línea mide la cantidad del cambio en Y por cada unidad del cambio en X. Si la
pendiente es positiva, Y aumenta conforme aumenta X; en cambio, si la pendiente es negativa Y
disminuye conforme disminuye X y viceversa. En el modelo de regresión, la pendiente en la
población por lo general es simbolizada por 𝛽1 , llamada coeficiente de regresión, y 𝛽0 representa
la intersección de la línea de regresión; es decir, 𝛽1 y 𝛽0 son los parámetros de la población en
regresión.
• En la mayor parte de las aplicaciones, los puntos no caen con exactitud a lo largo de la línea recta.
Por esta razón, el modelo de regresión contiene un término de error llamado e, que es la
distancia existente de los valores reales de Y a partir de la línea de regresión. La ecuación de
regresión es:
𝒀 ′ = 𝜷𝟎 + 𝜷𝟏 𝑿 + 𝜺
- 52 -
Regresión Lineal
𝒀′ = 𝒃𝟎 + 𝒃𝟏 𝑿 𝒀′ = 𝒂 + 𝒃𝑿
- 53 -
Regresión Lineal
Método de los cuadrados mínimos 1
• La diferencia entre el valor real de Y y el valor de predicción, e = YY’, da un criterio para juzgar qué
tan bien encaja la línea con los puntos. El método de cuadrados mínimos determina la línea que
minimiza la suma de diferencia de la vertical cuadrada entre los valores para la variable Y, es decir,
𝜷𝟎 y 𝜷𝟏 están determinadas luego de que σ(𝑌 − 𝑌 ′ )2 es minimizada. La fórmulas para 𝜷𝟎 y 𝜷𝟏
se encuentran en función de los cálculos de las muestras b y a, las fórmulas son:
ഥ
σ(𝑿 − 𝑿)(𝒀 ഥ
− 𝒀)
𝒃=
σ(𝑿 − 𝑿ഥ )𝟐
ഥ
𝒂 = 𝒀 + 𝒃𝑿
- 54 -
Regresión Lineal
Cálculo de ecuaciones de regresión 2
• En el estudio descrito en el Planteamiento de problema 4, los investigadores deseaban
predecir la sensibilidad a la insulina a partir del IMC en un grupo de mujeres. Con estos datos
la ecuación de regresión, se formará una gráfica de dispersión y se practicará un “cálculo
adivinatorio” del valor del coeficiente de correlación a partir de la gráfica (aunque resulta
difícil calcular con seguridad el valor de r cuando la muestra es pequeña).
• En la figura 8 se presenta una gráfica de dispersión con el IMC como variable explicativa X y
de respuesta la sensibilidad como variable Y. Si se conociera la correlación entre el IMC y la
sensibilidad a la insulina, se podría utilizar para calcular la ecuación de regresión.
ഥ 𝒀−𝒀
𝑿−𝑿 ഥ = −𝟎. 𝟔𝟏𝟒 ഥ 𝟐 = 𝟏𝟒. 𝟏𝟖𝟐
(𝑿 − 𝑿)
ഥ = 𝟐𝟒. 𝟗𝟐𝟏
𝑿 ഥ = 𝟎. 𝟓𝟎𝟑
𝒀 - 55 -
Regresión Lineal
Figura 8. Gráfica de dispersión de las
Figura 9. Regresión de las observaciones
observaciones del IMC y sensibilidad a la
del IMC y sensibilidad a la insulina.
insulina.
- 56 -
Regresión Lineal
Cálculo de ecuaciones de regresión 2
ഥ )(𝒀 − 𝒀
σ(𝑿 − 𝑿 ഥ ) −𝟎. 𝟔𝟏𝟒 ഥ = 𝟎. 𝟓𝟎𝟑 − −𝟎. 𝟎𝟒𝟑𝟑 𝟐𝟒. 𝟗𝟐𝟏
𝒂 = 𝒀 + 𝒃𝑿
𝒃= = = −𝟎. 𝟎𝟒𝟑𝟑
σ(𝑿 − 𝑿 ഥ )𝟐 𝟏𝟒. 𝟏𝟖𝟐 = 𝟎. 𝟓𝟎𝟑 + 𝟏. 𝟎𝟕𝟗 = 𝟏. 𝟓𝟖𝟏𝟕
Regresión Lineal
Suposiciones e inferencias en regresión 3
2
El error estándar de la estimación
• Las líneas de regresión pueden variar como varían otras estadísticas. La ecuación de regresión
computada para cualquier muestra de observaciones sólo es una estimación de la verdadera
ecuación de regresión de la población. Si se seleccionan otras muestras de la población, y se
calcula una ecuación de regresión para cada muestra, estas ecuaciones variarán de una
muestra a otra respecto a sus pendientes e intersecciones.
• Una estimación de estas variaciones se simboliza con 𝑺𝒀⦁𝑿 y se llama error estándar de la
regresión o error estándar de la estimación. Se fundamenta:
σ(𝒀 − 𝒀′ )𝟐
𝑺𝒀⦁𝑿 =
𝒏−𝟐
- 58 -
Regresión Lineal
Suposiciones e inferencias en regresión 3
2
Inferencia sobre la intersección
Paso 1
𝑯𝟎 : 𝜷𝟎 = 𝟎 (la intersección es cero)
𝑯𝟏 : 𝜷𝟎 ≠ 𝟎 (la intersección no es cero).
- 59 -
Regresión Lineal
Suposiciones e inferencias en regresión 3
2
Inferencia sobre la intersección
Paso 2
Debido a que la hipótesis de nulidad es una prueba de que la intersección sea o no cero, la
proporción de t puede usarse si se cumplen las suposiciones. La proporción de t usa el error
estándar del estimado, como antes quedó definido, para calcular el error estándar de la
intersección (el denominador de la proporción de t)
𝒂 − 𝜷𝟎
𝒕=
ഥ 𝟐 / σ(𝑿 − 𝑿)
σ𝟐𝒀⦁𝑿{ 𝟏Τ𝒏 + 𝑿 ഥ 𝟐 }
- 60 -
Regresión Lineal
Suposiciones e inferencias en regresión 3
2
Inferencia sobre la intersección
Paso 3
Úsese para este ejemplo 𝛼 = 0.05 para este ejemplo.
Paso 4
Los grados de libertad son n – 2 = 33 – 2 = 31. El valor de la distribución t con grados de
libertad que divide al área en 95% central y 5% bajo y alto es igual a 2.040. Por tanto se
rechaza la hipótesis de nulidad de una intersección de cero (el valor absoluto de) el valor
observado de t es mayor que 2.040.
- 61 -
Regresión Lineal
Suposiciones e inferencias en regresión 3
2
Inferencia sobre la intersección
Paso 5 𝟏. 𝟓𝟖𝟏𝟕 − 𝟎
𝒕=
(𝟎. 𝟐𝟓𝟔)𝟐 { 𝟏Τ𝟑𝟑 + (𝟐𝟒. 𝟗𝟐𝟏𝟐)𝟐Τ𝟒𝟔𝟖. 𝟎𝟏𝟓 }
𝟏. 𝟓𝟖𝟏𝟕
= = 𝟓. 𝟑𝟎
(𝟎. 𝟎𝟔𝟓𝟓)(𝟏. 𝟑𝟓𝟕𝟑)
Paso 6
El valor absoluto de la razón observada de t es 5.30, la cuál es mayor que 2.040; por tanto, se
rechaza la hipótesis de nulidad de la interacción en cero. Se concluye que los datos son
suficientes para demostrar que la intersección en significativamente diferente de cero para la
regresión de sensibilidad a la insulina sobre el IMC.
- 62 -
Regresión Lineal
Suposiciones e inferencias en regresión 3
2
Inferencias sobre el coeficiente de regresión
• En vez de ejemplificar la prueba de hipótesis para el coeficiente de regresión de la población,
encuéntrese el intervalo de confianza del 95% para 𝛽1 . El intervalo se da por
𝟏
𝒃 ± 𝒕(𝒏−𝟐) 𝑺𝟐𝒀⦁𝑿
ഥ 𝟐
σ(𝑿 − 𝑿)
𝟏
= −𝟎. 𝟎𝟒𝟑𝟑 ± 𝟐. 𝟎𝟒𝟎 (𝟎. 𝟐𝟓𝟔)𝟐
𝟒𝟔𝟖. 𝟎𝟏𝟓
Regresión Lineal
Suposiciones e inferencias en regresión 3
2
Inferencias sobre el coeficiente de regresión
• Debido a que el intervalo excluye cero, se puede tener 95% de confianza de que el
coeficiente de regresión no es cero, pero que está entre – 0.0674 y – 0.0192 o entre – 0.07 y
– 0.02.
• La relación entre b y r debe ser suficiente para convencer al lector de que hay equivalencia
entre los resultados obtenidos, comprobando la significancia de la correlación y el
coeficiente de regresión. De hecho, muchos autores en la literatura médica realizan un
análisis de regresión y luego informan los valores de P para indicar lo significativo del
coeficiente de correlación.
• La carátula del programa de regresión SPSS se muestra en el cuadro 5. El programa produce
el valor de t y el valor de P, al igual que los límites de confianza de 95%.
- 64 -
Regresión Lineal
Cuadro 5. Resultados por cómputo de una regresión de sensibilidad a la insulina
sobre el índice de masa corporal
(Constante
1.582 0.299 5.294 0.000 0.972 2.191
1 índice de masa - 0.548
-0.043 0.0012 - 3.652 0.001 - 0.067 - 0.019
corporal)
- 65 -
Regresión Lineal
Suposiciones e inferencias en regresión 3
2
Predicción con la ecuación de regresión: valores individuales y de medias
• Una de las razones importantes para obtener las ecuaciones de regresión es la predicción
de valores futuros para un grupo de individuos (o para una persona en particular). El
intervalo de confianza de 95% para la media predicha Y en un grupo de individuos es:
𝟏 ഥ 𝟐
(𝑿 − 𝑿)
𝑴𝒆𝒅𝒊𝒂 𝒀′ ± 𝒕(𝒏−𝟐) 𝑺𝟐𝒀⦁𝑿 +
𝒏 σ(𝑿 − 𝑿)ഥ 𝟐
𝟏 ഥ 𝟐
(𝑿 − 𝑿)
𝒀′ ± 𝒕(𝒏−𝟐) 𝑺𝟐𝒀⦁𝑿 𝟏 + +
𝒏 σ(𝑿 − 𝑿)ഥ 𝟐
- 66 -
Regresión Lineal
Suposiciones e inferencias en regresión 3
2
Predicción con la ecuación de regresión: valores individuales y de medias
- 67 -
Regresión Lineal
Cuadro 6. Intervalos de 95% de confianza para la media de los grados de sensibilidad a la
insulina predicha y para el grado de sensibilidad a la insulina individual predicha
- 68 -
Regresión Lineal
Suposiciones e inferencias en regresión 3
2
Predicción con la ecuación de regresión: valores individuales y de medias
• Cuando la observación se aparta en cualquier dirección de la media, los errores estándar los
intervalos de confianza son cada vez mayores, reflejando el cuadrado de la diferencia entre
la observación y la media.
• Si se trazan en una gráfica los intervalos de confianza como bandas de confianza en la
relación la línea de regresión, se encuentran más cercanos a la línea en la media de X y se
alejan de ella en ambas direcciones a cada lado de 𝑋. ത En la figura 10 se muestra la gráfica de
las bandas de confianza.
• El cuadro 5 muestra otra característica interesante de la ecuación de regresión. Cuando se
utiliza la media de X en la ecuación de regresión, y Y’ predicha es la media de Y. Por tanto, la
línea de regresión pasa a través de la media de X y la media de Y.
- 69 -
Regresión Lineal
Suposiciones e inferencias en regresión 3
2
Predicción con la ecuación de regresión: valores individuales y de medias
• A partir de este punto, puede verse por qué son curvas las bandas de confianza alrededor de
las líneas de regresión. El error en la intersección significa que la verdadera línea de regresión
puede estar, por igual, arriba o debajo de la línea calculada por las observaciones de la
muestra, aunque conserva la misma orientación (pendiente). Por tanto, el error al medir la
pendiente significa que la verdad línea de regresión puede, hasta cierto punto, girar alrededor
ത 𝑌).
del punto (𝑋, ത
• La combinación de estos dos errores da como resultado las bandas de confianza cóncavas
mostradas en la figura 10. Algunas veces los artículos de las revistas tienen líneas de regresión
con bandas de confianza que, más que ser curvas, son paralelas. Estas bandas de confianza
son erróneas; sin embargo, pueden corresponder a errores estándar o intervalos de confianza
en su distancia más angosta a partir de la línea de regresión. - 70 -
Regresión Lineal
Figura 10. Regresión de las observaciones
Figura 11. Líneas de regresión
sobre el IMC y sensibilidad con bandas de
separadas para mujeres hipertiroideas
confianza (líneas oscuras para las medias,
(cuadros) y controles (círculos).
líneas claras para los individuos).
- 71 -
Regresión Lineal
Comparación de dos líneas de regresión 4
• Los investigadores del Planteamiento de problema 4, se interesaron particularmente en la
relación entre el IMC y la sensibilidad a la insulina de mujeres hipertiroideas, en
comparación con aquellas cuyas concentraciones de hormona tiroidea eran normales. Los
investigadores determinaron líneas de regresión separadas para cada grupo de mujeres.
Aquí se reproducen esas líneas de regresión en la figura 11.
• Como podrá suponerse, los investigadores a menudo se interesan en comparar líneas de
regresión para saber si las relaciones son o no las mismas en grupos diferentes de
individuos. Cuando se comparan líneas de regresión, se pueden representar cuatro
situaciones diferentes, como se muestra en la figura 12.
- 72 -
Regresión Lineal
Comparación de dos líneas de regresión 4
• La figura 12 – A, las pendientes de las líneas de regresión son iguales, pero las intersecciones son
diferentes. Por ejemplo, en este caso se presenta en mediciones de presión arterial de hombres y
mujeres con regresión por la edad; es decir , la relación entre la presión arterial y la edad es la misma
en hombres (pendientes iguales), pero los hombres tienden a presentar cifras mayores de presión
arterial en todas las edades, que las mujeres (intersección más alta para los hombres).
• La figura 12 – B las intersecciones son iguales, pero con las pendientes diferentes. Este patrón puede
descubrir, la regresión de la cuenta plaquetaria e los días siguientes a un trasplante de médula en dos
grupos de pacientes: los que recibieron terapéutica adyuvante y, en consecuencia, con remisión de la
enfermedad subyacente, y aquellos cuya enfermedad se mantiene activa. Es decir, antes e
inmediatamente después del trasplante, las cuentas de plaquetas son similares en ambos grupos
(intersección igual), pero tiempo después del trasplante la cuenta de plaquetas permanece sin
cambio en el grupo con enfermedad en remisión, mientras que el otro grupo la cuenta decrece por
no haber remisión (mayor pendiente negativa en los pacientes con enfermedad activa)
- 73 -
Figura 12. Ilustración de las formas en que pueden diferir las líneas de regresión.
- 74 -
Regresión Lineal
Comparación de dos líneas de regresión 4
• La figura 12 – C, la intersección y pendiente de las líneas de regresión difieren. Los
investigadores del planteamiento de problema 4 presentan una inclinación más conspicua de
la pendiente en la sensibilidad a la insulina conforme aumenta el IMC de las mujeres
hipertiroideas, que en las mujeres del grupo control. Aunque no se hace referencia alguna a la
diferencia de intersección, la relación entre IMC y sensibilidad a la insulina semeja la situación
de la figura 12 – C.
• De no existir diferencia alguna en las relaciones entre la predicción y el resultado de las
variables, las líneas de regresión son similares a las de la figura 12 – D, en la que las líneas son
coincidentes: tanto las intersecciones como las pendientes son iguales. Este caso ocurre en
muchas situaciones en medicina y se considera que es el patrón esperado (hipótesis de
nulidad) hasta que se demuestra que no aplica mediante la prueba de hipótesis o mediante
formación de límites de confianza para la intersección y la pendiente (o ambas).
- 75 -
1 Análisis de residuales
• Los residuales se calculan cuando se encuentran diferencias entre el valor real de Y y el valor
predicho de Y’, o Y – Y’, aunque no sea el término. Un residual es la parte de Y que no está
predicha por X (la parte sobrante o residual). Los valores residuales sobre el eje de
ordenadas se grafican contra los valores de X en las abscisas. La media de los residuales es
cero y, debido a que la pendiente se resta en el proceso de cálculo de los residuales, la
relación entre éstos y los valores de X también deben ser cero.
- 76 -
1 Análisis de residuales
1 Análisis de residuales
• Una vez de obtener una dispersión de puntos con dispersión fortuita se obtiene una gráfica
como la curva de la figura 13 – D, donde los valores de los residuales se relacionan con los
valores de X.
• Una transformación puede hacer lineal la relación, pueden utilizarse los métodos habituales
de la regresión con los datos transformados. Otra posibilidad, en especial para una curva, es
ajustar una línea recta a una parte de la curva y una segunda línea recta a otra parte de la
curva, procedimiento llamado regresión lineal de ajuste parcial.
- 78 -
Figura 13.
Ilustración del D: residuales contra valores de
C: relación curvilínea entre X y Y. X para la relación en parte C
análisis de
residuales.
- 79 -
• La variación hacia la media indica que los individuos que tuvieron presión arterial baja en la
primera medición tienen mayor probabilidad de obtener una cifra alta en la segunda
lectura. De la misma forma, los varones con represión arterial diastólica ≥ 90 en la primera
lectura, tienen mayor probabilidad de presentar presiones menores en la segunda lectura.
• Si a toda la muestra de hombres se le toma la presión arterial por segunda vez, los
aumentos y las disminuciones tienden a cancelarse entre sí. En cambio, si sólo un
subconjunto de los individuos es examinado por segunda vez, por ejemplo los hombres con
presión diastólica > 90, parecerá que la presión arterial ha descendido, cuando en realidad
no ha sido así.
- 81 -
- 83 -
Considérese la relación entre estatura y peso corporal. Supóngase que la estatura y el peso de 10
hombres y 10 mujeres son registrados, y se calcula la correlación entre peso y estatura combinando las
muestras.
En la figura 14 se muestra cómo se vería la gráfica de dispersión e indica el problema que resulta al
combinar hombres y mujeres como si se tratara de una sola muestra. La relación entre estatura y peso
parece ser más significativa en la muestra combinada que cuando se mide por separado hombres y
mujeres. Gran parte de la aparente significancia procede del hecho de que lo hombres tienden a ser
más altos y pesar más que las mujeres. Se puede obtener conclusiones inadecuadas si se mezclan dos
poblaciones diferentes.
- 84 -
- 85 -
Si se conoce el coeficiente
𝑫𝑬𝒀 𝑫𝑬𝒀
𝒃=𝒓 𝒓=𝒃 de regresión (b), puede
𝑫𝑬𝑿 𝑫𝑬𝑿
encontrarse r - 86 -
• Es una generalización directa de la regresión simple para las aplicaciones en las cuales dos o
más variables independientes (explicativas) se usan para predecir resultados.
• En el estudio descrito en el Planteamiento del problema 4, los investigadores quería predecir
el grado de sensibilidad a la insulina en una mujer tomando en base el IMC; sin embargo,
también se querían controlar por medio de la edad de la mujer. Los resultados de los dos
análisis se muestran en el cuadro 8.
• La primera regresión se hizo usando el IMC para predecir la sensibilidad a la insulina en
mujeres hipertiroideas; la ecuación resultante fue:
- 87 -
• Como se puede ver, la suma de la variable edad tiene relativamente poco efecto; de hecho, el
valor de P para la edad es 0.30, lo que indica que el factor edad no tiene relación significativa
con la sensibilidad a la insulina en este grupo de mujeres hipertiroideas.
- 88 -
Regresión Lineal
Cuadro 8. Ecuaciones de regresión para mujeres hipertiroideas
usando el IMC contra IMC y edad como variables predictoras.
𝑅 2 0.601
- 89 -
Regresión Lineal
Cuadro 8. Ecuaciones de regresión para mujeres hipertiroideas
usando el IMC contra IMC y edad como variables predictoras.
𝑅 2 0.639
- 90 -
- 91 -
- 92 -