Está en la página 1de 46

Facultad de Medicina Humana

Escuela Profesional de Medicina Humana

Correlación.
Regresión Lineal.
Ms. Zoraida Yanet Vidal Melgarejo zvidalm@upao.edu.pe
Dr. Alex Napoleón Castañeda Sabogal acastanedas1@upao.edu.pe
Ing. Agustín Eduardo Ullón Ramírez aullonr@upao.edu.pe

Adaptado de: Bioestadística Médica. Dawson & Trapp.


Editorial Manual Moderno. 2005.

Relaciones entre variables

Planteamiento del Problema 1


En EUA, de acuerdo con los estándares de la Organización Mundial de la Salud (OMS), 42% de los
varones y 28% de las mujeres presentan sobrepeso, y el otro 21% de los varones y 28% de mujeres
son obesos. El índice de masa corporal (IMC) se ha vuelto la medición para definir los estándares de
sobrepeso y obesidad. La OMS define el sobrepeso como un IMC entre 25 y 29.9 𝑘𝑔/𝑚2, y la
obesidad como el IMC mayor o igual a 30 𝑘𝑔/𝑚2. Jackson et al. (2002) señalaron que usar el IMC
como estándar único para la obesidad con todos los adultos es el método recomendado porque se
supone que independiente de variables como edad, género, grupo étnico y actividad física. Su
objetivo fue examinar esta suposición al valorar los efectos del género, edad y grupo étnico sobre la
relación entre el IMC y el porcentaje medido de grasa corporal.

-2-

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 1
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Relaciones entre variables

Planteamiento del Problema 1


Estudiaron a 655 hombres y mujeres caucásicos y de raza negra con edad entre 17 y 65 años. En
cada participante se midió cuidadosamente la talla y peso para calcular el IMC y la densidad
corporal. La grasa corporal relativa (% grasa) se estimó a partir de la densidad corporal utilizando
ecuaciones publicadas antes. Las variables independientes estudiadas fueron IMC, género, edad y
grupo étnico. Se examinaron estos datos para investigar si existían relaciones y, de ser así, si éstas
eran lineales o no.

-3-

Relaciones entre variables

Planteamiento del Problema 2

La hipertensión, definida como la presión sistólica mayor a 140 mm Hg o la presión diastólica mayor
de 90 mm Hg, se encuentra en 20 a 30% de la población de EUA. El diagnóstico y tratamiento de la
hipertensión ha reducido de modo significativo la morbilidad y mortalidad relacionadas con las
complicaciones de la hipertensión. Se han comercializado muchos dispositivos para uso casero para
tomar la presión arterial en los dedos de los propios pacientes, para que éstos tengan un modo fácil
y conveniente de hacerse a sí mismos el monitoreo de su presión arterial. ¿Qué tan precisos son los
dispositivos de los dedos para medir la presión arterial? Nesselroad et al. (1996) estudiaron estos
aparatos para corroborar su precisión.

-4-

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 2
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Relaciones entre variables

Planteamiento del Problema 2


Midieron la presión a 100 pacientes que se presentaron en forma consecutiva a la consulta de una
clínica de medicina familiar y que aceptaron participar en el estudio. Después de 5 min de reposo,
a cada paciente se le tomó la presión con un aparato estándar con manguito de tamaño adecuado
y con cada uno de tres dispositivos para el dedo. Los datos se analizaron calculando el coeficiente
de correlación entre el valor obtenido con el manguito de presión arterial y con los tres dispositivos
para el dedo, calculando y además se calculó el porcentaje de medición con cada aparato
automatizado que cayó en el intervalo de ±4 mm Hg de margen de error del manguito para medir
la presión arterial.
Se utilizaron los datos para ilustrar la correlación y los puntos de dispersión. También se ilustró una
prueba de hipótesis sobre dos coeficientes de correlación dependientes o correlativos.

-5-

Relaciones entre variables

Planteamiento del Problema 3


Los síntomas de olvido y pérdida de la concentración pueden ser resultado de envejecimiento
natural, y a menudo pueden agravarse por fatiga, enfermedades, depresión, pérdida de agudeza
visual o auditiva, así como por consumir ciertos fármacos. Hodgson y Cutler (1997) deseaban
examinar las consecuencias de la demencia anticipatoria, un fenómeno caracterizado por el temor
de que los cambios de memoria normales relacionados con la edad pudieran ser el presagio de
enfermedad de Alzheimer.
Estos autores estudiaron 25 individuos de ambos sexos con un familiar vivo con diagnóstico
probable de enfermedad de Alzheimer, trastorno en el cual los factores genéticos juegan un papel
importante.

-6-

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 3
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Relaciones entre variables

Planteamiento del Problema 3


Para la comparación se seleccionó, como control, un grupo de 25 individuos de ambos sexos que no
tuvieran algún familiar con demencia. Se utilizaron una entrevista y un cuestionario dirigidos para
medir la preocupación por desarrollar la enfermedad de Alzheimer, así como para evaluar el
funcionamiento de la memoria subjetiva. Se emplearon cuatro medidas de la sensación individual
de bienestar en las áreas de depresión, sintomatología psiquiátrica, satisfacción vital y estado de
salud subjetivo. Se utiliza este estudio para ilustrar la correlación biserial y mostrar su concordancia
con la prueba de t.

-7-

Relaciones entre variables

Planteamiento del Problema 4


El estudio sobre mujeres con hipertiroidismo, conducido por Gonzalo et al. (1996), reportó acerca
del efecto del exceso de peso sobre la tolerancia a la glucosa, la secreción de insulina y la
sensibilidad de los pacientes hipertiroideos a ésta. El estudio incluyó 14 mujeres hipertiroideas, de
las cuales 6 tenían sobrepeso, y 19 voluntarios con función tiroidea normal de edades y pesos
similares. En este estudio, los investigadores estudiaron también la relación entre la sensibilidad de
insulina y el índice de masa corporal para las mujeres hipertiroideas y los controles. Se hace
referencia por segunda ocasión a este estudio para calcular y comparar ambas líneas de regresión.

-8-

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 4
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Correlación

La figura 1 muestra varias gráficas de dispersión hipotéticas de datos que demuestran la


relación entre el tamaño del coeficiente de correlación r y la forma de trazado disperso.
Cuando la correlación tiende a cero, como en la figura 1 – E, el patrón de los puntos trazados
es un tanto circular. Si el grado de relación es pequeño, el patrón tiende a ser oval, como en la
figuras 1 – D y 1 – B. Conforme el valor de la correlación a +1 o a -1, como en la figura 1 – C, el
trazo adquiere una forma larga y angosta; a + 1 y – 1, las observaciones caen directamente en
una línea, como en r=+1.0 en la figura 1 – A.
La gráfica de dispersión en la figura 1 – F, muestra una situación en la cuál existe una fuerte
correlación, aunque no lineal. Una de las razones para producir gráficas de dispersión de los
datos como parte del análisis inicial es la identificación, cuando se presentan, de relaciones no
lineales.

-9-

Figura 1. Gráficas de dispersión y correlaciones

A: 𝒓 = +𝟏. 𝟎 B: 𝒓 = +𝟎. 𝟕 C: 𝒓 = −𝟎. 𝟗

D: 𝒓 = −𝟎. 𝟒 E: 𝒓 = 𝟎. 𝟎 F: 𝒓 = 𝟎. 𝟎

- 10 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 5
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Correlación

1 Cálculo del coeficiente de correlación

Se utilizará el estudio de Jackson et al. (2002) para una mejor comprensión de la correlación.
La fórmula para el coeficiente de correlación momento – producto de Pearson, simbolizada
por r, es:

σ(𝑿 − 𝑿)(𝒀 ഥ
− 𝒀)
𝒓=
ഥ 𝟐 σ(𝒀 − 𝒀)
σ(𝑿 − 𝑿) ഥ 𝟐

Donde X representa la variable independiente y Y el resultado de la variable.

- 11 -

Correlación

1 Cálculo del coeficiente de correlación

 Un primer paso muy recomendado al buscar las relaciones entre dos características
numéricas es examinar las relaciones desde el punto de vista gráfico. En la figura 2 se
muestra una gráfica de dispersión de los datos, con el IMC en el eje de las X y del
porcentaje de grasa corporal en el eje de las Y. Al observar la figura 2 se advierte que existe
relación positiva entre las dos características; pequeños valores del IMC se relacionan con
cifras pequeñas en el porcentaje de grasa corporal. El aspecto de interés es si la relación
observada tiene significancia estadística.
 La extensión de la relación puede encontrarse calculando el coeficiente de correlación.
Utilizando un programa estadístico, la correlación entre el IMC y el porcentaje de grasa
corporal es de 0.73, lo que indica una relación poderosa entre esas dos mediciones.

- 12 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 6
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Correlación
Figura 2. Gráfica de dispersión del IMC y porcentaje de grasa corporal.

- 13 -

Correlación

2 Interpretación del tamaño de r

El tamaño de la correlación requerida para obtener significancia estadística está, desde luego,
relacionado con el tamaño de la muestra. Una mejor manera de interpretar el tamaño de
correlación es considerar lo que dice sobre la fuerza de la correlación.

Coeficiente de determinación
 El coeficiente de correlación puede elevarse al cuadrado para obtener la estadística llamada
coeficiente de determinación.
 Para los sujetos en el estudio de Jackson, el coeficiente de determinación es 0.53; lo que
significa que 53% de la variación en los valores para uno de los parámetros, como es el
porcentaje de grasa corporal puede obtenerse a partir del IMC.
- 14 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 7
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Correlación
2 Interpretación del tamaño de r

Coeficiente de determinación
 En los diagramas de Venn en la figura 3 se puede apreciar, para el diagrama de la izquierda,
𝑟 2 = 0.25 por tanto 25% de la variación en A es dada por el conocimiento de B (o
viceversa). El diagrama central muestra que 𝑟 2 = 0.50 , en tanto que el diagrama de la
derecha 𝑟 2 = 0.80
Figura 3. Ilustración de 𝑟 2 , proporción de varianza explicada.

r2=0.25 r2=0.50 r2=0.80

- 15 -

Correlación
2 Interpretación del tamaño de r

La prueba de t para correlación

 El símbolo para el coeficiente de correlación de la población (parámetro de la población) es


𝜌. En una muestra al azar, 𝜌 es calculada por r.
 Si de una población dada se seleccionan varias muestras aleatorias del mismo tamaño y se
calcula para cada una el coeficiente de correlación r, puede esperarse que las r varíen de
una a otra, pero que sigan una cierta distribución alrededor del valor de r.
 Por desgracia, la distribución del muestreo de la correlación no se comporta tan bien como
el muestreo de la distribución de la media, que en las muestras grandes presenta una
distribución normal.
- 16 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 8
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Correlación

2 Interpretación del tamaño de r

La prueba de t para correlación


 La siguiente expresión matemática, que implica al coeficiente de correlación, con
frecuencia llamado relación t, ha demostrado tener una distribución t con n – 2 grados de
libertad:
𝒓 𝒏−𝟐
𝒕=
𝟏 − 𝒓𝟐

 Permítase usar esta relación t para determinar si el valor observado de r = 0.73 es prueba
suficiente con 655 observaciones para concluir que el verdadero valor de la población de la
correlación 𝜌 es diferente de cero.
- 17 -

Correlación
Distribución Binomial
2 Interpretación del tamaño de r

La prueba de t para correlación

Paso 1
𝑯𝟎 : No existe relación alguna entre el IMC y el porcentaje de grasa corporal, o la verdadera
correlación es cero: 𝜌 = 0.

𝑯𝟏 : Existe una relación entre el IMC y el porcentaje de grasa corporal; o la verdadera


correlación no es cero: ρ ≠ 0.

Paso 2
Debido a que la hipótesis nula es una prueba de que ρ es o no cero, la relación de t puede
usarse cuando se cumplan las suposiciones de correlación.
- 18 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 9
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Correlación Distribución Binomial


2 Interpretación del tamaño de r

La prueba de t para correlación

Paso 3
Selecciónese para este ejemplo 𝛼 de 0.01.

Paso 4
Los grados de libertad son n – 2 = 655 – 2 = 653. El valor de una distribución t con 653 grados
de libertad que divide el área en 99% central, donde los extremos bajo y alto del 1.0% son,
aproximadamente, 2.617. Por tanto, se rechaza la hipótesis nula de la correlación cero, si (el
valor absoluto de) el valor observado de t es mayor que 2.617.

- 19 -

Correlación
Distribución Binomial
2 Interpretación del tamaño de r

La prueba de t para correlación

Paso 5
El cálculo es: 𝟎. 𝟕𝟑 𝟔𝟓𝟑
𝒕= = 𝟐𝟕. 𝟐𝟗
𝟏 − 𝟎. 𝟕𝟑𝟐

Paso 6
El valor observado para la proporción t con 653 grados de libertad es de 27.29, que con
mucho es mayor a 2.617; por tanto, se rechaza la hipótesis de nulidad de correlación 0, y se
concluye que la relación entre IMC y el porcentaje de grasa corporal es lo suficientemente
grande para concluir que estas dos variables están asociadas.
- 20 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 10
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Correlación
Transformación z de Fisher para
3 demostrar la correlación

 Los investigadores por lo general desean saber si 𝜌 = 0, y esto en ocasiones puede hacerse
con facilidad con programas de cómputo; sin embargo es de interés saber si la correlación es
igual a una cifra específica diferente a 0. Por ejemplo, considérese una prueba diagnóstica
que proporciona datos numéricos precisos pero es invasora e implica ciertos riesgos para el
paciente. Si alguien desarrolla un procedimiento alternativo, es importante demostrar que el
nuevo procedimiento tiene la misma precisión que la prueba en uso.
 El método es seleccionar una muestra de pacientes y realizar la prueba actual y el nuevo
procedimiento en cada paciente y después calcular el coeficiente de correlación entre los
dos procedimientos probados.

- 21 -

Correlación
Transformación z de Fisher para
3 demostrar la correlación
 La transformación z de Fisher es:
𝟏 𝟏+𝒓
𝒛(𝒓) = 𝒍𝒏
𝟐 𝟏−𝒓

 Con muestras de tamaño moderado, esta transformación sigue una distribución normal y
puede usarse la siguiente expresión para la prueba z:

𝒛 𝒓 − 𝒛(𝝅)
𝒛=
𝟏/(𝒏 − 𝟑)

 Supóngase que querían saber si la correlación es significativamente más grande que 0.65.
- 22 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 11
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Correlación
TransformaciónDistribución Binomial
z de Fisher para
3 demostrar la correlación
Paso 1
𝑯𝟎 : La relación entre el IMC y el porcentaje de grasa corporal es ≤ 0.65; o la correlación
real es 𝜌 ≤ 0.65

𝑯𝟏 : La relación entre el IMC y el porcentaje de grasa corporal es > 0.65; o la verdadera


correlación es ρ > 0.65.

Paso 2
La transformación z de Fisher puede emplearse con el coeficiente de correlación para
contrastar cualquier hipótesis.

- 23 -

Correlación
Transformación z de Fisher para
3 demostrar la correlación

Paso 3

Permítase, una vez más, usar para este ejemplo 𝛼 = 0.01.

Paso 4

La hipótesis alterna especifica una prueba de una cola. El valor de la distribución de z que
divide el área en 99% bajo y 1% alto es aproximadamente 2.326. Por tanto, se rechaza la
hipótesis de nulidad de que la correlación es ≤ 0.65 si el valor observado de z > 2.326.

- 24 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 12
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Correlación
Distribución Binomial
Transformación z de Fisher para
3 demostrar la correlación

Paso 5
El primer paso consiste en encontrar los valores transformados para r = 0.73 y 𝜌 = 0.65; estos
valores son 0.929 y 0.775, respectivamente. Los cálculos para la prueba de z son:

𝒛 𝟎. 𝟕𝟑 − 𝒛(𝟎. 𝟔𝟓) 𝟎. 𝟗𝟐𝟗 − 𝟎. 𝟕𝟕𝟓


𝒛= = = 𝟑. 𝟗𝟑
𝟏/(𝟔𝟓𝟓 − 𝟑) 𝟎. 𝟎𝟑𝟗
Paso 6
El valor observado en la prueba estadística de z, 3.93, es superior a 2.326. La hipótesis de
nulidad es que si la correlación es de 0.65 o menor, ésta se rechaza, y los investigadores
pueden asegurarse de que la relación entre el IMC y el porcentaje de grasa es mayor de 0.65.

- 25 -

Correlación
Transformación z de Fisher para
3 demostrar la correlación

Intervalos de confianza para la correlación

 La ventaja principal de la transformación z de Fisher es que pueden formarse los intervalos


de confianza. El valor transformado de la correlación se emplea para calcular los límites de
confianza de manera común, y entonces se transforman los valores que corresponden al
coeficiente de correlación.
 Por ejemplo se calcula un intervalo de confianza de 95% para el coeficiente de correlación
de 0.73 en Jackson et al. (2002). Se utilizó la transformación z de Fisher de 0.73 = 0.929, y
la distribución z para los valores crítico es 95%. El intervalo de confianza es:

- 26 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 13
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Correlación
Transformación z de Fisher para
3 demostrar la correlación

Intervalos de confianza para la correlación

𝑻𝒓𝒂𝒏𝒔𝒇𝒐𝒓𝒎𝒂𝒄𝒊ó𝒏 𝒛 𝒅𝒆 𝒓 ± 𝒄𝒐𝒆𝒇𝒊𝒄𝒊𝒆𝒏𝒕𝒆 𝒅𝒆 𝒄𝒐𝒏𝒇𝒊𝒂𝒏𝒛𝒂 × 𝒆𝒓𝒓𝒐𝒓 𝒆𝒔𝒕á𝒏𝒅𝒂𝒓


𝑻𝒓𝒂𝒏𝒇𝒐𝒓𝒎𝒂𝒄𝒊ó𝒏 𝒛 𝒅𝒆 𝒓 ± 𝟏. 𝟗𝟔 × 𝟏/(𝒏 − 𝟑)
= 𝟎. 𝟗𝟐𝟗 ± 𝟏. 𝟗𝟔 𝟎. 𝟎𝟑𝟗
= 𝟎. 𝟖𝟓𝟐 𝒂 𝟏. 𝟎𝟎𝟔

 Se tiene una confianza de 95% de que el valor real de la población en la correlación se


encuentra contenido en este intervalo.
 Obsérvese que 0.65 no se encuentra en este intervalo, lo cual es consistente con nuestra
conclusión de que la correlación observada de 0.73 es diferente a 0.65
- 27 -

Correlación

4 Suposiciones en la correlación

 Las suposiciones requeridas para obtener conclusiones válidas sobre el coeficiente de


correlación son que la muestra fue seleccionada al azar y las dos variables, X y Y, varían
juntas en una distribución unida que está distribuida de manera normal, llamada
distribución bivariada normal. Sin embargo, justo por esta distribución cuando se examina
por separado no hay garantía que, unidas, tengan una distribución bivariada normal.
 Hay algunas guías disponibles: si alguna de las dos variables no tiene distribución normal,
el coeficiente de correlación de momento – producto de Pearson, no es el método
apropiado. En cambio, una o las dos variables pueden ser transformadas, de modo que,
juntas, puedan seguir más de cerca una distribución normal, o se puede calcular la
correlación de rangos de Spearman.
- 28 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 14
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Comparación de dos coeficientes de


correlación
En ocasiones, los investigadores quieren saber si existe una diferencia entre coeficientes de
correlación. Son dos las situaciones específicas:

1 Comparar las correlaciones entre las dos mismas variables que han sido medidas en
dos grupos independientes de individuos.

Comparar dos correlaciones que implican una variable común en el mismo grupo de
2
individuos.

- 29 -

Comparación de dos coeficientes de correlación


Comparación de correlaciones en 1
dos grupos independientes
• La transformación z de Fisher puede emplearse para contrastar hipótesis o para formar intervalos
de confianza sobre la diferencia entre las correlaciones entre las mismas dos variables en dos
grupos independientes.
• Los resultados de tales pruebas se llaman también correlaciones independientes. Por ejemplo,
Gonzalo et al. (1996), en el Planteamiento de problema 4, querían comparar la correlación entre el
IMC y la sensibilidad a la insulina en 14 mujeres con grados de hipertiroidismo (r = -0.775) con la
correlación entre el IMC y la sensibilidad a la insulina de 19 mujeres control (r = - 0.45). Véase la
figura 4.
• La prueba estadística es:
(𝒛𝒓𝟏 − 𝒛𝒓𝟐 )
𝒛=
𝟏Τ 𝒏𝟏 − 𝟑 ] + [𝟏/ 𝒏𝟐 − 𝟑
- 30 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 15
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Comparación de dos coeficientes de correlación


Figura 4. Gráfica de dispersión del IMC y sensibilidad a la insulina.

- 31 -

Comparación de dos coeficientes de correlación


Comparación de correlaciones con 2
variables en común en el mismo grupo
• La segunda situación se presenta cuando la incógnita que se investiga comprende correlaciones
que contienen la misma variable (llamada también correlaciones dependientes). Por ejemplo, una
pregunta muy natural para Nesselroad et al. (1996) es si uno de los dispositivos para el dedo tuvo
mejor correlación con el manguito para tomar la presión arterial (considerado como el estándar de
oro) que los otros dos. Si así fuera, sería el producto que querrían recomendar para uso de los
pacientes en casa. Para ilustrar, se comparan las lecturas diastólicas con el dispositivo 1 y el
manguito (𝑟𝑥𝑦 = 0.32) con la lectura diastólica con el dispositivo 2 y el manguito (𝑟𝑥𝑧 = 0.45).
• La fórmula sigue la distribución de t con n – 3 grados de libertad; parece un tanto prohibitiva

(𝑛 − 3)(1 + 𝑟𝑦𝑧 )
𝒕 = (𝑟𝑥𝑦 − 𝑟𝑥𝑧 ) 2 2 − 𝑟 2 + 2𝑟 𝑟 𝑟 )
2(1 − 𝑟𝑥𝑦 − 𝑟𝑥𝑧 𝑦𝑧 𝑥𝑦 𝑥𝑧 𝑦𝑧
- 32 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 16
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Comparación de dos coeficientes de correlación


Cuadro 1. Matriz de correlación de la presión diastólica en un total de 100 individuos

Sección de correlaciones de Pearson

Manguito Dispositivo 1 Dispositivo 2 Dispositivo 3


diastólica diastólica diastólica diastólica
1.0000 0.3209 0.4450 0.3592
Manguito
0.0000 0.0011 0.0000 0.0002
diastólica
100.0000 100.000 100.0000 100.0000
0.3210 1.0000 0.5364 0.5392
Dispositivo 1
0.0011 0.0000 0.0000 0.0000
diastólica
100.000 100.0000 100.0000 100.0000
0.4450 0.5364 1.0000 0.5629
Dispositivo 2
0.0000 0.0000 0.0000 0.0000
diastólica
100.0000 100.0000 100.0000 100.0000
0.3592 0.5392 0.5629 1.0000
Dispositivo 3
0.0002 0.0000 0.0000 0.0000
diastólica
100.0000 100.000 100.0000 100.0000

- 33 -

Comparación de dos coeficientes de correlación


Comparación de correlaciones con 2
variables en común en el mismo grupo
• Las lecturas del manguito se designan como X; las del dispositivo 1 como Y, y las del dispositivo 2
como Z. Por tanto, se desea comparar 𝑟𝑥𝑦 con 𝑟𝑥𝑧 . Ambas correlaciones implican a X, la lectura del
manguito, por lo cual estas correlaciones son dependientes. Para utilizar la fórmula se requiere
calcular también la correlación entre dispositivo 1 y 2; es decir 𝑟𝑦𝑧 = 0.54. El cuadro 1 muestra la
correlación que se necesita para esta fórmula

100 − 3 1 + 0.54
𝑡 = 0.32 − 0.45 2 2 2
2 1 − 0.32 − 0.45 − 0.54 + 2 0.32 0.45 0.54

149.39
= −0.13 = −𝟏. 𝟓𝟎
2 0.40 + 0.56

- 34 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 17
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Otras medidas de correlación

1 Rho de Spearman

• Los valores del coeficiente de correlación están notablemente influenciados por valores
extremos y, por ende, éste no proporciona una buena descripción de la relación entre dos
variables cuando su distribución está sesgada o contiene valores desfasados. Por ejemplo,
considérese la relación entre los diferentes dispositivos para el dedo y el manguito estándar
para medir la presión arterial del Planteamiento del problema 2, se toman los primeros 25
individuos de este estudio, listados en el cuadro 2.
• Resulta difícil decir si las observaciones tienen distribución normal sin ver la gráfica de los
datos. Algunos programas estadísticos tienen rutinas para hacer el trazado de los valores
contra una distribución normal, y con ello ayudan a los investigadores a decidir si un
procedimiento no paramétrico debe o no utilizarse. La gráfica de probabilidad normal de la
medición con el manguito de presión diastólica, se muestra en la figura 5.

- 35 -

Cuadro 2. Datos de la presión arterial


diastólica de los primeros 25 individuos

Figura 5. Presión arterial diastólica


usando las lecturas del manguito en
25 individuos.

- 36 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 18
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Otras medidas de correlación

1 Rho de Spearman

• Cuando las observaciones se trazan en una gráfica, como en la figura 5, pareciera que los
datos no están excesivamente sesgados. Esta conclusión es consistente con las pruebas
dadas por NCSS para la normalidad de una distribución. En la gráfica de probabilidad
normal, si las observaciones caen dentro de las líneas curvas puede suponerse que los
datos tienen distribución normal.
• El cuadro 3 muestra los rangos de las lecturas diastólicas tomadas a los primeros individuos.
Nótese que a cada variable se le da rango por separado; cuando se dan empates, se toma el
promedio de los rangos de los valores empatados.
• Los rangos de las variables se emplean para la ecuación del coeficiente de correlación, y los
cálculos resultantes dan la correlación de rangos de Spearman (𝑟𝑠 ), también conocida como
rho de Spearman:

- 37 -

Otras medidas de correlación

1 Rho de Spearman

σ(𝑅𝑋 − 𝑅ത𝑋 )( 𝑅𝑌 − 𝑅ത𝑌 )


𝑟𝑠 =
σ(𝑅𝑋 − 𝑅ത𝑋 )2 σ(𝑅𝑌 − 𝑅ത𝑌 )2

• Donde 𝑅𝑥 es el rango de la variable X, 𝑅𝑌 es el rango de la variable Y, 𝑅𝑋 y 𝑅𝑌 son


respectivamente la media de los rangos de las variables X y Y.
• Calculando 𝑟𝑠 para las observaciones en rangos del cuadro 3 se obtiene
416.5
𝑟𝑠 = = 0.33
1227 1292.5
- 38 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 19
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Cuadro 3. Orden por rangos de la presión arterial diastólica de los primeros


25 individuos.

- 39 -

Otras medidas de correlación

1 Rho de Spearman

Paso 1
𝑯𝟎 : El valor de la rho de Spearman para la población es cero; es decir 𝜌𝑠 = 0.
𝑯𝟏 : El valor de la rho de Spearman para la población no es cero; es decir𝜌𝑠 ≠ 0.

Paso 2
Debido a que la hipótesis de nulidad es una prueba para decidir si 𝜌𝑠 = 0 o no, se puede
utilizar la proporción de t.

- 40 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 20
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Otras medidas de correlación

1 Rho de Spearman

Paso 3
Úsese para este ejemplo 𝛼 = 0.05.

Paso 4
Los grados de libertad son n – 2 = 25 – 2 = 23. El valor de la distribución t con 23 grados de
libertad que divide al área en 95% central y 2.5% bajo y alto es igual a 2.069. Por tanto se
rechaza la hipótesis de nulidad que plantea la no correlación si (el valor absoluto de) el valor
observado de t es mayor que 2.069

- 41 -

Otras medidas de correlación

1 Rho de Spearman

Paso 5 𝑟 𝑛−2
𝑡=
1 − 𝑟2
0.33 23
= = 1.677
1 − 0.332

Paso 6
El valor observado de la proposición t con 23 grados de libertad es 1.677, menor que 2.069;
por tanto, no se rechaza la hipótesis de nulidad y se concluye que hay evidencia insuficiente,
que existe una correlación no paramétrica significativa entre las mediciones de la presión
arterial diastólica tomadas con el manguito y las que se tomaron con el dispositivo 2 para el
dedo.
- 42 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 21
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Otras medidas de correlación

1 Rho de Spearman

• Es fácil demostrar que, realizando la prueba antes mencionada con los datos en rangos, se
obtiene casi los mismos resultados que con la prueba de rho de Spearman calculada de la
manera tradicional. Usando la fórmula de Pearson en rangos, se encuentra que la rho de
Spearman, en la muestra de 25 individuos, fue de 0.33 entre las mediciones con el
manguito de la presión diastólica y las tomadas por el dispositivo 2 para el dedo.
• La rho de Spearman resulta adecuada cuando los investigadores desean medir la relación
entre: 1) dos variables ordinales, o 2) dos variables numéricas siempre que una o las dos no
tengan distribución normal y los investigadores decidan no usar la transformación de datos.
La correlación de rangos de Spearman es adecuada cuando, entre las observaciones,
aparecen valores desfasados.

- 43 -

Otras medidas de correlación


Intervalos de confianza para la razón
2 de momios y el riesgo relativo

• En la literatura médica cada vez se recurre con más frecuencia a los intervalos de confianza
para las tasas de riesgo o la razón de momios. Ballard et al., informaron sobre intervalos de
confianza de 95% para la razón de momios (0.8 a 1.5).
• El hallazgo de los intervalos de confianza para la razón de momios es un poco más
complicado que lo usual porque estas tasas no tienen distribución normal, de manera que
el cálculo de intervalos de confianza requiere encontrar los logaritmos natural y los
antilogaritmos. La fórmula para los intervalos de confianza de 95% de la razón de momios
es:

𝟏 𝟏 𝟏 𝟏
𝒆𝒙𝒑 𝐥𝐧(𝑶𝑹) ± 𝟏. 𝟗𝟔 + + +
𝒂 𝒃 𝒄 𝒅

- 44 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 22
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Otras medidas de correlación


Mediciones de relaciones y otras
3 situaciones

• Cuando una variable se mida en una escala nominal y la otra es numérica pero se ha
clasificado en categorías, cuando una variable es nominal y la otra es ordinal, o cuando
ambas son ordinales pero sólo ocurren pocas categorías. En estos casos se forman tablas
de contingencia y se recurre a la prueba de chi cuadrada.
• En otras ocasiones, la variable numérica no se colapsa en categorías. Por ejemplo, Hodgson
y Cutler (1997) estudiaron 25 individuos con un pariente vivo con enfermedad de
Alzheimer y a un grupo similar sin historia familiar de demencia. Los sujetos de
investigación contestaron un interrogatorio sobre la preocupación de desarrollar la
enfermedad de Alzheimer y para evaluar su preocupación sobre la memoria, la índice de
valoración de la memoria (IVM). Los datos aparecen en el cuadro 4.

- 45 -

Cuadro 4. Datos de 50 sujetos del estudio de demencia anticipada.

- 46 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 23
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Otras medidas de correlación


Mediciones de relaciones y otras
3 situaciones

• Los investigadores se interesaban en la relación entre vida satisfactoria y desempeño en el


IVM. La vida satisfactoria se midió con Si o No, y el IVM se determinó en una escala de 0 =
sin problema de memoria, a 12 = percepción negativa de la memoria y preocupación por
padecer demencia. Cuando una variable es binaria y la otra numérica, es posible evaluar la
relación con una correlación especial llamada correlación biserial de puntos. Si la variable
binaria se califica como 0 y 1, se puede usar el procedimiento de correlación de Pearson
para encontrar las correlaciones biseriales de puntos. El recuadro 1 – A presenta resultados
del procedimiento de correlación con los parámetros Vida Satisfactoria e IVM. La
correlación es -0.37 y el valor de P es 0.008633.
• La carátula del procedimiento para la prueba de t de NCSS se muestra en el recuadro 1 – B.
El valor de P es de especial interés, es el mismo que para la correlación.

- 47 -

Recuadro 1. Correlación y prueba de t de la vida satisfactoria y


demencia anticipada según las mediciones por IVM.

A. Matriz de correlación B. Prueba de t

Demencia Vida Desviación


anticipada satisfactoria Cuenta Media
estándar
1.000000 - 0.367601
27 5.851852 2.931312
Demencia VIDA SATISF. = 0
0.000000 0.008633
anticipada VIDA SATISF. = 1
23 3.652174 2.70704
50.000000 50.000000
- 0.367601 1.000000 Hipótesis Valor Grados de Decisión Potencia
Vida alterna de t posibilidad (5%) (𝜶 = 𝟎. 𝟎𝟓)
0.008633 0.000000
satisfactoria
50.000000 50.000000 Diferencia <> 0 2.7386 0.008633 Rechazo 𝐻0 0.765296

- 48 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 24
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Otras medidas de correlación


Mediciones de relaciones y otras
3 situaciones

• La correlación biserial de puntos con frecuencia es empleada por quienes elaboran


exámenes como ayuda para evaluar las interrogantes que aparecen en la prueba. Por
ejemplo, el National Board of Medical Examiners determina la correlación biserial de puntos
para decidir entre obtener un tema correcto (variable binaria) por un examinado y la
calificación del examinado en todo el examen (variable numérica).
• Una correlación biserial de puntos positiva indica que los examinados que tienen las
incógnitas correctas tienden a obtener calificaciones más altas en el examen como un todo,
mientras que los examinados que fallan en la interrogante generalmente tienen a calificar
más bajo. Asimismo, una correlación biserial de puntos negativa indica que los examinados
que dan la respuesta correcta a la incógnita tienden a una calificación baja en el examen
total.
- 49 -

Regresión Lineal

• Cuando el objetivo es predecir el valor de una característica a partir del conocimiento de


otra, el método estadístico que debe usarse es el análisis de regresión. Este método
también se conoce como regresión lineal, regresión lineal simple o regresión de
cuadrados menores.

• El término regresión lineal se refiere al hecho de que la correlación y la regresión sólo


miden la relación en línea recta o hacen una medición lineal entre dos variables.

• El término regresión simple significa que sólo una variable (independiente) explicativa se
utiliza para predecir un resultado. En la regresión múltiple se incluye más de una variable
independiente en la ecuación de predicción.

- 50 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 25
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Regresión Lineal
Método de los cuadrados mínimos 1
• El método de cuadrados mínimos es una Figura 6. Interpretación geométrica de
manera de determinar la ecuación de la línea una línea de regresión.
que se ajusta en buena medida a los puntos.
Considérese la línea recta de la figura 6. Para
determinar la ecuación de cualquier línea
recta se puede recurrir a la geometría
elemental. Si el punto donde se cruza las
líneas o interceptan el eje de la Y se
representa por a y la pendiente de la línea
por b, la ecuación es:
𝒀′ = 𝒂 + 𝒃𝑿
- 51 -

Regresión Lineal
Método de los cuadrados mínimos 1
• La pendiente de la línea mide la cantidad del cambio en Y por cada unidad del cambio en X. Si la
pendiente es positiva, Y aumenta conforme aumenta X; en cambio, si la pendiente es negativa Y
disminuye conforme disminuye X y viceversa. En el modelo de regresión, la pendiente en la
población por lo general es simbolizada por 𝛽1 , llamada coeficiente de regresión, y 𝛽0 representa
la intersección de la línea de regresión; es decir, 𝛽1 y 𝛽0 son los parámetros de la población en
regresión.
• En la mayor parte de las aplicaciones, los puntos no caen con exactitud a lo largo de la línea recta.
Por esta razón, el modelo de regresión contiene un término de error llamado e, que es la
distancia existente de los valores reales de Y a partir de la línea de regresión. La ecuación de
regresión es:
𝒀 ′ = 𝜷𝟎 + 𝜷𝟏 𝑿 + 𝜺

- 52 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 26
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Regresión Lineal

Figura 7. Línea de regresión de


• Cuando la ecuación de la regresión se usa para cuadrados mínimos.
describir la relación en la muestra, se escribe:

𝒀′ = 𝒃𝟎 + 𝒃𝟏 𝑿 𝒀′ = 𝒂 + 𝒃𝑿

• Para un valor dado de X, por decir X, el valor de


predicción de Y se encuentra extendiendo la
línea horizontal desde la línea de regresión
hasta el eje de la Y, como en la figura 7.

- 53 -

Regresión Lineal
Método de los cuadrados mínimos 1

• La diferencia entre el valor real de Y y el valor de predicción, e = YY’, da un criterio para juzgar qué
tan bien encaja la línea con los puntos. El método de cuadrados mínimos determina la línea que
minimiza la suma de diferencia de la vertical cuadrada entre los valores para la variable Y, es decir,
𝜷𝟎 y 𝜷𝟏 están determinadas luego de que σ(𝑌 − 𝑌 ′ )2 es minimizada. La fórmulas para 𝜷𝟎 y 𝜷𝟏
se encuentran en función de los cálculos de las muestras b y a, las fórmulas son:


σ(𝑿 − 𝑿)(𝒀 ഥ
− 𝒀)
𝒃=
σ(𝑿 − 𝑿ഥ )𝟐


𝒂 = 𝒀 + 𝒃𝑿

- 54 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 27
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Regresión Lineal
Cálculo de ecuaciones de regresión 2
• En el estudio descrito en el Planteamiento de problema 4, los investigadores deseaban
predecir la sensibilidad a la insulina a partir del IMC en un grupo de mujeres. Con estos datos
la ecuación de regresión, se formará una gráfica de dispersión y se practicará un “cálculo
adivinatorio” del valor del coeficiente de correlación a partir de la gráfica (aunque resulta
difícil calcular con seguridad el valor de r cuando la muestra es pequeña).
• En la figura 8 se presenta una gráfica de dispersión con el IMC como variable explicativa X y
de respuesta la sensibilidad como variable Y. Si se conociera la correlación entre el IMC y la
sensibilidad a la insulina, se podría utilizar para calcular la ecuación de regresión.
ഥ 𝒀−𝒀
෍ 𝑿−𝑿 ഥ = −𝟎. 𝟔𝟏𝟒 ഥ 𝟐 = 𝟏𝟒. 𝟏𝟖𝟐
෍(𝑿 − 𝑿)

ഥ = 𝟐𝟒. 𝟗𝟐𝟏
𝑿 ഥ = 𝟎. 𝟓𝟎𝟑
𝒀 - 55 -

Regresión Lineal
Figura 8. Gráfica de dispersión de las
Figura 9. Regresión de las observaciones
observaciones del IMC y sensibilidad a la
del IMC y sensibilidad a la insulina.
insulina.

- 56 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 28
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Regresión Lineal
Cálculo de ecuaciones de regresión 2

ഥ )(𝒀 − 𝒀
σ(𝑿 − 𝑿 ഥ ) −𝟎. 𝟔𝟏𝟒 ഥ = 𝟎. 𝟓𝟎𝟑 − −𝟎. 𝟎𝟒𝟑𝟑 𝟐𝟒. 𝟗𝟐𝟏
𝒂 = 𝒀 + 𝒃𝑿
𝒃= = = −𝟎. 𝟎𝟒𝟑𝟑
σ(𝑿 − 𝑿 ഥ )𝟐 𝟏𝟒. 𝟏𝟖𝟐 = 𝟎. 𝟓𝟎𝟑 + 𝟏. 𝟎𝟕𝟗 = 𝟏. 𝟓𝟖𝟏𝟕

• Los resultados de la sensibilidad a la insulina son regresivos en la relación con el IMC, y la


ecuación de la regresión se escribe como Y’=1.5817 – 0.0433X, donde Y’ representa la marca
predicha de la sensibilidad a la insulina y X es el IMC.
• La figura 9 muestra la línea de regresión trazada a través de la observaciones. La ecuación de
regresión tiene una intercepción positiva de + 1.58, ya que, teóricamente, un paciente con 0
IMC podría tener una sensibilidad a la insulina de 1.58. La pendiente de – 0.043 índica que
cada vez que el peso de una mujer aumenta por 1, la sensibilidad a la insulina predicha se
reduce aproximadamente en 0.043
- 57 -

Regresión Lineal
Suposiciones e inferencias en regresión 3
2
El error estándar de la estimación
• Las líneas de regresión pueden variar como varían otras estadísticas. La ecuación de regresión
computada para cualquier muestra de observaciones sólo es una estimación de la verdadera
ecuación de regresión de la población. Si se seleccionan otras muestras de la población, y se
calcula una ecuación de regresión para cada muestra, estas ecuaciones variarán de una
muestra a otra respecto a sus pendientes e intersecciones.
• Una estimación de estas variaciones se simboliza con 𝑺𝒀⦁𝑿 y se llama error estándar de la
regresión o error estándar de la estimación. Se fundamenta:

σ(𝒀 − 𝒀′ )𝟐
𝑺𝒀⦁𝑿 =
𝒏−𝟐
- 58 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 29
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Regresión Lineal
Suposiciones e inferencias en regresión 3
2
Inferencia sobre la intersección

• Para demostrar la prueba de hipótesis de que la intersección se aparta de cero de manera


significativa, se usa el siguiente procedimiento

Paso 1
𝑯𝟎 : 𝜷𝟎 = 𝟎 (la intersección es cero)
𝑯𝟏 : 𝜷𝟎 ≠ 𝟎 (la intersección no es cero).

- 59 -

Regresión Lineal
Suposiciones e inferencias en regresión 3
2
Inferencia sobre la intersección

Paso 2
Debido a que la hipótesis de nulidad es una prueba de que la intersección sea o no cero, la
proporción de t puede usarse si se cumplen las suposiciones. La proporción de t usa el error
estándar del estimado, como antes quedó definido, para calcular el error estándar de la
intersección (el denominador de la proporción de t)
𝒂 − 𝜷𝟎
𝒕=
ഥ 𝟐 / σ(𝑿 − 𝑿)
σ𝟐𝒀⦁𝑿{ 𝟏Τ𝒏 + 𝑿 ഥ 𝟐 }

- 60 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 30
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Regresión Lineal
Suposiciones e inferencias en regresión 3
2
Inferencia sobre la intersección

Paso 3
Úsese para este ejemplo 𝛼 = 0.05 para este ejemplo.

Paso 4
Los grados de libertad son n – 2 = 33 – 2 = 31. El valor de la distribución t con grados de
libertad que divide al área en 95% central y 5% bajo y alto es igual a 2.040. Por tanto se
rechaza la hipótesis de nulidad de una intersección de cero (el valor absoluto de) el valor
observado de t es mayor que 2.040.
- 61 -

Regresión Lineal
Suposiciones e inferencias en regresión 3
2
Inferencia sobre la intersección

Paso 5 𝟏. 𝟓𝟖𝟏𝟕 − 𝟎
𝒕=
(𝟎. 𝟐𝟓𝟔)𝟐 { 𝟏Τ𝟑𝟑 + (𝟐𝟒. 𝟗𝟐𝟏𝟐)𝟐Τ𝟒𝟔𝟖. 𝟎𝟏𝟓 }
𝟏. 𝟓𝟖𝟏𝟕
= = 𝟓. 𝟑𝟎
(𝟎. 𝟎𝟔𝟓𝟓)(𝟏. 𝟑𝟓𝟕𝟑)
Paso 6
El valor absoluto de la razón observada de t es 5.30, la cuál es mayor que 2.040; por tanto, se
rechaza la hipótesis de nulidad de la interacción en cero. Se concluye que los datos son
suficientes para demostrar que la intersección en significativamente diferente de cero para la
regresión de sensibilidad a la insulina sobre el IMC.
- 62 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 31
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Regresión Lineal
Suposiciones e inferencias en regresión 3
2
Inferencias sobre el coeficiente de regresión
• En vez de ejemplificar la prueba de hipótesis para el coeficiente de regresión de la población,
encuéntrese el intervalo de confianza del 95% para 𝛽1 . El intervalo se da por

𝟏
𝒃 ± 𝒕(𝒏−𝟐) 𝑺𝟐𝒀⦁𝑿
ഥ 𝟐
σ(𝑿 − 𝑿)

𝟏
= −𝟎. 𝟎𝟒𝟑𝟑 ± 𝟐. 𝟎𝟒𝟎 (𝟎. 𝟐𝟓𝟔)𝟐
𝟒𝟔𝟖. 𝟎𝟏𝟓

= −𝟎. 𝟎𝟒𝟑𝟑 ± 𝟎. 𝟎𝟐𝟒𝟏 = −𝟎. 𝟎𝟔𝟕𝟒 𝒂 − 𝟎. 𝟎𝟏𝟗𝟐


- 63 -

Regresión Lineal
Suposiciones e inferencias en regresión 3
2
Inferencias sobre el coeficiente de regresión
• Debido a que el intervalo excluye cero, se puede tener 95% de confianza de que el
coeficiente de regresión no es cero, pero que está entre – 0.0674 y – 0.0192 o entre – 0.07 y
– 0.02.
• La relación entre b y r debe ser suficiente para convencer al lector de que hay equivalencia
entre los resultados obtenidos, comprobando la significancia de la correlación y el
coeficiente de regresión. De hecho, muchos autores en la literatura médica realizan un
análisis de regresión y luego informan los valores de P para indicar lo significativo del
coeficiente de correlación.
• La carátula del programa de regresión SPSS se muestra en el cuadro 5. El programa produce
el valor de t y el valor de P, al igual que los límites de confianza de 95%.
- 64 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 32
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Regresión Lineal
Cuadro 5. Resultados por cómputo de una regresión de sensibilidad a la insulina
sobre el índice de masa corporal

Coeficientes no Coeficientes Intervalo de 95% de


estandarizados estándar confianza para B

Error Límite Límite


Modo 1 B β f Significancia
estándar inferior superior

(Constante
1.582 0.299 5.294 0.000 0.972 2.191
1 índice de masa - 0.548
-0.043 0.0012 - 3.652 0.001 - 0.067 - 0.019
corporal)

- 65 -

Regresión Lineal
Suposiciones e inferencias en regresión 3
2
Predicción con la ecuación de regresión: valores individuales y de medias
• Una de las razones importantes para obtener las ecuaciones de regresión es la predicción
de valores futuros para un grupo de individuos (o para una persona en particular). El
intervalo de confianza de 95% para la media predicha Y en un grupo de individuos es:
𝟏 ഥ 𝟐
(𝑿 − 𝑿)
𝑴𝒆𝒅𝒊𝒂 𝒀′ ± 𝒕(𝒏−𝟐) 𝑺𝟐𝒀⦁𝑿 +
𝒏 σ(𝑿 − 𝑿)ഥ 𝟐

• El intervalo de confianza de 95% para la predicción de una sola observación es

𝟏 ഥ 𝟐
(𝑿 − 𝑿)
𝒀′ ± 𝒕(𝒏−𝟐) 𝑺𝟐𝒀⦁𝑿 𝟏 + +
𝒏 σ(𝑿 − 𝑿)ഥ 𝟐
- 66 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 33
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Regresión Lineal
Suposiciones e inferencias en regresión 3
2
Predicción con la ecuación de regresión: valores individuales y de medias

• Comparando estas dos fórmulas, se ve que el intervalo de confianza para la predicción de


una sola observación es más amplio que el intervalo para la media de un grupo de
individuos; se suma 1 al término del error estándar para el caso de un solo individuo.
• En el cuadro 6 se presentan los intervalos de 95% de confianza relacionados con la media
de los grados de sensibilidad a la insulina predichos y los grados de sensibilidad a la insulina
predichos para un individuo que corresponde con diferentes valores del IMC (y para la
media del IMC en la muestra del 33 mujeres). Se pueden obtener varias aproximaciones del
análisis de regresión de la revisión de este cuadro.

- 67 -

Regresión Lineal
Cuadro 6. Intervalos de 95% de confianza para la media de los grados de sensibilidad a la
insulina predicha y para el grado de sensibilidad a la insulina individual predicha

Coeficientes no estandarizados Predicción de medias Predicciones individuales

Sensibilidad de Intervalo de Intervalo de


IMC Predicha EE EE
insulina confianza confianza

18.100 0.0970 0.798 0.092 0.610 a 0.986 0.273 0.242 a 1.354


23.600 0.880 0.560 0.047 0.463 a 0.656 0.261 0.028 a 1.092
24.000 0.660 0.543 0.046 0.449 a 0.636 0.261 0.011 a 1.074
20.400 0.520 0.698 0.070 0.556 a 0.841 0.266 0.156 a 1.241
21.500 0.380 0.651 0.060 0.528 a 0.774 0.263 0.113 a 1.188
24.921 0.503 0.503 0.044 0.413 a 0.593 0.260 - 0.027 a 1.033

- 68 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 34
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Regresión Lineal
Suposiciones e inferencias en regresión 3
2
Predicción con la ecuación de regresión: valores individuales y de medias
• Cuando la observación se aparta en cualquier dirección de la media, los errores estándar los
intervalos de confianza son cada vez mayores, reflejando el cuadrado de la diferencia entre
la observación y la media.
• Si se trazan en una gráfica los intervalos de confianza como bandas de confianza en la
relación la línea de regresión, se encuentran más cercanos a la línea en la media de X y se
alejan de ella en ambas direcciones a cada lado de 𝑋. ത En la figura 10 se muestra la gráfica de
las bandas de confianza.
• El cuadro 5 muestra otra característica interesante de la ecuación de regresión. Cuando se
utiliza la media de X en la ecuación de regresión, y Y’ predicha es la media de Y. Por tanto, la
línea de regresión pasa a través de la media de X y la media de Y.
- 69 -

Regresión Lineal
Suposiciones e inferencias en regresión 3
2
Predicción con la ecuación de regresión: valores individuales y de medias
• A partir de este punto, puede verse por qué son curvas las bandas de confianza alrededor de
las líneas de regresión. El error en la intersección significa que la verdadera línea de regresión
puede estar, por igual, arriba o debajo de la línea calculada por las observaciones de la
muestra, aunque conserva la misma orientación (pendiente). Por tanto, el error al medir la
pendiente significa que la verdad línea de regresión puede, hasta cierto punto, girar alrededor
ത 𝑌).
del punto (𝑋, ത
• La combinación de estos dos errores da como resultado las bandas de confianza cóncavas
mostradas en la figura 10. Algunas veces los artículos de las revistas tienen líneas de regresión
con bandas de confianza que, más que ser curvas, son paralelas. Estas bandas de confianza
son erróneas; sin embargo, pueden corresponder a errores estándar o intervalos de confianza
en su distancia más angosta a partir de la línea de regresión. - 70 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 35
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Regresión Lineal
Figura 10. Regresión de las observaciones
Figura 11. Líneas de regresión
sobre el IMC y sensibilidad con bandas de
separadas para mujeres hipertiroideas
confianza (líneas oscuras para las medias,
(cuadros) y controles (círculos).
líneas claras para los individuos).

- 71 -

Regresión Lineal
Comparación de dos líneas de regresión 4
• Los investigadores del Planteamiento de problema 4, se interesaron particularmente en la
relación entre el IMC y la sensibilidad a la insulina de mujeres hipertiroideas, en
comparación con aquellas cuyas concentraciones de hormona tiroidea eran normales. Los
investigadores determinaron líneas de regresión separadas para cada grupo de mujeres.
Aquí se reproducen esas líneas de regresión en la figura 11.
• Como podrá suponerse, los investigadores a menudo se interesan en comparar líneas de
regresión para saber si las relaciones son o no las mismas en grupos diferentes de
individuos. Cuando se comparan líneas de regresión, se pueden representar cuatro
situaciones diferentes, como se muestra en la figura 12.

- 72 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 36
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Regresión Lineal
Comparación de dos líneas de regresión 4
• La figura 12 – A, las pendientes de las líneas de regresión son iguales, pero las intersecciones son
diferentes. Por ejemplo, en este caso se presenta en mediciones de presión arterial de hombres y
mujeres con regresión por la edad; es decir , la relación entre la presión arterial y la edad es la misma
en hombres (pendientes iguales), pero los hombres tienden a presentar cifras mayores de presión
arterial en todas las edades, que las mujeres (intersección más alta para los hombres).
• La figura 12 – B las intersecciones son iguales, pero con las pendientes diferentes. Este patrón puede
descubrir, la regresión de la cuenta plaquetaria e los días siguientes a un trasplante de médula en dos
grupos de pacientes: los que recibieron terapéutica adyuvante y, en consecuencia, con remisión de la
enfermedad subyacente, y aquellos cuya enfermedad se mantiene activa. Es decir, antes e
inmediatamente después del trasplante, las cuentas de plaquetas son similares en ambos grupos
(intersección igual), pero tiempo después del trasplante la cuenta de plaquetas permanece sin
cambio en el grupo con enfermedad en remisión, mientras que el otro grupo la cuenta decrece por
no haber remisión (mayor pendiente negativa en los pacientes con enfermedad activa)
- 73 -

Figura 12. Ilustración de las formas en que pueden diferir las líneas de regresión.

A: pendientes iguales y B: intersecciones iguales y C: diferentes pendientes y D: pendientes iguales e


diferentes intersecciones diferentes pendientes diferentes intersecciones intersecciones iguales.

- 74 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 37
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Regresión Lineal
Comparación de dos líneas de regresión 4
• La figura 12 – C, la intersección y pendiente de las líneas de regresión difieren. Los
investigadores del planteamiento de problema 4 presentan una inclinación más conspicua de
la pendiente en la sensibilidad a la insulina conforme aumenta el IMC de las mujeres
hipertiroideas, que en las mujeres del grupo control. Aunque no se hace referencia alguna a la
diferencia de intersección, la relación entre IMC y sensibilidad a la insulina semeja la situación
de la figura 12 – C.
• De no existir diferencia alguna en las relaciones entre la predicción y el resultado de las
variables, las líneas de regresión son similares a las de la figura 12 – D, en la que las líneas son
coincidentes: tanto las intersecciones como las pendientes son iguales. Este caso ocurre en
muchas situaciones en medicina y se considera que es el patrón esperado (hipótesis de
nulidad) hasta que se demuestra que no aplica mediante la prueba de hipótesis o mediante
formación de límites de confianza para la intersección y la pendiente (o ambas).
- 75 -

Uso de la Correlación y Regresión

Un punto importante para recalcar es que la correlación y la regresión sólo describen


relaciones lineales. Si los coeficientes de correlación y las ecuaciones de regresión se
calculan a ciegas, sin examinar las gráficas de los datos, los investigadores pueden pasar por
alto relaciones muy estrechas, pero no lineales.

1 Análisis de residuales

• Los residuales se calculan cuando se encuentran diferencias entre el valor real de Y y el valor
predicho de Y’, o Y – Y’, aunque no sea el término. Un residual es la parte de Y que no está
predicha por X (la parte sobrante o residual). Los valores residuales sobre el eje de
ordenadas se grafican contra los valores de X en las abscisas. La media de los residuales es
cero y, debido a que la pendiente se resta en el proceso de cálculo de los residuales, la
relación entre éstos y los valores de X también deben ser cero.
- 76 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 38
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Uso de la Correlación y Regresión

1 Análisis de residuales

• Si el modelo de regresión proporciona un buen ajuste de los datos, como en la figura 13 – A,


los valores de los residuales no se relacionan con los valores de X. En este caso, una gráfica
de los residuales y los valores de X debe aparecer como una dispersión de puntos que
corresponde a la figura 13 – B, en el cuál no existe correlación entre los residuales y los
valores de X.
• En contraste, si aparece un relación curvilínea entre Y y X, como en la figura 13 – C, los
residuales son negativos tanto para los pequeños como para los grandes valores de X,
porque los valores correspondientes de Y caen bajo la línea de regresión trazada a través de
los datos. Sin embargo, resultan positivos para los valores de tamaño mediano de X, porque
los valores correspondientes de Y, caen por encima de la línea de regresión.
- 77 -

Uso de la Correlación y Regresión

1 Análisis de residuales

• Una vez de obtener una dispersión de puntos con dispersión fortuita se obtiene una gráfica
como la curva de la figura 13 – D, donde los valores de los residuales se relacionan con los
valores de X.

2 Manejando observaciones no lineales

• Una transformación puede hacer lineal la relación, pueden utilizarse los métodos habituales
de la regresión con los datos transformados. Otra posibilidad, en especial para una curva, es
ajustar una línea recta a una parte de la curva y una segunda línea recta a otra parte de la
curva, procedimiento llamado regresión lineal de ajuste parcial.

- 78 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 39
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

B: residuales contra valores de


A: relación lineal entre X y Y. X para la relación de la parte A.

Figura 13.
Ilustración del D: residuales contra valores de
C: relación curvilínea entre X y Y. X para la relación en parte C
análisis de
residuales.

- 79 -

Uso de la Correlación y Regresión

2 Manejando observaciones no lineales

• El fenómeno llamado regresión hacia la media se presenta a menudo en la investigación


aplicada, y se puede pasar inadvertido.
• Para ilustrar el concepto de regresión hacia la media, se consideran datos hipotéticos
mostrados en el cuadro 7 de la presión arterial diastólica de 12 hombres. Si estos hombres
hubieran sido seleccionados como motivo de estudio del GEIFMR, sólo los individuos del 7
a 12 hubieran sido aceptados; los individuos del 1 al 6 no porque su presión diastólica de
base es < 90 mmHg. Supóngase que todos los individuos tuvieran otra medición de la
presión arterial más adelante. Como la presión arterial de un individuo varía de forma
considerable de una lectura a otra, se esperaría que cerca de la mitra de los hombres
tuviera presión arterial más alta, mientras la otra mitad la tendría más baja debido a la
variación aleatoria.
- 80 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 40
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Uso de la Correlación y Regresión

2 Manejando observaciones no lineales

• La variación hacia la media indica que los individuos que tuvieron presión arterial baja en la
primera medición tienen mayor probabilidad de obtener una cifra alta en la segunda
lectura. De la misma forma, los varones con represión arterial diastólica ≥ 90 en la primera
lectura, tienen mayor probabilidad de presentar presiones menores en la segunda lectura.
• Si a toda la muestra de hombres se le toma la presión arterial por segunda vez, los
aumentos y las disminuciones tienden a cancelarse entre sí. En cambio, si sólo un
subconjunto de los individuos es examinado por segunda vez, por ejemplo los hombres con
presión diastólica > 90, parecerá que la presión arterial ha descendido, cuando en realidad
no ha sido así.
- 81 -

Uso de la Correlación y Regresión


Cuadro 7. Datos hipotéticos de la presión arterial diastólica para
ilustrar la regresión hacia la media

Sujetos Comienzo Repetición


1 70 80
2 80 81
3 82 82
4 84 86
5 86 85
6 88 90
7 90 88
8 92 91
9 94 95
10 96 95
11 98 97
12 100 98 - 82 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 41
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Uso de la Correlación y Regresión

3 Errores comunes de la regresión

• Un error común en el análisis de regresión se presenta cuando se hacen en el mismo


individuo múltiples observaciones y éstas se tratan como si fueran independientes.

Considérese 10 pacientes de quienes se ha registrado el peso y la medida de los pliegues cutáneos


antes de empezar una dieta baja en calorías. Puede superarse, con razón, una moderada relación
positiva entre el peso y el grosor de los pliegues de la piel.
Ahora póngase que los mismos 10 sujetos se pesan y miden a las 6 semanas de llevar la dieta.
Primero, el tamaño de la muestra parecería ser 20 en vez de 10, y podría concluirse con mayor
probabilidad una significancia. Segunda, debido a que la relación entre peso y el grosor de los
pliegues cutáneos es un tanto estable en la misma persona, aun con observaciones tiene el mismo
efecto que usar mediciones duplicadas, y esta da como resultado una correlación mayor de lo que en
realidad debe ser

- 83 -

Uso de la Correlación y Regresión

3 Errores comunes de la regresión

• La magnitud de una correlación puede aumentar también de manera errónea cuando se


combinan dos grupos diferentes.

Considérese la relación entre estatura y peso corporal. Supóngase que la estatura y el peso de 10
hombres y 10 mujeres son registrados, y se calcula la correlación entre peso y estatura combinando las
muestras.
En la figura 14 se muestra cómo se vería la gráfica de dispersión e indica el problema que resulta al
combinar hombres y mujeres como si se tratara de una sola muestra. La relación entre estatura y peso
parece ser más significativa en la muestra combinada que cuando se mide por separado hombres y
mujeres. Gran parte de la aparente significancia procede del hecho de que lo hombres tienden a ser
más altos y pesar más que las mujeres. Se puede obtener conclusiones inadecuadas si se mezclan dos
poblaciones diferentes.

- 84 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 42
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Uso de la Correlación y Regresión

Figura 14. Datos hipotéticos que ilustran una correlación falsa.

- 85 -

Uso de la Correlación y Regresión


Comparación entre correlación y
3 regresión
• La correlación es independiente de la escala, pero no la regresión. Es decir, la correlación
entre dos características, como estatura y peso es la misma, sin importar que la estatura se
mida en centímetros o pulgas y el peso en kilogramos o libres.
• Sin embargo, la ecuación de regresión resultante de una regresión del peso sobre la estatura
depende de la escala que se está usando; en otras palabras, predecir el peso en kilogramos
tomando la estatura en centímetros de un valor diferente para a y b del que se obtiene al
predecir el peso en libras tomando la estatura en pulgadas
• Las fórmulas para el coeficiente de correlación y el coeficiente de regresión están
íntimamente relacionadas.

Si se conoce el coeficiente
𝑫𝑬𝒀 𝑫𝑬𝒀
𝒃=𝒓 𝒓=𝒃 de regresión (b), puede
𝑫𝑬𝑿 𝑫𝑬𝑿
encontrarse r - 86 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 43
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Uso de la Correlación y Regresión


4 Regresión múltiple

• Es una generalización directa de la regresión simple para las aplicaciones en las cuales dos o
más variables independientes (explicativas) se usan para predecir resultados.
• En el estudio descrito en el Planteamiento del problema 4, los investigadores quería predecir
el grado de sensibilidad a la insulina en una mujer tomando en base el IMC; sin embargo,
también se querían controlar por medio de la edad de la mujer. Los resultados de los dos
análisis se muestran en el cuadro 8.
• La primera regresión se hizo usando el IMC para predecir la sensibilidad a la insulina en
mujeres hipertiroideas; la ecuación resultante fue:

𝑺𝒆𝒏𝒔𝒊𝒃𝒊𝒍𝒊𝒅𝒂𝒅 𝒂 𝒍𝒂 𝒊𝒏𝒔𝒖𝒍𝒊𝒏𝒂 𝒑𝒓𝒆𝒅𝒊𝒄𝒉𝒂 = 𝟐. 𝟑𝟑𝟔 − 𝟎. 𝟎𝟕𝟕 × 𝑰𝑴𝑪

- 87 -

Uso de la Correlación y Regresión


4 Regresión múltiple

• Luego la regresión se repitió usando el IMC y la edad como variables independientes. El


resultado fue
𝑺𝒆𝒏𝒔𝒊𝒃𝒊𝒍𝒊𝒅𝒂𝒅 𝒂 𝒍𝒂 𝒊𝒏𝒔𝒖𝒍𝒊𝒏𝒂 𝒑𝒓𝒆𝒅𝒊𝒄𝒉𝒂 = 𝟐. 𝟐𝟗𝟏 − 𝟎. 𝟎𝟔𝟖 × 𝑰𝑴𝑪 − 𝟎. 𝟎𝟎𝟒 × 𝒆𝒅𝒂𝒅

• Como se puede ver, la suma de la variable edad tiene relativamente poco efecto; de hecho, el
valor de P para la edad es 0.30, lo que indica que el factor edad no tiene relación significativa
con la sensibilidad a la insulina en este grupo de mujeres hipertiroideas.

- 88 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 44
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Regresión Lineal
Cuadro 8. Ecuaciones de regresión para mujeres hipertiroideas
usando el IMC contra IMC y edad como variables predictoras.

Sección de ecuaciones de regresión

Variable Coeficiente de Valor de t Grado de


Error estándar Decisión (5%)
independiente regresión (𝑯𝟎 : 𝑩 = 𝟎) probabilidad

Intersección 2.336 0.462 5.054 0.0003 Rechazar 𝐻0

IMC - 0.077 1.807E – 02 - 4.248 0.0011 Rechazar 𝐻0

𝑅 2 0.601

- 89 -

Regresión Lineal
Cuadro 8. Ecuaciones de regresión para mujeres hipertiroideas
usando el IMC contra IMC y edad como variables predictoras.

Sección de ecuaciones de regresión

Variable Coeficiente de Valor de t Grado de


Error estándar Decisión (5%)
independiente regresión (𝑯𝟎 : 𝑩 = 𝟎) probabilidad

Intersección 2.2905 0.461 4.973 0.0004 Rechazar 𝐻0

Edad - 4.463E – 03 4.103E – 03 - 1.088 0.3000 Aceptar 𝐻0

IMC - 6.782E – 02 1.972E – 02 - 3.439 0.0055 Rechazar 𝐻0

𝑅 2 0.639

- 90 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 45
Facultad de Medicina Humana
Escuela Profesional de Medicina Humana

Tamaño de las muestras para correlación y


regresión
• Al igual que en otros procedimientos estadísticos, es importante contar con un número
adecuado de individuos en cualquier estudio que comprenda correlación o regresión. Para el
cálculo de los tamaños de las muestras en estos procedimientos, se requieren fórmulas
complejas, pero por fortuna se pueden usar programas estadísticos para hacer los cálculos.
• Supóngase que Jackson et al. (2002) quieren conocer cuál sería el tamaño necesario de una
muestra para producir un intervalo de confianza para la correlación del IMC y el porcentaje de
grasa corporal que se establecieran dentro ±0.10 del coeficiente de correlación esperado de
0.75.
• Se usó el programa de nQuery Advisor para ilustrar el tamaño necesario de la muestra. Se
necesitaría una muestra de 102 pacientes. Nquery produce sólo un intervalo con una cola, de
forma que se utilizan 97.5% para obtener un intervalo de 95% de dos colas.

- 91 -

Tamaño de las muestras para correlación y


regresión
• Para ilustrar el poder del análisis por regresión, considérese la ecuación de la regresión para
predecir, a partir del IMC, la sensibilidad a la insulina (Gonzalo et al., 1996).
• Recuérdese que, con la muestra completa de 33 mujeres, se encontró un intervalo de 95%
de confianza entre – 0.0674 y – 0.0192 para el coeficiente de regresión. Supóngase que
Gonzalo et al., desean saber cuántas mujeres deberán incluirse para la regresión. El
programa PASS produce el tamaño de la muestra, calculando el número necesario para
obtener un valor dado de 𝑅2 (o 𝑟 2 si se trata de una sola variable independiente). Se
supone que desean una correlación entre la sensibilidad real a la insulina y la sensibilidad
predicha de, al menos, 0.50, que produce una 𝑟 2 de 0.25. El tamaño calculado de la
muestra es de 26 en cada grupo, para lo cual está por determinarse la ecuación de
regresión.

- 92 -

Curso: Informática y Bioestadística Tema: Correlación.


Docentes: Ms. Zoraida Vidal / Dr. Álex Castañeda / Regresión Lineal
Ing. Agustín Ullón Pág. 46

También podría gustarte