Está en la página 1de 32

UNIVERSIDAD CENTROCCIDENTAL “LISANDRO ALVARADO”

DECANATO DE CIENCIAS DE LA SALUD


SECCION DE EPIDEMIOLOGÍA Y BIOESTADÍSTICA.

CORRELACIÓN Y
REGRESIÓN

Lcda. Dellys Matos

Prof. Rosmery Sanchez. Dra. Yudith Ontiveros


Objetivo Terminal

Al finalizar la unidad el estudiante será capaz de analizar el


coeficiente de correlación de Pearson y la ecuación de
regresión
Objetivos de la Unidad

• Definir medidas de correlación y su aplicación en el estudio


entre variables.
• Calcular e interpretar las medidas de correlación en ejemplos
que se presenten.
• Definir coeficiente de regresión interpretando el significado
de su valor en datos que se presenten.
• Predecir un valor mediante la aplicación de la ecuación de
regresión en datos que se le presenten.
• Valorar la importancia de los parámetros biológicos
utilizando medidas de asociación y predicción.
CORRELACIÓN Y REGRESIÓN

En el campo de la Estadística hay innumerables situaciones que


requieren el análisis de más de una variable.
Nos preguntaremos:

¿Cómo analizar relaciones entre dos o más variables?

¿Están relacionadas entre sí?

¿Cómo es esa relación?


CORRELACIÓN Y REGRESIÓN

Generalmente, las teorías basadas en el conocimiento subjetivo


sugerirán factores que influyen en la “variabilidad” de los
fenómenos de interés y la forma como podrían relacionarse.

Nos ocuparemos de relaciones entre variables que no son del tipo


causa-efecto

Nunca, estaremos en condiciones de describir y/o explicar con


exactitud los fenómenos del mundo real pues siempre estará presente
la incertidumbre.

En las relaciones de nuestro interés estará siempre presente la


asociación
CORRELACIÓN Y REGRESIÓN

¿Se verá influenciado el puntaje obtenido en el trabajo


práctico a ser realizado como evaluación el porcentaje de
inasistencia al curso?

¿Existe asociación entre la distancia al trabajo y el número de


días ausente de los médicos del HAMP?

¿Existe asociación entre el Índice de masa corporal y la


densidad mineral ósea en mujeres?

¿Existe asociación entre el peso y la estatura en los niños de 0


a 5 años?
CORRELACIÓN Y REGRESIÓN

Para llevar adelante cualquiera de las investigaciones propuestas en


los casos descritos debemos obtener información cuantitativa que
informe cómo las variables de interés se han relacionado en el
pasado.

Basaríamos, entonces nuestras conclusiones, en la premisa de que


lo que ocurrió en el pasado se repetirá probablemente.

En particular, en todos los casos planteados dispondremos de


valores para dos variables distintas obtenidas del mismo elemento
de la población.
CORRELACIÓN
¿Cómo se podría medir el grado de intensidad de esas posibles relaciones?

La correlación estadística determina la relación o dependencia que existe entre


las dos variables que intervienen en una distribución bidimensional.

Aplicando el coeficiente de correlación lineal de Pearson: r

S XY
rXY 
S X SY

r
(X i  X )(Yi  Y )
 i
( X  X ) 2
 i
(Y  Y ) 2

Sentido y la Intensidad de la asociación lineal entre dos variables:


COEFICIENTE DE CORRELACIÓN DE PEARSON (r)

Características:
• Solo mide relaciones lineales.
•Cuando se busca analizar la relación entre dos variables
medidas en escala numérica.
•Es una prueba estadística para analizar la relación entre dos
variables mutuamente dependientes.
•Su principal objetivo es determinar que tan intensa es la
relación entre dos variables.
•Se altera de manera importante ante la presencia de valores
extremos.
•No implica causalidad.
COEFICIENTE DE CORRELACIÓN DE PEARSON (r)

Características:

• Sus valores oscilan entre – 1 y + 1 ambos extremos


representan relaciones perfectas entre las variables.
• El cero (0) representa la ausencia de relación.
• El signo positivo o negativo indican la dirección es decir:
• Un valor positivo (+) indica que las dos variables
aumentan al mismo tiempo.
• Un valor negativo (-) indica que cuando una de las
variable aumenta la otra disminuye o viceversa.
• El valor numérico indica la magnitud de la correlación
La correlación lineal es positiva y será tanto más fuerte
Si rxy  0 como se aproxime al valor 1: a mayores puntuaciones
de X se corresponden mayores
puntuaciones de Y y viceversa

La correlación lineal es negativa y será tanto más


Si rxy  0 fuerte como se aproxime al valor -1 a mayores
puntuaciones de X le corresponden menores
puntuaciones de Y y viceversa

No existe correlación lineal entre las variables. Las

Si rxy  0 variables son independientes y no se puede establecer


una relación. Aunque podría existir otro tipo de
asociación (parabólica, exponencial, etc)
Correlación
Correlación lineal
lineal negativa
positiva

No existe correlación lineal


Interpretación del coeficiente de correlación

Muy Alta Alta Moderada. Cierta C. Escasa Escasa Cierta C. Moderada. Alta Muy Alta

-1 -0,95 -0,75 -0,5 -0,25 +0,25 +0,5 +0,75 +0,95 +1


0
No hay correlación Perfecta
Perfecta

Otra forma de interpretar es la siguiente:

VALOR TIPO DE RELACIÓN


Menor que 0,5 Escasa o nula
Entre 0,51 y 0,8 Moderada o buena
Entre 0,81 y 0,95 Alta
Mayor que 0,95 Muy alta
Ejemplo:

Estudiar la relación entre la Glicemia e Índice de Masa Corporal (IMC)


Paso1:
Representar los datos en un diagrama de dispersión.
IMC y la Glicemia.

Promedios
Cálculo del Coeficiente de Correlación de Pearson.

Existe una alta asociación positiva entre tensión El IMC y la


Glicemia

 = - 1 ; Este resultado indica una relación negativa y excelente


entre las variables
Coeficiente de Determinación

Es la proporción de variación de la variable dependiente “Y” que se explica por


la variación de variable independiente “X”. Se simboliza: r 2.

Es el cuadrado del coeficiente de correlación

Varía entre 0 y 1
No indica dirección de la relación entre las variables

Considerando el ejemplo dado:

El valor obtenido (0,83) se eleva al cuadrado y se multiplica por 100 (para la


interpretación)
Es decir: (0,83)2 x 100 = 68%
¿Qué significa? 68% de las variaciones del Índice de Masa Corporal son
explicadas por la Glicemia.
ANÁLISIS DE REGRESIÓN LINEAL

Hasta este momento, podemos decir que existe una perfecta, muy alta, alta,
… asociación lineal positiva entre las variables pero no sabemos cuánto.

Para avanzar en nuestro análisis evaluaremos ahora,


relaciones de dependencia entre las variables objeto
de estudio.

Propondremos una ecuación que permita describir la


forma de la relación entre las variables para predecir,
explicar y/o confirmar el comportamiento de una de
ellas a partir de las otras.
Nota Histórica:
El término “regresión” fue introducido por Francis
Galton (1822-1911) quien planteó que, a pesar de la
existencia de una tendencia de los padres de alta
estatura a tener hijos altos y los de baja estatura a
tener hijos bajos, la estatura promedio de los hijos
tendía (o regresaba) al promedio de la población total.

En otras palabras , la estatura de los hijos de padres


muy altos o muy bajos, tiende a la estatura promedio de
la población. Esta “ley de regresión universal” de Galton
fue confirmada posteriormente por Karl Pearson (1857-
1936) al analizar la relación entre las estaturas de
1078 pares de padres e hijos.
El coeficiente de correlación lineal nos permite
determinar si, efectivamente existe relación
(asociación) entre las dos variables. Una vez
que se concluye que si existe la relación, la
regresión nos permite definir la recta que mejor
se ajusta a esta nube de puntos
En matemática la recta se define como:
y  a  bx
En estadística, recta de regresión, un modelo matemático
que viene definido por la siguiente ecuación:
Y   0  1 X   Yˆ  ˆ  ˆ Xˆ  
0 1

Y  a  bX  
Término aleatorio

Variable dependiente Variable independiente

Permite predecir los valores de la variable dependiente


conociendo los valores de la variable independiente
y  a  bx
El parámetro “a” es el valor que toma la variable
dependiente y, cuando la variable independiente vale 0, y
es el punto donde cruza el eje vertical
El parámetro “b” determina la pendiente de la recta, su
grado de inclinación.
Por cada unidad de cambio de la variable “x”
(independiente), “y” (variable dependiente) cambia en
“b” unidades
La Regresión lineal nos permite calcular el valor de estos dos
parámetros, definiendo la recta que mejor se ajusta a la nube
de puntos

El parámetro “b” viene determinado por la siguiente fórmula


S XY
b 2
SX
n

  x  x  y
i i  y
b i 1
n

 ix  x  2

i 1

El parámetro “a” viene determinado por a  y  bx


ESTIMACIÓN MEDIANTE LA RECTA DE REGRESIÓN

La recta de regresión sirve para hacer estimaciones, teniendo


en cuenta que:

• Los valores obtenidos son aproximaciones en términos de


probabilidad: es probable que el valor correspondiente a x o
sea y0.
• La fiabilidad es mayor cuanto más fuerte sea la
correlación.
• La fiabilidad aumenta al aumentar el número de datos.

• La estimación es más fiable para los valores de x


próximos a la media.
Para el ejemplo tenemos que:
Así que:
n

  x  x  y
i i  y
b i 1
n

 ix  x  2

i 1

Este valor significa que por cada unidad de mg/dlque aumenta la glicemia, el IMC
aumenta en 0.24 Kg/mts2

Si quisiéramos predecir el IMC para un paciente con valores de Glicemia de 75:


Calcular el término independiente, intercepto…
a = [26,05 – 0.24 * 80,59]=6,71

 Y = 6,71 + 0.24x 75) =24,71


Significa: El IMC de un paciente con valores de glicemia de 75mg/dl puede
estimarse en 24,71 Kg/mts2.
UNIVERSIDAD CENTROCCIDENTAL “LISANDRO ALVARADO”
DECANATO DE CIENCIAS DE LA SALUD
DEPARTAMENTO DE MEDICINA PREVENTIVA Y SOCIAL
SECCION DE EPIDEMIOLOGIA Y BIOESTADÍSTICA
ASIGNATURA BIOESTADÍSTICA VIII SEMESTRE

Práctica formativa Regresión y Correlación


1. Se desea estudiar si el nivel de sangre de estradiol tiene relación
lineal con la edad de las mujeres, con el objetivo de predecir y modificar
su nivel farmacológicamente en edades que lo necesiten. Para ello, se
considera una muestra de 10 mujeres de las que se ha tomado su edad
(en años) y su nivel de estradiol (en pg/ml) obteniéndose los siguientes
resultados:

Promedio Edad= 39,21 años


Promedio Estradiol= 112,62 pg/ml

Preguntas
a)¿Qué tipo de relación existe entre las variables si r= - 0,910?
b)¿Calcule e interprete el coeficiente de determinación?
c)Interprete el valor de b= 0,910
d)Calcule e interprete ¿Cuál seria el valor esperado de Estradiol
para una mujer que tenga una edad de 45 años?
2. Dado los siguientes datos: Peso y Talla de 20 niños varones se
muestra
Peso (Kg) Talla (cm)
9 72
10 76
6 59
8 68 ¿Existe asociación entre las variables?
10 60
5 58
8 70 ¿Si la talla del niño es de 63cm, cuanto
7 65 sería el peso estimado?
4 54
11 83
7 64
7 66
6 61
8 66
5 57
11 81
5 59
9 71
6 62
10 75

También podría gustarte