Está en la página 1de 11

REGRESIÓN Y CORRELACIÓN

Actividades Es un gráfico que permite encontrar la relación entre dos


Regresión variables
➢ Diagrama de dispersión
➢ Ecuación de regresión Visualmente se puede buscar patrones que indiquen el
Correlación tipo de relación que se da entre las variables
➢ Coeficiente de correlación (r) de Pearson
➢ Sentido
➢ Intensidad
Coeficiente de Determinación (r2)

Regresión: El análisis de regresión es útil para averiguar


la forma probable de las relaciones entre las variables.
El objetivo final del análisis de regresión es predecir o
estimar el valor de una variable que corresponde al
valor dado de otra variable.

Correlación: El análisis de correlación se refiere a la


medición de la intensidad de la relación entre variables.
Variables:

X= variable independiente, bajo el control del


investigador.
Los valores de X son seleccionados previamente por el
investigador, de modo que en la recolección de datos
estos no pueden variar. Estas son las posibles relaciones que tendríamos, pero
Y= variable dependiente. nosotros nos vamos a centrar en las dos primeras. Una
Se habla de regresión de Y sobre X. relación positiva lineal o una relación negativa lineal. La
relación positiva suele llamarse directa y la negativa,
ECUACIÓN DE REGRESIÓN: inversa.

➢ Lo que el investigador desea es encontrar una línea que Aplicación


pueda predecir lo que le sucede a Y con cada cambio
de X.
➢ Esta ecuación describe la relación real entre las variables
X e Y.
➢ Como es una relación lineal, dicha ecuación será la
ecuación de una recta:

Y= a +bX

Los datos siguientes muestran el tiempo de


Diagrama de dispersión ejercicio en horas por semana y la disminución de
peso en niños con signos de obesidad. Tenemos 10
pacientes y vamos a ver que al paciente 1, se le
Diagrama de Disperción dio 1 hora de ejercicio y al paciente 10 se le dieron
10 5.5 horas de ejercicio a la semana. Presentamos la
información en un gráfico de dispersión.
8
Variable Y

6
PROCEDIMIENTO
4
2
0
0 2 4 6 8
Variable X
Lo primero es decidir cuál será nuestra variable ANÁLISIS DE REGRESIÓN
independiente, ya que esa es la que determina el
investigador. En nuestro ejemplo serían las horas Objetivos:
de ejercicio por semana que se les asignó a cada
niño. • Estudio de la relación funcional entre dos
variables.
• Establecer una relación cuantitativa entre
dos o más variables relacionadas.
• Se trata de PREDECIR y/o EXPLICAR el valor
de una variable (v. Dependiente), dado el
valor de otra(s) variable(s) relacionada(s)
(v. Independiente(s)).
• Las variables X e Y deben ser de naturaleza
cuantitativa y de preferencia continua.

ANÁLISIS DE REGRESIÓN:
Segundo paso es encontrar los valores máximos y
mínimos para X e Y. Para así poder dibujar los ejes
X e Y respectivamente, de manera que cada
longitud del eje sea similar para facilitar la lectura
del diagrama.

Se debe AJUSTAR una línea entre los puntos


observados, a fin de usarla para predecir el valor
de Y (variable dependiente) a partir de un valor
conocido de X (variable independiente).

REGRESIÓN LINEAL SIMPLE:

Tercer paso es registrar los datos en el gráfico. Si


tuviera los mismos valores en diferentes
observaciones, muestre estos puntos haciendo
círculos concéntricos (o), o registre el segundo
punto muy cerca del primero.

Es una técnica estadística que permite determinar


la mejor ecuación que represente la relación entre
dos variables relacionadas. Si yo quisiera dibujar
este gráfico a mano, debería asegurarme que la
línea tenga la misma cantidad de puntos por
encima y por debajo de ella. Eso solo sería un
concepto visual.

Con esta línea yo podría predecir la variable Y


Cuarto paso es agregar toda la información que (dependiente) a partir de un valor que ya
puede ser de utilidad para entender el diagrama, conozco, la variable X(independiente). Ejemplo: Si
tal como: título del diagrama, período de tiempo, yo pongo a un niño hacer 10 horas de ejercicio a
número de pares de datos, nombre de la variable la semana, puedo determinar mediante una
y unidades de cada eje, entre otros. En este punto regresión lineal el peso que este niño debería
es importante determinar que se está midiendo en perder. En toda regresión lineal:
eje Y, también qué se está midiendo en el eje X ➢ Para cada valor de X hay una
subpoblación de valores Y.
➢ Cada subpoblación de los valores de
Y tiene distribución normal.

Las ecuaciones lineales simples:

Si dos variables, como X e Y, están relacionadas,


se puede expresar como una relación, por
ejemplo:

Y = 3 + 1,5X (Y= a +bX)


La ecuación general Y = a + bX se llama ecuación
Al conocer la ecuación se puede: de regresión y permite estimar o predecir los
valores de Y.
✓ Calcular el valor de Y para cualquier valor
dado de X
✓ Conocer el cambio en Y, cuando X varía
en 1.

Por ejemplo: Y = 3 + 1,5X

Podemos ver que no todos los puntos caen sobre


la recta. Esto es porque hay errores entre la recta
y los valores reales observados.

Por cada valor de X que tenga, voy a poder Tipos de relaciones:


calcular un valor de Y. De igual forma voy a poder
calcular cuánto cambia Y por el cambio de un • Cuando cambios en X provoca cambios
punto en X en Y en igual sentido (aumentos o
disminuciones), las variables están
directamente relacionadas. Se observa el
El aumento en Y, cuando X varía en una unidad, signo +. La línea se irá hacia arriba.
está dado por el coeficiente de X.

Ejemplo:

En Y = 10 + 2X

cuando X aumenta en 1, Y aumenta en 2.

En Y = 5 - 0,8X

cuando X aumenta en 1, Y disminuye en 0,8

Es importante determinar el signo, para afirmar si • Cuando cambios en X, provoca


aumenta o disminuye en cierta cantidad variaciones en Y en sentido inverso (X
aumenta, Y disminuye o viceversa), las
variables están inversamente
TIPOS DE VARIABLES relacionadas. Se observa en la ecuación
el signo -. Vamos a encontrar una línea
En una ecuación como Y = 30 + 3X, el valor de Y que está descendiendo.
depende del valor que toma X, por eso a Y se le
llama variable dependiente, y a X se le llama
variable independiente.
En el ejemplo presentado el valor autónomo, o sea
la intersección en el eje Y, sería 3. El valor de la
pendiente es 1.5

Pasos para encontrar los valores de a y b

Los valores constantes de la ecuación son a y


b.
El primer paso para determinar la ecuación es
hallar b con la fórmula:
GRÁFICA DE UNA ECUACIÓN DE PRIMER GRADO.

Conociendo b es posible hallar el valor de a con


Aquí ponemos los valores del ejemplo inicial. la ecuación:
Los valores de X van desde el 1 hasta el 5, y
los valores de Y desde el 4.5 al 10.5. Los cinco
pares de valores se diagraman de la forma
siguiente.

Sin embargo, aún con la ecuación, como todos los


puntos no están exactamente sobre una línea
recta, se cometen errores en el ajuste.

Debido a la complejidad de la fórmula, lo


recomendable es hacer tablas von los valores de
X y Y.
Luego se suman estas tres columnas, la primera
columna es la suma de todos los valores de x2;
luego la suma de todos los valores de Y2; seguimos
con una suma de todos los valores de XY.
Como último paso realizamos una suma de la filas
finales de todas las Y, las X2,, las Y2 y los valores de
XY.

Forma general: La ecuación simple de primer


grado tiene la siguiente forma general.

Y=a + bX

Pendiente: Representada por la letra b, es el


cambio de Y cuando X sea 1

Valor autónomo: Representado por la letra a, es


decir cuál es el valor de Y cuando X tome el valor
de 0. En la gráfica es representado por la
intersección en el eje Y.
Ejemplo:

Una compañía farmacéutica conduce un


estudio piloto para evaluar la relación entre tres
dosis en un nuevo agente hipnótico y tiempo de
sueño. Los resultados de este estudio son
presentados de la siguiente manera.

Entonces voy a tener que ubicar la dosis, el tiempo


de sueño, los sujetos que fueron nueve en total y
las columnas extras, para obtener esta fila
señalada de verde, la cual se usará para la
fórmula.

Podemos apreciar que se dieron dosis distintas, un - Esta organización de los datos facilita la
grupo de tres pacientes recibieron dosis de estimación de la recta de regresión, debido
3Mm/kg, otro grupo de tres pacientes recibió una a que proporciona todos los datos
dosis de 10Mm/kg y otro grupo de 3, recibió unas requeridos para hallar b y a
dosis de 15 Mm/kg. Obviamente no todos los
pacientes tuvieron la misma cantidad de horas de
sueño. Esta tabla sirve para obtener una relación
aproximada entre las dosis y las horas de sueño.

Solución:

El diagrama de dispersión que se construye a partir


de estos datos es el siguiente:

La idea es ajustar una línea. En este caso tendrá un


signo positivo (+). Reemplazamos los datos de las filas ye empleamos
las fórmulas.

- Según el diagrama de dispersión, se espera Dónde:


una relación positiva o directa entre ambas
variables. Se puede aplicar el modelo de ∑ X= Sumatoria de todas las X
regresión para ajustar los puntos y
establecer una relación lineal que permita ∑ Y= Sumatoria de todas las Y
conocer la relación cuantitativa entre
ambas variables. ∑ X2=Sumatoria de todas las X2

Modelo de regresión y=a+bx ∑ Y2 = Sumatoria de todas las Y2

∑ XY= Sumatoria de todos los productos de


X por Y
No olvidemos las fórmulas:

Los datos pueden ser representados en un


diagrama de dispersión, en el cual cada individuo
es un punto que se ubica en el espacio según los
valores de sus variables talla (X) y peso (Y).
¿Será una relación positiva o negativa?

b=0.5 y a=3.3
Conociendo los valores de b y a, se tiene el
modelo de regresión estimado que sería:
Con este diagrama en la parte inferior se puede
suponer, por observación, que existe una relación
Y = 3.33 + 0.5X directa entre ambas variables. Sin embargo, se
requiere de un análisis de correlación para
comprobar y validar la suposición.
Interpretación:
Por cada incremento de dosis del agente
hipnótico, el tiempo de sueño promedio
aumenta en 0.5 puntos.

Correlación

Análisis de correlación: Busca la intensidad de Esta es la fórmula que usaremos para la


relación entre las variables. El análisis de correlación lineal (r) o de Pearson.
correlación es la técnica estadística que permite
describir el grado hasta el cual una variable está • El coeficiente de correlación lineal
linealmente relacionada con otra. de Pearson indica si los puntos en el
Hay dos medidas que se usan para describir la diagrama tienen una tendencia a
correlación: disponerse alineadamente (relación
lineal)
▪ El coeficiente de determinación:
▪ El coeficiente de correlación: estadístico r, • Siendo este el caso, indica también
parámetro ρ. Con este último vamos hacer el grado de relación y el sentido
la prueba de hipótesis. Utilizaremos la tabla (relación directa o inversa). Este
T coeficiente – representado como
parámetro r o como estadístico r se
halla con la siguiente fórmula
Correlación simple r o de Pearson: El análisis
de correlación es un grupo de técnicas
estadísticas que permiten medir la intensidad de la
relación que puede existir entre dos variables.

Por ejemplo, si se quiere conocer la relación entre


los datos de peso y talla de 30 individuos que se
presentan a continuación: Acá tengo un pequeño resumen de mis datos,
porque se supone que son 30
Ponemos nuestros datos en la siguiente tabla:
➢ La talla en centímetros

➢ El peso en kilogramos
Yo los debo colocar en la tabla que ya estudiamos
con las 3 columnas extras. La parte más
importante será esta fila de totales, porque son los
valores que se requieren para hallar, por el
método clásico, el coeficiente de correlación de
Pearson (r)

B) INTENSIDAD

CORRELACIÓN POSITIVA PERFECTA


Interpretación del coeficiente r: El valor
del coeficiente de correlación (r) va a
indicar el sentido y la intensidad de la
relación entre variables (X e Y)

A) SENTIDO
Relación directa: El valor del coeficiente r es
positivo. Se cumple que:

- A los valores de X mayores que la media le


corresponden valores de Y también Cuando r es igual 1 positivo. Prácticamente todos
mayores que la media. los puntos están sobre la línea.
- A los valores de X menores que la media le
corresponden valores de Y también
CORRELACIÓN POSITIVA INTENSA
menores que la media

Se obtiene más o menos una gráfica de la


siguiente forma.

Cuando el valor de r está en 0.5 y el 1. Por ejemplo,


en la gráfica anterior el valor r es 0.8.

CORRELACIÓN POSITIVA MODERADA


Relación inversa: Se da cuando X aumenta y Y
disminuye.
El valor del coeficiente r es negativo.
✓ A los valores de X mayores que la media le
corresponden valores de Y menores que la
media.
✓ A los valores de X menores que la media le
corresponden valores de Y mayores que la
media.

Cuando r es exactamente 0.5


CORRELACIÓN POSITIVA DÉBIL
CORRELACIÓN NEGATIVA DÉBIL

Cuando r está 0 y -0.5


Cuando el valor de r está entre 0 y 0.5

CORRELACIÓN NEGATIVA PERFECTA

Cuando el valor de r es igual a negativo 1 (-1). De


igual forma que la correlación positiva perfecta,
todos los puntos están sobre la recta.

CORRELACIÓN NEGATIVA INTENSA


Cuando el r es igual a 0, no existe correlación. Los
valores de la fórmula los obtenemos de las tablas
que hicimos con las tres columnas extras. En el
examen por lo general viene esta definición.

INCORRELACIÓN: En el caso de que el coeficiente


de correlación sea cero (r=0), NO EXISTE RELACIÓN
ENTRE LAS VARIABLES.

Es decir, para valores de X por encima de la media


El valor de r está entre -0.5 y -1
se tienen valores de Y por encima y por debajo en
proporciones similares.
CORRELACIÓN NEGATIVA MODERADA

Cuando r es igual a -0.5 exactamente


PROPIEDADES DEL COEFICIENTE DE
CORRELACIÓN (r)

- Es adimensional
- Sólo toma valores en [-1,1] EJEMPLO
- Si r=0 las variables son incorrelacionadas • 2 métodos distintos para la medición de la
- Relación lineal perfecta entre dos variables presión sistólica de 25 pacientes con
r=+1 o r=-1 (Se excluyen los casos de puntos hipertensión,
alineados horizontal o verticalmente) • ¿se puede establecer que existe una
- Cuanto más cerca esté r de +1 o -1 mejor relación lineal significativa entre ambos
será el grado de relación lineal (siempre métodos?
que no existan observaciones anómalas) En el paciente 1 se le mide la presión sistólica que
es igual a 132 y con el segundo método sale 130.
Queremos saber si hay una relación lineal entre
estos dos métodos. Debemos utilizar las tres
columnas que agregamos a la tabla y los valores
totales que utilizaremos en la fórmula

Recuerden que esta es la fila que vamos a


emplear para reemplazar en la fórmula de r.

Significancia estadística: prueba de hipótesis

El valor del coeficiente de correlación (r)


determina si existe una relación lineal entre las
variables • Primero se debe hallar el coeficiente de
correlación de Pearson (r)
Sin embargo, no indica si esta relación es
estadísticamente significativa.

Para ello se aplica la prueba de hipótesis del


parámetro r (rho).

La hipótesis nula (Ho) establece que no existe una


relación, es decir, que el coeficiente de El coeficiente r sale 0.95
correlación (r) es igual a 0
• el coeficiente de correlación indica una
La hipótesis alterna (H1) propone que sí existe una relación lineal directa intensa
relación significativa por lo que r debe ser
diferente a 0 Luego, se procede a plantear la prueba de
hipótesis del parámetro r:
• Ho: r = 0
• H1: r diferente de 0 • Ho: r = 0
• H1: r ≠0
Se utilizarán dos colas porque es igual o diferente.
el nivel de significancia no se indica, por ello se
• El estadístico de prueba que revela si la asume que es 0.05), recordamos que se usa un
hipótesis nula (Ho) es o no verdadera grado de libertad igual a n-2.
es el siguiente:
respuesta al tratamiento medida con
ambos métodos para medir la presión
sanguínea.

El coeficiente de determinación:

Lo que hace es evaluar la eficiencia de la


ecuación de regresión

Decisión y conclusión: Al construir un modelo de regresión, se define que


“el valor Y depende de X”
Para determinar si se rechaza o no la hipótesis nula Y = f (X)
(Ho), se compara el valor de tcalculado con el valor Es decir que Y es una función de X
hallado en la tabla (t n-2 ) según el nivel de
significancia y el grado de libertad
Si la relación es lineal: Y = a + bX

Acá tengo la tabla T, recordando que usaremos Pero en la práctica Y depende también de “otros
dos colas debido a r=0 o r ≠0. Para dos colas yo factores” diferentes a X. Estos otros factores van a
utilizo 0.05 que equivale a un nivel de confianza hacer que yo tenga errores y que no pueda
del 95% y tengo el grado de libertad (g.l) igual a predecir lo que le va a pasar a Y conociendo solo
23. Busco la intersección que es 2.07 los valore de X.

Y = a + bX + e

✓ Parte de los cambios en Y pueden


explicarse por X, a esto se llama variación
explicada.

✓ Pero hay cambios en Y que no pueden


explicarse por X, a lo que se llama
variación no explicada

Valor observado y valor estimado de Y

El valor observado (Yi) se refiere al nivel efectivo u


observado de la variable Y (peso del niño),
mientras que el valor estimado ( ), es el nivel
estimado de la variable (peso esperado),
obtenido utilizando la ecuación de regresión.

Para determinar si se rechaza o no la hipótesis nula


(Ho), se compara el valor de calculado con el valor
hallado en la tabla (t n-2 ) según el nivel de
significancia y el grado de libertad.

Observación: tc = 14.59 vs tt = 2.07

Debido a que el valor de tc es mayor al valor


hallado en la tabla (t 23 ), se debe rechazar la
hipótesis nula (Ho). Y me quedo con la hipótesis
alterna. Vamos a tener una variación total de Y que va a
ser la suma de la variación explicada por X y de la
Interpretación: variación no explicada por X. Si Y fuera
• Hay evidencia de que existe una alta determinada solamente por X, entonces e valor
correlación lineal positiva entre la estaría justo por encima de la recta.
El coeficiente de determinación se puede calcular
del modo siguiente: Solo se eleva el r al cuadrado

Ejemplo:

r = 0.95
R2 = 0.9025 → 90%

Interpretación: 90% de las variaciones Y, pueden


explicarse por X. Cuanto mayor sea r2, más cerca
están todos los puntos a la recta.

También podría gustarte