Está en la página 1de 5

CORRELACIÓN Y REGRESIÓN LINEAL

Es un modelo estadístico para estimar el efecto de una variable sobre otra.


Está asociado con el coeficiente de correlación.
Brinda la oportunidad de predecir las puntuaciones de una variable tomando las
puntuaciones de la otra variable. Entre mayor sea la correlación entre las
variables (covariación), mayor capacidad de predicción.
Con estos métodos podemos lograr observar de la toma de medidas de dos
variables, si estos dependen de uno a la otra. Un objetivo en sí en la medición
podría ser para verificar si una medida tomada puede estar causando cierto
error por causa de otra variable sea conocida o desconocida.

Correlación
Describe la relación de cercanía entre dos características o en este caso entre
dos variables, en la cual además de verificarlo mediante una pendiente también
se puede verificar mediante un coeficiente llamado coeficiente de correlación.
Dicho esto la relación de dos variables se puede tener de dos formas:

1. Relación Positiva entre dos variables


La cual describe, gráficamente una pendiente positiva lo cual quiere decir si
una variable crece la otra también lo hará.

2. Relación Negativa entre dos variables


La cual describe una pendiente negativa, lo cual quiere decir si una variable
crece la otra decrece.
Las graficas anteriores son llamada diagramas de dispersión en el cual muestra
el comportamiento de los puntos respecto a la recta. En la cual esta misma
recta se traza por medio del método de mínimos cuadrados de regresión lineal.
En la cual mientras mas cerca de la recta se encuentren los puntos, esto
verificara que más cerca las variables dependen entre sí.
Como se dijo anteriormente además de verificar el comportamiento
gráficamente, también se utiliza el coeficiente de correlación representada con
“r”, es una medida numérica de la fuerza de la relación lineal entre dos
variables.
Calculo del Coeficiente de Correlación

∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)


𝑟=
√∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 √∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2

Este valor se encuentra entre los valores de -1 y 1, en la cual si el valor es de


signo positivo la relación positiva y en caso sea de signo negatioa la relación
será negativa tal como se observo anteriormente en la graficas.
.
Observación 1:
En caso los puntos se hallan en una recta horizontal o
vertical el coeficiente de correlación esta indeterminado
ya que una de sus desviaciones es cero

Sobre este coeficiente una ventaja es que es puro, es decir adimensional, lo


cual sin esta característica no se podría comparar la relación lineal más fuerte
entre dos graficas con distintas unidades.
Otra cosa que acotar es sobre los datos atípicos que pueden causar que
distorsionen el coeficiente de correlación, estos ocasionan errores en el registro
de datos. Uno de esto errores puede ser que la regresión lineal no sea la
adecuada para su estudio sino otro tipo de regresión sea la mejor. En caso de
tener un conjunto de punto que tienden a una parábola y en esta tomamos una
regresión lineal hasta llegar al punto de simetría de este se observara que es
un adecuado coeficiente, pero si se toma la parábola completa nuestro
coeficiente de correlación se acerca a cero lo cual demuestra que no hay
dependencia entre las dos variables.

Regresión Lineal
Es la expresión matemática de la recta, del cual me permite saber gráficamente
la fuerza de relación lineal entre las dos variables en estudio.

𝑦𝑖 = 𝐵0 + 𝐵1 𝑥𝑖 + 𝜀𝑖

𝑦𝑖 : Variable dependiente
𝑥𝑖 : Variable Independiente
𝐵0 , 𝐵1: Coeficientes de Regresión Lineal
𝜀𝑖 : Error
Debido al error que tiene que tienen los datos medidos 𝐵0 , 𝐵1 no se pueden
determinar exactamente, pero se puede estimar calculando la recta de mínimos
cuadrados lo cual se llegaría a la siguiente expresión:

𝑦 = 𝐵̂0 + 𝐵̂1 𝑥

𝐵̂0 , 𝐵̂1: Coeficientes de mínimos cuadrados, son una estimación de lo


coeficientes verdaderos de la regresión lineal.
Esta ecuación representa la relación numérica lineal entre las dos variables en
estudio.
Pero en esta ecuación hay que tener cuidado con la extrapolación de los datos,
ya que si uno prueba esta relación y esta se sale del rango de datos que uno
hizo la medición no hay garantía de que describa una relación adecuada entre
estas dos variables.
Datos Atípicos
Son observaciones cuyos valores son muy diferentes a las otras observaciones
del mismo grupo de datos y además ocasionan errores en el registro de datos.
Estos pueden distorsionar el coeficiente de correlación enormemente en
especial un conjunto de datos pequeños.

Supuestos para los errores de los Modelos Lineales

La correlación es de 0,26; debido al dato atípico el coeficiente es engañoso.


1. Errores (𝜀1 , … , 𝜀𝑛 ) son aleatorios e independientes. En particular
cualquier error 𝜀𝑖 que no influye en el valor del siguiente error 𝜀𝑖+1 .
2. Errores (𝜀1 , … , 𝜀𝑛 ) tienen una media de cero.
3. Errores (𝜀1 , … , 𝜀𝑛 ) tienen la misma varianza 𝜎 2
4. Errores (𝜀1 , … , 𝜀𝑛 ) son distribuidos normalmente.
Son restrictivos estas condiciones, por lo que hay que analizar el grado en el
cual es aceptable incumplirlo en la práctica.
El estimador de la varianza 𝜎 2 𝑒𝑠:

2
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖 )2
𝑆 =
𝑛−2
Observación:
Hay dos maneras de mejorar la exactitud de la recta estimada de regresión:
a. Aumentar el tamaño de la suma ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̂𝑖 )2 tomando más
observaciones
b. Reducir el tamaño de la varianza 𝜎 2 del error.

Intervalos de Confianza
Un intervalo de confianza es una técnica de estimación utilizada
en estadística inferencial que permite acotar un par o varios pares de valores,
dentro de los cuales se encontrará la estimación puntual buscada (con una
determinada probabilidad).
Esta se formula como:
𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎 = 𝑀𝑒𝑑𝑖𝑎 ± 𝑀𝑎𝑟𝑔𝑒𝑛 𝑑𝑒 𝐸𝑟𝑟𝑜𝑟
En las regresiones lineales esta dado por:
𝐵̂0 + 𝐵̂1 𝑥 ± (𝑡𝑛−2 ,
𝛼 ) × 𝑆𝑦̂
2

n: Numero de mediciones hechas


t: Variable que se encuentra por tabla de t-student
α: Probabilidad expresada en porcentaje en la que se encuentra el valor real.
(normalmente se utiliza por consenso 95%).
𝑆𝑦̂ : Desviación estándar de la media 𝑦̂.

Inferencias sobre la respuesta Media


Las estimaciones están basadas en mediciones sujetas a la incertidumbre. La
estimación en si misma está sujeta a la incertidumbre.
Para que la estimación sea más útil, se debe construir un intervalo de confianza
alrededor de esta, con el propósito de reflejar su incertidumbre.
Se utiliza a la media (𝑦̂) para construir un intervalo de confianza, además se
debe conocer la desviación estándar para poder realizarlo.

Grafica de residuos contra valores ajustados


Es el mejor diagnóstico para la regresión de mínimos cuadrados es una gráfica
de residuos (𝑒𝑖 ) contra valores ajustados (𝑦̂𝑖 ).
Nos ayuda a verificar si el supuesto modelo lineal puede fallar. Si tiene algún
defecto esta grafica entonces el modelo lineal es inadecuado.
El modelo lineal en esta grafica es válido si la correlación es cero y la media de
residuos es cero, es decir si es homoscedastica. En caso no cumpla lo
contrario se denomina heteroscedastico.

En esta grafica se observa que la dispersión vertical aumenta con el valor ajustado,
debido a que no cumple el supuesto de desviación estándar constante.

Observación:
 Cuando el modelo lineal es válido y satisfacen del 1 al 4 los supuestos
de error de errores lineales la gráfica nos indicara un patrón importante.
 Además, si incumple uno de estos cuatro supuestos se puede observar
claramente en la gráfica.