Está en la página 1de 5

CORRELACION Y REGRESION.

Dos variables están relacionadas cuando varían conjuntamente, es decir, los cambios de valores de una variable producen
cambios en los valores de la otra variable. Si las variables están relacionadas, se dirá que están asociadas o correlacionadas.
El problema de investigar si existe alguna relación entre las variables es un problema de correlación.

“ASOCIACION O CORRELACION”: si cambios en una variable son acompañados sistemáticamente por cambios en la otra
variable, se dice que las variables están asociadas.

Si a mayores valores de una variable se observan simultáneamente valores mayores en la otra, se está en presencia de una
Asociación Positiva. Por el contrario, si a mayores valores de una variable se observan menores valores en la otra, estamos
en presencia de una Asociación Negativa. Si los valores de una variable cambian y no producen cambios en los valores de la
otra, no existe asociación entre las mismas, esto es una Independencia Estadística, que implica la falta total de asociación
entre los valores de las variables.

Cuando se habla de un estudio de correlación o asociación es necesario establecer que la relación tenga sentido entre las
variables.

Cuando en una población se estudian simultáneamente dos características, la información se presenta como dato apareado
o bivariante.

- Dato apareado o bivariante: es un par de valores que resulta de medir, contar u observar simultáneamente dos
variables en cada uno de los elementos unitarios de la población. Existe un dato apareado para cada elemento de la
población.
- Frecuencia Conjunta: número de observaciones que presentan los valores de X e Y, que corresponden, al mismo
tiempo, a la clase de X y a la clase de Y que componen la clase apareada bajo consideración.
- Clase Apareada: es un par de clases, una de la variable X y otra de la variable Y, que se simboliza (x i , yi) que son los
puntos medios de las clases componentes del par.
- Distribución Marginal de X: se reagrupan todas las observaciones de la variable X independientemente de los
valores de la otra variable, es decir, se suman todas las frecuencias conjuntas correspondientes a cada fila. Las
frecuencias de esta distribución son las ubicadas en la última columna de la distribución de frecuencias a dos
variables.
- Distribución Marginal de Y: se reagrupan todas las observaciones de la variable Y, independientemente de los
valores de la otra variable, es decir, se suman todas las frecuencias conjuntas correspondientes a cada columna. Las
frecuencias de esta distribución son las ubicadas en la última fila de la distribución de frecuencias a dos variables.

Para determinar si existe Independencia hay dos criterios:


- Criterio de la Multiplicación: habrá Independencia si cada frecuencia conjunta es igual al producto de sus marginales,
dividida en el tamaño de la muestra o de la población según sea el caso. Si no se cumple la igualdad para alguna de las
frecuencias conjuntos, existe Asociación o Correlación.
- Criterio de Porcentajes Verticales y Horizontales: habrá Independencia Estadística cuando las distribuciones condicionales
de la variable X en términos relativos, sean iguales entre si e igual a la distribución marginal de X en términos relativos
(Porcentajes verticales), y cuando las distribuciones condicionales de la variable Y en términos relativos, sean iguales entre
si e igual a la distribución marginal de Y en términos relativos (Porcentajes Horizontales). Si no se cumple lo mencionado
anteriormente, habrá Asociación.

Para el estudio de Asociación vamos a tener en cuenta la forma que están presentados los datos (VAMOS A ESTUDIAR EN
GENERAL 3 ASPECTOS: A) SI EXISTE O NO ASOCIACION; B) EL SENTIDO DE LA MISMA; C) EL GRADO)
1- Datos No Agrupados o Aislados: se representan gráficamente usando el diagrama de dispersión.
Diagrama de Dispersión: es un gráfico construido sobre un sistema de ejes cartesianos octogonales, donde sobre el
eje horizontal (de las abscisas) se ubican los valores de la variable X y sobre el eje vertical (de las ordenadas) se
ubican los valores de la variable Y. Cada dato apareado se representa mediante un punto y deben indicarse los
valores de las medias de cada variable que dividen al diagrama en cuatro cuadrantes, que se enumeran en el
sentido contrario de las agujas del reloj.

En el grafico a) hay una correlación lineal positiva o directa no extrema, en el b) hay correlación lineal negativa o
inversa no extrema; c) y d) relaciones curvilíneas positiva o directa y negativa o inversa respectivamente y la última
no hay correlación
Otras relaciones:

Existen limitaciones con respecto al diagrama de dispersión:


a) a cada dato apareado le corresponde un punto en el plano, si existiera otro dato apareado igual se debería
marcar en ese mismo punto, pero no puede mostrarse puntos superpuestos en el gráfico, porque no me permitiría
visualizar claramente cuantas veces se repite cada uno.
b) si los límites se encuentran en distintos cuadrantes se toma la asociación de dichos límites.
2- Datos Agrupados: distribución de frecuencias a dos variables.

Análisis de correlación cuando los datos provienen de una muestra.

En el caso que el análisis de correlación se realice en una muestra (parte de la población), es necesario estimar 𝛒𝐗; con 𝐫𝐗;.
Las propiedades del Coeficiente de Correlación de Pearson 𝛒𝐗; son:
a) No tiene unidad de medida.
b) Se ve afectado por valores extremos, lo que hace necesario evaluar si correspondería eliminar esos valores extremos
atípicos y recalcular el valor del coeficiente.
c) Mide la relación lineal entre dos variables.
d) No se debe extrapolar más allá del rango de los valores de las variables X e Y
e) Su valor no implica causalidad

El estimador del Coeficiente de Correlación de Pearson varía entre −𝟏 ≤ 𝐫𝐗;𝐘 ≤ +𝟏


- Si 𝐫𝐗;𝐘 = −𝟏 se estima correlación lineal extrema negativa
- Si −𝟏 < 𝐫𝐗;𝐘 < 𝟎 se estima correlación lineal negativa no extrema
- Si 𝐫𝐗;𝐘 = +𝟏 se estima correlación lineal extrema positiva
- Si 𝟎 < 𝐫𝐗;𝐘 < +𝟏 se estima correlación lineal positiva no extrema
- Si 𝐫𝐗;𝐘 = 𝟎 se estima que no hay correlación lineal
- Si hay Independencia estadística 𝐫𝐗;𝐘 = 𝟎 , pero si 𝐫𝐗;𝐘 = 𝟎 no implica Independencia estadística, sino falta de correlación
lineal.

REGRESION LINEAL UNIVARIABLE.


REGRESION LINEAL SEGÚN GOOGLE: es un modelo matemático usado para aproximar la relación de dependencia entre una
variable dependiente “Y”, y las variables independientes “X”. EJEMPLO ALCAIDE: En una relación, una variable Y puede estar
explicada por varias variables independientes (X1, X2, X3, ……, Xk), por ejemplo, el Ingreso (Y), puede estar explicado por la
Antigüedad (X1); Nivel de Educación (X2); Capacidad (X3) y otras variables.

La regresión lineal simple o univariable tiene tres objetivos:


1) Describir la correlación entre dos variables, a través de una función matemática.
2) Establecer la bondad del modelo por medio de la partición de variabilidad
3) Hacer predicciones por medio de la función encontrada.

Se trabajará con el denominado Modelo de Regresión Lineal Simple: 𝐘𝐢 = 𝛂 + 𝛃𝐗𝐢 + 𝛆𝐢. Se denomina así, ya que 𝛂, 𝛃 𝐲 𝛆𝐢
están relacionados en el modelo en forma lineal y son los parámetros del modelo. 𝛂 representa el efecto fijo promedio de
las variables que se dejan de lado. 𝛃 representa cuanto cambia (aumenta o disminuye) la variable dependiente Y ante
cambios (aumenta o disminuye) en una unidad la variable independiente X. , comúnmente denominado “error”, representa
a las otras funciones que se dejan de lado (cuadrática, logarítmica, exponencial etc.), otras variables dejadas de lado (X2, X3,
……, Xk,) al tomar una sola variable independiente y errores de medición.
Análisis de regresión cuando los datos provienen de una población.

Si se trabaja con los datos de la población, el modelo es 𝐘𝐢 = 𝛂 + 𝛃𝐗𝐢 + 𝛆𝐢. Sobre el conjunto de datos apareados ( X𝐢 ; 𝐘𝐢) se
calcula una recta 𝐘𝐜𝐢 = 𝛂 + 𝛃𝐗𝐢. El método que se usa para el cálculo de los parámetros 𝛂 y 𝛃 es el de mínimos cuadrados
que consiste en minimizar la suma de los desvíos cuadráticos entre el valor de Y e Yci.

Es necesario medir la bondad del modelo elegido, para ello se calcula la Partición de la Variabilidad, que consiste en dividir
la variabilidad de la variable Y, en variabilidad explicada por el modelo de regresión y variabilidad no explicada por el
modelo de regresión.

Las tres propiedades del modelo son:


1) La suma de los valores observados de la variable Y es igual a la suma de los valores estimados de la variable Y a partir de
la recta obtenida. ∑𝐘𝐢 = ∑𝐘𝐜𝐢
2) La recta de regresión pasa por el punto en donde se interceptan (𝛍𝐗; 𝛍𝐘)
3) La suma de las diferencias entre el valor observado de Y, y el valor estimado de Y a partir de la recta de regresión es igual
a cero ∑𝛆𝐢 = 𝟎

La Partición de la Variabilidad (SSTP; SSRP y SSEP) está medida en las mismas unidades de medida de Y, pero se necesita un
coeficiente que no tenga unidad de medida, para ello se calcula el Coeficiente de Determinación ( p2 𝐗;𝐘 )
El Coeficiente de Determinación de Pearson varía entre 𝟎 ≤ p2 𝐗;𝐘 ≤ +𝟏.
- Si p2 𝐗; = +𝟏 el 100% de la variabilidad de la variable Y está explicado por la variable X a través del modelo de Regresión
Lineal Simple.
- Si 𝟎 < p2 𝐗; < +𝟏 el …% de la variabilidad de la variable Y está explicado por la variable X a través del modelo de Regresión
Lineal Simple.
- Si p2 𝐗; = 𝟎 el 100% de la variabilidad de la variable Y no está explicado por la variable X a través del modelo de Regresión
Lineal Simple.

Análisis de regresión cuando los datos provienen de una muestra

Si se trabaja con una parte de la población (muestra), es necesario estimar 𝛂 𝐲 𝛃 por medio de 𝐚 y 𝐛 El modelo 𝐘𝐢 = 𝛂 + 𝛃𝐗𝐢
+ 𝛆𝐢. La recta estimada
El 𝜺𝒊 =

Las tres consecuencias del modelo son:


1) La suma de los valores observados de la variable Y en la muestra es igual a la suma de los valores estimados de la variable
Y a partir de la recta obtenida ∑𝐘𝐢 = ∑𝐘̂𝐢
2) La recta de regresión pasa por el punto en donde se interceptan (𝐗̅; 𝒀̅)
3) La suma de las diferencias entre el valor observado de Y en la muestra y el valor estimado de Y a partir de la recta de
regresión de la misma es igual a cero ∑𝛆𝐢 = 0.

Una vez calculados los estimadores 𝐚 y 𝐛 es necesario estimar la bondad de ajuste del modelo, para ello se estima el
Coeficiente de Determinación r2 x,y que estima la proporción de variabilidad explicada de la variable Y por la variable X a
través de un modelo de regresión lineal simple, es decir r 2 x,y estima a 𝛒2 x,y

𝐒𝐒𝐓 = 𝐒𝐒𝐑 + 𝐒𝐒𝐄


𝐒𝐒𝐓 = 𝐕𝐚𝐫𝐢𝐚𝐜𝐢ó𝐧 𝐭𝐨𝐭𝐚𝐥 𝐨 𝐒𝐮𝐦𝐚 𝐝𝐞 𝐜𝐮𝐚𝐝𝐫𝐚𝐝𝐨𝐬 𝐭𝐨𝐭𝐚𝐥𝐞𝐬 = y2 – ny2
𝐒𝐒𝐑 = 𝐕𝐚𝐫𝐢𝐚𝐜𝐢ó𝐧 𝐞𝐱𝐩𝐥𝐢𝐜𝐚𝐝𝐚 𝐨 𝐒𝐮𝐦𝐚 𝐝𝐞 𝐜𝐮𝐚𝐝𝐫𝐚𝐝𝐨𝐬 𝐝𝐞𝐛𝐢𝐝𝐨𝐬 𝐚 𝐥𝐚 𝐫𝐞𝐠𝐫𝐞𝐬𝐢ó𝐧 = a y + b xy – ny2
𝐒𝐒𝐄 = 𝐕𝐚𝐫𝐢𝐚𝐜𝐢ó𝐧 𝐧𝐨 𝐞𝐱𝐩𝐥𝐢𝐜𝐚𝐝𝐚 𝐨 𝐒𝐮𝐦𝐚 𝐝𝐞 𝐜𝐮𝐚𝐝𝐫𝐚𝐝𝐨𝐬 𝐝𝐞𝐥 𝐞𝐫𝐫𝐨r= y2 – a y – b xy
1-r2 es lo no explicado. Representa la variabilidad no explicada por la regresión lineal.

Demostración: SST = SSR + SSE


SST SSR SSE 2 SSE SSE
= +
SST SST SST
 1 = r +
SST
 SST = 1 – r2

Explique cuando se dice que 2 variables están relacionadas y para que se hace un análisis de regresión.
Cuando tiene cambios sistemáticos, el aumento de una variable hace que la otra aumente, o el aumento en una variable
hace que disminuya la otra variable.
Se usa para hacer predicciones. El objetivo es desarrollar un modelo estadístico que permita ser utilizado para predecir los
valores de la variable dependiente basados en los valores de una variable independiente.

También podría gustarte