Está en la página 1de 21

Prof.

Gustavo Rueda ESTADÍSTICA II

REGRESIÓN LINEAL Y CORRELACIÓN

La regresión lineal es una técnica de modelado estadístico que se emplea para describir
una variable de respuesta continua como una función de una o varias variables
predictivas.
En este curso estudiaremos la regresión lineal simple, es decir con 1 sola variable
predictora.
La regresión lineal permite predecir el comportamiento de una variable (dependiente) a
partir de otra (independiente).

HISTORIA

Si bien la primera descripción documentada sobre un método de regresión lineal fue


publicada por Legendré, en 1805, empleando el método de mínimos cuadrados con el
que abordaba una versión del teorema de Gauss-Markov.

Fue Sir Francis Galton, médico y primo de Charles Darwin, quien introdujo el término
regresión, en su artículo “Regression towards mediocrity in hereditary stature”,
publicado en 1886 en el Journal of the Anthropological Institute y que menciona de
nuevo en su libro Natural Inheritance, de 1889.
Prof. Gustavo Rueda ESTADÍSTICA II

REGRESIÓN LINEAL
Para el análisis de regresión es crucial determinar cuál es la variable dependiente y cuál
la independiente, esta determinación depende de la lógica común y de lo que el
estadístico trate de investigar; por ejemplo, supongamos que las ventas de una empresa
dependen (al menos en parte) de la cantidad de publicidad que ésta hace, las ventas se
consideran la variable dependiente y es función de la variable independiente, que es la
publicidad.
La variable dependiente se identifica con la letra Y, también se puede llamar variable
explicada.
La variable independiente se identifica con la letra X, también se llama regresor o
variable explicativa.
La regresión y la correlación son conceptos diferentes, pero que guardan una íntima
relación
Prof. Gustavo Rueda ESTADÍSTICA II

ANÁLISIS DE REGRESIÓN

La regresión es una expresión cuantitativa que describe la naturaleza básica de la relación


entre las variables dependiente e independiente(s), su objetivo es estimar el valor de una
variable (dependiente) dado que el valor de una variable asociada (independiente) es
conocido.
El modelo determinará:
1. Si las variables tienden a desplazarse en la misma dirección.
2. Si las variables tienden a desplazarse en sentidos opuestos.
3. La cantidad en que Y (variable dependiente) cambiará cuando la(s) variable(s)
independiente(s) varíe en una unidad.
Prof. Gustavo Rueda ESTADÍSTICA II

CLASIFICACIÓN

El análisis de regresión se clasifica generalmente en dos tipos, simple y múltiple:

- La simple establece que la variable dependiente Y es función de una sola variable


independiente (a veces se le denomina análisis bivariante porque sólo hay implicadas dos
variables).

- La múltiple abarca dos o más variables independientes, por lo que la ecuación de


regresión que describe de la mejor manera posible la relación entre las variables resulta
curvilínea.

PASOS PARA EL AJUSTE DE CURVAS

1) Para hallar una ecuación que relacione las variables, el primer paso es recoger datos
que muestren los valores correspondientes de las variables bajo consideración.
2) Realizar un diagrama de dispersión, que es la representación gráfica de las
observaciones pareadas de X e Y (lo habitual es colocar la variable dependiente en el eje
vertical y la independiente en el horizontal), pudiéndose presentar cualquiera de las
situaciones de la lámina siguiente.
3) Realizar el ajuste según la orientación que proporcione el diagrama.
Prof. Gustavo Rueda ESTADÍSTICA II

POSIBLES SITUACIONES:
Prof. Gustavo Rueda ESTADÍSTICA II

Las medidas descriptivas de asociación lineal entre dos variables:

Covarianza
Correlación Lineal

LA COVARIANZA

La covarianza explica que tan relacionadas se encuentran dos variables entre sí.

La covarianza es una medida estadística de la varianza de dos variables aleatorias que


son observadas o medidas en el mismo período promedio de tiempo.

Si se tiene muestras
pequeñas (n ≤ 10), se
debe dividir por (n-1)
en vez de por n.
Prof. Gustavo Rueda ESTADÍSTICA II

LA COVARIANZA, INTERPRETACIÓN:

Mide el grado de asociación de dos variables.

No establece relación causa efecto entre las variables.

Depende de las unidades de medidas de las variables.

Puede ser positiva o negativa a diferencia de la varianza que siempre es positiva.

Si el valor de Sxy es positivo indica una relación lineal positiva entre x e y (al aumentar el
valor de x aumenta el de y).

Si el valor de Sxy es negativo indica una relación lineal negativa entre x e y (al aumentar
el valor de x disminuye el de y).

Si el valor de Sxy es cercano o igual a cero se dice que no existe relación lineal entre x e y.
Prof. Gustavo Rueda ESTADÍSTICA II

EJEMPLO 1 (CÁLCULO DE COVARIANZA):

Un investigador realiza un estudio para averiguar la relación entre las notas de


matemáticas y música obtenidas por 10 alumnos de 1er grado. Los datos se presentan en
la siguiente tabla y se pide:
1. Construir el diagrama de dispersión de los datos
2. Determinar la covarianza de las dos notas
3. Comentar los resultados
Prof. Gustavo Rueda ESTADÍSTICA II

La Covarianza indica que hay una relación lineal positiva entre las notas de
música y matemáticas.
Prof. Gustavo Rueda ESTADÍSTICA II

IMPORTANTE:

La Covarianza se ve afectada por las unidades de medida, por ejemplo, si interesa la relación
entre el peso y la altura de varios alumnos. El resultado será distinto, si se usa kg y metros o
libras y pies, en magnitud, pero no en el sentido.

La Covarianza no tiene valores máximos o mínimos que puedan servir de referencia.

Por ello se utiliza el Coeficiente de Correlación que no está afectado por ninguna unidad de
medida.

EJEMPLO 2 (CÁLCULO DE COVARIANZA):

Un investigador realiza un estudio para averiguar la relación entre el peso (Kg) y la altura
(metros) de 10 sujetos. Los datos se presentan en la siguiente tabla y se pide:

1. Construir el diagrama de dispersión de los datos.


2. Determinar la covarianza de las dos variables.
3. Comentar los resultados.
Prof. Gustavo Rueda ESTADÍSTICA II
Prof. Gustavo Rueda ESTADÍSTICA II

La Covarianza indica que hay una relación


lineal positiva entre el peso y la altura.
Prof. Gustavo Rueda ESTADÍSTICA II

CORRELACIÓN:

Cuando la relación es perfecta la correlación es máxima y podemos predecir con exactitud


una variable a partir de otra.
Cuando la relación es inexistente , la correlación alcanza su mínimo y el hecho de conocer
el valor de una de las variables no ayuda a predecir el valor de la otra.

COEFICIENTE DE CORRELACIÓN LINEAL:

Es la medida estadística del grado de relación o de asociación entre dos variables.

La correlación se expresa a través de un número o medida que resume la magnitud y


dirección de la relación entre dos variables.

Las variables que son correlacionadas pueden ser dos variables cuantitativas.

COEFICIENTE DE CORRELACIÓN DE PEARSON:

Describe la intensidad de la relación entre dos variables. Se denota con la letra, r y puede
tomar cualquier valor entre -1,00 (correlación negativa perfecta) y 1,00 (correlación
positiva perfecta). El coeficiente de correlación más común es el Coeficiente de
Correlación de Pearson (r).
Prof. Gustavo Rueda ESTADÍSTICA II

CORRELACIÓN:

A continuación, 6 gráficas de pares de variables X y Y con su coeficiente de


correlación.
Prof. Gustavo Rueda ESTADÍSTICA II
Prof. Gustavo Rueda ESTADÍSTICA II

COEFICIENTE DE CORRELACIÓN DE PEARSON:

El coeficiente de correlación de Pearson, será r = 0, cuando las variables X e Y no tienen


relación lineal.

¿Cuál será la correlación entre el ingreso anual de una familia y el número de hijos
menores de 15 años?
¿Entre la cantidad vendida y su precio?
¿Entre el promedio de notas de bachillerato y el promedio de notas en la universidad?
Prof. Gustavo Rueda ESTADÍSTICA II

EJEMPLO 3:

Calcular el coeficiente de correlación lineal de Peason. Llamadas y Copiadoras Vendidas


por 10 representantes. Los datos en la tabla.
Prof. Gustavo Rueda ESTADÍSTICA II

r = 0,759 … correlación positiva y alta … una conclusión


razonable es que un incremento en el número de
llamadas pudiera llevar a un incremento en la misma
proporción de los productos vendidos.
Prof. Gustavo Rueda ESTADÍSTICA II

CORRELACIÓN:

La correlación se centra en la dirección y el grado de la relación.

La dirección de la relación se refiere a si la misma es positiva o negativa.


El grado de la relación puede variar entre inexistente y perfecto.
Prof. Gustavo Rueda ESTADÍSTICA II

EJEMPLO 4:

Los directivos de un centro comercial saben que en función de la distancia, en Km, a la que
se sitúe de un núcleo de población, cuantos cientos de clientes acudirán al mismo.
Calcular el coeficiente de correlación lineal.
Prof. Gustavo Rueda ESTADÍSTICA II

Las variables tienen una correlación negativa


intensa o casi perfecta.

También podría gustarte