Tema 8 - Regresión y Correlación Simples y Multiples

Universidad Autónoma De Santo Domingo
(UASD)
Nombres
Ambar Lisbeth
Apellidos
Rodríguez Tavarez
Matricula
100439585
Asignatura
Estadística Industrial II (Est-123)
Sección
03
Practica No. 13
Regresión y correlación simples y múltiples
Maestro
Joel A. Patiño De Los Santos
Santo Domingo, Rep. Dom.

Distrito Nacional
Título
Regresión y correlación simples y múltiples
Autoría
Ambar Lisbeth Rodríguez Tavarez
Estudiante de Ingeniería Industrial de la Universidad
Autónoma de Santo Domingo (UASD)
Matrícula 100439585
Análisis de regresión y correlación simple
Regresión Lineal
En estadística la regresión lineal o ajuste lineal es un modelo matemático
usado para aproximar la relación de dependencia entre una variable
dependiente Y, las variables independientes Xi y un término aleatorio ε. Este
modelo puede ser expresado como:
Donde:
Correlación Lineal
La correlación, también conocida como coeficiente de correlación lineal (de
Pearson), es una medida de regresión que pretende cuantificar el grado de
variación conjunta entre dos variables.
Por tanto, es una medida estadística que cuantifica la dependencia lineal
entre dos variables, es decir, si se representan en un diagrama de dispersión
los valores que toman dos variables, el coeficiente de correlación lineal
señalará lo bien o lo mal que el conjunto de puntos representados se
aproxima a una recta.
De una forma menos coloquial, la podemos definir como el número que mide
el grado de intensidad y el sentido de la relación entre dos variables.
Siendo:
 Cov (x;y): la covarianza entre el valor «x» e «y».
 σ(x): desviación típica de «x».
 σ(y): desviación típica de «y».
Valores que puede tomar la correlación
ρ = -1: Correlación perfecta negativa
ρ = 0: No existe correlación
ρ = +1: Correlación perfecta positiva
Hablamos de correlación positiva si siempre que el valor «x» sube, el valor
«y» sube, y además con la misma intensidad (+1).
En el caso opuesto, si siempre que el valor «x» sube, y el valor «y» baja, y
además con la misma intensidad, entonces estamos hablando de correlación
negativa (-1).
Diagrama de dispersión
Un diagrama de dispersión o gráfica de dispersión o gráfico de burbujas es

un tipo de diagrama matemático que utiliza las coordenadas cartesianas para
mostrar los valores de dos variables para un conjunto de datos.
Se emplea cuando una o varias variables está bajo el control del
experimentador. Si existe un parámetro que se incrementa o disminuye de
forma sistemática por el experimentador, se le denomina parámetro de
control o variable independiente y habitualmente se representa a lo largo del
eje horizontal (eje de las abscisas). La variable medida o dependiente
usualmente se representa a lo largo del eje vertical (eje de las ordenadas). Si
no existe una variable dependiente, cualquier variable se puede representar
en cada eje y el diagrama de dispersión mostrará el grado de correlación (no
causalidad) entre las dos variables.
Los datos se muestran como un conjunto de puntos, cada uno con el valor
de una variable que determina la posición en el eje horizontal (x) y el valor
de la otra variable determinado por la posición en el eje vertical (y).
¿Para qué se usa un diagrama de dispersión?
El diagrama de dispersión permite estudiar las relaciones entre dos conjuntos
asociados de datos que aparecen en pares (por ejemplo, (x,y), uno de cada
conjunto). El diagrama muestra estos pares como una nube de puntos.
Las relaciones entre los conjuntos asociados de datos se infieren a partir de
la forma de las nubes.
Una relación positiva entre x y y significa que los valores crecientes de x
están asociados con los valores crecientes de y.
Una relación negativa significa que los valores crecientes de x están
asociados con los valores decrecientes de y.
Procedimiento para hacer un diagrama de dispersión
 Recolectar datos pareados (x,y) a partir de dos conjuntos asociados de
datos cuya relación va a ser objeto de estudio. Es conveniente contar
con 30 pares de datos aproximadamente.
 Rotular el eje x y el eje y.
 Encontrar los valores mínimo y máximo, tanto para x como para y y
utilizar estos valores para elaborar la escala de los ejes horizontal (x)
y vertical (y). Ambos deben tener aproximadamente la misma
longitud.
 Trazar los datos pareados (x,y). Cuando haya dos pares de datos que
tengan los mismos valores, dibujar círculos concéntricos al punto
trazado o trazar el segundo punto a una corta distancia.
 Examinar la forma de la nube de puntos para descubrir los tipos y las
fuerzas de las relaciones.
Modelo de regresión simple
En el Modelo de Regresión es muy importante identificar cuál es la variable
dependiente y cuál es la variable independiente.
En el Modelo de Regresión Simple se establece que Y es una función de sólo
una variable independiente, razón por la cual se le denomina también
Regresión Divariada porque sólo hay dos variables, una dependiente y otra
independiente y se representa así:
Y = f (X)
"Y está regresando por X"
La variable dependiente es la variable que se desea explicar, predecir.

También se le llama REGRESANDO o VARIABLE DE RESPUESTA.
La variable Independiente X se le denomina VARIABLE EXPLICATIVA o
REGRESOR y se le utiliza para EXPLICAR Y.
El modelo de regresión simple tiene la siguiente forma:
Y = A + BX + u
Y= variable dependiente o endógena.
X= variable independiente o explicativa.
A, B = parámetros fijos y desconocidos.
u= termino de error que recoge todos los demás factores que afectan Y pero
que no están incluidos en el modelo. También puede captar los errores de
estimación de la variable dependiente. No observable.
Luego, el objetivo del modelo de regresión será estimar los valores de A y B
a partir de una muestra.
El parámetro B debería reflejar cuál es el impacto de un cambio de X sobre
la variable Y, cuando el resto de las variables explicativas se mantienen
constantes (ceteris paribus).
El parámetro A en tanto, no afecta en nada la relación entre Y y X, sólo se
trata de una normalización en donde se supone que el valor promedio de u
será cero.
Estimación de los parámetros de la ecuación
Consiste en determinar los valores de "a" y "b " a partir de la muestra, es
decir, encontrar los valores de a y b con los datos observados de la muestra.
El método de estimación es el de Mínimos Cuadrados, mediante el cual se
obtiene:
Luego, la ecuación de regresión muestral estimada es
Que se interpreta como:

A: es el estimador de a
Es el valor estimado de la variable Y cuando la variable X = 0
B: es el estimador de b, es el coeficiente de regresión
Está expresado en las mismas unidades de Y por cada unidad de X. Indica el

número de unidades en que varía Y cuando se produce un cambio, en una
unidad, en X (pendiente de la recta de regresión).
Un valor negativo de b sería interpretado como la magnitud del decremento
en Y por cada unidad de aumento en X.
El método de los mínimos cuadrados

Mínimos cuadrados es una técnica de análisis numérico enmarcada dentro
de la optimización matemática, en la que, dados un conjunto de pares
ordenados —variable independiente, variable dependiente— y una familia
de funciones, se intenta encontrar la función continua, dentro de dicha
familia, que mejor se aproxime a los datos (un "mejor ajuste"), de acuerdo
con el criterio de mínimo error cuadrático.
Análisis de correlación
El análisis de correlación consiste en un procedimiento estadístico para
determinar si dos variables están relacionadas o no. El resultado del análisis
es un coeficiente de correlación que puede tomar valores entre -1 y +1. El
signo indica el tipo de correlación entre las dos variables. Un signo positivo
indica que existe una relación positiva entre las dos variables; es decir,
cuando la magnitud de una incrementa, la otra también. Un signo negativo
indica que existe una relación negativa entre las dos variables. Mientras los
valores de una incrementan, los de la segunda variable disminuyen. Si dos
variables son independientes, el coeficiente de correlación es de magnitud
cero. La fuerza de la relación lineal incrementa a medida que el coeficiente
de correlación se aproxima a -1 o a +1.
Procedimiento
La fórmula general para calcular el coeficiente de correlación entre dos
variables es:
El coeficiente de correlación es el resultado de dividir la covarianza entre las

variables X y Y entre la raíz cuadrada del producto de la varianza de X y la
de Y.
1. Calcular la covarianza entre la variable X y la variable Y (entre las dos
columnas de la matriz) de acuerdo a la siguiente fórmula:
Se calcula la media de todos los valores de X y de Y Se realiza la

sumatoria del producto de las diferencias entre cada observación de cada
variable y su media correspondiente. La sumatoria calculada
anteriormente se divide entre el número total de observaciones menos 1.
2. Calcular las varianza de la variable X y la varianza de la variable Y y
obtener la raíz cuadrada de cada una:
Para cada variable se calcula la desviación estándar y se multiplican.

3. Se divide la covarianza entre el producto de las desviaciones estándar.
Cálculo e interpretación de los coeficientes de

determinación y no determinación
Coeficientes de determinación
El coeficiente de determinación, se define como la proporción de la varianza
total de la variable explicada por la regresión. El coeficiente de
determinación, también llamado R cuadrado, refleja la bondad del ajuste de
un modelo a la variable que pretender explicar.
Es importante saber que el resultado del coeficiente de determinación oscila
entre 0 y 1. Cuanto más cerca de 1 se sitúe su valor, mayor será el ajuste del
modelo a la variable que estamos intentando explicar. De forma inversa,
cuanto más cerca de cero, menos ajustado estará el modelo y, por tanto,
menos fiable será.
Analizando el numerador:
Podrán caer en la cuenta de que es la expresión de la varianza, pero con dos
diferencias fundamentales.
La primera diferencia es que la Y lleva un circunflejo o, lo que los profesores
llaman de forma didáctica, “sombrerito”. Ese sombrerito lo que detalla es
que esa Y es la estimación de un modelo sobre lo que según las variables
explicativas vale Y, pero no es el valor real de Y, sino una estimación de Y.
En segundo lugar, faltaría dividir entre T. Que, en otros casos, se nota como
N o número de observaciones. Sin embargo, dado que la fórmula del
denominador también la llevaría, eliminamos los denominadores (parte de
abajo) de ambas fórmulas para simplificar la expresión. De esta manera es
más fácil trabajar con ella.
A continuación, vamos a realizar el mismo análisis con la parte del

denominador (parte de abajo).
En este caso, la única diferencia existente respecto a la fórmula original de

la varianza es la ausencia de su denominador. Es decir, no dividimos entre
T o N. Hecho, que ya hemos aclarado anteriormente. De manera que una
vez explicadas las dos partes de la expresión genérica del R Cuadrado o
coeficiente de determinación vamos a ver un ejemplo.
Interpretación del coeficiente de determinación

Supongamos que queremos explicar la cantidad de goles que anota Cristiano
Ronaldo según la cantidad de partidos que juega. Suponemos que, a mayor
cantidad de partidos jugados, más goles meterá. Los datos pertenecen a las
últimas 8 temporadas. De tal manera que tras extraer los datos el modelo
arroja la siguiente estimación:
Cómo podemos ver en el gráfico, la relación es positiva. A más partidos

jugados, como es lógico, más goles anota en la temporada. El ajuste, según
el cálculo del R cuadrado, es de 0.835. Lo cual quiere decir que es un modelo
cuyas estimaciones se ajustan bastante bien a la variable real. Aunque
técnicamente no sería correcto, podríamos decir algo así como que el modelo
explica en un 83.5% a la variable real.
La prueba de significación del coeficiente de correlación
Ejemplo
El director de recursos humanos de Ventas S.A. está entrevistando y
seleccionando nuevos vendedores. Él ha diseñado una prueba que le ayudará
a realizar la mejor selección posible para la fuerza de ventas. Con el fin de
probar la validez de la prueba para predecir las ventas semanales, él eligió
vendedores experimentados y aplicó la prueba a cada uno.
La calificación de cada vendedor fue entonces pareada con sus ventas
semanales:
Calcular el coeficiente de correlación para el ejemplo que involucre las

ventas semanales y las calificaciones de los vendedores.
La práctica usual es redondear r a la centésima más próxima, en este
problema esto es 0.88, indicando una muy fuerte relación entre las
calificaciones y las ventas semanales de los vendedores. Esto hace parecer
que la prueba del director de recursos humanos tiene potencial para predecir
las ventas semanales.
Cálculo e interpretación de los coeficientes de

determinación y no determinación múltiples
Coeficiente de determinación múltiple
El coeficiente de determinación o coeficiente de correlación múltiple
al cuadrado, es una medida descriptiva que sirve para evaluar la bondad de
ajuste del modelo a lo datos, ya que mide la capacidad predictiva del modelo
ajustado. Se define como el cociente entre la variabilidad explicada por la
regresión y la variabilidad total, esto es:
Algunas otras formas de presentar el coeficiente de determinación son:

Algunas de las equivalencias anteriores pueden verse a partir de la
demostración de .
El coeficiente de determinación múltiple, es una generalización del valor

de definida en la lección de R cuadrado definida para una línea recta.
Utilidad
Se utiliza para medir la reducción en la variabilidad total de debido a la

inclusión de las variables regresoras . Un valor grande de no
necesariamente implica que el modelo es bueno. Adicionar variables al
modelo siempre incrementa el valor de , ya sea que las variables
contribuyan o no al modelo. Es posible que modelos con valor de grande
sean malos en la predicción o estimación.
Observaciones
1. mide la correlación entre y y .
2. Si existe error puro, es imposible que alcance el valor de 1. La
única manera en que podría dar , sería que se tuviera un
perfecto ajuste de los datos en el cual , lo cual es un improbable
evento en la práctica.
3. Si , esto es si (suponiendo que el
modelo ha sido ajustado), entonces .
4. es una medida de la utilidad de los términos en el modelo diferentes
de
Ejemplo
Para los datos del ejemplo se tiene que
Lo cual significa que el de la variabilidad total es explicado por el

modelo. Ahora el valor de es

Tema 8 - Regresión y Correlación Simples y Multiples

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 8 - Regresión y Correlación Simples y Multiples

Cargado por

Copyright:

Formatos disponibles

Universidad Autónoma De Santo Domingo

Santo Domingo, Rep. Dom.

Regresión y correlación simples y múltiples

Un diagrama de dispersión o gráfica de dispersión o gráfico de burbujas es

La variable dependiente es la variable que se desea explicar, predecir.

Luego, la ecuación de regresión muestral estimada es

Que se interpreta como:

Está expresado en las mismas unidades de Y por cada unidad de X. Indica el

El método de los mínimos cuadrados

El coeficiente de correlación es el resultado de dividir la covarianza entre las

Se calcula la media de todos los valores de X y de Y Se realiza la

Para cada variable se calcula la desviación estándar y se multiplican.

Cálculo e interpretación de los coeficientes de

A continuación, vamos a realizar el mismo análisis con la parte del

En este caso, la única diferencia existente respecto a la fórmula original de

Interpretación del coeficiente de determinación

Cómo podemos ver en el gráfico, la relación es positiva. A más partidos

Calcular el coeficiente de correlación para el ejemplo que involucre las

Cálculo e interpretación de los coeficientes de

Algunas otras formas de presentar el coeficiente de determinación son:

El coeficiente de determinación múltiple, es una generalización del valor

Se utiliza para medir la reducción en la variabilidad total de debido a la

Para los datos del ejemplo se tiene que

Lo cual significa que el de la variabilidad total es explicado por el

También podría gustarte