Está en la página 1de 11

Nombre.

- Tiberio Garza Vázquez

Matricula. - 870126517

Materia. - Análisis de datos

Unidad 1.- Análisis de regresión lineal y correlación

Maestro. - EDGAR SILVA REFULIO

Actividad 2 Proyecto Integrador Etapa 1

Fecha. - 10-marzo-2019
INTRODUCCION

Cualquier método estadístico que busque establecer una ecuación que permita estimar el
valor desconocido de una variable a partir del valor conocido de una o más variables, se
denomina análisis de regresión.

Los análisis de regresión y correlación mostrarán como determinar la naturaleza y la fuerza


de una relación entre dos variables.

El término regresión fue utilizado por primera vez por el genetista y estadístico inglés
Francis Galton (1822-1911) en 1877 Galton efectúo un estudio que demostró que la altura d
los hijos de padres altos tendía a

retroceder, o “regresar”, hacia la talla media de la población.

Regresión fue el nombre que le dio al proceso general de predecir una variable, (la talla de
los niños) a partir de otra (la talla de los padres).

El análisis de regresión se desarrolla una ecuación de estimación, es decir,

una fórmula matemática que relaciona las variables conocidas con las

desconocidas. Luego de obtener el patrón de dicha relación, se aplica el

análisis de correlación para determinar el grado de relación que hay entre las

variables.
1. Realiza una breve investigación sobre el análisis de regresión lineal y correlación.
Regresión lineal
Un análisis de regresión genera una ecuación para describir la relación estadística
entre uno o más predictores y la variable de respuesta y para predecir nuevas
observaciones.
La regresión lineal generalmente utiliza el método de estimación de mínimos
cuadrados ordinarios, del cual se obtiene la ecuación al minimizar la suma de los
residuos al cuadrado.

Diagramas de dispersión
Los Diagramas de Dispersión o Gráficos de Correlación permiten estudiar la
relación entre 2 variables. Dadas 2 variables X e Y, se dice que existe una
correlación entre ambas si cada vez que aumenta el valor de X aumenta
proporcionalmente el valor de Y (Correlación positiva) o si cada vez que
aumenta el valor de X disminuye en igual proporción el valor de Y (Correlación
negativa).

REGRESION LINEAL
Es la técnica matemático-estadística que analiza la dependencia entre dos o mas
variables.
Observa si las variaciones de una característica provocan variaciones en la magnitud
de otra característica.
Es la función matemática que, para un valor dado de una variable, da el valor esperado
de una característica, con la cual esta ligada.
Coeficiente de determinación (R cuadrado)
El coeficiente de determinación, se define como la proporción de la varianza total de
la variable explicada por la regresión. El coeficiente de determinación, también
llamado R cuadrado, refleja la bondad del ajuste de un modelo a la variable que
pretender explicar.
Es importante saber que el resultado del coeficiente de determinación oscila entre 0
y 1. Cuanto más cerca de 1 se sitúe su valor, mayor será el ajuste del modelo a la
variable que estamos intentando explicar. De forma inversa, cuanto más cerca de cero,
menos ajustado estará el modelo y, por tanto, menos fiable será.

Coeficiente de Correlación
La correlación, también conocida como coeficiente de correlación lineal (de Pearson),
es una medida de regresión que pretende cuantificar el grado de variación conjunta
entre dos variables.
Por tanto, es una medida estadística que cuantifica la dependencia lineal entre dos
variables, es decir, si se representan en un diagrama de dispersión los valores que
toman dos variables, el coeficiente de correlación lineal señalará lo bien o lo mal que
el conjunto de puntos representados se aproxima a una recta.
De una forma menos coloquial, la podemos definir como el número que mide el grado
de intensidad y el sentido de la relación entre dos variables.

Error estándar
El error estándar es una estimación de cuánto varía el valor de una estadística de
prueba de muestra a muestra. Es una medida de la incertidumbre de la estadística de
prueba. El error estándar podría abreviarse como error est.
El error estándar se calcula tomando la desviación estándar de la distribución de
muestreo para la estadística de prueba. La distribución de muestreo es la distribución
de todas las muestras posibles.
EJEMPLO
EL siguiente ejemplo es un pronóstico de producción haciendo uso de la información
histórica de piezas de un producto determinado durante los últimos 12 meses (1 año)
cuyos datos se observan en la siguiente tabla

Datos
n=12
X: meses
Y: producción

meses producción
x y
1 600
2 1,550
3 1,500
4 1,500
5 2,400
6 3,100
7 2,600
8 2,900
9 3,800
10 4,500
11 4,000
12 4,900

Los mínimos cuadrados los obtenemos con la siguiente ecuación donde β0 y β1 son
los parámetros de intercepto y pendiente, respectivamente:
Los valores de estos parámetros los obtenemos con ayuda de Excel.

meses producción
x y xy x² y²
1 600 600 1 360000
2 1,550 3100 4 2402500
3 1,500 4500 9 2250000
4 1,500 6000 16 2250000
5 2,400 12000 25 5760000
6 3,100 18600 36 9610000
7 2,600 18200 49 6760000
8 2,900 23200 64 8410000
9 3,800 34200 81 14440000
10 4,500 45000 100 20250000
11 4,000 44000 121 16000000
12 4,900 58800 144 24010000
Promedio 6.5 2779.17
Suma 268200 650
n 12

Ya teniendo los parámetros de la regresión lineal se puede desarrollar un pronóstico


de demanda evaluando en la ecuación de la regresión los distintos valores de la
variable independiente(x).
Por ejemplo, en el primer mes del año el pronóstico es:
Y(1) =441,71+359,61*1=801,3

meses producción
x y xy x² y² y
1 600 600 1 360000 801,3
2 1,550 3100 4 2402500 1,160,9
3 1,500 4500 9 2250000 1,520,5
4 1,500 6000 16 2250000 1,880,2
5 2,400 12000 25 5760000 2,239,8
6 3,100 18600 36 9610000 2,599,4
7 2,600 18200 49 6760000 2,959,0
8 2,900 23200 64 8410000 3,318,6
9 3,800 34200 81 14440000 3,678,2
10 4,500 45000 100 20250000 4,037,4
11 4,000 44000 121 16000000 4,397,4
12 4,900 58800 144 24010000 4,757,0
Promedio 6.5 2779.17
Suma 268200 650

n 12
β0 441,71
β1 359,61
APLICACIONES
Dos variables que tienen una correlación importante y más cercana a 1 que a 0 son la
altura y el peso de un grupo de personas, puesto que, por norma general, cuanto más
mide una persona más va a pesar.
Dos variables que en principio no tienen que tener correlación son por ejemplo la
edad de un grupo de personas y la suma de las cifras de sus números de teléfono,
porque esa suma es un valor completamente aleatorio.
En cambio, tenemos que tener cuidado con falsos resultados, como, por ejemplo, la
talla del zapato derecho y la del izquierdo. Está muy claro que el coeficiente de
correlación va a ser extremadamente próximo a 1, pero es más una casualidad
genética que una causalidad provocada por alguna de las dos variables a medir.
Por eso, tenemos que tener cuidado, y elegir variables con relación de causalidad, es
decir, que una influya sobre la otra.

En primer lugar, definimos dos columnas con datos. En este caso altura y peso de los
hombres de una oficina.
Ya solo basta con interpretar ese resultado. En este caso, vemos que el resultado es
un valor muy próximo a 0.9, por lo tanto, existe una correlación bastante fuerte entre
ambas variables.

Referencias:
Rodríguez, J. y Pierdant, A. (2014). Estadística aplicada II: estadística en
administración para la toma de decisiones.CD de México, México: Grupo editorial
Patria. Recuperado de
http://site.ebrary.com/lib/vallemexicosp/detail.action?docID=11013295&p00=
estadistica+aplicada+ii Capítulo 13. Análisis de correlación y regresión.
https://www.ingenieriaindustrialonline.com/