Está en la página 1de 20

Instituto Tecnológico Superior de Felipe Carrillo Puerto

Tecnológico
“2020, Año de LeonaNacional
Vicario, Benemérita de
MadreMéxico
de la Patria”
“2020, Año del 50 Aniversario de la Fundación de Cancún”

Campus Felipe Carrillo Puerto


Ingeniería en Gestión Empresarial
Asignatura:
Estadística inferencial II
Unidad: 1. Regresión lineal simple y correlación

Evidencia de aprendizaje: investigación

SEMESTRE AGOSTO-DICIEMBRE 2020


Profesor
Ing. Doris Surisaday Peraza Rojas
Alumnos:
Saúl Adriel Cauich Tun
Jesús Gabriel Che Xool
Grupo IGE-5E

Felipe Carrillo Puerto, Quintana Roo a 30 de septiembre de 2020

Carretera Vigía Chico S/N Col. Centro, C.P. 77200


Felipe Carrilo Puerto, Quintana Roo
Tels. (983) 267 1070 y (983) 834 00 51
www.tecnm.mx
www.itscarrillopuerto.edu.mx
Instituto Tecnológico Superior de Felipe Carrillo Puerto
“2020, Año de Leona Vicario, Benemérita Madre de la Patria” 2
INDICE
“2020, Año del 50 Aniversario de la Fundación de Cancún”
Introducción.....................................................................................................................................3

1. Regresión lineal simple y correlación.........................................................................................4

1.1. Modelo de regresión simple..................................................................................................4

1.2. Supuestos................................................................................................................................5

1.3. Determinación de la ecuación de regresión.........................................................................5

1.4. Medidas de Variación...........................................................................................................8

1.5. Cálculo de los coeficientes de relación y determinación.......................................................10

1.6. Análisis Residual.....................................................................................................................12

1.7. Inferencias acerca de la pendiente.........................................................................................13

1.8. Aplicaciones.............................................................................................................................15

Conclusión......................................................................................................................................19

Bibliografía.....................................................................................................................................20

Carretera Vigía Chico S/N Col. Centro, C.P. 77200


Felipe Carrilo Puerto, Quintana Roo
Tels. (983) 267 1070 y (983) 834 00 51
www.tecnm.mx
www.itscarrillopuerto.edu.mx
Introducción
A continuación, se presenta la investigación de la primera unidad de estadistica inferencial
II teniendo en cuenta los conocimientos del semestre pasado ya que se llevó solamente
estadistica inferencial el cual fue de gran ayuda pues de esta manera se aprendió mucho
acerca de esta asignatura y así poder facilitar los temas que se verían en estadistica
inferencial II gracias a los conocimientos otorgados ahora será más fácil llevar acabo está
aplicando todo lo aprendido y se pondrá en práctica todo lo visto en el semestre pasado
ahora como nuevo reto toca saber todo acerca de esta ya que conlleva nuevos retos, nuevos
temas y ejercicios los cuales nos serán de gran ayuda en el trascurso de la unidad 1 con el
título de Regresión lineal simple y correlación el cual son métodos estadísticos que
estudian la relación lineal que existente entre dos variables , En el caso de la regresión
lineal, el modelo varía según qué variable se considere dependiente de la otra (lo cual no
implica causa-efecto). Esta unidad consta de 8 subtemas los cuales son 1.1 Modelo de
regresión simple. 1.2 Supuestos. 1.3 Determinación de la ecuación de regresión. 1.4
Medidas de variación. 1.5 Cálculo de los coeficientes de correlación y de determinación.
1.6 Análisis residual. 1.7 Inferencias acerca de la pendiente. 1.8 Aplicaciones todos estos
subtemas nos ayudaran a seguir avanzando con las demás unidades gracias a la información
que se obtiene en cada uno de los subtemas.
1. Regresión lineal simple y correlación.
1.1. Modelo de regresión simple.
Un modelo de regresión es un modelo matemático que busca determinar la relación entre
una variable dependiente (Y), con respecto a otras variables, llamadas explicativas o
independientes (X).

El modelo de regresión se suele utilizar en las Ciencias Sociales con el fin de determinar si
existe, o no, relación causal entre una variable dependiente (Y) y un conjunto de otras
variables explicativas (X). Asimismo, el modelo busca determinar cuál será el impacto
sobre la variable Y ante un cambio en las variables explicativas (X). (Roldán, 2019)

Así, por ejemplo, un economista podría estar interesado en determinar la relación entre el
ingreso de los trabajadores y su nivel de educación. Para esto, podría llevar acabo un
modelo de regresión en el que la variable independiente (Y), será el ingreso del trabajador.
En cuanto a las variables explicativas (X), se deben incluir todas aquellas que podrían
explicar el ingreso entre las que se encuentran por supuesto la educación, la experiencia, la
educación de los padres, etc.

Forma del modelo de regresión

El modelo de regresión simple tiene la siguiente forma:

Y = A + BX + u

Y= variable dependiente o endógena

X= variable independiente o explicativa

A, B = parámetros fijos y desconocidos

u= termino de error que recoge todos los demás factores que afectan a Y, pero que no están
incluidos en el modelo. También puede captar los errores de estimación de la variable
dependiente. No observable.

Luego, el objetivo del modelo de regresión será estimar los valores de A y B a partir de una
muestra.
Significado de las variables

El parámetro B debería reflejar cuál es el impacto de un cambio de X sobre la variable Y,


cuando el resto de las variables explicativas se mantienen constantes (ceteris paribus).

El parámetro A, en tanto, no afecta en nada la relación entre Y y X. Por lo que sólo se trata
de una normalización en la que se supone que el valor promedio de u será cero.

1.2. Supuestos.
Los supuestos del modelo de regresión lineal Hasta ahora explicamos cómo aproximar el
modelo de regresión lineal Y X =+ + αβ ε, por la recta ˆY a bX = +. Para garantizar que
esta aproximación es válida, se deben cumplir las siguientes condiciones:

1. Independencia: los residuos deben ser independientes entre sí.

2. Homocedasticidad (igualdad de varianzas): para cada valor de la variable X, la varianza

de los residuos debe ser la misma (es decir, que el ajuste es igual de preciso
independientemente de los valores que tome X).

3. Normalidad: para cada valor de la variable X, los residuos ei tienen distribución normal
de media cero. Por lo tanto, para ver si un modelo de regresión lineal ajustado es válido,
debemos comprobar que se cumplen estas tres condiciones sobre los residuos. (Carrollo
2012)

1.3. Determinación de la ecuación de regresión.


La ecuación estimada de regresión (lineal simple) Los parámetros, β0 y β1, del modelo se
estiman por los estadísticos muéstrales b0 y b1, los cuales se calculan usando el método de
mínimos cuadrados. Ecuación Estimada de regresión lineal simple: ŷ = b0 + b1 x En la
regresión lineal simple, la gráfica de la ecuación de regresión se llama línea de regresión
estimada. ŷ es el valor estimado de y para un valor específico de x.

El método de mínimos cuadrados consiste en hallar los valores b0 y b1 que hacen mínima
la suma de los cuadrados de las desviaciones entre los valores observados de la variable
dependiente, yi, y los valores estimados de la misma, ŷi. Es decir se minimiza la suma: Σ(yi
– ŷi) 2 . Al aplicar el método se llega al siguiente sistema de ecuaciones simultáneas
(llamadas ecuaciones normales de la recta de regresión de y en x), cuya solución da los
valores de b0 y b1:
Las soluciones son las siguientes:

El coeficiente de determinación (r2) El coeficiente de determinación en la regresión lineal


simple es una medida de la bondad de ajuste de la recta estimada a los datos reales. Suma
de cuadrados debida al error: SCE = Σ(yi – ŷi ) 2

Suma de cuadrados total: SCT = Σ(yi – y )2

Suma de cuadrados debida a la regresión: SCR = Σ(ŷi - y ) 2

Relación entre SCT, SCR y SCE: SCT = SCR + SCE

Coeficiente de determinación:

Expresado r 2 en porcentaje, se puede interpretar como el porcentaje de la variabilidad total


de “Y” que se puede explicar aplicando la ecuación de regresión.

El coeficiente de correlación lineal (r) Es una medida descriptiva que mide la intensidad de
asociación lineal entre las dos variables, x y y. Los valores del coeficiente de correlación
lineal siempre están entre –1 y +1. –1 significa una relación lineal negativa perfecta, +1
significa una relación lineal positiva perfecta. Los valores cercanos a cero indican que las
variables x y y no tiene relación lineal. El coeficiente de correlación lineal se relaciona con
el coeficiente de determinación así:

b1 es la pendiente la recta de regresión de y en x. El coeficiente de determinación es más


general que el coeficiente de correlación lineal. (Universidad Centroamericana José Simeon
Cañas, 2012)

1.4. Medidas de Variación.

Varianza.

Existe otro mecanismo para solucionar el efecto de cancelación para entre diferencias
positivas y negativas. Si elevamos al cuadrado cada diferencia antes de sumar, desaparece
la cancelación:

Esta fórmula tiene una desventaja y es que sus unidades no son las mismas que las de las
observaciones, ya que son unidades cuadradas.

Desviación estándar
En general, es difícil interpretar el significado del valor de una varianza, porque las
unidades en las que se le expresa son valores elevados al cuadrado. Debido en parte a esta
razón, es más frecuente el uso de la raíz cuadrada de la varianza, representada por la letra
griega a (o por s en el caso de una muestra) y llamada desviación estándar. Las fórmulas
son:

Rango

El rango, o R, es la diferencia entre los valores más alto y más bajo incluidos en un
conjunto de datos. Así, cuando My representa al mayor valor del grupo y Mn al menor, el
rango de datos no agrupados es R = My – Mn[ CITATION Uni17 \l 2058 ].

Coeficiente de correlación y de determinación

octubre 15, 2018

En esta clase vamos a revisar lo que es el coeficiente de correlación y el de


determinación, de hecho ustedes lo han usado cuando en su gráfica ponen una línea de
tendencia y ponen lo que hasta ahora conocen como R2, ese es el coeficiente de
determinación en tanto que su raíz cuadrada, o sea R (más correctamente r) es el
coeficiente de correlación.

Una correlación, es simplemente la relación o dependencia que existe entre las dos
variables que intervienen en una distribución bidimensional.
Es decir, la correlación nos indica si los cambios en una de las variables (la independiente)
influyen en los cambios de la otra (dependiente). En caso de que suceda, diremos que las
variables están correlacionadas o que hay correlación entre ellas.

Si bien la correlación puede ser exponencial o potencial o lineal, por ahora solo veremos la
correlación lineal o de Pearson.

 1.5. Cálculo de los coeficientes de relación y determinación 


1º Correlación directa o positiva

La correlación directa se da cuando al aumentar una de las variables la otra aumenta.

La recta correspondiente a la nube de puntos de la distribución es una recta creciente.

2º Correlación inversa o negativa

La correlación inversa se da cuando al aumentar una de las variables la otra disminuye.

La recta correspondiente a la nube de puntos de la distribución es una recta decreciente.


3º Correlación nula

La correlación nula se da cuando no hay dependencia de ningún tipo entre las variables.

En este caso se dice que las variables son incorreladas y la nube de puntos tiene una forma
redondeada.

Grado de correlación

Sin embargo para que esta herramienta de juicio resulte útil en estadística, tenemos que
cuantificarla, es decir, contestar a la pregunta ¿Qué tan grande (o pequeña) es la correlación
entre esas 2 variables?, esto se responde con el coeficiente de correlación, que indica que
tan próximos están los puntos a la línea de tendencia que define su comportamiento.

La fórmula para calcular este índice es: 


El resultado de esta ecuación toma valores que van de -1 a + 1, por supuesto pasando por el
cero.

Mientras más cercano sea el valor al -1 o al +1 nos indica que los puntos están muy
cercanos a la línea de tendencia y que la correlación es fuerte, por el contrario mientras más
se aleja de estos valores y se acerca al 0, indica que la correlación es cada vez más débil
hasta que es prácticamente nula (no hay correlación entre las 2 variables)

Pero en esta ocasión no nos vamos a detener en ella sino que nos limitamos a ver las formas
de calcularla e interpretarla a través de Excel.

COEFICIENTE DE DETERMINACION

El cuadrado del coeficiente de correlación es el coeficiente de determinación (R2), tiene las


siguientes características:

1. -Está acotado entre 0 y 1.

2.-Se interpreta como el porcentaje de la variabilidad de la variable dependiente explicado


por la variabilidad de la independiente.

3. -Mide, por tanto, el cambio (porcentual) producido en la variable Y al realizarse un


cambio de una unidad en la variable X.

4.-Acompaña siempre a modelos de tipo lineal. No tiene potencia para medir relaciones de
otro tipo.[ CITATION Unk19 \l 2058 ]

1.6. Análisis Residual


6.- Análisis de Residuales. Como ya hemos comentado los residuos, “e”, son la estimación
de los verdaderos errores. En regresión lineal la distribución de la variable formada por los
residuos debe ser Normal, esto es, los residuos observados y los esperados bajo hipótesis de
distribución normal deben ser parecidos. Además, los residuos deben ser independientes.
En consecuencia, el análisis de los residuales nos va a permitir no solo profundizar en la
relación que se produce entre las dos variables, sino también, ponderar la bondad de ajuste
de la regresión obtenida. Para contrastar la supuesta normalidad de los residuales podemos
recurrir, fundamentalmente, a la representación de dos gráficos: (1) el gráfico de residuales
tipificados (gráfico 2 del anexo de resultados) nos da idea de cómo se distribuyen los
residuos en relación a la distribución normal (que sería la que cabría esperar de los
mismos). Si ambas distribuciones son iguales (la distribución de los residuos es normal) los
puntos se sitúan sobre la diagonal del gráfico. Por lo contrario, en la medida que aparecen
dispersos y formando líneas horizontales respecto a la diagonal, habrá más residuos y el
ajuste será peor; (2) el gráfico de probabilidad normal (gráfico 3 del anexo de resultados)
compara gráficamente, al superponer la curva de distribución normal, la función de
distribuciones acumulada observadas en la muestra con la función de distribución
acumulada esperada bajo supuestos de normalidad. Por su parte el estadístico de Durbin-
Watson mide el grado de auto correlación entre el residuo correspondiente a cada
observación y el anterior (si los residuos son independientes, el valor observado en una
variable para un individuo no debe estar influenciado en ningún sentido por los valores de
esta variable observados en otro individuo). Si el valor del estadístico es próximo a 2 los
residuos están incorrelacionados; si se aproxima a 4, estarán negativamente
incorrelacionados; y si se aproximan a 0 estarán positivamente incorrelacionados. [ CITATION
RUA13 \l 2058 ]

1.7. Inferencias acerca de la pendiente


El estimador βˆ 1 sigue una distribución normal porque es una combinación lineal de
normales,
1.8. Aplicaciones.

Con el propósito de entender y aplicar este método en relación al tema a tratar comenzó con
las investigaciones pertinentes para recolectar información clara y verídica de los datos de
población con empleo del Total Nacional, Urbano y Rural en fuentes oficiales desde el año
2014 hasta el primer trimestre del 2018, es importante tener una gran cantidad de datos para
que no se altere el diagrama de dispersión, por tal motivo se tomaron datos trimestrales
(3meses) del periodo de tiempo determinado, con esta base de dato mayor facilita tomar la
decisión del método de regresión a  utilizar, toda esta información fue proporcionada por
instituciones estatales  ENEMDU (Encuesta nacional de Empleo, Desempleo y

Subempleo), INEC (Instituto Nacional de Estadística y Censo), que nos proporcionar datos
veraces, para así tener certeza de los resultados previos a realizar mediante los cálculos
pertinentes, como se los puede  apreciar en las siguientes tablas con sus respectivas graficas
de dispersión.

Con los datos mostrados en las tablas, se va a establecer una función o ecuación
matemática  pronostico la cual se va ajustar a los datos indicados y va a describir la relación
entre las variables por medio de una regresión  de cada una de las tablas.

Existen 3 puntos claves al momento de realizar el análisis de regresión estos son:

 Decidir qué clase de curva describen los puntos en una gráfica.

 De acuerdo a la gráfica determinar el tipo de ecuación que mejor se ajuste alos


datos.

 Encontrar la ecuación pronóstico, y verificar datos de proximidad.

Figura 2. Grafica de dispersión T. Nacional

Figura 3. Grafica de dispersión Urbano

Figura 4. Grafica de dispersión Rural


En el análisis realizado y de acuerdo a lo ya dicho y lo observado en la Figura 2,3,4 . En la
cual se puede apreciar el comportamiento de los datos en la gráfica desde el 2014 hasta el
primer trimestre del 2018 y lo establecido en la Figura 1. Se puede determinar un
comportamiento lineal.

Modelo de regresión lineal:

𝑦̂ = 𝛼 + 𝛽𝑥 (1)

En donde 𝜶 estará representada de la siguiente manera:

𝛼 = 𝑦̅ – 𝛽 ∗ 𝑥̅       (F1)

𝑦̅ = Promedio de variable dependiente.

𝑥̅ = Promedio de variable independiente

En donde 𝜷 estará representado de la  siguiente manera:

(F2)

Los valores de los parámetros 𝜶 𝒚 𝜷 ecuación (1) no se conocen y deben de estimarse a


partir de los datos de la muestra obtenida, estos coeficientes se calculan con valores
conocidos y se los conoce como regresores.

Para el valor de los regresores se utiliza el método fundamentado en teorema los mínimos
cuadrados,  este método emplea los datos de la muestra (población) para determinar
características de la recta que van hacer mínima la suma de los cuadrados de las
desviaciones.

𝐦𝐢𝐧(𝒚𝒊 − 𝒚̂)^𝟐 (2)

En dónde;

𝒚𝒊 =  Valor observado de la variable dependiente para la i-esima. 𝒚̂ = Ecuación pronostico


determinada de tablas de datos.

Reemplazando la ecuación pronostico (1), en

(2).
(𝒚𝒊 − (𝜶 + 𝜷𝒙))^𝟐  (3) esta ecuación nos ayudara a determinar el error en función de las
variables x, y de la función pronostico, para que la función pronostico represente el total de
datos de manera mucha mas representativa se le debe de sumar el error  que se comete en la
aproximación, este error no es más que la distancia desde cualquier punto de la gráfica
hacia la recta (d1,d2,d3), como se presenta en la Figura 5. La ecuación (3) nos permite
minimizar el miembro de la ecuación para esto se debe calcular las derivadas parciales de
esta expresión respecto a cada uno de los coeficientes de regresión es decir hay que derivar
con respecto a α y β e igualar a cero cada una de las derivadas parciales, realizado este
procedimiento obtendremos un Sistema de ecuaciones que puede ser representado como un
Sistema matricial. De la siguiente manera:

𝚺𝒚𝒊 = 𝒏𝜶 + 𝜷𝒙𝒊𝚺𝒙𝒊𝒚𝒊 = 𝜶 ∗ 𝚺𝒙𝒊 + 𝜷𝒙𝒊𝒙𝒊

Figura 5. Representación del error en la gráfica.

Coeficiente de correlación.

El coeficiente de correlación, es una medida que nos va a indicar el grado de asociación de


los datos de las variables(x,y),  esta medida nos va a indicar el tipo de relación o
dependencia, con este coeficiente también podemos determinar si el método de regresión
que usamos es el correcto de  acuerdo a la escala ya dada Figura 6.  Si la correlación esta
entre (-0,5;0,5) esto nos indica que existe una correlación, en la cual no es recomendable
aplicar regresión lineal esto quiere decir que la ecuación pronostico no se ajusta de manera
adecuada a los datos dispersos en el diagrama de dispersión.

Figura 6. Escala de aceptación del coeficiente de correlación.

Fórmula para calcular el coeficiente de correlación.

Coeficiente de determinación.

El coeficiente de determinación se lo simboliza con la letra 𝒓𝟐 y no es más que el


coeficiente de correlación al cuadrado, lo que el coeficiente de determinación nos indica en
la regresión lineal, es probar cierto tipo de hipótesis, este coeficiente ayudara a determinar
la calidad del modelo (ecuación pronóstico),  para replicar resultados, y la proporción de
variación de los resultados.
Procedimiento para encontrar las ecuaciones pronostico.

Para encontrar las ecuaciones pronósticos respecto a URBANO, RURAL y el TOTAL DE


POBLACION que es la sumatoria de ambos respectivamente y con el cual se va a comparar
la sumatoria de las ecuaciones pronóstico de RURAL, URBANO respecto al TOTAL
NACIAONAL y determinar la dispersión de los resultados que en este caso se lo podrá
determinar como un error entre sus partes y el total, así tendríamos aplicando la
ecuación (1),  y encontrando sus subtérminos  (F1), (F2), respectivamente se procederá a
encontrar las ecuaciones pronóstico  de cada categoría:

 Ecuaciones pronostico (RURAL).

Reemplazando en ecuación (1), tenemos;

Tabla 2. Coeficientes de regresión e intervalos de confianza (Rural).

      Coeficientes Error típico Estadístico t               Probabilidad                    


Inferior 95% Superior 95% Inferior 95,0%Superior 95,0%

Intercep - 287886 - 1,378 - - - -


ción 255885 55,9 8,8884 5E- 316914 194856 316914 194856
317 0791 07 541 093 541 093

Variabl 128126 14278, 8,9732 1,212 97857, 158396 97857, 158396


eX1 ,694 7071 6999 9E- 1871 ,201 1871 ,201
07

Ecuación pronostico (URBANO).


Conclusión

Para poder concluir ,debo agregar que en la información plasmada en este documento le
servirá a cada uno de los lectores de esta misma a resolver problemas y realizar de manera
activa y debida en sus acciones en cualquier situación que se sustente con la misma ,donde
se utilice el modelo de regresión simple, donde un economista puede resolver de manera
satisfactoria con este método ciertas problemáticas, como el recolectar información acerca
de los trabajadores de las empresas ,recolectar información acerca trabajadores ,totales de
empleos, supuestos economizadores, para llevar a cabo este método es necesaria la
recolección suficiente e datos para no alterar el diagrama de dispersión para llevarlo a cabo
de manera correcta se deben seguir correctamente los pasos correctos con los cuales se
podrán abalizar datos de manera simple y correcta tomando en cuenta la realización de los
supuestos, en donde cada los residuos deben ser independientes, es decir se maneja la
independencia de datos. La determinación de la ecuación de regresión, los cuales se
acumulan utilizando métodos como de mínimos cuadrados donde la gráfica de ecuación
lineal simple de regresión se le denomina línea de regresión, estos métodos de manera de
recolección son maneras eficaces para poder saber de manera satisfactoria los datos de
ciertos casos en común.
Bibliografía

Carrollo Limeres, C. (2012). Regresión Lineal Simple. Estadística. FBA, 1-31. Recuperado el 2020 de
Septiembre de 27, de http://eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-
DPTO/MATERIALES/Mat_50140116_Regr_%20simple_2011_12.pdf

Roldán, P. (21 de marzo de 2019). Modelo de regresión. Obtenido de


https://economipedia.com/definiciones/modelo-de-regresion.html#:~:text=Un
%20modelo%20de%20regresi%C3%B3n%20es,explicativas%20o%20independientes
%20(X).

RUA. (2013). Análisis de regresión simple. RUA, 1-17.

Universidad Autonoma del Estado De Mexico. (27 de septiembre de 2017). 1.2 Medidas de
variación: Rango, desviación estándar y coeficiente de variación. 1.2 Medidas de variación:
Rango, desviación estándar y coeficiente de variación. D.F: Repositorio Institucional.

Universidad Centroamericana José Simeon Cañas. (12 de octubre de 2012). REGRESION Y


CORRELACION. Fórmulas básicas en la regresión lineal simple. El Salvador: Universidad
Centroamericana.

Unknown. (15 de octubre de 2019). Coeficiente de correlación y de determinación. Obtenido de


Blogspot: http://babbiotics.blogspot.com/2018/10/coeficiente-de-correlacion-y-de.html

También podría gustarte