Está en la página 1de 45

ESTADÍSTICA INFERENCIAL II

UNIDAD 1: REGRESIÓN LINEAL SIMPLE Y CORRELACIÓN.


Unidad 1.- Regresión lineal simple y correlación
1.1 Modelo de regresión simple.
1.2 Supuestos.
1.3 Determinación de la ecuación de regresión.
1.4 Medidas de variación.
1.5 Cálculo de los coeficientes de correlación y de
determinación.
1.6 Análisis residual.
1.7 Inferencias acerca de la pendiente.
1.8 Aplicaciones
.
MATRIZ DE ACREDITACIÓN DE LA UNIDAD 1:
Regresión lineal simple y correlación
No. Actividades de Valor Fecha límite Evidencia Evaluación
aprendizaje de entrega a formativa de la
competencia
% evaluar
(Instrumento de
evaluación)
A1 Cuestionario 10 8 sept. Formulario en Rúbrica
Google Forms
debidamente
contestado
A2 Caso de aplicación 25 10 sept. Exposición mediante Lista de cotejo y
presentación guía de observación
electrónica de un
caso de aplicación
A3 Ejercicios en aula y 35 15 sept. Reporte de solución Lista de cotejo
casa de ejercicios (aula y
casa) en PDF
A4 Evaluación escrita 30 17 sept. Cuestionario Cuestionario
contestado en la
fecha programada
(Moodle, teams o
Google Forms)
Total 100
U1: REGRESIÓN LINEAL SIMPLE Y CORRELACIÓN.

Los métodos causales o de asociación consideran


la relación existente entre variables.

Los análisis causales pueden llegar a relacionar


muchas variables como: precios, publicidad,
índices de desempleo, índices de precios, etc.

El método de análisis cuantitativo causal más


usado es el ANÁLISIS DE REGRESIÓN.
CONCEPTOS BÁSICOS:
El objetivo del análisis de REGRESIÓN es explicar
el comportamiento de una variable Y denominada
dependiente, a partir de otra variable X, llamada
independiente.
La decisión de elegir cuál es la variable
dependiente y cuál la independiente dependerá en
gran medida del contexto del estudio y de las
características de los datos que se están
analizando.
Análisis de regresión: Es una técnica estadística usada para:

1. Estudiar el efecto que producen las variables X1, X2 …Xk en la variable Y.

2. Pronosticar valores de Y conociendo los valores de X1, X2 …Xk.

A las variables X1, X2 …Xk se les llama variables independientes o predictoras y a la

variable Y se le llama variable dependiente.


EJEMPLOS DE RELACIÓN ENTRE DOS VARIABLES:
VARIABLE 1 VARIABLE 2

INGRESOS GASTOS EN ACTIVIDADES DE OCIO

PESO EDAD

VENTAS PUBLICIDAD

PRESIÓN ARTERIAL SEXO


Regresión lineal simple.
Es un caso particular de regresión donde la relación funcional
(modelo) entre la variable Y dependiente y la variable X
independiente es: Y = β + β X + ε
0 1

Donde:
X = Variable independiente
Y = Variable dependiente
β y β = Coeficientes de regresión o parámetros
0 1

• β = Es la ordenada al origen
0

• β = Pendiente
1

ε = Error
Recordar la ecuación de una recta:
Y = a + bX

Y=β +βX
0 1

Y = b 0 + b 1X
PASOS PARA LA APLICACIÓN DE UN MODELO DE
REGRESIÓN LINEAL SIMPLE:

1.- Representar los datos de interés sobre unos

ejes de coordenadas X,Y. Esta representación es

el llamado DIAGRAMA DE DISPERSIÓN, el cual

permite analizar el modelo apropiado que mejor

describa la relación entre las dos variables.


2.- Una vez realizado el diagrama de dispersión y

después de observar una posible relación lineal

entre las dos variables, corresponde ahora

encontrar la ECUACIÓN DE LA RECTA que mejor

se ajuste a la nube de puntos. Esta recta se

denomina recta de regresión.


ESTIMACIÓN DE PARÁMETROS MEDIANTE EL MÉTODO DE
LOS MÍNIMOS CUADRADOS:

Principio de mínimos cuadrados: Técnica empleada para


llegar a la ecuación de regresión minimizando la suma de
los cuadrados de las distancias verticales entre los
valores de Y verdaderos y los valores pronosticados de Y.

Ver formulas a continuación:


• Usando esta ecuación, podemos tomar un valor dado de X y calcular el valor de Y.
• La a se denomina la “ordenada Y” porque su valor es el punto en el cual la línea de regresión cruza el
eje Y
• La b es la “pendiente de la recta”. Representa qué tanto cada cambio de una unidad de la variable
independiente X hace que cambie la variable dependiente Y.

• Tanto a como b son constantes numéricas porque para cualquier línea recta dada sus valores no
cambian.
• Usando esta ecuación, podemos tomar un valor dado de X y calcular el valor de Y.
• La a se denomina la “ordenada Y” porque su valor es el punto en el cual la línea de regresión cruza el
eje Y
• La b es la “pendiente de la recta”. Representa qué tanto cada cambio de una unidad de la variable
independiente X hace que cambie la variable dependiente Y.

• Tanto a como b son constantes numéricas porque para cualquier línea recta dada sus valores no
cambian.
VIDEO 1: REGRESION LINEAL
SIMPLE
VIDEO 2 REGRESION LINEL
SIMPLE. 2ª.parte
TERMINOS BÁSICOS UTILIZADOS EN LA UNIDAD 1
Ejercicio #1:
EJERCICIO #3:
VIDEO 3- CORRELACIÓN
https://www.youtube.com/watch?v=
aKsjilxc5ww
AUTOEVALUACIÓN
MEDIDAS DE VARIACIÓN y COEFICIENTES DE
DETERMINACIÓN Y CORRELACIÓN.
Cuando se utiliza el método de mínimos cuadrados para determinar los

coeficientes de regresión de un conjunto de datos, es necesario calcular tres

medidas de variación:

1. La suma de cuadrados total (SCT): es una medida de la variación de los

valores Yi alrededor de la media, Y

2. Variación explicada o suma de cuadrados de regresión (SCR): representa la

variación que se explica por la relación entre X y Y.

3. Variación no explicada o suma de cuadrados del erros(SCE): representa la

variación debida a otros factores que no son por la relación entre X y Y.


COEFICIENTE DE DETERMINACIÓN
El coeficiente de determinación es la principal forma en que podemos medir el grado, de

la asociación que existe entre dos variables, X y Y e indica porcentualmente el cambio de

la variable dependiente respecto de la independiente.

Debido a que usamos una muestra de puntos para desarrollar rectas de regresión, nos

referimos a esta medida como el coeficiente de determinación muestral, el cual se deriva

de la relación entre dos tipos de variación:

la variación de los valores de Y en un conjunto de datos alrededor de

1.- La recta de regresión ajustada

2.- Su propia media


COEFICIENTE DE CORRELACIÓN
El coeficiente de CORRELACIÓN indica el nivel de asociación entre las variables

dependiente e independiente y se calcula sacando raíz cuadrada al coeficiente de

determinación r2

r= coeficiente de correlación p.ej. Si r2= .90 entonces r=.948


ERROR ESTÁNDAR DE LA ESTIMACIÓN
El error estándar de la estimación mide la variabilidad de los valores observados de Y a

partir delos valores estimados de Y, es decir mide la variabilidad de cada valor alrededor

de la media muestral.
EJERCICIO # 5
Realice con el apoyo del programa Excel lo que a continuación se le pide:
Según los datos que se presentarán a continuación y que corresponden a un gerente de ventas de una
importante compañía, que se está preparando para una reunión de ventas, y le gustaría mostrar al grupo
de vendedores la forma como se relaciona el número de llamadas a clientes con el valor anual de
pedidos que se reciben (en miles de dólares).

De sus registros recolectó la información muestral para el ultimo año. A partir de estos datos muestrales
¿Puede llegarse a la conclusión que conforme se incrementa el número de llamadas, también aumenta
el monto anual de pedidos? Realice una prueba estadística adecuada. Utilice un nivel de significación de
0.05.
1. Grafique la relación entre el número de llamadas y el importe de los pedidos en un diagrama de
dispersión detallado (título general, unidades de los ejes X y Y) y justifique la utilización del modelo
de regresión lineal.
2. Con el análisis de datos del programa Excel, calcule los coeficientes de regresión “a” y “b” y además
presente la ecuación de regresión lineal que proporciona el Excel para predecir el valor de pedidos a
partir del número de llamadas. Interprete los coeficientes de regresión “a” y “b” .
3. ¿Cuál es el valor de pronóstico de pedidos si se realizan cinco llamadas?
4. ¿Qué porcentaje de la variación en el importe de pedidos se explica por la variación en el número de
llamadas?
5. ¿Cuál es el valor del coeficiente de correlación? ¿Qué indica?
6. ¿Cuál es el valor del error estándar de estimación?
7. Escriba sus conclusiones.
Número de Pedidos Número de Pedidos
llamadas (miles de llamadas (miles de
dólares) dólares)
5 4.8 2 2.2
4 6.1 4 7.1
6 12.3 4 8.7
7 13.7 8 13.7
8 15.7 1 2.3
1 2.2 3 4.6
3 7.3 9 16.7
4 5.8 3 6.1
1 1.9 4 7.5
3 6.7 8 15.1
SUPUESTOS DE LA REGRESIÓN:

Los supuestos necesarios para la regresión son cuatro:

1. Linealidad: plantea que la relación entre variables es lineal.


2. Independencia de los errores: requiere que los errores ei sean
independientes entre sí. Este supuesto es especialmente importante cuando
los datos se reúnen a lo largo del tiempo. En tales situaciones, los errores de
un periodo específico en ocasiones se correlacionan con los de un periodo
previo.
3. Normalidad del error: requiere que los errores ei se distribuyan de
manera normal en cada valor de X. A partir de la gráfica de probabilidad
normal (Excell). Si los datos se distribuyen normalmente, los valores
formarán una línea aproximadamente recta.
4. Igualdad de la varianza u homocedasticidad: requiere que la
varianza de los errores sea constante para todos los valores de X. En otras
palabras, la variabilidad en los valores de Y cuando el valor de X es bajo es
igual que cuando es alto.
ANÁLISIS RESIDUAL Y LOS SUPUESTOS DE LA
REGRESIÓN.
El análisis residual evalúa de forma visual los SUPUESTOS DE LA REGRESIÓN y

ayuda a determinar si el modelo de regresión seleccionado es el adecuado.

El residuo, o valor del error estimado, еi, es la diferencia entre los valores

observados (Yi ) y los estimados (Ŷi):

El RESIDUO es igual a la diferencia entre el valor observado de Y y el valor

estimado de Y

ei= Yi − Ŷi
EJEMPLO DE VIOLACIÓN DE “LINEALIDAD”:
EJEMPLO DE VIOLACIÓN DE “IGUALDAD DE VARIANZAS”:
INFERENCIAS ACERCA DE LA PENDIENTE:
Para determinar la existencia de una relación lineal significativa

entre las variables X y Y, se debe probar si b1 (la pendiente

poblacional) es igual a 0. La hipótesis nula y alternativa son las

siguientes:

Ho: b1=0 (No hay relación lineal, la pendiente es cero).

H1: b1≠0 (Hay relación lineal, la pendiente no es cero).

Si se rechaza la hipótesis nula, se concluye que existe evidencia de

una relación lineal. El estadístico de prueba se calcula así:


PRUEBA DE HIPÓTESIS PARA UNA PENDIENTE POBLACIONAL,
β1, UTILIZANDO LA PRUEBA t

H0: β1=0
H1: β1 ≠0

El estadístico de prueba
𝑏1 − β1
tcalculado =
𝑆𝑏1

donde:
Syx
Sb1 =
√𝑆𝐶𝑋

𝑆𝐶𝑋 = ⅀ 𝑋𝑖 − 𝑋𝑚𝑒𝑑𝑖𝑎 2
Para probar si existe una relación lineal significativa entre el tamaño de la
tienda y las ventas anuales, con un nivel de significancia de 0.05% se
tiene que:

El estadístico de prueba

𝑏1 − β1 1.6699 − 0
tcalculado = = = 10.6411237
𝑆𝑏1 0.15692537

donde:
Syx 0.96637968
Sb1 = = = 0.15692537
√𝑆𝐶𝑋 √37.9

𝑆𝐶𝑋 = ⅀ 𝑋𝑖 − 𝑋𝑚𝑒𝑑𝑖𝑎 2
Con un nivel de significancia de 0.05% , el valor crítico de t con n-2
grados de libertad es: 2.179

Entonces, como tcalculado > ttabla

10.6411237 > 2.179,

Ho se rechaza y H1 se acepta, por lo que se concluye que existe una


relación lineal significativaentre las ventas medias anuales y el tamaño de
la tienda.
FIN
DE LA UNIDAD 1

También podría gustarte