Está en la página 1de 73

ESTADISTICA INFERENCIAL

Unidad IV
REGRESION SIMPLE Y MULTIPLE

Sesión 13
DISPERSION Y REGRESION

Docente: Pedro Ricardo Infantes Rivera

El éxito leve puede ser explicado por las habilidades y el trabajo. El éxito salvaje es atribuible a la varianza.
-Nassim Taleb-
PRESENTACIÓN

Logro general de aprendizaje de la Asignatura


Al finalizar la asignatura, los alumnos
comunican los resultados de la gestión
idónea de la aplicación de métodos y Logro de aprendizaje de la Unidad IV
técnicas de la estadística inferencial,
logrando el buen uso de las herramientas Al finalizar la unidad los alumnos identifican la
digitales para tal fin, evidenciando el relación y asociación entre la variable Logro de aprendizaje de la
tratamiento estadístico de la misma en
relación con su entorno, con pensamiento
dependiente e independiente(s), mediante Semana 13
análisis de regresión y correlación simple y
crítico y compromiso ético.
múltiple, para realizar pronósticos de eventos Al finalizar la semana los alumnos utilizan y aplican
. empresariales. adecuadamente el algoritmo para determinar los
parámetros de la regresión siguiendo un caso dado como
ejemplo; además, comparan modelos eligiendo el mejor.
OBSERVA Y CONTESTA

1. Visualiza la información del enlace:


https://www.youtube.com/watch?v=b0v2EToVy4M
2. Contesta el foro Coeficiente de Correlación:
¿Qué significa la covarianza?
¿Cuál es la interpretación de la covarianza?
¿Qué significa el término correlación?
COVARIANZA ó VARIACIÓN CONJUNTA
Para proceder al análisis de la relación existente entre dos variables, es interesante comenzar examinando el
gráfico de los pares de valores observados de las variables, que se construye sobre un par de ejes
cartesianos en los que se sitúan escalas para las dos variables.
𝒚
Generalmente se mide una variable sobre el eje horizontal y la
variable sobre el eje vertical.
En el plano, se dibuja un punto por cada par de valores observados
de y de . Ejemplo: (2,5), … 𝟓
La representación grafica del conjunto de puntos resultante o nube
de puntos se denomina diagrama de dispersión, y su análisis visual
constituye un buen punto de partida, puesto que proporciona una
amplia información sobre la covarianza y sus características.
𝟎 𝟐 𝒙
COVARIANZA ó VARIACIÓN CONJUNTA
𝒚 𝒚

𝟓 𝟓

𝟎 𝟐 𝒙 𝟎 𝟐 𝒙
COVARIANZA ó VARIACIÓN CONJUNTA

Cuando la nube de puntos se concentra alrededor de una línea recta, se dice que la asociación entre e es lineal.
Puede ocurrir, sin embargo, que el diagrama de dispersión no sugiera una recta, sino que los puntos pueden
aparecer aproximadamente dispuestos sobre una curva. En tal caso, la asociación entre las variables es no
lineal.
Finalmente, también es posible que la nube de puntos indique la no existencia de asociación entre las
variables.
COVARIANZA ó VARIACIÓN CONJUNTA
El método gráfico de análisis de la covariación sirve no sólo para detectar la posible relación entre
dos variables sino también para conocer sus características.
El procedimiento, en el caso de dos variables, es muy eficaz y, sumamente sencillo.
Pero, aunque el diagrama de dispersión ofrece información acerca de la asociación entre dos
variables, basada en la observación visual, en la práctica se acude a instrumentos más precisos que
permiten la obtención de una cuantificación numérica de la intensidad y las características de dicha
asociación.

La covarianza es uno de estos instrumentos que se basa en las diferencias observadas entre los
valores de e respecto a sus correspondientes medias.
COVARIANZA ó VARIACIÓN CONJUNTA
Para obtener el valor de la covarianza, se calcula para cada par de valores
observados de e el producto de desviaciones respecto a sus medias, que
dejan por debajo de ellas los valores menores y por encima de ellas los
valores mayores de las variables, de tal manera que para los valores
pequeños de las variables estas diferencias son negativas y para los valores
elevados son positivas.
El signo y la magnitud de los productos obtenidos para todos los valores de
y de determinan el valor de la covarianza.
COVARIANZA ó VARIACIÓN CONJUNTA

Cuando la relación entre e es lineal y creciente, a los valores mas Cuando la relación entre e es lineal y decreciente, a los valores mas
pequeños de les corresponden los valores mas pequeños de y a pequeños de les corresponden los valores mas elevados de y a los
los valores mas elevados de les corresponden los valores mas valores mas elevados de les corresponden los valores mas pequeños
elevados de , de tal manera que la mayoría de estos productos de , de tal manera que la mayoría de estos productos son negativos y
son positivos y es positiva su suma. es negativa su suma.
Además, cuanto mas intensa sea la relación, mayor será la Además, cuanto mas intensa sea la relación, mayor será la proporción
proporción de productos positivos en el total y, por tanto, la suma de productos negativos en el total y, por tanto, la suma de los
de los productos es elevada, productos es negativa, pero elevada en valor absoluto,
COVARIANZA ó VARIACIÓN CONJUNTA
A partir de esta idea, la covarianza se define como la media aritmética de los productos de las desviaciones de las
variables e respecto a sus respectivas medias; es decir, se define por el cociente entre la suma de los productos
de las variables en desviaciones respecto a sus medias y el número de observaciones:
1 2 3 4
1 3 5 7 9
2 1 7 4 8

Una forma más abreviada para calcularse es a través de la expresión:

El signo de la covarianza indica que la relación entre las variables es directa si es positivo, que es inversa si es
negativo y que no existe asociación lineal si es nula.
APLICACIÓN
Covarianza
Se tienen las notas de un examen de Matemáticas y otro de
Física. Se desea saber sobre la covarianza asociada a tales
notas
Calculamos la media de e :

11 12 3 33 36 396
13 14 4 52 56 728
15 13 3 45 39 585
15 15 4 60 60 900 Hallamos la Covarianza
16 17 4 64 68 1088
17 16 3 51 48 816
17 17 4 68 68 1156
18 17 2 36 34 612
19 18 1 19 18 342
20 20 2 40 40 800
30 468 467 7423
CORRELACIÓN
CORRELACIÓN
El coeficiente de correlación lineal es una medida adimensional de la intensidad de la asociación lineal entre e que toma los
valores comprendidos entre y , porque la covarianza de las variables puede ser positiva o negativa, pero en valor absoluto es
menor o igual que el producto de las desviaciones típicas. Cuando esta próximo a sus valores extremos indica fuerte
asociación lineal, que es perfecta si es exactamente igual a uno o a menos uno (positiva, si es positivo; negativa, si es
negativa). Cuando esta próximo a cero, indica que la asociación lineal entre las variables es débil, siendo nula cuando es
exactamente igual a cero.
± 0.96 ,± 1.00 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖 ó 𝑛 𝑃𝑒𝑟𝑓𝑒𝑐𝑡𝑎
± 0.85 , ± 0.95 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖 ó 𝑛 𝐹𝑢𝑒𝑟𝑡𝑒
± 0.70 , ± 0.84 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖 ó 𝑛𝑆𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎
± 0.50 , ± 0.69 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖 ó 𝑛 𝑀𝑜𝑑𝑒𝑟𝑎𝑑𝑎
± 0.20 , ± 0.49 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖 ó 𝑛 𝐷 é 𝑏𝑖𝑙
± 0.10 , ± 0.19 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖 ó 𝑛 𝑀𝑢𝑦 𝐷 é 𝑏𝑖𝑙
± 0.09 , ± 0.00 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖 ó 𝑛 𝑁𝑢𝑙𝑎
-0.96 -0.85 -0.70 -0.50 -0.20 -0.10 0.10 0.20 0.50 0.70 0.85 0.96

-1.00 -0.90 -0.80 -0.70 -0.60 -0.50 -0.40 -0.30 -0.20 -0.10 0 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
APLICACIÓN
Se tienen las notas de un examen de Matemáticas y otro de Física. Se
Desviaciones típicas
desea saber sobre la covarianza asociada a tales notas
7470 2
¿ − 15 .60 =5 . 64
30
11 12 3 33 36 396 363 432
13 14 4 52 56 728 676 784
15 13 3 45 39 585 675 507 7405 2
¿ − 15 .57 =4 . 41
15 15 4 60 60 900 900 900 30
16 17 4 64 68 1088 1024 1156
17 16 3 51 48 816 867 768
17 17 4 68 68 Coeficiente de correlación:
1156 1156 1156
18 17 2 36 34 612 648 578
19 18 1 19 18 342 361 324
20 20 2 40 40 800 800 800
30 468 467 7423 7470 7405
La Covarianza C El coeficiente de correlación de la covarianza entre las
La media de e notas de Matemáticas y de Física es 0.92, lo que
indica que la relación es positiva fuerte.
APLICACIÓN
CASO 2 CASO 3
Los valores de dos variables X e Y se distribuyen Se han observado, durante un mes determinado, el gasto en el
teléfono móvil y el ingreso total en seis familias. Los resultados
según la tabla siguiente: obtenidos expresados en unidades monetarias corrientes, han sido:

X/Y 0 2 4 Gasto teléfono


móvil
Ingreso total (miles
euros)
1 2 1 3 Familia 1 2 4
2 1 4 2 Familia 2 3 6
Familia 3 6 8
3 2 5 0
Familia 4 9 10
Familia 5 10 12
Hallar la covarianza de la distribución.
Familia 6 11 20
Calcular la covarianza entre el gasto y el ingreso. A la vista de este
resultado, ¿puede afirmar que las variables sean dependientes e
independientes?
“La distancia entre el querer y el poder se acorta con el
entrenamiento”
Anónimo

GRACIAS
ESTADISTICA INFERENCIAL
Unidad IV
REGRESION SIMPLE Y MULTIPLE

Sesión 14
INFERENCIA EN LA REGRESION MULTIPLE

Docente: Pedro Ricardo Infantes Rivera

El éxito leve puede ser explicado por las habilidades y el trabajo. El éxito salvaje es atribuible a la varianza.
-Nassim Taleb-
PRESENTACIÓN

Logro general de aprendizaje de la Asignatura


Al finalizar la asignatura, los alumnos
comunican los resultados de la gestión
idónea de la aplicación de métodos y Logro de aprendizaje de la Unidad IV
técnicas de la estadística inferencial,
logrando el buen uso de las herramientas Al finalizar la unidad los alumnos identifican la
digitales para tal fin, evidenciando el relación y asociación entre la variable Logro de aprendizaje de la
tratamiento estadístico de la misma en
relación con su entorno, con pensamiento
dependiente e independiente(s), mediante Semana 14
análisis de regresión y correlación simple y
crítico y compromiso ético.
múltiple, para realizar pronósticos de eventos Al finalizar la semana los alumnos utilizan y aplican
. empresariales. adecuadamente el algoritmo para determinar los
parámetros de la regresión múltiple siguiendo un caso
dado como ejemplo; además, comparan modelos
eligiendo el mejor.
OBSERVA Y CONTESTA

1. Visualiza la información del enlace:


https://www.youtube.com/watch?v=BDf88CXvA_8
2. Contesta el foro:
¿Para qué sirve desarrollar un modelo de regresión
lineal simple?
¿Cómo se interpreta un modelo de regresión lineal
simple?
¿Qué me indica el coeficiente de determinación?
CORRELACIÓN LINEAL

Karl Pearson 1857 - 1936


CORRELACIÓN LINEAL
CORRELACIÓN LINEAL

Niveles de productividad del trabajador (%)


¿Qué es correlación?
Se correlaciona los datos de dos variables
numéricas con diferentes unidades de
medidas.
Ejemplo: Se desea correlacionar los
niveles de productividad de los
trabajadores de una obra con el peso del
trabajador.
Peso del trabajador (Kg)
GRÁFICO DE DISPERSIÓN
REPRESENTACIÓN GRÁFICA
Consiste en graficar los datos en el plano cartesiano (X,Y) y observar la relación de los
datos si directa o inversa.
Niveles de productividad Trabajador (%)

Niveles de productividad Trabajador (%)


Peso del trabajador (Kg) Peso del trabajador (Kg)
COEFICIENTE DE CORRELACIÓN DE PEARSON
El Coeficiente de Correlación de Pearson es una medida de la relación
lineal entre dos variables aleatorias cuantitativas.
A diferencia de la covarianza, la correlación de Pearson es
independiente de la escala de medida de las variables.
De manera menos formal, podemos definir el coeficiente de correlación
de Pearson como un índice que puede utilizarse para medir el grado de
relación de dos variables cuantitativas.
COEFICIENTE DE CORRELACIÓN
DE PEARSON
El estadístico de correlación es el coeficiente de correlación de
Pearson (R) está dado por la fórmula:
k  n
n   xi  x ( y j  y )  xi yi  nxy
𝑟
R k
i 1 j 1

r i 1

n  xi  x
2 2
n y j  y
2 2  n 2 2 
n
2 2
 i x  nx    yi  ny 
i 1 j 1  i 1   i 1 

Si r < 0  Existe correlación inversa o negativa entre las variables


Si r > 0  Existe correlación directa o positiva entre las variables
r = 0  No existe relación lineal entre las variables  Variables no correlacionadas
CORRELACIÓN POSITIVA PERFECTA

10
9
8
7
6
Y 5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
CORRELACIÓN NEGATIVA PERFECTA
10
9
8
7
6
Y 5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
NO HAY CORRELACIÓN
10
9
8
7
6
Y 5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
CORRELACIÓN POSITIVA FUERTE
10
9
8
7
6
Y 5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
UTILIDAD DE COEFICIENTE DE CORRELACION
r DE PEARSON

Niveles de productividad Trabajador (%)


Partimos de la premisa de que existe correlación,
con la finalidad de medir el grado de correlación.
Uno de los usos frecuentes de la correlación es
para evaluar el valor predictivo de una variable en
función de otra.
Ejm. Predecir el peso de una persona en relación
a los niveles de productividad.
Peso del trabajador (Kg)
EJEMPLO
Hipertensión en pacientes obesos Presión
Peso arterial
En un Centro de Salud se hizo el en Kg. (mm/Hg)
seguimiento de la presión arterial a 72 115

un grupo de pacientes, y los 76 121

resultados constatan que aquéllos 78 125


81 130
que tienen sobrepeso, tienen una 89 141
presión arterial superior a la media. 95 150

¿Qué tipo de relación hay entre peso 108 165

y presión arterial? Los datos son: 115 170


120 177
130 178
DESARROLLO
EJEMPLO
Variable independiente (X): Peso
Variable dependiente(Y): Presión arterial

Gráfico de dispersión (EXCEL)


200
Presión arterial (mm Hg)

180 En el gráfico de
160 dispersión se
140 observa una relación
120 lineal directa entre el
100 peso y la presión
80 arterial
60
65 75 85 95 105 115 125 135
Peso (kg)
INTERPRETACION DEL COEFICIENTE DE CORRELACIÓN R DE PEARSON
El Coeficiente de Correlación r de Pearson mide la fuerza y dirección de relación entre dos variables
cuantitativas en una escala que varía entre -1 a +1. Cuanto mas se aleja del 0 el valor del
coeficiente muestra una relación mas fuerte. El signo nos indica si la relación es directa o inversa.
r=0.98642594 Correlación Correlación Correlación Correlación Correlación Correlación Correlación Correlación Correlación Correlación
negativa negativa negativa negativa negativa positiva positiva positiva positiva positiva
muy fuerte fuerte moderada débil muy débil muy débil débil moderada fuerte muy fuerte
Muy alta Alta Moderada Baja Muy baja Muy baja Baja Moderada Alta Muy alta

-1 -0.8 -0.6 -0.4 -0.2 0 +0.2 +0.4 +0.6 +0.8 +1

Para una mejor interpretación de r, podemos agregar que :


• Valores de r cercanos a 1, se traduce en una alta relación directa.
• Valores de r cercanos a -1, se traduce en una alta relación inversa.
• Valores de r cercanos a 0, se traduce en una baja relación lineal entre las variables, la cual será
directa si r > 0, y será inversa si r < 0 .
EJEMPLO DE CORRELACIÓN

Ejemplo: Hallar e interpretar el coeficiente de correlación

N° Años de Experiencia (X) Ingreso (Y)


1 5 40
2 15 40
3 24 90
4 16 70
5 19 60
6 3 20
7 6 30
8 12 30
9 27 70
10 13 50
REGRESIÓN LINEAL SIMPLE

¿Con qué variable se puede relacionar el peso


de una persona?
• La edad
• La talla de la persona
• El nivel de actividad física
REGRESIÓN LINEAL SIMPLE
Consiste en analizar la relación entre dos variables cuantitativas, es decir se debe
establecer una relación funcional Y=f(x), llamado modelo de regresión o ecuación
de la recta, cuyos objetivos son:
1) Medir el grado de relación con el coeficiente de correlación de Pearson.
2) Predecir el efecto de una variable sobre otra (estimar valores) mediante un
modelo de regresión que permite describir como influye una variable X sobre
otra variable Y, donde:

X: variable independiente o explicativa o exógena


Y: variable dependiente o respuesta o endógena
REGRESIÓN LINEAL SIMPLE

Ejemplos:
Estimar el peso de una persona a partir de su estatura.
Estimar el gasto en una familia en función de sus ingresos.
Estimar el precio de una PC en función de la velocidad del procesador.
Predecir la calificación de una asignatura según el número de horas de estudio
a la semana.
Estimar el precio de una vivienda en función de su superficie
REGRESIÓN LINEAL SIMPLE
El modelo de regresión lineal simple se define:
Yi  0  1x i  eij
Donde:
Yi : valor de la variable dependiente para la i-ésima observación
Xi : valor de la variable independiente para la i-ésima observación
Eij : error aleatorio para la i-ésima observación que se asume normal
Β0 : intercepto con el eje Y
Β1 : mide el cambio de Y cuando varía X, llamado pendiente
Los parámetros (β0, β1) deben ser estimados:
GRAFICO DE DISPERSIÓN
Es la representación de pares de valores observados en el plano cartesiano,
describe la relación existente entre las variables a partir de:
Datos: a b
Xi Yi
x1 y1
x2 y2
c d
: :
xn yn
REGRESIÓN LINEAL SIMPLE
Cómo reconocer relación directa e inversa
330 100
Incorrelación
Para valores de X por encima 90 Fuerte relación
280
de la media tenemos valores 80 directa.
230
de Y por encima y por debajo 70
180
en proporciones similares. 60
130
Incorrelación. 50
80 40

30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

Para los valores de X mayores que la media le


80 corresponden valores de Y mayores también.
70 Cierta relación
60 inversa Para los valores de X Para los valores de X menores que la media le
50 mayores que la media le corresponden valores de Y menores también.
40
corresponden valores de Y
30
menores. Esto es relación Esto se llama relación directa o creciente entre
20
10 inversa o decreciente. X e Y.
0
140 150 160 170 180 190 200
ANÁLISIS DE REGRESIÓN
Es un método que se emplea para encontrar una función que se ajusta a una nube de
puntos o diagrama de dispersión, con la finalidad de obtener una predicción aproximada
de una de las variables a partir de la otra.
Diagrama de Dispersión
Ŷ  f ( X )
100
90
80
70
60
Ingreso

50
40
30
20
10
0
0 5 10 15 20 25 30
Años de Practica
MODELO DE REGRESIÓN LINEAL SIMPLE
200

El objetivo de formular un modelo de regresión, f(x) 180


= 1.1558366575688 x + 35.777346210372

Presión arterial (mm Hg)


es para predecir valores de una variable en 160
función a otra. El modelo de regresión estimado
140
está dado por:
120

ˆ0  
ŷ   ˆ 1x 100

80

60
¿Cuál es el mejor ajuste a partir de los datos? 65 75 85 95 105 115 125 135
Peso (kg)
INTERPRETACIÓN DE LOS
COEFICIENTES DE REGRESIÓN LINEAL
La ecuación estimada:
Y= 0 + 1 X o también Y= a + bX
El coeficiente 1 indica el cambio promedio en la variable respuesta (y),
cuando la variable predictora (x) aumenta en una unidad adicional.
El intercepto 0 indica el valor promedio de la variable respuesta (y),
cuando la variable predictora (x) es igual a cero. Sin embargo carece de
interpretación práctica si dicho valor está fuera del rango del conjunto de
valores X.
RECTA DE MINIMOS CUADRADOS. Para poder obtener la recta de re
ESTIMACIONES DE LOS COEFICIENTES
utilizaremos la siguiente ecuación de estimación:

RECTA DE MINIMOS CUADRADOS.


Para poder obtener la recta de regresión en Ŷ  b0  bla
utilizaremos 1Xsiguiente ecuación:

Donde los valores de b0 y b1 en la ecuación de regresión son conocidos c


Donde los valores de y en la ecuación de regresión son conocidos como
de regresión y las fórmulas para calcularlos son:
coeficiente de regresión y las fórmulas para calcularlos son:
n
 xi yi  nxy
b  i 1 b 0  y  b1 x
1 n

x 2
i
 nx 2
i 1

Nota: Para hallar las formulas anteriores se deriva la sumatoria de errores al


Nota: Para hallar las formulas anteriores se deriva la sumatoria de errores al cua
cuadrado con respecto a y (Investigación del alumno)
respecto a b0 y b1 . (Investigación del alumno)
EJEMPLO - REGRESIÓN LINEAL SIMPLE
Una empresa tiene 7 vendedores, y se quiere analizar las ventas mensuales (en miles de soles) frente a los años de
experiencia. Los datos están en la siguiente tabla.

N° Experiencia (X) Ventas(miles)


1 13 26
2 16 33
3 30 36
4 2 16
5 8 26
6 6 19
7 31 38
a) ¿Se trata de una relación lineal? (analizar el diagrama de dispersión)
b) Si es una ecuación lineal hallar la ecuación de regresión determinando los coeficientes de regresión.
c) Predecir la venta de un empleado con 40 años de experiencia (Estimar Y para un valor X=40)
EJEMPLO - REGRESIÓN LINEAL SIMPLE
Solución:
a) Diagrama de dispersión
N° Experiencia (X) Ventas(miles)

1 13 26
2 16 33
3 30 36
4 2 16
5 8 26
6 6 19
7 31 38

Según el diagrama de
dispersión existe una
relación aproximadamente
lineal.
EJEMPLO - REGRESIÓN LINEAL SIMPLE
b) Hallando los coeficientes de regresión

Experiencia Ventas(miles)
XY X2 Y2 𝒏=𝟕
(X) (Y)

1 13 26 338 169 676


𝒙=
∑ 𝒙 = 𝟏𝟎𝟔 =𝟏𝟓 .𝟏𝟒
𝒏 𝟕

2 16 33 528 256 1089
x 106 194
3 30 36 1080 900 1296 n∑
 7𝒚 ; 𝟏𝟗𝟒 x   15.14 ; y  27.71
4 2 16 32 4 256 𝒚= = n .𝟕𝟏
=𝟐𝟕 7 7
𝒏 𝟕
5 8 26 208 64 676
n
6 6 19 114 36 361  xi yi  nxy
 x1178 3478  7(15.14)(27.71)
106 194 b1 ^
i 1
7 31
n 7 ;
38
x 
n
961
 15.14
7
; y  1444  27.71
7 𝑦 =17.29+
n

x  nx
2390
2
i
 7(15.14) 𝑥
0.688 2

 0.688 2

∑X= 106 ∑Y=194 ∑XY=3478 ∑ X2=2390 ∑ Y2=5798


i 1
n
 xi yi  nxy
3478  7(15.14)(27.71) b0  y  b1 x  27.71  ( 0.688 )15.14  17.29
b1  i 1
  0.688
n
2390  7(15.14) 2

x 2
i
 nx 2
i 1

b0  y  b1 x  27.71  ( 0.688 )15.14  17.29


EJEMPLO - REGRESIÓN LINEAL SIMPLE
Ecuación e interpretación
Entonces la ecuación de regresión estimada será:
^
𝑦 =𝑏 0 +𝑏1 𝑥 → ^
𝑦 =17.29+ 0.688 𝑥
INTERPRETACIÓN:
, son las ventas de un empleado cuando es cero o cuando no tienen años de experiencia. En otras
palabras un vendedor tendrá en promedio ventas de S/.17290 si no tiene años de experiencia.
, es el incremento en 0.688 cuando aumenta en una unidad. En otras palabras es el aumento en
S/.0.688 por cada año de experiencia que adquiera un empleado.

c) Predicción para X=40


=44.826
Un empleado con 40 años de experiencia en ventas, venderá aproximadamente S/.44826
COEFICIENTE DE DETERMINACIÓN
Es una medida que nos indica si el modelo encontrado es aceptable para realizar estimaciones
(bondad de la predicción)
2
R =(r) ó también como
2 2 S
R 2  1  e2
SY

R2 Ajuste del modelo


0.00 < R2 ≤ 0.20 No tiene buen ajuste
0.20 < R2 ≤ 0.40 No tiene buen ajuste
0.40 < R2≤ 0.60 Ajuste moderado
0.60 < R2≤ 0.80 Ajuste aceptable
0.80 < R2≤ 1.00 Buen ajuste
COEFICIENTE DE DETERMINACIÓN
Mide el porcentaje de variabilidad en Y que puede explicarse a través del conocimiento de la
variable independiente X. Se calcula con la siguiente fórmula:
  ( x  x )( y  y )
2

R 
2
 r 2

  xi2  nx 2   yi2  ny 2 
Características:
i. Es un valor no negativo ya que se encuentra entre 0 y 1
ii. Es un valor muy importante en cualquier análisis de regresión, ya que muestra el grado hasta el cual
están relacionadas la variabilidad de e .
Ejemplo:
Del ejemplo sobre la regresión entre los años de experiencia y la ventas tenemos:
, por lo cual
Interpretación: El 88.3% de las variaciones de las ventas (Y) son explicados por los años de experiencia.
Existe además un no es explicado por los años de experiencia.
EJEMPLO - REGRESIÓN LINEAL SIMPLE
Una empresa pesquera quiere estimar el precio de venta por kilo, para ello ha registrado la
producción promedio de pesca de sardinas en toneladas y el precio de venta por kilo en un periodo
de 10 meses. Los datos son:
Mes Producción Precio Variable dependiente: Precio
1 2.5 3.0 Variable independiente: Producción
2 3.5 5.0
3 1.5 4.0 Preguntas:
4 1.0 6.0 1. Elabore el gráfico de dispersión y explique la tendencia de los datos.
5 1.2 6.7 2. Estime el mejor modelo de regresión e interprete el coeficiente de
6 0.8 7.0 regresión.
7 2.7 2.8 3. Evalúe el modelo: coeficiente de correlación y coeficiente de
8 3.8 2.1 determinación.
9 1.1 6.2 4. Estime el precio de venta de sardina cuando la producción de pesca en
10 0.6 8.1 cierto mes fue de 4.5 ton.
EJEMPLO - REGRESIÓN LINEAL SIMPLE
Una empresa pesquera quiere estimar el precio de venta por kilo, para ello ha registrado la producción promedio de pesca de sardinas en toneladas y el precio de venta
por kilo en un periodo de 10 meses. Los datos son: Preguntas:
1. Elabore el gráfico de dispersión y explique la tendencia de los datos.

Mes Producción Precio


1 2.5 3.0
2 3.5 5.0
3 1.5 4.0
4 1.0 6.0
5 1.2 6.7 PRECIO
6 0.8 7.0
7 2.7 2.8
8 3.8 2.1
9 1.1 6.2
10 0.6 8.1

0
PRODUCCIÓN
EJEMPLO - REGRESIÓN LINEAL SIMPLE
Una empresa pesquera quiere estimar el precio de venta por kilo, para ello ha registrado la producción promedio de pesca de sardinas en toneladas y el precio de venta
por kilo en un periodo de 10 meses. Los datos son:
Preguntas:
Mes Producción Precio Estime el mejor modelo de regresión e interprete el coeficiente de regresión.
1 2.5 3.0
2 3.5 5.0
3 1.5 4.0
4 1.0 6.0
5 1.2 6.7
6 0.8 7.0
7 2.7 2.8
8 3.8 2.1
9 1.1 6.2
PRECIO

10 0.6 8.1
^
𝑦 =7.753762 −1.42447 𝑥
2
𝑅 =0.664963 0 PRODUCCIÓN
EJEMPLO - REGRESIÓN LINEAL SIMPLE
Una empresa pesquera quiere estimar el precio de venta por kilo, para ello ha registrado la producción promedio de pesca de sardinas en toneladas y el precio de venta
por kilo en un periodo de 10 meses. Los datos son: Preguntas:
Mes Producción Precio Estime el precio de venta de sardina cuando la producción de pesca en cierto mes fue de 4.5
1 2.5 3.0 ton.
2 3.5 5.0
3 1.5 4.0
4 1.0 6.0
5 1.2 6.7
6 0.8 7.0
7 2.7 2.8
8 3.8 2.1
9 1.1 6.2
PRECIO

10 0.6 8.1
^
𝑦 =7.753762 −1.42447 𝑥
^
𝑦 =7.753762 −1.42447 (4.5)
0 PRODUCCIÓN
2
𝑅 =0.664963
SOLUCIÓN PASO A PASO
Ejemplo
Se llevó a cabo un proyecto de investigación para determinar si existe alguna relación entre los años
de servicio en un hospital y la eficiencia de las enfermeras. Se recogieron los datos siguientes. Se
desea predecir la eficiencia del empleado.

Enfermera Años de servicio Tasa de eficiencia (%)


1 1 43
2 20 97
3 6 59
4 8 66
5 2 44
6 1 42
7 15 89
8 8 65
1. Primero identificamos la variable dependiente y la independiente.
Se puede decir que la variable dependiente es la tasa de eficiencia porque depende de los años
de servicio (experiencia). Por lo tanto la variable independiente son los años de experiencia.

Enfermera Años de servicio Tasa de eficiencia (%)


1 1 43
2 20 97
3 6 59
4 8 66
5 2 44
6 1 42
7 15 89
8 8 65
2. Se traza el diagrama de dispersión.
Para ello los valores de la variable dependiente se colocan en el eje de las y los valores de la
variable independiente en el eje de las . Luego se coloca un punto de intersección entre los
valores de los datos ordenados, al grafico de resultado se le conoce como diagrama de
dispersión.
3. Se calcula el coeficiente de relación.

n
 xi yi  nxy
r i 1
 n 2 2 
n
2 2
  xi  nx    yi  ny 
 i 1   i 1 

r = 0.994235, lo que tiende a indicar que existe una correlación positiva intensa.
RECTA DE MINIMOS CUADRADOS. Para poder obtener la recta de regresión Y en X
utilizaremos la siguiente ecuación de estimación:

4. Calcular la ecuación de mejor ajuste de los


ADRADOS. Para poder obtener la recta de regresión Ŷ  Y b
b0en X1 X
mínimos cuadrados.
uación de estimación:
Primero se calcula b y luego a y se escribe la
Donde los valores de b0 y b1 en la ecuación de regresión son conocidos como coeficientes
ecuación de mejor ajuste.
de regresión y las fórmulas para calcularlos son:
Ŷ  b0  b1 X
n
 i sonx y  nxy
i conocidos como coeficientes b
b1 en la ecuación de
b  regresión
i 1 0  y  b1 x
1 n

para calcularlos son: x 2


i
 nx 2
i 1

Nota: Para hallar las formulas anteriores se deriva la sumatoria de errores al cuadrado con
nxy respecto a b0 y b1 . (Investigación del alumno)
b 0  y  b1 x
2

las anteriores se deriva la sumatoria de errores al cuadrado con


. (Investigación del alumno)
6. Trazar la línea de mejor ajuste, para ello se debe hacer un pronóstico de los valores de x en la ecuación.
APLICACIÓN
La Liga de Naciones de Voleibol Femenino
de 2019 fue la segunda edición del torneo
anual más importante de selecciones
nacionales de voleibol femenino, el evento
fue organizado por la Federación
Internacional de Voleibol (FIVB) y contó con
16 equipos. En la figura se muestra algunas
jugadoras de la selección de China. Calcule
el coeficiente de correlación entre ambas medidas
e interprételo.
APLICACIÓN
En un laboratorio de metalurgia se han creado dos aleaciones distintas que podrían servir como materia prima para la fabricación de
alambres eléctricos. Se optará por aquella aleación a la que se le pueda predecir el aumento de su longitud cuando se somete a
calentamiento térmico. A continuación, se indican los datos de obtenidos en el laboratorio.
Explique cuál aleación se escogerá.
APLICACIÓN
Se tienen las notas de un examen de Matemáticas y otro de Física. Se desean predecir las notas de
Física en función de las notas de Matemáticas.

MATEMATICA FISICA n
11 12 3
13 14 4
15 13 3
15 15 4
16 17 4
17 16 3
17 17 4
18 17 2
19 18 1
20 20 2
CONCLUSIONES
• Cuando entre las dos variables hay una relación directa, la covarianza da un valor positivo.
• Cuando entre las dos variables hay una relación inversa, la covarianza da un valor negativo.
• Cuando entre las dos variables no hay una relación, la covarianza da un valor en torno a cero.
• El coeficiente de correlación lineal no tiene unidades.
BIBLIOGRAFÍA RECOMENDADA
Correa Morales, J. C. y Barrera Causil, C. J. (2019). Introducción a la estadística Bayesiana. Instituto Tecnológico Metropolitano.
https://elibro.net/es/lc/biblioua/titulos/105716

Horra Navarro, J. D. L. (2018). Estadística aplicada (3a. ed.). Ediciones Díaz de Santos. https://elibro.net/es/lc/biblioua/titulos/57542

Puente Viedma, C. D. L. (2018). Estadística descriptiva e inferencial. Ediciones IDT. https://elibro.net/es/lc/biblioua/titulos/59931

García Ramos, J. A. Ramos González, C. D. y Ruiz Garzón, G. (2016). Estadística empresarial. Servicio de Publicaciones de la Universidad de Cádiz.
https://elibro.net/es/lc/biblioua/titulos/33881

Gutiérrez González, E. y Vladimirovna Panteleeva, O. (2016). Estadística inferencial 1 para ingeniería y ciencias. Grupo Editorial Patria.
https://elibro.net/es/lc/biblioua/titulos/40474

Llinás Solano, H. (2017). Estadística descriptiva y distribuciones de probabilidad. Universidad del Norte. https://elibro.net/es/lc/biblioua/titulos/70059

Llinás Solano, H. (2017). Estadística Inferencial. Universidad del Norte. https://elibro.net/es/lc/biblioua/titulos/70060

Llinás Solano, H. (2018). Introducción a la estadística matemática. Universidad del Norte. https://elibro.net/es/lc/biblioua/titulos/70063

Rodríguez Franco, J. y Pierdant Rodríguez, A. I. Patria.


(2015). Estadística para administración. Grupo Editorial
https://elibro.net/es/lc/biblioua/titulos/39397
Patria.
Salazar Guerrero, L. J. (2018). Probabilidad y estadística:
para bachilleratos tecnológicos. Grupo Editorial
https://elibro.net/es/lc/biblioua/titulos/40531
“La distancia entre el querer y el poder se acorta con el
entrenamiento”
Anónimo

GRACIAS
ESTADISTICA INFERENCIAL
Unidad IV
REGRESION SIMPLE Y MULTIPLE

Sesión 15
EXAMEN FINAL

Docente: Pedro Ricardo Infantes Rivera

El éxito leve puede ser explicado por las habilidades y el trabajo. El éxito salvaje es atribuible a la varianza.
-Nassim Taleb-
PRESENTACIÓN

Logro general de aprendizaje de la Asignatura


Al finalizar la asignatura, los alumnos
comunican los resultados de la gestión
idónea de la aplicación de métodos y Logro de aprendizaje de la Unidad IV
técnicas de la estadística inferencial,
logrando el buen uso de las herramientas Al finalizar la unidad los alumnos identifican la
digitales para tal fin, evidenciando el relación y asociación entre la variable Logro de aprendizaje de la
tratamiento estadístico de la misma en
relación con su entorno, con pensamiento
dependiente e independiente(s), mediante Semana 15
análisis de regresión y correlación simple y
crítico y compromiso ético.
múltiple, para realizar pronósticos de eventos Al finalizar la semana los alumnos resuelven el
. empresariales. examen final.
“La distancia entre el querer y el poder se acorta con el
entrenamiento”
Anónimo

GRACIAS
ESTADISTICA INFERENCIAL
Unidad IV
REGRESION SIMPLE Y MULTIPLE

Sesión 16
EXAMEN SUSTITUTORIO

Docente: Pedro Ricardo Infantes Rivera

El éxito leve puede ser explicado por las habilidades y el trabajo. El éxito salvaje es atribuible a la varianza.
-Nassim Taleb-
PRESENTACIÓN

Logro general de aprendizaje de la Asignatura


Al finalizar la asignatura, los alumnos
comunican los resultados de la gestión
idónea de la aplicación de métodos y Logro de aprendizaje de la Unidad IV
técnicas de la estadística inferencial,
logrando el buen uso de las herramientas Al finalizar la unidad los alumnos identifican la
digitales para tal fin, evidenciando el relación y asociación entre la variable Logro de aprendizaje de la
tratamiento estadístico de la misma en
relación con su entorno, con pensamiento
dependiente e independiente(s), mediante Semana 16
análisis de regresión y correlación simple y
crítico y compromiso ético.
múltiple, para realizar pronósticos de eventos Al finalizar la semana los alumnos resuelven el
. empresariales. examen sustitutorio
“La distancia entre el querer y el poder se acorta con el
entrenamiento”
Anónimo

GRACIAS

También podría gustarte