Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Análisis de Datos
Escuela de Negocios
Logro de Aprendizaje N°14:
Aplica la regresión lineal y reconoce su
importancia en la toma de decisiones.
Calcula e interpreta la covarianza,
coeficiente de correlación y determinación,
y la prueba de chi-cuadrado.
TEMA 14:
Análisis Regresión lineal
Observamos
Si el número de
visitas es 100.
¿Cuánto será mis
ventas
aproximadamente?
Estadística y Análisis de Datos
Aprendemos
Aprendemos
Regresión
Son indicadores o medidas estadísticos que permiten medir el
La grado
relación entre dos variables
de concentración cuantitativas.
o desigualdad de cualquier distribución. La
En concentración
general nos de interesa:
una distribución hace referencia al mayor o
menor grado
• Investigar si de igualdad
existe en el reparto
asociación entredellas
total
dosde variables.
los valores de
una variable, son por tanto indicadores del grado de distribución de
• Estudiar la fuerza de la asociación, llamada coeficiente de
la variable.
correlación.
• Estudiar la forma de la relación, para ello proponemos la
relación de variable dependiente (Y) con variable
independiente (X). Además el modelo de regresión lineal
ayuda a “predecir” el valor de la variable
dependiente (Y) cuando la variable independiente (X)
toma un valor determinado.
Estadística y Análisis de Datos
Aprendemos
Modelo Matemático
Son indicadores o medidas estadísticos que permiten medir el
grado de concentración o desigualdad de cualquier distribución. La
La funcióndematemática
concentración una distribuciónquehace referencia al mayor o
menor grado de
relaciona laigualdad
variable en el reparto del total de los valores de
dependiente
una variable, son por tanto indicadores del grado de distribución de
la(Y) y la variable independiente (X)
variable.
es llamado Modelo Matemático.
La función más simple para 𝑌 =𝑎 +𝑏𝑋
relacionar estas dos variables es
la Función Lineal
Estadística y Análisis de Datos
Aprendemos
Rectas de Regresión posibles
Son indicadores o medidas estadísticos que permiten medir el
grado de concentración o desigualdad de cualquier distribución. La
concentración de una distribución hace referencia al mayor o
menor grado de igualdad en el reparto del total de los valores de
una variable, son por tanto indicadores del grado de distribución de
la variable.
Estadística y Análisis de Datos
Aprendemos
En la empresa “Electronics” se venden unidades de dispositivos electrónicos; se tomó una
muestra de las ventas realizadas por 6 de los vendedores de planta y se quiere comparar
laSon
cantidad de llamadas
indicadores realizadas
o medidas durante
estadísticos queel permiten
mes y lasmedir
ventas
el facturadas.
grado de concentración o desigualdad de cualquier distribución. La
Los resultados son los que se muestra en la tabla: Número de
concentración de una distribución hace referencia al mayor o Números de
menor grado de igualdad en el reparto del total de los valores deVendedor unidades
llamadas
vendidas
una variable, son genere
por tantoelindicadores (X)
Utilizando PSPP, diagrama del grado de distribución de
de dispersión (Y)
la variable.
correspondiente a estos datos. Alex Mamani 20 30
¿Qué indica el diagrama de dispersión? Marco López 40 60
Trate de aproximar la relación entre “x” e “y” trazando Luis Baca 30 60
una línea recta que pase a través de los puntos de los Carlos Ordoñez 10 40
datos. Utilizando PSPP encuentre dicha recta.
César Olivo 20 50
Mauricio Pérez 20 35
Estadística y Análisis de Datos
Aprendemos
En PSPP:
1º Elegimos la
Variable
dependiente
Hallaremos 2º Elegimos la
el diagrama Variable 3º
de dispersión independiente El diagrama de
dispersión nos
muestra que los datos
pueden aproximarse a
una recta, ya que hay
una relación positiva
entre “x” e “y”.
Estadística y Análisis de Datos
Aprendemos
3º
En PSPP:
Son indicadores o medidas estadísticos que permiten medir el
grado de concentración o desigualdad de cualquier distribución. La
concentración de una distribución hace referencia al mayor o
menor grado de igualdad en el reparto del total de los valores de
una variable, son por tanto indicadores del grado de distribución de
Hallaremos
la variable. 1º Elegimos la
la ecuación Variable
dependiente
de la recta
estimada.
2º Elegimos la
Variable
independiente
Estadística y Análisis de Datos
Aprendemos
3º
En PSPP:
Son indicadores o medidas estadísticos que permiten medir el
grado de concentración o desigualdad de cualquier distribución. La
concentración de una distribución hace referencia al mayor o
menor grado de igualdad en el reparto del total de los valores de
una variable, son por tanto indicadores del grado de distribución de
la variable.
Hallaremos 1º Elegimos la
la ecuación Variable
dependiente
de la recta
estimada.
2º Elegimos la
Variable
independiente
Estadística y Análisis de Datos
Aprendemos
En PSPP:
Le ecuación de regresión
lineal estimada es:
Hallaremos ^
la ecuación
𝑦 =24.69+0.91 𝑥
de la recta
estimada.
Intersección de la
recta de regresión con
el eje Y
Coeficiente de
regresión
Estadística y Análisis de Datos
Aprendemos
A continuación se tiene el número de cigarrillos consumidos (cientos por persona) y
mortalidad por cáncer de pulmón (muertes/100000 habitantes) en 15 localidades. Halla la
Son indicadores o medidas estadísticos que permiten medir el
ecuación de la recta estimada utilizando PSPP.
grado de concentración o desigualdad de cualquier distribución. La
concentración de una distribución hace referencia al mayor o
Cigarrillos Mortalidad Cigarrillos Mortalidad
menor grado de Localidad
igualdad en el (X)
reparto del total
(M) de los Localidadde
valores (X) (M)
una variable, son por tanto indicadores del grado de distribución de
la variable. 1 18.20 17.05 9 20.10 13.58
2 25.82 19.80 10 27.91 22.80
3 18.24 15.98 11 26.18 20.30
4 28.60 22.07 12 22.12 16.59
5 31.10 22.83 13 21.84 16.84
6 33.60 24.55 14 23.44 17.71
7 40.46 27.27 15 21.58 25.45
8 28.27 23.57
Estadística y Análisis de Datos
Aprendemos
𝑏1 =
∑ ( 𝑥 𝑖 − 𝑥 )( 𝑦 𝑖 − 𝑦 ) 𝑏0 =𝑦 − 𝑏1 𝑥
∑ ( 𝑥𝑖 − 𝑥 )2
Estadística y Análisis de Datos
Aprendemos
En la empresa “Electronics” se venden unidades de dispositivos electrónicos; se tomó una
muestra de las ventas realizadas por 6 de los vendedores de planta y se quiere comparar
laSon
cantidad de llamadas
indicadores realizadas
o medidas durante
estadísticos que elpermiten
mes y las ventas
medir el facturadas.
Los resultados
grado son los oque
de concentración se muestra
desigualdad en la tabla:
de cualquier distribución. La
Número de
concentración de una distribución hace referencia al mayor o Números de
unidades
menor grado de igualdad en el reparto del total de los valores deVendedor llamadas
vendidas
(X)
Utilizando
una variable,el método mínimos
son por tanto cuadrados,
indicadores halle
del grado deladistribución de (Y)
ecuación
la variable.de regresión estimada (recta que más se Alex Mamani 20 30
ajusta a los puntos) .
Marco López 40 60
Luis Baca 30 60
Carlos Ordoñez 10 40
César Olivo 20 50
Mauricio Pérez 20 35
Estadística y Análisis de Datos
Aprendemos
Solución: Utilizando el método de mínimos cuadrados, tenemos:
Son indicadores o Número de que permiten medir el
medidas estadísticos
Números
grado de concentración unidadesde cualquier distribución. La
o desigualdad
Vendedor de llamadas
concentración de una vendidas
(X) distribución hace referencia al mayor o
(Y)
menor grado de igualdad en el reparto del total de los valores de
una
Alexvariable,
Mamanison por 20tanto indicadores
30 del grado de distribución
-3,3333 -15,8333 de 52,77713889 11,11088889
la Marco
variable.
López 40 60 16,6667 14,1667 236,11213889 277,77888889
Luis Baca 30 60 6,6667 14,1667 94,44513889 44,44488889
Carlos Ordoñez 10 40 -13,3333 -5,8333 77,77713889 177,77688889
César Olivo 20 50 -3,3333 4,1667 -13,88886111 11,11088889
Mauricio Pérez 20 35 -3,3333 -10,8333 36,11063889 11,11088889
Aprendemos
Solución:
Hallando b1 y b0 en:
4 83,33333333
𝑏1= =0,90625 0,91
533,33333333
^
𝑦 =𝑏0 +𝑏 1 𝑥
^
𝑦 =24.69+0.91 𝑥
Estadística y Análisis de Datos
Aprendemos
Un centro comercial desea estimar la ecuación de regresión lineal estimada, utilizando el
métodos mínimos cuadrado.
La información del comportamiento de las ventas de todos los almacenes de la cadena se
presenta en la siguiente tabla.
Ventas (en
Mes miles de
soles)
1 3
2 7
3 5
4 11
5 14
Estadística y Análisis de Datos
Verificamos lo aprendido
• ¿ Qué es Correlación?
• ¿ Qué regresión?
• ¿ Qué es ecuación de la regresión?
• ¿ En que consiste el método de los mínimos cuadrados?
Estadística y Análisis de Datos
Observamos
Estadística y Análisis de Datos
Aprendemos
Relación entre dos variables cuantitativas: Diagramas de Dispersión
Aprendemos
Relación entre dos variables cuantitativas: Diagramas de Dispersión
Aprendemos
Covarianza
Aprendemos
Covarianza
Estadística y Análisis de Datos
Aprendemos
Propiedades: 𝑆 𝑥𝑦
𝑟=
• El coeficiente de correlación no varía al hacerlo la escala de medición. 𝑆𝑥 𝑆 𝑌
• El signo del coeficiente de correlación es el mismo que el de la covarianza.
• El coeficiente de correlación lineal es un número real comprendido entre −1 y 1.
Estadística y Análisis de Datos
Aprendemos
Coeficiente de Correlación de Pearson
Estadística y Análisis de Datos
Aprendemos
Coeficiente de Correlación de Pearson
Estadística y Análisis de Datos
Aprendemos
Tipos de Correlación
Aprendemos
Grado de Correlación
Correlación Correlación
Correlación Nula
Fuerte Positiva Débil Negativa
Estadística y Análisis de Datos
Aprendemos
Coeficiente de Determinación
El coeficiente de determinación es el cuadrado del coeficiente de
correlación lineal de Pearson .
El coeficiente de determinación se expresa mediante el r2.
Este coeficiente determina la calidad del modelo para predecir 2 𝑆2𝑥𝑦
resultados 𝑟=
𝑆2𝑥 𝑆 2𝑦
Propiedades:
• El coeficiente de determinación es un número comprendido entre 0 y
1.
• Este coeficiente suele expresarse en porcentajes (%)
Estadística y Análisis de Datos
Aprendemos
Ejemplo:
En la empresa “Electronics” se venden unidades de dispositivos electrónicos; se tomó una
muestra de las ventas realizadas por 6 de los vendedores de planta y se quiere comparar la
cantidad de llamadas realizadas durante el mes y las ventas facturadas.
Número de
Números de
unidades
Los resultados son los que se muestra en la tabla: Vendedor llamadas
vendidas
(X)
(Y)
a. Calcule la covarianza.
Alex Mamani 20 30
b. Calcule el coeficiente de correlación. Marco López 40 60
c. Calcule el coeficiente de determinación. Luis Baca 30 60
d. Utilizando el PSPP, validemos los resultados anteriores. Carlos Ordoñez 10 40
Aprendemos
Solución: Utilizando el cuadro anterior, tenemos:
Números Número de
de unidades
Vendedor
llamadas vendidas
(X) (Y)
Alex Mamani 20 30 -3,3333 -15,8333 52,77713889 11,11088889 250,69338889
Marco López 40 60 16,6667 14,1667 236,11213889 277,77888889 200,69538889
Luis Baca 30 60 6,6667 14,1667 94,44513889 44,44488889 200,69538889
Carlos Ordoñez 10 40 -13,3333 -5,8333 77,77713889 177,77688889 34,02738889
César Olivo 20 50 -3,3333 4,1667 -13,88886111 11,11088889 17,36138889
Mauricio Pérez 20 35 -3,3333 -10,8333 36,11063889 11,11088889 117,36038889
Aprendemos
Solución: 1º Hallando la covarianza y desviación estándar de las variables:
𝑆 𝑥𝑦 =
∑ ( 𝒙 𝒊 − 𝒙 )( 𝒚 𝒊 − 𝒚 )
⟹𝑆
4 83,33333333
𝑥𝑦 = = 96,66666667 96.6 6 67
6 6−1
√ ∑ ( 𝒙𝒊− 𝒙 )2
5 33,33333333
𝑆 𝑥= ⟹ 𝑆 𝑥= =10,32795559 10,328 Como la Covarianza es
6 −1 6 −1
mayor a cero, entonces hay
√
dependencia de las
𝑆𝑦 =
∑ 2
(𝒚𝒊 −𝒚 )
⟹ 𝑆𝑦 =
8 20,33333333
=12,81275406 12,8128
variables.
6 −1 6 −1
Estadística y Análisis de Datos
Aprendemos
El hacer llamadas telefónicas a los posibles clientes nos llevó a un incremento en las ventas.
Estadística y Análisis de Datos
Aprendemos
Solución: 3º Hallando el coeficiente de determinación:
2 𝑆2𝑥𝑦 2 2
𝑟 = 2 2
⟹ 𝑟 = ( 0,7305 ) = 0 , 533629442 0 , 5336
𝑆 𝑆 𝑥 𝑦
Aprendemos
3º
En PSPP:
1º Elegimos la
Variable
Hallaremos los
dependiente
coeficientes de
correlación y
determinación 2º Elegimos la
Variable
independiente
Estadística y Análisis de Datos
Aprendemos
En PSPP:
Se muestra el
Hallaremos los coeficiente de
coeficientes de determinación.
correlación y
determinación
Estadística y Análisis de Datos
Aprendemos
Resuelve:
La información del comportamiento de las ventas de todos los almacenes de un centro
comercial se presenta en la siguiente tabla.
Ventas
a. Calcule la covarianza. Mes (en miles de
soles)
b. Calcule el coeficiente de correlación.
c. Calcule el coeficiente de determinación. 1 3
Aprendemos
Resuelve:
A continuación se tiene el número de cigarrillos consumidos (cientos por persona) y
mortalidad por cáncer de pulmón (muertes/100000 habitantes) en 15 localidades.
Verificamos lo aprendido
Observamos
Aprendemos
Relacionan de una
inferencia, donde se desea Prueba de
Prueba de hipótesis que
estudiar si la asociación independencia
encontrada entre dos
determina si dos variables Para ello, realizaremos un
variables en una muestra
cualitativos nominales están contraste de hipótesis.
tomada al azar de una
relacionadas o no
población mayor, podría Prueba de
entenderse a la población
de donde toma los datos
homogeneidad de
subpoblación
Estadística y Análisis de Datos
Aprendemos
Aprendemos
Tabla de contingencia
• Esta una tabla de frecuencia simple de dos vías (bidimensional), filas y columnas, se usan
para resumir y anotar los resultados de datos recolectados de dos variables.
• Los grados de libertad de un estadístico calculado sobre un conjunto de datos, se referencia
al número de datos independientes que se necesitan en su cálculo, menos el número de
restricciones que emparejan a las observaciones y el estadístico. Variable B
Grados de libertad
Aprendemos
Pasos para realizar la Prueba del Chi-Cuadrado (2)
1. En primer lugar se debe plantear las hipótesis que someteremos a prueba
Hipótesis Nula (H0): “No existe relación entre la primera y la segunda variable”.
Hipótesis Nula (H1): “Sí existe relación entre la primera y la segunda variable”.
En esta prueba estadística siempre la hipótesis nula plantea que las variables analizadas son independientes.
Aprendemos
Calidad del ¿Le gustó el Calidad del ¿Le gustó el
Cliente Cliente
Ejemplo: Servicio sabor? Servicio sabor?
Aprendemos
En PSPP:
Realizaremos la
prueba del Chi-
Cuadrado (2)
1º Elegimos la
Variable para las filas
4º Elegir
Chi-C
2º Elegimos la
Variable para las
columnas
Estadística y Análisis de Datos
Aprendemos
En PSPP: 5º
6º
Realizaremos
la prueba del
Chi-Cuadrado
(2)
Estadística y Análisis de Datos
Aprendemos
En PSPP:
• Si p-valor <0,05 Se rechaza la
hipótesis nula.
Si el p-valor es mayor a
0.05 se acepta la hipótesis
nula, por lo tanto las dos
variables no están
relacionadas.
Estadística y Análisis de Datos
Verificamos lo aprendido
• ¿ En que consiste el chi-cuadrado?
• ¿ Qué tipo de variable se opera en la prueba de chi-cuadrado?
• ¿ Qué es grado de libertad?
• ¿ Qué es el nivel de significancia?
¡Gracias!