Está en la página 1de 40

ESTADÍSTICA

APLICADA 2
Semana 7
OBJETIVOS DE LA SEMANA
✓El alumno distingue entre variable independiente y
variable dependiente.
✓El estudiante hace uso adecuado de su calculadora
para resolver problemas que involucren el cálculo e
interpretación de coeficiente de correlación, el de
determinación y el error estándar de estimación.
✓El alumno calcula y representa en forma gráfica,
cuando la resolución de problemas lo requiera, la
recta de mínimos cuadrados.
IMAGENES CREATIVE COMMONS CCO
Análisis de
correlación
Muchas veces existe una asociación entre dos
variables, por ejemplo:
▪ Las horas trabajadas y el costo de mano de
obra directa
▪ Las unidades vendidas y el ingreso neto de
la empresa
▪ Los kilómetros recorridos y el combustible
utilizado.
Esta asociación entre variables se puede
medir mediante un grupo de técnicas
estadísticas llamadas análisis de correlación.
DIAGRAMA DE DISPERSIÓN
Un diagrama de dispersión es un grafico que muestra a las dos variables
interactuando y que da una idea general del comportamiento de estas.
Ejemplo: Una empresa de envío de carga, utiliza un camión para el despacho de la
misma. El consumo de Diesel y kilómetros recorridos de los últimos 6 meses se
muestran en la siguiente tabla.
Kilometros Diesel en
Mes
recorridos quetzales
Enero 840 Q16,800.00
Febrero 750 Q15,100.00
Marzo 1200 Q24,700.00
Abril 987 Q20,700.00
Mayo 1100 Q22,450.00
Junio 1375 Q28,000.00
DIAGRAMA DE DISPERSIÓN
Al realizar el grafico de dispersión, el mismo queda de la siguiente forma. En este se
puede observar que a mas kilómetros recorridos hay un mayor costo de combustible.
DIESEL EN QUETZALES
Q30,000.00

Q25,000.00

Q20,000.00

Q15,000.00

Q10,000.00

Q5,000.00

Q0.00
0 200 400 600 800 1000 1200 1400 1600
Kilometros recorridos
VARIABLES DEPENDIENTES E INDEPENDIENTES
Para realizar el análisis de regresión lineal es importante establecer cual de las
variables es la independiente y la dependiente.
Variable independiente: Esta variable se identifica con la letra X, llamada también
variable explicativa. Este valor genera a la variable independiente
Ejemplo: Los kilómetros recorridos causan el gasto de combustible, como se puede ver
en este caso los kilómetros es la variable independiente de la relación.
Variable dependiente: Esta variable se identifica con la letra Y, llamada también
variable de respuesta. Esta variable es el resultado de la variable independiente.
Ejemplo: Una empresa de telemercadeo analiza las ventas del mes de octubre y las
llamadas realizadas a clientes. En este caso se puede ver que las ventas son el
resultado de las llamadas, por lo tanto las ventas es la variable dependiente.
COEFICIENTE DE CORRELACIÓN LINEAL
La relación que existe entre dos variables puede ser fuerte o débil, este grado de
fuerza de relación se mide mediante el coeficiente de correlación.
Mientras mas fuerte sea la relación entre las dos variables mas se parecerán estas a
una línea recta, por ejemplo en el caso anterior la relación kilómetros y combustible
se puede ver que los puntos siguen la dirección de una línea recta. En cambio existen
relaciones débiles como la siguiente, en donde no hay una dirección clara de los
puntos. 900

800

700

600

500

400

300

200

100

0
0 100 200 300 400 500 600 700 800 900
El coeficiente de correlación se representa con la
variable r o también es llamado r de Pearson.
El coeficiente de correlación puede tomar valores
entre -1 y 1 en donde para un valor 1 indica que la
COEFICIENTE DE relación es perfecta y directamente proporcional, es
decir que si el valor de la variable independiente
CORRELACIÓN aumenta entonces también aumenta el valor de la
variable dependiente, si el valor de la variable
LINEAL independiente disminuye, también el valor de la
variable dependiente lo hará.
En caso contrario la relación es inversamente
proporcional, es decir que si X aumenta entonces Y
disminuye
COEFICIENTE DE CORRELACIÓN LINEAL
Ejemplo:
Kilometros Diesel en
Mes
recorridos quetzales
Enero 840 Q16,800.00
Febrero 750 Q15,100.00
Marzo 1200 Q24,700.00
Abril 987 Q20,700.00
Mayo 1100 Q22,450.00
Junio 1375 Q28,000.00

Para la relación entre kilómetros y costo de combustible se observa que para 840
km recorridos el costo es de Q 16,800. Si se observa para 750 km el costo
disminuyó a Q 15,100. Al aumentar nuevamente el valor X a 1,200 el valor Y
también aumentó a Q 24,700 por lo tanto es directamente proporcional
COEFICIENTE DE CORRELACIÓN LINEAL
En el siguiente caso se ve la relación que existe entre el numero de cajas de atención
a clientes y el tiempo en el que son atendidos.
Cajas de atención Minutos en
a cliente espera
X Y
10 30
13 27
15 24
12 26
8 35
20 18
18 22

Se observa que para 10 cajas habilitadas el tiempo de espera es de 30 minutos, si el


número de cajas aumenta a 15 entonces el tiempo disminuye a 24, de la misma
manera si el número de cajas disminuye a 8 el tiempo de espera aumenta a 35
minutos, la relación es entonces inversamente proporcional.
COEFICIENTE DE CORRELACIÓN LINEAL
Se puede concluir entonces que
▪Un valor cercano a +1 indica que hay una relación directa positiva entre las dos
variables.
▪Un valor cercano a -1 indica que hay una relación inversa negativa entre las dos
variables.
▪Un valor cercano a 0 indica que hay una pobre asociación entre las dos variables.
COEFICIENTE DE CORRELACIÓN LINEAL
Para determinar el coeficiente de correlación lineal se utiliza la siguiente ecuación.
σ 𝑋 − 𝑋ത 𝑌 − 𝑌ത
𝑟=
𝑛 − 1 𝑆𝑥 𝑆𝑦

Ejemplo: determinar el coeficiente de correlación de los kilómetros recorridos y el


gasto de Diesel
COEFICIENTE DE CORRELACIÓN LINEAL
Solución: Se debe determinar la media para los valores de X y de Y, así como la
desviación estándar de ambos valores (revise su curso de estadística para
administradores 1).

𝑋ത = 1,042.00 𝑌ത = 21,291.67 𝑆𝑥 = 231.65 𝑆𝑦 = 4,833.68

El siguiente paso es restar cada dato de X con su respectiva media y de la misma


manera restar cada dato de Y con su respectiva media
840 – 1,042.00 = -202.00
750 - 1,042.00 = -292.00
COEFICIENTE DE CORRELACIÓN LINEAL
Kilometros Diesel en
− −
Mes recorridos quetzales
Enero 840 Q16,800.00 -202.00 -Q4,491.67
Febrero 750 Q15,100.00 -292.00 -Q6,191.67
Marzo 1200 Q24,700.00 158.00 Q3,408.33
Abril 987 Q20,700.00 -55.00 -Q591.67
Mayo 1100 Q22,450.00 58.00 Q1,158.33
Junio 1375 Q28,000.00 333.00 Q6,708.33

Luego se deben multiplicar las ultimas dos columnas entre si.


(-202.00)x(-4,491.67)= 907,317.34
COEFICIENTE DE CORRELACIÓN LINEAL
Kilometros Diesel en
− − − −
Mes recorridos quetzales
Enero 840 Q16,800.00 -202.00 -Q4,491.67 Q907,316.67
Febrero 750 Q15,100.00 -292.00 -Q6,191.67 Q1,807,966.67
Marzo 1200 Q24,700.00 158.00 Q3,408.33 Q538,516.67
Abril 987 Q20,700.00 -55.00 -Q591.67 Q32,541.67
Mayo 1100 Q22,450.00 58.00 Q1,158.33 Q67,183.33
Junio 1375 Q28,000.00 333.00 Q6,708.33 Q2,233,875.00
1042.00 Q21,291.67 Q5,587,400.00
Aplicando entonces ahora la ecuación.
COEFICIENTE DE CORRELACIÓN LINEAL.
El valor de n es el numero de relaciones entre variables (el número de filas de la
tabla)
σ 𝑋 − 𝑋ത 𝑌 − 𝑌ത
𝑟=
𝑛 − 1 𝑆𝑥 𝑆𝑦

5,587,400
𝑟=
6 − 1 231.65 4,833.68

𝑟 =0.9979

Como el valor de r es muy cercano a 1 entonces existe una fuerte relación directa
entre las dos variables.
PRUEBA DE LA IMPORTANCIA DEL COEFICIENTE
DE CORRELACIÓN.
Es importante hacer notar que la relación entre las dos variables se realizo en una
muestra pequeña de tamaño 6 ¿Será posible que la correlación de la población sea
cero? Es decir ¿Es posible que la muestra tomada de una correlación incorrecta?
Para esto se determina una prueba de hipótesis del coeficiente de correlación.

Se tomara como hipótesis nula la correlación de la población igual a cero, para


representar a la correlación de la población se utilizara la variable griega rho 𝜌

𝐻𝑜 : 𝜌 = 0

𝐻1 : 𝜌 ≠ 0
PRUEBA DE LA IMPORTANCIA DEL COEFICIENTE
DE CORRELACIÓN.
Dado que la Hipótesis alternativa es diferente a cero, se sabe que es una prueba de
dos colas.
Se establece un nivel de significancia, para este caso se supondrá 0.05 el cual se
buscara en la tabla t
Regla de decisión: En este caso se debe utilizar la tabla de distribución t y ahora el
número de grados de libertad es gl= n-2
Al buscar en la tabla de distribución t para gl=4 y nivel de significancia para 2
colas el valor es
PRUEBA DE LA IMPORTANCIA DEL COEFICIENTE
DE CORRELACIÓN.

A un nivel de significancia del 0.05 para una para una prueba de dos colas el valor
critico t es 2.776, como es de dos colas el valor debe ser tanto positivo como negativo
PRUEBA DE LA IMPORTANCIA DEL COEFICIENTE
DE CORRELACIÓN.
La regla de decisión entonces será; si el valor es mayor o menor de ±2.776 Ho se
rechazará.
La ecuación para prueba t del coeficiente de correlación.

𝑟 𝑛−2
𝑡=
1 − 𝑟2

Para el ejemplo de los kilómetros recorridos y gasto de Diesel

0.9979 6 − 2
𝑡= = 475.69
1 − 0.99792
PRUEBA DE LA IMPORTANCIA DEL COEFICIENTE
DE CORRELACIÓN.

𝑡 = 475.69

𝑡 = −2.776 𝑡 = 2.776

Como el valor de prueba 475.69 es mayor a 2.776 entonces Ho se rechaza, es decir


que el valor de correlación de la población si es diferente a 0.
ANÁLISIS DE REGRESIÓN
El análisis de regresión lineal determina una ecuación que relacione los valores de
X, Y llamada ecuación de regresión lineal.
La ecuación de regresión lineal se determina a través del método de los mínimos
cuadrados
Forma general de la ecuación de regresión lineal.

𝑌෠ = 𝑎 + 𝑏𝑋
ANÁLISIS DE REGRESIÓN
Para determinar la pendiente de la ecuación de regresión lineal se utiliza
𝑆𝑦
𝑏=𝑟
𝑆𝑥

Para determinar la intersección con el eje Y se utiliza


𝑎 = 𝑌ത − 𝑏𝑋ത
ANÁLISIS DE REGRESIÓN
Ejemplo: Una empresa de envío de mercadería tiene el registro de los kilómetros
recorridos y el costo de combustible de los últimos seis meses.
Con esta información determine la ecuación de regresión lineal. ¿Cuál es el costo de
combustible para 1400 kilómetros recorridos?
ANÁLISIS DE REGRESIÓN
Se conocen los siguientes valores

𝑋ത = 1,042.00
𝑌ത = 21,291.67 Para determinar el valor de la pendiente
𝑆𝑥 = 231.65 𝑆𝑦
𝑏=𝑟
𝑆𝑦 = 4,833.68 𝑆𝑥

𝑟 =0.9979 4,833.68
𝑏 = 0.9979
231.65
𝑏 = 20.82
ANÁLISIS DE REGRESIÓN
Para determinar el valor de intersección con el eje Y

𝑎 = 𝑌ത − 𝑏𝑋ത

𝑎 = 21,291.67 − 20.82 1042

𝑎 = −402.77

Por lo tanto la ecuación de regresión lineal es

𝑌෠ = −402.77 + 20.82𝑋
ANÁLISIS DE REGRESIÓN
Para determinar el costo de combustible en un recorrido de 1400 kilómetros se debe
sustituir el valor de 1,400 por X en la ecuación de regresión lineal.

𝑌෠ = −402.77 + 20.82𝑋

𝑌෠ = −402.77 + 20.82 1400

𝑌෠ = 28,745.23
PROBAR LA SIGNIFICANCIA DE LA PENDIENTE
Es importante para el análisis de regresión lineal trabajar con una ecuación que
represente a una línea recta.
Para ello hay que probar que la pendiente de la población es diferente de cero, lo
cual se realiza mediante una prueba de hipótesis.
Paso 1:
Se representará la pendiente de una población mediante la letra griega beta 𝛽
Si la ecuación de regresión lineal obtenida tiene pendiente positiva entonces la
hipótesis nula y alternativa quedarán de la siguiente manera
𝐻𝑜 : 𝛽 ≤ 0
𝐻1 : 𝛽 > 0
PROBAR LA SIGNIFICANCIA DE LA PENDIENTE
Si la pendiente de la ecuación de regresión lineal es negativa entonces hipótesis nula
y alternativa quedaran de la siguiente manera.
𝐻𝑜 : 𝛽 ≥ 0

𝐻1 : 𝛽 < 0

Paso 2: Nivel de significancia: se debe establecer el nivel de significancia a trabajar,


regularmente es 0.05
PROBAR LA SIGNIFICANCIA DE LA PENDIENTE
Paso 3: Se identifica el estadístico de prueba
Para probar la significancia de la pendiente se utilizará
𝑏−0
𝑡=
𝑆𝑏

En donde:
PROBAR LA SIGNIFICANCIA DE LA PENDIENTE
Paso 4: Establecer regla de decisión
Con el nivel de significancia se debe establecer el valor critico t para gl= n-2 grados
de libertad
Para el ejemplo de los kilómetros y combustible el valor critico t, para una cola y 4
grados de libertad es 2.132
Como la pendiente de la ecuación
de regresión lineal es positiva entonces
el valor critico es t=2.132
PROBAR LA SIGNIFICANCIA DE LA PENDIENTE
Probar la muestra y tomar una decisión.
𝑏−0
𝑡=
𝑆𝑏

El error estándar de estimación de este caso es 𝑆𝑏 = 0.66 (aunque existe un método


para determinar el valor no se profundizará en el)
20.82 − 0
𝑡= = 30.55
0.66
PROBAR LA SIGNIFICANCIA DE LA PENDIENTE

𝑡 = 30.55

𝑡 = 2.132

Como se puede observar en el gráfico el valor del la prueba de t es mas grande


que el valor critico t= 2.132 por lo tanto la Ho se rechaza, es decir la pendiente si
es mayor a 0
EVALUACIÓN DE LA CAPACIDAD PREDICTORA DE
LA ECUACIÓN DE REGRESIÓN LINEAL.
Luego de determinar la ecuación de regresión lineal es importante saber si esta es
capaz de predecir el comportamiento de la variable dependiente.
Para esto se puede utilizar una medida que describa que tan preciso es el pronostico
con base en la variable independiente X
Esta medida es el error estándar de estimación el cual se define como la dispersión
de los datos respecto de la recta de regresión y se calcula mediante:

σ 𝑦 − 𝑦ො 2
𝑆𝑦,𝑥 =
𝑛−2
ERROR ESTÁNDAR DE ESTIMACIÓN
Para el ejemplo de los kilómetros recorridos y consumo de combustible determine el
error estándar de estimación.
Solución: la ecuación de regresión lineal se debe aplicar para cada uno de los
valores de X, así como se muestra en la última columna de la tabla
Kilometros Diesel en
Mes 𝑌෠ = −402.77 + 20.82𝑋
recorridos quetzales
Enero 840 Q16,800.00 Q17,086.03
Febrero 750 Q15,100.00 Q15,212.23
Marzo 1200 Q24,700.00 Q24,581.23
Abril 987 Q20,700.00 Q20,146.57
Mayo 1100 Q22,450.00 Q22,499.23
Junio 1375 Q28,000.00 Q28,224.73
ERROR ESTÁNDAR DE ESTIMACIÓN
Ahora se debe restar cada valor de y con su estimado 𝑦ො
Kilometros Diesel en
Mes 𝑌෠ = −402.77 + 20.82𝑋 𝑦 − 𝑦ො
recorridos quetzales
Enero 840 Q16,800.00 Q17,086.03 -Q286.03
Febrero 750 Q15,100.00 Q15,212.23 -Q112.23
Marzo 1200 Q24,700.00 Q24,581.23 Q118.77
Abril 987 Q20,700.00 Q20,146.57 Q553.43
Mayo 1100 Q22,450.00 Q22,499.23 -Q49.23
Junio 1375 Q28,000.00 Q28,224.73 -Q224.73
ERROR ESTÁNDAR DE ESTIMACIÓN
La diferencia de y menos su estimado 𝑦ො se debe elevar al cuadrado y obtener la
sumatoria

Kilometros Diesel en 2
Mes 𝑌෠ = −402.77 + 20.82𝑋 𝑦 − 𝑦ො 𝑦 − 𝑦ො
recorridos quetzales
Enero 840 Q16,800.00 Q17,086.03 -Q286.03 81,813.16
Febrero 750 Q15,100.00 Q15,212.23 -Q112.23 12,595.57
Marzo 1200 Q24,700.00 Q24,581.23 Q118.77 14,106.31
Abril 987 Q20,700.00 Q20,146.57 Q553.43 306,284.76
Mayo 1100 Q22,450.00 Q22,499.23 -Q49.23 2,423.59
Junio 1375 Q28,000.00 Q28,224.73 -Q224.73 50,503.57
= 467,726.98
ERROR ESTÁNDAR DE ESTIMACIÓN
Se aplica entonces la ecuación para n=6 siendo el numero de filas o relaciones de la
muestra.
σ 𝑦 − 𝑦ො 2
𝑆𝑦,𝑥 =
𝑛−2

467,726.98
𝑆𝑦,𝑥 = = 341.95
6−2

Siendo los valores de Y en valores mayores a 15,000 entonces se puede decir que el
error estándar de estimación es pequeño pues esta en el orden de los 300, lo cual
indica que los valores pronosticados estarán cerca de la recta de regresión.
COEFICIENTE DE DETERMINACIÓN
El coeficiente de determinación es una herramienta que brinda la proporción de
variación de la variable Y como efecto de la variación de la variable X.
El coeficiente de determinación es el cuadrado del coeficiente de correlación lineal

𝐶𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑑𝑒𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑐𝑖ó𝑛 = 𝑟 2

Para el ejemplo de los kilómetros recorridos y gasto de combustible el coeficiente de


correlación r= 0.9979 entonces el coeficiente de determinación 𝑟 2 = 0.9958
El cual si se multiplica por 100%, indica que 99.58% del gasto de combustible se
explica o esta relacionado por los kilómetros recorridos.
CAPÍTULO 5 DEL LIBRO EJERCICIOS: 5, 11, 13, REALIZAR EJERCICIOS REALIZAR EJERCICIOS
DE TEXTO. 15, 19, 21, 23, 25, 27. EN LÍNEA AL FINAL DEL LIBRO

LECTURAS OBLIGATORIAS Y TRABAJO.

También podría gustarte