Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadist-Gestion Apunte M2
Estadist-Gestion Apunte M2
Ejemplo 1
Recordemos una información del Módulo 1, junto con la edad de los trabajadores Andina
Minerales tiene la información referente a los años que han trabajado en la empresa, en este caso
estamos en presencia de una muestra de 50 observaciones las que nos entregan dos variables por
observación (trabajador), una es la edad y otra es los años trabajados en la Minera. La tabla 1 nos
entrega esa información.
Los datos de la tabla 1 pueden ser analizados de forma independiente, en cuanto a su distribución
incluso sus medidas de tendencia central, pero lo que buscamos es lograr establecer si existe una
relación entre dichas variables, consideraremos como variable “X” la edad del trabajador y como
Tabla 2. Ejemplo de construcción tabla doble entrada para las variables (X, Y).
X/Y 𝒚𝟏 𝒚𝟐 . . . . 𝒚𝟒𝟗 𝒚𝟓𝟎
𝒙𝟏 𝑛1,1 𝑛1,2 𝑛1,49 𝑛1,50 𝑛1
𝒙𝟐 𝑛2,1 𝑛2,2 𝑛2,49 𝑛2,50 𝑛2
. .
. .
. .
. .
𝒙𝟒𝟗 𝑛49,1 𝑛49,2 𝑛49,49 𝑛49,50 𝑛49
𝒙𝟓𝟎 𝑛50,1 𝑛50,2 𝑛50,49 𝑛50,50 𝑛50
𝒏,𝟏 𝒏,𝟐 . . . . 𝒏,𝟒𝟗 𝒏,𝟓𝟎 N
Fuente: Elaboración propia.
Los valores de la columna final que parte con 𝑛1 y finaliza con 𝑛50 , marcan las frecuencias de
todos los valores para 𝑥1 hasta 𝑥50 . La última fila que inicia con 𝑛 ,1 y finaliza en 𝑛 ,50 , marca en
cada casilla las frecuencias para los valores de la variable Y, 𝑛 ,1 denota las frecuencias para el valor
𝑦1 . La suma de los valores de la fila de 𝑛 ,1 y la columna de 𝑛1 deben sumar el valor de N (total de
observaciones para el caso de la tabla 1 debe sumar 50). Ahora reemplazamos los 𝑥1 e 𝑦1 basados
en la tabla 1.
Tabla 3. Tabla bidimensional (doble entrada) frecuencias absolutas edad (X) y años de contrato (Y)
Si observamos la tabla 3, es posible distinguir cierta linealidad en los datos, a medida que aumenta
la edad del trabajador aumentan los años de contrato en la minera. La columna 𝑛 𝑥 , como ya
sabemos muestra la frecuencia para cada valor de la variable X, la fila 𝑛 𝑦 , muestra la frecuencia
de valores para la variable Y, ambas (columna y fila), suman 50 que son las unidades muestrales
(N). Se denomina frecuencia absoluta a cada valor de cada casilla de la columna 𝑛 𝑥 y su homólogo
en la casilla de la fila 𝑛 𝑦 . Observe la tabla 3, la primera casilla de la columna 𝑛 𝑥 indica la
frecuencia del valor 20 (años edad) en la muestra de 50 trabajadores la que arroja el valor 1.
Observe ahora la fila 𝑛 𝑦 , la primera casilla denota la frecuencia del valor 1 (año de contrato),
arroja el valor 4. Estos valores son absolutos para cada valor de X e Y.
Para calcular las frecuencias relativas de las distribuciones marginales de X e Y para cada valor se
cumple que:
𝑛𝑖
𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 𝑚𝑎𝑟𝑔𝑖𝑛𝑎𝑙 𝑑𝑒 𝑋 𝑓𝑛𝑖 = (𝐹. 02𝑎)
𝑁
𝑛 ,𝑗
𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 𝑚𝑎𝑟𝑔𝑖𝑛𝑎𝑙 𝑑𝑒 𝑌 𝑓𝑛 ,𝑗 = (𝐹. 02𝑏)
𝑁
Si Sumamos las frecuencias relativas de cada distribución marginal de los valores de las variables X
e Y ambas arrojan valor 1, se cumple entonces que:
50 50
∑ 𝑛𝑖 = ∑ 𝑛𝑗 = 1 (𝐹. 03)
𝑖=1 𝑗=1
Es más fácil observar en la tabla la linealidad de los datos cuando se construye la frecuencia
relativa del par de observaciones (x, y).
20 0 0
21 2 0,5
22 1 0,25
24 0 0
25 0 0
27 1 0,25
28 0 0
30 0 0
31 0 0
34 0 0
35 0 0
Tabla 6. Distribución condicional de Y dado X, para X=𝒙𝟐𝟕 y frecuencia relativa de Y dado 𝒙𝟐𝟕
𝑛𝑦
Y/X = 𝑥27 𝑥27 𝑓𝑦/𝑥 =
𝑛𝑥27
1 1 0,25
2 1 0,25
3 0 0
4 0 0
Con este último análisis damos por finalizada la revisión de la tabla de distribución bidimensional,
con los datos de la tabla es posible determinar la existencia de asociaciones entre las variables,
para ello nos sirve de mucha ayuda el diagrama de dispersión que repasaremos a continuación.
Para el caso de este módulo cambiaremos el ejemplo anterior y tomaremos uno nuevo
supongamos el siguiente ejemplo: Andina Minerales, posee los datos de su principal demandante
de láminas de cobre, la empresa China Asiasolar, la cual construye celdas fotovoltaicas y paneles
solares, demanda cobre para poder construir los transformadores y los cables que unen las células
fotovoltaicas, al aumentar su producción de paneles fotovoltaicos, la demanda de láminas de
cobre aumenta considerablemente, la tabla 7 representa las cantidades de cobre demandadas y la
producción de paneles en los últimos 10 años.
Años 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
Unidades
producidas paneles 580000 680000 800000 880000 930000 940000 1200000 1300000 1600000 1650000 1880000
por año
Láminas de cobre
demandadas por 50000 80000 70000 90000 120000 130000 200000 220000 300000 310000 350000
año
Fuente: Elaboración propia.
Ya es posible construir el gráfico de dispersión, contamos con los datos de unidades de paneles
fotovoltaicos producidos y láminas de cobre demandadas por año, la tabla nos entrega dos
variables por año, el año en este caso es la observación y láminas demandadas y unidades
producidas por año las variables de la muestra. Para determinar o poder observar una relación
entre ambas variables registradas un diagrama de dispersión nos permite al menos a priori
observar si existe un cambio en una de las variables en relación al aumento o disminución.
350000
300000
250000
200000
150000
100000
50000
0
0 500000 1000000 1500000 2000000
Unidades de paneles producidos por año
Es posible de observar una cierta linealidad en los datos; al aumentar las cantidades producidas de
paneles fotovoltaicos existe una directa relación en el aumento de la demanda de láminas de
cobre. Si bien los valores de las observaciones (puntos azules) no se ajustan de forma perfecta al
valor esperado (línea segmentada), si denotan una tendencia lineal.
Donde:
∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) : Es la suma de los productos obtenidos de cada par de desviaciones.
Se debe tener precaución de no dejarse engañar por el valor que arroje la covarianza, si bien un
valor alto puede denotar una relación bastante significativa entre x e y; lamentablemente, la
covarianza se ve muy influenciada por valores extremos en la muestra, lo que podría inducir a
error, de ahí la necesidad de contar con otros estadísticos, que midan la naturaleza de la relación
entre x e y; pero que, a su vez no sean influenciados por sus valores extremos. Lo anterior explica
el uso del coeficiente de correlación, el que veremos más adelante, a modo de cierre de la
covarianza se muestran tres gráficos de dispersión que nos ilustran los valores de 𝑠𝑥𝑦 . Ver figura 2.
Antes de realizar el cálculo del coeficiente, se hace necesario poner atención a la existencia de dos
supuestos: a) La muestra de datos de a pares es una muestra aleatoria con datos cualitativos y b)
Los pares de datos es decir (x, y), poseen una distribución normal bivariada, este supuesto es el
más complicado de verificar, pero es posible determinar que la distribución es normal si el
histograma representa una forma de campana de Gauss. Para calcular el coeficiente de correlación
lineal se utiliza la siguiente fórmula:
𝑛 ∑ 𝑥𝑦 − (∑ 𝑥)(∑ 𝑦)
𝑟= (𝐹. 06)
√𝑛(∑ 𝑥 2 ) − (∑ 𝑥)2 √𝑛(∑ 𝑦 2 ) − (∑ 𝑦)2
∑ 𝑥 2 : Indica que todos los valores de x deben elevar al cuadrado y luego sumar
(∑ 𝑥)2 : Indica que todos los valores de x deben sumarse y luego el resultado de la suma se eleva al
cuadrado. No se debe confundir con el anterior (∑ 𝑥)2 .
∑ 𝑥𝑦 : indica que cada valor de x se debe multiplicar primero por su valor “y” correspondiente.
Luego de obtener todos estos productos, se calcula la suma de todos los productos obtenidos.
p: representa el coeficiente de correlación lineal cuando se refiere a los datos de una población.
El valor n=4, se amplía la tabla, agregando los cálculos necesarios para incluir en (F.06)
x y xy 𝑥2 𝑦2
1 2 2 1 4
1 8 8 1 64
3 6 18 9 36
5 4 20 25 16
Suma (∑) 10 20 48 36 120
Fuente: Elaboración propia.
−8
Operando en 𝑟 = = −0.135
√44 √80
Una vez obtenido el valor de r, es posible mediante dicho número determinar la existencia o no de
una relación entre las variables X e Y, el ejemplo arroja un -0.135, r siempre arroja valores entre -1
y +1, ambos inclusive, si el valor se acerca a 0, se concluye que no hay una correlación lineal
significativa entre X e Y, caso contrario si r se acerca a los valores -1 +1, se concluye que existe una
correlación lineal significativa entre X e Y. Una guía para la interpretación adecuada del valor r, es
la tabla 10 según los valores de 𝛼 (error permitido) y sus respectivos valores críticos para cada n.
Triola (2004) nos señala cómo interpretar adecuadamente los valores absolutos críticos de la tabla
10: “Si el valor absoluto del valor que se calculó de r excede el valor de la tabla, se concluye que
hay una correlación lineal significativa. De lo contrario, no existe evidencia suficiente para
sustentar la conclusión de una correlación lineal significativa…. con 10 pares de datos y ninguna
correlación lineal entre x e y, existe una probabilidad del 5% de que el valor absoluto del
coeficiente de correlación lineal que se calcula exceda 0.632. Con n 5 10 y sin correlación lineal,
hay una probabilidad del 1% de que exceda 0.765” (p. 501). El estudiante debe recordar que es el
valor absoluto |𝑟| el que se considera en la tabla 10.
a) El valor del estadístico r siempre está entre los valores -1 y +1; ambos inclusive, es decir se
cumple que:
−1 ≤ r ≥ +1
b) El valor del estadístico r no se ve modificado si todos los valores de cualquier variable se
convierten a una escala diferente.
d) r mide la fuerza de una relación lineal. No se diseñó para medir la fuerza de una relación que no
sea lineal.
Ahora veremos cómo calcular la variación explicada, la variación total y la variación sin explicar,
datos que son necesarios para calcular adecuadamente 𝑟 2 . Para ello suponga la siguiente
situación extraída de Triola (2004): un gran conjunto de datos apareados con estos resultados: a)
Existe una correlación lineal significativa. b) La ecuación de la recta de regresión1 es 𝑦̂ = 3 + 2𝑥. c)
La media de los valores de y está dada por 𝑦⃖ = 9. d) Uno de los pares de datos muestrales es x= 5
e y= 19. e) El punto (5, 13) es uno de los puntos sobre la recta de regresión, ya que al sustituir x = 5
en la ecuación de regresión, resulta 𝑦̂=13, ya que se cumple que: 𝑦̂ = 3 + 2(5) = 3 + 10 = 13.
Dibujamos el punto (5, 13) en la recta que representa la ecuación de regresión, sin embargo, el
punto dado por el par de la muestra (5,19), no corresponde a la recta predicha para valores de y; a
partir de la ecuación de regresión. Existe una desviación de la recta de dicho punto, para
comprender mejor está desviación, ver la figura 3 basada en Triola (2004), la figura 3 representa la
recta de la regresión y también representa el valor medio de la variable Y, los puntos (5,13) y
(5,19) y señala cada una de las desviaciones.
a) Desviación total: (a partir de la media) del punto particular (x, y) es la distancia vertical 𝑦 − 𝑦̅,
que es la distancia entre el punto (x, y) y la recta horizontal que pasa por la media muestral 𝑦̅. b)
Desviación explicada: es la distancia vertical 𝑦̂ − 𝑦̅, que es la distancia entre el valor predicho 𝑦̂ y
la recta horizontal que pasa por la media muestral 𝑦̅. c) Desviación sin explicar: es la distancia
vertical 𝑦 − 𝑦̂, que es la distancia vertical entre el punto (x, y) y la recta de regresión. (La distancia
𝑦 − 𝑦̂ también se conoce como un residual, o también se denomina como residuo o error. (Triola
2004)
∑(𝑦 − 𝑦̂)2
𝑆𝑒 = √ (𝑦̂ 𝑒𝑠 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑝𝑟𝑒𝑑𝑒𝑐𝑖𝑑𝑜 𝑑𝑒 𝑦) (𝐹. 10)
𝑛−2
La ecuación de regresión lineal lo que expresa es una relación entre las variables “x” (llamada la
variable independiente, variable predictora o variable explicativa) e “y” (llamada la variable
dependiente o variable de respuesta). El estudiante debe recordar la ecuación tradicional de una
línea recta 𝑦 = 𝑚𝑥 + 𝑏, la que en el modelo de regresión lineal está expresada en la forma:
Es posible establecer una comparativa entre las diferencias de la ecuación de la recta al referirnos
a la población o a una determinada muestra ver tabla 11.
𝑛(∑ 𝑥𝑦 − (∑ 𝑥)(∑ 𝑦)
𝑃𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒: 𝑏1 = (𝐹. 12)
𝑛(∑ 𝑥 2 ) − (∑ 𝑥)2
Ejemplo de cálculo de la ecuación de regresión, tomamos como referencia la tabla 9 utilizada para
calcular “r”.
x y xy 𝑥2 𝑦2
1 2 2 1 4
1 8 8 1 64
3 6 18 9 36
5 4 20 25 16
Suma (∑) 10 20 48 36 120
Fuente: Elaboración propia basado en Triola (2004).
𝑛(∑ 𝑥𝑦 − (∑ 𝑥)(∑ 𝑦)
𝑏1 =
𝑛(∑ 𝑥 2 ) − (∑ 𝑥)2
4(48 − (10)(20) −8
𝑏1 = 2
= = −0.181818 = −0.182
4(36) − (10) 44
10 20
Para el calculo de 𝑏0 , se deben calcular 𝑥̅ = 4
= 2.5 luego calcular 𝑦̅ = 4
= 5 . ahora s
𝑏0 = 𝑦̅ − 𝑏1 𝑥̅
𝑏0 = 5 − (−0.182)(2.5) = 5.45
𝑦̂ = 5.45 − 0.182𝑥
Existe otro método de cálculo para la ecuación de regresión lineal, conocida como la forma
matricial, la cual no será abordada en éste apunte, pero se invita al estudiante a indagar al
respecto.
La línea celeste de la figura 4 denota la recta de regresión que se construye desde la ecuación de
regresión 𝑦̂ = 5 + 4𝑥, el gráfico de dispersión representa los valores muestrales de la siguiente
tabla 12.
𝑥1 𝑦𝑖
1 4
2 24
4 8
5 32
Fuente: Triola (2004).
Existen algunos residuos evidentes por ejemplo para x= 1 debiese ser un valor 𝑦̂ = 9 según la
ecuación de regresión pero el valor de muestra y = 4 lo que denota una diferencia de -5 es decir un
residuo de -5. Con éste apartado damos por finalizado el apunte del Módulo 2. Se invita al
estudiante a investigar sobre el método de los mínimos cuadrados para determinar la mejor
ecuación de regresión, el método se basa en la propiedad de mínimos cuadrados, que señala que:
“Una recta satisface la propiedad de mínimos cuadrados si la suma de los cuadrados de los
residuales es la menor suma posible” (Triola, 2004 p. 525).
Levin et al. (2004). Estadística para la administración y economía. 7ª edición. Naucalpan de Juárez,
México: Pearson Educación.
Montgomery, D. C., & Runger, G. C. (2012). Probabilidad y estadística. México: Limusa Wiley.
Walpole, R. E., Myers, R. H., & Myers, S. L. (1999). Probabilidad y estadística para ingenieros.
México: Prentice- Hall Hispanoamericana, S.A.