Está en la página 1de 27

ESTADÍSTICA PARA LA GESTIÓN

Módulo 2 Estadística bivariada

ESTADÍSTICA PARA LA GESTIÓN


Índice
Introducción ........................................................................................................................................ 3
Unidad 1: Tipos de variables, tablas y gráficos bidimensionales ........................................................ 4
1.1 Tipos de variable ....................................................................................................................... 4
1.2 Tablas de frecuencia bidimensionales ...................................................................................... 4
1.2.1 La distribución marginal de X e Y ....................................................................................... 7
1.2.2 La frecuencia relativa bidimensional (X, Y) ........................................................................ 8
1.2.3 La distribución condicional de X e Y. .................................................................................. 9
1.2.4 Independencia de variables ............................................................................................. 11
1.3 Gráficos bidimensionales ........................................................................................................ 12
1.3.1 Gráfico de dispersión ....................................................................................................... 12
Unidad 2 Medidas condicionadas de posición, tendencia central y dispersión. .............................. 14
2.1 Covarianza. .............................................................................................................................. 14
2.2 Coeficiente de correlación y determinación. .......................................................................... 17
2.2.1 Coeficiente de correlación lineal (r) ................................................................................. 17
2.2.2 Coeficiente de determinación .......................................................................................... 20
2.3 Error estándar del estimado ................................................................................................... 22
Unidad 3. Modelo de regresión lineal ............................................................................................... 22
3.1 Regresión lineal ....................................................................................................................... 22
3.2 Cálculo del coeficiente de posición y pendiente de un modelo de regresión lineal. .............. 23
3.3 Gráfico de dispersión y datos distantes (atípicos). ................................................................. 24
Bibliografía ........................................................................................................................................ 26

ESTADÍSTICA PARA LA GESTIÓN


Introducción
El apunte correspondiente al Módulo 2 de la asignatura de Estadística para Administración de
Empresas se divide en tres apartados, la primera unidad aborda los tipos de variables, las tablas de
distribución bidimensional y los gráficos. La segunda unidad de este apunte se enfoca en las
medidas condicionadas de posición, tendencia central y dispersión. La tercera unidad aborda el
modelo de regresión lineal, el coeficiente de posición y pendiente del modelo, también se analiza
en profundidad el gráfico de dispersión y su utilidad en la representación del modelo de regresión.

Palabras clave: variables bidimensionales, medidas de tendencia central, modelo de regresión


lineal.

ESTADÍSTICA PARA LA GESTIÓN


Unidad 1: Tipos de variables, tablas y gráficos bidimensionales
1.1 Tipos de variable
Ya vimos en el Módulo 1 que existen variables independientes y dependientes, las variables
independientes o regresoras poseen un valor determinado, el que no depende de una segunda
variable, es decir su valor como dato es independiente. En las variables dependientes también
llamadas de respuesta, su valor sí depende de una segunda variable (la variable independiente). En
estadística cuando se ordenan datos muestrales de a pares (variable dependiente e
independientes), hablamos de un conjunto de datos bivariados o bidimensionales. Se busca
establecer la relación existente entre ambas variables. Cuando estadísticamente se establece una
relación entre dos variables muestrales, se utiliza el término correlación. La correlación existe
entre dos variables cuando una de ellas se relaciona con la otra de alguna forma o manera, la
relación es lineal cuando dicha relación se puede representar en una línea recta en un gráfico
cartesiano, la relación puede ser directamente proporcional o inversamente proporcional. Cuando
existe una sola variable regresora se usa el modelo de regresión lineal simple, cuando el modelo
de regresión es múltiple existen más de una variable regresora.

1.2 Tablas de frecuencia bidimensionales


Ya vimos en el Módulo 1 que podemos construir una tabla de frecuencias para representar la
distribución de las frecuencias de una muestra con una sola variable. Cuando las observaciones de
una muestra entregan datos bivariados; es decir dos variables cuantitativas por cada individuo o
elemento de la muestra, estamos en presencia de una muestra bivariada o bidimensional. Las que
son representadas por las letras “x” e “y”, en estadística se suele utilizar la letra “x”, para
representar la variable independiente (regresora) y a la letra “y” como variable dependiente
(respuesta). Lo anterior indica que los datos de la muestra están ordenados de a pares. El tener
dos datos de una muestra (dos variables) nos obliga a utilizar una tabla de frecuencias
bidimensional (o bivariada), la construcción de la tabla no es nada complejo y muy similar a la
tabla de una muestra con una sola variable.

Ejemplo 1

Recordemos una información del Módulo 1, junto con la edad de los trabajadores Andina
Minerales tiene la información referente a los años que han trabajado en la empresa, en este caso
estamos en presencia de una muestra de 50 observaciones las que nos entregan dos variables por
observación (trabajador), una es la edad y otra es los años trabajados en la Minera. La tabla 1 nos
entrega esa información.

Tabla 1. Trabajadores edad y años trabajados en Andina Minerales.


ID trabajador Edad Años de contrato
1 20 2
2 21 1
3 21 1
4 22 1
5 24 3
6 25 2
7 25 3
8 27 2

ESTADÍSTICA PARA LA GESTIÓN


9 27 1
10 27 5
11 27 5
12 28 3
13 28 4
14 30 4
15 31 7
16 31 7
17 34 8
18 35 7
19 36 9
20 38 10
21 38 12
22 39 13
23 40 15
24 41 16
25 42 12
26 42 13
27 42 13
28 43 15
29 44 17
30 45 20
31 47 16
32 48 19
33 49 15
34 49 20
35 50 21
36 50 23
37 52 20
38 53 20
39 53 21
40 54 24
41 56 26
42 56 29
43 58 25
44 60 30
45 61 31
46 64 40
47 64 44
48 68 40
49 69 40
50 70 45
Fuente: Elaboración propia.

Los datos de la tabla 1 pueden ser analizados de forma independiente, en cuanto a su distribución
incluso sus medidas de tendencia central, pero lo que buscamos es lograr establecer si existe una
relación entre dichas variables, consideraremos como variable “X” la edad del trabajador y como

ESTADÍSTICA PARA LA GESTIÓN


variable “Y” los años trabajados en la empresa. Para poder establecer relaciones entre dos
variables y analizar las variaciones de los valores dado diferentes valores, se recomienda realizar
una tabla de distribución bidimensional, antes se recomienda construir una tabla de doble entrada
o tabla de contingencia. Dentro de la literatura estadística se suelen usar las letras minúsculas para
identificar el valor de las observaciones en relación a la variable, es decir 𝑥1 , 𝑥2 , … representan los
valores de la variable “X” en las observaciones (ID trabajador) 1, 2, etc. Las observaciones
referentes a la variable “Y” se identifican también con las letras minúsculas 𝑦1 , 𝑦2 , .. , etc. El
estudiante debe recordar que X hace referencia a la variable de la muestra y 𝑥1 a una valor de una
observación de dicha variable. Si consideramos una tabla de doble entrada debiese ser construida
de la siguiente forma, ver boceto de doble entrada para pares de datos:

Tabla 2. Ejemplo de construcción tabla doble entrada para las variables (X, Y).
X/Y 𝒚𝟏 𝒚𝟐 . . . . 𝒚𝟒𝟗 𝒚𝟓𝟎
𝒙𝟏 𝑛1,1 𝑛1,2 𝑛1,49 𝑛1,50 𝑛1
𝒙𝟐 𝑛2,1 𝑛2,2 𝑛2,49 𝑛2,50 𝑛2
. .
. .
. .
. .
𝒙𝟒𝟗 𝑛49,1 𝑛49,2 𝑛49,49 𝑛49,50 𝑛49
𝒙𝟓𝟎 𝑛50,1 𝑛50,2 𝑛50,49 𝑛50,50 𝑛50
𝒏,𝟏 𝒏,𝟐 . . . . 𝒏,𝟒𝟗 𝒏,𝟓𝟎 N
Fuente: Elaboración propia.

Los valores de la columna final que parte con 𝑛1 y finaliza con 𝑛50 , marcan las frecuencias de
todos los valores para 𝑥1 hasta 𝑥50 . La última fila que inicia con 𝑛 ,1 y finaliza en 𝑛 ,50 , marca en
cada casilla las frecuencias para los valores de la variable Y, 𝑛 ,1 denota las frecuencias para el valor
𝑦1 . La suma de los valores de la fila de 𝑛 ,1 y la columna de 𝑛1 deben sumar el valor de N (total de
observaciones para el caso de la tabla 1 debe sumar 50). Ahora reemplazamos los 𝑥1 e 𝑦1 basados
en la tabla 1.

ESTADÍSTICA PARA LA GESTIÓN


X/Y 1 2 3 4 5 7 8 9 10 12 13 15 16 17 19 20 21 23 24 25 26 29 30 31 40 44 45 nx
20 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
21 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2
22 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
24 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
25 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2
27 1 1 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4
28 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2
30 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
31 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2
34 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
35 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
36 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
38 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2
39 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
40 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
41 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
42 0 0 0 0 0 0 0 0 0 1 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3
43 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
44 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1
45 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1
47 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
48 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1
49 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 2
50 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 2
52 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1
53 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 2
54 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1
56 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 2
58 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1
60 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1
61 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1
64 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 2
68 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1
69 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1
70 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1
ny 4 3 3 2 2 3 1 1 1 2 3 2 3 1 1 4 2 1 1 1 1 1 1 1 3 1 1 50

Tabla 3. Tabla bidimensional (doble entrada) frecuencias absolutas edad (X) y años de contrato (Y)

Fuente: Elaboración propia.

Si observamos la tabla 3, es posible distinguir cierta linealidad en los datos, a medida que aumenta
la edad del trabajador aumentan los años de contrato en la minera. La columna 𝑛 𝑥 , como ya
sabemos muestra la frecuencia para cada valor de la variable X, la fila 𝑛 𝑦 , muestra la frecuencia
de valores para la variable Y, ambas (columna y fila), suman 50 que son las unidades muestrales
(N). Se denomina frecuencia absoluta a cada valor de cada casilla de la columna 𝑛 𝑥 y su homólogo
en la casilla de la fila 𝑛 𝑦 . Observe la tabla 3, la primera casilla de la columna 𝑛 𝑥 indica la
frecuencia del valor 20 (años edad) en la muestra de 50 trabajadores la que arroja el valor 1.
Observe ahora la fila 𝑛 𝑦 , la primera casilla denota la frecuencia del valor 1 (año de contrato),
arroja el valor 4. Estos valores son absolutos para cada valor de X e Y.

1.2.1 La distribución marginal de X e Y


La distribución marginal en una tabla bidimensional es utilizada permite distinguir las
distribuciones de las variables dentro de la muestra de forma independiente una de otra. Los
valores en cada casilla de la columna 𝑛 𝑥 , corresponden a los valores de la distribución marginal,
para cada observación de X en la muestra independientes del valor de Y. Los valores de cada
casilla de la fila 𝑛 ,𝑦 corresponden a la distribución marginal, para cada valor de Y en la muestra
independiente del valor de X. Se puede concluir que la distribución marginal de X denota la
distribución de la variable X en la muestra sin considerar a la variable Y. La distribución marginal de
Y denota la distribución de la variable Y en la muestra sin considerar a la variable X. Se cumple
entonces que:
50

𝐷𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑚𝑎𝑟𝑔𝑖𝑛𝑎𝑙 𝑑𝑒 𝑋 ∑ 𝑛𝑖 = 𝑁 (𝐹. 01𝑎)


𝑖=1

ESTADÍSTICA PARA LA GESTIÓN


50

𝐷𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑚𝑎𝑟𝑔𝑖𝑛𝑎𝑙 𝑑𝑒 𝑌 ∑ 𝑛 ,𝑗 = 𝑁 (𝐹. 01𝑏)


𝑗=1

Para calcular las frecuencias relativas de las distribuciones marginales de X e Y para cada valor se
cumple que:
𝑛𝑖
𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 𝑚𝑎𝑟𝑔𝑖𝑛𝑎𝑙 𝑑𝑒 𝑋 𝑓𝑛𝑖 = (𝐹. 02𝑎)
𝑁
𝑛 ,𝑗
𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 𝑚𝑎𝑟𝑔𝑖𝑛𝑎𝑙 𝑑𝑒 𝑌 𝑓𝑛 ,𝑗 = (𝐹. 02𝑏)
𝑁
Si Sumamos las frecuencias relativas de cada distribución marginal de los valores de las variables X
e Y ambas arrojan valor 1, se cumple entonces que:
50 50

∑ 𝑛𝑖 = ∑ 𝑛𝑗 = 1 (𝐹. 03)
𝑖=1 𝑗=1

1.2.2 La frecuencia relativa bidimensional (X, Y)


Ya obtenidas las frecuencias absolutas para el par (x, y) es posible obtener la frecuencia relativa de
cada casilla de la tabla 3, es decir las frecuencias relativas conjuntas de los 𝑛𝑥,𝑦 (que en la tabla 2
corresponden a los 𝑛1,1…. 𝑛50,50). Para calcular solo se debe usar la siguiente fórmula (F.03), la
frecuencia absoluta de 𝑛𝑥,𝑦 dividido por el número de observaciones de la muestra (N).
𝑛𝑖,𝑗
𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 𝑓(𝑖,𝑗) = (𝐹. 03)
𝑁
Es posible establecer entonces la frecuencia relativa para cada casilla así como también las
frecuencias relativas en la columna 𝑛𝑥 y en la fila 𝑛𝑦 , la suma de los valores de 𝑛𝑥 y de 𝑛𝑦 debe
dar como resultado 1. En la literatura la frecuencia relativa bidimensional se representa como 𝑓𝑖,𝑗 .
Ver tabla 4.

Tabla 4. Tabla bidimensional frecuencias relativas edad y años de contrato

ESTADÍSTICA PARA LA GESTIÓN


X/Y 1 2 3 4 5 7 8 9 10 12 13 15 16 17 19 20 21 23 24 25 26 29 30 31 40 44 45 nx
20 0 0,02 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,02
21 0,04 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,04
22 0,02 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,02
24 0 0 0,02 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,02
25 0 0,02 0,02 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,04
27 0,02 0,02 0 0 0,04 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,08
28 0 0 0,02 0,02 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,04
30 0 0 0 0,02 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,02
31 0 0 0 0 0 0,04 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,04
34 0 0 0 0 0 0 0,02 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,02
35 0 0 0 0 0 0,02 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,02
36 0 0 0 0 0 0 0 0,02 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,02
38 0 0 0 0 0 0 0 0 0,02 0,02 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,04
39 0 0 0 0 0 0 0 0 0 0 0,02 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,02
40 0 0 0 0 0 0 0 0 0 0 0 0,02 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,02
41 0 0 0 0 0 0 0 0 0 0 0 0 0,02 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,02
42 0 0 0 0 0 0 0 0 0 0,02 0,04 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,06
43 0 0 0 0 0 0 0 0 0 0 0 0,02 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,02
44 0 0 0 0 0 0 0 0 0 0 0 0 0 0,02 0 0 0 0 0 0 0 0 0 0 0 0 0 0,02
45 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,02 0 0 0 0 0 0 0 0 0 0 0 0,02
47 0 0 0 0 0 0 0 0 0 0 0 0 0,02 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,02
48 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,02 0 0 0 0 0 0 0 0 0 0 0 0 0,02
49 0 0 0 0 0 0 0 0 0 0 0 0 0,02 0 0 0,02 0 0 0 0 0 0 0 0 0 0 0 0,04
50 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,02 0,02 0 0 0 0 0 0 0 0 0 0,04
52 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,02 0 0 0 0 0 0 0 0 0 0 0 0,02
53 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,02 0,02 0 0 0 0 0 0 0 0 0 0 0,04
54 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,02 0 0 0 0 0 0 0 0 0,02
56 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,02 0,02 0 0 0 0 0 0,04
58 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,02 0 0 0 0 0 0 0 0,02
60 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,02 0 0 0 0 0,02
61 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,02 0 0 0 0,02
64 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,02 0,02 0 0,04
68 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,02 0 0 0,02
69 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,02 0 0 0,02
70 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,02 0,02
ny 0,08 0,06 0,06 0,04 0,04 0,06 0,02 0,02 0,02 0,04 0,06 0,04 0,06 0,02 0,02 0,08 0,04 0,02 0,02 0,02 0,02 0,02 0,02 0,02 0,06 0,02 0,02 1

Fuente: Elaboración propia.

Es más fácil observar en la tabla la linealidad de los datos cuando se construye la frecuencia
relativa del par de observaciones (x, y).

1.2.3 La distribución condicional de X e Y.


La distribución condicional permite observar el comportamiento de una variable dentro de un
subconjunto de observaciones que poseen cierto valor de la otra variable registrada en la muestra.

Daremos solo un ejemplo para la distribución de X condicionada a un valor de Y. El estudiante


puede realizar los otros cálculos para las distribuciones de X dados los otros valores de Y.
Consideremos para el ejemplo los valores de la variable X y su distribución dentro del subconjunto
Y = 𝑦1 , lo anterior quiere decir que queremos observar cómo se comportan los valores de la
variable X dentro de los valores de Y = 1 año de contrato. También es posible calcular la frecuencia
relativa de los valores de X dado el total de frecuencias de 𝑛𝑦1 , que en la tabla arroja el valor de 4.

Tabla 5. Distribución condicional de X dado Y, para Y = 𝒚𝟏 y frecuencia relativa de X dado 𝒏𝒚𝟏


𝑛𝑥
X/Y = 𝑦1 𝑦1 fx/y1 =
𝑛𝑦1

20 0 0
21 2 0,5
22 1 0,25
24 0 0
25 0 0
27 1 0,25
28 0 0
30 0 0
31 0 0
34 0 0
35 0 0

ESTADÍSTICA PARA LA GESTIÓN


36 0 0
38 0 0
39 0 0
40 0 0
41 0 0
42 0 0
43 0 0
44 0 0
45 0 0
47 0 0
48 0 0
49 0 0
50 0 0
52 0 0
53 0 0
54 0 0
56 0 0
58 0 0
60 0 0
61 0 0
64 0 0
68 0 0
69 0 0
70 0 0
ny1 4 1
Fuente: Elaboración propia.

En la primera columna de la tabla 5 se ubican los valores de la variable X en la segunda columna


las frecuencias de cada valor de X en 𝑦1 , en la tercera columna se observan los valores de la
frecuencia relativa de X en 𝑦1 en la última fila de la tabla 5, se observan los valores de 𝑛𝑦1 que
arroja un valor de 4, luego ese valor 4 es el que divide las frecuencias de X en 𝑦1 , la sumatoria de
las frecuencias relativas de la variable X en 𝑦1 , siempre debe dar como valor 1 (100%), tal como lo
indica la última fila de la tercera columna de la tabla 5.

Para obtener la distribución condicional de Y dado un valor fijo de la variable X, se procede de la


misma forma que en la taba anterior, se invita a que el estudiante verifique la distribución de la
variable Y para el resto de los valores de la variable X. Para el ejemplo utilizaremos X= 27 años de
edad.

Tabla 6. Distribución condicional de Y dado X, para X=𝒙𝟐𝟕 y frecuencia relativa de Y dado 𝒙𝟐𝟕
𝑛𝑦
Y/X = 𝑥27 𝑥27 𝑓𝑦/𝑥 =
𝑛𝑥27

1 1 0,25
2 1 0,25
3 0 0
4 0 0

ESTADÍSTICA PARA LA GESTIÓN


5 2 0,5
7 0 0
8 0 0
9 0 0
10 0 0
12 0 0
13 0 0
15 0 0
16 0 0
17 0 0
19 0 0
20 0 0
21 0 0
23 0 0
24 0 0
25 0 0
26 0 0
29 0 0
30 0 0
31 0 0
40 0 0
44 0 0
45 0 0
nx 4 1
Fuente: Elaboración propia.

En la primera columna de la tabla 6 se ubican todos los valores de la variable Y, la segunda


columna corresponde a la frecuencia absoluta de los valores de la variable Y dado el valor de 𝑥27 ,
en la tercera columna se ubican las frecuencias relativas. Al igual que en la tabla 5, el valor de nx
es 4, para calcular la frecuencia relativa se dividen los valores de la segunda columna por 4, la
suma de las frecuencias relativas debe dar siempre como resultado 1, tal como lo muestra la
última fila de la tercera columna.

1.2.4 Independencia de variables


Se dice que una variable es independiente de otra cuando se cumple que todas sus frecuencias
condicionales (𝑓𝑥𝑖/𝑦𝑗 ) son todas iguales, es decir no dependen del valor condicionante de la otra
variable, se cumple entonces para todos los valores de frecuencia condicional de X/Y lo siguiente:

𝐼𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑓𝑥𝑖/𝑦𝑗 = 𝑓𝑥𝑖 (𝐹. 04)

Con este último análisis damos por finalizada la revisión de la tabla de distribución bidimensional,
con los datos de la tabla es posible determinar la existencia de asociaciones entre las variables,
para ello nos sirve de mucha ayuda el diagrama de dispersión que repasaremos a continuación.

ESTADÍSTICA PARA LA GESTIÓN


1.3 Gráficos bidimensionales
1.3.1 Gráfico de dispersión
El gráfico de dispersión es muy útil, para diagnosticar el comportamiento de los datos en cuanto a
su homogeneidad (similitud de valores de una muestra), también es útil para detectar las
relaciones lineales entre dos o más variables, establecer violaciones a los supuestos de normalidad
de los datos, homocedasticidad etc. El gráfico de dispersión nos permite observar cómo se
comporta una muestra bivariada (X, Y). Triola 2004 nos señala sobre el gráfico de dispersión, lo
siguiente: “Una gráfica en la que datos muestrales apareados (x, y) se grafican en un eje x
horizontal y un eje y vertical. Cada par individual (x, y) se grafica como un solo punto” (p. 497).

Para el caso de este módulo cambiaremos el ejemplo anterior y tomaremos uno nuevo
supongamos el siguiente ejemplo: Andina Minerales, posee los datos de su principal demandante
de láminas de cobre, la empresa China Asiasolar, la cual construye celdas fotovoltaicas y paneles
solares, demanda cobre para poder construir los transformadores y los cables que unen las células
fotovoltaicas, al aumentar su producción de paneles fotovoltaicos, la demanda de láminas de
cobre aumenta considerablemente, la tabla 7 representa las cantidades de cobre demandadas y la
producción de paneles en los últimos 10 años.

Tabla 7. Demanda de láminas de cobre Asiasolar

Años 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
Unidades
producidas paneles 580000 680000 800000 880000 930000 940000 1200000 1300000 1600000 1650000 1880000
por año
Láminas de cobre
demandadas por 50000 80000 70000 90000 120000 130000 200000 220000 300000 310000 350000
año
Fuente: Elaboración propia.

Ya es posible construir el gráfico de dispersión, contamos con los datos de unidades de paneles
fotovoltaicos producidos y láminas de cobre demandadas por año, la tabla nos entrega dos
variables por año, el año en este caso es la observación y láminas demandadas y unidades
producidas por año las variables de la muestra. Para determinar o poder observar una relación
entre ambas variables registradas un diagrama de dispersión nos permite al menos a priori
observar si existe un cambio en una de las variables en relación al aumento o disminución.

Figura 1. Gráfico de dispersión

ESTADÍSTICA PARA LA GESTIÓN


Gráfico dispersión Asiasolar producción y
demanda de láminas de cobre
400000
Laminas de cobre demandadas

350000
300000
250000
200000
150000
100000
50000
0
0 500000 1000000 1500000 2000000
Unidades de paneles producidos por año

Fuente: Elaboración propia.

Es posible de observar una cierta linealidad en los datos; al aumentar las cantidades producidas de
paneles fotovoltaicos existe una directa relación en el aumento de la demanda de láminas de
cobre. Si bien los valores de las observaciones (puntos azules) no se ajustan de forma perfecta al
valor esperado (línea segmentada), si denotan una tendencia lineal.

Se invita al estudiante a realizar el diagrama de dispersión tomando en cuenta los valores de la


tabla 7 de este módulo.

A partir de la elaboración del gráfico de dispersión, es posible obtener visualmente la existencia de


algún tipo de relación entre variables Triola (2004), nos entrega un resumen de los tipos de
resultado de graficar la dispersión de datos apareados.

ESTADÍSTICA PARA LA GESTIÓN


Figura 2. Resumen de gráficos de dispersión

Fuente: Elaboración propia.

Con el cuadro de resumen damos por finalizada la unidad 1 del apunte.

Unidad 2 Medidas condicionadas de posición, tendencia central y dispersión.


2.1 Covarianza.
Vimos que un gráfico de dispersión permite deducir la existencia de una relación entre dos
variables, dicha relación es posible esbozarla en los puntos del gráfico que se asemejan a una recta
(creciente o decreciente). Pero ¿qué medida nos permite establecer estadísticamente dicha
relación denota en el gráfico de dispersión? Una medida inicial es la covarianza, basados en
Anderson, Sweeney y Williams (2008), podemos definir la covarianza una medida descriptiva de la
asociación existente entre dos variables. Consideremos el siguiente supuesto, una muestra de

ESTADÍSTICA PARA LA GESTIÓN


tamaño n con observaciones ordenadas de a pares ( 𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), la covarianza de dicha
muestra se calcula de la siguiente manera:

∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)


𝐶𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 = 𝑆𝑥𝑦 = (𝐹. 05)
𝑛−1

Donde:

𝑥𝑖 − 𝑥̅ : es la desviación de cada 𝑥𝑖 respecto de su media muestral 𝑥̅

𝑦𝑖 − 𝑦̅ : es la desviación de cada 𝑦𝑖 respecto de su media muestral 𝑦̅

(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) : es el producto de cada una de las desviaciones de x e y

∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) : Es la suma de los productos obtenidos de cada par de desviaciones.

𝑛 − 1 : Luego de obtenida la suma se divide por el número de observaciones menos 1 (n -1)

Interpretación y precauciones del uso de la covarianza.

En la Figura 2, el grafico de dispersión representa una muestra de dos variables ordenadas de a


pares (𝑥𝑖 , 𝑦𝑖 ), se forma una cruz segmentada que identifica los valores de las medias de cada
variable: 𝑥̅ = 3 y 𝑦̅ = 51, se denotan 4 puntos dentro del cuadrante formado por las medias. Es
posible señalar observando los cuadrantes que siendo el valor de 𝑠𝑥𝑦 positivo, los puntos que más
influyen sobre la covarianza se encuentran en los cuadrantes 1 y 3, si 𝑠𝑥𝑦 es positivo existe una
asociación lineal positiva entre las variables x e y, si aumenta el valor de x aumenta el valor en y
(directamente proporcional). Si la covarianza (𝑠𝑥𝑦 ), es negativa los puntos de mayor influencia en
la covarianza se encontrarían en los cuadrantes 2 y 4, lo anterior indica una asociación lineal
negativa entre “x” e “y” si aumenta el valor de “x” disminuye el valor en “y” (inversamente
proporcional). Finalmente es posible indicar que si los puntos del diagrama, tienen una
distribución uniforme en los cuatro cuadrantes, la covarianza (𝑠𝑥𝑦 ) tendrá un valor bastante
cercano a cero, por lo tanto no existiría una relación o asociación lineal, entre las variables
estudiadas.

ESTADÍSTICA PARA LA GESTIÓN


Figura 1. Puntos dispersión según media de variables y valor de covarianza (𝒔𝒙𝒚 )

Fuente: Anderson, Sweeney y Williams (2008),

Se debe tener precaución de no dejarse engañar por el valor que arroje la covarianza, si bien un
valor alto puede denotar una relación bastante significativa entre x e y; lamentablemente, la
covarianza se ve muy influenciada por valores extremos en la muestra, lo que podría inducir a
error, de ahí la necesidad de contar con otros estadísticos, que midan la naturaleza de la relación
entre x e y; pero que, a su vez no sean influenciados por sus valores extremos. Lo anterior explica
el uso del coeficiente de correlación, el que veremos más adelante, a modo de cierre de la
covarianza se muestran tres gráficos de dispersión que nos ilustran los valores de 𝑠𝑥𝑦 . Ver figura 2.

Figura 2. Gráfico de dispersión y valores de (𝒔𝒙𝒚 )

Fuente: Anderson, Sweeney y Williams (2008).

ESTADÍSTICA PARA LA GESTIÓN


Ejemplo de cálculo de covarianza, la media de 𝑥𝑖 es 𝑥̅ = 3, la media de 𝑦𝑖 es 𝑦̅ = 51.

La tabla 8. Cálculo de la covarianza


ID 𝒙𝒊 𝒚𝒊 ̅
𝒙𝒊 − 𝒙 ̅
𝒚𝒊 − 𝒚 ̅)(𝒚𝒊 − 𝒚
(𝒙𝒊 − 𝒙 ̅)
1 2 50 -1 -1 1
2 5 57 2 6 12
3 1 41 -2 -10 20
4 3 54 0 3 0
5 4 54 1 3 3
6 1 38 -2 -13 26
7 5 63 2 12 24
8 3 48 0 -3 0
9 4 59 1 8 8
10 2 46 -1 -5 5
Total ∑ 30 510 0 0 99
Fuente: Elaboración propia basada en Anderson, Sweeney y Williams (2008).

Reemplazando los valores en (F.05) queda:


∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) 99 99
𝑆𝑥𝑦 = = = = 11
𝑛−1 10 − 1 9

2.2 Coeficiente de correlación y determinación.


Ya vimos que la correlación, en estadística se refiere a que una variable se relaciona de una cierta
forma con otra, es posible determinar el grado de relación entre las variables utilizando una
medida estadística conocida como coeficiente de correlación lineal y el coeficiente de
determinación

2.2.1 Coeficiente de correlación lineal (r)


Dado que un gráfico de dispersión denota cierta relación entre dos variables se hace necesaria la
existencia de un estadístico que permita establecer el grado de relación entre las variables Triola
(2004) nos señala que el coeficiente de correlación lineal (r), mide: “la fuerza de la relación lineal
entre los valores cuantitativos apareados “x, y” en una muestra… El coeficiente de correlación
lineal también se conoce como coeficiente de correlación producto momento de Pearson, en
honor de Karl Pearson (1857-1936), quien lo desarrolló” (p. 499).

Antes de realizar el cálculo del coeficiente, se hace necesario poner atención a la existencia de dos
supuestos: a) La muestra de datos de a pares es una muestra aleatoria con datos cualitativos y b)
Los pares de datos es decir (x, y), poseen una distribución normal bivariada, este supuesto es el
más complicado de verificar, pero es posible determinar que la distribución es normal si el
histograma representa una forma de campana de Gauss. Para calcular el coeficiente de correlación
lineal se utiliza la siguiente fórmula:
𝑛 ∑ 𝑥𝑦 − (∑ 𝑥)(∑ 𝑦)
𝑟= (𝐹. 06)
√𝑛(∑ 𝑥 2 ) − (∑ 𝑥)2 √𝑛(∑ 𝑦 2 ) − (∑ 𝑦)2

ESTADÍSTICA PARA LA GESTIÓN


Donde:

𝑛: Representa el número de pares presentes en la muestra.

∑: Denota la suma de los elementos que se indican en cada caso

∑ 𝑥 : Indica la suma de todos los valores de x

∑ 𝑥 2 : Indica que todos los valores de x deben elevar al cuadrado y luego sumar

(∑ 𝑥)2 : Indica que todos los valores de x deben sumarse y luego el resultado de la suma se eleva al
cuadrado. No se debe confundir con el anterior (∑ 𝑥)2 .

∑ 𝑥𝑦 : indica que cada valor de x se debe multiplicar primero por su valor “y” correspondiente.
Luego de obtener todos estos productos, se calcula la suma de todos los productos obtenidos.

r: Se utiliza para representar el coeficiente de correlación lineal para una muestra.

p: representa el coeficiente de correlación lineal cuando se refiere a los datos de una población.

Un ejemplo sencillo de calculo del coeficiente de correlación lineal observe la tabla 9

Tabla 9. Pares ordenados de datos


X Y
1 2
1 8
3 6
5 4
Fuente: Elaboración propia.

El valor n=4, se amplía la tabla, agregando los cálculos necesarios para incluir en (F.06)

Tabla 9 b. datos para cálculo de r

x y xy 𝑥2 𝑦2
1 2 2 1 4
1 8 8 1 64
3 6 18 9 36
5 4 20 25 16
Suma (∑) 10 20 48 36 120
Fuente: Elaboración propia.

Ahora reemplazamos los datos en la fórmula:


𝑛 ∑ 𝑥𝑦 − (∑ 𝑥)(∑ 𝑦)
𝑟=
√𝑛(∑ 𝑥 2 ) − (∑ 𝑥)2 √𝑛(∑ 𝑦 2 ) − (∑ 𝑦)2
4(48)−(10)(20)
Reemplazando los valores en 𝑟 =
√4(36)−(10)2 √4(120)− (20)2

−8
Operando en 𝑟 = = −0.135
√44 √80

ESTADÍSTICA PARA LA GESTIÓN


Interpretación del coeficiente de correlación

Una vez obtenido el valor de r, es posible mediante dicho número determinar la existencia o no de
una relación entre las variables X e Y, el ejemplo arroja un -0.135, r siempre arroja valores entre -1
y +1, ambos inclusive, si el valor se acerca a 0, se concluye que no hay una correlación lineal
significativa entre X e Y, caso contrario si r se acerca a los valores -1 +1, se concluye que existe una
correlación lineal significativa entre X e Y. Una guía para la interpretación adecuada del valor r, es
la tabla 10 según los valores de 𝛼 (error permitido) y sus respectivos valores críticos para cada n.

Tabla 10. Valores críticos de r según 𝜶

Fuente: Elaboración propia basado en Triola (2004).

Triola (2004) nos señala cómo interpretar adecuadamente los valores absolutos críticos de la tabla
10: “Si el valor absoluto del valor que se calculó de r excede el valor de la tabla, se concluye que
hay una correlación lineal significativa. De lo contrario, no existe evidencia suficiente para
sustentar la conclusión de una correlación lineal significativa…. con 10 pares de datos y ninguna
correlación lineal entre x e y, existe una probabilidad del 5% de que el valor absoluto del
coeficiente de correlación lineal que se calcula exceda 0.632. Con n 5 10 y sin correlación lineal,
hay una probabilidad del 1% de que exceda 0.765” (p. 501). El estudiante debe recordar que es el
valor absoluto |𝑟| el que se considera en la tabla 10.

Finalmente se resumen las propiedades del coeficiente de correlación r:

a) El valor del estadístico r siempre está entre los valores -1 y +1; ambos inclusive, es decir se
cumple que:

−1 ≤ r ≥ +1
b) El valor del estadístico r no se ve modificado si todos los valores de cualquier variable se
convierten a una escala diferente.

ESTADÍSTICA PARA LA GESTIÓN


c) El valor del estadístico r no se ve afectado por la elección de “x” o “y”. Se pueden intercambiar
todos los valores de “x” e “y”, y el valor de r no sufrirá cambios.

d) r mide la fuerza de una relación lineal. No se diseñó para medir la fuerza de una relación que no
sea lineal.

2.2.2 Coeficiente de determinación


El coeficiente de determinación es la cantidad de variación de “y” explicada por la recta de
regresión (modelo de regresión). El coeficiente de determinación también se le llama r cuadrado
(𝑟 2 ), se utiliza en el modelo de regresión lineal para determinar la bondad de ajuste del modelo
propuesto, su interpretación es la siguiente: el valor de 𝑟 2 se mueve entre 0 y 1, cuanto mayor el
valor se acerque a 1 mayor será el ajuste del modelo a la variable que se quiere explicar. Su
fórmula de cálculo es la siguiente:
𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎
𝑟2 =
𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑡𝑜𝑡𝑎𝑙
∑(𝑦̂ − 𝑦̅)2
𝑟2 = (𝐹. 07)
∑(𝑦 − 𝑦̅)2

Ahora veremos cómo calcular la variación explicada, la variación total y la variación sin explicar,
datos que son necesarios para calcular adecuadamente 𝑟 2 . Para ello suponga la siguiente
situación extraída de Triola (2004): un gran conjunto de datos apareados con estos resultados: a)
Existe una correlación lineal significativa. b) La ecuación de la recta de regresión1 es 𝑦̂ = 3 + 2𝑥. c)
La media de los valores de y está dada por 𝑦⃖ = 9. d) Uno de los pares de datos muestrales es x= 5
e y= 19. e) El punto (5, 13) es uno de los puntos sobre la recta de regresión, ya que al sustituir x = 5
en la ecuación de regresión, resulta 𝑦̂=13, ya que se cumple que: 𝑦̂ = 3 + 2(5) = 3 + 10 = 13.

Dibujamos el punto (5, 13) en la recta que representa la ecuación de regresión, sin embargo, el
punto dado por el par de la muestra (5,19), no corresponde a la recta predicha para valores de y; a
partir de la ecuación de regresión. Existe una desviación de la recta de dicho punto, para
comprender mejor está desviación, ver la figura 3 basada en Triola (2004), la figura 3 representa la
recta de la regresión y también representa el valor medio de la variable Y, los puntos (5,13) y
(5,19) y señala cada una de las desviaciones.

Figura 4. Desviación explicada, sin explicar y total


1
La recta de regresión es una ecuación que permite predecir el valor de la variable respuesta “y” según el valor de la variable regresora
x (de ahí su nombre), si el estudiante no está familiarizado con ecuaciones de la recta, se recomienda que acuda a bibliografía referente
a ecuaciones lineales o ecuaciones de la recta. El símbolo de ̂ 𝑦 (𝑦 𝑠𝑜𝑚𝑏𝑟𝑒𝑟𝑜), se utiliza para representar el valor que toma una
observación de la variable Y que es dependiente del valor de x, y que entrega el resultado de reemplazar un valor de x extraído de la
muestra, dentro de la ecuación de la recta de regresión.

ESTADÍSTICA PARA LA GESTIÓN


Fuente: Triola (2004)

Se invita a que el estudiante observe detenidamente y tome un tiempo prudente de observación


del gráfico y distinga adecuadamente cada una de las fórmulas para cada una de las desviaciones
que la figura 2 entrega, recordar que se parte del supuesto que la media de Y es 9 (𝑦̅ = 9). Una vez
analizada detenidamente la figura 3, se hace necesario explicar teóricamente y basados en Triola
(2004), cada una de las desviaciones y detallar sus cálculos:

a) Desviación total: (a partir de la media) del punto particular (x, y) es la distancia vertical 𝑦 − 𝑦̅,
que es la distancia entre el punto (x, y) y la recta horizontal que pasa por la media muestral 𝑦̅. b)
Desviación explicada: es la distancia vertical 𝑦̂ − 𝑦̅, que es la distancia entre el valor predicho 𝑦̂ y
la recta horizontal que pasa por la media muestral 𝑦̅. c) Desviación sin explicar: es la distancia
vertical 𝑦 − 𝑦̂, que es la distancia vertical entre el punto (x, y) y la recta de regresión. (La distancia
𝑦 − 𝑦̂ también se conoce como un residual, o también se denomina como residuo o error. (Triola
2004)

Ahora realicemos el cálculo de las desviaciones del punto (5,19)

Desviación total de (5, 19) = 𝑦 − 𝑦̅ = 19 − 9 = 10

Desviación explicada de (5, 19) = 𝑦̂ − 𝑦̅ = 13 − 9 = 4

Desviación sin explicar de (5, 19) = 𝑦 − 𝑦̂ = 19 − 13 = 6

Dado lo anterior se cumple que:


(𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑡𝑜𝑡𝑎𝑙) = (𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎) + (𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 sin 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑟)
(𝑦 − 𝑦̅) = (𝑦̂ − 𝑦̅) + (𝑦 − 𝑦̂) (𝐹. 08)
El estudiante habrá notado que para calcular el coeficiente de determinación, es necesario usar la
suma de los cuadrados de las desviaciones, Se utiliza entonces entonces las “variaciones”, las
cuales son la suma de los cuadrados de las desviaciones. “… la variación total se expresa como las
sumas de los cuadrados de los valores de desviación totales, la variación explicada es la suma de

ESTADÍSTICA PARA LA GESTIÓN


los cuadrados de los valores de desviación explicados, y la variación sin explicar es la suma de los
cuadrados de los valores de desviación sin explicar” (Triola 2004, p. 533). Se deduce entonces que:
(𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑡𝑜𝑡𝑎𝑙) = (𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎) + (𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 sin 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑟)

∑(𝑦 − 𝑦̅)2 = ∑(𝑦̂ − 𝑦̅)2 + ∑(𝑦 − 𝑦̂) 2 (𝐹. 09)

2.3 Error estándar del estimado


Se representa por 𝑠𝑒 , es la medida de las distancias entre los valores registrados en la muestra de
“y” observados y los valores predecidos que arroja la ecuación de regresión y su fórmula es la
siguiente:

∑(𝑦 − 𝑦̂)2
𝑆𝑒 = √ (𝑦̂ 𝑒𝑠 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑝𝑟𝑒𝑑𝑒𝑐𝑖𝑑𝑜 𝑑𝑒 𝑦) (𝐹. 10)
𝑛−2

Unidad 3. Modelo de regresión lineal


En toda muestra de conjuntos de datos, existe una diferencia entre los valores de cada
observación, en algunos casos si la diferencia entre de los valores no es tan significativa, estamos
en presencia de una muestra homogénea (poca variación entre los valores observados).

3.1 Regresión lineal


Como ya hemos ido viendo a lo largo de éste apunte, la relación entre dos variables se puede
representar mediante una recta, el modelo estadístico de regresión lineal, nace gracias a Sir
Francis Galton (1822-1911) quien, estudiando el fenómeno de la herencia, demostró que cuando
parejas altas o bajas tienen hijos, las estaturas de éstos tienden a regresar o a revertirse a la
estatura de la media (de ahí el nombre de modelo de regresión). Junto con este descubrimiento,
elabora la ecuación de regresión, que representa la recta de regresión.

La ecuación de regresión lineal lo que expresa es una relación entre las variables “x” (llamada la
variable independiente, variable predictora o variable explicativa) e “y” (llamada la variable
dependiente o variable de respuesta). El estudiante debe recordar la ecuación tradicional de una
línea recta 𝑦 = 𝑚𝑥 + 𝑏, la que en el modelo de regresión lineal está expresada en la forma:

𝑀𝑜𝑑𝑒𝑙𝑜 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑙𝑖𝑛𝑒𝑎𝑙 (𝑀𝑅𝐿) 𝑦̂ = 𝑏0 + 𝑏1 𝑥 (𝐹. 11)


Donde

𝑏0 : Es el intercepto (punto donde corta la recta el eje y)

𝑏1 : Es la pendiente de la recta y acompaña a x.

Existen cuatro supuestos importantes en lo se basa el modelo de regresión: a) Se están


investigando únicamente relaciones lineales. b) Para cada valor de x, y es una variable aleatoria
con una distribución normal (en forma de campana de Gauss). c) Todas estas distribuciones de “y”
tienen la misma varianza. d) Para un valor dado de “x”, la distribución de los valores de “y” tiene
una media que está en la recta de regresión.

ESTADÍSTICA PARA LA GESTIÓN


Una definición más formal de la ecuación de regresión la entrega Triola (2004): “Dado un conjunto
de datos muestrales apareados, la ecuación de regresión describe algebraicamente la relación
entre dos variables. La gráfica de la ecuación de regresión se denomina recta de regresión (recta
del mejor ajuste o recta de mínimos cuadrados)” (p. 518).

Es posible establecer una comparativa entre las diferencias de la ecuación de la recta al referirnos
a la población o a una determinada muestra ver tabla 11.

Tabla 11. Comparativa ecuación de regresión lineal para población y muestra

Parámetro poblacional Estadístico muestral

Intercepto y de la ecuación de regresión 𝛽0 𝑏𝑜

Pendiente de la ecuación de regresión 𝛽1 𝑏1

Ecuación de la recta de regresión 𝑦 = 𝛽0 + 𝛽1 𝑥 𝑦̂ = 𝑏0 + 𝑏1 𝑥


Fuente: Elaboración propia basada en Triola (2004).

3.2 Cálculo del coeficiente de posición y pendiente de un modelo de regresión lineal.


Es posible calcular tanto el coeficiente de posición 𝑏0 como la pendiente de la ecuación de
regresión 𝑏1 , para ello se deben utilizar las siguientes fórmulas:

𝑛(∑ 𝑥𝑦 − (∑ 𝑥)(∑ 𝑦)
𝑃𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒: 𝑏1 = (𝐹. 12)
𝑛(∑ 𝑥 2 ) − (∑ 𝑥)2

𝐼𝑛𝑡𝑒𝑟𝑐𝑒𝑝𝑡𝑜: 𝑏0 = 𝑦̅ − 𝑏1 𝑥̅ (𝐹. 13)

Ya evaluados la pendiente y el intercepto, es posible identificar la ecuación estimada de regresión,


la cual tiene la siguiente propiedad: la recta de regresión es aquella que se ajusta de mejor manera
a los puntos muestrales.

Ejemplo de cálculo de la ecuación de regresión, tomamos como referencia la tabla 9 utilizada para
calcular “r”.

Tabla 9b. Cálculo de ecuación de regresión lineal

x y xy 𝑥2 𝑦2
1 2 2 1 4
1 8 8 1 64
3 6 18 9 36
5 4 20 25 16
Suma (∑) 10 20 48 36 120
Fuente: Elaboración propia basado en Triola (2004).

ESTADÍSTICA PARA LA GESTIÓN


De la tabla 9, se tiene que : 𝑛 = 4, ∑ 𝑥 = 10, ∑ 𝑦 = 20, ∑ 𝑥 2 = 36, ∑ 𝑦 2 = 120, ∑ 𝑥𝑦 = 48

Entonces se procede a reemplazar los valores en las formulas correspondiente quedando:

𝑛(∑ 𝑥𝑦 − (∑ 𝑥)(∑ 𝑦)
𝑏1 =
𝑛(∑ 𝑥 2 ) − (∑ 𝑥)2

4(48 − (10)(20) −8
𝑏1 = 2
= = −0.181818 = −0.182
4(36) − (10) 44

10 20
Para el calculo de 𝑏0 , se deben calcular 𝑥̅ = 4
= 2.5 luego calcular 𝑦̅ = 4
= 5 . ahora s

eingresan los valores en la fórmula:

𝑏0 = 𝑦̅ − 𝑏1 𝑥̅

𝑏0 = 5 − (−0.182)(2.5) = 5.45

Una vez obtenidos la pendiente 𝑏1 y el intercepto 𝑏0 , es posible construir la ecuación de regresión,


determina el valor de 𝑦̂:

𝑦̂ = 5.45 − 0.182𝑥

Existe otro método de cálculo para la ecuación de regresión lineal, conocida como la forma
matricial, la cual no será abordada en éste apunte, pero se invita al estudiante a indagar al
respecto.

3.3 Gráfico de dispersión y datos distantes (atípicos).


A lo largo del apunte hemos visto como el gráfico de dispersión como un gráfico de dispersión nos
permite visualizar la relación entre dos variables paro también es posible identificar deficiencias en
el ajuste o errores de ajustes de un modelo de regresión lineal, planteado en una ecuación de
regresión, para observar estas discrepancias del ajuste. Tal como lo indica Triola (2004): “En un
diagrama de dispersión, un dato distante es un punto que aparece muy lejos de los otros puntos
de datos. Los datos muestrales apareados incluyen uno o más puntos de influencia, que son
puntos que afectan fuertemente la gráfica de la recta de regresión” (p. 524). Por otro lado, para
Triola (2004), un residuo o residual es: “la diferencia (𝑦 − 𝑦̂) entre un valor y muestral observado
y el valor de , que es el valor de y predicho por medio de la ecuación de regresión” (p. 524). Ver la
figura 4.

ESTADÍSTICA PARA LA GESTIÓN


Figura 5. Dispersión y residuos

Fuente: Triola (2004).

La línea celeste de la figura 4 denota la recta de regresión que se construye desde la ecuación de
regresión 𝑦̂ = 5 + 4𝑥, el gráfico de dispersión representa los valores muestrales de la siguiente
tabla 12.

Tabla 12. Valores figura 4

𝑥1 𝑦𝑖
1 4
2 24
4 8
5 32
Fuente: Triola (2004).

Existen algunos residuos evidentes por ejemplo para x= 1 debiese ser un valor 𝑦̂ = 9 según la
ecuación de regresión pero el valor de muestra y = 4 lo que denota una diferencia de -5 es decir un
residuo de -5. Con éste apartado damos por finalizado el apunte del Módulo 2. Se invita al
estudiante a investigar sobre el método de los mínimos cuadrados para determinar la mejor
ecuación de regresión, el método se basa en la propiedad de mínimos cuadrados, que señala que:
“Una recta satisface la propiedad de mínimos cuadrados si la suma de los cuadrados de los
residuales es la menor suma posible” (Triola, 2004 p. 525).

ESTADÍSTICA PARA LA GESTIÓN


Bibliografía

Aguilar, A. Altamira, j. García, O. (2010). Introducción a la inferencia estadística. México: Pearson


Educación.

Anderson, D. Sweeney, D. Williams, T. (2008). Estadística para administración y economía. 10ª


edición. México, D.F.: Cengage Learning Editores, S.A.

Canavos, G. (1988). Probabilidad y estadística, aplicaciones y métodos. Juárez, México: McGraw


Hill.

Córdova, M. (2003). Estadística descriptiva e inferencia. 5 ª edición. Lima, Perú: Moshera

Levin et al. (2004). Estadística para la administración y economía. 7ª edición. Naucalpan de Juárez,
México: Pearson Educación.

Montgomery, D. C., & Runger, G. C. (2012). Probabilidad y estadística. México: Limusa Wiley.

Peña, D. (2014). Fundamentos de estadística. Madrid: Difusora Larousse - Alianza Editorial.


Recuperado de http://www.ebrary.com

Spiegel, M. R. (2009). Estadística. México, D.F.: McGraw-Hill Interamericana.

Triola, M. (2004). Estadística. Novena edición. México: Pearson Educación.

Wackerly, D. Mendenhall, W. Scheaffer, R. (2010). Estadística matemática con aplicaciones.


Séptima edición. D.F., México: Cengage Learning Editores.

Walpole, R. E., Myers, R. H., & Myers, S. L. (1999). Probabilidad y estadística para ingenieros.
México: Prentice- Hall Hispanoamericana, S.A.

ESTADÍSTICA PARA LA GESTIÓN

También podría gustarte