Documentos de Académico
Documentos de Profesional
Documentos de Cultura
22 de diciembre, 2016
1
Registro de Propiedad Intelectual N° A-273337
Héctor Ormeño Campos
Diciembre 2016, Santiago de Chile.
2
Contenido
3
6.5. Error estándar de la media. ............................................................................................................ 64
6.6. Estimación de proporciones............................................................................................................ 64
7. Test de Hipótesis. ..................................................................................................................................... 67
7.1. Test estadísticos relevantes ............................................................................................................. 67
7.2. Test de Diferencia de Medias.......................................................................................................... 67
7.2.1. Test de Diferencia de Medias: muestras pequeñas..................................................................... 69
7.2.2. Test de Diferencia de Medias: tamaños muestrales distintos. .................................................... 69
7.3. Test Chi cuadrado ........................................................................................................................... 70
8. La Programación Lineal. ......................................................................................................................... 73
8.1. Problema de Programación Lineal. ...................................................................................................... 73
8.2. Solución con Método Gráfico. ............................................................................................................... 73
9. Introducción al Modelo de Regresión Lineal. .......................................................................................... 79
9.1. Modelo de Mínimos Cuadrados Ordinarios (MCO) ............................................................................. 79
9.2. Supuestos del MCO. .............................................................................................................................. 80
9.3. Estimación por MCO. ............................................................................................................................ 80
10. Modelo de Regresión Lineal: Ajuste e Inferencia. ................................................................................... 84
10.1. Bondad de Ajuste (R2).......................................................................................................................... 84
10.2. Test estadísticos. .................................................................................................................................. 85
10.2.1. Test de hipótesis: Coeficientes individuales. ................................................................................ 85
10.2.2. P-value.......................................................................................................................................... 86
11. Modelo de Regresión Multivariado. ......................................................................................................... 89
11.1. Test de hipótesis: Significancia Global. .............................................................................................. 89
11.2. Test de Significancia Global: fórmula alternativa. ............................................................................. 90
11.4. Otras formas funcionales..................................................................................................................... 92
4
1. Dimensión cuantitativa de los fenómenos sociales.
¿Por qué dimensión? En este curso llamaremos dimensión cuantitativa de los fenómenos sociales a
todo aquello que podemos medir respecto a un fenómeno de interés que sucede entre las personas,
en los grupos, y en la sociedad, y que se estudia debido a la relevancia que tiene en los últimos. Aún
cuando no se puedan medir directamente dichos fenómenos, es posible encontrar una forma de
cuantificar su evolución (Proxy).
¿Por qué medir? Es importante medir si el fenómeno es de relevancia, por sus consecuencias sobre
la vida de las personas, grupos, y/o sociedad. A su vez, al medir, podemos comprender el
comportamiento de dicho fenómeno, sus particularidades, y ver cómo cambia a partir de la
interacción con otros fenómenos.
Un estado superior del medir es la conformación del modelo, como una interrelación cuantitativa
entre diferentes variables. El modelo proviene de la teoría y su testeo empírico. Este modelo es una
propuesta para comprender el fenómeno, por lo que no quiere decir que corresponde a la verdad
absoluta.
La disciplina de la administración pública se nutre de distintas vertientes entre las que se tiene el
derecho, la economía, las finanzas, la ciencia política, entre otras, algunas de las cuales tiene una
fuerte vertiente de carácter cuantitativo. A su vez, esta dimensión se observa tanto al interior como
en el exterior de los órganos de la administración del estado. En el interior es necesario llevar el
control de las finanzas, efectuar control de gestión, analizar los insumos y elegir la mejor
combinación para llevar a cabo proyectos. En el exterior existe información de suma relevancia,
pues consiste en información que permite dilucidar la demanda por recursos públicos, bienes
públicos y regulaciones, entre otros.
Esta sección considera a grandes rasgos algunos elementos matemáticos necesarios para
comprender la estadística. Entre estos se encuentran las fracciones, exponentes, ecuaciones,
funciones y derivadas, entre otros, elementos importantes en la estadística y las herramientas
cuantitativas en general. Gran parte de este capítulo se basa en Arya et al (2009). Los ejercicios y
ejemplos son citados cuando corresponden a Arya et al, u a otra obra. El objetivo es invitar al lector
a profundizar el conocimiento específico en dichos libros.
3.1. Fracciones.
Una fracción se define como el producto de a y el inverso de b (Arya et al, 2009), esto es:
𝑎𝑎
𝑏𝑏
= 𝑎𝑎𝑏𝑏 −1 donde 𝑏𝑏 ≠ 0 (3.1)
Se pueden realizar una serie de operaciones con las fracciones, las que se definen a continuación.
Multiplicación de fracciones.
𝑎𝑎 𝑐𝑐 𝑎𝑎𝑎𝑎
𝑏𝑏
× 𝑑𝑑 = 𝑏𝑏𝑏𝑏
5
División de fracciones.
𝑎𝑎 𝑐𝑐 𝑎𝑎 𝑑𝑑 𝑎𝑎𝑎𝑎
𝑏𝑏
÷ 𝑑𝑑 = 𝑏𝑏
× 𝑐𝑐 = 𝑏𝑏𝑏𝑏
Adición y sustracción.
𝑎𝑎 𝑏𝑏 𝑎𝑎+𝑏𝑏
𝑐𝑐
+ 𝑐𝑐 = 𝑐𝑐
𝑎𝑎 𝑏𝑏 𝑎𝑎−𝑏𝑏
𝑐𝑐
− 𝑐𝑐 = 𝑐𝑐
𝑎𝑎 𝑏𝑏 𝑎𝑎𝑎𝑎+𝑏𝑏𝑏𝑏
𝑐𝑐
+ 𝑑𝑑 = 𝑐𝑐𝑐𝑐
𝑎𝑎 𝑏𝑏 𝑎𝑎𝑎𝑎−𝑏𝑏𝑏𝑏
𝑐𝑐
− 𝑑𝑑 = 𝑐𝑐𝑐𝑐
Sin embargo la última expresión también se puede resolver acudiendo al mínimo común
denominador, el que corresponde en este caso a 12𝑥𝑥 2 . De esta forma:
3 5 9𝑥𝑥−10
4𝑥𝑥
− 6𝑥𝑥 2 = 12𝑥𝑥 2
3 5𝑥𝑥 𝑥𝑥 2 3 5𝑥𝑥 𝑥𝑥 2
c)
𝑥𝑥−1
− 𝑥𝑥+1 + 𝑥𝑥 2 −1 = 𝑥𝑥−1 − 𝑥𝑥+1 + (𝑥𝑥+1)(𝑥𝑥−1)
−5
5 4 20 5
e) 12
3 =− =− =−
12 3 36 9
4
6
(3𝑥𝑥 2 /4) 3𝑥𝑥 2 2 𝑥𝑥 1 𝑥𝑥
f) = = =
(9𝑥𝑥/2) 4 9𝑥𝑥 32 6
2
1− (𝑥𝑥−2) 𝑥𝑥 𝑥𝑥−2
g) 4
𝑥𝑥
= =
𝑥𝑥 4 4
𝑥𝑥
3.2. Exponentes.
De acuerdo a Arya et al (2009), “si m es un entero positivo, entonces 𝑎𝑎𝑚𝑚 se define como el producto
de m factores a multiplicados a la vez”, esto es:
𝑎𝑎𝑚𝑚 = 𝑎𝑎 × 𝑎𝑎 × 𝑎𝑎 × … × 𝑎𝑎 (3.2)
Propiedad 1.
Propiedad 2.
𝑎𝑎 𝑚𝑚
𝑎𝑎 𝑛𝑛
= 𝑎𝑎𝑚𝑚−𝑛𝑛 siempre que 𝑎𝑎 ≠ 0
Propiedad 3.
Propiedad 4.
(𝑎𝑎𝑎𝑎)𝑚𝑚 = 𝑎𝑎𝑚𝑚 𝑏𝑏 𝑚𝑚
Propiedad 5.
𝑎𝑎 𝑚𝑚 𝑎𝑎 𝑚𝑚
� � = 𝑏𝑏𝑚𝑚
𝑏𝑏
De acuerdo a Arya et al (2009), se tiene un exponente fraccionario cuando la base está elevada a
una fracción, esto es:
𝑚𝑚 1 𝑚𝑚
𝑎𝑎 𝑛𝑛 = �𝑎𝑎𝑛𝑛 �
7
Teorema.
𝑚𝑚 𝑚𝑚
Si existe 𝑎𝑎 𝑛𝑛 , entonces 𝑎𝑎 𝑛𝑛 = (𝑎𝑎𝑚𝑚 )1/𝑛𝑛 (3.3)
2
a) √4 = 4
b) √9 = 3
3 3 3
c) √−27 = �(−1)3𝑥𝑥3𝑥𝑥3 = �(−1)33 = −3
5
d) √−243 = −3
1 4
e) �𝑥𝑥 2 � = 𝑥𝑥 2
5
5 3 20−24 1
𝑥𝑥 8 1
f) 3 = 𝑥𝑥 8 − 4 = 𝑥𝑥 32 = 𝑥𝑥 − 8 = 1
𝑥𝑥 4 𝑥𝑥 8
2 −3 6
1
g) �𝑥𝑥 3 � = 𝑥𝑥 −3 = 𝑥𝑥 −2 =
𝑥𝑥 2
3 3
h) �√−8� = −8
3 (−1) 1
i) � =−
125 5
1
1 1 1
j) 49− 2 = = =
√49 √72 7
Las expresiones algebraicas están compuestas por términos, los cuales a su vez están compuestos
por coeficientes y partes literales. Por ejemplo, la expresión 2x3+ 4x4, está compuesta por dos
términos, el primero de los cuales tiene como coeficiente 2, y parte literal x3.
Una expresión algebraica puede compuesta por un término (monomio), dos términos (binomio), o
tres términos (trinomio). Generalizando, una expresión con más de un término es un multinomio
(Arya et al, 2009).
Adición y sustracción.
Multiplicación de expresiones
8
(𝑥𝑥 + 𝑎𝑎)(𝑥𝑥 + 𝑏𝑏) = 𝑥𝑥 2 + (𝑎𝑎 + 𝑏𝑏)𝑥𝑥 + 𝑎𝑎𝑎𝑎
(𝑥𝑥 + 𝑎𝑎)(𝑥𝑥 + 𝑎𝑎) = (𝑥𝑥 + 𝑎𝑎)2 = 𝑥𝑥 2 + 2𝑎𝑎𝑎𝑎 + 𝑎𝑎2 (Binomio suma al cuadrado)
La factorización nos lleva a formular productos más complejos, como los siguientes:
División de expresiones
𝑎𝑎+𝑏𝑏 𝑎𝑎 𝑏𝑏
= +
𝑐𝑐 𝑐𝑐 𝑐𝑐
𝑎𝑎−𝑏𝑏 𝑎𝑎 𝑏𝑏
= −
𝑤𝑤 𝑤𝑤 𝑤𝑤
Para solucionar dicha división hay que seguir una serie de pasos, que se detallan a continuación.
a. Primero se debe dividir el primer término del dividendo por el primer término del divisor,
2𝑥𝑥 3
lo que da como resultado = 𝑥𝑥 2 , y que corresponde al primero término de la línea (1).
2𝑥𝑥
b. En segundo lugar, se debe multiplicar el 𝑥𝑥 2 por el primer termino del divisor, 𝑥𝑥 2 × 2𝑥𝑥 =
2𝑥𝑥 3 , que es el primer término de la línea (3), y luego 𝑥𝑥 2 por el segundo término del divisor,
𝑥𝑥 2 × (−3) = −3𝑥𝑥 2 , que es el segundo termino de la línea (3).
9
c. A continuación se le resta a la línea (2) la línea (3), dando como resultado la línea (4):
0 − 8𝑥𝑥 2 + 0𝑥𝑥 + 23.
d. A continuación, se debe dividir el primer término de la línea (4) por el primer término del
−8𝑥𝑥 2
divisor, dando como resultado 2𝑥𝑥 = −4𝑥𝑥, y que corresponde al segundo término de la
línea (1).
e. A continuación, se debe multiplicar -4x por el primer término del divisor, −4𝑥𝑥 × 2𝑥𝑥 =
−8𝑥𝑥 2, que es el primer termino de la línea (5), y luego −4𝑥𝑥 por el segundo término del
divisor, −4𝑥𝑥 × (−3) = 12𝑥𝑥, que es el segundo término de la línea (5), y el proceso de la
misma forma hacia adelante.
𝑥𝑥 2 − 4𝑥𝑥 − 6 U (1)
(2𝑥𝑥 − 3)|2𝑥𝑥 3 − 11𝑥𝑥 2 + 0𝑥𝑥 + 23 (2)
2𝑥𝑥 3 − 3𝑥𝑥 2 (3)
0 − 8𝑥𝑥 2 + 0𝑥𝑥 + 23 U (4)
−8𝑥𝑥 2 + 12𝑥𝑥 U (5)
0 − 12𝑥𝑥 + 23 (6)
−12𝑥𝑥 + 18 U (7)
0 + 5 (8)
Una vez realizado el proceso, la solución es igual a la siguiente expresión, donde el coeficiente se
divide por uno, y el residuo (que es 5 en este caso) se divide por el divisor.
𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷 𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅
= 𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶 + (3.4)
𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷 𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷
3.5. Factorización.
A continuación revisaremos algunas estrategias útiles de factorización, las que por su carácter
general, pueden ser de gran utilidad.
Como se puede observar, la resolución de estas factorizaciones es una consecuencia directa del
producto notable (𝑥𝑥 + 𝑎𝑎)(𝑥𝑥 + 𝑏𝑏) = 𝑥𝑥 2 + (𝑎𝑎 + 𝑏𝑏)𝑥𝑥 + 𝑎𝑎𝑎𝑎. En el primer caso (a + b) es igual a
1+2=3, mientras que ab es igual a 2.
10
Ejemplo 3: Sin embargo, a veces nos podemos encontrar con factorizaciones más complejas, como
es el caso de:
3𝑥𝑥 2 + 11𝑥𝑥 + 6
Como se puede observar, en este caso la ecuación surge de la forma más general:
𝑚𝑚𝑚𝑚 2 + 𝑝𝑝𝑝𝑝 + 𝑞𝑞
Donde m, p y q son constantes distintas de cero y 𝑚𝑚 ≠ 1 o −1. Para solucionar este problema, la
clave es encontrar dos factores del producto mq que sumen p. En este caso mq=3x6=18, y dos
factores de mq que sumen p pueden ser 9x2=18. Ahora, se procede de la siguiente forma:
3𝑥𝑥 2 + (9 + 2)𝑥𝑥 + 6
3𝑥𝑥 2 + 9𝑥𝑥 + 2𝑥𝑥 + 6
3𝑥𝑥(𝑥𝑥 + 3) + 2(𝑥𝑥 + 3)
(3𝑥𝑥 + 2)(𝑥𝑥 + 3)
3.6. Ecuaciones.
Una ecuación “es una proposición que expresa la igualdad de dos expresiones algebraicas” (Arya et
al, 2009). Ejemplos de ecuaciones son:
2𝑥𝑥 − 3 = 9 − 𝑥𝑥
𝑦𝑦 2 − 5𝑦𝑦 = 6 − 4𝑦𝑦
𝑎𝑎
= 𝑠𝑠
1−𝑟𝑟
En general, “un valor de la variable que haga que la ecuación sea una proposición cierta, se
denomina raíz o solución de la ecuación”. Para encontrar dichas raíces es menester resolver la
ecuación. En esta resolución se puede llevar a cabo a través de principios (Arya et al, 2009):
Ejemplo:
5𝑥𝑥 − 3 = 2𝑥𝑥 + 9
3𝑥𝑥 = 12 Solución: x=4.
𝑎𝑎𝑎𝑎 + 𝑏𝑏 = 0 (3.5)
11
Con 𝑎𝑎 ≠ 0, y a, b constantes. La solución de la ecuación es 𝑥𝑥 = −𝑏𝑏/𝑎𝑎. Un ejemplo de ecuación
lineal puede ser:
2𝑥𝑥 + 3 = 0
Done a, b, y c son constantes. La solución de una ecuación cuadrática se puede realizar a través de
dos formas. Por ejemplo, se tiene la siguiente expresión, cuya factorización nos conduce a las raíces
de dicha ecuación.
3𝑥𝑥 2 + 5𝑥𝑥 − 2 = 0
3𝑥𝑥 2 + (6 − 1)𝑥𝑥 − 2 = 0
3𝑥𝑥 2 + 6𝑥𝑥 − 𝑥𝑥 − 2 = 0
3𝑥𝑥(𝑥𝑥 + 2) − (𝑥𝑥 + 2) = 0
(3𝑥𝑥 − 1)(𝑥𝑥 + 2) = 0
Por lo que las raíces de la ecuación son 𝑥𝑥 = 1/3, y 𝑥𝑥 = −2. Sin embargo, también podemos usar la
formula cuadrática. Si se tiene:
−𝑏𝑏±√𝑏𝑏2 −4𝑎𝑎𝑎𝑎
𝑥𝑥 = (3.7)
2𝑎𝑎
−5±�52 −4(3(−2))
𝑥𝑥 = 2(3)
−5±√25+24
𝑥𝑥 = 6
1
𝑥𝑥1 = ^ 𝑥𝑥2 = −2
3
Las ecuaciones permiten resolver una serie de problemas matemáticos. Sin embargo, al analizar
algunos fenómenos podemos ver que existen una serie de problemas en los cuales existe más de un
ecuación. A continuación se revisan algunos ejemplos de sistemas de ecuaciones.
12
Ejemplo 1. Un sistema de ecuaciones puede ser el siguiente (Arya et al, 2009):
𝑥𝑥 + 𝑦𝑦 = 3
3𝑥𝑥 − 𝑦𝑦 = 1
3(3 − 𝑦𝑦) − 𝑦𝑦 = 1
9 − 3𝑦𝑦 − 𝑦𝑦 = 1
9 − 4𝑦𝑦 = 1
4𝑦𝑦 = 8
Ejemplo 2. Usted puede tener el siguiente sistema de ecuaciones con dos variables, y y P.
y = α + βP
y = γ + θP
α + βP = γ + θP
βP − θP = γ − α
P( β − θ ) = γ − α
γ −α
P=
(β − θ )
y = α + βP
(γ − α )
y =α + β
(β − θ )
α ( β − θ ) + β (γ − α )
y=
(β − θ )
αβ − αθ + βγ − βα
y=
(β − θ )
− αθ + βγ
y=
(β − θ )
βγ − αθ
y=
(β − θ )
De hecho, podemos comprobar si el par (y, P) corresponde a los valores correctos. Para esto
podemos reemplazar directamente en la primera ecuación del sistema:
y = α + βP
βγ − αθ (γ − α )
=α + β
(β − θ ) (β − θ )
13
βγ − αθ α ( β − θ ) + β (γ − α )
=
(β − θ ) (β − θ )
βγ − αθ αβ − αθ + βγ − βα
=
(β − θ ) (β − θ )
βγ − αθ − αθ + βγ
=
(β − θ ) (β − θ )
βγ − αθ βγ − αθ
=
(β − θ ) (β − θ )
Ejemplo 3. De lo anterior se puede ver que un sistema de ecuaciones se puede resolver de diferentes
formas, sin embargo, es importante dejar el sistema de una forma en la cual se puede resolver de
forma simple. Analice el siguiente ejercicio.
2 1 1
−1
= −1
− −1
x 200 y
1 x
= 20 + −1
y −1 2
En este caso, primero debemos expresar en forma más simple el sistema, esto es:
2 x = 200 − y
y = 20 + 2 x
Ahora se procede a resolver el sistema. Una forma simple de hacerlo es reemplazar la primera
ecuación (2x=200-y) directamente en la segunda, pues esta última tiene textualmente, como
segundo miembro del lado derecho, a 2x.
y = 20 + 2 x
y = 20 + (200 − y )
y + y = 220
2 y = 220
y = 110
3.7. Funciones.
Una función “es una regla matemática que asigna a cada valor de entrada uno y solo un valor de
salida” (Budnick, 2007: 143). En forma adicional, la función considera dominio y rango. El
dominio corresponde al conjunto de todos los valores de entrada, mientras que el rango, a todos los
valores de salida.
De la definición anterior se deriva que si dos valores del dominio, tienen cada uno, un valor
independiente en el rango, existe una función. Si dos valores del dominio tienen el mismo valor en
el rango, también estamos en presencia de una función. Pero si un valor del dominio, tienen dos
valores asociados en el rango, la relación expuesta no corresponde a una función.
14
Si se tiene una función, la expresamos mediante la forma y=f(x), donde y es función de x. En otras
palabras, y depende de los valores que tome la variable x. Esta definición es interesante desde el
punto de las ciencias sociales, toda vez que en esta es importante analizar la relación de
dependencia que existe entre dos variables, tales como los efectos de la pobreza sobre el grado de
desnutrición en las personas.
En este punto, es importante destacar que las funciones pueden tomar distintas formas. De las
ecuaciones, sabemos que pueden existir ecuaciones lineales y cuadráticas, entre otras. Con las
funciones sucede lo mismo, pues la relación entre la variable x e y puede ser lineal, o no lineal.
Ejemplo 1: Si tomamos el ejemplo 3 de la sección anterior, segunda ecuación, sabemos que esta
corresponde a y = 20 + 2x. Si suponemos que dicha ecuación es una expresión concreta de y=f(x),
estamos reconociendo que la variable y depende de x, o que en otras palabras, la variable
dependiente es y, mientras que la independiente es x.
Es más, de la forma estándar de la ecuación lineal, sabemos que esta expresión efectivamente
corresponde a una ecuación lineal, donde b=20 y a=2. En el lenguaje de las funciones b corresponde
al intercepto, o el valor que toma y cuando x=0, y a es la pendiente.
En este caso se sabe que la relación entre las variables es lineal, pues su forma corresponde a una
función lineal, y por otro lado que la relación entre las variables es positiva, pues a medida que
aumenta x aumenta y. El grafico de dicha función se observa en la figura 3.1, en la cual el eje de las
abscisas corresponde al eje x, mientras que el eje de las ordenadas ordenadas corresponde al eje y.
20
0 x
Ejemplo 2: Suponga que un investigador ha encontrado que a mayor escolaridad de las personas
existe un mayor interés de ellas por la política. Dicho investigador a determinado empíricamente
que la relación entre el grado de rendición de cuentas (RC) de los organismos públicos y la
escolaridad de los ciudadanos (Esc) responde a la siguiente función, donde RC corresponde a un
índice que el investigador a elaborado.
Lo que nos dice la ecuación 3.8 es que la relación entre las variables es de carácter lineal, y la
escolaridad impacta positivamente en el grado de rendición de cuentas de los individuos. Es más,
por cada aumento de una unidad en la escolaridad, el grado índice de rendición de cuentas aumenta
en 0.3.
15
Suponga que de pronto se publica la Ley de Transparencia, lo que significa que los organismos
públicos, sin importar las demandas de la ciudadanía, deben aumentar su nivel de rendición de
cuentas, y que se estima que el aumento autónomo en la rendición de cuentas es de un 27%. Si esto
ocurre, debemos preguntarnos respecto de cuál es el componente autónomo de la RC, que no tiene
que ver con las características de la ciudadanía. Dicho componente es el intercepto, el que aumenta
en 27%, y que deja a la ecuación como:
RC
1.27
1
0 Esc
Ejemplo 3: Al igual que el caso de las ecuaciones, también pueden existir sistemas de ecuaciones.
Este es caso de la economía, en particular, de las funciones de oferta y demanda. De acuerdo a las
leyes de la oferta y la demanda, se tiene que la “ley de la demanda” es la observación empírica
según la cual, cuando baja el precio de un producto, los consumidores demandan una mayor
cantidad. Por otro lado, la “ley de la oferta” es la observación empírica según la cual, cuando sube
el precio de un producto, las empresas ofrecen una cantidad mayor (Frank, 2005). Con esto, y
suponiendo que 𝛽𝛽 < 0 y 𝜃𝜃 > 0, podríamos pensar que las ecuaciones siguientes corresponde a
expresiones de demanda y oferta, respectivamente.
𝑦𝑦 = 𝛼𝛼 + 𝛽𝛽𝛽𝛽
𝑦𝑦 = 𝛾𝛾 + 𝜃𝜃𝜃𝜃
Si en forma adicional, consideramos las siguientes pares (P,y) para el consumidor: (2.5,1), (2,2),
(1.5,3) y (1,4); y los siguientes pares (P,y) para el productor: (1,0), (2,2) y (2.5,3), podemos obtener
el valor de los parámetros de las ecuaciones de demanda y oferta. Al graficar los pares de
consumidor y productor se puede ver que efectivamente corresponden a funciones lineales.
Entonces para obtener la pendiente de la curva de demanda podemos tomar dos puntos
cualesquiera, por ejemplo, los dos primeros.
𝑦𝑦2 −𝑦𝑦1 2−1 1
𝛽𝛽 = 𝑃𝑃2 −𝑃𝑃1
= = = −2
2−2.5 −0.5
𝑦𝑦 = 𝛼𝛼 + 𝛽𝛽𝛽𝛽
2 = 𝛼𝛼 + (−2)2
𝛼𝛼 = 6
16
Entonces, la ecuación de la demanda queda definida por
𝑦𝑦 𝑑𝑑 = 6 − 2𝑃𝑃
Procediendo de la misma forma para la ecuación de oferta, esta queda determinada por la ecuación.
𝑦𝑦 𝑜𝑜 = −2 + 2𝑃𝑃
Ejemplo 4: Una vez conocidas las funciones lineales de oferta y demanda, se pueden usar dichas
funciones para obtener el equilibrio de mercado. Suponga las siguientes funciones:
5
𝑄𝑄 𝑜𝑜 = 10 + 𝑃𝑃
2
5
𝑄𝑄 𝑑𝑑 = 50 − 𝑃𝑃
2
Para obtener el equilibrio se deben igualar ambas ecuaciones. En un equilibrio se asume que existe
un único precio que equilibra el mercado (pe), y que a este precio, lo que los vendedores venden es
igual a lo que los compradores quieren comprar. Se puede tomar este último supuesto (𝑄𝑄 𝑜𝑜 = 𝑄𝑄 𝑑𝑑 ) e
igualar las ecuaciones.
𝑄𝑄𝑜𝑜 = 𝑄𝑄 𝑑𝑑
5 5
10 + 𝑃𝑃 = 50 − 𝑃𝑃
2 2
10
𝑃𝑃= 40
2
𝑃𝑃 = 8
Por lo que reemplazando el precio en cualquiera de las dos ecuaciones, se tiene que 𝑄𝑄 = 30. Por
último, el equilibrio de mercado se puede graficar en la figura 3.3.
0 30 Q
17
Donde Y es el ingreso, 𝛼𝛼𝐺𝐺 el multiplicador de la política fiscal, 𝐴𝐴̅ es el gasto autónomo, 𝑏𝑏 es la
sensibilidad de la inversión a la tasa de interés, e 𝑖𝑖 es la tasa de interés. En la curva LM, ℎ es la
sensibilidad de la demanda de saldos reales a la tasa de interés, mientras que k es la sensibilidad de
� ⁄𝑃𝑃� es la oferta de dinero real. Al solucionar este sistema, se tiene que el nivel de
esta al ingreso, y 𝑀𝑀
ingreso es igual a:
ℎ𝛼𝛼𝐺𝐺 𝑏𝑏𝛼𝛼 �
𝑀𝑀
𝑌𝑌 =
ℎ+𝑘𝑘𝑘𝑘𝛼𝛼𝐺𝐺
𝐴𝐴̅ 𝐺𝐺
+ ℎ+𝑘𝑘𝑘𝑘𝛼𝛼 �
(3.10)
𝐺𝐺 𝑃𝑃
Como se estableció más arriba, las funciones también pueden tomar formas no lineales. En
particular, una función cuadrática está definida por la forma (Arya et al, 2009: 187):
Donde a, b y c son constantes. Es posible calcular la posición de dicha función, lo que se lleva a
cabo a través del siguiente teorema.
Teorema: el vértice de la función cuadrática se puede obtener mediante las siguientes fórmulas
(Arya et al, 2009: 188):
𝑏𝑏 4𝑎𝑎𝑎𝑎−𝑏𝑏2
𝑥𝑥 = − ^ 𝑦𝑦 = (3.12)
2𝑎𝑎 4𝑎𝑎
𝑦𝑦 = 𝑥𝑥 2 (3.13)
𝑦𝑦 = 𝑥𝑥 2 + 10 (3.14)
𝑦𝑦 = 𝑥𝑥 2 − 𝑥𝑥 + 10 (3.15)
𝑦𝑦 = 𝑥𝑥 2 − 2𝑥𝑥 + 10 (3.16)
Usando las fórmulas de 3.12 se puede obtener el vértice para cada una de las funciones, las que
corresponden respectivamente a:
𝑥𝑥 =0 ^ 𝑦𝑦 = 0 (3.13’)
𝑥𝑥 =0 ^ 𝑦𝑦 = 10 (3.14’)
1
𝑥𝑥 = ^ 𝑦𝑦 = 9.75 (3.15’)
2
𝑥𝑥 =1 ^ 𝑦𝑦 = 9 (3.16’)
Tal como se observa en la figura 3.4, el vértice de 3.13 es (0,0), el de 3.14 es (0, 10), para 3.15 es
(½, 9.75), mientras que para 3.16 es (1, 9). En otras palabras, dependiendo de los diferentes
parámetros de la función cuadrática, esta presentará diferentes posiciones.
18
Figura 3.4: Diferentes Funciones Cuadráticas, Ejemplo 1.
Ejemplo 2: Dado que es posible obtener diferentes funciones cuadráticas alterando los parámetros
de la fórmula 3.11, también es posible obtener funciones con formas inversas en el plano x,y. Para
esto es posible alterar el parámetro a de la ecuación 3.17, que pasa de 𝑎𝑎 = 1 en 3.17 a 𝑎𝑎 = −1 en la
ecuación 3.18, y cuya gráfica se observa en la Figura 3.5.
𝑦𝑦 = 𝑥𝑥 2 + 10 (3.17)
𝑦𝑦 = −𝑥𝑥 2 + 5 (3.18)
Ejemplo 3: En la realidad se pueden encontrar una serie de relaciones de carácter no lineal. Un caso
interesante es la curva de Kuznets, la que establece que la desigualdad del ingreso aumenta a
medida que el Producto Interno Bruto crece (PIB), sin embargo, dado un punto, la desigualdad
comienza a bajar. Este caso se observa en la figura 3.6. No obstante la importancia de su valor
teórico, esta relación ha sido ampliamente cuestionada desde el punto vista empírico (Ver Palma
(2011)).
19
Figura 3.6: Curva de Kuznets.
Desigualdad
PIB
Ejemplo 4: Otro ejemplo importante, que no representa una función cuadrática, pero si no lineal,
corresponde a la curva de demanda agregada. Dicha curva se puede derivar a partir del modelo
ISLM. Al tomar ecuación del producto, en el ejemplo 5 de la sección anterior, y reemplazar los
multiplicadores por expresiones más sencillas queda:
ℎ𝛼𝛼𝐺𝐺 𝑏𝑏𝛼𝛼𝐺𝐺 𝑀𝑀 �
𝑌𝑌 = 𝐴𝐴̅ +
ℎ+𝑘𝑘𝑘𝑘𝛼𝛼𝐺𝐺 ℎ+𝑘𝑘𝑘𝑘𝛼𝛼𝐺𝐺 𝑃𝑃�
�
𝑀𝑀 ℎ𝛼𝛼 𝑏𝑏
𝑌𝑌 = 𝛾𝛾𝐴𝐴̅ + 𝛽𝛽 𝐺𝐺
con 𝛾𝛾 = ℎ+𝑘𝑘𝑘𝑘𝛼𝛼 y 𝛽𝛽 = 𝛾𝛾 ℎ.
𝑃𝑃 𝐺𝐺
De la última ecuación, y si dejamos libre el nivel de precios, se tiene que la curva de demanda
agregada depende negativamente del nivel de precios, pero de una forma no lineal, tal como se
puede apreciar a continuación.
𝑌𝑌 = 𝛾𝛾𝐴𝐴̅ + 𝛽𝛽𝑀𝑀
� 𝑃𝑃−1 (3.19)
3.8. Derivadas.
La derivada es un concepto muy utilizado en las ciencias exactas y sociales. Existen muchas
aplicaciones en el área de la economía, la administración, la sociología, y la ciencia política, por
solo mencionar algunas disciplinas, que utilizan dicho concepto (sin saberlo incluso). En palabras
simples, la derivada corresponde a la pendiente de la tangente a un punto de la función.
𝑑𝑑𝑑𝑑 𝑓𝑓(𝑥𝑥+∆𝑥𝑥)−𝑓𝑓(𝑥𝑥)
= 𝑙𝑙𝑙𝑙𝑙𝑙∆𝑥𝑥→0 (3.20)
𝑑𝑑𝑑𝑑 ∆𝑥𝑥
En este sentido, se puede encontrar la derivada de la siguiente función (Ayres, 1971: 22):
𝑦𝑦 = 𝑓𝑓(𝑥𝑥) = 𝑥𝑥 2 + 3𝑥𝑥
20
𝑑𝑑𝑑𝑑 𝑥𝑥 2 +2𝑥𝑥∆𝑥𝑥+(∆𝑥𝑥)2 +3𝑥𝑥+3∆𝑥𝑥−𝑥𝑥 2 −3𝑥𝑥
= 𝑙𝑙𝑙𝑙𝑙𝑙∆𝑥𝑥→0
𝑑𝑑𝑑𝑑 ∆𝑥𝑥
𝑑𝑑𝑑𝑑 2𝑥𝑥∆𝑥𝑥+(∆𝑥𝑥)2+3∆𝑥𝑥
= 𝑙𝑙𝑙𝑙𝑙𝑙∆𝑥𝑥→0
𝑑𝑑𝑑𝑑 ∆𝑥𝑥
𝑑𝑑𝑑𝑑 ∆𝑥𝑥(2𝑥𝑥+∆𝑥𝑥+3)
= 𝑙𝑙𝑙𝑙𝑙𝑙∆𝑥𝑥→0
𝑑𝑑𝑑𝑑 ∆𝑥𝑥
𝑑𝑑𝑑𝑑
𝑑𝑑𝑑𝑑
= 𝑙𝑙𝑙𝑙𝑙𝑙∆𝑥𝑥→0 (2𝑥𝑥 + ∆𝑥𝑥 + 3)
𝑑𝑑𝑑𝑑
𝑑𝑑𝑑𝑑
= 2𝑥𝑥 + 3
𝑦𝑦 = 𝑓𝑓(𝑥𝑥) = −5𝑥𝑥 + 9
𝑑𝑑𝑑𝑑 −5(𝑥𝑥+∆𝑥𝑥)+9−(−5𝑥𝑥+9)
= 𝑙𝑙𝑙𝑙𝑙𝑙∆𝑥𝑥→0
𝑑𝑑𝑑𝑑 ∆𝑥𝑥
𝑑𝑑𝑑𝑑 −5𝑥𝑥−5∆𝑥𝑥+9+5𝑥𝑥−9
= 𝑙𝑙𝑙𝑙𝑙𝑙∆𝑥𝑥→0
𝑑𝑑𝑑𝑑 ∆𝑥𝑥
𝑑𝑑𝑑𝑑 −5∆𝑥𝑥
= 𝑙𝑙𝑙𝑙𝑙𝑙∆𝑥𝑥→0
𝑑𝑑𝑑𝑑 ∆𝑥𝑥
𝑑𝑑𝑑𝑑
𝑑𝑑𝑑𝑑
= 𝑙𝑙𝑙𝑙𝑙𝑙∆𝑥𝑥→0 (−5)
𝑑𝑑𝑑𝑑
𝑑𝑑𝑑𝑑
= −5
Sin embargo, en la práctica es complejo aplicar la definición de derivada a cada una de las
funciones, razón por la que existen reglas de derivación. En la siguiente tabla aparecen las reglas
más usadas en la derivación (Budnick, 2007). Cabe destacar que 𝑓𝑓(𝑥𝑥) corresponde a la función,
𝑑𝑑𝑑𝑑
mientras que 𝑓𝑓′(𝑥𝑥) = .
𝑑𝑑𝑑𝑑
21
Tabla 3.1: Reglas de derivación.
f (x) f ' ( x)
f ( x) = x n
f ' ( x) = nx n−1
f ( x) = c f ' ( x) = 0
h( x ) = k * g ( x ) h' ( x ) = k * g ' ( x )
f ( x ) = g ( x ) * h( x ) f ( x ) = g ' ( x ) h( x ) + g ( x ) h' ( x )
f ( x ) = g ( x ) / h( x ) g ' ( x ) h( x ) − g ( x ) h' ( x )
f ( x) =
[h( x)]2
f ( x) = e g ( x ) f ' ( x) = e g ( x ) * g ' ( x)
f ( x) = ln g ( x) 1
f ' ( x) = g ' ( x)
g ( x)
f ( x) = x f ' ( x) =
1
2 x
Fuente: elaboración propia en base a Budnick (2007).
22
La mejor forma de aprender y comprender las reglas de derivación es a través de la aplicación, por
lo que a continuación se plantean algunos ejercicios.
Ejemplos:
a) 𝑦𝑦(𝑥𝑥) = 11
𝑑𝑑𝑑𝑑
𝑑𝑑𝑑𝑑
=0
b) 𝑦𝑦(𝑥𝑥) = −12𝑥𝑥
𝑑𝑑𝑑𝑑
𝑑𝑑𝑑𝑑
= −12
c) 𝑦𝑦(𝑥𝑥) = 𝑥𝑥 2 + 3𝑥𝑥
𝑑𝑑𝑑𝑑
𝑑𝑑𝑑𝑑
= 2𝑥𝑥 + 3
d) 𝐼𝐼𝐼𝐼(𝑞𝑞) = 𝑝𝑝(𝑞𝑞)𝑞𝑞
𝑑𝑑𝑑𝑑𝑑𝑑 𝑑𝑑𝑑𝑑(𝑞𝑞) 𝑑𝑑𝑑𝑑 𝑑𝑑𝑑𝑑(𝑞𝑞)
𝑑𝑑𝑑𝑑
= 𝑑𝑑𝑑𝑑
𝑞𝑞 + 𝑝𝑝(𝑞𝑞) 𝑑𝑑𝑑𝑑 = 𝑑𝑑𝑑𝑑
𝑞𝑞 + 𝑝𝑝(𝑞𝑞)
e) 𝑦𝑦 = (𝑥𝑥 2 + 6)3
𝑑𝑑𝑑𝑑
𝑑𝑑𝑑𝑑
= 3(𝑥𝑥 2 + 6)2 (2𝑥𝑥) = 6𝑥𝑥(𝑥𝑥 4 + 12𝑥𝑥 2 + 36)
f) 𝑦𝑦 = 20√𝑥𝑥
𝑑𝑑𝑑𝑑 20 10
= =
𝑑𝑑𝑑𝑑 2√𝑥𝑥 √𝑥𝑥
g) 𝑦𝑦 = ln(5𝑥𝑥 5 )
𝑑𝑑𝑑𝑑 1 5
𝑑𝑑𝑑𝑑
= 5𝑥𝑥5 25𝑥𝑥4 = 𝑥𝑥
x 5
h) 𝑦𝑦 = �1+x �
i) 𝑦𝑦(𝑃𝑃) = 𝛼𝛼 + 𝛽𝛽𝛽𝛽
𝑑𝑑𝑑𝑑
𝑑𝑑𝑑𝑑
= 𝛽𝛽 y sabemos que 𝛽𝛽 < 0.
𝑑𝑑𝑑𝑑𝑑𝑑
𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑
= 0.33
23
Ejercicios Propuestos: a continuación se proponen una serie de ejercicios con el objeto de ejercitar
las derivadas (Ayres, 1971):
𝑑𝑑𝑑𝑑
a) 𝑦𝑦 = 𝑥𝑥 5 + 5𝑥𝑥 4 − 10𝑥𝑥 2 + 6 sol. 𝑑𝑑𝑑𝑑
= 5𝑥𝑥(𝑥𝑥 3 + 4𝑥𝑥 2 − 4)
1 4 𝑑𝑑𝑑𝑑 1 2
b) 𝑦𝑦 = + sol. =− −
2𝑥𝑥 2 √𝑥𝑥 𝑑𝑑𝑑𝑑 𝑥𝑥 3 𝑥𝑥 3/2
𝑑𝑑𝑑𝑑 1+√2
c) 𝑦𝑦 = √2𝑥𝑥 + 2√𝑥𝑥 sol. =
𝑑𝑑𝑑𝑑 √2𝑥𝑥
𝑑𝑑𝑑𝑑
d) 𝑦𝑦 = (1 − 5𝑥𝑥)6 sol. 𝑑𝑑𝑑𝑑
= −30(1 − 5𝑥𝑥)5
1
𝑑𝑑𝑑𝑑 2−𝑥𝑥
e) 𝑦𝑦 = (3 + 4𝑥𝑥 − 𝑥𝑥 2 )2 sol. =
𝑑𝑑𝑑𝑑 𝑦𝑦
3𝑟𝑟+2 𝑑𝑑𝑑𝑑 5
f) 𝜃𝜃 = sol. = (2𝑟𝑟+3)2
2𝑟𝑟+3 𝑑𝑑𝑑𝑑
𝑥𝑥 5 𝑑𝑑𝑑𝑑 5𝑥𝑥 4
g) 𝑦𝑦 = � � sol. = (1+𝑥𝑥)6
1+𝑥𝑥 𝑑𝑑𝑑𝑑
𝑤𝑤 𝑑𝑑𝑑𝑑 1
h) 𝑦𝑦 = sol. = (1−4𝑤𝑤2 )3/2
√1−4𝑤𝑤 2 𝑑𝑑𝑑𝑑
𝑑𝑑𝑑𝑑 1
i) 𝑦𝑦 = �1 + √𝑥𝑥 sol. =
𝑑𝑑𝑑𝑑 4�𝑥𝑥+𝑥𝑥√𝑥𝑥
𝑥𝑥−1 𝑑𝑑𝑑𝑑 1
j) 𝑓𝑓(𝑥𝑥) = � sol. =
𝑥𝑥+1 𝑑𝑑𝑑𝑑 (𝑥𝑥+1)√𝑥𝑥 2 −1
La derivada tiene un uso de utilidad pues permite obtener cual es el punto que maximiza o minimiza
una función. Esto eso, suponga que la curva de producción de un organismo público se puede
definir como una función f(x)=y, tal como la que aparece en la Figura 3.7, donde x corresponde a un
insumo específico en la producción de cierto organismo público (i.e. insumos de oficina en una
repartición pública). Ya que la derivada corresponde a la pendiente en un punto (y’), puedo
restringir la pendiente en cero (y’=0), y así obtener el mínimo o máximo de la respectiva función.
En este caso y’=0 en el punto A, y el x correspondiente al punto A es el x que maximiza la función.
24
Figura 3.7: Curva de Producción de un Organismo Público
y A
y’=0
Este último punto es importante, pues la condición de primer orden (CPO) indica que la derivada
debe ser cero, lo que nos puede situar en un mínimo o un máximo, dependiendo de la forma de la
función. La segunda derivada es la que nos indica si hemos encontrado un mínimo (𝑦𝑦 ′′ > 0) o un
máximo (𝑦𝑦 ′′ < 0).
Adicionalmente, la derivada tiene múltiples usos de gran interés para las ciencias sociales. En
nuestro curso será de vital importancia para las sesiones de econometría.
Respecto del problema básico del consumidor, se puede pensar en que este tiene una utilidad
𝜕𝜕𝜕𝜕 𝜕𝜕𝜕𝜕
definida por la función 𝑈𝑈 = 𝑈𝑈(𝑥𝑥, 𝑦𝑦), donde > 0 y > 0, esto es, x e y son bienes. En forma
𝜕𝜕𝜕𝜕 𝜕𝜕𝜕𝜕
adicional se puede pensar en la restricción que enfrenta el consumidor. En este caso los bienes x e y
están disponibles en la economía, pero a un precio 𝑝𝑝𝑥𝑥 y 𝑝𝑝𝑦𝑦 , y el consumidor tiene un ingreso I, para
gastar en los dos bienes. De acuerdo a esto, el problema del consumidor queda definido por:
Donde se deja claro que el individuo quiere maximizar una función de utilidad U¸ eligiendo para
ello las variables x e y, sujeto a la restricción 𝐼𝐼 = 𝑝𝑝𝑥𝑥 𝑥𝑥 + 𝑝𝑝𝑦𝑦 𝑦𝑦. Una forma útil de solucionar este
problema es recurrir al método de los Multiplicadores de Lagrange, el que consiste en plantear el
problema de la siguiente forma:
25
𝐿𝐿 = 𝑈𝑈(𝑥𝑥, 𝑦𝑦) + 𝜆𝜆[𝐼𝐼 − 𝑝𝑝𝑥𝑥 𝑥𝑥 − 𝑝𝑝𝑦𝑦 𝑦𝑦] (3.21)
Ejemplo 1: Sea 𝑈𝑈 = 𝑥𝑥𝑥𝑥, sujeto a 𝐼𝐼 = 𝑝𝑝𝑥𝑥 𝑥𝑥 + 𝑝𝑝𝑦𝑦 𝑦𝑦. En este caso se plantea el problema y se resuelven
las CPO.
𝜕𝜕𝜕𝜕
𝜕𝜕𝜕𝜕
= 𝑦𝑦 − 𝜆𝜆𝑝𝑝𝑥𝑥 = 0 (3.23)
𝜕𝜕𝜕𝜕
𝜕𝜕𝜕𝜕
= 𝑥𝑥 − 𝜆𝜆𝑝𝑝𝑦𝑦 = 0 (3.24)
𝜕𝜕𝜕𝜕
𝜕𝜕𝜕𝜕
= 𝐼𝐼 − 𝑝𝑝𝑥𝑥 𝑥𝑥 − 𝑝𝑝𝑦𝑦 𝑦𝑦 = 0 (3.25)
Igualando las expresiones anteriores se tiene la siguiente ecuación, que indica que la Utilidad
Marginal de x por peso gastado en x, es igual a la Utilidad Marginal de y por peso gastado y.
𝑦𝑦 𝑥𝑥
= (3.26)
𝑝𝑝𝑥𝑥 𝑝𝑝𝑦𝑦
𝐼𝐼 = 𝑝𝑝𝑥𝑥 𝑥𝑥 + 𝑝𝑝𝑦𝑦 𝑦𝑦
𝑝𝑝 𝑥𝑥
𝐼𝐼 = 𝑝𝑝𝑥𝑥 𝑥𝑥 + 𝑝𝑝𝑦𝑦 𝑥𝑥
𝑝𝑝𝑦𝑦
𝐼𝐼 = 2𝑝𝑝𝑥𝑥 𝑥𝑥
𝐼𝐼 𝐼𝐼
𝑥𝑥 ∗ = ^ 𝑦𝑦 ∗ = (3.27)
2𝑝𝑝𝑥𝑥 2𝑝𝑝𝑦𝑦
Donde 𝑥𝑥 ∗ e 𝑦𝑦 ∗ corresponden a los valores que maximizan la función, y son lo que en la Teoría
Microeconómica se conoce como Demandas Marshallianas. Dichos valores se pueden reemplazar
en la función de Utilidad obteniendo así la Función de Utilidad Indirecta (FUI):
𝑈𝑈 = 𝑥𝑥 ∗ 𝑦𝑦 ∗
26
𝐼𝐼 𝐼𝐼
𝑈𝑈 =
2𝑝𝑝𝑥𝑥 2𝑝𝑝𝑦𝑦
𝐼𝐼2
𝑈𝑈 = 4𝑝𝑝 (FUI)
𝑥𝑥 𝑝𝑝𝑦𝑦
𝜕𝜕𝜓𝜓 √𝐿𝐿
= 𝑟𝑟 + 𝜆𝜆 2 =0 (3.28)
𝜕𝜕𝜕𝜕 √𝐾𝐾
𝜕𝜕𝜓𝜓 √𝐾𝐾
= 𝑤𝑤 + 𝜆𝜆 2 =0 (3.29)
𝜕𝜕𝜕𝜕 √𝐿𝐿
𝜕𝜕𝜓𝜓
𝜕𝜕𝜕𝜕
= √𝐾𝐾𝐾𝐾 − 𝑄𝑄𝑜𝑜 = 0 (3.30)
2√𝐾𝐾 2√𝐿𝐿
𝜆𝜆 = −𝑟𝑟 ^ 𝜆𝜆 = −𝑤𝑤
√𝐿𝐿 √𝐾𝐾
Igualando las expresiones anteriores se tiene la siguiente ecuación, que indica que la Productividad
Marginal de L por peso gastado en L, es igual a la Productividad Marginal de K por peso gastado en
K.
√𝐾𝐾 √𝐿𝐿
� � � �
2√𝐿𝐿 2√𝐾𝐾
𝑤𝑤
= 𝑟𝑟
(3.31)
√𝐾𝐾𝐾𝐾 − 𝑄𝑄𝑜𝑜 = 0
1
� 𝐿𝐿2 − 2 = 0
2
1
𝐿𝐿� − 2 = 0
2
𝐿𝐿2
2
=4
27
𝐿𝐿 = √8
𝐿𝐿∗ = 2√2 , 𝐾𝐾 ∗ = √2
Ejercicios propuestos.
Referencias.
Frank, Robert (2005). “Microeconomía y Conducta”. 5ta Edición. Mc Graw Hill. España
Palma, José Gabriel (2011). “Homogeneous middles vs. heterogeneous tails, and the end of the
‘Inverted-U’: the share of the rich is what it’s all about”. Cambridge Working Papers in Economics
(CWPE) 1111. Available at http://www.econ.cam.ac.uk/dae/repec/cam/pdf/cwpe1111.pdf.
28
4. Estadística Descriptiva
4.1. Introducción
Es importante mencionar algunos conceptos de utilidad en estadística. Uno de los más usados dice
relación con el concepto de población, que consiste en “la recolección completa de todas las
observaciones de interés para el investigador” (Webster, 2000). Este concepto es de vital
importancia, toda vez que se refiere al conjunto total de datos, al que rara vez se puede acceder. Es
por eso que se recurre a la muestra, cuya definición dice que es “una parte representativa de la
población que se selecciona para ser estudiada ya que la población es demasiado grande como para
analizarla en su totalidad” (Webster, 2000).
Con estos conceptos, es posible definir lo que es un parámetro, que corresponde a una “medida
descriptiva de la población de observaciones de interés para el investigador”, mientras que un
estadístico es un “elemento que describe una muestra y sirve como una estimación del parámetro de
la población correspondiente” (Webster, 2000). Dada la diferencia entre población y muestra resulta
importante mencionar la diferencia entre parámetro y estadístico.
Dado que el objetivo del curso es aprender a cuantificar los fenómenos, se hace necesario
comprender cuales son los tipos de variables que existen. Esto por cuanto al referirnos a un
fenómeno en particular, como las características de una persona, algunas de ellas serán susceptibles
de medirse cuantitativamente mientras que otras no. Por ejemplo, el sexo de una persona se puede
determinar, aunque no se puede expresar cuantitativamente, más bien se puede delimitar a través de
las palabras hombre o mujer. Sin embargo, cuando hablamos del ingreso monetario de la persona,
dicha variable se puede expresar de forma cuantitativa, pues podemos decir que la persona tiene x
unidades monetarias, donde x es mensurable y se puede ordenar. Entonces, las variables se pueden
clasificar en variables cuantitativas y cualitativas (Webster, 2000).
Sin embargo, estas también se pueden clasificar en variables continuas y discretas, siendo las
primeras aquellas que pueden tomar cualquier valor dentro de un rango, como los valores
fraccionarios, y las segundas aquellas que solo pueden tomar ciertos valores, como la edad o
escolaridad de las personas (Webster, 2000).
También es posible hablar de variables ordinales y nominales. Las ordinales son aquellas que
tienen un orden o jerarquía pre-establecido, como por ejemplo el estatus socioeconómico, mientras
que las nominales son aquellas que no son susceptibles de ordenarse o jerarquizarse, tales como el
sexo, la pertenencia a un partido político, entre otras. (Levin y Levin, 1999: 4-5).
29
Proporciones: en la práctica no es posible analizar distribuciones que tienen el mismo número de
casos, razón por la cual los datos de dos muestras distintas se deben estandarizar. En consecuencia,
se puede convertir cualquier frecuencia en una proporción P, dividiendo el número de casos en
cualquier categoría dada f por el número total en la distribución N (Levin & Levin, 1999: 17). Ej.: la
proporción de alumnos con Notebook en la sala de clases.
𝑓𝑓
𝑃𝑃 = (4.1)
𝑁𝑁
Porcentaje: una forma de expresar la proporción en la lógica “por cada 100 casos” es expresarla en
porcentaje (Levin & Levin, 1999: 17). Ej.: el porcentaje de familias pobres en la comuna de Alhué.
𝑓𝑓
%= × 100 (4.2)
𝑁𝑁
𝑓𝑓
𝑟𝑟𝑟𝑟𝑟𝑟ó𝑛𝑛 = 𝑓𝑓1 (4.3)
2
Tasas: comparan el número de casos reales (f reales ) respecto al número de casos potenciales
(f potenciales ) (Levin & Levin, 1999: 19). Ej.: la tasa de alumnos de educación municipal sobre los
alumnos en edad escolar.
𝑓𝑓𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟
𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 = 𝑓𝑓 × 1000 (4.4)
𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝
Tasa de variación: otra forma de medición que se usa bastante en ciencias sociales, y sobre todo en
economía es la tasa de variación o la variación porcentual de una variable (y) a través del tiempo.
Un ejemplo común es la tasa de variación del Producto Interno Bruto (PIB) del país, variable que
siempre aparece en la prensa y al cual las personas le prestan bastante atención. Dicha variación se
calcula como:
𝑦𝑦𝑡𝑡 −𝑦𝑦𝑡𝑡−1
𝑣𝑣𝑣𝑣𝑣𝑣% = � 𝑦𝑦𝑡𝑡−1
� × 100 (4.5)
Una vez entendidas estas herramientas básicas, es posible generar indicadores, como por ejemplo:
Ejemplo 1:
Objetivo: mejorar mis notas (𝑛𝑛𝑡𝑡 ) en la asignatura X.
Forma de medición: razón de notas = 𝑛𝑛𝑡𝑡+1 /𝑛𝑛𝑡𝑡
Meta: que las notas del periodo 2 (𝑛𝑛𝑡𝑡+1 ) sean un 1.3 de las notas del periodo 1 (𝑛𝑛𝑡𝑡 )
Resultado: si 𝑛𝑛𝑡𝑡 = 5 y 𝑛𝑛𝑡𝑡+1 = 6.5 => razón de notas = 𝑛𝑛𝑡𝑡+1 /𝑛𝑛𝑡𝑡 =6.5/5=1.3
Asimismo, es posible generar otro tipo de formas de medición, tales como la variación porcentual
de las notas, de la forma [(nt2-nt1)/nt1]*100. Entonces, reemplazando en el indicador 1, podemos
replantear la forma de medición y la meta.
Ejemplo 2:
Objetivo: mejorar mis notas (𝑛𝑛𝑡𝑡 ) en la asignatura X.
30
𝑛𝑛𝑡𝑡+1 −𝑛𝑛𝑡𝑡
Forma de medición: 𝑣𝑣𝑎𝑎𝑎𝑎% = � � 100
𝑛𝑛𝑡𝑡
Meta: que las notas del periodo 2 aumenten en un 30% respecto al periodo anterior (var%=30%)
Resultado: si 𝑛𝑛𝑡𝑡 = 5 y 𝑛𝑛𝑡𝑡+1 =6.1 => var% = ((6.1-5)/5)*100=22%
También es posible definir indicadores más complejos y sofisticados. Por ejemplo, quiero diseñar
un indicador tal, que su conformación mida el rendimiento global de la organización en la que
trabajo. Supongamos que las perspectivas a través de las cuales se mide el rendimiento de la
organización son la financiera, que pondera un 30%, y la de atención al usuario, que pondera un
70%. A su vez, cada perspectiva se mide de la siguiente forma:
En estadística es frecuente ordenar los datos de formas útiles para el investigador. Un elemento
básico de este orden es el concepto de frecuencia, que dice relación con el número de veces que un
puntaje, valor o característica aparece en el conjunto de datos. Un ejemplo se puede observar en la
Tabla 4.1. En dicha tabla aparece el puntaje (p), que es la variable de interés, y en la columna f
aparece la frecuencia de dicha variable. Suponiendo que en este caso tenemos una población de 23
elementos, el puntaje 1 aparece 2 de 23 veces, mientras que el puntaje 6 aparece 3 de 23 veces. Sin
embargo, también se pude estudiar la frecuencia acumulada (fa), que no es más que la frecuencia
acumulada a nivel de cada puntaje. Por ejemplo, cuando el puntaje toma el valor 4, la frecuencia
acumulada toma el valor 14, lo que quiere decir que existen 14 casos iguales o menores a 4.
31
Tabla 4.1: Tabla de frecuencia simple para puntajes.
Puntajes (p) f fa fa/N
1 2 2 0.0870
2 3 5 0.2174
3 4 9 0.3913
4 5 14 0.6087
5 4 18 0.7826
6 3 21 0.9130
7 2 23 1.0000
Σ 23
Fuente: Levin y Levin (1999).
En la Tabla 4.1 sé que la frecuencia acumulada porcentual del puntaje 6 es 91.3%, pero ¿qué ocurre
cuando tenemos datos agrupados? El rango percentil (RP) nos permite saber cuál es la frecuencia
acumulada exacta de cualquier puntaje. En la Tabla 4.3 aparecen puntajes organizados mediante
intervalos, y queremos saber el rango percentil de un puntaje específico.
32
Tabla 4.3. Tabla de Datos Agrupados para Puntajes
Intervalo f fa fa/N
40-49 6 6 0.1224
50-59 7 13 0.2653
60-69 10 23 0.4694
70-79 12 35 0.7143
80-89 8 43 0.8776
90-99 6 49 1.0000
Σ 49
Fuente: Levin y Levin (1999).
Para encontrar dicho RP es necesario aplicar la siguiente fórmula, definiendo para ello un intervalo
de análisis que denotaremos por I.
𝑓𝑓𝑎𝑎𝐼𝐼−1 𝑥𝑥−𝐿𝐿𝐼𝐼𝐼𝐼 𝑓𝑓
𝑅𝑅𝑅𝑅 = � 100� + � � � 𝐼𝐼 100� (4.6)
𝑁𝑁 𝑇𝑇𝐼𝐼 𝑁𝑁
Donde:
𝑓𝑓𝑎𝑎
� 𝐼𝐼−1 100�=frecuencia acumulada porcentual del intervalo anterior al intervalo de análisis.
𝑁𝑁
x = puntaje del cual queremos obtener el RP.
𝐿𝐿𝐼𝐼𝐼𝐼 = límite inferior del intervalo de análisis.
𝑇𝑇𝐼𝐼 = tamaño del intervalo de análisis.
𝑓𝑓
� 𝐼𝐼 100�= frecuencia relativa del intervalo de análisis.
𝑁𝑁
𝑓𝑓𝑎𝑎 𝑓𝑓 6
Finalmente, sabemos que � 𝐼𝐼−1 100� = (0.8776)100 = 87.76 , y que � 𝐼𝐼 100� = � 100� =
𝑁𝑁 𝑁𝑁 49
12.24. Aplicando finalmente la formula, queda:
92−89.5
𝑅𝑅𝑅𝑅 = (87.76 ) + � � (12.24)
10
𝑅𝑅𝑅𝑅 = 90.82
Por lo que el rango percentil de un puntaje 92 es de 90.82. Esto es, el 91% recibió un puntaje más
bajo que 92, y solo el 9.18% recibió un puntaje más alto (Levin y Levin, 1999).
La aplicación del percentil es de suma importancia, pues permite efectuar otros análisis más
sofisticados para medir la desigualdad en el ingreso. Por ejemplo, el p90/p10, que corresponde al
ratio entre el percentil 90 y el 10 de una distribución de ingresos, o los p90/p50, p10/p50 o
p75/p25.
Las medidas de tendencia central corresponden a estadísticos que resumen y permiten extraer
información de forma sintética de una muestra. Entre estos se tiene la moda, la mediana y el
promedio. Estos estadísticos a su vez, dependiendo de sus interrelaciones, permiten dar una idea de
la distribución con la que se está tratando.
33
Moda: puntaje o categoría que ocurre más frecuentemente en una distribución (Mo). Ej.: en las
siguientes muestras, ¿qué datos corresponden a la moda?
1, 4, 5, 6, 6, 9 => Mo=6
3, 2, 4, 5, 6, 7, 7, 3, 10, 14 => Mo=3 y 7.
Mediana: medida de tendencia central que corta la distribución en dos partes iguales (Mdn).
Amplias aplicaciones en diferentes campos (Teoría del votante mediano). Dado que en la mayoría
de los casos su posición no es tan clara, es conveniente encontrarla a través de la siguiente fórmula,
para lo cual los datos deben estar ordenados de forma ascendente:
𝑛𝑛+1
𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃ó𝑛𝑛 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 = (4.7)
2
11, 12, 13, 16, 17, 20, 25 => (7+1)/2=4 lo que implica que la Mediana=16.
1, 2, 3, 4 => (4+1)/2=2,5 lo que implica que la Mediana=2.5
Media ( x ): la media o promedio de una muestra se define como el centro de gravedad de dicha
muestra, siendo el valor que resulta de dividir los diferentes valores de la muestra por el número de
casos. Es un estadístico bastante usado, corriente al sentido común, que permite dar una idea
“preliminar” respecto de los datos.
xi
x = ∑i =1
n
(4.8)
N
Observación 1: uno de los problemas que presenta la media, es que es altamente sensible a los
valores extremos de una muestra. Si se toma la fórmula de la media (4.8), se puede analizar lo
siguiente:
𝑋𝑋 +𝑋𝑋 +⋯+𝑋𝑋𝑁𝑁
𝑋𝑋� = 1 2
𝑁𝑁
1 1 1
𝑋𝑋� = 𝑋𝑋1 � � + 𝑋𝑋2 � � + ⋯ + 𝑋𝑋𝑁𝑁 � �
𝑁𝑁 𝑁𝑁 𝑁𝑁
Donde N corresponde al número de observaciones que tiene una muestra. Si se analiza la media, se
tiene que esta ofrece un índice en el cual cada observación tiene la misma ponderación, esto es
34
(1/N). Entonces, el promedio o media, dado que pondera de la misma forma a todas las
observaciones de la muestra, es altamente sensible a los valores extremos.
Relaciones entre Moda, Mediana y Media: la relación entre estos tres estadísticos puede arrojar
información de importancia respecto al conocimiento de una muestra. Para esto es necesario
entender que la x se ve fuertemente influenciada por los valores extremos, mientras que la moda se
da donde existe acumulación de valores (picos de la distribución normal).
En la sección anterior analizamos las medidas de tendencia central en su forma más simple. Pero
¿Cómo podemos obtener dichos estadísticos cuando tenemos una frecuencia simple?. La dificultad
de obtención de cada medida variará en función de los cálculos que se requieran. En la Tabla 4.4 se
puede observar una frecuencia simple, sobre la base de Levin y Levin (1999: 40). Al observar
dicha tabla tenemos los puntajes en la primera columna 1, la frecuencia (f) en la segunda columna, y
la frecuencia acumulada (fa) en la tercera columna.
En este caso es fácil ver que la moda corresponde a 4, pues es el valor que más se repite en la
muestra, es decir, aparece 5 de 23 veces en los datos. Para obtener la mediana aplicamos la fórmula
de posición, esto es, (n+1)/2=12. Una vez que sabemos que la mediana se encuentra en la posición
12, solo tenemos que encontrar en qué puntaje se encuentra el dato n° 12. Esto ocurre cuando el
puntaje es igual a 4 (fa=14), por lo que la mediana es 4.
Para obtener el promedio, solo debemos ponderar cada puntaje por el número de veces que aparece
en la muestra, esto es, como aparece en la cuarta columna de la Tabla 4.4. Aplicamos la fórmula
siguiente:
∑ 𝑓𝑓𝑓𝑓 92
𝑥𝑥̅ = = =4
𝑛𝑛 23
1
En Levin & Levin (1999) la variable corresponde a puntajes, pero puede ser cualquier tipo de variable: Salarios en
millones de pesos, número de goles en partidos de futbol, código asignado a un individuo con ciertas características, etc.
35
Tabla 4.4: Tabla de frecuencia simple para puntajes.
Puntajes (p) f fa f*p
1 2 2 2
2 3 5 6
3 4 9 12
4 5 14 20
5 4 18 20
6 3 21 18
7 2 23 14
Σ 23 92
Fuente: Levin & Levin (1999).
¿Qué ocurre ahora cuando los datos se encuentran de forma agrupada?. Esto le añade complejidad
al análisis pues ahora no estaremos observando todos los datos, tal como aparecen en la Tabla 4.4 o
4.5, por el contrario, ahora observamos una agrupación del tipo que aparece en la Tabla 4.6. En
dicha tabla se ha incorporado x, que corresponde a la marca de clase o punto medio del intervalo
particular.
En este caso, dado que la moda corresponde al valor que más se repite en la muestra, tenemos que
la moda es 5, o en otras palabras, la moda corresponde al punto medio del intervalo que tiene mayor
frecuencia. La obtención del promedio es bastante simple, pues al igual que en el caso anterior, acá
debemos considerar la frecuencia del intervalo, pero considerando en este caso el punto medio. La
media queda entonces:
∑ 𝑓𝑓𝑓𝑓 94
𝑥𝑥̅ = = = 4.1
𝑛𝑛 23
36
La mediana, dada su característica de ser el estadístico que divide a la muestra en dos partes iguales,
requiere un cálculo más preciso. En este caso consideramos la siguiente fórmula (Levin & Levin,
1999):
𝑛𝑛
−𝑓𝑓𝑓𝑓𝐼𝐼−1
𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 = 𝐿𝐿𝐿𝐿𝐼𝐼 + 𝑇𝑇𝐼𝐼 � 2 𝑓𝑓𝐼𝐼
� (4.9)
Donde LI I corresponde al límite inferior del “intervalo de análisis”, 𝑇𝑇𝐼𝐼 al tamaño de dicho intervalo,
𝑛𝑛 al número de datos, 𝑓𝑓𝑓𝑓𝐼𝐼−1 a la frecuencia acumulada del intervalo anterior y 𝑓𝑓𝐼𝐼 a la frecuencia del
intervalo de análisis. Sin embargo, necesitamos definir qué se entiende por “intervalo de análisis”.
Dicho intervalo es el intervalo más probable que contiene a la mediana. Para obtenerlo se aplica la
siguiente regla: n/2. Aplicando la regla, se tiene que n/2=11.5. Analizando la fa de la Tabla 4.6,
concluimos que dicho valor se encuentra en el intervalo [4 - 6], pues en él van acumulados 21 datos.
Aplicando la fórmula al caso de la Tabla 4.6 se obtiene:
11.5−9
𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 = 3.5 + 3 � �
12
Rango: Es el estadístico básico de dispersión y consiste en la resta entre el valor más alto y el valor
más bajo de la distribución.
Por ejemplo, supongamos que estamos estudiando el porcentaje de pobreza en las comunas de
Chile, y observamos que en nuestra base de datos la comuna con menor pobreza tiene un porcentaje
de 0% de pobres, mientras que la comuna con mayor pobreza tiene un porcentaje de pobres de 49%,
el rango del índice de pobreza comunal es de 49%-0%=49%.
Desviación estándar: Corresponde al estadístico que mide la dispersión de una muestra como el
valor promedio de las desviaciones respecto a la media. Sirve para estimar la heterogeneidad o
volatilidad de una muestra de datos.
∑
n
( xi − x ) 2
σ= i =1
(4.11)
N
37
¿Qué muestra tiene una mayor dispersión? ¿Qué relación tiene este cálculo respecto de la obtención
de promedios de la sección anterior?
σ
CV = (4.13)
x
B: 2, 4, 10,
C: 2000, 4000, 2000.
Observación 1: Una forma más intuitiva de comprender por qué se usa el CV es suponer que se
tiene la desviación estándar de la muestra Y, la que toma el valor 𝜎𝜎𝑌𝑌 . Supongamos ahora que todos
los datos de la muestra Y se multiplican por 1000, generando la muestra Z, la que tiene a su vez una
desviación estándar, 𝜎𝜎𝑍𝑍 . En la práctica, lo que ocurre es que la desviación estándar de Y se termina
multiplicando por 1000, esto es:
∑(1000𝑥𝑥𝑖𝑖 −1000𝑥𝑥̅ )2
𝜎𝜎𝑍𝑍 = �
𝑛𝑛
∑(𝑥𝑥𝑖𝑖 −𝑥𝑥̅ )2
𝜎𝜎𝑍𝑍 = �10002 𝑛𝑛
∑(𝑥𝑥𝑖𝑖 −𝑥𝑥̅ )2
𝜎𝜎𝑍𝑍 = √10002 �
𝑛𝑛
∑(𝑥𝑥𝑖𝑖 −𝑥𝑥̅ )2
𝜎𝜎𝑍𝑍 = 1000� 𝑛𝑛
𝜎𝜎𝑍𝑍 = 1000𝜎𝜎𝑌𝑌
Entonces, se hace evidente que la desviación estándar depende de las unidades de medida de la
variable, por lo que se hace necesario un estadístico que sea a-dimensional, o invulnerable a las
unidades de medida, como el CV.
Ejemplo 2: En el ciclo económico uno de los componentes del PIB que más varía es la inversión.
De ahí que la hipótesis es que si se estima algún estadístico de dispersión sobre los componentes del
PIB, este estadístico debería indicar que la inversión tiene una mayor variabilidad en el tiempo. En
el Gráfico 4.1 se observan los componentes del PIB para Chile, considerando el periodo 1980-1995.
38
En el gráfico se observa que la magnitud del consumo es mucho mayor a la de la inversión, por lo
que quizá, la desviación estándar del consumo termine siendo mayor a la de la inversión.
En la Tabla 4.7 se puede observar la desviación estándar del consumo, la que alcanza la cifra de
2,759,022, muy superior a la de la inversión, 1,482,769. En este caso, la desviación estándar no
representa el hecho de que la inversión debiese ser más volátil. Es por eso que se estima el
coeficiente de variación, el que presenta una mayor volatilidad para la inversión respecto del
consumo.
Al igual que el caso de las medidas de tendencia central, en el caso de las medidas de dispersión
también nos encontramos con casos en los cuales se deben analizar frecuencias simples, por lo que
el cálculo de los estadísticos varía. En la Tabla 4.7 se tienen los mismos datos de la Tabla 4.4, pero
en este caso calcularemos las medidas de dispersión.
En primer lugar, el rango de la frecuencia simple es igual a 7-1=6. Del apartado anterior sabemos
que la desviación estándar se calcula como la raíz del promedio de las desviaciones respecto a la
media al cuadrado. Sin embargo, recurriendo al algebra, podemos encontrar una forma más simple
de calcular la desviación estándar.
39
Tabla 4.7: Tabla de frecuencia simple para puntajes.
Puntajes (p) F fa f*p f*p2
1 2 2 2 2
2 3 5 6 12
3 4 9 12 36
4 5 14 20 80
5 4 18 20 100
6 3 21 18 108
7 2 23 14 98
Σ 23 92 436
Fuente: elaboración propia en base a Tabla 4.1.
∑(𝑥𝑥𝑖𝑖 −𝑥𝑥̅ )2
𝜎𝜎 = � 𝑛𝑛
Dado que al interior de la formula existe un cuadrado de binomio, podemos tomar dicha expresión y
desarrollarla:
∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2
∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )
∑(𝑥𝑥𝑖𝑖2 − 2𝑥𝑥̅ 𝑥𝑥𝑖𝑖 + 𝑥𝑥̅ 2 )
Dado que el promedio al cuadrado corresponde a una constante, esto es, puede ser igual 25, la
sumatoria de dicho valor es igual a n veces 25, esto es, n*25. Por otro lado, como Σ𝑥𝑥𝑖𝑖 = 𝑥𝑥̅ ∗ 𝑛𝑛,
entonces:
Σ𝑥𝑥𝑖𝑖2
𝜎𝜎 = � 𝑛𝑛
− 𝑥𝑥̅ 2 (4.17)
Σ𝑓𝑓𝑓𝑓𝑖𝑖2
𝜎𝜎 = � 𝑛𝑛
− 𝑥𝑥̅ 2 (4.18)
40
Donde 4.17 es la expresión alternativa para calcular la desviación estándar, y 4.18 es la expresión
para calcular la desviación estándar en los casos de frecuencia simple. De hecho, aplicando la
fórmula 4.18 sobre los datos de la Tabla 4.7, tomando en consideración que la media estimada es 4,
y que x es p, tenemos lo siguiente:
Σ𝑓𝑓𝑓𝑓𝑖𝑖2
𝜎𝜎 = � 𝑛𝑛
− 𝑥𝑥̅ 2
436
𝜎𝜎 = � − (4)2 = 1.72
23
Por lo que la desviación estándar corresponde a 1.72. Dado que la varianza es el cuadrado de la
desviación estándar, se tiene que 𝜎𝜎 2 = 2.96. Por último, el coeficiente de variación es igual a
CV= 𝜎𝜎 /𝑥𝑥̅ , por lo que CV=0.43.
Para el caso de los datos agregados, tendremos datos como en la Tabla 4.8, clasificados por
intervalo, por lo que nuevamente se debe calcular la marca de clase o punto medio (x). Observando
la tabla, se tiene que el rango corresponde a 7-1=6. Para calcular la desviación estándar, se recurre
nuevamente a la formula derivada en el apartado anterior:
Σ𝑓𝑓𝑓𝑓𝑖𝑖2
𝜎𝜎 = � 𝑛𝑛
− 𝑥𝑥̅ 2
464
𝜎𝜎 = � − (4.1)2 = 1.83
23
Los conceptos tratados anteriormente permiten introducir una de las distribuciones más usadas en el
trabajo empírico, la distribución normal. Entre las características de esta distribución se tiene que es
simétrica, es decir, a partir de la media, se acumula la misma cantidad de datos hacia la izquierda y
la derecha. En segundo lugar, es una distribución unimodal (Levin y Levin, 1999). En el gráfico 4.2
se observa una curva normal, donde en el eje de las abscisas están los valores que puede tomar una
variable, mientras que en el eje de las ordenadas esta la frecuencia. En el eje de las abscisas se
pueden observar desviaciones respecto de la media en unidades de desviación estándar; esto es, 1
implica una distancia de una desviación estándar hacia la derecha respecto de la media, mientras
que 2 implica dos desviaciones estándar hacia la derecha respecto de la media. Por el contrario, -3
41
quiere decir 3 desviaciones estándar hacia la izquierda de la media. Dichas distancias son relevantes
pues permiten definir las siguientes áreas de acumulación:
De acuerdo a lo anterior, entre la media y una desviación estándar hacia la derecha, se encuentra el
34.13% de los datos (68.26/2=34.13), entre la media y dos desviaciones estándar hacia la derecha se
encuentra el 47.72% de los datos (95.44/2=47.72), y entre la media y tres desviaciones estándar
hacia la derecha se encuentra el 49.87% de los datos (99.74/2=49.87).
-3 -2 -1 x 1 2 3
Sin embargo, dado que las distancias definidas por sumas o restas de desviaciones estándar respecto
de la media no son los únicos casos que se tienen en la curva normal, es factible obtener los
porcentajes de acumulación de cualquier distancia respecto de la media usando la siguiente fórmula
(Levin y Levin, 1999):
xi − x
Z= (4.19)
σ
Ejemplo 1: la distribución de las notas de un curso presenta una media de 4 y una desviación
estándar de 1.72. Si se supone que la distribución está normalmente distribuida, la nota 6.0 tiene el
siguiente orden Z:
𝑥𝑥𝑖𝑖 −𝑥𝑥̅
𝑧𝑧 = 𝜎𝜎
6−4
𝑧𝑧 = = 1.16
1.72
Esto a su vez implica que es posible elegir percentiles a discreción, lo que nos lleva a hablar del
concepto de confianza y que es útil en inferencia estadística. Si queremos hacer un análisis al 90%
de confianza, los valores -1,645 y +1,645 en el eje de las abscisas acumulan el 90% de la
42
probabilidad. El análisis es análogo para los niveles de confianza de 95% (-1,96; +1.96), y 99% (-
2.58; +2.58).
La curva normal nos permite hablar de probabilidades. Una probabilidad se define como la relación
entre el número de veces que un evento puede ocurrir y la cantidad total de eventos. En este caso,
podemos entender el área de la curva normal como un área de probabilidad total, y las sumas/restas
de desviaciones estándar, o los puntajes Z¸ como áreas que definen la acumulación de
probabilidades.
La probabilidad tiene tres propiedades importantes. La primera implica que la probabilidad siempre
se encuentra entre 0 y 1. La segunda dice relación con la regla de la suma, que implica que “la
probabilidad de obtener un resultado cualquiera entre varios diferentes es igual a la suma de sus
distintas probabilidades” (Levin y Levin, 1999). Esto implica en el ejemplo de los puntajes que la
4 3 2 9
probabilidad de obtener un 5, un 6, o un 7 es de + + , lo que equivale a , es decir, a una
23 23 23 23
probabilidad de de 0.3913.
Una tercera propiedad es la regla de la multiplicación¸ que se usa para casos en los cuales los
eventos ocurren en forma sucesiva. Esta regla implica que “la probabilidad de obtener una
combinación de resultados que se excluyen mutuamente, es igual al producto de sus probabilidades
por separado” (Levin y Levin, 1999). Por ejemplo, ¿cuál es la probabilidad de obtener el mismo
número al lanzar el dado dos veces seguidas?. La probabilidad de obtener un número al lanzar el
1
dado (de 6 caras) es de , mientras que la probabilidad de obtener el mismo número al lanzarlo
6
1
nuevamente es de 6. Entonces, la probabilidad de obtener el mismo número dos veces seguidas es
1 1 1
igual a 6 × 6 = 36, es decir, 0.03.
Es más, también es posible obtener la probabilidad de que la nota este sobre 6.0, y para esto solo
debemos restar a 50, la probabilidad obtenida para 1.16, esto es 50-37.70=12.3. Esto es, la
probabilidad de obtener una nota por sobre 6.0 es de 12.3%.
El teorema del límite central: Un fuerte argumento para usar la distribución normal es el teorema
del límite central. A medida que se extraen suficientes muestras de una población, la distribución de
la media muestral se aproximará a una normal, en forma independiente al tamaño de las muestras
(Soto, 2010). Esto es, si extraigo bastantes muestras de una población, y se calcula le media de cada
una de esas muestras, la distribución de dichas medias se distribuirá normal, siempre que el número
de extracciones sea grande. Y es independiente del tamaño de las muestras.
2
Es relativamente simple obtener la probabilidad acumulada total con el software Excel. Para este caso basta
con introducir en una celda la siguiente fórmula: =DISTR.NORM.ESTAND(1.16), la que dará por resultado
0.8770.
43
4.5. Otros conceptos de relevancia en la Estadística Descriptiva.
Sin embargo, a través de los momentos tercero y cuarto es posible construir dos indicadores, uno de
asimetría y otro de apuntamiento.
n xi − x
3
n
CA =
(n − 1) * (n − 2)
∑i =1
s
(4.20)
n(n + 1) n xi − x
4
3(n − 1) 2
Curtosis = ∑i=1 s (n − 2)(n − 2)
− (4.21)
(n − 1)(n − 2)(n − 3)
Los valores que toma cada uno de estos indicadores define la forma de la distribución. Por ejemplo,
cuando CA>0 tenemos una distribución con sesgo derecho, mientras que si CA<0, la distribución
tiene sesgo izquierdo. Por otro lado, respecto al cuarto momento, la forma de la curva normal
presenta una curtosis=3, por lo que si curtosis>3 la distribución tiene un grado de apuntamiento
mayor a la normal (leptocúrtica), y si curtosis<3 la distribución tiene un grado de apuntamiento
menor a la normal (platicúrtica).
¿Tienen alguna relación estos conceptos con las relaciones entre las medidas de tendencia central
media, mediana y moda? Para responder a esta pregunta es posible acudir a la estadística descriptiva
de 3 variables tipo. En la Tabla 4.9, para la variable X, la media es casi idéntica a la mediana,
mientras que skewness y curtosis implican un leve sesgo negativo y menor grado de apuntamiento
que la normal, respectivamente. Para la variable Y, la media es bastante mayor a la mediana, y
skewness y curtosis presentan sesgo derecho y un elevado grado de apuntamiento, respectivamente.
44
Tabla 4.9. Estadística Descriptiva, variables X y Y.
sum, detail
x
-------------------------------------------------------------
Percentiles Smallest
1% 5 5
5% 5 6
10% 5 6 Obs 9
25% 6 7 Sum of Wgt. 9
y
-------------------------------------------------------------
Percentiles Smallest
1% 5 5
5% 5 6
10% 5 6 Obs 9
25% 6 7 Sum of Wgt. 9
Referencias
Soto, Raimundo (2010). “Notas de Clases, Teoría Econométrica”. Trabajo Docente N° 78. Instituto
de Economía, Pontificia Universidad Católica de Chile. ISSN: 0717-7593.
Webster, Allen (2000). “Estadística aplicada a los negocios y la economía”. Tercera Edición.
McGraw-Hill Interamericana, S.A. Santa Fe de Bogotá, Colombia.
45
Ejercicios propuestos.
1. Usted tiene los siguientes datos de PIB (Y) a precios constantes. Determine las tasas de
variación del PIB del periodo 2010 respecto a 2009, 2008 a 2007, y 2010 respecto a 2007.
Y 2007 =1000, Y 2008 =1130, Y 2009 =1456, Y 2010 =1278.
Obtenga los promedios de ambas muestras. ¿Qué muestra tiene una mayor dispersión?
3. Suponga que tiene dos países, A y B, conformados por 5 habitantes (i, ii, iii, iv, y v) y sus
respectivos ingresos en la Tabla 1
Tabla 1
personas Pais A Pais B
i 100 20
ii 50 23
iii 30 70
iv 20 96
v 30 40
Suponga que usted desea efectuar la mejor elección posible, pero para eso debe observar
sus preferencias. Quiere el máximo prestigio posible, lo que le importa en un 40%. Dado
que usted es un alumno esforzado, no le interesa la reprobación, pues usted es capaz de
asumir el desafío, razón por la que ésta le importa solo un 5% (sin embargo, si la
universidad tiene el nivel más alto en ranking, ésta le importa 0%). Las posibilidades de
trabajo le importan un 30%, sin embargo, si se trata de la mejor universidad, usted le exigirá
46
más al prestigio, razón por la cual le asignará una ponderación de 35%. Respecto a la
cercanía al hogar, mientras más cerca mejor.
Plantee un índice para efectuar la mejor elección. Considere la inversa proporcional cuando
el sub-indicador lo requiera.
5. Tiene los siguientes índices de pobreza para dos países, Z e Y, para tres años, ¿en cuál de
los dos países existe una mayor variabilidad de la pobreza? Ocupe todos los estadísticos de
dispersión.
Z: 3%, 5%, 5%
Y: 5%, 7%, 6%
6. “Hay dos panes. Usted se come dos. Yo ninguno. Consumo promedio: un pan por persona”.
Nicanor Parra
Utilice la frase de Nicanor Parra y compárela con una situación en la cual haya igualdad total en
el consumo de los dos panes (2 personas, 2 panes). ¿Qué puede decir respecto de la desigualdad
usando el promedio y la desviación estándar? ¿Aporta el análisis del coeficiente de gini?
8. Usted es el jefe del Departamento de Estudios de cierto organismo público. Dentro de los
productos estratégicos de dicho organismo está la entrega de subsidios de arancel
universitario para aquellos jóvenes de buen rendimiento académico y escasos recursos.
Estos subsidios se entregan en base a los resultados obtenidos en la educación secundaria.
El Jefe del Departamento de Subsidios (DESUB), le encarga a usted resolver la forma de asignar los
recursos en la muestra de jóvenes inscritos en el programa. Solo se puede asignar el subsidio a dos
estudiantes, razón por la que la asignación debe estar muy bien fundamentada.
Tabla 3
Notas Notas Notas Notas
Primero Segundo Tercero Cuarto Ingreso Personas
Nombre Medio Medio Medio Medio Familiar en el Hogar
Manuel 5 5 5.4 7 100 3
Josefina 3 4 5 6.5 200 4
Andrés 6 6.1 6.2 6.2 150 3
Raúl 6 6.5 6.4 6.6 430 6
Clotilde 4 6 7 6 300 5
a) El Jefe del DESUB no sabe de estadísticas ni métodos cuantitativos, razón por lo que le
pide a usted asignar los subsidios de acuerdo al promedio de notas de los 4 años de
enseñanza secundaria.
47
c) A esta altura, el Jefe del DESUB tiene un ataque de nervios, pues un asesor le comentó que
no está cumpliendo con los productos estratégicos de la organización, pues no ha
considerado la variable “escasos recursos” en el análisis. Debido a esto, le pide a usted que
distribuya los subsidios considerando el ingreso. En caso de existir problemas, se le pide
que decida en base al grado de superación anual.
f) ¿Se le ocurre a usted otro método? ¿Qué solución propone? (Opcional: 3 respuestas más
creativas tendrán 5 décimas en la prueba)
P1 P2 P3 P4
CPIT 7,5 7,4 7,5 7,2
RAQ 8 6,5 7 4
Dado que cada organismo ha estimado los terremotos usando sus propias metodologías en forma
constante sobre diferentes muestras de datos, se le pide hacer un estudio descriptivo de las
predicciones.
10. Si al promedio de una muestra normal le suma ¼ de la desviación estándar. ¿dentro de que
intervalo, en términos del promedio y la desviación estándar, se encuentra dicho valor?
11. Usted quiere estimar un promedio ponderado de rendimiento a partir de las evaluaciones de
tres organizaciones del sector público. Estas evaluaciones son buenas (b), super buenas
(sb), y excelentes (e). Si para usted las evaluaciones buenas valen 10, las evaluaciones
super buenas valen 30, y las evaluaciones excelentes valen:
48
5. Medidas de Asociación.
Hasta el momento nos hemos enfocado en el análisis básico de estadística descriptiva con una
variable. Es decir, se ha hecho una revisión aplicada de estadísticos de tendencia central, tales como
la moda, la mediana, y el promedio, y de estadísticos de dispersión, tales como el rango, la
desviación estándar, la varianza, y el coeficiente de variación.
Sin embargo, en la realidad suelen observarse fenómenos que implican la interacción de dos o más
variables, tales como la relación entre la escolaridad y los ingresos que percibe una persona, el
desempleo y los índices de pobreza, los precios de un mercado particular y las cantidades
demandadas.
Por ejemplo, en las primeras sesiones conformamos un índice de medición del rendimiento
educacional, tal como ((𝑛𝑛𝑡𝑡+1 -𝑛𝑛𝑡𝑡 )/ 𝑛𝑛𝑡𝑡 )*100, donde 𝑛𝑛𝑡𝑡+1 corresponde a las notas del periodo futuro y
𝑛𝑛𝑡𝑡 a las notas del periodo actual. Si el resultado de este indicador corresponde a un porcentaje
mayor a 0%, quiere decir que el rendimiento educacional está evolucionando de forma positiva.
Sin embargo, ¿Qué determina dicha variación positiva del rendimiento educacional que se mide a
través de la evolución de las notas?. Antes de efectuar un análisis un poco más exhaustivo, tal como
el que se propone una investigación, es necesario observar relaciones básicas entre las variables,
con el objeto de establecer alguna hipótesis relevante.
En este panorama se tienen los estadísticos de asociación, entre los cuales se encuentra la co-
varianza y el coeficiente de correlación. Si bien estos dos estadísticos se distribuyen de diferente
forma, valores elevados en valor absoluto dicen relación con altos grados de correlación o
evolución lineal entre las variables.
Dado que en la realidad existen fenómenos que implican la asociación entre dos o más variables, es
necesario conocer las herramientas que permiten conocer y medir dicha asociación. Dichas
herramientas pueden ser intuitivas y específicas.
En la Tabla 5.1 tenemos datos de ingreso y escolaridad. Aquí la hipótesis principal, presente en gran
parte de la literatura de capital humano, es que a mayor escolaridad existe un mayor retorno de la
educación, medido ese retorno en este caso, por el nivel de ingreso. La primera aproximación es
utilizar una herramienta intuitiva, tal como el análisis gráfico (Gráfico 5.1).
49
Grafico 5.1: Ingreso y Escolaridad.
10
Ingreso (Y)
5 0
2 4 6 8 10
Escolaridad (X)
Si bien el análisis gráfico permite establecer un grado de relación entre las variables, también es
necesario contar con herramientas formales, que permitan establecer en forma específica el nivel de
correlación entre las variables.
5.2.1. Covarianza
La covarianza corresponde a una medida de asociación que se construye a partir de las diferencias
respecto a la media de cada variable, en este caso, X e Y, por lo que establece una relación entre sus
variabilidades.
Respecto a la variabilidad, recordemos el estadístico usado para medir la dispersión de una muestra
como la desviación estándar:
∑
n
( xi − x ) 2
σx = i =1
(5.1)
N
Sin embargo, otra medida dice relación con la varianza, la que tiene una relación cuadrática con la
desviación estándar:
∑
n
( xi − x ) 2
σ 2
x = i =1 (5.2)
N
∑
n
( xi − x )( xi − x )
σ 2
x = i =1
(5.3)
N
Al analizar la fórmula de la varianza, podemos ver que la forma de medir la dispersión dice relación
con el cuadrado de las desviaciones respecto de la media. El cuadrado es una forma de neutralizar
los valores negativos que se obtienen de las diferencias, pues, los valores se encuentran por abajo y
por arriba de la media. Entonces, a medida que estos valores estén más lejos de la media, hacia
abajo y hacia arriba, se incremente la variabilidad.
Sin embargo, podemos hacer una transformación útil, que implica cambiar el segundo componente
de la sumatoria por y. Al hacer esta transformación, inmediatamente obtenemos la covarianza, que
mide la variabilidad entre las variables x e y, y cuya fórmula viene definida por (Spiegel, 1976: 82):
50
∑
n
( xi − x )( yi − y )
σ xy = i =1
(5.4)
N
Al analizar la ecuación 5.4 se tiene que si el valor de x esta por sobre su media el resultado será un
valor positivo, asimismo, si y esta por sobre su media también tendrá un valor positivo, y su
producto (𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )(𝑦𝑦𝑖𝑖 − 𝑦𝑦�), tendrá un valor positivo. Si por el contrario, x está por debajo de su
media, e y por arriba de su media, su producto (𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )(𝑦𝑦𝑖𝑖 − 𝑦𝑦�) tendrá un valor negativo. Este es el
sentido de la covarianza.
Al hacer operar la covarianza con los datos de la Tabla 5.1, se tiene lo siguiente:
∑
n
x, y 5.75 6.25 ( xi − x )( yi − y ) 56.5
i =1
σ x ,σ y ∑
n
2.33 3.19 ( xi − x )( y i − y ) / N 7.0625
i =1
Entonces, 𝜎𝜎𝑥𝑥𝑥𝑥 =7,0625, lo que quiere decir que existe una relación de carácter positivo entre las
variables x e y. Si por el contrario, el resultado de ∑𝑛𝑛𝑖𝑖=1(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )(𝑦𝑦𝑖𝑖 − 𝑦𝑦�) fuera negativo, entonces la
covarianza seria negativa.
Entonces, −∞ < 𝜎𝜎𝑥𝑥𝑥𝑥 < +∞, con lo que la covarianza da una medida de evolución lineal entre las
variables que se distribuye entre el menos infinito y el más infinito. Cabe destacar que la covarianza
se puede estimar también de la siguiente forma:
51
1 1 1
𝜎𝜎𝑥𝑥𝑥𝑥 = �∑ 𝑥𝑥𝑖𝑖 𝑦𝑦𝑖𝑖 − 𝑁𝑁 � � 𝑦𝑦� ∑ 𝑥𝑥𝑖𝑖 − 𝑁𝑁 � � 𝑥𝑥̅ ∑ 𝑦𝑦𝑖𝑖 + 𝑁𝑁𝑥𝑥̅ 𝑦𝑦��
𝑁𝑁 𝑁𝑁 𝑁𝑁
∑ 𝑥𝑥𝑖𝑖 ∑ 𝑦𝑦𝑖𝑖 1
𝜎𝜎𝑥𝑥𝑥𝑥 = �∑ 𝑥𝑥𝑖𝑖 𝑦𝑦𝑖𝑖 − 𝑁𝑁𝑦𝑦� − 𝑁𝑁𝑥𝑥̅ + 𝑁𝑁𝑥𝑥̅ 𝑦𝑦��
𝑁𝑁 𝑁𝑁 𝑁𝑁
1
𝜎𝜎𝑥𝑥𝑥𝑥 = (∑ 𝑥𝑥𝑖𝑖 𝑦𝑦𝑖𝑖 − 𝑁𝑁𝑦𝑦�𝑥𝑥̅ − 𝑁𝑁𝑥𝑥̅ 𝑦𝑦� + 𝑁𝑁𝑥𝑥̅ 𝑦𝑦�)
𝑁𝑁
∑ 𝑥𝑥𝑖𝑖 𝑦𝑦𝑖𝑖
𝜎𝜎𝑥𝑥𝑥𝑥 = − 𝑥𝑥̅ 𝑦𝑦� (5.6)
𝑁𝑁
Por lo que la equivalencia 5.5 es correcta. Es más, la ecuación 5.6 presenta una mayor simpleza a la
hora de estimar la covarianza, pues no requiere calcular las diferencias entre las observaciones.
Observación 1: Sin embargo, la distribución de la covarianza representa una desventaja, pues ésta
dependerá de la unidad de medición de las variables. Por ejemplo si multiplico la variable
escolaridad por 1000, ¿Qué valor toma la covarianza?.
Los problemas de la covarianza para medir asociación pueden ser paliados considerando el
coeficiente de correlación de Pearson. El coeficiente de Correlación de Pearson es una forma de
solucionar a, b, y c. Este se define como (Spiegel, 1976: 82).
σ xy
ρ xy = (5.7)
σ xσ y
52
Grafico 5.2: Ejemplos de Correlación.
A modo de ejemplo, en nuestro ejercicio anterior 𝜎𝜎𝑥𝑥 = 2.33, 𝜎𝜎𝑦𝑦 = 3.19, y 𝜎𝜎𝑥𝑥𝑥𝑥 = 7.0625, entonces
el coeficiente de correlación entre x e y corresponde a:
σ xy 7.0625
ρ xy = = = 0.95
σ xσ y (2.33)(3.19)
Lo que quiere decir existe un alto grado de evolución entre las variables.
Observación 1: Para observar de qué forma concreta se resuelven a, b, y c, solo resta explicitar los
componentes que conforman el coeficiente de correlación. Esto es, explicitando 5.6:
𝜎𝜎
𝜌𝜌𝑥𝑥𝑥𝑥 = 𝜎𝜎 𝑥𝑥𝑥𝑥
𝜎𝜎
𝑥𝑥 𝑦𝑦
∑�𝑥𝑥𝑖𝑖 −𝑥𝑥
��(𝑦𝑦𝑖𝑖 −𝑦𝑦
�)
𝑁𝑁
𝜌𝜌𝑥𝑥𝑥𝑥 =
�)2 ∑(𝑦𝑦𝑖𝑖 −𝑦𝑦
∑(𝑥𝑥𝑖𝑖 −𝑥𝑥 �)2
� �
𝑁𝑁 𝑁𝑁
1
∑(𝑥𝑥𝑖𝑖 −𝑥𝑥�)�𝑦𝑦𝑖𝑖 −𝑦𝑦
��
𝑁𝑁
𝜌𝜌𝑥𝑥𝑥𝑥 = 1 1
� �∑(𝑥𝑥𝑖𝑖 −𝑥𝑥̅ )2 � �∑(𝑦𝑦𝑖𝑖 −𝑦𝑦�)2
𝑁𝑁 𝑁𝑁
1
∑(𝑥𝑥𝑖𝑖 −𝑥𝑥�)�𝑦𝑦𝑖𝑖 −𝑦𝑦
��
𝑁𝑁
𝜌𝜌𝑥𝑥𝑥𝑥 = 2
1
�∑(𝑥𝑥𝑖𝑖 −𝑥𝑥̅ )2 �∑(𝑦𝑦𝑖𝑖 −𝑦𝑦�)2 �� �
𝑁𝑁
Ahora, si se supone que 𝑥𝑥𝑖𝑖 = 𝑦𝑦𝑖𝑖 , entonces la expresión 5.8, queda como 5.9, pues al ser idénticas las
variables, la correlación entre ellas será igual a 1.
53
∑(𝑥𝑥𝑖𝑖 −𝑥𝑥�)2
𝜌𝜌𝑥𝑥𝑥𝑥 = 2
��∑(𝑥𝑥𝑖𝑖 −𝑥𝑥̅ )2 �
∑(𝑥𝑥 −𝑥𝑥�)2
𝜌𝜌𝑥𝑥𝑥𝑥 = ∑(𝑥𝑥𝑖𝑖 −𝑥𝑥̅ )2 = 1 (5.9)
𝑖𝑖
Referencias
54
Ejercicios Propuestos.
Usted dispone de la siguiente base de datos, donde aparece información para 6 provincias que
corresponden a la población de estudio. Esta es la oportunidad de demostrar la calidad de su
trabajo!!
Tabla 1
Personas Coeficiente de GINI Nº Personas
Provincias Población
con TME (de 0 a 100%) Pobres
A 5 100 65 30
B 4 250 45 26
C 8 270 90 40
D 3 230 20 30
c. Ahora obtenga el coeficiente de correlación entre las personas con TME y la desigualdad, y
personas con TME y la pobreza. Use las variables debidamente corregidas por población y
use la siguiente información:
Desviación estándar poblacional para el porcentaje de casos TME: 1,46
Desviación estándar poblacional para el porcentaje de casos pobres: 7,63
Desviación estándar poblacional para la desigualdad: 25,74.
d. ¿Es consistente el resultado de 3) con los resultados de 1) y 2)? ¿Qué puede decir con
respecto a esto? ¿En qué medida confía más?
e. Diga algo respecto a las desviaciones estándar expuestas en 3), transfórmelas a varianza, y
luego grafique considerando en el eje de abscisas la primera y en el eje de ordenadas la
segunda. ¿A qué función corresponde la relación expuesta?
55
2. En los siguientes gráficos de dispersión señale de qué signo debería ser la covarianza y el
coeficiente de correlación.
Ayudándose de su intuición, plantee una ecuación hipotética para las relaciones entre las variables x
e y en los gráficos del (a) al (d).
56
5.3. Otros estadísticos de asociación.
Como ya hemos visto, en el análisis empírico es frecuente tener fenómenos en los cuales se da la
interrelación entre dos o más variables, para lo cual es útil usar el análisis gráfico desde el punto de
vista intuitivo, y estadísticos de asociación desde el punto de vista formal. La medida básica dentro
de los estadísticos formales es la covarianza, sin embargo, dado que ésta no entrega un valor
estandarizado de correlación, se suele utilizar el coeficiente de correlación de Pearson.
Sin embargo, también existen otros coeficientes de correlaciones, como el de Spearman, cuya
fórmula y características pasamos a revisar a continuación.
Si bien el coeficiente de correlación de Pearson es bastante útil y corresponde a uno de los más
utilizados para medir asociación lineal, existen ciertos casos en los cuales estamos interesados en
medir la relación entre el ranking de las variables más que la relación entre sus niveles. Esto se
puede dar debido a la naturaleza de las variables, que pueden corresponder a variables ordinales, o
porque estamos interesados en obtener una medida más conservadora de correlación, inmune a
datos extremos y muy alejados de la muestra.
Para estos casos, se usa el coeficiente de correlación de Spearman (Levin y Levin, 1999), cuya
estimación se realiza de la siguiente forma:
6∑i =1 ( R y − R x ) 2
n
r = 1−
s
(5.10)
n(n 2 − 1)
xy
Considere los datos de la Tabla 5.3 (Levin & Levin, 1999: 217) donde las personas se encuentran
ordenadas por rango, donde Miguel tiene el más alto estatus socioeconómico y Araceli el mayor
tiempo viendo TV.
57
6∑i =1 ( R y − R x ) 2
n
6(10) 60 60
r = 1−
s
= 1− = 1− = 1− = 1 − 0.1190 = 0.881
n(n − 1) 8(8 − 1) 8(64 − 1)
xy 2 2
504
Dado que se está trabajando exclusivamente con rankings, y por ende, ordenamientos de números
con un espacio uniforme entre ellos, se puede obtener la media de estos, la que corresponde a:
1 1 1 𝑛𝑛(𝑛𝑛+1) 𝑛𝑛+1
𝑥𝑥̅ = 𝑦𝑦� = ∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖 = ∑𝑛𝑛𝑖𝑖=1 𝑖𝑖 = 𝑛𝑛 2
= 2
(5.11)
𝑛𝑛 𝑛𝑛
Donde se utiliza el hecho de que la sumatoria de cualquier serie de 1 a n es igual a n(n+1)/2. Por
ejemplo, la suma de 1 a 3 es 1+2+3=6. Con la fórmula es 3(3+1)/2=6. Por otro lado, sabemos que
las diferencias respecto de la media al cuadrado se pueden expresar de la siguiente forma:
En este punto, se puede utilizar otra identidad de las sumatorias, la que consiste en que ∑𝑛𝑛𝑖𝑖=1 𝑖𝑖 2 =
𝑛𝑛(𝑛𝑛+1)(2𝑛𝑛+1)
6
. Reemplazando en 5.13 se tiene:
𝑛𝑛(𝑛𝑛+1)(2𝑛𝑛+1) 𝑛𝑛(𝑛𝑛+1)2
∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2 = −
6 4
𝑛𝑛(𝑛𝑛+1)(2𝑛𝑛+1) 𝑛𝑛(𝑛𝑛2 +2𝑛𝑛+1)
= 6
−
4
𝑛𝑛(𝑛𝑛+1)(2𝑛𝑛+1) (𝑛𝑛3 +2𝑛𝑛2 +𝑛𝑛)
= 6
−
4
2(2𝑛𝑛3 +3𝑛𝑛2 +𝑛𝑛) 3(𝑛𝑛3 +2𝑛𝑛2 +𝑛𝑛)
= −
12 12
4𝑛𝑛3 +6𝑛𝑛2 +2𝑛𝑛−3𝑛𝑛3 −6𝑛𝑛2 −3𝑛𝑛
=
12
𝑛𝑛3 −𝑛𝑛
= (5.14)
12
58
= ∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2 + ∑(𝑦𝑦𝑖𝑖 − 𝑦𝑦�)2 − 2 ∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )(𝑦𝑦𝑖𝑖 − 𝑦𝑦�) (5.15)
A continuación se despeja el último miembro del lado derecho de la ecuación 5.15, pues de esta
forma se obtiene el numerador del coeficiente de Pearson:
1
∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )(𝑦𝑦𝑖𝑖 − 𝑦𝑦�) = (∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2 + ∑(𝑦𝑦𝑖𝑖 − 𝑦𝑦�)2 − ∑ 𝑑𝑑𝑖𝑖2 )
2
Ahora, reemplazando todas las expresiones en la fórmula del coeficiente de Pearson, se tiene la
ecuación 5.17:
𝑛𝑛3 −𝑛𝑛 1
− ∑ 𝑑𝑑𝑖𝑖2
𝑟𝑟𝑥𝑥𝑥𝑥 = 12 2
(5.17)
𝑛𝑛3 −𝑛𝑛 𝑛𝑛3 −𝑛𝑛
� 𝑥𝑥
12 12
𝑛𝑛3 −𝑛𝑛 1
− ∑ 𝑑𝑑𝑖𝑖2 12 1
𝑟𝑟𝑥𝑥𝑥𝑥 = 12 2
𝑛𝑛3 −𝑛𝑛
=1− ∑ 𝑑𝑑𝑖𝑖2
𝑛𝑛3 −𝑛𝑛 2
12
6 ∑ 𝑑𝑑 2
𝑟𝑟𝑥𝑥𝑥𝑥 = 1 − 𝑛𝑛(𝑛𝑛2 −1)
𝑖𝑖
Otro elemento de importancia en el análisis de datos dice relación con la matriz de correlación. Esta
matriz nos ofrece información cuando se está analizando la correlación entre una serie de variables
antes de realizar un análisis de tipo explicativo.
En la Tabla 1 se tiene una matriz de correlaciones de 3x3 en la cual se tienen los coeficientes de
correlación de Pearson. ¿Por qué hay espacios en blanco en dicha matriz?
x2 ρx x
2 1
ρx 2 x2
x3 ρx x
3 1
ρx x 3 2
ρx x 3 3
Donde ρ x1 x1 = ρ x 2 x 2 = ρ x3 x3 =1.
59
Referencias.
Sarabia Alegría, José María; Pascual Sáez, Marta (2005). “Curso básico de estadística para
economía y administración de empresas”. Textos Universitarios, n° 2, Ciencias Sociales,
Universidad de Cantabria.
60
Ejercicios propuestos.
2. Suponga que tiene los siguientes datos para estimar el coeficiente de correlación de
Spearman. Organice los datos por Ranking y luego realice los cálculos necesarios.
Tabla 1. Datos
X y
18 15
17 18
15 12
12 16
10 6
9 10
8 8
8 7
5 5
1 2
4. Ahora estime el coeficiente de correlación de Pearson para los mismos datos de la Tabla 1.
¿Existe alguna relación entre los coeficientes? ¿Cuál es más elevado y por qué?
5. Estime la matriz de correlaciones para los siguientes datos. ¿Cuáles corresponden a las
variables menos correlacionadas?
Tabla 2. Datos
X Y Z
1 2.33 6
2 4 5
3 5 1
61
6. Elementos de Inferencia Estadística
En primer lugar es necesario comprender que se entiende por inferencia estadística. En los capítulos
anteriores se revisaron los fundamentos de la estadística descriptiva, es decir, todos aquellos
estadísticos que nos permiten extraer información de una agrupación de datos, referentes a su
posición, su dispersión, y otras características particulares. Asimismo, se revisaron estadísticos
referentes a la asociación del comportamiento de dos variables.
Sin embargo, en dichas ocasiones se asumió que los datos con los que contábamos correspondían a
una población. Ese es un supuesto simplificador, pues en la realidad no necesariamente los datos
con los que contamos corresponden a datos representativos del fenómeno que queremos estudiar,
debido a diferentes restricciones.
Estas restricciones, como la disponibilidad de los datos, el tiempo del investigador, sus recursos,
conllevan a la elección de muestras. En este contexto, es de interés determinar si los datos que
tenemos, y por ende sus estadísticos, permiten hacer inferencia respecto de los datos de la
población. Las secciones siguientes se basan en Levin y Levin (1999).
Siguiendo a Levin y Levin (1999), los métodos de muestreo se pueden dividir en muestreo no
aleatorio y muestreo aleatorio. De acuerdo a los autores, para el caso de los métodos de muestreo no
aleatorio se encuentra el muestreo por accidente y el muestreo por cuota. El primero implica que el
investigador no tiene ninguna restricción en la elección de la muestra, salvo la conveniencia,
mientras que el segundo implica que ciertas características de la población se encuentren
representadas en la muestra. Por ejemplo, si en una población de 1000 personas hay 600 mujeres y
400 hombres, y quiero que una muestra de 100 personas (n) conserve el mismo nivel de
representatividad desde el punto de vista del sexo, debo escoger a 60 mujeres y 40 hombres.
El muestreo aleatorio, por el contrario, implica que cada elemento de una población tiene la misma
probabilidad de aparecer en la muestra, y entre estos se tiene el muestro aleatorio simple, el
muestreo sistemático, y el muestreo estratificado. Suponiendo que se tiene una lista con toda la
población de N personas, el muestreo aleatorio simple implica que la elección aleatoria de una
muestra n de la población no sigue ningún patrón predeterminado, por el contrario, surge del azar,
para lo que es útil generar números aleatorios, los que pueden servir para llevar a cabo la selección.
6, 5, 7, 8, 9, 4, 6, 5, 8, 4, 6.
62
6.3. Error de muestreo.
En la práctica es frecuente que en la muestra que tenemos exista error de muestreo. Esto es, si por
ejemplo se tiene una muestra N, que tiene una media poblacional µ, y si obtenemos tres muestras
de la población, n 1 , n 2 , y n 3 , cada una con sus propias medias, 𝑥𝑥̅1 , 𝑥𝑥̅2 , y 𝑥𝑥̅3 , no es extraño que
dichas medias no coincidan del todo con la media poblacional, µ. Esto se da, pues si bien se elige
una muestra aleatoria, siempre está la posibilidad de que nuestros datos provengan de un sector
particular o sesgado de la población. En forma adicional, así como cada muestra tiene su propia
media, cada una de estas también tienen asociada su propia desviación estándar, por lo que al
diferenciar, tenemos la media y la desviación estándar poblacional, µ y σ, respectivamente, y la
media y la desviación estándar de la muestra, 𝑥𝑥̅ y s, respectivamente.
Sin embargo, existe un modelo teórico que nos permite relacionar las medias muestrales con la
población. Por ejemplo, si se saca el mayor número posible de muestras del mismo tamaño de una
población, digamos n 1 , n 2 ,…,n z , luego se obtiene el promedio de cada muestra, es decir, 𝑥𝑥̅1 , 𝑥𝑥̅2 , …
,𝑥𝑥̅𝑧𝑧 , y después se construye una distribución a partir de las medias estimadas, se obtiene lo que se
conoce como distribución muestral de medias. Esta distribución tiene las siguientes propiedades
(Levin & Levin, 1999: 102):
-3 -2 -1 x 1 2 3
63
El valor particular de probabilidad acumulada puede encontrarse en una tabla de porcentaje
acumulado bajo la curva normal. En la curva normal, si queremos hacer un análisis al 90% de
confianza, el valor -1,645;+1,645 en el eje de las abscisas acumula el 90% de la probabilidad. El
análisis es análogo para los niveles de confianza de 95% (-1,96; +1.96), y 99% (-2.58; +2.58).
Llamaremos a esos números que denotan los intervalos, z.
Dado que en la realidad es difícil contar con muestras, y por ende, tener precisión en los datos que
estimamos, es útil acudir a una medida de error. Para esto, se tiene el error estándar de la media
(esm), que corresponde a una estimación de la desviación estándar de la distribución muestral de
medias. Dicho estadístico se estima como:
s
sX = (6.1)
n −1
X ± z ×σ X (6.2)
𝑋𝑋� ± 𝑧𝑧𝜎𝜎𝑥𝑥̅
1.27
2.7 ± (1.96) 10−1
√
2.7 ± (1.96)0.42
(1.8768; 3.5232 ) (6.3)
Por lo que con un 95% de confianza, la verdadera media poblacional se encuentra entre 1.88 y 3.52.
De la misma forma en la que es posible estimar una media poblacional, también es posible estimar
proporciones.
𝑃𝑃(1−𝑃𝑃)
𝜎𝜎𝑝𝑝 = � 𝑁𝑁
(6.4)
64
Siguiendo a Levin y Levin (1999: 114), si el 45% de una muestra aleatoria de 100 personas informa
que estas están a favor de la legalización de la droga, y se busca un intervalo de confianza al 95%,
la estimación sería:
𝑃𝑃 ± 𝑧𝑧𝜎𝜎𝑝𝑝
0.45(1−0.45)
0.45 ± (1.96)� 100
0.45 ± (1.96)0.05
(0.352; 0.548) (6.5)
Por lo que con un 95% de confianza, la proporción poblacional se encuentra entre 0.35 y 0.55.
Referencias
Webster, Allen (2000). “Estadística aplicada a los negocios y la economía”. Tercera Edición.
McGraw-Hill Interamericana, S.A. Santa Fe de Bogotá, Colombia.
65
Ejercicios Propuestos.
1. Suponga que tiene una muestra de 1000 personas, cuya frecuencia promedio de uso de
bicicleta por día es igual a 2.3. La desviación estándar de la muestra es de 0.8. Estime un
intervalo de confianza al 95%.
3. Suponga que tiene la siguiente población. Obtenga una muestra aleatoria del 60% de la
población, obtenga la media muestral, y compárela con la media poblacional. Obtenga
luego una muestra estratificada para zona urbana y rural, del 60%. Obtenga las medias y
compárelas con la población.
Tabla 1
Zona Pobreza por Zona
Urbana 0.3
Urbana 0.2
Urbana 0.23
Urbana 0.17
Rural 0.2
Rural 0.3
Rural 0.3
Rural 0.4
Rural 0.5
66
7. Test de Hipótesis.
Dado que no poseemos la población en la mayoría de los casos, suele ser útil usar inferencia para
testear la validez de ciertas hipótesis que se establecen respecto de los datos. El proceso de
inferencia estadística conlleva el establecimiento de una hipótesis nula (H 0 ), una hipótesis
alternativa (H 1 ), el planteamiento de un estadístico, y un criterio de rechazo/aceptación. A
continuación revisaremos algunos test estadísticos que se usan en forma usual para analizar la
diferencia de medias o de frecuencias relativas. Esta sección se basa íntegramente en Levin y Levin
(1999).
Este corresponde a una prueba en la cual se testea si dos medias muestrales difieren
significativamente. Suponga que saca n pares de muestras de una población normal y calcula la
diferencia de los promedios, por ejemplo, el ingreso entre hombres y mujeres. Estas diferencias
también se distribuyen normal, y el conjunto de todas ellas da origen a la Distribución Muestral de
Diferencias de Medias (se vería como el gráfico 7.1). La media de dicha distribución corresponderá
a cero, si se avanza hacia la derecha dicha diferencia será positiva, mientras que a la izquierda será
negativa.
-3 -2 -1 x 1 2 3
En este caso, el estadístico del test sería la diferencia de medias (𝑥𝑥̅1 − 𝑥𝑥̅2 ) corregida por la
desviación estándar de la Distribución Muestral de Diferencias (σ DIF ). Dicho estadístico se definirá
como Z. El valor que tome este estadístico será vital para determinar si las medias son similares o
difieren. La intuición indica que un Z cerca de cero (media de la Distribución) corresponderá a una
situación en la cual las medias son bastantes similares, mientras que un Z alejado de cero, tanto a la
derecha como a la izquierda, implica una diferencia importante de las medias. En términos
estadísticos, el valor de Z definirá una probabilidad acumulada en la distribución, y dicha
probabilidad determinará si la diferencia de medias se debe simplemente a error muestral, o a que
efectivamente existe una diferencia entre ellas.
a) Planteamiento de hipótesis:
67
H 0 : µ1 = µ 2
H 1 : µ1 ≠ µ 2
La hipótesis nula (H 0 ) supone que cualquier diferencia entre las medias solo es producto del error
de muestreo.
Donde:
𝑠𝑠𝑥𝑥�1
𝜎𝜎𝑥𝑥̅1 = (7.3)
�𝑛𝑛1 −1
P A =P A (Z)
P = (1- P A )*2 (7.4)
Ejemplo: Se tienen los siguientes datos, 𝑥𝑥̅1 = 7, 𝑥𝑥̅2 = 2, σ DIF = 2. Implemente un test de diferencia
de medias (Levin y Levin, 1999: 129).
a) Planteamiento de hipótesis:
H 0 : µ1 = µ 2
H 1 : µ1 ≠ µ 2
68
Dado que la hipótesis nula señala que 𝜇𝜇1 = 𝜇𝜇2 , entonces 𝜇𝜇1 − 𝜇𝜇2 = 0, por lo que se reemplaza
dicha expresión en el estadístico en conjunto con los valores dados en el enunciado
7−2
𝑍𝑍 = = 2.5
2
P = (1- P A )*2
P = (1- 0.9938)*2
P = 0.0124 ≈ 1.24%
Entonces, la probabilidad de que la diferencia de medias de 5 entre dos medias ocurra en base al
error muestral, es de 1.24%, por lo que se rechaza hipótesis nula al 5% de significancia.
Para el caso de muestras grandes, como se acude al teorema del límite central, se supone que la
variable aleatoria se distribuye normal. Sin embargo, al usar un número reducido de datos (<30
datos), se debe usar la distribución t-student. Dado que a medida que se reduce el tamaño de la
muestra se tiene menos libertad para inferir cosas respecto de la población, dicha distribución
internaliza este aspecto a través de los grados de libertad (gl). Entonces, a medida que disminuye el
tamaño muestral, disminuyen los grados de libertad; a medida que aumenta el tamaño muestral,
aumentan los grados de libertad; en el extremo, si el tamaño muestral fuera muy grande, este
estadístico tendería al Z de la distribución normal. El estadístico corresponde a la ecuación 7.5.
(𝑥𝑥̅1 −𝑥𝑥̅ 2 ) ∗
𝑡𝑡 = 𝜎𝜎𝐷𝐷𝐷𝐷𝐷𝐷
~𝑡𝑡(𝑛𝑛 1 +𝑛𝑛2 −2)
𝑥𝑥% (7.5)
Donde (𝑛𝑛1 + 𝑛𝑛2 − 2) corresponde a los grados de libertad, 𝑛𝑛1 y 𝑛𝑛2 corresponden a los tamaños
muestrales, y x% al nivel de significancia al cual se puede realizar el análisis. En este caso se
rechaza la hipótesis nula si el t calculado es mayor al t teórico, es decir, 𝑡𝑡 𝑐𝑐 > 𝑡𝑡 ∗ .
Para el caso en el cual los tamaños muestrales son distintos se hace necesario corregir la desviación
estándar (𝜎𝜎𝐷𝐷𝐷𝐷𝐷𝐷 ) de la Distribución de Diferencia de Medias. En este sentido, el análisis es similar a
los casos anteriores de diferencias de medias, pero se debe obtener 𝜎𝜎𝐷𝐷𝐷𝐷𝐷𝐷 como:
Donde 𝑠𝑠1 y 𝑠𝑠2 son las desviaciones estándar de la primera y segunda muestra respectivamente, y 𝑁𝑁1
y 𝑁𝑁2 , son los tamaños muestrales de las muestras, respectivamente.
69
7.3. Test Chi cuadrado
Este test corresponde a un test de hipótesis para pruebas no paramétricas, en las cuales no se está
estimando la diferencia de parámetros, por el contrario, se analiza la similitud entre frecuencias de 2
o más categorías (Levin y Levin, 1999: 170).
a) Planteamiento de hipótesis:
b) El estadístico corresponde a:
(𝑓𝑓0 −𝑓𝑓𝑒𝑒 )2
𝑥𝑥𝑐𝑐2 = ∑ � � ~𝑥𝑥∗2 (𝑓𝑓−1)(𝑐𝑐−1) (𝑥𝑥%) (7.7)
𝑓𝑓𝑒𝑒
Ejemplo: Suponga que tiene los siguientes datos respecto a los métodos de crianza de los niños,
separados por la orientación política de los padres (Levin y Levin, 1999:171). La información se
observa en la Tabla 7.1, en el cual se denotan los diferentes espacios usando la notación matricial
“fila, columna”. Por ejemplo, para referirse al número de liberales que emplean métodos no rígidos
nos referimos al 11 (fila 1, columna 1), mientras que para referirse a los conservadores que
emplean métodos no rígidos, nos referimos al 12 (fila 1, columna 2). En este sentido, las
dimensiones de la matriz corresponden a 2x2, pues existen dos filas y dos columnas.
Luego es necesario calcular las frecuencias esperadas que se obtienen como el producto entre los
totales marginales respectivos y la división por el total de observaciones. Los totales marginales
corresponden a las sumas totales de cada fila y columna. Por ejemplo, para el espacio de la primera
fila y primera columna (11), la frecuencia real es 5, sin embargo la frecuencia esperada es:
Tal como se observa en la Tabla 7.2. Este proceso se repite para todas los espacios de la matriz de
2x2.
70
Tabla 7.2. Métodos de crianza por categoría liberal o conservadora
Métodos Liberales Conservadores Total marginal
11 12
No rígidos 5 (7.5) 10 (7.5) 15
21 22
Rígidos 15 (12.5) 10 (12.5) 25
Total marginal 20 20 Total=40
Fuente: Levin & Levin (1999).
Luego, una vez que se obtienen todas las frecuencias esperadas, es necesario calcular el estadístico
y los grados de libertad.
Entonces, si el estadístico (𝑥𝑥𝑐𝑐2 ) es mayor que el valor teórico (𝑥𝑥∗2 ) se rechaza la hipótesis nula. En
este caso, dado que 𝑥𝑥𝑐𝑐2 < 𝑥𝑥∗2 , “se acepta” la hipótesis nula.
Referencias
71
Ejercicios Propuestos.
1. Suponga que tiene los siguientes datos: 𝑥𝑥̅1 = 1.71; 𝑥𝑥̅2 = 1.54; s 1 =1.07; s 2 = 0.94, n 1 =35
n 2 =35. Realice un test de diferencia de medias (Levin y Levin, 1999).
Tabla 2
Universitario No Universitario
Fumador 15 5
No fumador 6 10
Tabla 3
A B C
X 7 9 14
Y 10 10 8
Z 15 11 5
72
8. La Programación Lineal.
La técnica que esta sección describe corresponde a la Programación Lineal (PL), y consiste en una
herramienta de optimización en la cual se plantea una función objetivo sujeta a una o más
restricciones, con el objeto de obtener los valores que maximizan o minimizan la función objetivo
(Peñafiel, 1976: 13). Dicha función puede corresponder a una función de beneficios o costos, y
como es imposible llevar los beneficios a infinito, así como llevar los costos a cero, es que se
plantea un problema de optimización. La característica de este problema de optimización es que las
ecuaciones implicadas tienen formas lineales, por lo que es un caso de optimización menos general
que el caso de los Método de los Multiplicadores de Lagrange de la sección “Aplicaciones de la
Derivada”.
Desde el punto formal, un problema de PL consiste en una función objetivo lineal (8.1) sujeta a una
serie de restricciones (8.2) (Peñafiel, 1976: 18). Tanto la función objetivo como las restricciones se
encuentran en función de variables, 𝑥𝑥1 , 𝑥𝑥2 , … , 𝑥𝑥𝑛𝑛 , por lo que hallar los valores de las variables que
optimizan el problema es el objetivo subyacente de la PL.
s.a.:
Dependiendo del problema específico, la solución del modelo de PL se puede obtener de diferentes
formas, ocupando el Método Simplex o simplemente aplicando el método gráfico.
Ejemplo 1: Existe una empresa que produce pinturas para exterior (𝑋𝑋1 ) y para interior (𝑋𝑋2 ),
utilizando dos materias primas, M1 y M2. En la Tabla 8.1 se observa la materia prima que necesita
73
la empresa para producir ambos tipos de pintura, en conjunto con la disponibilidad máxima de
dichas materias primas, y la utilidad que la empresa obtiene al vender cada tonelada de su producto
(Taha, 2012: 13, Ejemplo 2.1-1).
En forma adicional, se tienen dos restricciones: “Una encuesta de mercado indica que la demanda
diaria de pintura para interiores no puede exceder la de pintura para exteriores en más de una
tonelada. Asimismo, que la demanda diaria máxima de pintura para interiores es de dos toneladas”.
(Taha, 2012).
Una vez planteado el problema las ecuaciones se pueden reordenar de forma de graficarlas. Una
alternativa es obtener los puntos críticos de cada ecuación. Por ejemplo, para el caso de L1, cuando
𝑥𝑥2 = 0, 𝑥𝑥1 = 4, y cuando 𝑥𝑥1 = 0, 𝑥𝑥2 = 6. De esta forma L1 se grafica considerando que su
intersección con el eje de 𝑥𝑥1 corresponde a 4 y con el eje 𝑥𝑥2 corresponde a 6. Otra alternativa es
dejar L1 en función de 𝑥𝑥2 ; al realizar esto la ecuación queda como 8.4, y es claro que el intercepto
de la ecuación corresponde a 6 mientras que la pendiente es -3/2. Se puede efectuar la misma
operación en todas las restricciones, quedando estas definidas en las ecuaciones 8.4 a 8.7.
3
𝑥𝑥2 = 6 − 𝑥𝑥1 (8.4)
2
1
𝑥𝑥2 = 3 − 𝑥𝑥1 (8.5)
2
𝑥𝑥2 = 2 (8.7)
74
Figura 8.1. Gráfico del Problema 8.3
Una vez realizado el análisis con todas las restricciones es claro que el área factible de solución al
problema corresponde al área limitada por los puntos (0, 1), (1, 2), (2, 2), (3, 1.5), (4, 0). Si bien el
planteamiento de las desigualdades en forma de ecuación permite delimitar las áreas, las
desigualdades implícitas en cada una permiten saber que sección corresponde efectivamente al área
factible. En la figura 8.1 es bastante clara la intersección entre todas las restricciones, sin embargo
el punto (3, 1.5) tiene decimales. Para encontrar este punto es necesario igualar las restricciones
que pasan por ese punto, las que corresponden a L1 y a L2; como resultado en ese punto (𝑥𝑥1 , 𝑥𝑥2 ) =
(3, 1.5). A continuación se procede a evaluar cada uno de los puntos obtenidos en la función
objetivo.
Entonces, la solución que maximiza la función objetivo corresponde al conjunto (𝑥𝑥1 , 𝑥𝑥2 ) = (3, 1.5),
donde 𝑧𝑧 = 21, el valor máximo que obtiene la función en los vértices definidos por el área factible.
A su vez, “las necesidades dietéticas del alimento especial son un mínimo de 30% de proteína y un
máximo de 5% de fibra” (Taha, 2012). De acuerdo a la información anterior se procede a plantear el
problema de PL, donde 𝑥𝑥1 = libras de maíz en la mezcla diaria y 𝑥𝑥2 = libras de soya en la mezcla
diaria.
75
𝑀𝑀𝑀𝑀𝑀𝑀 𝑧𝑧 = 0.3𝑥𝑥1 + 0.9𝑥𝑥2
s.a.:
El problema 8.8 presenta unas restricciones complicadas (L2 y L3) por lo que se puede facilitar el
análisis replanteando el problema. En 8.9 solo se simplificaron las restricciones L2 y L3.
En el gráfico 8.2 se graficaron las restricciones y es claro que la zona factible está delimitada desde
el infinito hacia el cero por los puntos (200, 600) y (470.6, 329.4). El primer punto se observa
fácilmente mientras que el segundo se debe calcular como la intersección de las rectas L1 y L2.
Entonces, la intersección entre L1 y L2 corresponde al punto (470.6, 329.4). A continuación se
procede a evaluar los puntos en la función objetivo y se tiene que:
76
𝑧𝑧(200, 600) = 0.3(200) + 0.9(600) = 600
𝑧𝑧(470.6, 329.4) = 0.3(470.6) + 0.9(329.4) = 437.64
Referencias
Peñafiel Millán, Luis, Programación Lineal: base teórica y aplicaciones administrativas; 1976, Ed.
Trillas, 1º edición, México.
77
Ejercicios Propuestos.
2. El gobierno debe encargarse del proceso de reconstrucción debido a los desastres ocurridos
luego de un terremoto, para lo que cuenta con dos bienes cuya valoración puede compensar
a las personas por las pérdidas sufridas. El bien 𝑥𝑥1 tiene la cualidad de compensar las
pérdidas por bienes inmuebles de los damnificados por un valor de $2.000, mientras que el
bien 𝑥𝑥2 por un valor de $3.000. Sin embargo, dada la gravedad de la situación post-desastre,
y las demandas de la ciudadanía por una actuación rápida del gobierno, éste se ha puesto
plazos para producir los bienes 𝑥𝑥1 y 𝑥𝑥2 , es decir, ha definido dos fases de producción. Para
la primera fase solo dispone de 50 horas, y producir una unidad del bien 𝑥𝑥1 requiere de 12
horas, mientras que para producir una unidad del bien 𝑥𝑥2 se requieren 23 horas. Para la
segunda fase, se dispone de 45 horas, y ahora producir una unidad de 𝑥𝑥1 corresponde a 16
horas, mientras que producir una unidad de 𝑥𝑥2 corresponde a 10 horas. Grafique y
encuentre el óptimo, considerando cantidades positivas de 𝑥𝑥1 y 𝑥𝑥2 .
3. Use el método gráfico para encontrar los valores de 𝑥𝑥1 y 𝑥𝑥2 que maximizan la función
objetivo, 𝑓𝑓(𝑥𝑥1 , 𝑥𝑥2 ) en cada uno de los siguientes casos 3:
3
Gonzalo Edwards (1994). “Modelos de Optimización”. Trabajo Docente Nº 57, Instituto de Economía, Pontificia Universidad Católica
de Chile. ISSN: 0716-7334.
4
Ídem.
78
9. Introducción al Modelo de Regresión Lineal.
Entre los objetivos de este documento se encuentra la comprensión de los fenómenos sociales desde
el punto de vista de la dimensión cuantitativa. Para esto se han analizado una serie de estadísticos
que nos permiten obtener información de forma inteligente de los datos. Un momento superior del
análisis cuantitativo dice relación con la conformación del modelo. Tal como vimos en instancias
anteriores, dicho modelo se elabora como una explicación a la realidad, y puede considerar
diferentes variables.
Una forma de obtener un modelo que interrelacione variables es la aplicación del Modelo de
Mínimos Cuadrados Ordinarios (MCO). Es menester considerar que esta relación no corresponde a
la realidad misma, por el contrario, es una interpretación de esta. Asimismo, MCO no permite
establecer causalidad entre dos variables, toda vez que dicha causalidad proviene en primera
instancia del marco teórico que vincule las variables. Una vez que hemos hecho la revisión teórica
respectiva, podemos estar interesados en testear la hipótesis que se deriva de la teoría de forma
empírica, usando para ello el MCO.
Las siguientes secciones no pretenden ser tanto una exposición detallada del análisis de regresión
como una motivación e introducción al mismo. Dado el número de aspectos, especificidades y
problemas que trata el análisis de regresión se recomienda acudir a los textos usualmente usados
como Gujarati (2004) y Wooldridge (2010), así como también a la sección respectiva de Levin y
Levin (1999).
Para elaborar un modelo que interrelaciona dos variables, por ejemplo X e Y, debemos recurrir a una
relación matemática básica, que relaciona las variables en función de un intercepto, 𝛽𝛽0 , y una
pendiente, 𝛽𝛽1 . Esta es una relación determinista, que nos dice cuanto cambia Y a partir de la
variación en una unidad de X:
Sin embargo, en las ciencias sociales existen algunos factores que pueden relativizar la relación
entre las variables, tales como el comportamiento humano, que se caracteriza por ser irracional, la
presencia de errores de medición, y la necesidad de obtener muestras (ya sabemos las restricciones)
entre otras, razón por lo que es necesario incorporar un componente que agrupe toda esa
incertidumbre. En este punto, se debe desechar el modelo matemático por cuanto nos plantea una
relación determinista, y perfeccionarlo a través de un modelo estadístico:
Donde 𝜀𝜀𝑖𝑖 corresponde a la perturbación estocástica (residuo), y representa todas aquellas cosas que
afectan a Y, pero que no están de forma explícita en el modelo. Cabe destacar que el MCO tiene una
serie de supuestos, los que corresponden a linealidad en los parámetros, muestreo aleatorio, no
79
colinealidad perfecta, media condicional cero, y homocedasticidad (Wooldridge, 2010: 84), los que
se detallan a continuación.
Siguiendo a Wooldridge (2010), los supuestos del modelo de MCO corresponden a los siguientes.
Estos supuestos se extienden al caso del modelo multivariable.
2. Muestreo aleatorio: los datos mediante los cuales se efectúa el análisis de regresión
corresponden a datos extraídos de una muestra aleatoria.
3. No existencia de colinealidad perfecta: no existe una relación exacta entre las variables
independientes. Este supuesto es importante cuando se considera un modelo con múltiples
variables independientes.
4. Media condicional cero: este supuesto indica que el valor esperado condicional del error es
igual a cero, esto es:
Bajo los supuestos 1 a 4, es posible formular el teorema de insesgamiento de los estimadores MCO,
esto es, que “los estimadores MCO son estimadores insesgados de los parámetros poblacionales”
(Wooldridge, 2010). Bajo los supuestos 1 a 5, el estimador MCO es el mejor estimador lineal
insesgado (MELI) de 𝛽𝛽0 , 𝛽𝛽1 , … 𝛽𝛽𝑘𝑘 . El supuesto 6 es el más fuerte de todos pues supone que los
supuesto 1 a 5 son verdaderos (Wooldridge, 2010). Por último, todos estos supuestos en conjunto
conforman el Modelo Clásico de Regresión Lineal.
Dado que en estricto rigor no es posible observar todos los datos de la población, no es posible
estimar la ecuación 9.2, la que corresponde a la Función de Regresión Poblacional (FRP); es por
esto que dicha función debe ser estimada a través de la Función de Regresión Muestral (FRM)
(Guajarati, 2004):
80
�𝚤𝚤 + 𝜀𝜀̂𝑖𝑖
𝑌𝑌𝑖𝑖 = 𝑌𝑌 (9.6)
�𝚤𝚤 = 𝛽𝛽̂𝑜𝑜 + 𝛽𝛽̂1 𝑋𝑋𝑖𝑖 , y los valores con gorro (^) son los valores estimados. Dado que el método
Donde 𝑌𝑌
MCO minimiza las diferencias de los residuos al cuadrado, se debe plantear el problema de
optimización como en 9.7.
Para resolver la expresión 9.7 se deben obtener las condiciones de primer orden respecto de 𝛽𝛽̂𝑜𝑜 y de
𝛽𝛽̂1 , las que se corresponden a las ecuaciones 9.8 y 9.9.
2
�𝑜𝑜−𝛽𝛽
𝜕𝜕 ∑�𝑌𝑌𝑖𝑖 −𝛽𝛽 �1 𝑋𝑋𝑖𝑖 �
�𝑜𝑜
𝜕𝜕𝛽𝛽
=0
2 ∑�𝑌𝑌𝑖𝑖 − 𝛽𝛽̂𝑜𝑜 − 𝛽𝛽̂1 𝑋𝑋𝑖𝑖 � (−1) = 0
∑�𝑌𝑌𝑖𝑖 − 𝛽𝛽̂𝑜𝑜 − 𝛽𝛽̂1 𝑋𝑋𝑖𝑖 � = 0 (9.8)
2
�𝑜𝑜−𝛽𝛽
𝜕𝜕 ∑�𝑌𝑌𝑖𝑖 −𝛽𝛽 �1 𝑋𝑋𝑖𝑖 �
�1 =0
𝜕𝜕𝛽𝛽
2 ∑�𝑌𝑌𝑖𝑖 − 𝛽𝛽̂𝑜𝑜 − 𝛽𝛽̂1 𝑋𝑋𝑖𝑖 � (−𝑋𝑋𝑖𝑖 ) = 0
∑�𝑌𝑌𝑖𝑖 − 𝛽𝛽̂𝑜𝑜 − 𝛽𝛽̂1 𝑋𝑋𝑖𝑖 � (−𝑋𝑋𝑖𝑖 ) = 0 (9.9)
Una vez obtenidas las condiciones de primer orden, es posible obtener los estimadores MCO.
Multiplicando 9.8 por (1/n) y aplicando la sumatoria sobre todos los componentes, se obtiene 9.10.
La expresión 9.10 es una expresión para el intercepto de la ecuación. Sin embargo, aún se necesita
una expresión para 𝛽𝛽̂1 en orden a obtener su valor. Reemplazando la expresión 9.10 en 9.9 se
obtiene:
81
∑(𝑌𝑌 −𝑌𝑌�)(𝑋𝑋 )
𝛽𝛽̂1 = ∑(𝑋𝑋𝑖𝑖 −𝑋𝑋�)(𝑋𝑋𝑖𝑖 ) (9.11)
𝑖𝑖 𝑖𝑖
∑ 𝑌𝑌𝑖𝑖 𝑋𝑋𝑖𝑖 � ∑ 𝑋𝑋
𝑌𝑌
− 𝑖𝑖
𝛽𝛽̂1 = 𝑛𝑛
∑ 𝑋𝑋2 �
𝑛𝑛
𝑖𝑖 − 𝑋𝑋 ∑ 𝑋𝑋𝑖𝑖
𝑛𝑛 𝑛𝑛
∑ 𝑌𝑌𝑖𝑖 𝑋𝑋𝑖𝑖
− 𝑌𝑌�𝑋𝑋�
𝛽𝛽̂1 = 𝑛𝑛
∑ 𝑋𝑋2
(9.12)
𝑖𝑖 − 𝑋𝑋� 2
𝑛𝑛
Si se considera la expresión 9.12, es claro que está conformada por dos estadísticos conocidos, por
la varianza (fórmula 4.17) y la covarianza (fórmula 5.6), por lo que la ecuación 9.12 se puede
plantear como la 9.13.
𝑐𝑐𝑐𝑐𝑐𝑐(𝑋𝑋,𝑌𝑌)
𝛽𝛽̂1 = (9.13)
𝑣𝑣𝑣𝑣𝑣𝑣(𝑥𝑥)
En este contexto ya es posible estimar una ecuación de regresión lineal por MCO a través de la
fórmula 9.10 y 9.12.
Referencias.
82
Ejercicios Propuestos.
5. Suponga que tiene los siguientes datos, y se le pide que modele la calificación de los
alumnos en establecimientos de vulnerabilidad. Las variables son:
Tabla 1
X Y
58 4.5
40 4.7
32 4.5
65 5.7
21 4.0
15 3.4
80 6.5
Tabla 2
Escolaridad (X) Ingreso (Y)
9 10
8 11
6 5
7 8
7 7
4 5
3 3
2 1
83
10. Modelo de Regresión Lineal: Ajuste e Inferencia.
En esta sección veremos los estadísticos que tienen por objeto determinar si nuestro modelo se
ajusta bien a los datos, efectuaremos pruebas estadísticas respecto a la significancia de los
coeficientes, y se efectuará una lectura global del modelo.
En la sección anterior se analizó cómo estimar la relación lineal entre dos variables utilizando para
ello el MCO. Sin embargo, una vez que se ha estimado el modelo, es necesario preguntarse respecto
al grado de ajuste de dicho modelo, entendiendo por esto qué tan bien se ajusta a los datos
empíricos. Para responder a esta pregunta es necesario revisar algunos conceptos de importancia.
Y
FRM
Yi 𝜀𝜀̂
Ŷ ɛ
E(Y/X) = Y FRP
Yi = βˆ0 + βˆ1 X i
Xi X
Fuente: Gujarati (2004)
En la figura 10.1 se observa la función de regresión población (FRP), es decir, la verdadera relación
de las variables en la población, y por otro lado, la función de regresión muestral (FRM), que es la
relación estimada a través del Método MCO. Si se fija la atención en el punto 𝑋𝑋𝑖𝑖 , 𝑌𝑌𝑖𝑖 , se puede ver
que a través de la línea formada por el punto 𝑋𝑋𝑖𝑖 pasan ambas funciones generando tramos dentro de
esa línea. Estos tramos permiten hablar de los siguientes conceptos.
2
La suma de cuadrados explicada (SEC): ∑𝑛𝑛𝑖𝑖=1�𝑌𝑌�𝑖𝑖 − 𝑌𝑌�� (10.2)
2
La suma de residuos al cuadrado (SRC): ∑𝑛𝑛𝑖𝑖=1�𝑌𝑌𝑖𝑖 − 𝑌𝑌�𝑖𝑖 � (10.3)
Entonces, la STC corresponde a las distancias totales entre una observación en el plano X,Y y el
promedio respectivo de Y, la SEC a la suma de las distancias entre el punto respectivo en la FRM y
el promedio de Y, mientras que la SRC corresponde a la suma de las distancias entre una
observación y el punto respectivo sobre la FRM. Todas estas distancias son elevadas al cuadrado,
tal como se indica en las ecuaciones 10.1 a 10.3. Dada la interrelación que presentan estas
ecuaciones, es que es posible formular la siguiente ecuación, la que es equivalente a 10.5.
2 2
∑𝑛𝑛𝑖𝑖=1(𝑌𝑌𝑖𝑖 − 𝑌𝑌�)2 = ∑𝑛𝑛𝑖𝑖=1�𝑌𝑌�𝑖𝑖 − 𝑌𝑌�� + ∑𝑛𝑛𝑖𝑖=1�𝑌𝑌𝑖𝑖 − 𝑌𝑌�𝑖𝑖 � (10.4)
84
STC = SEC + SRC (10.5)
SEC SRC
=1− = R2 (10.6)
SCT SCT
Los supuestos 1 a 6 de la sección anterior permiten elaborar un teorema para definir la distribución
de los coeficientes estimados con MCO. Dicho teorema se describe a continuación (Wooldridge,
2010: 120): Bajo los supuestos 1 a 6 del Modelo de Regresión Lineal Clásico:
�𝑗𝑗 −𝛽𝛽𝑗𝑗 �
�𝛽𝛽
�𝑗𝑗 � ~𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁(0, 1)
𝑑𝑑𝑑𝑑�𝛽𝛽
(10.8)
Lo que quiere decir que la distribución de los coeficientes es normal con media 𝛽𝛽𝑗𝑗 y varianza
𝑣𝑣𝑣𝑣𝑣𝑣(𝛽𝛽̂𝑗𝑗 ), y que �𝛽𝛽̂𝑗𝑗 − 𝛽𝛽𝑗𝑗 �/𝑑𝑑𝑑𝑑�𝛽𝛽̂𝑗𝑗 � se distribuye normal con media 0 y varianza 1. Este teorema es vital
pues permite plantear test de hipótesis sobre los coeficientes, tal como se verá en las siguientes
secciones.
Es por eso que en econometría un test de primera relevancia es que el coeficiente de interés es igual
a cero, lo que se formaliza en 10.10.
a) Planteamiento de Hipótesis
𝐻𝐻𝑜𝑜 : 𝛽𝛽1 = 0
𝐻𝐻1 : 𝛽𝛽1 ≠ 0 (10.10)
85
b) Estadístico: al igual que en el caso del test de medias, en este caso se plantea el estadístico,
el que corresponde, para el caso de 𝛽𝛽̂1 a:
�1 −𝛽𝛽1
𝛽𝛽
�1 � ~𝑡𝑡𝑛𝑛−2
𝑒𝑒𝑒𝑒�𝛽𝛽
(10.11)
Donde t se distribuye con n-2 grados de libertad, debido a que para calcular la suma de residuos al
cuadrado, primero se están calculando dos coeficientes, 𝛽𝛽̂0 y 𝛽𝛽̂1 , lo que impone dos restricciones al
análisis (Gujarati, 2004). Entonces, para modelos más generales, el estadístico corresponde a:
�𝑗𝑗 −𝛽𝛽𝑗𝑗
𝛽𝛽
�𝑗𝑗 � ~𝑡𝑡𝑛𝑛−𝑘𝑘−1
𝑒𝑒𝑒𝑒�𝛽𝛽
(10.12)
En este caso la hipótesis nula implica que el coeficiente del PIB per cápita es igual a cero, mientras
la alternativa, que no lo es. El 𝑡𝑡 𝑐𝑐 corresponde a:
−0.0056
𝑡𝑡 𝑐𝑐 = = −2.8
0.002
Mientras que el 𝑡𝑡 ∗ con 61 grados de libertad, probabilidad de 0.05, y a una y dos colas, es
respectivamente:
∗ ∗
𝑡𝑡64−2−1 𝛼𝛼 = 𝑡𝑡61 𝛼𝛼 = 1.671
∗ ∗
𝑡𝑡64−2−1 𝛼𝛼/2 = 𝑡𝑡61 𝛼𝛼/2 = 2
Haciendo un análisis de una cola o dos colas se cumple que |𝑡𝑡 𝑐𝑐 | > 𝑡𝑡 ∗ , por lo que se rechaza la
hipótesis nula.
10.2.2. P-value.
Sin embargo, existe otro enfoque equivalente que permite rechazar o no rechazar la hipótesis nula, y
que dice relación con el p-value. El p-value es el nivel exacto de significancia o probabilidad de
cometer error tipo I (Gujarati, 2004: 131), error que indica la probabilidad de equivocarse al
rechazar la hipótesis nula si esta fuese verdadera. En términos formales:
86
Por lo que es un enfoque similar al anterior, salvo que para rechazar la hipótesis nula, en este caso
la probabilidad de que 𝑡𝑡 ∗ > 𝑡𝑡 𝑐𝑐 ocurra debe ser lo más baja posible, minimizando al mismo tiempo el
error tipo I. De esta forma, si la probabilidad que 𝑡𝑡 ∗ > 𝑡𝑡 𝑐𝑐 es baja, entonces la probabilidad de que
𝑡𝑡 𝑐𝑐 > 𝑡𝑡 ∗ es alta. Sin embargo, aún se requiere fijar el criterio de rechazo de la nula, y
tradicionalmente se adopta una significancia de 10%, 5% o 1%.
Ejemplo 2: Para del modelo de la mortalidad infantil, el p-value del PIB per cápita es 0.0065. Bajo
el enfoque del p-value se rechaza la hipótesis nula al 1% de significancia, por lo que el coeficiente
del PIB per cápita es distinto de cero. Como se observa, el enfoque es más preciso y da el mismo
resultado del Ejemplo 1.
------------------------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
x | .0401618 .0071849 5.59 0.003 .0216925 .0586311
_cons | 2.972813 .3569679 8.33 0.000 2.055198 3.890428
------------------------------------------------------------------------------
Fuente: Elaboración propia usando el software STATA.
5
Análisis de Varianza.
87
Referencias.
88
11. Modelo de Regresión Multivariado.
El modelo que se ha desarrollado hasta el momento es bastante flexible y permite modelar una serie
de fenómenos que se observan en la realidad. En este punto cabe recordar que la elaboración del
modelo proviene de la teoría en una primera instancia, para luego ser formalizado a través de las
técnicas que se describen en esta sección y en la anterior. Y en relación a esto, se tiene que en la
realidad la explicación de un fenómeno no proviene solo de una variable, por el contrario, proviene
de un conjunto de variables que pueden afectarlo. Por ejemplo, al tratar de explicar la autonomía
financiera de las municipalidades, podemos adoptar el modelo 11.1, donde Y corresponde a la razón
entre ingresos propios permanentes 6 y el ingreso total municipal, y X 1 corresponde a un índice de
gestión financiera municipal. La teoría inherente a este modelo es que municipalidades que realicen
una mejor gestión financiera podrían tener un mayor índice de autonomía.
Sin embargo, puede que este no sea un modelo tan “correcto”, pues los ingresos propios
permanentes de las municipalidades, y por ende su grado de autonomía, dependen no solo de la
gestión del Director de Finanzas respectivo, sino que en gran parte del origen de su financiamiento,
el que se da a nivel local. En consecuencia, podríamos plantear otras variables de influencia sobre la
autonomía financiera, tales como el ingreso per cápita de los habitantes de la comuna, X 2 , la
ubicación respecto de la capital regional en km, X 3, etc… por lo que modelo podría quedar como
11.2.
𝑌𝑌𝑖𝑖 = 𝛽𝛽𝑜𝑜 + 𝛽𝛽1 𝑋𝑋1𝑖𝑖 + 𝛽𝛽2 𝑋𝑋2𝑖𝑖 + 𝛽𝛽3 𝑋𝑋3𝑖𝑖 + 𝜀𝜀𝑖𝑖 (11.2)
Para el caso del modelo multivariado, aparte de las pruebas de hipótesis de coeficiente individuales,
es posible hacer un test de significancia global, el que tiene por objeto analizar la significancia de
todos los coeficientes de pendiente estimados. De esta forma, la hipótesis es que todos los
coeficientes estimados son simultáneamente iguales a cero. Dado el modelo 11.3, a continuación se
formaliza la aplicación del test (Gujarati, 2004: 256).
𝑌𝑌𝑖𝑖 = 𝛽𝛽1 + 𝛽𝛽2 𝑋𝑋2𝑖𝑖 + 𝛽𝛽3 𝑋𝑋3𝑖𝑖 + ⋯ + 𝛽𝛽𝑘𝑘 𝑋𝑋𝑘𝑘𝑘𝑘 + 𝜀𝜀𝑖𝑖 (11.3)
a) Planteamiento de Hipótesis:
6
Estos ingresos se encuentran compuestos principalmente por el impuesto territorial, patentes municipales y permisos de
circulación, y representan el ingreso que se produce a nivel local y que las municipalidades reciben con una mayor
certeza. Se propone como componente del índice de autonomía pues no considera las transferencias desde el gobierno
central.
89
b) Estadístico: El estadístico corresponde a 11.5, donde (𝑘𝑘 − 1) son los grados de libertad del
numerador y (𝑛𝑛 − 𝑘𝑘) los grados de libertad del denominador.
𝑆𝑆𝑆𝑆𝑆𝑆/(𝑘𝑘−1)
𝐹𝐹 = (11.5)
𝑆𝑆𝑆𝑆𝑆𝑆/(𝑛𝑛−𝑘𝑘)
c) Criterio de rechazo de la nula: si 𝐹𝐹 > 𝐹𝐹𝛼𝛼 (𝑘𝑘 − 1, 𝑛𝑛 − 𝑘𝑘) se rechaza la hipótesis nula al nivel
de confianza determinado (𝛼𝛼).
Ejemplo 1: en la Tabla 11.1 se puede observar el análisis ANOVA para el ejemplo del modelo de
Mortalidad Infantil de la sección anterior. En la Tabla se observa la SEC, la SRC, y los grados de
libertad. Recordar que en este caso se estiman estimando 3 parámetros (k=3), pues el modelo tiene
dos variables independientes, y hay 64 observaciones; entonces 𝑆𝑆𝑆𝑆𝑆𝑆/(𝑘𝑘 − 1) = 128,681.2, y
𝑆𝑆𝑆𝑆𝑆𝑆/(𝑛𝑛 − 𝑘𝑘) =1,742.88.
Y dado que 𝐹𝐹0.05 (2, 60) = 3.15, entonces se rechaza la hipótesis nula al 5%. Por otro lado, al 1%
sería 𝐹𝐹0.01 (2, 60) = 4.98, por lo que también se rechaza la hipótesis nula en este caso al 1% (Ver
tablas estadísticas al final del libro Levin y Levin (1999)).
Dada la ecuación 11.5 es posible realizar un test de significancia global de una forma adicional, la
que está relacionada a la forma de cálculo del test. Si reemplaza la ecuación 10.6 en 11.5 se tiene:
𝑆𝑆𝑆𝑆𝑆𝑆/(𝑘𝑘−1)
𝐹𝐹 =
𝑆𝑆𝑆𝑆𝑆𝑆/(𝑛𝑛−𝑘𝑘)
𝑆𝑆𝑆𝑆𝑆𝑆 (𝑛𝑛−𝑘𝑘)
𝐹𝐹 = (Se reemplaza la ecuación 10.6 en SEC)
𝑆𝑆𝑆𝑆𝑆𝑆 (𝑘𝑘−1)
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑅𝑅2 (𝑛𝑛−𝑘𝑘)
𝐹𝐹 = 𝑆𝑆𝑆𝑆𝑆𝑆 (𝑘𝑘−1)
(Se reemplaza la ecuación 10.6 en SRC)
𝑆𝑆𝑆𝑆𝑆𝑆𝑅𝑅2 (𝑛𝑛−𝑘𝑘)
𝐹𝐹 = (1−𝑅𝑅2 )𝑆𝑆𝑆𝑆𝑆𝑆
(𝑘𝑘−1)
𝑅𝑅2 (𝑛𝑛−𝑘𝑘)
𝐹𝐹 =
(1−𝑅𝑅2 ) (𝑘𝑘−1)
90
Reordenando la última ecuación queda la expresión 11.6. Cabe destacar que esta expresión es
bastante útil pues se puede obtener usando directamente el 𝑅𝑅 2.
𝑅𝑅2 /(𝑘𝑘−1)
𝐹𝐹 = (11.6)
(1−𝑅𝑅2 )/(𝑛𝑛−𝑘𝑘)
Ejemplo 2: en la Tabla 11.1 se puede observar el análisis ANOVA para el ejemplo del modelo de
Mortalidad Infantil de la sección anterior. De la tabla se desprende que el 𝑅𝑅 2=SEC/SCT=0.7077, por
lo que en este caso el test de significancia global aplicando la fórmula 11.6 es (Gujarati, 2004: 250):
0.7077/(3−1) 0.3539
𝐹𝐹 = = = 73.84
(1−0.7077)/(64−3) 0.0048
En este caso nuevamente se rechaza la hipótesis nula, tanto al 5% como al 1%, dado que
𝐹𝐹0.05 (2, 60) = 3.15 y 𝐹𝐹0.01 (2, 60) = 4.98.
Ejemplo 3: Sin embargo, al igual que los casos anteriores, el test F también se puede implementar
siguiendo la técnica del p-value. En la Tabla 11.2 se observa un modelo con dos variables
explicativas, 𝑥𝑥1 y 𝑥𝑥2 . Desde el punto de vista de los coeficientes individuales, solo el coeficiente de
𝑥𝑥2 es significativo al 5% (p=0.024<0.05), al igual que la constante al 1%. La bondad de ajuste del
modelo es SEC/SCT=6.2629/6.4771=0.9669, como se desprende de la Tabla ANOVA y como
aparece confirmado en la segunda sub tabla.
Al analizar la Tabla ANOVA se observan los grados de libertad, y 𝑆𝑆𝑆𝑆𝑆𝑆/(𝑘𝑘 − 1) y 𝑆𝑆𝑆𝑆𝑆𝑆/(𝑛𝑛 − 𝑘𝑘).
Dado que el modelo estima 3 coeficientes (k=3), los grados de libertad del numerador son 2, y los
del denominador son 7-3=4. Entonces 6.2629/(3 − 1) = 3.1315 y 0.2142/(7 − 3) = 0.05355, por
lo que el estadístico F es igual a 3.1315/0.05355=58.47. Si bien este resultado se desprende del
análisis ANOVA, también aparece en la segunda sub tabla bajo la denominación F(2, 4)=58.47, y
debajo de ese valor aparece el p-value para el caso del F (ver Prob>F). En este caso, se rechaza la
hipótesis nula al 1% (p=0.0011<0.01), por lo que se rechaza la hipótesis de que todos los
coeficientes son simultáneamente cero.
------------------------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
x1 | .0094754 .0094717 1.00 0.374 -.0168222 .0357729
x2 | -.3098176 .0869929 -3.56 0.024 -.5513486 -.0682866
_cons | 6.243757 .9390002 6.65 0.003 3.636675 8.85084
------------------------------------------------------------------------------
Fuente: Elaboración propia usando el software STATA.
91
11.4. Otras formas funcionales.
En esta sección se revisan algunas de las formas funcionales que se usan en la estimación empírica.
Tal como se dijo en la introducción de la sección anterior, esta exposición no pretende ser
totalmente acabada, si no que una exposición a algunos de los temas generales del análisis de
regresión. De esta forma esta sub sección revisa algunas de las formas funcionales usadas en el
trabajo empírico.
A) Formas cuadráticas.
El análisis econométrico es bastante flexible por lo que también se pueden estimar funciones no
lineales. Recuerde las funciones cuadráticas de la sección “funciones”. En Microeconomía abundan
ejemplos de no linealidades, tales como los rendimientos marginales decrecientes de la utilidad o la
productividad marginal de los factores. Obsérvese la ecuación 11.7, en esta la variable Y depende no
solo de 𝑋𝑋1 sino que también de 𝑋𝑋12 .
2
𝑌𝑌𝑖𝑖 = 𝛽𝛽𝑜𝑜 + 𝛽𝛽1 𝑋𝑋𝑖𝑖1 + 𝛽𝛽2 𝑋𝑋𝑖𝑖1 + 𝜀𝜀𝑖𝑖 (11.7)
B) Elasticidades.
El modelo MCO se puede estimar efectuando todo tipo de transformaciones sobre las variables. En
este sentido, al aplicar logaritmo natural sobre estas se tiene:
Donde 𝑌𝑌𝑖𝑖∗ = ln(𝑌𝑌𝑖𝑖 ) y 𝑋𝑋𝑖𝑖∗ = ln(𝑋𝑋𝑖𝑖 ). La estimación del modelo 11.9 cambia la interpretación del
coeficiente 𝛽𝛽1 , pues ya no corresponde al cambio en Y cuando X varía en una unidad, ahora
corresponde a la elasticidad. Es decir, corresponde al cambio porcentual en la variable Y cuando la
variable X aumenta en un 1%. Por ejemplo si 𝛽𝛽1 = 0.3 en 11.9, quiere decir que Y aumenta en
0.3% cuando X aumenta en 1%. Para aplicaciones particulares de este concepto se puede consultar
la “Elasticidad-Precio de la Demanda” en Frank (2005: 114).
92
Sin embargo, si bien el cálculo de la elasticidad requiere que las dos variables estén en logaritmo,
también hay otros modelos alternativos, en los cuales solo una variable se deja en logaritmo natural
y la otra en niveles, tales como el caso del modelo Log-Lin (11.10) y Lin-Log (11.11). Para el caso
del primero 𝛽𝛽1 corresponde a la tasa de crecimiento de Y producto de un aumento de una unidad en
X. Para el caso del segundo, 𝛽𝛽1 corresponde al cambio de unidades en Y, producto del aumento de
un 1% de X.
El modelo 11.10 es útil para calcular las tasas de crecimiento. En la tabla 11.3 se ha llevado a cabo
la estimación entre el logaritmo natural de Y y X en niveles. En este caso lny corresponde al
logaritmo natural del PIB per cápita y la variable year a los años, por lo que el coeficiente estimado
implica que la tasa anual de crecimiento del PIB per cápita es de 9.6%.
------------------------------------------------------------------------------
lny | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
year | .0962825 .0110102 8.74 0.000 .0679797 .1245852
_cons | 1.154592 .0492393 23.45 0.000 1.028019 1.281166
------------------------------------------------------------------------------
Fuente: Elaboración propia usando el software STATA.
C) Funciones de Producción.
C.1) Función de Producción de Sustitución Perfecta: esta función se caracteriza por el supuesto de
que los insumos de producción son sustitutos perfectos, por lo que se podría sustituir trabajo (L) y
capital (K) sin problema, manteniendo la producción constante (Q). De esta forma, una función de
producción con tales características tendría la forma:
𝑄𝑄 = 2𝐾𝐾 + 𝐿𝐿 (11.13)
93
Figura 11.2: Función de Producción de Sustitutos Perfectos.
Dos Perspectivas.
L+2*K
L+2*K
30 30
25
25
20
20
z 15
15
z
10
10
5
5 10
8 010
10
0 6 8
0 8
2 4 K 6 6
4 4
6 2 K 4
8 2 L
L 2
10 0 0 0
C.2) Función de Producción Cobb-Douglas: esta función de producción es una de las más
utilizadas en la modelación de la producción tanto por su facilidad como por su versatilidad.
Formalmente esta define en la ecuación 11.14 (Frank, 2005: 300).
Donde 0 < 𝛼𝛼 < 1 y 0 < 𝛽𝛽 < 1, y 𝑚𝑚 > 0. En ese caso los valores a estimar corresponden a 𝛼𝛼, 𝛽𝛽 y
𝑚𝑚. Ejemplos de esta función se encuentran en las ecuaciones 11.15 a 11.17. En 11.15 𝛼𝛼 = 0.5,
𝛽𝛽 = 0.5 y 𝑚𝑚 = 1; en 11.16 𝛼𝛼 = 1, 𝛽𝛽 = 1 y 𝑚𝑚 = 1; mientras que en 11.17, 𝛼𝛼 = 2, 𝛽𝛽 = 1 y 𝑚𝑚 = 1.
𝑄𝑄 = √𝐾𝐾𝐾𝐾 (11.15)
𝑄𝑄 = 𝐾𝐾𝐾𝐾 (11.16)
𝑄𝑄 = 𝐾𝐾 2 𝐿𝐿 (11.17)
10
10
8 8
6 6
z
4
4 z
2
2 10
010 10
8
0 6 8 8
0
2 4 K 6 6
4
6 2 4 4
L 8 K L
10 0 2 2
0 0
94
(b) Ecuación 11.16.
K*L
K*L
100
100
80
80
60 60
z
40 z 40
20 20
10 010 10
0
0 8
2 4 4 6 8 8
L 6 2 K 6
8 10 0 6
4 4 L
K 2 2
0 0
K^2*L
1000
800 1000
800
600
z 600
400 400
z
200
200
0
10 10
10
8 8 8
00 6
2 4 4 K
L 6 8 2 6 6
10 0
4 4
K L
2 2
0 0
Cabe destacar que la función Cobb-Douglas se puede transformar para facilitar su estimación.
Aplicando logaritmo natural sobre la ecuación 11.14, se tiene:
𝑄𝑄 = 𝑚𝑚𝑚𝑚 𝛼𝛼 𝐿𝐿𝛽𝛽
Por lo que el problema se limita a estimar los coeficientes 𝛼𝛼 y 𝛽𝛽 en la ecuación 11.18. Como se
puede observar, el MCO es bastante flexible y se puede utilizar para estimar un sinfín de formas
funcionales entre las variables en diferentes contextos de investigación.
Referencias.
Frank, Robert (2005). “Microeconomía y Conducta”. 5ta Edición. Mc Graw Hill. España
95
Ejercicios Propuestos.
7. Suponga que tiene los siguientes datos, y se le pide que modele la calificación de los
alumnos en establecimientos de vulnerabilidad. Las variables son:
Tabla 1
X Y
60 5
45 4.5
30 4
60 5.5
20 3.5
10 3
120 6
96
e. Haga el mismo estudio descriptivo, pero ahora solicite los detalles (sum x, detail)
f. Haga un estudio descriptivo del ingreso por zona, sexo, y estado civil. Utilice el
comando bysort (i.e. bysort z: sum yautaj)
g. Haga una inspección visual respecto del ingreso y la escolaridad utilizando el
comando scatter.
h. Realice la misma inspección visual, pero restringiendo el ingreso a un millón de
pesos.
i. Realice una matriz de correlaciones para las siguientes variables que pueden estar
correlacionadas con el ingreso: escolaridad y edad. Obtenga las correlaciones con
su significancia usando el comando pwcorr x, sig
j. Estime un modelo donde el ingreso es función de la edad y la escolaridad, e
interprete los coeficientes obtenidos.
gen rm=(r==13)
gen HOMBRE=(sexo==1)
gen SANTIAGO=(comu==13101)
gen OCUPADO=(activ==1)
97