Está en la página 1de 51

Índice

1. CAPITULO1 3
1.1. Definiciones Fundamentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1. La ciencia Estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.2. Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.3. Tipologı́a de las variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.4. Serie Estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2. Variable Cualitativa Nominal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1. Frecuencia absoluta, frecuencia relativa y tabla estadı́stica. . . . . . . . . 4
1.2.2. Diagrama de sectores y diagrama de barras . . . . . . . . . . . . . . . . . 5
1.3. Variable Cualitativa Ordinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.1. La tabla estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.2. Diagrama de sectores y diagrama de barras . . . . . . . . . . . . . . . . . 7
1.3.3. Diagrama de sectores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.4. Diagrama de barras para las cantidades . . . . . . . . . . . . . . . . . . . 7
1.3.5. Diagrama en barras de cantidades acumuladas . . . . . . . . . . . . . . . 7
1.4. Variable cuantitativa discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.1. La tabla estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.2. Diagrama de Palos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.3. Función de distribución . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5. Variable cuantitativa continua . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5.1. La tabla estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5.2. Histrograma de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5.3. La función de distribución . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2. CAPITULO 2 12
2.1. Parámetros de posición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.1.1. La moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.1.2. La media (o la media aritmética) . . . . . . . . . . . . . . . . . . . . . . 12
2.1.3. Media geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.4. Media Armónica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1.5. Media ponderada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.6. La mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.7. Cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2. Parámetros de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.1. El rango o recorrido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.2. El rango intercuartilico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.3. La varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.4. La desviación tı́pica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.5. Desviación media absoluta . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.6. Desviación mediana absoluta . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3. Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4. Parámetros de forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4.1. Coeficiente de asimetrı́a de Fisher . . . . . . . . . . . . . . . . . . . . . . 23
2.4.2. Coeficiente de asimetrı́a de Yule . . . . . . . . . . . . . . . . . . . . . . . 24
2.4.3. Coeficiente de asimetrı́a de Pearson . . . . . . . . . . . . . . . . . . . . . 24

1
2.5. Parámetro de aplanamiento(o kurtosis) . . . . . . . . . . . . . . . . . . . . . . . 24
2.6. Cambio de origen y de unidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.7. Media y varianza de dos grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.8. Diagrama de tallos y hojas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.9. Diagrama de caja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3. Estadı́stica descriptiva bivariada 30


3.1. Serie estadı́stica bivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2. Dos variables cuantitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.1. Análisis de las variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2.2. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2.3. Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2.4. Recta de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.5. Residuos y valores ajustados . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2.6. Suma de cuadrados y varianzas . . . . . . . . . . . . . . . . . . . . . . . 35
3.2.7. Descomposición de la varianza . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3. Dos variables cualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.1. Datos observados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.2. Tabla de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.3. Tabla de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.4. Efectos de fila y efectos de columna . . . . . . . . . . . . . . . . . . . . . 40
3.3.5. Efectos teóricos y chi- cuadrado . . . . . . . . . . . . . . . . . . . . . . . 40

4. Capitulo 4 42
4.1. Números ı́ndices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2.1. Propiedades de los indices . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2.2. Índices sintéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2.3. Índice de Laspeyres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.3. Indice de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.3.1. Indice de Sidgwick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.3.2. Índices de cadenas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.4. Medidas de desigualdad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.4.2. Curva de Lorenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.4.3. Indice de Gini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.4.4. Indice de Hoover . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.4.5. Relación de proporción de los quantiles y deciles . . . . . . . . . . . . . . 50
4.4.6. Índice de pobreza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.4.7. Índices por paı́s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

5. Capitulo 5 51
5.1. Definiciones generales y ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.1.1. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

2
1. CAPITULO 1
Variables, Datos Estadı́sticos, Tablas

1.1. Definiciones Fundamentales


1.1.1. La ciencia Estadı́stica
Es un conjunto de métodos cientı́ficos para el tratamiento de datos cuantitativos y cuali-
tativos

Etimológicamente: es la ciencia de los datos

La estadı́stica es aplicada en múltiples disciplinas como por ejemplo en : Agronomı́a,


Biologı́a, Demografı́a, Economı́a, Sociologı́a, Sicologı́a,. . .

1.1.2. Variables
Existe ciertas unidades medibles, denominadas unidades estadı́sticas o unidades de obser-
vación, por ejemplo: Individuos, Empresas, Gobiernos.

Sobre estas unidades se miden caracterı́sticas o variable

Una cantidad medible, que puede cambiar de un individuo a otro se denomina variable

Los valores posibles de la variable son llamadas modalidades

Al conjunto de todos lo posibles valores de las modalidades se llamará el dominio de la


variable

1.1.3. Tipologı́a de las variables


- Variable cualitativa: una variable será de tipo cualitativo cuando las modalidades son
categorı́as o atributos. Estas se pueden clasificar en dos subgrupos.

Variable cualitativa nominal: la variable será de tipo cualitativo nominal si las modali-
dades no pueden ser ordenadas. Por ejemplo: los colores (Rojo, Verde, Azul,. . . )
Variable cualitativa ordinal: La variable será de tipo cualitativo ordinal si las modalidades
pueden ser ordenadas. El hecho de poder o no ordenar las variables es aún tema de
discusión. Un ejemplo para este tipo de variables son las categorı́as socio-profesionales
(“jefes”, “empleados”, . . . )

- Variable cuantitativa: Una variable será de tipo cuantitativo si los posibles valores posibles
de las modalidades son numéricos. Esta se puede clasificar en dos subgrupos.

Variable cuantitativa discreta: Una variable será de tipo discreto, si lo posibles valores
son enteros (o pertenecen al conjunto Z). Por ejemplo: El número de hijos de una
familia (1,2,3,4,5,. . . )
variable cuantitativa continua: una variable será de tipo continuo, si los posibles valores
pueden tomar cualquier valor en una escala de medidas

3
1.1.4. Serie Estadı́stica
Llamaremos Serie estadı́stica a la continuación de los valores tomados por una variable χ
sobre las unidades de observación. El número de las unidades de observación se denota por n.
Los valores de la variable χ serán denotados como sigue

x1 , x 2 , . . . , x n
Ejemplo 1.1:Nos interesa la variable “estado civil”notada por la letra X a la serie estadı́stica
de valores tomados por la variable X sobre 20 personas.

U : Unión libre
C : Casado
V : Viudo
D : Divorciado

Notamos que el dominio de la variable X es {U, C, V, D}.


La serie estadı́stica es

C C D U U C U U U C
U C V C V D U U U C

Luego, n = 20 y x1 = C, x2 = C, x3 = D, . . . , x19 = U, x20 = C

1.2. Variable Cualitativa Nominal


1.2.1. Frecuencia absoluta, frecuencia relativa y tabla estadı́stica.
Una variable cuantitativa nominal tiene valores distintos que no pueden ser ordenados. No-
tamos j al número de valores distintos de las modalidades. Los valores distintos son notados por
x1 , . . . , xj , . . . , xJ . Notaremos nj a la cantidad de la modalidad xj , esta cantidad es conocida
como la frecuencia absoluta. La frecuencia relativa de una modalidad es la cantidad obtenida al
dividir la cantidad nj asociada a la modalidad xj , en el número o cantidad total de observaciones
n. Esta se denotará, por fj y se obtiene bajo la siguiente ecuación
nj
fj = , j = 1, 2, . . . , J
n
A la presentación de estos datos se le conoce como tabla estadı́stica.

Ejemplo 1.2: Retomando los datos del ejemplo 1, la tabla estadı́stica serı́a la siguiente:

4
xj nj fj
U 9 0.45
C 7 0.35
V 2 0.10
D 2 0.10
n=20 1

En lenguaje R

X=c(’Casado(a)’,’Casado(a)’,’Divorciado(a)’,’Soltero(a)’,’Soltero(a)’,
’Soltero(a)’,’Soltero(a)’,’Soltero(a)’,’Casado(a)’,’Soltero(a)’,’Soltero(a)’,’Casado(a)’,
’Casado(a)’,’Viudo(a)’, ’Casado(a)’,’Viudo(a)’,’Divorciado(a)’,’Soltero(a)’,’Soltero(a)’,’Casado(a)’)
T1=table(X)
V1=c(T1)
data.frame(Eff=V1,Freq=V1/sum(V1))

1.2.2. Diagrama de sectores y diagrama de barras


La tabla estadı́stica, se puede representar por un diagrama de barras o un diagrama de sec-
tores (o también conocidos como diagrama de pastel para su traducción en inglés)

GRAFICO FALTA

En lenguaje R

barplot(T1)

En lenguaje R

pie(T1,radius=1.0)

1.3. Variable Cualitativa Ordinal


1.3.1. La tabla estadı́stica
Los valores distintos de una variable ordinal pueden ser ordenados como sigue,
x1 < x2 < . . . < xj−1 < xj < . . . < xn−1 < xn
La notación xj−1 < xj se leerá como xj−1 es menor que xj .
Si la variable es de tipo ordinal, podemos calcular las cantidades acumuladas, se procederá de
la siguiente forma
j
X
Nj nk
k=1

5
xj nj Nj fj Fj
Sd 4 4 0.08 0.08
P 11 15 0.22 0.30
Se 14 29 0.28 0.58
Su 9 38 0.18 0.76
U 12 50 0.24 1.00
50 1.00

Donde N1 = n1 y NJ = n. También se puede calcular las frecuencias acumuladas, para ello


se procederá de la siguiente forma
j
Nj X
Fj = = fk
n k=1

Ejemplo 1.3:
Sobre los datos obtenidos al encuestar a 50 personas y preguntar sobre el último titulo educativo
obtenido (variable y). Se debe obtener

1. Codificación

2. Presentar la serie estadı́stica

3. Presentar la tabla estadı́stica

1. Tabla 1.1: Codificación de la variable Y

Sin titulo .................................... Sd


Primaria....................................... P
Secundaria..................................... Se
Superior no - universitaria.................... Su
Universitaria.................................. U

2. Serie estadı́stica

Sd Sd Sd Sd P P P P P P P P P P P Se Se
Se Se Se Se Se Se Se Se Se Se Se Se Su Su Su Su Su
Su Su Su Su U U U U U U U U U U U U

3. Tabla estadı́stica

En lenguaje R

YY=c(“Sd”,“Sd”,“Sd”,“Sd”,“P”,“P”,“P”,“P”,“P”,“P”,“P”,“P”,“P”,“P”,“P”,
“Se”,“Se”,“Se”,“Se”,“Se”,“Se”,“Se”,“Se”,“Se”,“Se”,“Se”,“Se”,“Se”,“Se”,

6
“Su”,“Su”,“Su”,“Su”,“Su”,“Su”,“Su”,“Su”,“Su”,“U”,“U”,“U”,“U”,“U”,“U”,
“U”,“U”,“U”,“U”,“U”,“U”)
YF=factor(YY,levels=c(“Sd”,“P”,“Se”,“Su”,“U”))
T2=table(YF)
V2=c(T2)
data.frame(Eff=V2,EffCum=cumsum(V2),Freq=V2/sum(V2),
FreqCum=cumsum(V2/sum(V2)))

1.3.2. Diagrama de sectores y diagrama de barras


La lectura de la tabla estadı́stica se puede facilitar al utilizar gráficas que presentan los
resultados obtenidos. En muchas ocasiones se utilizan los diagramas de barras y los diagramas
de sectores (o también conocidos como diagrama de pastel para su traducción en inglés)

1.3.3. Diagrama de sectores


Las frecuencias de una variable cualitativa son representadas mediante un diagrama de sec-
tores (Ver figura con datos del ejemplo 3)
Figura

En leguaje R

pie(T2,radius=1.0)

1.3.4. Diagrama de barras para las cantidades


Las cantidades de una variable cualitativa son representadas mediante un diagrama de bar-
ras ( ver figura con datos del ejemplo 3)
Figura

En leguaje R

barplot(T2)

1.3.5. Diagrama en barras de cantidades acumuladas


Las cantidades acumuladas de una variable cualitativa se pueden representar mediante un
diagrama de barras (ver figura con datos del ejemplo 3)
Figura

En leguaje R

T3=cumsum(T2)
barplot(T3)

7
1.4. Variable cuantitativa discreta
1.4.1. La tabla estadı́stica
Una variable discreta tiene un dominio numerable.

Ejemplo 1.5:
Una muestra compuesta de 50 hogares a los cuales se les pregunta por el número de personas
en el hogar, arrojo los siguientes resultados (en este caso la variable Z representará el número
de personas por hogar)
1 1 1 1 1 2 2 2 2 2
2 2 2 2 2 3 3 3 3 3
3 3 3 3 3 3 3 3 3 4
4 4 4 4 4 4 4 4 4 5
5 5 5 5 5 6 6 6 8 8
Al igual que en la variable cualitativa ordinal, se calcularán las cantidades, las cantidades
acumuladas (o frecuencias absolutas y frecuencias absolutas acumuladas), las frecuencias rela-
tivas y frecuencias relativas acumuladas.

Al construir la tabla estadı́stica tenemos


xj nj Nj fj Fj
1 5 5 0.10 0.10
2 9 14 0.18 0.28
3 15 29 0.30 0.58
4 10 39 0.20 0.78
5 6 45 0.12 0.90
6 3 48 0.06 0.96
8 2 50 0.04 1.00
50 1.00

En leguaje R

Z=c(1,1,1,1,1,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,
3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,4,5,5,5,5,5,5,6,6,6,8,8)
T4=table(Z)
T4c=c(T4)
data.frame(Eff=T4c,EffCum=cumsum(T4c),Freq=T4c/sum(T4c),
FreqCum=cumsum(T4c/sum(T4c)))

1.4.2. Diagrama de Palos


Cuando la variable es dicreta, las cantidades se representan por ”Palos”.

En leguaje R

plot(T4,type=“h”,xlab=“”,ylab=“”,main=“”,frame=0,lwd=3)

8
1.4.3. Función de distribución
Las frecuencias relativas acumuladas son representadas por la función de distribución. Está fun-
ción, se representa como en la figura y estará definida del conjunto de los reales (R) al intervalo
cerrado [0,1] de la siguiente forma


0 x < x1
F (x) = Fj xj ≤ x


1 xJ ≤ x
Utilizando los datos del ejemplo 1.5, tenemos

En leguaje R

plot(ecdf(Z),xlab=“”,ylab=“”,main=“”,frame=0)

1.5. Variable cuantitativa continua


1.5.1. La tabla estadı́stica
Una variable cuantitativa continua puede tener infinitos valores posibles. El dominio de es-
tas variables será el conjunto de los reales (R) o un intervalo de los reales. En la práctica,
una medida está limitada en precisión, por ejemplo, el tamaño de una medida en centı́metros
o milı́metros. Entonces, podrı́amos tratar las variables continuas como discretas. Sin embargo,
es a menudo interesante proceder con un reagrupamiento en clases con el fin de realizar repre-
sentaciones gráficas. Además, las mediciones numéricas se prestan para realizar clasificaciones
múltiples, dado que los limites de las clases pueden definirse de manera precisa y conveniente
para valores determinados de la variable. Los valores de la variable que se elija para delimitar las
clases deberán ser sucesivas, por comodidad, equidistantes, tal que las cantidades de diferentes
clases pueden ser comparables. Los diferentes intervalos recibirán el nombre de intervalos de
clase y la frecuencia correspondiente se llamará frecuencia de clases

Ejemplo 1.6: Al medir la estatura de 50 estudiantes de una clase se obtuvieron los siguientes
resultados

152 152 152 153 153


154 154 154 155 155
156 156 156 156 156
157 157 157 158 158
159 159 160 160 160
160 160 160 161 162
162 162 163 164 164
164 164 165 166 167
168 168 168 169 169
170 171 171 171 171

9
Podemos definir las siguientes clases promedio de los siguientes intervalos

[151, 5; 155, 5]
[155, 5; 159, 5]
[159, 5; 163, 5]
[163, 5; 167, 5]
[167, 5; 171, 5]

(Cj− , Cj+ ) nj Nj fj Fj
(151.5;155.5) 10 10 0.20 0.20
(155.5;159.5) 12 22 0.24 0.44
(159.5;163.5) 11 33 0.22 0.66
(163.5;167.5) 7 40 0.14 0.80
(167.5;171.5) 10 50 0.20 1.00
50 1.00

La tabla que reagrupa a las clases a menudo se denomina distribución consolidada. La


notación utilizada es:

Cj : es el centro de las clasej


Cj− : es el limite inferior de la clase j
Cj+ : es el limite superior de la clasesj
nj : la cantidad de la clase j o la frecuencia absoluta acumulada de la clasej
Nj : la cantidad acumulada de la clase j ola frecuencia absoluta acumulada de la clasej
fj : es la frecuencia relativa de la clase j
Fj : es la frecuencia relativa acumulada de la clasej

Una forma de resumir la tabla anterior, y con el fin de proponer un método para la construc-
ción de tablas estadı́sticas para variables cuantitativas continuas, estará dado por los siguientes
pasos:

1. El primer paso, consistirá en fijar la amplitud del intervalo de clase. En el ejemplo anterior
se eligio como amplitud de los intervalos 4 unidades.

2. El segundo paso consistirá en determinar la posición u origen de los intervalos; por ejemplo,
en la tabla anterior se podı́a elegir [151; 155] o [151, 5; 155, 5].

3. El tercer paso consistirá en clasificar las observaciones en los diferentes intervalos.

4. El cuarto paso consistirá en la formación de la tabla estadı́stica tal como fue presentada

Nota: La posición o el punto de origen de los intervalos es en general, una cuestión casi
indiferente. En consecuencia,podrá elegirse de la forma más conveniente de acuerdo al caso que
se este estudiando.

En leguaje R

10
S=c(152,152,152,153,153,154,154,154,155,155,156,156,156,156,156,157,
157,157,158,158,159,159,160,160,160,161,160,160,161,162,162,162,163,164,164,
164,164,165,166,167,168,168,168,169,169,170,171,171,171,171)
T5=table(cut(S, breaks=c(151,155,159,163,167,171)))
T5c=c(T5)
data.frame(Eff=T5c,EffCum=cumsum(T5c),Freq=T5c/sum(T5c),
FreqCum=cumsum(T5c/sum(T5c)))

1.5.2. Histrograma de frecuencias


El histograma consiste en un diagrama que reúne las cantidades o frecuencias de las clases
por rectángulos cuya superficie (no la altura) representa la cantidad o frecuencia.

La altura hj del rectángulo correspondiente a la clase j está dada por


nj
hj =
c+
j − Cj−
En leguaje R

hist(S,breaks=c(151.5,155.5,159.5,163.5,167.5,171.5), xlab=“”,ylab=“”,main=“”,xaxt = “n”)


axis(1, c(151.5,155.5,159.5,163.5,167.5,171.5))
hist(S,breaks=c(151.5,155.5,159.5,163.5,171.5), xlab=“”,ylab=“”,main=“”,xaxt = “n”)
axis(1, c(151.5,155.5,159.5,163.5,171.5))

1.5.3. La función de distribución


La función de distribución F (x) es una función que va del conjunto de los reales (R) al
intervalo cerrado [1, 1] ,la cual está definida por

 x < Cj−
0

fj − +
F (x) = Fj−1 + C + C − (x − Cj ) Cj ≤ x < cj

 j j
1 C+ ≤ x
j

En leguaje R

y=c(0,0,cumsum(T5c/sum(T5c)),1)
x=c(148,151.5,155.5,159.5,163.5,167.5,171.5,175)
plot(x,y,type=”b”,xlab=,ylab=,xaxt = ”n”)
axis(1, c(151.5,155.5,159.5,163.5,167.5,171.5))

11
2. CAPITULO 2
ESTADISTICA DESCRIPTIVA UNIVARIADA

2.1. Parámetros de posición


2.1.1. La moda
La moda es el valor distinto correspondiente a la frecuencia que más se repite. Se denotará por
xM retomando la tabla del ejemplo 1, tenemos
xj nj fj
U 9 0.45
C 7 0.35
Y 2 0.10
D 2 0.10
20 1.00
La moda es U:Unión libre

Nota:
- La moda se calcula tanto en variables cualitativas como cuantitativas.
- La moda no necesariamente es única
- Cuando la variable continua se encuentra en clases, se define la clase modal. (Clases corre-
spondiente a la mayor frecuencia)

2.1.2. La media (o la media aritmética)


La media está definida para variables cuantitativas. La media es la suma de los valores
observados (x1 , . . . , xn ) dividido por el total de ellos; se denota por x̄ y se calcula por la siguiente
expresión
n
x1 + x2 + x3 + . . . + xn 1X
x̄ = = xi
n n i=1
La media también se puede obtener para datos agrupados y se calcula por la siguiente
expresión
J
1X
x̄ = nj xj
n j=1
donde:

J : Número de clases
nj : es la cantidad de datos en la clasej
xj : es el centro d la clase
Nota:

12
- La media deberá utilizar todas las observaciones obtenidas. En caso contrario, no reflejará en
realidad una caracterı́stica de la población

- Existen 3 formas de promedios usados en la mayorı́a de los casos. La moda, la media geométrica
y la mediana. Sin embargo a ellos se añaden la media geométrica, media armónica y la
media ponderada, de menor uso pero de utilidad en cierto casos

Ejemplo 2.1: Se registro el número de niños en 8 familias. Los resultados para datos
agrupados y no agrupados fueron los siguientes:

0, 0, 1, 1, 1, 2, 3, 4

0+0+1+1+1+2+3+4
x̄ = = 1,5
8

xj nj
0 2
1 3
2 1
3 1
4 1
8

(2 ∗ 0) + (3 ∗ 1) + (1 ∗ 2) + (1 ∗ 3) + (1 ∗ 4)
x̄ = = 1,5
8
En leguaje R

E=c(0,0,1,1,1,2,3,4)
n=length(E)
xb=sum(E)/n
xb
xb=mean(E)
xb

Nota:

Algunas propiedades útiles para la sumatoria

Definición: n
X
xi = x1 + x2 + . . . + xn
i=1

1. En estadı́stica xi son valores observados

2. n n
X X
xi = xj
i=1 j=1

13
Pn P
3. Otra forma de denotar i=1 xi es i xi
4. Se deben utilizar letras diferentes si se trabaja con doble sumatoria
X 2
3 X 3
X
xij = (xi1 + xi2 )
i=1 j=1 i=1

= x11 + x12 (i = 1)
+ x21 + x22 (i = 2)
+ x31 + x32 (i = 3)

5. Se pueden excluir valores de una sumatoria de la siguiente formas


5
X
xi = x1 + x2 + x4 + x5
i=1i6=3

Propiedades de la sumatoria
1. La suma de una constante es
Xn
a=a {z. . . + a} n − veces = na(aconstante)
|+a+
i=1

Ejemplo
5
X
2 = 2 + 2 + 2 + 2 + 2 = 5 ∗ 2 = 10
i=1

2. Sea a una constante, entonces


n
X n
X
axi = a xi
i=1 i=1
Ejemplo
6
X 6
X
3i = 3 i = 3(0 + 1 + 2 + 3 + 4 + 5 + 6) = 3 ∗ 21 = 63
i=0 i=0

3. La suma de los n primeros enteros es


n
X n(n + 1)
i = 1 + 2 + ... + n =
i=1
2

4. Distribución
n
X n
X n
X
(xi + yi ) = xi + yi
i=1 i=1 i=1
Xn Xn Xn
(xi − yi ) = xi − yi
i=1 i=1 i=1
1
Pn
Ejemplo(recuerde x̄ = n i=1 xi )
Xn Xn Xn n
1X
(xi − x̄) = xi − x̄ = n xi − nx̄ = nx̄ − nx̄ = 0
i=1 i=1 i=1
n i=1

14
5. Suma de cuadrados
n
X X
(xi − yi )2 = (x2i − 2xi yi + yi2 )
i=1 i=1
n
X n
X n
X
= x2i −2 xi yi + yi2
i=1 i=1 i=1

2.1.3. Media geométrica


Si xi ≥ 0 se llamará m,edia geométrica a la cantidad
n
Y 1 1
G=( xi ) n = (x∗ x2 ∗ . . . ∗ xn ) n
i=1

Otra forma para la expresión de la media geométrica es


1 Pn
log xi
G = en i=1

Una de las aplicaciones de la media geométrica es en el campo financiero, por ejemplo, si se


quisiera calcular la media de un tipo de interés.

Ejemplo 2.2:
Supongamos que los interese durante 4 años consecutivos son 5,10,15 y 10 % respectivamente
cuanto voy a obtener después de 4 años si coloco 100 pesos

Año 1 → 100*1.05 = 105 pesos


Año 2 → 100*1.05*1.1 = 115.5 pesos
Año 3 → 100*1.05*1.1*1.5 = 132.825 pesos
Año 4 → 100*1.05*1.1*1.5*1.1 = 146.1075 pesos
Si calculamos la media aritmética de las tasas de interés obtendrı́amos
1,05 + 1,1 + 1,5 + 1,1
x̄ = = 1,1
4
Si calculamos la media geométrica de las tasas de interés obtendremos
4
Y 1 1
G=( xi ) 4 = (1,05 ∗ 1,1 ∗ 1,5 ∗ 1,1) 4 = 1,0994
i=1

La media geométrica es la media correcta para las tasas de interés sobre la media aritmética
por que si se aplica 4 veces el promedio. G a 100 pesos se obtiene

100 ∗ G4 = 100 ∗ (1,0994)4 = 1,46107


En leguaje R

a = c(10, 2, 19, 24, 6, 23, 47, 24, 54, 77)


n = length(a)
G = prod(a)( 1/n)
G

15
2.1.4. Media Armónica
Si xi > 0 se llamará a la cantidad
n
H = Pn 1
i=1 xi
Otra forma para la expresión de la media armónica es
n
1 1X 1
=
H n i=1 xi

Una de las aplicaciones de la media armónica es en datos que recojan velocidades.

Ejemplo 2.3:
Un ciclista realiza 4 etapas de 100 km. Las velocidades respectivas por cada etapa son:
10km/h, 30km/h, 40km/h, 20km/h. ¿cual es la velocidad promedio?
1. En un racionamiento simple:
Primera etapa le toma un tiempo de 10 h
Segunda etapa toma un tiempo de 3h 20 m
Tercera etapa toma un tiempo de 2h 30 m
Cuarta etapa toma un tiempo de 5 h

En 400 km la velocidad promedio será


10 + 3h20m + 2h30m + 5h = 20h50m = 20,83h
400km
M edia = = 19,2km/h
20,83h
2. Si se aplica la media aritmética
10 + 30 + 40 + 20
x̄ = = 25km/h
4
3. Si se calcula media armónica
4
H= 1 1 1 1 = 19,2km/h
10
+ 30
+ 40
+ 20

Lo que implica que la media armónica es la más adecuada

En leguaje R

a = c(10, 2, 19, 24, 6, 23, 47, 24, 54, 77)


H = 1/mean(1/a)
H
Nota: Es posible mostrar que la media armónica es menor o igual que la media geométrica
y a su vez menor o igual que la media aritmética
H ≤ G ≤ x̄

16
2.1.5. Media ponderada
En algunos casos, no se da la misma importancia a todas las observaciones. Si wi > 0, i =
1, 2, . . . , n son los pesos asociados a cada observación, entonces la media ponderada por wi
estará definida por
Pn
w i xi
x̄w = Pi=1
n
i=1 wi
Ejemplo 2.4: Supongamos que las notas son ponderadas por el número de créditos. las
notas de un alumno son las siguientes

Notas(xi ) 5 4 3 6 5
Créditos (Wi ) 6 3 4 3 4

La media ponderada de las notas por los créditos será

(6 ∗ 5) + (3 ∗ 4) + (4 ∗ 3) + (3 ∗ 6) + (4 ∗ 5)
x̄w = = 4,6
6+3+4+3+4

2.1.6. La mediana
La mediana notada por x 1 , es un valor central de la serie estadı́stica cuando los valores estan
2
ordenados. La expresión para su calculo se dividirá cuando n es par y cuando n es impar

Cuando n es un número par, entonces es el valor que ocupa la posición correspondiente


a la media aritmética de las observaciones centrales. Se tomarán las posiciones n2 y n2 + 1
entónces la mediana será
x n2 + x n2 +1
Me =
2
Cuando n es un número impar, entonces la mediana será el valor que ocupa la posición
(n+1)
2
, donde
M e = x n+1
2

Por ejemplo si tenemos 2 series estadı́sticas, cual serı́a la mediana en cada una de ellas

a. 0 1 7 9 9 10
n=6
n
2
= 3 y n2 + 1 = 4 → son las posiciones, luego
x n2 = 7 y x n2 +1 =9
Me = 7+92
=8

b. 0 0 1 2 3 3 4
n=7
n+1
2
= 7+1
2
= 4 → (es la posición 4, luego)
Me = x4 = 2

17
Nota:
- La mediana está definida como la inversa de la función de distribución calculada en el valor
( 12 )
x 1 = F −1 (0,5)
2

En lenguaje R
..
.
FALTA
Nota: La mediana se puede calcular tanto en variables cuantitativas como de variables
cualitativas ordinales.

2.1.7. Cuantiles
La noción de cuantil de orden P (o < p < 1) generaliza la media. Formalmente un cuantil
está dado por la función inversa de la función de distribución

xp = F [−1(p)]
Si la función de distribución es continua y estrictamente, la definición de cuantiles es in-
equı́voca. Si la función es discontinua y ”por partes”. Cuando la función de distribución es por
partes, hay al menos a formas diferentes de definir los cuantiles en función de si hacerlo o no de
una interpolación de la función de distribución. Se presentará únicamente uno de estos méto-
dos. pero no habrá sorpresa si los valores de los cuantiles difieren ligeramente de los resultados
presentados por diferentes software.

Ahora consideramos 2 casos:


- Si np es un número entero
1
xp = {x(np) + x(np+1) }
2
- Si np no es un número entero
xp = xdnpe
Donde dnpe representa el número entero superior o igual a np.
Nota:
1
- Mediana se obtiene con el cuantil de orden p = 2

- Análogamente se pueden obtener los percentiles, deciles y cuartiles con la siguiente analogı́a

x 1 → Primer cuartil
4

x 3 → Tercer cuartil
4

x 1 → Primer decil
10

x 7 → septimo decil
10

x 4 → Cuarto decil
5

x0,95 → El noventa y cinco percentil

18
Ejemplo2.5:
Sea la serie estadı́stica 12, 13, 15, 16, 18, 19, 22, 24, 25, 27, 28, 34 que contiene 12 observaciones
(n = 12).

- El primer cuartil será obtenido como sigue


µ ¶
1
np = 12 ∗ = 3 entonces np es entero
4

Luego
1 1
x 1 = {x(6) + x(7) } = {19 + 22} = 20,5
4 2 2
µ ¶
- Para el cuartil 3 se tiene que np = 12 ∗ 34 = 9 entonces np es entero, luego

1 1
x 3 = {x(9) + x(10) } = {25 + 27} = 26
4 2 2
En leguaje R

y = c(12, 13, 15, 16, 18, 19, 22, 24, 25, 27, 28, 34)
quantile(y, type = 2)

ejemplo2.6:

Sea la serie estadı́stica 12, 13, 15, 16, 18, 19, 22, 24, 25, 27 que contiene 10 observaciones (n =
10)

- El primer cuartil será obtenido de la siguiente manera: np = (10 ∗ 14 ) = 2,5, siendo un número
no entero, entonces
x 1 = x(d2,5e) = x(3) = 15
4

- La mediana será obtenida de la siguiente manera: np = (10 ∗ 21 ) = 5 siendo un número entero,


entonces
1 1
x 1 = {x(5) + x(6) } = {18 + 19} = 18,5
2 2 2
- El tercer cuartil será obtenido de la siguiente manera: np = (10 ∗ 34 ) = 7,5, siendo un número
no entero, entonces
x 3 = x(d7,5e) = x(8) = 24
4

En leguaje R

x = c(112, 113, 115, 116, 118, 119, 122, 124, 125, 127, 152, 152, 152, 153, 153, 154, 154, 154, 155, 155, 156, 156
quantile(x, probs = c(10, 20, 30, 40, 50, 60, 70, 80, 90, 100, N A)/100)
quantile(x, probs = c(7, 14, 22, 36, 44, 59, 88, 91, N A)/100)

19
2.2. Parámetros de dispersión
2.2.1. El rango o recorrido
Es la medida más sencilla de dispersión simplemente es la diferencia entre el valor más
grande de los datos y el menor valor de los datos. Su mayor aplicación en la estadı́stica esta en
el campo del control de calidad, dada su maniobrabilidad aritmética. Lo denotamos por la letra
R y su fórmula algebraica será la siguiente:

R = x(n) − x(1)

2.2.2. El rango intercuartilico


Básicamente es la diferencia entre el tercer cuartil y el primer cuartil. Lo denotaremos por
las letras RI y su fórmula algebraica será la siguiente

RI = x 3 − x 1
4 4

2.2.3. La varianza
La varianza es la suma de todas las desviaciones de las observaciones respecto a la media
dividido por el total de observaciones
n
1X
Sx2 = (xi − x̄)2
n i=1
Teorema: La varianza puede ser escrita como
n
1X 2
Sx2 = x − x̄2
n i=1 i
Demostrar:

n
1X
Sx2 = (xi − x̄)2
n i=1
n
1X 2
= (x − 2xi x̄ + x̄2 )
n i=1 i
· n n n ¸
1 X 2 X X
2
= x − 2x̄ xi + x̄
n i=1 i i=2 i=1
n n n
1X 2 1X 1X 2
= xi − 2x̄ xi + x̄
n i=1 n i=1 n i=1
n
1X 2 1
= xi − 2x̄x̄ + (nx̄2 )
n i=1 n
n
1X 2
= xi − x̄2
n i=1

20
La varianza puede ser prolongada a partir de las frecuencias de valores distintos como:
J
1X
Sx2 = nj (xj − x̄)2
n j=1

La cual puede ser reescrita como:


J
1X
Sx2 = nj xj − x̄2
n j=1

La demostración queda a cargo del lector.

Nota:

Cuando se quiere estimar la varianza de una variable a partir de una muestra tomada de
una población al azar se trabaja con la varianza çorregida”.
n
1 X n
Sx2 = (xi − x̄)2 = Sx2 ∗
n − 1 i=1 n−1

2.2.4. La desviación tı́pica


Es la raiz cuadrada de la varianza y la varianza corregida.

p
Sx = Sx2
p
Sx = Sx2
r
n
= Sx
n−1

Ejemplo 2.7:
Sea la serie estadı́stica 2, 3, 4, 4, 5, 6, 7, 9 entonces n = 8

2+3+4+4+5+6+7+8
x̄ = =5
8
8
2 1X
Sx = (xi − 5)2
8 i=1
1
= [(2 − 5)2 + (3 − 5)2 + (4 − 5)2 + (4 − 5)2 + (5 − 5)2 + (6 − 5)2 + (7 − 5)2 + (8 − 5)2 ]
8
= 4,5

Ahora

21
8
1X 2
Sx2 = X − (5)2
8 I=1 I
1
= [22 + 32 + 42 + 42 + 52 + 62 + 72 + 92 ] − (5)2
8
= 29,5 − 25 = 4,5
En leguaje R

Ejemplo Rango, Varianza y Desviación Estándar


x = c(2, 3, 4, 4, 5, 6, 7, 9)
E = max(x) − min(x)
E

n = length(x)
s2 = sum((x − mean(x))2 )/n
s2
s = sqrt(s2)
s

S2 = s2 ∗ n/(n − 1)
S2
S = sqrt(S2)
S

S2 = var(x)
S2
S = sd(x)
S

2.2.5. Desviación media absoluta


Es la suma de los valores absolutos de las desviaciones medias dividido por el total de
observaciones. La notación será Dmda
n
1X
Dmda = |xi − x̄|
n i=1
En leguaje R

fALTA

2.2.6. Desviación mediana absoluta


Es la suma de los valores absolutos de las desviaciones medianas dividido por el total de
observaciones. La notación será Dmeda

22
n
1X
Dmeda = |xi − x 1 |
n i=1 2

2.3. Momentos
Definición:

Se llama momento al origen de orden r ² N al parámetro


n
1X
mr = (xi − x̄)r
n i=1
Los momentos generalizan la mayorı́a de los parámetros. Como un caso particular tenemos
0
- m1 = x̄

- m1 = 0
0 1
Pn
- m2 = n i=1 x2i = s2x + x̄2

- m2 = Sx2

- Si r = 3 entonces m3 nos habla de la simetrı́a

En leguaje R

x = c(112, 113, 115, 116, 118, 119, 122, 124, 125, 127, 152, 152, 152, 153, 153, 154, 154, 154, 155, 155, 156, 156
mad(x)X

2.4. Parámetros de forma


2.4.1. Coeficiente de asimetrı́a de Fisher
El momento centrado de orden 3 está definido por
n
1X
m3 = (xi − x̄)3
n i=1
m3 puede tomar valores positivos o negativos. La asimetrı́a se mide con el coeficiente de
asimetrı́a de Fisher
m3
g1 =
s3x
Donde s3x es el cubo de la desviación tı́pica.
En leguaje R

x = c(112, 113, 115, 116, 118, 119, 122, 124, 125, 127, 152, 152, 152, 153, 153, 154, 154, 154, 155, 155)F skewn
−f unction(x)m3 < −mean((x − mean(x))3 )F isher < −m3/(sd(x)3 )F isherF skewness(x)

23
2.4.2. Coeficiente de asimetrı́a de Yule
El coeficiente de asimetrı́a de Yule se basa en la posición de los 3 cuartiles, y se normaliza
por la distancia intercuartilica:
x 3 + x 1 − 2x 1
Ay = 4 4 2

x3 − x1
4 4

En leguaje R

y = c(112, 113, 115, 116, 118, 119, 122, 124, 125, 127, 152, 152, 152, 153, 153, 154, 154, 154, 155, 155)Y ulesk
−f unction(Y )x25 < −as.double(quantile(x, prob = 0,25))x75 < −as.double(quantile(x, prob = 0,75))yule

2.4.3. Coeficiente de asimetrı́a de Pearson


Este coeficiente se basa en la comparación de la media y la moda
x̄ − xM
Ap =
Sx
Nota:

Todos los coeficientes de asimetrı́a cumplen las mismas propiedades

- Si el coeficiente es nulo (o 0) la distribución es simétrica.

- Si el coeficiente es negativo la distribución esta alargada a la izquierda.

- Si el coeficiente es positivo la distribución esta alargada a la derecha.

GRAFICAS
Asimetrı́a de una distribución

Nota:
Algunas variables son muy sesgadas a la derecha como es el caso de los ingresos de una persona,
o el tamano de las empresas. Una forma simple para que la variable sea más simétrica es aplicar
la función logaritmo natural a la variable.
En leguaje R

p = c(112, 113, 115, 116, 118, 119, 122, 124, 125, 127, 152, 152, 152, 153, 153, 154, 154, 154, 155, 155)P earso
−f unction(P )xb < −mean(p)M < −median(p)P earson < −(xb − M )/(sd(p))P earsonP earsonkewness(

2.5. Parámetro de aplanamiento(o kurtosis)


El aplanamiento o la kurtosis se mide por el coeficiente de Pearosn denotado por β2 , donde
m4
β2 =
Sx4

24
También se usa el coeficiente de aplanamiento o kurtosis basado en el coeficiente de Pearson
denotado por g2 , donde
m4
g 2 = β2 − 3 = −3
Sx4
Donde m4 es el momento centrado de orden 4, y Sx4 es la varianza al cuadrado.
La interpretación del coeficiente es la siguiente:

- Si una curva es mesocurtica el coeficiente g2 ≈ 0. Graf ejemplo.

- Si una curva es leptocurtica el coeficiente g2 > 0. La curva será má aguda y de colas mas
largas. Graf ejemplo.

- Si una curva es platicurtica el coeficiente g2 < 0. La curva será más redonda y de colas mas
cortas. Graf. ejemplo.

En leguaje R

k = c(112, 113, 115, 116, 118, 119, 122, 124, 125, 127, 152, 152, 152, 153, 153, 154, 154, 154, 155, 155)kurtosi
−f unction(k)m4 < −mean((k − mean(k))4 )kurt < −m4/(sd(k)4 ) − 3kurtkurtosis(k)

2.6. Cambio de origen y de unidad


Dada una variable x, que contiene x1 , . . . , xn observaciones.

Definición: Se llama cambio de origen a la operación que consiste en agregar (o sustraer)


la misma cantidad a ² R a todas las observaciones

yi = a + xi , i = 1, 2, . . . , n
Definición: Se llama cambio de unidad a la operación que consiste en multiplicar (o dividir)
por la misma cantidad b ² R a todas las observaciones

yi = bxi
Definición:Se llama cambio de origen y unidad a la operación que consiste en multiplicar
todas las observaciones por la misma cantidad b ² R y sumar (o restar)la misma cantidad a ² R

yi = a + bxi , i = 1, 2, . . . , n
Teorema
Si se efectúa un cambio de origen y de unidad sobre una variable x, la media se ve afectada por
el cambio de origen y unidad.
Dem: / Si yi = a + bxi , entonces

25
n
1X
ȳ = yi
n i=1
n
1X
= (a + bxi )
n i=1
· n n ¸
1 X X
= a+ bxi
n i=1 i=1
n n
1X 1X
= a+b xi
n i=1 n i=1
1
= (na) + bx̄
n
= a + bx̄
Teorema:

Si se efectua un cambio de origen y de unidad sobre una variable x, la varianza se ve afectada


por el cambio de unidad pero por el cambio de origen.
Dem: / Si yi = a + bxi , entonces

n
1X
Sy2 = (yi − ȳ)2
n i=1
n
1X
= (a + bxi − (a + bx̄))2
n i=1
n
1X
= (bxi − bx̄)2
n i=1
n
X
21
=b (xi − x̄)2
n i=1
2
=b Sx2
Nota:
1. Los parámetros de posición son todos afectados por un cambio de origen y de unidad
2. Los parámetros de dispersión son todos afectados por un cambio de unidad pero no por
un cambio de origen
3. Los parámetros de forma y aplanamiento no son afectados ni por cambio de unidad ni por
cambio de origen

2.7. Media y varianza de dos grupos


Supongamos que las n observaciones son divididas en dos grupos GA y GB . Las nA primeras
observaciones pertenecen al grupo GA y las nB observaciones restantes pertenecen, al grupo GB ,
teniendo en cuenta la relación

26
nA + nB = n
Suponagamos que la serie estadı́stica contiene las unidades de GA más las unidades de GB :

x1 , x2 , . . . , xnA −1 , xnA observaciones del GA , xnA +1 , xnA +2 , xn−1 , xn observaciones de GB


| {z } | {z }

Ahora se definen las medias de los grupos:


1
PnA
La media del primer grupo x̄A = nA i=1 xi
1
Pn
La media del segundo grupo x̄B = nB i=nA +1 xi

La media general es una media ponderada por el total de los grupos de las medias de cada
grupo.
µ nA n ¶
1 X X 1
x̄ = xi + xi = (nA x̄A + nB x̄B )
n i=1 i=n +1
n
A

También se pueden definir las varianzas de los dos grupos


1
PnA
La varianza del primer grupo SA2 = nA i=1 (xi − x̄A )2

Teorema(ed Huygens)

La varianza total, definida por:


n
1X
Sx2 = (xi − x̄)2
n i=1
Se puede descomponer de la siguiente forma:

nA SA2 + nB SB2 nA (x̄A − x̄)2 + nB (x̄B − x̄)2


Sx2 = varianza intra-grupos + varianza entre- grupos
| n
{z } | n
{z }

Dem/

n
2 1X
SX = (xi − x̄)2
n i=1
· nA n ¸
1 X 2
X
= (xi − x̄) + (xi − x̄)
n i=1 i=n +1 A

Se trabajaran las dos sumatorias por separado. Notemos que

27
nA
X nA
X
2
(xi − x̄) = (xi − x̄A + x̄A − x̄)2
i=1 i=1
nA
X
= ((xi − x̄A ) + (x̄A − x̄))2
i=1
nA
X nA
X nA
X
2 2
= (xI − x̄A ) + (x̄A − x̄) + 2 (xi − x̄A )(x̄A − x̄) = 0
i=1 i=1 i=1
| {z }
= nA SA” + nA (x̄A − x̄) 2

De forma análoga para la segunda sumatoria que tenemos:


X
(xi − x̄)2 = nB SB2 + nB (x̄B − x̄)2
i=nA +1

Al reemplazar en la expresión original tenemos:

· nA n ¸
1 X X
Sx2 = 2
(xi − x̄) + (xi − x̄)2
n i=1 i=n +1 A

1
= [nA SA2 + nA (x̄A − x̄)2 + nB SB2 + nB (x̄B − x̄)2 ]
n
nA SA2 + nB SB2 nA (x̄A − x̄)2 + nB (x̄B − x̄)2
= +
n n

2.8. Diagrama de tallos y hojas


El diagrama de tallos y hojas es una manera rápida de presentar una variable cuantitativa.
Por ejemplo, si tenemos la siguiente serie estadı́stica ordenada

15, 15, 16, 17, 18, 20, 21, 22, 23, 23, 23, 24, 25, 25, 26, 26, 27, 28, 28, 29, 30, 30, 32, 34, 35, 36, 39, 40, 43, 44
Para este caso el tallo será el decimal y las hojas serán las unidades. Sin embargo para los
tallos y hojas se pueden utlizar diferentes medidas. El resultado para este ejemplo es el siguiente

1 | 5 5 6 7 8
2 | 0 1 2 3 3 4 5 5 6 6 7 8 8 9
3 | 0 0 2 4 5 6 9
4 | 0 3 4
En leguaje R

X=c(15,15,16,17,18,20,21,22,23,23,23,24,25,25,26,26,
27,28,28,29,30,30,32,34,35,36,39,40,43,44)
stem(X,0.5)

28
2.9. Diagrama de caja
El diagrama de caja o diagrama de caja y bigotes o boxplot(en inglés), es una gráfica que
permite representar la distribución de una variable. Está gráfica se compone de:

Un rectángulo que se extiende desde el primer cuartil. El rectángulo esta dividido por una
linea que corresponderá a la mediana

Este rectángulo se completa con dos segmentos de lı́nea.

* Primero, se calculan los limites

b− = x 1 − 1,5IQyb+ = x 3 + 1,5IQ
4 4

Donde IQ es el rango intercuartilico.

* Segundo, se determina el mı́nimo y el máximo de la serie estadı́stica. Estas observaciones se


llaman ”valores adyacentes”

* Se dibujan las lı́neas que unen al rectángulo con estas observaciones.

* Los valores que quedan fuera de los valores adyacentes se llaman ”valores extremos”

Ejemplo 2.8
En leguaje R

Ejemplo 1
Primera parte: Instalación del paquete sampling
En este paquete está la base de datos de los municipios belgas que servira como ejemplo
Escoger ”sampling.en la lista
utils:::menuInstallPkgs() llamando los paquetes para instalar sampling
Segunda parte 2: Cargar el paquete sampling
Escoger ”sampling.en la lista
local(pkg ¡- select.list(sort(.packages(all.available = TRUE)))
+ if(nchar(pkg)) library(pkg, character.only=TRUE))
Usar los datos
data(swissmunicipalities)
attach(swissmunicipalities)
boxplot de la selección de los municipios de Neuchâtel
El número de municipios es de 24
boxplot(HApoly[CT==24],horizontal=TRUE)
selección de municipios de Neuchâtel que tienen más de 3000 habitantes
data.frame(Nom=Nom[HApoly¿3000 CT==24],Superficie=HApoly[HApoly¿3000 CT==24])
Ejemplo 2.9
En leguaje R

Ejemplo2
Utilisation de municipios
data(belgianmunicipalities)
attach(belgianmunicipalities)

29
Construcción de una lista de con los nombres de las provincias
b=list(
.Anv.-averageincome[Province==1],
”Brab.-averageincome[Province==2],
”Fl.occ.-averageincome[Province==3],
”Fl.or.-averageincome[Province==4],
”Hainaut-averageincome[Province==5],
”Liµege” = averageincome[P rovince == 6],
”Limb.” = averageincome[P rovince == 7],
”Lux.” = averageincome[P rovince == 8],
”N amur” = averageincome[P rovince == 9]
)boxplot(b)
Ejercicios del capitulo
..
.

3. Estadı́stica descriptiva bivariada


3.1. Serie estadı́stica bivariada
Ahora el interés esta enfocado en el análisis de dos variables x y y. Las dos variables tendrán
n observaciones cada una. La nueva serie estadı́stica está compuesta de n observaciones dadas
en parejas y con mediciones al mismo tiempo a cada individuo

(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )


Nota:
Las variables pueden cualitativas o cuantitativas, pero se examinaran dos casos.

Las dos son cuantitativas

Las dos son cualitativas

3.2. Dos variables cuantitativas


En este caso se harán dos mediciones numéricas en ambas variables.

Ejemplo 3.1

Se le midieron a 10 personas el peso y la estatura, obteniendo los siguientes resultados:

En lenguaje R
..
.Gráfica falta

30
Peso Estatura
yi xi
61 158
63 170
69 171
70 171
73 178
76 179
89 179
95 180
96 182
100 190

3.2.1. Análisis de las variables


Primero se analizan las variables por separado

n n
1X 1X
x̄ = xi Sx2 = (xi − x̄)2
n i=1 n i=1
n n
1X 1X
ȳ = yi Sy2 = (yi − ȳ)2
n i=1 n i=1

Estos parámetros son llamados parámetros marginales: medias marginales, varianzas marginales,
cuantiles marginales, etc. . .

3.2.2. Covarianza
La covarianza se define como:
n
1X
Sxy = (xi − x̄)(yi − ȳ)
n i=1
Nota:

La covarianza puede tomar valores positivos, negativos o nulos.

Cuando xi = yi , para todo i = 1, . . . , n Sxy = Sx2 = Sy2 (covarianza será igual a la varianza)

Teorema:

La covarianza se puede escribir como


n
1X
Sxy = xi yi − x̄ȳ
n i=1

31
Dem:/
n
1X
S− xy = (xi − x̄)(yi − ȳ)
n i=1
n
1X
= (xi yi − xi ȳ − yi x̄ + x̄ȳ)
n i=1
n n n n
1X ȳ X x̄ X 1X
= xi yi − xi − yi + x̄ȳ
n i=1 n i=1 n i=1 n i=1
n
1X n
= xi y − i − ȳx̄ − x̄ȳ + x̄ȳ
n i=1 n
n
1X
= xi yi − x̄ȳ
n i=1

3.2.3. Correlación
El coeficiente de correlación
sxy
rxy =
Sx Sy
El coeficiente de determinación es el cuadrado del coeficiente de correlación
2
2
Sxy
rxy = 2 2
Sx Sy
Nota:

El coeficiente de correlación es una medida de dependencia lineal entre dos variables

−1 ≤ rxy ≤ 1
2
0 ≤ rxy ≤1

Si Sxy > 0 hay dependencia directa(positiva), es decir, a valores grandes de la variable x


corresponden a valores grandes de y

Si Sxy = 0 no existe una relación lineal entre las variables x y y

Si Sxy < 0 hay dependencia inversa (negativa) es decir, a valores grandes de la variable
xcorresponden a valores pequeños de y

Si rxy = ±1 , las variables están en correlación perfecta, y los puntos correspondientes a


los pares de valores xy y están situados en una lı́nea recta única

Si r → −1, las variables están en perfecta correlación negativa, correspondiendose los


valores pequeños de una variable con los valores grandes de la otra variable.

Si r → +1, las variables están en perfecta correlación positiva correspondiendose a los


valores grandes de la variable

32
3.2.4. Recta de regresión
La recta de regresión es la recta que ajusta la nube de puntos por el método de minimos
cuadrados. La variable x se considera como explicativa y la variable y y como independiente. la
ecuación de una recta es la siguiente

y = a + bx
El problema consiste en identificar una recta que ajuste la nube de puntos. Si los coeficientes
a y b son conocidos, se podrı́a calcular los residuales de la regresión definidos por

ei = yi − a − bxi
El residuo ei es el error que se comete al utilizar la recta de regresión para preceder yi a
partir de xi . Los residuales pueden ser positivos o negativos.

Gráficos de ejemplos.
En lenguaje R
..
.

Para determinar los valores de los coeficientes ay bse utilizara el método de mı́nimos cuadra-
dos, el cual consiste en minimizar la suma de cuadrados de los residuos
n
X n
X
µ(a, b) = e2i = (yi − a − bxi )2
i=1 i=1

Teorema:

Los coeficientes a y b que minimizan el criterio de mı́nimo cuadrados están dados por:
Sxy
b= y a = ȳ − bx̄
Sx2
Dem:/

El mı́nimo de µ(a, b) se obtiene al anular las derivadas parciales respecto a a y b


( P
∂µ(a,b)
∂a
= − ni=1 2(yi − a − bxi ) = 0
∂µ(a,b) Pn
∂b
= − i=1 2(yi − a − bxi )xi = 0

Se divide por −2n y se obtiene


( P
1 n
n i=1 (yi − a − bxi ) =0
1
P n
n i=1 (yi − a − bxi )xi =0
Desarrollando la sumatoria de la primera ecuación, tenemos
( P Pn Pn
1 n 1 1
y i − a − b i=1 xi =0
n
1
Pi=1
n
n i=1 n

n i=1 (yi − a − bxi )xi =0


Luego

33
(
ȳ = a + bx̄
1
Pn
n i=1 (yi − a − bxi )xi = 0

De lo anterior tenemos que a = ȳ − x̄ Ahora se reemplaza en la segunda ecuación,

n n
1X 1X 2
yi xi − (ȳ − bx̄)x̄ − bx = 0
n i=1 n i=1 i
n n
1X bX 2
xi yi − x̄ȳ − bx̄2 − x =0
n i=1 n i=1 i
n n
1X 1X 2
xi yi − x̄ȳ − b( x − x̄2 ) = 0
n i=1 n i=1 i
n
1X
( xi yi − x̄ȳ) − bSx2 = 0
n i=1
Sxy − bSx2 = 0
Luego
Sxy
b=
Sx2
Ahora se pueden identificar los parámetros

Sxy
b= (la pendiente de la recta)
Sx2
Sxy
a = ȳ − bx̄ = ȳ − 2 x̄(la constante de la recta)
Sx
La recta de regresión estará dada por
Sxy Sxy
y = a + bx = ȳ − 2
x̄ + 2 x,
Sx Sx
Donde
Sxy
y − ȳ = (x − x̄)
Sx2
Falta Figura

3.2.5. Residuos y valores ajustados


Los valores ajustados son obtenidos al reemplazar los valores de x en la recta obtenida

yi∗ = a + bxi
Los valores ajustados son los ”predictores”de yi obtenidos después de reemplazar los xi en
la recta.
Nota:

34
- Los valores de los residuos es la diferencia entre los valores observados (yi ) y los valores
ajustados (yi ).
ei = yi − yi ∗

- La media de los residuos es nula


n n
1X 1X
ē = ei = yi − yi∗ = ȳ − ȳ = 0
n i=1 n i=1

- n
X
xi e i = 0
i=1

La demostración queda para el lector

3.2.6. Suma de cuadrados y varianzas


Definición

Se llama suma de cuadrados total a la cantidad SCT (Suma de Cuadrados Total)


n
X
SCT = (yi − ȳ 2 )
i=1

La varianza marginal está definida por:


n
SCT 1X
Sy2 = = (yi ȳ)2
n n i=1
Definición

Se llama suma de cuadrados de regresión (SCR) a la cantidad


n
X
SCR = (yi∗ − ȳ)2
i=1

Definición:La varianza de la regresión es la varianza de los valores ajustados


n
2 1X ∗
Sy∗ = (y − ȳ)2
n i=1 i
Definición

Se llama suma de cuadrados de los residuos (SCE) a la cantidad


n
SCE 1X 2
Se2 = = e
n n i=1 i
Teorema

SCT = SCR + SCE

35
Suma de cuadrados total es igual a la suma de cuadrados de regresión más la suma de
cuadrados de los residuos.
Dem:/

n
X
SCT = (yi − ȳ)2
i=1
n
X
= (yi − yi∗ + yi∗ − ȳ)2
i=1
n
X n
X n
X
∗ 2 ∗ 2
= (yi − yi ) + (yi − ȳ) + 2 (yi − yi∗ )(yi∗ − ȳ)
i=1 i=1 i=1
Xn
= SCR + SCE + 2 (yi − yi∗ )(yi∗ − ȳ)
i=1
Pn
Ahora se deberá probar que i=1 (yI − yi∗ )(yi∗ − ȳ) = 0

n
X n
X
∗ ∗
(yi − yi )(yi − ȳ) = [yi − ȳ − b(xi − x̄)]b(xi − x̄)
i=1 i=1
n
X
= [(yi − ȳ) − b(xi − x̄)]b(xi − x̄)
i=1
Xn n
X
2
=b (yi − ȳ)(xi − x̄) − b (xi − x̄)(xi − x̄)
i=1 i=1
= bnSxy − b nSx2 2

2
Sxy Sxy
= nSxy − nSx2
Sx2 Sx4
=0

3.2.7. Descomposición de la varianza


Teorema:

La varianza de la regresión puede ser escrita como

2
Sy∗ = Sy2 r2
Donde r2 es el coeficiente de determinación.

Dem:/

36
n
2 iX ∗
Sxy = (yi − ȳ)2
n i=1
n
iX Sxy
= {ȳ + 2 (xi − x̄) − ȳ}2
n i=1 Sx
n
2
Sxy iX
= 4 (xi − x̄)2
Sx n i=1
2
Sxy
= S2
Sx4 x
2
2
Sxy
= Sy 2 2
Sx Sy
= Sy2 r2

Teorema:
La varianza de los residuales puede ser escrita como

Se2 = Sy2 (1 − r2 )

donde r2 es el coeficiente de determinación.

Dem:/

n
iX
Se2 = ei
n i=1
n
iX
= (yi − yi∗ )2
n i=1
n ½ ¾2
iX 2
Sxy
= yi − ȳ − 2 (xi − x̄)
n i=1 Sx
n n n
iX 2
2
Sxy iX 2 Sxy i X
= (yi − ȳ) + 4 (xi − x̄) − 2 2 (xi − x̄)(yi − ȳ)
n i=1 Sx n i=1 Sx n i=1
2 2
Sxy Sxy
= Sy2 + 2 − 2 2
S S
µ x 2 ¶x
Sxy
= Sy2 1 − 2 2
Sx Sy
= Sy2 (1 − r2 )

Teorema:

37
y1 ... yk ... yK Total
x1 n11 . . . n1k ... n1K n1.
.. .. .. ..
. . . .
xj nj1 ... njk ... njK nj.
.. .. .. .. ..
. . . . .
xJ nJ1 ... nJk ... nJK nJ.
Total n,1 ... n.k ... n.K n

La varianza marginal es la suma de la varianza de regresión y la varianza residual,

Sy2 = Sy2∗ + Se2


Dem:/

La demostración queda como ejercicio al lector.

3.3. Dos variables cualitativas


3.3.1. Datos observados
Si las dos variables x y y son cualitativas, ahora los valores observados son parejas de
variables

(x1 , y1 ), . . . , (xi , yi ), . . . , (xn , yn )


Los valores distintos de x y y son notados ahora como sigue

x1 , . . . , x j , . . . , x J
y

y1 , . . . , y k , . . . , y K

3.3.2. Tabla de contingencia


Los datos observados pueden ser reagrupados en forma de una tabla de contingencia.
Los nj. y n.k son llamados efectos marginales. Donde:

nj. representa el número de veces que la modalidad xj aparece

n.k representa el número de veces que la modalidad yk Aparece.

njk representa el número de veces que la modalidad xy y yk aparecen juntas.

También podemos observar las siguientes relaciones.

38
Azul Verde Cafe Total
Hombre 10 50 20 80
Mujer 20 60 40 120
Total 30 110 60 200

y1 . . . yk ... yK Total
x1 f11 ... f1k ... f1K f1.
.. .. .. .. ..
. . . . .
xj fj1 ... fjk ... fjK fj.
.. .. .. .. ..
. . . . .
xJ fJ1 ... fJk ... fJK fJ.
Total f,1 ... f.k ... f.K 1

J
X
njk = n.k , Para todosk = 1, . . . , K
j=1
K
X
njk = nj. , para todo j = 1, . . . , J
k=1
XJ K
X J X
X K
nj. = nn.k = njk = n
j=1 k=1 j=1 k=1

Ejemplo 3.2
Interesa una eventual relación entre el género de 200 personas y el color de los ojos. Los resul-
tados se presentan en la siguiente tabla de contingencia.

3.3.3. Tabla de frecuencias


La tabla de frecuencias se obtiene al dividir todos los efectos por el total de la población:

La tabla de frecuencias es
Ejemplo 3.3
Utilizando los datos del ejemplo 3.2 se presentará la tabla de frecuencia para la tabla de contin-
gencia

Azul Verde Cafe Total


Hombre 0.05 0.25 0.10 0.40
Mujer 0.10 0.30 0.20 0.60
Total 0.15 0.55 0.30 1

39
Azul Verde Cafe Total
Hombre 0.13 0.63 0.25 1.00
Mujer 0.17 0.50 0.33 1.00
Total 0.15 0.55 0.30

Azul Verde Cafe Total


Hombre 0.33 0.45 0.33 0.40
Mujer 0.67 0.55 0.67 0.60
Total 1.00 1.00 1.0 1.00

3.3.4. Efectos de fila y efectos de columna


Una tabla de contingencia se interpreta siempre comparando las frecuencias por lı́neas o las
frecuencias por columnas, llamadas también (perfiles de lı́nea y perfiles de columna) o (efectos
fila y efectos columna).
(j)
Los efectos fila (fk ) son definidos por

(j) njk fjk


fk = = , k = 1, . . . , K, j = 1, . . . , J
nj. fj.
(k)
Los efectos columna (fj ) son definidos por

(k) njk fjk


fj = = , j = 1, . . . , J, k = 1, . . . , K
n.k f.k
Ejemplo 3.4
Los efectos por fila y por columna se presentan en las siguientes tablas

Tabla de efecto fila


Tabla de efectos columna

3.3.5. Efectos teóricos y chi- cuadrado


Con frecuencia buscamos la interacción entre las filas y las columnas, como un vı́nculo entre
las variables. Se construye para ello una tabla de efectos teóricos que representan la situación
en la que las variables no están relacionadas (a lo cual conocemos como independencia entre
variables). Los efectos teóricos se construyen de la siguiente forma:
nj. n.k
n∗jk =
n
Los efectos teóricos n∗jk tienen las mismas caracterı́sticas que los efectos observados njk .

Finalmente, las desviaciones de la independencia están definidas por:

ejk = njk − n∗jk

40
Azul Verde Cafe Total
Hombre 12 44 24 80
Mujer 187 66 36 120
Total 30 110 60 200

Azul Verde Cafe Total


Hombre -2 6 -4 0
Mujer 2 -6 4 0
Total 0 0 0 0

La dependencia en la tabla se mide como la media de la chi-cuadrado definida como:


K X
X J XK X J
(njk − n∗jk )2 e2jk
χ2obs = =
k=1 j=1
n∗jk n∗
k=1 j=1 jk

La chi-cuadrado puede ser estandarizada y dependerá del número de observaciones. Se


define φ2 como:
χ2
φ2 = obs
n
2
La φ no depende del número de observaciones. Además, es posible mostrar que

φ2 ≤ mı́n(J − 1, K − 1)

La V de Cramer está definido por:

φ2 χ2obs
V = =
mı́n(J − 1, K − 1) n mı́n(j − 1, k − 1)

La V de Cramer esta definida entre o y 1.

Si V ≈ 0, las dos variables son independientes.

Si V → 1, existe una relación funcional entre las variables.

Ejemplo 3.5

Las siguientes tablas muestran los efectos teóricos, la tabla de desviaciones de independencia
y la tabla de e2jk /njk∗

Tabla de efectos teóricos n∗jk


Tabla de desviaciones de independencia ejk
Tabla de e2jk /n∗jk Utilizando las tablas anteriores, tenemos:

La chi-cuadrado observada es χ2obs = 3,03


3,03
La φ2 = 200
entonces φ2 = 0,01515

41
Azul Verde Cafe Total
Hombre 0.33 0.82 0.67 1.82
Mujer 0.22 0.55 0.44 1.21
Total 0.56 1.36 1.11 3.03

Año t Precio (pt )


2000 0 2.00
2001 1 2.30
2002 2 2.40
2003 3 2.80
2004 4 3.00
2005 5 3.50
2006 6 4.00

Se calcula el mı́n(J − 1, K − 1)

mı́n(J − 1, K − 1) = mı́n(2 − 1, 3 − 1) = mı́n(1, 2) = 1

Como el mı́nimo entre (J − 1, K − 1) es 1, La V de cramer es igual a φ2

V = 0,01515. La dependencia entre las variables es muy baja.

En lenguaje R
Falta
Ejercicios capitulo 3
..
.

4. Capitulo 4
TEORIA DE INDICES, MEDIDAS DE DESIGUALDAD

4.1. Números ı́ndices


En algunas ocasiones, y especı́ficamente en Estadı́stica económica, algunos sucesos ocurridos
a lo largo del tiempo, lo cual genera un concepto que expresa la variación de un elemento. Un
caso particular es la aplicación en el campo de los precios y sus variaciones.

4.2. Definición
Un ı́ndice es el valor de una magnitud en comparación a un valor de referencia. La siguiente
tabla contiene el precio ficticio del consumo de un producto X durante los periodos comprendidos
entre los años 2000 y 2006. Los tiempos varı́an de 0 a 6 y 0 es considerado como el tiempo de
referencia contra el cual el ı́ndice será calculado.

42
t=0 1 2 3 4 5 6
0
t = 0 100.00 115.00 120.00 140.00 150.00 175.00 200.00
1 89.96 100.00 104.35 121074 130.43 452.17 173.91
2 83.33 95.83 100.00 116.67 125.00 145.83 166.67
3 71.43 82.14 85.75 100.00 107.14 125.00 142.86
4 66.67 76.67 80.00 93.33 100.00 116.67 133.33
5 57.14 65.71 68.57 80.00 85.71 100.00 114.29
6 50.00 57.50 60.00 70.00 75.00 87.50 100.00

Un ı́ndice simple está definido por:


4,00
I(6/0) = 100 ∗ = 200
2,00

0 2,3
I(1/0 ) = 100 ∗ = 115
2,0
0 2,4
I(2/0 ) = 100 ∗ = 120
2,0
..
.
0 2,0
I(0/1 ) = 100 ∗ = 86,9
2,3
0 2,3
I(1/1 ) = 100 ∗ = 100
2,3

4.2.1. Propiedades de los indices


Consideramos el ı́ndice I(t/0).Se puede decir que el ı́ndice posee las siguientes propiedades

Es reversible si:
1
I(t/0) = 1002 ∗
I(0/t)
Es Identica si :
I(t/t) = 100

Es circular (o transitiva) si:

I(t/0) ∗ I(0/υ) = 100 ∗ I(t/υ)

4.2.2. Índices sintéticos


Cuando queremos calcular un ı́ndice a partir de múltiples precios, el problema se hace signi-
ficativamente más complicado. Un ı́ndice sintético es una magnitud de un conjunto de bienes en
relación a un año de referencia. Se puede construir un ı́ndice sintético añadiendo simplemente
ı́ndices simples.

Para calcular un ı́ndice de precios de n bienes de consumo de 1, . . . , n y utilizaremos la


siguiente notación:

43
pti representa el precio de un bien de consumo i en eltiempo t.

qti representa la cantidad de bienes i consumidos en el tiempo t

Consideremos por ejemplo la siguiente tabla la cual contiene 3 bienes de consumo

Tiempo Precio (po i) Cantd(q0i ) Precio(p1i ) Cantd(q1i ) Precio(p2i ) Cantd(q2i )


Bien 1 100 14 150 10 200 8
Bien 2 60 10 50 12 40 14
Bien 3 160 4 140 5 140 5

Existen dos métodos fundamentales para calcular ı́ndices de precios, el ı́ndice de Paasche y
el ı́ndice de Laspeyres.

4.2.3. Índice de Laspeyres


El ı́ndice de Laspeyres está definido por:
Pn
q0i pti
L(t/0) = 100 ∗ Pni=1
i=1 q0i p0i
Mantiene constante la capacidad del consumidor de adquirir la cesta de consumo del periodo
base o de referencia q0 .

El ı́ndice de Laspeyres puede ser presentado como una media ponderada de ı́ndices simples.
Consideramos el ı́ndice simple del bien i:
pti
Ii (t/0) = 100 ∗ ,
poi
y w0i es el peso de los ingresos totales del bien i en el momento 0,

wti = poi q0i


El ı́ndice de Laspeyres puede ser definido como un promedio ponderado por los ingresos en
el momento 0:
Pn Pn pti P
i=1 w 0i Ii (t) i=1 poi qoi 100 ∗ poi 100 ∗ ni=1 qoi pti
L(t/0) = Pn = Pn = Pn
i=1 woi i=1 poi qoi i=1 poi qoi
Nota:

El ı́ndice de Laspeyres no posee ni la propiedad de circularidad, ni la reversible.

El ı́ndice de Laspeyres es fácil de calcular, por que solo se necesitan las cantidades de
referencia qoi para el calculo de ı́ndice.

Ejemplo 4.1
Si se utiliza la tabla anterior, los ı́ndices de Laspeyres son los siguientes:

44
1.
P3
q0i p1i
L(1/0) = 100 ∗ Pi=1
3
i=1 q0i p0i
(14 ∗ 150) + (10 ∗ 50) + (4 ∗ 140)
= 100 ∗ = 119,6970
(14 ∗ 100) + (10 ∗ 60) + (4 ∗ 160)

2.
P3
q0i p2i
L(2/0) = 100 ∗ Pi=1
3
i=1 q0i p0i
(14 ∗ 200) + (10 ∗ 40) + (4 ∗ 140)
= 100 ∗ = 142,4242
(14 ∗ 100) + (10 ∗ 60) + (4 ∗ 160)

3.
P3
q1i p2i
L(2/1) = 100 ∗ Pi=1
3
i=1 q1i p1i
(10 ∗ 200) + (12 ∗ 40) + (5 ∗ 140)
= 100 ∗ = 1136,57
(10 ∗ 150) + (12 ∗ 50) + (5 ∗ 140)

Interpretación:

Para L(1/0) = 119,697 , este número nos indica que el valor de las cantidades del año
base aumento un 11,96 % como resultado del incremento en los precios entre el año 0 y 1.

Para L(2/0) = 142,42, este número nos indica que el valor de las cantidades del año base
aumento un 42,42 % como resultado del incremento en los precios entre el año 0 y .2

Para L(2/1) = 113,57 , este número nos indica que el valor de las cantidades del año base
(en este caso será el año 1) aumento un 13,57 % como resultado del incremento en los
precios entre el año 1 y 2.

4.3. Indice de Fisher


El ı́ndice de Laspeyres es generalmente mayor que el ı́ndice de Paasche, esto se puede explicar
por el hecho de que el ı́ndice de Laspeyres es una media aritmética de indices simples, mientras
que es ı́ndice de Paasche una media armónica. Como ya se mencionó la media armónica siem-
pre es menor o igual a la media aritmética.

Sin embargo, este resultado es aproximado, porque no utilizan los mismos pesos para el calcu-
lo, dado que el ı́ndice de Laspeyres utiliza (wti ) mientras que el ı́ndice de Paaschees utiliza (woi ).

Fischer propone una solución, es utilizar el ı́ndice de Laspeyres y el ı́ndice de Paaschees y


calcular la media geométrica de estos dos ı́ndices, donde
p
F (t/0) = L(t/0) ∗ P (t/0)

45
La ventaja del ı́ndice de Fisher es que cumple con la propiedad de reversibilidad.

Ejemplo 4.3

Si utilizamos los resultados anteriores, tenemos:

p
F (1/0) = L(1/0) ∗ P (1/0) = 115,324
p
F (2/0) = L(2/0) ∗ P (2/0) = 129,205
p
F (2/1) = L(2/1) ∗ P (2/1) = 111,771

4.3.1. Indice de Sidgwick


El ı́ndice de Sidgwick es la media aritmética entre el ı́ndice de Laspeyres y el ı́ndice de
Paasche .

L(t/0) + P (t/0)
S(t/0) =
2
Ejemplo 4.4

Utilizando los resultados anteriores tenemos:

L(1/0) + P (1/0)
S(1/0) = = 115,404
2
L(2/0) + P (2/0)
S(2/0) = = 129,818
2

4.3.2. Índices de cadenas


El defecto principal de los ı́ndices de Laspeyres, Paasche, Fisher y Sidgwick es que no poseen
la propiedad de circularidad. Un ı́ndice que posee esta propiedad de denomina ı́ndice en cadena.

Para construir un ı́ndice en cadena, con el ı́ndice de Laspeyres o de Paasche, se realiza un


producto de los ı́ndices de Laspeyres o de Paasche anuales.

Para el ı́ndice de Laspeyres tendrı́a la siguiente forma:

L(t/t − 1) L(t − 1/t − 2) L(1/0)


CL(t/0) = 100 ∗ ∗ ∗ ... ∗
100 100 100
Para el ı́ndice de Paasche tendrı́a la siguiente:

P (t/t − 1) P (t − 1/t − 2) P (1/0)


CP (t/0) = 100 ∗ ∗ ∗ ... ∗
10 100 100
Para el calculo de este ı́ndice, obviamente se deben conocer las cantidades para cada valor
de t.

46
4.4. Medidas de desigualdad
4.4.1. Introducción
Los indicadores se han desarrollado con el fin de determinar la desigualdad de ingresos o
la desigualdad de la riqueza. Podemos considerar varias situaciones, en primer lugar, estarı́a
una sociedad perfectamente igualitaria, donde todos los individuos reciben el mismo ingreso y
el segundo lugar, estarı́a una sociedad más desigual, en la cual un individuo o unos individuos
perciben más ingresos que los demás.

Estos indicadores serán ´más sobresalientes de acuerdo a la satisfacción de algunas propiedades,


los cuales son:

1. Independencia de escala
El indicador no deberá cambiar ante transformaciones proporcionales de los ingresos, por
ejemplo, la unidad de medida.

2. Independencia de tamaño de población, Teóricamente la desigualdad no sufrirá cambio si


se agrega un número proporcional de individuos en cada uno de los niveles de ingreso.

3. Independencia ante cambios de posición, Si los individuos cambian su posición en la dis-


tribución de los ingresos, la desigualdad no se verá afectada.

4. Principio ”débil”de transferencias.


La desigualdad deberá disminuir ante una transferencia de ingresos de un grupo con may-
ores ingresos a un grupo con menores ingresos.

5. Principio ”fuerte”de transferencias


una transferencia de un grupo de individuos con mayores ingresos a uno con menores
ingresos, la desigualdad disminuirá a medida que aumente la distancia entre los ingresos
de ambos grupos.

6. Descomposición aditiva.
La concentración del ingreso para una población deberá ser igual a la suma de la desigual-
dad intra-grupal e inter-grupal para los subgrupos que la conforman.

7. Rango del ı́ndice.


Se desea que el ı́ndice tome valores entre 0 y 1, donde 0 significará igualdad máxima y 1
significará desigualdad máxima.

4.4.2. Curva de Lorenz


La curva de Lorenz es un gráfico que representa el porcentaje acumulativo de ingreso que
poseen los individuos o grupos de ellos, ordenados en forma ascendente de acuerdo con su nivel
de ingreso.

GRÁFICA (FALTA)

Varios ı́ndices de desigualdad están relacionados con la curva de Lorenz. Allı́:

47
x1 , . . . , x n
son los ingresos de n individuos en estudio. También se denotarán como:

x(1) , . . . , x(i) , . . . , x(n)


La estadı́stica de orden, es decir, los ingresos ordenados ascendentemente.
Ahora qi es la proporción o porcentaje de los ingresos en comparación con los ingresos totales
obtenidos por los i individuos con ingresos más bajos, lo cual puede ser escrito como
Pi
j=1 x(j)
qi = Pn con q0 = 0y qn = 1
j=1 x(j)

Nota:

La curva de Lorenz para los ingresos muestra en el eje ”x” el porcentaje acumulado de indi-
viduos o grupos de la población en estudio y en el eje ”y” el porcentaje acumulado del ingreso.

Cada punto de la curva se puede leer como un porcentaje acumulado de los individuos o
grupos. La curva parte de un origen (0, 0) y culmina en el punto (100, 100). Si el ingreso fuera
totalmente equitativo, la curva coincidirá con la lı́nea de 45 grados que paso por el origen.

Ejemplo 4.5

Supongamos una distribución de rentas, es decir, una tabla en la que aparecen (por ejemplo,
salarios) ordenados en forma creciente con indicación de individuos que la perciben (frecuencia)

i Salario($)(xi ) Frecuencia(ni ) x(j) = xi ∗ ni


1 500.000 90 45000000
2 600.000 70 42000000
3 800.00 50 40000000
4 900.00 40 36000000
5 1’000.000 15 15000000
6 1’200.000 7 8400000
Total 272 186400000

Se necesitan encontrar los puntos (i/n, qi ) para i = 1, 2, . . . , 6.

- Para i = 1 tenemos
Pi
j=1 nj (90) 90
P6 = = = 0,3308 o 33,08 %
i=1 ni
90 + 70 + 50 + 40 + 15 + 7 272
P1
j=1 x(j) (500000 ∗ 90)
q1 = P6 =
j=1 x(j)
(500000 ∗ 90) + . . . + (1200000 ∗ 7)
q1 = 0,2414 o 24,14 %

Entonces elprimer punto de la curva es (0,33, 0,24) o (33,08 %, 24,14 %)

48
- Para i = 2 tenemos:
P2
j=1 nj (90 + 70) 160
P6 = = = 0,5882o 58,82 %
j=1 ni
90 + 70 + 50 + 40 + 15 + 7 272
P2
j=1 x(j) (500000 ∗ 90) + (600000 ∗ 70)
q2 = P6 =
j=1 xj
(500000 ∗ 90) + . . . + (1200000 ∗ 7)
q2 = 0,4667o 46,67 %

Entonces el segundo punto de la curva es (0,58, 0,46)


Siguiendo los pasos anteriores podemos construir la siguiente tabla:

Eje x
Pi
Eje
P
y
i
j=1 nj x(j)
i xj nj P6 qi = j=1
P6
j=1 nj j=1 x(j)
1 500000 90 0.3308 0.2414
2 600000 70 0.5882 0.4667
3 800000 50 0.7720 0.6813
4 900000 40 0.9191 0.8744
5 1000000 15 0.9742 0.9549
6 1200000 7 1 1
272

GRAFICO

Interpretación
0,9191 o 91,91 % nos indica la proporción o el porcentaje de individuos que devenga
$900000 o menos.
0,8744 o 87,44 % nos indica la proporción o el porcentaje de la renta total es el
queposee ese 0,9191 o 91,91 % de individuos.

En lenguaje R
..
.

4.4.3. Indice de Gini


Es un gráfico que se utiliza para medir la desigualdad de los ingresos, pero no es su única
función, también es utilizado para medir otras formas de desigualdad, por ejemplo la desigual-
dad en la riqueza. Se encuentra entre 0 y1, donde 0 indica perfecta igualdad(en otras palabra,
todos tienen el mismo ingreso) y 1 indica perfecta desigualdad (en otras palabras, una persona
tiene todos los ingresos y los demás ninguno). El ı́ndice de Gini es presentado como proporción
o como porcentaje.

A 2007 Colombia poseı́a un ı́ndice de Gini de 53,8 %.

El ı́ndice de Gini, notado por G es igual a dos veces el área comprendida entre la curva de
Lorenz y la diagonal. Es posible demostrar que:

49
1
Pn Pn
n(n−1) i=1 j=1 |xi − xj |
G=
2x̄
Si se utiliza la estadı́stica de orden x(1) , x(2) , . . . , x(i),...,x(n) el ı́ndice de Gini puede ser escrito de
la siguiente forma:
· Pn ¸
1 2 i=1 ix(i)
G= − (n + 1)
n−1 nx̄

4.4.4. Indice de Hoover


El ı́ndice de distribución equitativa de Hoover (o ı́ndice de Robin Hood) está definido como
la proporción de ingresos que se necesita para que los individuos que ganan más que el promedio
redistribuyan su ingreso en las personas que ganan menos que el promedio, con el fin que todos
tengan la misma renta. Se define formalmente como:
1
Pn
n i=1 |xi − x̄|
H=
2x̄
Este ı́ndice esta definido entre 0 y 1. Tomará el valor 0 cuando todos los individuos, tienen
los mismos ingresos. Este ı́ndice también se puede relacionar con la curva de Lorenz, ya que
se puede mostrar que corresponde a la mayor distancia vertical entre la curva de Lorenz y la
diagonal.

4.4.5. Relación de proporción de los quantiles y deciles


En primer lugar, definimos:

S10 ingreso promedio de individuos con ingresos inferiores al primer decil x 1 ,


10

S20 ingreso promedio de individuos con ingresos inferiores al primer quintile o según decil
x1 ,
5

S80 ingreso promedio de individuos con ingresos superiores al cuarto quintil u octavo decil
x4 ,
5

S90 ingreso promedio de individuos con ingresos superiores al noveno decil x 9 .


10

La relación de proporción del quintil está definida como:


S80
QSR =
S20
La relación de proporción del decil esta definida como:
S90
DSR =
S10
Estas cantidades son siempre mayores que 1 y se incrementa con la desigualdad. Ambos
valores son fácilmente interpretables, por ejemplo, si el QSR = 5, esto significa que el promedio
del 20 % más rico es 5 veces más grande que el promedio de 20 % más pobre.

50
4.4.6. Índice de pobreza
Un ı́ndice simple de pobreza consiste en calcular el porcentaje de la población que gana menos
que la mitad de la mediana de los ingresos de la población.

4.4.7. Índices por paı́s


La siguiente tabla muestra para todos los paı́ses el ı́ndice de Gini y el informe del 20 % de
−−−−−−−−→
los paı́ses más ricos y el 20 % de los paı́ses más pobres.(Referencia : f altalatabla)

Ejercicios:
..
.

5. Capitulo 5
SERIES TEMPORALES, FILTROS, PROMEDIOS MOVILES Y DESEN-
TRALIZACIÓN

5.1. Definiciones generales y ejemplos


5.1.1. Definiciones

51

También podría gustarte