Libro Esta Descriptiva

Índice
1. CAPITULO1 3
1.1. Definiciones Fundamentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1. La ciencia Estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.2. Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.3. Tipologı́a de las variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.4. Serie Estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2. Variable Cualitativa Nominal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1. Frecuencia absoluta, frecuencia relativa y tabla estadı́stica. . . . . . . . . 4
1.2.2. Diagrama de sectores y diagrama de barras . . . . . . . . . . . . . . . . . 5
1.3. Variable Cualitativa Ordinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.1. La tabla estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.2. Diagrama de sectores y diagrama de barras . . . . . . . . . . . . . . . . . 7
1.3.3. Diagrama de sectores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.4. Diagrama de barras para las cantidades . . . . . . . . . . . . . . . . . . . 7
1.3.5. Diagrama en barras de cantidades acumuladas . . . . . . . . . . . . . . . 7
1.4. Variable cuantitativa discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.2. Diagrama de Palos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.3. Función de distribución . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5. Variable cuantitativa continua . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5.2. Histrograma de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5.3. La función de distribución . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2. CAPITULO 2 12
2.1. Parámetros de posición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.1.1. La moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.1.2. La media (o la media aritmética) . . . . . . . . . . . . . . . . . . . . . . 12
2.1.3. Media geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.4. Media Armónica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1.5. Media ponderada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.6. La mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.7. Cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2. Parámetros de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.1. El rango o recorrido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.2. El rango intercuartilico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.3. La varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.4. La desviación tı́pica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.5. Desviación media absoluta . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.6. Desviación mediana absoluta . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3. Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4. Parámetros de forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4.1. Coeficiente de asimetrı́a de Fisher . . . . . . . . . . . . . . . . . . . . . . 23
2.4.2. Coeficiente de asimetrı́a de Yule . . . . . . . . . . . . . . . . . . . . . . . 24
2.4.3. Coeficiente de asimetrı́a de Pearson . . . . . . . . . . . . . . . . . . . . . 24
1
2.5. Parámetro de aplanamiento(o kurtosis) . . . . . . . . . . . . . . . . . . . . . . . 24
2.6. Cambio de origen y de unidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.7. Media y varianza de dos grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.8. Diagrama de tallos y hojas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.9. Diagrama de caja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3. Estadı́stica descriptiva bivariada 30

3.1. Serie estadı́stica bivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2. Dos variables cuantitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.1. Análisis de las variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2.2. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2.3. Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2.4. Recta de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.5. Residuos y valores ajustados . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2.6. Suma de cuadrados y varianzas . . . . . . . . . . . . . . . . . . . . . . . 35
3.2.7. Descomposición de la varianza . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3. Dos variables cualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.1. Datos observados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.2. Tabla de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.3. Tabla de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.4. Efectos de fila y efectos de columna . . . . . . . . . . . . . . . . . . . . . 40
3.3.5. Efectos teóricos y chi- cuadrado . . . . . . . . . . . . . . . . . . . . . . . 40
4. Capitulo 4 42
4.1. Números ı́ndices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2.1. Propiedades de los indices . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2.2. Índices sintéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2.3. Índice de Laspeyres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.3. Indice de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.3.1. Indice de Sidgwick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.3.2. Índices de cadenas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.4. Medidas de desigualdad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.4.2. Curva de Lorenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.4.3. Indice de Gini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.4.4. Indice de Hoover . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.4.5. Relación de proporción de los quantiles y deciles . . . . . . . . . . . . . . 50
4.4.6. Índice de pobreza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.4.7. Índices por paı́s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5. Capitulo 5 51
5.1. Definiciones generales y ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.1.1. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2
1. CAPITULO 1
Variables, Datos Estadı́sticos, Tablas
1.1. Definiciones Fundamentales

1.1.1. La ciencia Estadı́stica
Es un conjunto de métodos cientı́ficos para el tratamiento de datos cuantitativos y cuali-
tativos
Etimológicamente: es la ciencia de los datos
La estadı́stica es aplicada en múltiples disciplinas como por ejemplo en : Agronomı́a,

Biologı́a, Demografı́a, Economı́a, Sociologı́a, Sicologı́a,. . .
1.1.2. Variables
Existe ciertas unidades medibles, denominadas unidades estadı́sticas o unidades de obser-
vación, por ejemplo: Individuos, Empresas, Gobiernos.
Sobre estas unidades se miden caracterı́sticas o variable
Una cantidad medible, que puede cambiar de un individuo a otro se denomina variable
Los valores posibles de la variable son llamadas modalidades
Al conjunto de todos lo posibles valores de las modalidades se llamará el dominio de la

variable
1.1.3. Tipologı́a de las variables

- Variable cualitativa: una variable será de tipo cualitativo cuando las modalidades son
categorı́as o atributos. Estas se pueden clasificar en dos subgrupos.
Variable cualitativa nominal: la variable será de tipo cualitativo nominal si las modali-
dades no pueden ser ordenadas. Por ejemplo: los colores (Rojo, Verde, Azul,. . . )
Variable cualitativa ordinal: La variable será de tipo cualitativo ordinal si las modalidades
pueden ser ordenadas. El hecho de poder o no ordenar las variables es aún tema de
discusión. Un ejemplo para este tipo de variables son las categorı́as socio-profesionales
(“jefes”, “empleados”, . . . )
- Variable cuantitativa: Una variable será de tipo cuantitativo si los posibles valores posibles
de las modalidades son numéricos. Esta se puede clasificar en dos subgrupos.
Variable cuantitativa discreta: Una variable será de tipo discreto, si lo posibles valores
son enteros (o pertenecen al conjunto Z). Por ejemplo: El número de hijos de una
familia (1,2,3,4,5,. . . )
variable cuantitativa continua: una variable será de tipo continuo, si los posibles valores
pueden tomar cualquier valor en una escala de medidas
3
1.1.4. Serie Estadı́stica
Llamaremos Serie estadı́stica a la continuación de los valores tomados por una variable χ
sobre las unidades de observación. El número de las unidades de observación se denota por n.
Los valores de la variable χ serán denotados como sigue
x1 , x 2 , . . . , x n
Ejemplo 1.1:Nos interesa la variable “estado civil”notada por la letra X a la serie estadı́stica
de valores tomados por la variable X sobre 20 personas.
U : Unión libre
C : Casado
V : Viudo
D : Divorciado
Notamos que el dominio de la variable X es {U, C, V, D}.

La serie estadı́stica es
C C D U U C U U U C
U C V C V D U U U C
Luego, n = 20 y x1 = C, x2 = C, x3 = D, . . . , x19 = U, x20 = C
1.2. Variable Cualitativa Nominal

1.2.1. Frecuencia absoluta, frecuencia relativa y tabla estadı́stica.
Una variable cuantitativa nominal tiene valores distintos que no pueden ser ordenados. No-
tamos j al número de valores distintos de las modalidades. Los valores distintos son notados por
x1 , . . . , xj , . . . , xJ . Notaremos nj a la cantidad de la modalidad xj , esta cantidad es conocida
como la frecuencia absoluta. La frecuencia relativa de una modalidad es la cantidad obtenida al
dividir la cantidad nj asociada a la modalidad xj , en el número o cantidad total de observaciones
n. Esta se denotará, por fj y se obtiene bajo la siguiente ecuación
nj
fj = , j = 1, 2, . . . , J
n
A la presentación de estos datos se le conoce como tabla estadı́stica.
Ejemplo 1.2: Retomando los datos del ejemplo 1, la tabla estadı́stica serı́a la siguiente:
4
xj nj fj
U 9 0.45
C 7 0.35
V 2 0.10
D 2 0.10
n=20 1
En lenguaje R
X=c(’Casado(a)’,’Casado(a)’,’Divorciado(a)’,’Soltero(a)’,’Soltero(a)’,
’Soltero(a)’,’Soltero(a)’,’Soltero(a)’,’Casado(a)’,’Soltero(a)’,’Soltero(a)’,’Casado(a)’,
’Casado(a)’,’Viudo(a)’, ’Casado(a)’,’Viudo(a)’,’Divorciado(a)’,’Soltero(a)’,’Soltero(a)’,’Casado(a)’)
T1=table(X)
V1=c(T1)
data.frame(Eff=V1,Freq=V1/sum(V1))
1.2.2. Diagrama de sectores y diagrama de barras

La tabla estadı́stica, se puede representar por un diagrama de barras o un diagrama de sec-
tores (o también conocidos como diagrama de pastel para su traducción en inglés)
GRAFICO FALTA
En lenguaje R
barplot(T1)
En lenguaje R
pie(T1,radius=1.0)
1.3. Variable Cualitativa Ordinal

1.3.1. La tabla estadı́stica
Los valores distintos de una variable ordinal pueden ser ordenados como sigue,
x1 < x2 < . . . < xj−1 < xj < . . . < xn−1 < xn
La notación xj−1 < xj se leerá como xj−1 es menor que xj .
Si la variable es de tipo ordinal, podemos calcular las cantidades acumuladas, se procederá de
la siguiente forma
j
X
Nj nk
k=1
5
xj nj Nj fj Fj
Sd 4 4 0.08 0.08
P 11 15 0.22 0.30
Se 14 29 0.28 0.58
Su 9 38 0.18 0.76
U 12 50 0.24 1.00
50 1.00
Donde N1 = n1 y NJ = n. También se puede calcular las frecuencias acumuladas, para ello

se procederá de la siguiente forma
j
Nj X
Fj = = fk
n k=1
Ejemplo 1.3:
Sobre los datos obtenidos al encuestar a 50 personas y preguntar sobre el último titulo educativo
obtenido (variable y). Se debe obtener
1. Codificación
2. Presentar la serie estadı́stica
3. Presentar la tabla estadı́stica
1. Tabla 1.1: Codificación de la variable Y
Sin titulo .................................... Sd

Primaria....................................... P
Secundaria..................................... Se
Superior no - universitaria.................... Su
Universitaria.................................. U
2. Serie estadı́stica
Sd Sd Sd Sd P P P P P P P P P P P Se Se
Se Se Se Se Se Se Se Se Se Se Se Se Su Su Su Su Su
Su Su Su Su U U U U U U U U U U U U
3. Tabla estadı́stica
En lenguaje R
YY=c(“Sd”,“Sd”,“Sd”,“Sd”,“P”,“P”,“P”,“P”,“P”,“P”,“P”,“P”,“P”,“P”,“P”,
“Se”,“Se”,“Se”,“Se”,“Se”,“Se”,“Se”,“Se”,“Se”,“Se”,“Se”,“Se”,“Se”,“Se”,
6
“Su”,“Su”,“Su”,“Su”,“Su”,“Su”,“Su”,“Su”,“Su”,“U”,“U”,“U”,“U”,“U”,“U”,
“U”,“U”,“U”,“U”,“U”,“U”)
YF=factor(YY,levels=c(“Sd”,“P”,“Se”,“Su”,“U”))
T2=table(YF)
V2=c(T2)
data.frame(Eff=V2,EffCum=cumsum(V2),Freq=V2/sum(V2),
FreqCum=cumsum(V2/sum(V2)))
1.3.2. Diagrama de sectores y diagrama de barras

La lectura de la tabla estadı́stica se puede facilitar al utilizar gráficas que presentan los
resultados obtenidos. En muchas ocasiones se utilizan los diagramas de barras y los diagramas
de sectores (o también conocidos como diagrama de pastel para su traducción en inglés)
1.3.3. Diagrama de sectores

Las frecuencias de una variable cualitativa son representadas mediante un diagrama de sec-
tores (Ver figura con datos del ejemplo 3)
Figura
En leguaje R
pie(T2,radius=1.0)
1.3.4. Diagrama de barras para las cantidades

Las cantidades de una variable cualitativa son representadas mediante un diagrama de bar-
ras ( ver figura con datos del ejemplo 3)
Figura
En leguaje R
barplot(T2)
1.3.5. Diagrama en barras de cantidades acumuladas

Las cantidades acumuladas de una variable cualitativa se pueden representar mediante un
diagrama de barras (ver figura con datos del ejemplo 3)
Figura
En leguaje R
T3=cumsum(T2)
barplot(T3)
7
1.4. Variable cuantitativa discreta
Una variable discreta tiene un dominio numerable.
Ejemplo 1.5:
Una muestra compuesta de 50 hogares a los cuales se les pregunta por el número de personas
en el hogar, arrojo los siguientes resultados (en este caso la variable Z representará el número
de personas por hogar)
1 1 1 1 1 2 2 2 2 2
2 2 2 2 2 3 3 3 3 3
3 3 3 3 3 3 3 3 3 4
4 4 4 4 4 4 4 4 4 5
5 5 5 5 5 6 6 6 8 8
Al igual que en la variable cualitativa ordinal, se calcularán las cantidades, las cantidades
acumuladas (o frecuencias absolutas y frecuencias absolutas acumuladas), las frecuencias rela-
tivas y frecuencias relativas acumuladas.
Al construir la tabla estadı́stica tenemos

xj nj Nj fj Fj
1 5 5 0.10 0.10
2 9 14 0.18 0.28
3 15 29 0.30 0.58
4 10 39 0.20 0.78
5 6 45 0.12 0.90
6 3 48 0.06 0.96
8 2 50 0.04 1.00
50 1.00
En leguaje R
Z=c(1,1,1,1,1,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,
3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,4,5,5,5,5,5,5,6,6,6,8,8)
T4=table(Z)
T4c=c(T4)
data.frame(Eff=T4c,EffCum=cumsum(T4c),Freq=T4c/sum(T4c),
FreqCum=cumsum(T4c/sum(T4c)))
1.4.2. Diagrama de Palos

Cuando la variable es dicreta, las cantidades se representan por ”Palos”.
En leguaje R
plot(T4,type=“h”,xlab=“”,ylab=“”,main=“”,frame=0,lwd=3)
8
1.4.3. Función de distribución
Las frecuencias relativas acumuladas son representadas por la función de distribución. Está fun-
ción, se representa como en la figura y estará definida del conjunto de los reales (R) al intervalo
cerrado [0,1] de la siguiente forma


0 x < x1
F (x) = Fj xj ≤ x


1 xJ ≤ x
Utilizando los datos del ejemplo 1.5, tenemos
En leguaje R
plot(ecdf(Z),xlab=“”,ylab=“”,main=“”,frame=0)
1.5. Variable cuantitativa continua

Una variable cuantitativa continua puede tener infinitos valores posibles. El dominio de es-
tas variables será el conjunto de los reales (R) o un intervalo de los reales. En la práctica,
una medida está limitada en precisión, por ejemplo, el tamaño de una medida en centı́metros
o milı́metros. Entonces, podrı́amos tratar las variables continuas como discretas. Sin embargo,
es a menudo interesante proceder con un reagrupamiento en clases con el fin de realizar repre-
sentaciones gráficas. Además, las mediciones numéricas se prestan para realizar clasificaciones
múltiples, dado que los limites de las clases pueden definirse de manera precisa y conveniente
para valores determinados de la variable. Los valores de la variable que se elija para delimitar las
clases deberán ser sucesivas, por comodidad, equidistantes, tal que las cantidades de diferentes
clases pueden ser comparables. Los diferentes intervalos recibirán el nombre de intervalos de
clase y la frecuencia correspondiente se llamará frecuencia de clases
Ejemplo 1.6: Al medir la estatura de 50 estudiantes de una clase se obtuvieron los siguientes
resultados
152 152 152 153 153

154 154 154 155 155
156 156 156 156 156
157 157 157 158 158
159 159 160 160 160
160 160 160 161 162
162 162 163 164 164
164 164 165 166 167
168 168 168 169 169
170 171 171 171 171
9
Podemos definir las siguientes clases promedio de los siguientes intervalos
[151, 5; 155, 5]
[155, 5; 159, 5]
[159, 5; 163, 5]
[163, 5; 167, 5]
[167, 5; 171, 5]
(Cj− , Cj+ ) nj Nj fj Fj
(151.5;155.5) 10 10 0.20 0.20
(155.5;159.5) 12 22 0.24 0.44
(159.5;163.5) 11 33 0.22 0.66
(163.5;167.5) 7 40 0.14 0.80
(167.5;171.5) 10 50 0.20 1.00
50 1.00
La tabla que reagrupa a las clases a menudo se denomina distribución consolidada. La

notación utilizada es:
Cj : es el centro de las clasej

Cj− : es el limite inferior de la clase j
Cj+ : es el limite superior de la clasesj
nj : la cantidad de la clase j o la frecuencia absoluta acumulada de la clasej
Nj : la cantidad acumulada de la clase j ola frecuencia absoluta acumulada de la clasej
fj : es la frecuencia relativa de la clase j
Fj : es la frecuencia relativa acumulada de la clasej
Una forma de resumir la tabla anterior, y con el fin de proponer un método para la construc-
ción de tablas estadı́sticas para variables cuantitativas continuas, estará dado por los siguientes
pasos:
1. El primer paso, consistirá en fijar la amplitud del intervalo de clase. En el ejemplo anterior
se eligio como amplitud de los intervalos 4 unidades.
2. El segundo paso consistirá en determinar la posición u origen de los intervalos; por ejemplo,
en la tabla anterior se podı́a elegir [151; 155] o [151, 5; 155, 5].
3. El tercer paso consistirá en clasificar las observaciones en los diferentes intervalos.
4. El cuarto paso consistirá en la formación de la tabla estadı́stica tal como fue presentada
Nota: La posición o el punto de origen de los intervalos es en general, una cuestión casi
indiferente. En consecuencia,podrá elegirse de la forma más conveniente de acuerdo al caso que
se este estudiando.
En leguaje R
10
S=c(152,152,152,153,153,154,154,154,155,155,156,156,156,156,156,157,
157,157,158,158,159,159,160,160,160,161,160,160,161,162,162,162,163,164,164,
164,164,165,166,167,168,168,168,169,169,170,171,171,171,171)
T5=table(cut(S, breaks=c(151,155,159,163,167,171)))
T5c=c(T5)
data.frame(Eff=T5c,EffCum=cumsum(T5c),Freq=T5c/sum(T5c),
FreqCum=cumsum(T5c/sum(T5c)))
1.5.2. Histrograma de frecuencias

El histograma consiste en un diagrama que reúne las cantidades o frecuencias de las clases
por rectángulos cuya superficie (no la altura) representa la cantidad o frecuencia.
La altura hj del rectángulo correspondiente a la clase j está dada por

nj
hj =
c+
j − Cj−
En leguaje R
hist(S,breaks=c(151.5,155.5,159.5,163.5,167.5,171.5), xlab=“”,ylab=“”,main=“”,xaxt = “n”)

axis(1, c(151.5,155.5,159.5,163.5,167.5,171.5))
hist(S,breaks=c(151.5,155.5,159.5,163.5,171.5), xlab=“”,ylab=“”,main=“”,xaxt = “n”)
axis(1, c(151.5,155.5,159.5,163.5,171.5))
1.5.3. La función de distribución

La función de distribución F (x) es una función que va del conjunto de los reales (R) al
intervalo cerrado [1, 1] ,la cual está definida por

 x < Cj−
0

fj − +
F (x) = Fj−1 + C + C − (x − Cj ) Cj ≤ x < cj

 j j
1 C+ ≤ x
j
En leguaje R
y=c(0,0,cumsum(T5c/sum(T5c)),1)
x=c(148,151.5,155.5,159.5,163.5,167.5,171.5,175)
plot(x,y,type=”b”,xlab=,ylab=,xaxt = ”n”)
axis(1, c(151.5,155.5,159.5,163.5,167.5,171.5))
11
2. CAPITULO 2
ESTADISTICA DESCRIPTIVA UNIVARIADA
2.1. Parámetros de posición

2.1.1. La moda
La moda es el valor distinto correspondiente a la frecuencia que más se repite. Se denotará por
xM retomando la tabla del ejemplo 1, tenemos
xj nj fj
U 9 0.45
C 7 0.35
Y 2 0.10
D 2 0.10
20 1.00
La moda es U:Unión libre
Nota:
- La moda se calcula tanto en variables cualitativas como cuantitativas.
- La moda no necesariamente es única
- Cuando la variable continua se encuentra en clases, se define la clase modal. (Clases corre-
spondiente a la mayor frecuencia)
2.1.2. La media (o la media aritmética)

La media está definida para variables cuantitativas. La media es la suma de los valores
observados (x1 , . . . , xn ) dividido por el total de ellos; se denota por x̄ y se calcula por la siguiente
expresión
n
x1 + x2 + x3 + . . . + xn 1X
x̄ = = xi
n n i=1
La media también se puede obtener para datos agrupados y se calcula por la siguiente
expresión
J
1X
x̄ = nj xj
n j=1
donde:
J : Número de clases
nj : es la cantidad de datos en la clasej
xj : es el centro d la clase
Nota:
12
- La media deberá utilizar todas las observaciones obtenidas. En caso contrario, no reflejará en
realidad una caracterı́stica de la población
- Existen 3 formas de promedios usados en la mayorı́a de los casos. La moda, la media geométrica
y la mediana. Sin embargo a ellos se añaden la media geométrica, media armónica y la
media ponderada, de menor uso pero de utilidad en cierto casos
Ejemplo 2.1: Se registro el número de niños en 8 familias. Los resultados para datos
agrupados y no agrupados fueron los siguientes:
0, 0, 1, 1, 1, 2, 3, 4
0+0+1+1+1+2+3+4
x̄ = = 1,5
8
xj nj
0 2
1 3
2 1
3 1
4 1
8
(2 ∗ 0) + (3 ∗ 1) + (1 ∗ 2) + (1 ∗ 3) + (1 ∗ 4)
x̄ = = 1,5
8
En leguaje R
E=c(0,0,1,1,1,2,3,4)
n=length(E)
xb=sum(E)/n
xb
xb=mean(E)
xb
Nota:
Algunas propiedades útiles para la sumatoria
Definición: n
X
xi = x1 + x2 + . . . + xn
i=1
1. En estadı́stica xi son valores observados
2. n n
X X
xi = xj
i=1 j=1
13
Pn P
3. Otra forma de denotar i=1 xi es i xi
4. Se deben utilizar letras diferentes si se trabaja con doble sumatoria
X 2
3 X 3
X
xij = (xi1 + xi2 )
i=1 j=1 i=1
= x11 + x12 (i = 1)
+ x21 + x22 (i = 2)
+ x31 + x32 (i = 3)
5. Se pueden excluir valores de una sumatoria de la siguiente formas

5
X
xi = x1 + x2 + x4 + x5
i=1i6=3
Propiedades de la sumatoria
1. La suma de una constante es
Xn
a=a {z. . . + a} n − veces = na(aconstante)
|+a+
i=1
Ejemplo
5
X
2 = 2 + 2 + 2 + 2 + 2 = 5 ∗ 2 = 10
i=1
2. Sea a una constante, entonces

n
X n
X
axi = a xi
i=1 i=1
Ejemplo
6
X 6
X
3i = 3 i = 3(0 + 1 + 2 + 3 + 4 + 5 + 6) = 3 ∗ 21 = 63
i=0 i=0
3. La suma de los n primeros enteros es

n
X n(n + 1)
i = 1 + 2 + ... + n =
i=1
2
4. Distribución
n
X n
X n
X
(xi + yi ) = xi + yi
i=1 i=1 i=1
Xn Xn Xn
(xi − yi ) = xi − yi
i=1 i=1 i=1
1
Pn
Ejemplo(recuerde x̄ = n i=1 xi )
Xn Xn Xn n
1X
(xi − x̄) = xi − x̄ = n xi − nx̄ = nx̄ − nx̄ = 0
i=1 i=1 i=1
n i=1
14
5. Suma de cuadrados
n
X X
(xi − yi )2 = (x2i − 2xi yi + yi2 )
i=1 i=1
n
X n
X n
X
= x2i −2 xi yi + yi2
i=1 i=1 i=1
2.1.3. Media geométrica

Si xi ≥ 0 se llamará m,edia geométrica a la cantidad
n
Y 1 1
G=( xi ) n = (x∗ x2 ∗ . . . ∗ xn ) n
i=1
Otra forma para la expresión de la media geométrica es

1 Pn
log xi
G = en i=1
Una de las aplicaciones de la media geométrica es en el campo financiero, por ejemplo, si se

quisiera calcular la media de un tipo de interés.
Ejemplo 2.2:
Supongamos que los interese durante 4 años consecutivos son 5,10,15 y 10 % respectivamente
cuanto voy a obtener después de 4 años si coloco 100 pesos
Año 1 → 100*1.05 = 105 pesos

Año 2 → 100*1.05*1.1 = 115.5 pesos
Año 3 → 100*1.05*1.1*1.5 = 132.825 pesos
Año 4 → 100*1.05*1.1*1.5*1.1 = 146.1075 pesos
Si calculamos la media aritmética de las tasas de interés obtendrı́amos
1,05 + 1,1 + 1,5 + 1,1
x̄ = = 1,1
4
Si calculamos la media geométrica de las tasas de interés obtendremos
4
Y 1 1
G=( xi ) 4 = (1,05 ∗ 1,1 ∗ 1,5 ∗ 1,1) 4 = 1,0994
i=1
La media geométrica es la media correcta para las tasas de interés sobre la media aritmética
por que si se aplica 4 veces el promedio. G a 100 pesos se obtiene
100 ∗ G4 = 100 ∗ (1,0994)4 = 1,46107

En leguaje R
a = c(10, 2, 19, 24, 6, 23, 47, 24, 54, 77)

n = length(a)
G = prod(a)( 1/n)
G
15
2.1.4. Media Armónica
Si xi > 0 se llamará a la cantidad
n
H = Pn 1
i=1 xi
Otra forma para la expresión de la media armónica es
n
1 1X 1
=
H n i=1 xi
Una de las aplicaciones de la media armónica es en datos que recojan velocidades.
Ejemplo 2.3:
Un ciclista realiza 4 etapas de 100 km. Las velocidades respectivas por cada etapa son:
10km/h, 30km/h, 40km/h, 20km/h. ¿cual es la velocidad promedio?
1. En un racionamiento simple:
Primera etapa le toma un tiempo de 10 h
Segunda etapa toma un tiempo de 3h 20 m
Tercera etapa toma un tiempo de 2h 30 m
Cuarta etapa toma un tiempo de 5 h
En 400 km la velocidad promedio será

10 + 3h20m + 2h30m + 5h = 20h50m = 20,83h
400km
M edia = = 19,2km/h
20,83h
2. Si se aplica la media aritmética
10 + 30 + 40 + 20
x̄ = = 25km/h
4
3. Si se calcula media armónica
4
H= 1 1 1 1 = 19,2km/h
10
+ 30
+ 40
+ 20
Lo que implica que la media armónica es la más adecuada
En leguaje R
a = c(10, 2, 19, 24, 6, 23, 47, 24, 54, 77)

H = 1/mean(1/a)
H
Nota: Es posible mostrar que la media armónica es menor o igual que la media geométrica
y a su vez menor o igual que la media aritmética
H ≤ G ≤ x̄
16
2.1.5. Media ponderada
En algunos casos, no se da la misma importancia a todas las observaciones. Si wi > 0, i =
1, 2, . . . , n son los pesos asociados a cada observación, entonces la media ponderada por wi
estará definida por
Pn
w i xi
x̄w = Pi=1
n
i=1 wi
Ejemplo 2.4: Supongamos que las notas son ponderadas por el número de créditos. las
notas de un alumno son las siguientes
Notas(xi ) 5 4 3 6 5
Créditos (Wi ) 6 3 4 3 4
La media ponderada de las notas por los créditos será
(6 ∗ 5) + (3 ∗ 4) + (4 ∗ 3) + (3 ∗ 6) + (4 ∗ 5)
x̄w = = 4,6
6+3+4+3+4
2.1.6. La mediana
La mediana notada por x 1 , es un valor central de la serie estadı́stica cuando los valores estan
2
ordenados. La expresión para su calculo se dividirá cuando n es par y cuando n es impar
Cuando n es un número par, entonces es el valor que ocupa la posición correspondiente

a la media aritmética de las observaciones centrales. Se tomarán las posiciones n2 y n2 + 1
entónces la mediana será
x n2 + x n2 +1
Me =
2
Cuando n es un número impar, entonces la mediana será el valor que ocupa la posición
(n+1)
2
, donde
M e = x n+1
2
Por ejemplo si tenemos 2 series estadı́sticas, cual serı́a la mediana en cada una de ellas
a. 0 1 7 9 9 10
n=6
n
2
= 3 y n2 + 1 = 4 → son las posiciones, luego
x n2 = 7 y x n2 +1 =9
Me = 7+92
=8
b. 0 0 1 2 3 3 4
n=7
n+1
2
= 7+1
2
= 4 → (es la posición 4, luego)
Me = x4 = 2
17
Nota:
- La mediana está definida como la inversa de la función de distribución calculada en el valor
( 12 )
x 1 = F −1 (0,5)
2
En lenguaje R
..
.
FALTA
Nota: La mediana se puede calcular tanto en variables cuantitativas como de variables
cualitativas ordinales.
2.1.7. Cuantiles
La noción de cuantil de orden P (o < p < 1) generaliza la media. Formalmente un cuantil
está dado por la función inversa de la función de distribución
xp = F [−1(p)]
Si la función de distribución es continua y estrictamente, la definición de cuantiles es in-
equı́voca. Si la función es discontinua y ”por partes”. Cuando la función de distribución es por
partes, hay al menos a formas diferentes de definir los cuantiles en función de si hacerlo o no de
una interpolación de la función de distribución. Se presentará únicamente uno de estos méto-
dos. pero no habrá sorpresa si los valores de los cuantiles difieren ligeramente de los resultados
presentados por diferentes software.
Ahora consideramos 2 casos:

- Si np es un número entero
1
xp = {x(np) + x(np+1) }
2
- Si np no es un número entero
xp = xdnpe
Donde dnpe representa el número entero superior o igual a np.
Nota:
1
- Mediana se obtiene con el cuantil de orden p = 2
- Análogamente se pueden obtener los percentiles, deciles y cuartiles con la siguiente analogı́a
x 1 → Primer cuartil
4
x 3 → Tercer cuartil
4
x 1 → Primer decil
10
x 7 → septimo decil
10
x 4 → Cuarto decil
5
x0,95 → El noventa y cinco percentil
18
Ejemplo2.5:
Sea la serie estadı́stica 12, 13, 15, 16, 18, 19, 22, 24, 25, 27, 28, 34 que contiene 12 observaciones
(n = 12).
- El primer cuartil será obtenido como sigue

µ ¶
1
np = 12 ∗ = 3 entonces np es entero
4
Luego
1 1
x 1 = {x(6) + x(7) } = {19 + 22} = 20,5
4 2 2
µ ¶
- Para el cuartil 3 se tiene que np = 12 ∗ 34 = 9 entonces np es entero, luego
1 1
x 3 = {x(9) + x(10) } = {25 + 27} = 26
4 2 2
En leguaje R
y = c(12, 13, 15, 16, 18, 19, 22, 24, 25, 27, 28, 34)
quantile(y, type = 2)
ejemplo2.6:
Sea la serie estadı́stica 12, 13, 15, 16, 18, 19, 22, 24, 25, 27 que contiene 10 observaciones (n =
10)
- El primer cuartil será obtenido de la siguiente manera: np = (10 ∗ 14 ) = 2,5, siendo un número
no entero, entonces
x 1 = x(d2,5e) = x(3) = 15
4
- La mediana será obtenida de la siguiente manera: np = (10 ∗ 21 ) = 5 siendo un número entero,

entonces
1 1
x 1 = {x(5) + x(6) } = {18 + 19} = 18,5
2 2 2
- El tercer cuartil será obtenido de la siguiente manera: np = (10 ∗ 34 ) = 7,5, siendo un número
no entero, entonces
x 3 = x(d7,5e) = x(8) = 24
4
En leguaje R
x = c(112, 113, 115, 116, 118, 119, 122, 124, 125, 127, 152, 152, 152, 153, 153, 154, 154, 154, 155, 155, 156, 156
quantile(x, probs = c(10, 20, 30, 40, 50, 60, 70, 80, 90, 100, N A)/100)
quantile(x, probs = c(7, 14, 22, 36, 44, 59, 88, 91, N A)/100)
19
2.2. Parámetros de dispersión
2.2.1. El rango o recorrido
Es la medida más sencilla de dispersión simplemente es la diferencia entre el valor más
grande de los datos y el menor valor de los datos. Su mayor aplicación en la estadı́stica esta en
el campo del control de calidad, dada su maniobrabilidad aritmética. Lo denotamos por la letra
R y su fórmula algebraica será la siguiente:
R = x(n) − x(1)
2.2.2. El rango intercuartilico

Básicamente es la diferencia entre el tercer cuartil y el primer cuartil. Lo denotaremos por
las letras RI y su fórmula algebraica será la siguiente
RI = x 3 − x 1
4 4
2.2.3. La varianza
La varianza es la suma de todas las desviaciones de las observaciones respecto a la media
dividido por el total de observaciones
n
1X
Sx2 = (xi − x̄)2
n i=1
Teorema: La varianza puede ser escrita como
n
1X 2
Sx2 = x − x̄2
n i=1 i
Demostrar:
n
1X
Sx2 = (xi − x̄)2
n i=1
n
1X 2
= (x − 2xi x̄ + x̄2 )
n i=1 i
· n n n ¸
1 X 2 X X
2
= x − 2x̄ xi + x̄
n i=1 i i=2 i=1
n n n
1X 2 1X 1X 2
= xi − 2x̄ xi + x̄
n i=1 n i=1 n i=1
n
1X 2 1
= xi − 2x̄x̄ + (nx̄2 )
n i=1 n
n
1X 2
= xi − x̄2
n i=1
20
La varianza puede ser prolongada a partir de las frecuencias de valores distintos como:
J
1X
Sx2 = nj (xj − x̄)2
n j=1
La cual puede ser reescrita como:

J
1X
Sx2 = nj xj − x̄2
n j=1
La demostración queda a cargo del lector.
Nota:
Cuando se quiere estimar la varianza de una variable a partir de una muestra tomada de
una población al azar se trabaja con la varianza çorregida”.
n
1 X n
Sx2 = (xi − x̄)2 = Sx2 ∗
n − 1 i=1 n−1
2.2.4. La desviación tı́pica

Es la raiz cuadrada de la varianza y la varianza corregida.
p
Sx = Sx2
p
Sx = Sx2
r
n
= Sx
n−1
Ejemplo 2.7:
Sea la serie estadı́stica 2, 3, 4, 4, 5, 6, 7, 9 entonces n = 8
2+3+4+4+5+6+7+8
x̄ = =5
8
8
2 1X
Sx = (xi − 5)2
8 i=1
1
= [(2 − 5)2 + (3 − 5)2 + (4 − 5)2 + (4 − 5)2 + (5 − 5)2 + (6 − 5)2 + (7 − 5)2 + (8 − 5)2 ]
8
= 4,5
Ahora
21
8
1X 2
Sx2 = X − (5)2
8 I=1 I
1
= [22 + 32 + 42 + 42 + 52 + 62 + 72 + 92 ] − (5)2
8
= 29,5 − 25 = 4,5
En leguaje R
Ejemplo Rango, Varianza y Desviación Estándar

x = c(2, 3, 4, 4, 5, 6, 7, 9)
E = max(x) − min(x)
E
n = length(x)
s2 = sum((x − mean(x))2 )/n
s2
s = sqrt(s2)
s
S2 = s2 ∗ n/(n − 1)
S2
S = sqrt(S2)
S
S2 = var(x)
S2
S = sd(x)
S
2.2.5. Desviación media absoluta

Es la suma de los valores absolutos de las desviaciones medias dividido por el total de
observaciones. La notación será Dmda
n
1X
Dmda = |xi − x̄|
n i=1
En leguaje R
fALTA
2.2.6. Desviación mediana absoluta

Es la suma de los valores absolutos de las desviaciones medianas dividido por el total de
observaciones. La notación será Dmeda
22
n
1X
Dmeda = |xi − x 1 |
n i=1 2
2.3. Momentos
Definición:
Se llama momento al origen de orden r ² N al parámetro

n
1X
mr = (xi − x̄)r
n i=1
Los momentos generalizan la mayorı́a de los parámetros. Como un caso particular tenemos
0
- m1 = x̄
- m1 = 0
0 1
Pn
- m2 = n i=1 x2i = s2x + x̄2
- m2 = Sx2
- Si r = 3 entonces m3 nos habla de la simetrı́a
En leguaje R
x = c(112, 113, 115, 116, 118, 119, 122, 124, 125, 127, 152, 152, 152, 153, 153, 154, 154, 154, 155, 155, 156, 156
mad(x)X
2.4. Parámetros de forma

2.4.1. Coeficiente de asimetrı́a de Fisher
El momento centrado de orden 3 está definido por
n
1X
m3 = (xi − x̄)3
n i=1
m3 puede tomar valores positivos o negativos. La asimetrı́a se mide con el coeficiente de
asimetrı́a de Fisher
m3
g1 =
s3x
Donde s3x es el cubo de la desviación tı́pica.
En leguaje R
x = c(112, 113, 115, 116, 118, 119, 122, 124, 125, 127, 152, 152, 152, 153, 153, 154, 154, 154, 155, 155)F skewn
−f unction(x)m3 < −mean((x − mean(x))3 )F isher < −m3/(sd(x)3 )F isherF skewness(x)
23
2.4.2. Coeficiente de asimetrı́a de Yule
El coeficiente de asimetrı́a de Yule se basa en la posición de los 3 cuartiles, y se normaliza
por la distancia intercuartilica:
x 3 + x 1 − 2x 1
Ay = 4 4 2
x3 − x1
4 4
En leguaje R
y = c(112, 113, 115, 116, 118, 119, 122, 124, 125, 127, 152, 152, 152, 153, 153, 154, 154, 154, 155, 155)Y ulesk
−f unction(Y )x25 < −as.double(quantile(x, prob = 0,25))x75 < −as.double(quantile(x, prob = 0,75))yule
2.4.3. Coeficiente de asimetrı́a de Pearson

Este coeficiente se basa en la comparación de la media y la moda
x̄ − xM
Ap =
Sx
Nota:
Todos los coeficientes de asimetrı́a cumplen las mismas propiedades
- Si el coeficiente es nulo (o 0) la distribución es simétrica.
- Si el coeficiente es negativo la distribución esta alargada a la izquierda.
- Si el coeficiente es positivo la distribución esta alargada a la derecha.
GRAFICAS
Asimetrı́a de una distribución
Nota:
Algunas variables son muy sesgadas a la derecha como es el caso de los ingresos de una persona,
o el tamano de las empresas. Una forma simple para que la variable sea más simétrica es aplicar
la función logaritmo natural a la variable.
En leguaje R
p = c(112, 113, 115, 116, 118, 119, 122, 124, 125, 127, 152, 152, 152, 153, 153, 154, 154, 154, 155, 155)P earso
−f unction(P )xb < −mean(p)M < −median(p)P earson < −(xb − M )/(sd(p))P earsonP earsonkewness(
2.5. Parámetro de aplanamiento(o kurtosis)

El aplanamiento o la kurtosis se mide por el coeficiente de Pearosn denotado por β2 , donde
m4
β2 =
Sx4
24
También se usa el coeficiente de aplanamiento o kurtosis basado en el coeficiente de Pearson
denotado por g2 , donde
m4
g 2 = β2 − 3 = −3
Sx4
Donde m4 es el momento centrado de orden 4, y Sx4 es la varianza al cuadrado.
La interpretación del coeficiente es la siguiente:
- Si una curva es mesocurtica el coeficiente g2 ≈ 0. Graf ejemplo.
- Si una curva es leptocurtica el coeficiente g2 > 0. La curva será má aguda y de colas mas
largas. Graf ejemplo.
- Si una curva es platicurtica el coeficiente g2 < 0. La curva será más redonda y de colas mas
cortas. Graf. ejemplo.
En leguaje R
k = c(112, 113, 115, 116, 118, 119, 122, 124, 125, 127, 152, 152, 152, 153, 153, 154, 154, 154, 155, 155)kurtosi
−f unction(k)m4 < −mean((k − mean(k))4 )kurt < −m4/(sd(k)4 ) − 3kurtkurtosis(k)
2.6. Cambio de origen y de unidad

Dada una variable x, que contiene x1 , . . . , xn observaciones.
Definición: Se llama cambio de origen a la operación que consiste en agregar (o sustraer)

la misma cantidad a ² R a todas las observaciones
yi = a + xi , i = 1, 2, . . . , n
Definición: Se llama cambio de unidad a la operación que consiste en multiplicar (o dividir)
por la misma cantidad b ² R a todas las observaciones
yi = bxi
Definición:Se llama cambio de origen y unidad a la operación que consiste en multiplicar
todas las observaciones por la misma cantidad b ² R y sumar (o restar)la misma cantidad a ² R
yi = a + bxi , i = 1, 2, . . . , n
Teorema
Si se efectúa un cambio de origen y de unidad sobre una variable x, la media se ve afectada por
el cambio de origen y unidad.
Dem: / Si yi = a + bxi , entonces
25
n
1X
ȳ = yi
n i=1
n
1X
= (a + bxi )
n i=1
· n n ¸
1 X X
= a+ bxi
n i=1 i=1
n n
1X 1X
= a+b xi
n i=1 n i=1
1
= (na) + bx̄
n
= a + bx̄
Teorema:
Si se efectua un cambio de origen y de unidad sobre una variable x, la varianza se ve afectada

por el cambio de unidad pero por el cambio de origen.
Dem: / Si yi = a + bxi , entonces
n
1X
Sy2 = (yi − ȳ)2
n i=1
n
1X
= (a + bxi − (a + bx̄))2
n i=1
n
1X
= (bxi − bx̄)2
n i=1
n
X
21
=b (xi − x̄)2
n i=1
2
=b Sx2
Nota:
1. Los parámetros de posición son todos afectados por un cambio de origen y de unidad
2. Los parámetros de dispersión son todos afectados por un cambio de unidad pero no por
un cambio de origen
3. Los parámetros de forma y aplanamiento no son afectados ni por cambio de unidad ni por
cambio de origen
2.7. Media y varianza de dos grupos

Supongamos que las n observaciones son divididas en dos grupos GA y GB . Las nA primeras
observaciones pertenecen al grupo GA y las nB observaciones restantes pertenecen, al grupo GB ,
teniendo en cuenta la relación
26
nA + nB = n
Suponagamos que la serie estadı́stica contiene las unidades de GA más las unidades de GB :
x1 , x2 , . . . , xnA −1 , xnA observaciones del GA , xnA +1 , xnA +2 , xn−1 , xn observaciones de GB

| {z } | {z }
Ahora se definen las medias de los grupos:

1
PnA
La media del primer grupo x̄A = nA i=1 xi
1
Pn
La media del segundo grupo x̄B = nB i=nA +1 xi
La media general es una media ponderada por el total de los grupos de las medias de cada
grupo.
µ nA n ¶
1 X X 1
x̄ = xi + xi = (nA x̄A + nB x̄B )
n i=1 i=n +1
n
A
También se pueden definir las varianzas de los dos grupos

1
PnA
La varianza del primer grupo SA2 = nA i=1 (xi − x̄A )2
Teorema(ed Huygens)
La varianza total, definida por:

n
1X
Sx2 = (xi − x̄)2
n i=1
Se puede descomponer de la siguiente forma:
nA SA2 + nB SB2 nA (x̄A − x̄)2 + nB (x̄B − x̄)2

Sx2 = varianza intra-grupos + varianza entre- grupos
| n
{z } | n
{z }
Dem/
n
2 1X
SX = (xi − x̄)2
n i=1
· nA n ¸
1 X 2
X
= (xi − x̄) + (xi − x̄)
n i=1 i=n +1 A
Se trabajaran las dos sumatorias por separado. Notemos que
27
nA
X nA
X
2
(xi − x̄) = (xi − x̄A + x̄A − x̄)2
i=1 i=1
nA
X
= ((xi − x̄A ) + (x̄A − x̄))2
i=1
nA
X nA
X nA
X
2 2
= (xI − x̄A ) + (x̄A − x̄) + 2 (xi − x̄A )(x̄A − x̄) = 0
i=1 i=1 i=1
| {z }
= nA SA” + nA (x̄A − x̄) 2
De forma análoga para la segunda sumatoria que tenemos:

X
(xi − x̄)2 = nB SB2 + nB (x̄B − x̄)2
i=nA +1
Al reemplazar en la expresión original tenemos:
· nA n ¸
1 X X
Sx2 = 2
(xi − x̄) + (xi − x̄)2
n i=1 i=n +1 A
1
= [nA SA2 + nA (x̄A − x̄)2 + nB SB2 + nB (x̄B − x̄)2 ]
n
nA SA2 + nB SB2 nA (x̄A − x̄)2 + nB (x̄B − x̄)2
= +
n n
2.8. Diagrama de tallos y hojas

El diagrama de tallos y hojas es una manera rápida de presentar una variable cuantitativa.
Por ejemplo, si tenemos la siguiente serie estadı́stica ordenada
15, 15, 16, 17, 18, 20, 21, 22, 23, 23, 23, 24, 25, 25, 26, 26, 27, 28, 28, 29, 30, 30, 32, 34, 35, 36, 39, 40, 43, 44
Para este caso el tallo será el decimal y las hojas serán las unidades. Sin embargo para los
tallos y hojas se pueden utlizar diferentes medidas. El resultado para este ejemplo es el siguiente
1 | 5 5 6 7 8
2 | 0 1 2 3 3 4 5 5 6 6 7 8 8 9
3 | 0 0 2 4 5 6 9
4 | 0 3 4
En leguaje R
X=c(15,15,16,17,18,20,21,22,23,23,23,24,25,25,26,26,
27,28,28,29,30,30,32,34,35,36,39,40,43,44)
stem(X,0.5)
28
2.9. Diagrama de caja
El diagrama de caja o diagrama de caja y bigotes o boxplot(en inglés), es una gráfica que
permite representar la distribución de una variable. Está gráfica se compone de:
Un rectángulo que se extiende desde el primer cuartil. El rectángulo esta dividido por una
linea que corresponderá a la mediana
Este rectángulo se completa con dos segmentos de lı́nea.
* Primero, se calculan los limites
b− = x 1 − 1,5IQyb+ = x 3 + 1,5IQ
4 4
Donde IQ es el rango intercuartilico.
* Segundo, se determina el mı́nimo y el máximo de la serie estadı́stica. Estas observaciones se

llaman ”valores adyacentes”
* Se dibujan las lı́neas que unen al rectángulo con estas observaciones.
* Los valores que quedan fuera de los valores adyacentes se llaman ”valores extremos”
Ejemplo 2.8
En leguaje R
Ejemplo 1
Primera parte: Instalación del paquete sampling
En este paquete está la base de datos de los municipios belgas que servira como ejemplo
Escoger ”sampling.en la lista
utils:::menuInstallPkgs() llamando los paquetes para instalar sampling
Segunda parte 2: Cargar el paquete sampling
Escoger ”sampling.en la lista
local(pkg ¡- select.list(sort(.packages(all.available = TRUE)))
+ if(nchar(pkg)) library(pkg, character.only=TRUE))
Usar los datos
data(swissmunicipalities)
attach(swissmunicipalities)
boxplot de la selección de los municipios de Neuchâtel
El número de municipios es de 24
boxplot(HApoly[CT==24],horizontal=TRUE)
selección de municipios de Neuchâtel que tienen más de 3000 habitantes
data.frame(Nom=Nom[HApoly¿3000 CT==24],Superficie=HApoly[HApoly¿3000 CT==24])
Ejemplo 2.9
En leguaje R
Ejemplo2
Utilisation de municipios
data(belgianmunicipalities)
attach(belgianmunicipalities)
29
Construcción de una lista de con los nombres de las provincias
b=list(
.Anv.-averageincome[Province==1],
”Brab.-averageincome[Province==2],
”Fl.occ.-averageincome[Province==3],
”Fl.or.-averageincome[Province==4],
”Hainaut-averageincome[Province==5],
”Liµege” = averageincome[P rovince == 6],
”Limb.” = averageincome[P rovince == 7],
”Lux.” = averageincome[P rovince == 8],
”N amur” = averageincome[P rovince == 9]
)boxplot(b)
Ejercicios del capitulo
..
.
3. Estadı́stica descriptiva bivariada

3.1. Serie estadı́stica bivariada
Ahora el interés esta enfocado en el análisis de dos variables x y y. Las dos variables tendrán
n observaciones cada una. La nueva serie estadı́stica está compuesta de n observaciones dadas
en parejas y con mediciones al mismo tiempo a cada individuo
(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )

Nota:
Las variables pueden cualitativas o cuantitativas, pero se examinaran dos casos.
Las dos son cuantitativas
Las dos son cualitativas
3.2. Dos variables cuantitativas

En este caso se harán dos mediciones numéricas en ambas variables.
Ejemplo 3.1
Se le midieron a 10 personas el peso y la estatura, obteniendo los siguientes resultados:
En lenguaje R
..
.Gráfica falta
30
Peso Estatura
yi xi
61 158
63 170
69 171
70 171
73 178
76 179
89 179
95 180
96 182
100 190
3.2.1. Análisis de las variables

Primero se analizan las variables por separado
n n
1X 1X
x̄ = xi Sx2 = (xi − x̄)2
n i=1 n i=1
n n
1X 1X
ȳ = yi Sy2 = (yi − ȳ)2
n i=1 n i=1
Estos parámetros son llamados parámetros marginales: medias marginales, varianzas marginales,
cuantiles marginales, etc. . .
3.2.2. Covarianza
La covarianza se define como:
n
1X
Sxy = (xi − x̄)(yi − ȳ)
n i=1
Nota:
La covarianza puede tomar valores positivos, negativos o nulos.
Cuando xi = yi , para todo i = 1, . . . , n Sxy = Sx2 = Sy2 (covarianza será igual a la varianza)
Teorema:
La covarianza se puede escribir como

n
1X
Sxy = xi yi − x̄ȳ
n i=1
31
Dem:/
n
1X
S− xy = (xi − x̄)(yi − ȳ)
n i=1
n
1X
= (xi yi − xi ȳ − yi x̄ + x̄ȳ)
n i=1
n n n n
1X ȳ X x̄ X 1X
= xi yi − xi − yi + x̄ȳ
n i=1 n i=1 n i=1 n i=1
n
1X n
= xi y − i − ȳx̄ − x̄ȳ + x̄ȳ
n i=1 n
n
1X
= xi yi − x̄ȳ
n i=1
3.2.3. Correlación
El coeficiente de correlación
sxy
rxy =
Sx Sy
El coeficiente de determinación es el cuadrado del coeficiente de correlación
2
2
Sxy
rxy = 2 2
Sx Sy
Nota:
El coeficiente de correlación es una medida de dependencia lineal entre dos variables
−1 ≤ rxy ≤ 1
2
0 ≤ rxy ≤1
Si Sxy > 0 hay dependencia directa(positiva), es decir, a valores grandes de la variable x

corresponden a valores grandes de y
Si Sxy = 0 no existe una relación lineal entre las variables x y y
Si Sxy < 0 hay dependencia inversa (negativa) es decir, a valores grandes de la variable
xcorresponden a valores pequeños de y
Si rxy = ±1 , las variables están en correlación perfecta, y los puntos correspondientes a

los pares de valores xy y están situados en una lı́nea recta única
Si r → −1, las variables están en perfecta correlación negativa, correspondiendose los

valores pequeños de una variable con los valores grandes de la otra variable.
Si r → +1, las variables están en perfecta correlación positiva correspondiendose a los

valores grandes de la variable
32
3.2.4. Recta de regresión
La recta de regresión es la recta que ajusta la nube de puntos por el método de minimos
cuadrados. La variable x se considera como explicativa y la variable y y como independiente. la
ecuación de una recta es la siguiente
y = a + bx
El problema consiste en identificar una recta que ajuste la nube de puntos. Si los coeficientes
a y b son conocidos, se podrı́a calcular los residuales de la regresión definidos por
ei = yi − a − bxi
El residuo ei es el error que se comete al utilizar la recta de regresión para preceder yi a
partir de xi . Los residuales pueden ser positivos o negativos.
Gráficos de ejemplos.
En lenguaje R
..
.
Para determinar los valores de los coeficientes ay bse utilizara el método de mı́nimos cuadra-
dos, el cual consiste en minimizar la suma de cuadrados de los residuos
n
X n
X
µ(a, b) = e2i = (yi − a − bxi )2
i=1 i=1
Teorema:
Los coeficientes a y b que minimizan el criterio de mı́nimo cuadrados están dados por:
Sxy
b= y a = ȳ − bx̄
Sx2
Dem:/
El mı́nimo de µ(a, b) se obtiene al anular las derivadas parciales respecto a a y b

( P
∂µ(a,b)
∂a
= − ni=1 2(yi − a − bxi ) = 0
∂µ(a,b) Pn
∂b
= − i=1 2(yi − a − bxi )xi = 0
Se divide por −2n y se obtiene

( P
1 n
n i=1 (yi − a − bxi ) =0
1
P n
n i=1 (yi − a − bxi )xi =0
Desarrollando la sumatoria de la primera ecuación, tenemos
( P Pn Pn
1 n 1 1
y i − a − b i=1 xi =0
n
1
Pi=1
n
n i=1 n
n i=1 (yi − a − bxi )xi =0

Luego
33
(
ȳ = a + bx̄
1
Pn
n i=1 (yi − a − bxi )xi = 0
De lo anterior tenemos que a = ȳ − x̄ Ahora se reemplaza en la segunda ecuación,
n n
1X 1X 2
yi xi − (ȳ − bx̄)x̄ − bx = 0
n i=1 n i=1 i
n n
1X bX 2
xi yi − x̄ȳ − bx̄2 − x =0
n i=1 n i=1 i
n n
1X 1X 2
xi yi − x̄ȳ − b( x − x̄2 ) = 0
n i=1 n i=1 i
n
1X
( xi yi − x̄ȳ) − bSx2 = 0
n i=1
Sxy − bSx2 = 0
Luego
Sxy
b=
Sx2
Ahora se pueden identificar los parámetros
Sxy
b= (la pendiente de la recta)
Sx2
Sxy
a = ȳ − bx̄ = ȳ − 2 x̄(la constante de la recta)
Sx
La recta de regresión estará dada por
Sxy Sxy
y = a + bx = ȳ − 2
x̄ + 2 x,
Sx Sx
Donde
Sxy
y − ȳ = (x − x̄)
Sx2
Falta Figura
3.2.5. Residuos y valores ajustados

Los valores ajustados son obtenidos al reemplazar los valores de x en la recta obtenida
yi∗ = a + bxi
Los valores ajustados son los ”predictores”de yi obtenidos después de reemplazar los xi en
la recta.
Nota:
34
- Los valores de los residuos es la diferencia entre los valores observados (yi ) y los valores
ajustados (yi ).
ei = yi − yi ∗
- La media de los residuos es nula

n n
1X 1X
ē = ei = yi − yi∗ = ȳ − ȳ = 0
n i=1 n i=1
- n
X
xi e i = 0
i=1
La demostración queda para el lector
3.2.6. Suma de cuadrados y varianzas

Definición
Se llama suma de cuadrados total a la cantidad SCT (Suma de Cuadrados Total)

n
X
SCT = (yi − ȳ 2 )
i=1
La varianza marginal está definida por:

n
SCT 1X
Sy2 = = (yi ȳ)2
n n i=1
Definición
Se llama suma de cuadrados de regresión (SCR) a la cantidad

n
X
SCR = (yi∗ − ȳ)2
i=1
Definición:La varianza de la regresión es la varianza de los valores ajustados

n
2 1X ∗
Sy∗ = (y − ȳ)2
n i=1 i
Definición
Se llama suma de cuadrados de los residuos (SCE) a la cantidad

n
SCE 1X 2
Se2 = = e
n n i=1 i
Teorema
SCT = SCR + SCE
35
Suma de cuadrados total es igual a la suma de cuadrados de regresión más la suma de
cuadrados de los residuos.
Dem:/
n
X
SCT = (yi − ȳ)2
i=1
n
X
= (yi − yi∗ + yi∗ − ȳ)2
i=1
n
X n
X n
X
∗ 2 ∗ 2
= (yi − yi ) + (yi − ȳ) + 2 (yi − yi∗ )(yi∗ − ȳ)
i=1 i=1 i=1
Xn
= SCR + SCE + 2 (yi − yi∗ )(yi∗ − ȳ)
i=1
Pn
Ahora se deberá probar que i=1 (yI − yi∗ )(yi∗ − ȳ) = 0
n
X n
X
∗ ∗
(yi − yi )(yi − ȳ) = [yi − ȳ − b(xi − x̄)]b(xi − x̄)
i=1 i=1
n
X
= [(yi − ȳ) − b(xi − x̄)]b(xi − x̄)
i=1
Xn n
X
2
=b (yi − ȳ)(xi − x̄) − b (xi − x̄)(xi − x̄)
i=1 i=1
= bnSxy − b nSx2 2
2
Sxy Sxy
= nSxy − nSx2
Sx2 Sx4
=0
3.2.7. Descomposición de la varianza

Teorema:
La varianza de la regresión puede ser escrita como
2
Sy∗ = Sy2 r2
Donde r2 es el coeficiente de determinación.
Dem:/
36
n
2 iX ∗
Sxy = (yi − ȳ)2
n i=1
n
iX Sxy
= {ȳ + 2 (xi − x̄) − ȳ}2
n i=1 Sx
n
2
Sxy iX
= 4 (xi − x̄)2
Sx n i=1
2
Sxy
= S2
Sx4 x
2
2
Sxy
= Sy 2 2
Sx Sy
= Sy2 r2
Teorema:
La varianza de los residuales puede ser escrita como
Se2 = Sy2 (1 − r2 )
donde r2 es el coeficiente de determinación.
Dem:/
n
iX
Se2 = ei
n i=1
n
iX
= (yi − yi∗ )2
n i=1
n ½ ¾2
iX 2
Sxy
= yi − ȳ − 2 (xi − x̄)
n i=1 Sx
n n n
iX 2
2
Sxy iX 2 Sxy i X
= (yi − ȳ) + 4 (xi − x̄) − 2 2 (xi − x̄)(yi − ȳ)
n i=1 Sx n i=1 Sx n i=1
2 2
Sxy Sxy
= Sy2 + 2 − 2 2
S S
µ x 2 ¶x
Sxy
= Sy2 1 − 2 2
Sx Sy
= Sy2 (1 − r2 )
Teorema:
37
y1 ... yk ... yK Total
x1 n11 . . . n1k ... n1K n1.
.. .. .. ..
. . . .
xj nj1 ... njk ... njK nj.
.. .. .. .. ..
. . . . .
xJ nJ1 ... nJk ... nJK nJ.
Total n,1 ... n.k ... n.K n
La varianza marginal es la suma de la varianza de regresión y la varianza residual,
Sy2 = Sy2∗ + Se2

Dem:/
La demostración queda como ejercicio al lector.
3.3. Dos variables cualitativas

3.3.1. Datos observados
Si las dos variables x y y son cualitativas, ahora los valores observados son parejas de
variables
(x1 , y1 ), . . . , (xi , yi ), . . . , (xn , yn )

Los valores distintos de x y y son notados ahora como sigue
x1 , . . . , x j , . . . , x J
y
y1 , . . . , y k , . . . , y K
3.3.2. Tabla de contingencia

Los datos observados pueden ser reagrupados en forma de una tabla de contingencia.
Los nj. y n.k son llamados efectos marginales. Donde:
nj. representa el número de veces que la modalidad xj aparece
n.k representa el número de veces que la modalidad yk Aparece.
njk representa el número de veces que la modalidad xy y yk aparecen juntas.
También podemos observar las siguientes relaciones.
38
Azul Verde Cafe Total
Hombre 10 50 20 80
Mujer 20 60 40 120
Total 30 110 60 200
y1 . . . yk ... yK Total
x1 f11 ... f1k ... f1K f1.
.. .. .. .. ..
. . . . .
xj fj1 ... fjk ... fjK fj.
.. .. .. .. ..
. . . . .
xJ fJ1 ... fJk ... fJK fJ.
Total f,1 ... f.k ... f.K 1
J
X
njk = n.k , Para todosk = 1, . . . , K
j=1
K
X
njk = nj. , para todo j = 1, . . . , J
k=1
XJ K
X J X
X K
nj. = nn.k = njk = n
j=1 k=1 j=1 k=1
Ejemplo 3.2
Interesa una eventual relación entre el género de 200 personas y el color de los ojos. Los resul-
tados se presentan en la siguiente tabla de contingencia.
3.3.3. Tabla de frecuencias

La tabla de frecuencias se obtiene al dividir todos los efectos por el total de la población:
La tabla de frecuencias es
Ejemplo 3.3
Utilizando los datos del ejemplo 3.2 se presentará la tabla de frecuencia para la tabla de contin-
gencia

Hombre 0.05 0.25 0.10 0.40
Mujer 0.10 0.30 0.20 0.60
Total 0.15 0.55 0.30 1
39
Hombre 0.13 0.63 0.25 1.00
Mujer 0.17 0.50 0.33 1.00
Total 0.15 0.55 0.30

Hombre 0.33 0.45 0.33 0.40
Mujer 0.67 0.55 0.67 0.60
Total 1.00 1.00 1.0 1.00
3.3.4. Efectos de fila y efectos de columna

Una tabla de contingencia se interpreta siempre comparando las frecuencias por lı́neas o las
frecuencias por columnas, llamadas también (perfiles de lı́nea y perfiles de columna) o (efectos
fila y efectos columna).
(j)
Los efectos fila (fk ) son definidos por
(j) njk fjk

fk = = , k = 1, . . . , K, j = 1, . . . , J
nj. fj.
(k)
Los efectos columna (fj ) son definidos por
(k) njk fjk

fj = = , j = 1, . . . , J, k = 1, . . . , K
n.k f.k
Ejemplo 3.4
Los efectos por fila y por columna se presentan en las siguientes tablas
Tabla de efecto fila

Tabla de efectos columna
3.3.5. Efectos teóricos y chi- cuadrado

Con frecuencia buscamos la interacción entre las filas y las columnas, como un vı́nculo entre
las variables. Se construye para ello una tabla de efectos teóricos que representan la situación
en la que las variables no están relacionadas (a lo cual conocemos como independencia entre
variables). Los efectos teóricos se construyen de la siguiente forma:
nj. n.k
n∗jk =
n
Los efectos teóricos n∗jk tienen las mismas caracterı́sticas que los efectos observados njk .
Finalmente, las desviaciones de la independencia están definidas por:
ejk = njk − n∗jk
40
Hombre 12 44 24 80
Mujer 187 66 36 120
Total 30 110 60 200

Hombre -2 6 -4 0
Mujer 2 -6 4 0
Total 0 0 0 0
La dependencia en la tabla se mide como la media de la chi-cuadrado definida como:

K X
X J XK X J
(njk − n∗jk )2 e2jk
χ2obs = =
k=1 j=1
n∗jk n∗
k=1 j=1 jk
La chi-cuadrado puede ser estandarizada y dependerá del número de observaciones. Se

define φ2 como:
χ2
φ2 = obs
n
2
La φ no depende del número de observaciones. Además, es posible mostrar que
φ2 ≤ mı́n(J − 1, K − 1)
La V de Cramer está definido por:
φ2 χ2obs
V = =
mı́n(J − 1, K − 1) n mı́n(j − 1, k − 1)
La V de Cramer esta definida entre o y 1.
Si V ≈ 0, las dos variables son independientes.
Si V → 1, existe una relación funcional entre las variables.
Ejemplo 3.5
Las siguientes tablas muestran los efectos teóricos, la tabla de desviaciones de independencia
y la tabla de e2jk /njk∗
Tabla de efectos teóricos n∗jk

Tabla de desviaciones de independencia ejk
Tabla de e2jk /n∗jk Utilizando las tablas anteriores, tenemos:
La chi-cuadrado observada es χ2obs = 3,03

3,03
La φ2 = 200
entonces φ2 = 0,01515
41
Hombre 0.33 0.82 0.67 1.82
Mujer 0.22 0.55 0.44 1.21
Total 0.56 1.36 1.11 3.03
Año t Precio (pt )

2000 0 2.00
2001 1 2.30
2002 2 2.40
2003 3 2.80
2004 4 3.00
2005 5 3.50
2006 6 4.00
Se calcula el mı́n(J − 1, K − 1)
mı́n(J − 1, K − 1) = mı́n(2 − 1, 3 − 1) = mı́n(1, 2) = 1
Como el mı́nimo entre (J − 1, K − 1) es 1, La V de cramer es igual a φ2
V = 0,01515. La dependencia entre las variables es muy baja.
En lenguaje R
Falta
Ejercicios capitulo 3
..
.
4. Capitulo 4
TEORIA DE INDICES, MEDIDAS DE DESIGUALDAD
4.1. Números ı́ndices

En algunas ocasiones, y especı́ficamente en Estadı́stica económica, algunos sucesos ocurridos
a lo largo del tiempo, lo cual genera un concepto que expresa la variación de un elemento. Un
caso particular es la aplicación en el campo de los precios y sus variaciones.
4.2. Definición
Un ı́ndice es el valor de una magnitud en comparación a un valor de referencia. La siguiente
tabla contiene el precio ficticio del consumo de un producto X durante los periodos comprendidos
entre los años 2000 y 2006. Los tiempos varı́an de 0 a 6 y 0 es considerado como el tiempo de
referencia contra el cual el ı́ndice será calculado.
42
t=0 1 2 3 4 5 6
0
t = 0 100.00 115.00 120.00 140.00 150.00 175.00 200.00
1 89.96 100.00 104.35 121074 130.43 452.17 173.91
2 83.33 95.83 100.00 116.67 125.00 145.83 166.67
3 71.43 82.14 85.75 100.00 107.14 125.00 142.86
4 66.67 76.67 80.00 93.33 100.00 116.67 133.33
5 57.14 65.71 68.57 80.00 85.71 100.00 114.29
6 50.00 57.50 60.00 70.00 75.00 87.50 100.00
Un ı́ndice simple está definido por:

4,00
I(6/0) = 100 ∗ = 200
2,00
0 2,3
I(1/0 ) = 100 ∗ = 115
2,0
0 2,4
I(2/0 ) = 100 ∗ = 120
2,0
..
.
0 2,0
I(0/1 ) = 100 ∗ = 86,9
2,3
0 2,3
I(1/1 ) = 100 ∗ = 100
2,3
4.2.1. Propiedades de los indices

Consideramos el ı́ndice I(t/0).Se puede decir que el ı́ndice posee las siguientes propiedades
Es reversible si:
1
I(t/0) = 1002 ∗
I(0/t)
Es Identica si :
I(t/t) = 100
Es circular (o transitiva) si:
I(t/0) ∗ I(0/υ) = 100 ∗ I(t/υ)
4.2.2. Índices sintéticos

Cuando queremos calcular un ı́ndice a partir de múltiples precios, el problema se hace signi-
ficativamente más complicado. Un ı́ndice sintético es una magnitud de un conjunto de bienes en
relación a un año de referencia. Se puede construir un ı́ndice sintético añadiendo simplemente
ı́ndices simples.
Para calcular un ı́ndice de precios de n bienes de consumo de 1, . . . , n y utilizaremos la

siguiente notación:
43
pti representa el precio de un bien de consumo i en eltiempo t.
qti representa la cantidad de bienes i consumidos en el tiempo t
Consideremos por ejemplo la siguiente tabla la cual contiene 3 bienes de consumo
Tiempo Precio (po i) Cantd(q0i ) Precio(p1i ) Cantd(q1i ) Precio(p2i ) Cantd(q2i )

Bien 1 100 14 150 10 200 8
Bien 2 60 10 50 12 40 14
Bien 3 160 4 140 5 140 5
Existen dos métodos fundamentales para calcular ı́ndices de precios, el ı́ndice de Paasche y
el ı́ndice de Laspeyres.
4.2.3. Índice de Laspeyres

El ı́ndice de Laspeyres está definido por:
Pn
q0i pti
L(t/0) = 100 ∗ Pni=1
i=1 q0i p0i
Mantiene constante la capacidad del consumidor de adquirir la cesta de consumo del periodo
base o de referencia q0 .
El ı́ndice de Laspeyres puede ser presentado como una media ponderada de ı́ndices simples.
Consideramos el ı́ndice simple del bien i:
pti
Ii (t/0) = 100 ∗ ,
poi
y w0i es el peso de los ingresos totales del bien i en el momento 0,
wti = poi q0i

El ı́ndice de Laspeyres puede ser definido como un promedio ponderado por los ingresos en
el momento 0:
Pn Pn pti P
i=1 w 0i Ii (t) i=1 poi qoi 100 ∗ poi 100 ∗ ni=1 qoi pti
L(t/0) = Pn = Pn = Pn
i=1 woi i=1 poi qoi i=1 poi qoi
Nota:
El ı́ndice de Laspeyres no posee ni la propiedad de circularidad, ni la reversible.
El ı́ndice de Laspeyres es fácil de calcular, por que solo se necesitan las cantidades de
referencia qoi para el calculo de ı́ndice.
Ejemplo 4.1
Si se utiliza la tabla anterior, los ı́ndices de Laspeyres son los siguientes:
44
1.
P3
q0i p1i
L(1/0) = 100 ∗ Pi=1
3
i=1 q0i p0i
(14 ∗ 150) + (10 ∗ 50) + (4 ∗ 140)
= 100 ∗ = 119,6970
(14 ∗ 100) + (10 ∗ 60) + (4 ∗ 160)
2.
P3
q0i p2i
L(2/0) = 100 ∗ Pi=1
3
i=1 q0i p0i
(14 ∗ 200) + (10 ∗ 40) + (4 ∗ 140)
= 100 ∗ = 142,4242
(14 ∗ 100) + (10 ∗ 60) + (4 ∗ 160)
3.
P3
q1i p2i
L(2/1) = 100 ∗ Pi=1
3
i=1 q1i p1i
(10 ∗ 200) + (12 ∗ 40) + (5 ∗ 140)
= 100 ∗ = 1136,57
(10 ∗ 150) + (12 ∗ 50) + (5 ∗ 140)
Interpretación:
Para L(1/0) = 119,697 , este número nos indica que el valor de las cantidades del año
base aumento un 11,96 % como resultado del incremento en los precios entre el año 0 y 1.
Para L(2/0) = 142,42, este número nos indica que el valor de las cantidades del año base
aumento un 42,42 % como resultado del incremento en los precios entre el año 0 y .2
Para L(2/1) = 113,57 , este número nos indica que el valor de las cantidades del año base
(en este caso será el año 1) aumento un 13,57 % como resultado del incremento en los
precios entre el año 1 y 2.
4.3. Indice de Fisher

El ı́ndice de Laspeyres es generalmente mayor que el ı́ndice de Paasche, esto se puede explicar
por el hecho de que el ı́ndice de Laspeyres es una media aritmética de indices simples, mientras
que es ı́ndice de Paasche una media armónica. Como ya se mencionó la media armónica siem-
pre es menor o igual a la media aritmética.
Sin embargo, este resultado es aproximado, porque no utilizan los mismos pesos para el calcu-
lo, dado que el ı́ndice de Laspeyres utiliza (wti ) mientras que el ı́ndice de Paaschees utiliza (woi ).
Fischer propone una solución, es utilizar el ı́ndice de Laspeyres y el ı́ndice de Paaschees y

calcular la media geométrica de estos dos ı́ndices, donde
p
F (t/0) = L(t/0) ∗ P (t/0)
45
La ventaja del ı́ndice de Fisher es que cumple con la propiedad de reversibilidad.
Ejemplo 4.3
Si utilizamos los resultados anteriores, tenemos:
p
F (1/0) = L(1/0) ∗ P (1/0) = 115,324
p
F (2/0) = L(2/0) ∗ P (2/0) = 129,205
p
F (2/1) = L(2/1) ∗ P (2/1) = 111,771
4.3.1. Indice de Sidgwick

El ı́ndice de Sidgwick es la media aritmética entre el ı́ndice de Laspeyres y el ı́ndice de
Paasche .
L(t/0) + P (t/0)
S(t/0) =
2
Ejemplo 4.4
Utilizando los resultados anteriores tenemos:
L(1/0) + P (1/0)
S(1/0) = = 115,404
2
L(2/0) + P (2/0)
S(2/0) = = 129,818
2
4.3.2. Índices de cadenas

El defecto principal de los ı́ndices de Laspeyres, Paasche, Fisher y Sidgwick es que no poseen
la propiedad de circularidad. Un ı́ndice que posee esta propiedad de denomina ı́ndice en cadena.
Para construir un ı́ndice en cadena, con el ı́ndice de Laspeyres o de Paasche, se realiza un

producto de los ı́ndices de Laspeyres o de Paasche anuales.
Para el ı́ndice de Laspeyres tendrı́a la siguiente forma:
L(t/t − 1) L(t − 1/t − 2) L(1/0)

CL(t/0) = 100 ∗ ∗ ∗ ... ∗
100 100 100
Para el ı́ndice de Paasche tendrı́a la siguiente:
P (t/t − 1) P (t − 1/t − 2) P (1/0)

CP (t/0) = 100 ∗ ∗ ∗ ... ∗
10 100 100
Para el calculo de este ı́ndice, obviamente se deben conocer las cantidades para cada valor
de t.
46
4.4. Medidas de desigualdad
4.4.1. Introducción
Los indicadores se han desarrollado con el fin de determinar la desigualdad de ingresos o
la desigualdad de la riqueza. Podemos considerar varias situaciones, en primer lugar, estarı́a
una sociedad perfectamente igualitaria, donde todos los individuos reciben el mismo ingreso y
el segundo lugar, estarı́a una sociedad más desigual, en la cual un individuo o unos individuos
perciben más ingresos que los demás.
Estos indicadores serán ´más sobresalientes de acuerdo a la satisfacción de algunas propiedades,

los cuales son:
1. Independencia de escala
El indicador no deberá cambiar ante transformaciones proporcionales de los ingresos, por
ejemplo, la unidad de medida.
2. Independencia de tamaño de población, Teóricamente la desigualdad no sufrirá cambio si

se agrega un número proporcional de individuos en cada uno de los niveles de ingreso.
3. Independencia ante cambios de posición, Si los individuos cambian su posición en la dis-

tribución de los ingresos, la desigualdad no se verá afectada.
4. Principio ”débil”de transferencias.

La desigualdad deberá disminuir ante una transferencia de ingresos de un grupo con may-
ores ingresos a un grupo con menores ingresos.
5. Principio ”fuerte”de transferencias

una transferencia de un grupo de individuos con mayores ingresos a uno con menores
ingresos, la desigualdad disminuirá a medida que aumente la distancia entre los ingresos
de ambos grupos.
6. Descomposición aditiva.
La concentración del ingreso para una población deberá ser igual a la suma de la desigual-
dad intra-grupal e inter-grupal para los subgrupos que la conforman.
7. Rango del ı́ndice.

Se desea que el ı́ndice tome valores entre 0 y 1, donde 0 significará igualdad máxima y 1
significará desigualdad máxima.
4.4.2. Curva de Lorenz

La curva de Lorenz es un gráfico que representa el porcentaje acumulativo de ingreso que
poseen los individuos o grupos de ellos, ordenados en forma ascendente de acuerdo con su nivel
de ingreso.
GRÁFICA (FALTA)
Varios ı́ndices de desigualdad están relacionados con la curva de Lorenz. Allı́:
47
x1 , . . . , x n
son los ingresos de n individuos en estudio. También se denotarán como:
x(1) , . . . , x(i) , . . . , x(n)

La estadı́stica de orden, es decir, los ingresos ordenados ascendentemente.
Ahora qi es la proporción o porcentaje de los ingresos en comparación con los ingresos totales
obtenidos por los i individuos con ingresos más bajos, lo cual puede ser escrito como
Pi
j=1 x(j)
qi = Pn con q0 = 0y qn = 1
j=1 x(j)
Nota:
La curva de Lorenz para los ingresos muestra en el eje ”x” el porcentaje acumulado de indi-
viduos o grupos de la población en estudio y en el eje ”y” el porcentaje acumulado del ingreso.
Cada punto de la curva se puede leer como un porcentaje acumulado de los individuos o
grupos. La curva parte de un origen (0, 0) y culmina en el punto (100, 100). Si el ingreso fuera
totalmente equitativo, la curva coincidirá con la lı́nea de 45 grados que paso por el origen.
Ejemplo 4.5
Supongamos una distribución de rentas, es decir, una tabla en la que aparecen (por ejemplo,
salarios) ordenados en forma creciente con indicación de individuos que la perciben (frecuencia)
i Salario($)(xi ) Frecuencia(ni ) x(j) = xi ∗ ni

1 500.000 90 45000000
2 600.000 70 42000000
3 800.00 50 40000000
4 900.00 40 36000000
5 1’000.000 15 15000000
6 1’200.000 7 8400000
Total 272 186400000
Se necesitan encontrar los puntos (i/n, qi ) para i = 1, 2, . . . , 6.
- Para i = 1 tenemos
Pi
j=1 nj (90) 90
P6 = = = 0,3308 o 33,08 %
i=1 ni
90 + 70 + 50 + 40 + 15 + 7 272
P1
j=1 x(j) (500000 ∗ 90)
q1 = P6 =
j=1 x(j)
(500000 ∗ 90) + . . . + (1200000 ∗ 7)
q1 = 0,2414 o 24,14 %
Entonces elprimer punto de la curva es (0,33, 0,24) o (33,08 %, 24,14 %)
48
- Para i = 2 tenemos:
P2
j=1 nj (90 + 70) 160
P6 = = = 0,5882o 58,82 %
j=1 ni
90 + 70 + 50 + 40 + 15 + 7 272
P2
j=1 x(j) (500000 ∗ 90) + (600000 ∗ 70)
q2 = P6 =
j=1 xj
(500000 ∗ 90) + . . . + (1200000 ∗ 7)
q2 = 0,4667o 46,67 %
Entonces el segundo punto de la curva es (0,58, 0,46)

Siguiendo los pasos anteriores podemos construir la siguiente tabla:
Eje x
Pi
Eje
P
y
i
j=1 nj x(j)
i xj nj P6 qi = j=1
P6
j=1 nj j=1 x(j)
1 500000 90 0.3308 0.2414
2 600000 70 0.5882 0.4667
3 800000 50 0.7720 0.6813
4 900000 40 0.9191 0.8744
5 1000000 15 0.9742 0.9549
6 1200000 7 1 1
272
GRAFICO
Interpretación
0,9191 o 91,91 % nos indica la proporción o el porcentaje de individuos que devenga
$900000 o menos.
0,8744 o 87,44 % nos indica la proporción o el porcentaje de la renta total es el
queposee ese 0,9191 o 91,91 % de individuos.
En lenguaje R
..
.
4.4.3. Indice de Gini

Es un gráfico que se utiliza para medir la desigualdad de los ingresos, pero no es su única
función, también es utilizado para medir otras formas de desigualdad, por ejemplo la desigual-
dad en la riqueza. Se encuentra entre 0 y1, donde 0 indica perfecta igualdad(en otras palabra,
todos tienen el mismo ingreso) y 1 indica perfecta desigualdad (en otras palabras, una persona
tiene todos los ingresos y los demás ninguno). El ı́ndice de Gini es presentado como proporción
o como porcentaje.
A 2007 Colombia poseı́a un ı́ndice de Gini de 53,8 %.
El ı́ndice de Gini, notado por G es igual a dos veces el área comprendida entre la curva de
Lorenz y la diagonal. Es posible demostrar que:
49
1
Pn Pn
n(n−1) i=1 j=1 |xi − xj |
G=
2x̄
Si se utiliza la estadı́stica de orden x(1) , x(2) , . . . , x(i),...,x(n) el ı́ndice de Gini puede ser escrito de
la siguiente forma:
· Pn ¸
1 2 i=1 ix(i)
G= − (n + 1)
n−1 nx̄
4.4.4. Indice de Hoover

El ı́ndice de distribución equitativa de Hoover (o ı́ndice de Robin Hood) está definido como
la proporción de ingresos que se necesita para que los individuos que ganan más que el promedio
redistribuyan su ingreso en las personas que ganan menos que el promedio, con el fin que todos
tengan la misma renta. Se define formalmente como:
1
Pn
n i=1 |xi − x̄|
H=
2x̄
Este ı́ndice esta definido entre 0 y 1. Tomará el valor 0 cuando todos los individuos, tienen
los mismos ingresos. Este ı́ndice también se puede relacionar con la curva de Lorenz, ya que
se puede mostrar que corresponde a la mayor distancia vertical entre la curva de Lorenz y la
diagonal.
4.4.5. Relación de proporción de los quantiles y deciles

En primer lugar, definimos:
S10 ingreso promedio de individuos con ingresos inferiores al primer decil x 1 ,

10
S20 ingreso promedio de individuos con ingresos inferiores al primer quintile o según decil
x1 ,
5
S80 ingreso promedio de individuos con ingresos superiores al cuarto quintil u octavo decil
x4 ,
5
S90 ingreso promedio de individuos con ingresos superiores al noveno decil x 9 .

10
La relación de proporción del quintil está definida como:

S80
QSR =
S20
La relación de proporción del decil esta definida como:
S90
DSR =
S10
Estas cantidades son siempre mayores que 1 y se incrementa con la desigualdad. Ambos
valores son fácilmente interpretables, por ejemplo, si el QSR = 5, esto significa que el promedio
del 20 % más rico es 5 veces más grande que el promedio de 20 % más pobre.
50
4.4.6. Índice de pobreza
Un ı́ndice simple de pobreza consiste en calcular el porcentaje de la población que gana menos
que la mitad de la mediana de los ingresos de la población.
4.4.7. Índices por paı́s

La siguiente tabla muestra para todos los paı́ses el ı́ndice de Gini y el informe del 20 % de
−−−−−−−−→
los paı́ses más ricos y el 20 % de los paı́ses más pobres.(Referencia : f altalatabla)
Ejercicios:
..
.
5. Capitulo 5
SERIES TEMPORALES, FILTROS, PROMEDIOS MOVILES Y DESEN-
TRALIZACIÓN
5.1. Definiciones generales y ejemplos

5.1.1. Definiciones
51

Libro Esta Descriptiva

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Libro Esta Descriptiva

Cargado por

Copyright:

Formatos disponibles

Índice

3. Estadı́stica descriptiva bivariada 30

1.1. Definiciones Fundamentales

Etimológicamente: es la ciencia de los datos

La estadı́stica es aplicada en múltiples disciplinas como por ejemplo en : Agronomı́a,

Sobre estas unidades se miden caracterı́sticas o variable

Los valores posibles de la variable son llamadas modalidades

Al conjunto de todos lo posibles valores de las modalidades se llamará el dominio de la

1.1.3. Tipologı́a de las variables

Notamos que el dominio de la variable X es {U, C, V, D}.

Luego, n = 20 y x1 = C, x2 = C, x3 = D, . . . , x19 = U, x20 = C

1.2. Variable Cualitativa Nominal

1.2.2. Diagrama de sectores y diagrama de barras

1.3. Variable Cualitativa Ordinal

Donde N1 = n1 y NJ = n. También se puede calcular las frecuencias acumuladas, para ello

2. Presentar la serie estadı́stica

3. Presentar la tabla estadı́stica

1. Tabla 1.1: Codificación de la variable Y

Sin titulo .................................... Sd

1.3.2. Diagrama de sectores y diagrama de barras

1.3.3. Diagrama de sectores

1.3.4. Diagrama de barras para las cantidades

1.3.5. Diagrama en barras de cantidades acumuladas

Al construir la tabla estadı́stica tenemos

1.4.2. Diagrama de Palos

1.5. Variable cuantitativa continua

152 152 152 153 153

La tabla que reagrupa a las clases a menudo se denomina distribución consolidada. La

Cj : es el centro de las clasej

3. El tercer paso consistirá en clasificar las observaciones en los diferentes intervalos.

1.5.2. Histrograma de frecuencias

La altura hj del rectángulo correspondiente a la clase j está dada por

hist(S,breaks=c(151.5,155.5,159.5,163.5,167.5,171.5), xlab=“”,ylab=“”,main=“”,xaxt = “n”)

1.5.3. La función de distribución

2.1. Parámetros de posición

2.1.2. La media (o la media aritmética)

Algunas propiedades útiles para la sumatoria

1. En estadı́stica xi son valores observados

5. Se pueden excluir valores de una sumatoria de la siguiente formas

2. Sea a una constante, entonces

3. La suma de los n primeros enteros es

2.1.3. Media geométrica

Otra forma para la expresión de la media geométrica es

Una de las aplicaciones de la media geométrica es en el campo financiero, por ejemplo, si se

Año 1 → 100*1.05 = 105 pesos

100 ∗ G4 = 100 ∗ (1,0994)4 = 1,46107

a = c(10, 2, 19, 24, 6, 23, 47, 24, 54, 77)

Una de las aplicaciones de la media armónica es en datos que recojan velocidades.

En 400 km la velocidad promedio será

Lo que implica que la media armónica es la más adecuada

a = c(10, 2, 19, 24, 6, 23, 47, 24, 54, 77)

La media ponderada de las notas por los créditos será

Cuando n es un número par, entonces es el valor que ocupa la posición correspondiente

Ahora consideramos 2 casos:

x0,95 → El noventa y cinco percentil

- El primer cuartil será obtenido como sigue

- La mediana será obtenida de la siguiente manera: np = (10 ∗ 21 ) = 5 siendo un número entero,

2.2.2. El rango intercuartilico

La cual puede ser reescrita como:

La demostración queda a cargo del lector.

2.2.4. La desviación tı́pica

Ejemplo Rango, Varianza y Desviación Estándar