Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Apunte Estadistica Descriptiva PDF
Apunte Estadistica Descriptiva PDF
FACULTAD DE INGENIERÍA
Departamento de Matemática
ESTADÍSTICA DESCRIPTIVA
por
COPIAPÓ - CHILE
2006
c 2006 by David Jorge Elal Olivero
Copyright
Índice general
1. Introducción 1
1.1. Panorama General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Bibliografı́a 49
Capı́tulo 1
Introducción
Definición 2.1 Una tabla compuesta de filas y columnas donde todos los datos de la población
en estudio se distribuyen según un criterio definido en las celdas generadas por la intersección
de las filas y culumnas se conoce con el nombre de Tabla de Frecuencias.
Para ilustrar la importancia de presentar una gran masa de datos en una tabla de frecuencia
analicemos los siguientes ejemplos
Ejemplo 2.1 Un sociólogo esta interesado en estudiar las edades de las personas de un de-
terminado Pais que tienen un ingreso menor al mı́nimo. No nos pongamos en el caso de las
grandes dificultades que tendrı́a para recolectar la información, y para simplificar la situación,
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS
supongamos que logra que un organismo gubernamental generosamente lo provea de gran infor-
mación.
Con respecto a grandes conjuntos de datos, con frecuencia se pueden transmitir a menudo una
buena representación total y la información suficiente mediante la clasificación de los datos en
una tabla de fecuencia y el sociólogo descubre que la información que busca se presenta como
se indica para el año 2005
Ejemplo 2.2 La tabla siguiente muestra la distribución del número de accidentes laborales de
un pais Z entre los años 2001 hasta 2005.
Observe que cada clase considera solo un valor asi la primera es solo el valor 2001, la segunda
2002, la tercera 2003, la cuarta 20004 y por último la quinta clase contempla solo el valor 2005
Por otra parte observe que el número de accidentes en el año 2005 disminuyó en un 4.17 %
respecto al año 2004, sin embargo El número de accidentes In Itinere aumentó en un 2,87 %
en el mismo perı́odo.
¿Cómo se calculan los ı́ndices (porcentajes) 4.17 % y 2,87 %? Desarróllelo
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS
Ejemplo 2.3 La tabla de distribución siguiente muestra como se movilizan al trabajo los
obreros de la empresa XY
.
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS
Definición 2.2 Los datos cuantitativos consisten en números que representan conteo o medi-
ciones.
Los datos cualitativos (o categóricos o de atributos) se caracterizan por ser reconocidos por una
cualidad y son no numéricos
3. Religión
5. Marca de cigarrillos
Podemos describir con mayor detalle los datos cuantitativo distinguiendo entre los tipos discre-
tos y continuos
Definición 2.3 Los datos discretos se obtienen de un número finito de posibles valores o bien
de un número de posibles valores que puede contarse. (Esto es el número de posible valores es
0, 1, 2, etc.)
Los datos continuos se obtienen de un número infinito de posibles valores que pueden asociarse
a puntos de una escala continua, de tal manera que no haya hueco e interrupciones
Ejemplo 2.7 La siguiente tabla muestra los sueldos lı́quidos (en miles)de 120 ejecutivos de la
empresa X
1170 1207 1581 1277 1305 1472 1077 1319 1537 1849
1332 1418 1949 1403 1744 1532 1219 896 1500 1671
1471 1399 1041 1379 821 1558 1118 1533 1510 1760
1826 1309 1426 1288 1394 1545 1032 1289 695 803
1440 1421 1329 1407 718 1457 1449 1455 2051 1677
1119 1020 1400 1442 1593 1962 1263 1788 1501 1668
1352 1340 1459 1823 1451 1138 1592 982 1981 1091
1428 1603 1699 1237 1325 1590 1142 1425 1550 913
1470 1783 1618 1431 1557 896 1662 1591 1551 1612
1249 1419 2162 1373 1542 1631 1567 1221 1972 1714
949 1539 1634 1637 1649 1607 1640 1739 1540 2187
1752 1648 1978 640 1736 1222 1790 1188 2091 1829
Es importante tener presente los siguientes consideraciones para confeccionar una tabla de
frecuencia:
3. Establecer los lı́mites de cada clase o intervalo para evitar los traslapes y asi impedir que
un dato pueda ser clasificado en dos o mas clases.
Nos proponemos clasificar la información en una tabla de distribución de frecuencia, para ello
debemos primeramente ponernos de acuerdo en el número de clases o intervalos a utilizar. Sobre
este punto es importante que exista acuerdo entre el equipo que está realizando la investigación
y prevalecerá, por supuesto, las razones técnicas para decidirlo. Dado que este es un ejemplo
académico resolveremos esta situación recurriendo a la regla de Sturges que nos dice lo siguiente:
Si N representa el número de intervalos a encontrar, entonces la regla de Sturges propone
calcularlo ası́:
N = 1 + 3, 3 × log n
En nuestro caso se tiene que el dato mayor es 2187 y el menor es 640, por lo tanto
2187 − 640
a= = 193, 375
8
Observación 2.1 La verdad es que el valor 193, 375 es muy feo para considerarlo como una
amplitud de intervalo(aunque se puede trabajar con él), ya que se va a usar mucho para realizar
cálculos y sumarı́a bastante complejidad al problema. ¿Cómo resolver la situación?
Pareciera que una amplitud de 194, 195 ó 196, que están por sobre 193, 375, serı́an bastante
cómodo ya que son número entero y muy próximo a 193, 375. Es importante destacar, que
cualquiera de ellos que usemos, sus efectos serı́an realmente insignificante tanto en las diferencias
de los resultados como sus interpretaciones, recuerde que estamos perdiendo precisión pero
ganando en interpretación, aún ası́ es recomendable considerar el entero, superior, mas próximo
que en nuestro caso es 194. Veamos gráficamente la situación:
Se observa que la amplitud de cada clase se obtiene al dividir por 8 la diferencia “2187−640 =
1547” lo que resulta el número feo 193, 375 (observe que esta diferencia representa la longitud
del intervalo [640 2187]). Pero lo que queremos es que la amplitud sea el número bonito 194,
esto obliga a que la diferencia “?−? = 1552”. Esto nos lleva a aumentar en 5 unidades la
diferencia “2187 − 640 = 1547”. y por consiguente a ampliar en 5 unidades la longitud del
intervalo [640 2187]).
Observación 2.2 1. Si el aumento de la longitud del intervalo hubiese sido un número par,
por ejemplo 4, entonces se resta 2 unidades al lado izquierdo (640) y se suman 2 unidades
al lado derecho (2187)
2. En nuestro caso hay que aumentar en un número impar, que es 5, la longitud del intervalo
- en tal caso - se elige en forma arbitraria la distribución de 2 unidades a la izquierda
y 3 a la derecha o viceversa. Si la elección es restar 3 unidades a la izquierda y sumar
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS
Una vez que hemos determinado el número de clases ó intervalos y la amplitud de cada uno
de ellos la tabla de distribución de frecuencia quedarı́a:
Intervalos frecuencia
- (f)
637 − 831
831 − 1025
1025 − 1219
1219 − 1413
1413 − 1607
1607 − 1801
1801 − 1995
1995 − 2189
Intervalos frecuencia
- (f)
[637 831[
[831 1025[
[1025 1219[
[1219 1413[
[1413 1607[
[1607 1801[
[1801 1995[
[1995 2189]
Intervalos frecuencia
- (f)
637 − 831 5
831 − 1025 6
1025 − 1219 11
1219 − 1413 24
1413 − 1607 38
1607 − 1801 23
1801 − 1995 9
1995 − 2189 4
1. El datos 24 significa que: “24 ejecutivos de la empresa tienen un sueldo lı́quido entre
$1.219.000 y $1.413.000”.
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS
Observación 2.4 Para graficar el polı́gono de frecuencia se tomaron las siguientes considera-
ciones
1. Las lı́neas que unen los puntos de los techos de los rectángulos dan una aspecto tosco y se
ha preferido suavizarla dándole una forma mas acampanada.
Ahora completaremos la tabla de distribución agregando dos nuevas columnas que se logran
acumulando las frecuencias y frecuencias relativas como se muestra a continuación:
2. El valor 89,2 ubicado en la 5a columna se interpreta como: “El 89,2 % de los ejecutivos,
de la empresa, tienen un sueldo inferior a $1.801.000”.
3. El valor 38,3 ubicado en la 5a columna se interpreta como: “El 38, 3 % de los ejecutivos
de la empresa tienen un sueldo inferior a inferior a $1.413.000
4. Observe que: “El 60, 8 % (obtenido de 70 % - 9, 2 %)de los ejecutivos de la empresa tienen
un sueldo entre $1.025.000 y $1.607.000
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS
La ojiva porcentual es un gráfico que se construye uniendo los puntos (831; 4,2), (1025; 9,2),
(1219; 18,3), (1413; 38,3), (1607;70), (1801; 89,2), (1995; 96,7), (2189; 100) y queda asi:
Definición 2.4 Dado un conjunto de datos perteneciente a una población y suponiendo orde-
nada de menor a mayor, se define el percentil(k), y se denota por Pk a aquel valor que deja a
su izquierda el k % de los datos y a su derecha (100-k) %
Ejemplo 2.8 Una vez ordenado los datos, P30 es el valor que deja a su izquierda el 30 % de
los datos y a su derecha el 70 %.
1. Encuentre P70 de los datos correspondientes a los sueldos de los 120 ejecutivos de la
empresa X (con solo observar la ojiva porcentual)
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS
2. Encuentre P80 y P50 de los datos correspondientes a los sueldos de los 120 ejecutivos de
la empresa X, utilizando la siguiente fórmula:
k
100
n − Fa− a
Pk = liminf +
f
donde
b) Fa− : corresponde a la frecuencia acumulada hasta antes del intervalo donde se en-
cuentra el percentil buscado Pk
k
n
100
como resultado nos dará un número que debemos ir comparándolo con la columna de la fre-
cuencia acumulada y con el primer valor que supere al número nos detenemos en dicho valor y
observamos en que intervalo se encuentra el que nos dará precisamente el intervalo que andamos
buscando. Ası́ por ejemplo ¿ Dónde se encuentra el percentil P40 ?. Primero calculamos:
40
120 = 48
100
Recorriendo la columna de frecuencia acumulada vemos que el primer valor que supera al
número 48 es 84 el que se encuentra precisamente en el intervalo 1413 − 1607.
Capı́tulo 3
En estadı́stica es común usar los términos población y muestra. Estos términos son un centro
de atención en la estadı́stica, asi que los pasamos a precisar en la siguiente definición.
Definición 3.1 Una población es la colección completa de todos los elementos (puntajes, per-
sonas, mediciones, etc.)que se van a estudiar
Un Censo es la colección de datos de cada elemento de la población.
Una muestra es una porción, o parte de una población.
El estudio de una muestra de la población para proyectar resultados confiables a toda ella,
como hemos visto, corresponde a la estadı́stica inferencial.
Intimamente relacionado con los conceptos de población y muestra está el de parámetro
Definición 3.2 Un parámetro es una medición numérica que describe alguna caracterı́stica de
una población
Observación 3.1 Cuando la medición numérica describe alguna caracterı́stica de una muestra
de la población el parámetro toma el nombre de estadı́stico
Ejemplo 3.1 1. Una encuesta aplicada a 348 dueñas de casa, en la ciudad de La Serena,
arrojó que 75 (21,55 %) de ellas tienen mas de dos hijos. Dado que la cifra 21,55 % se
basa en una muestra(no en toda la población) es un estadı́stico(no un parámetro)
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
2. Una encuesta aplicada a los 120 diputados de Chile muestra que 75 (62,5 %) de ellos
superan los 65 años de edad. La cifra 62,5 % serı́a un parámetro porque se basa en la
población de todos los diputados.
3. Una encuesta aplicada a los 258 funcionarios de la empresa XYZ arrojó que el suel-
do promedio imponible era de $458.650. La cifra promedio serı́a entonces también un
parámetro.
Definición 3.3 Sean x1 , x2 , x3 , ..., xn n datos reales, se define el promedio de los n datos, y se
denota por X, como P
xi
X=
n
Observación: El promedio tiende a ubicarse alrededor del centro de los datos por lo que se le
conoce como una medida de tendencia central
x1 = 2, x2 = 6, x3 = 4, x4 = 2, x5 = 2, x6 = 3, x7 = 4, x8 = 3, x9 = 2, x10 = 4
entonces
P
xi x1 + x2 + x3 + ... + x10 2 + 6 + 4 + ... + 4 32
X= = = = = 3, 2
n 10 10 10
Observación 3.3 En ejemplo anterior se puede observar que realmente hay cuatro datos que
son el 2,3,4 y 6: ocurre que el 2 se repite 4 veces, el 3 se repite 2 veces, el 4 se repite 3 veces
y por último el 6 aparece solo una vez. Podriamos mostar mejor esta observación disponiendo
los datos en una tabla de frecuencia como se ilustra a continuación:
Definición 3.4 Sean x1 , x2 , x3 , ..., xn n datos reales, se define el promedio ponderado de los n
datos, y se denota por Xp , como
X
Xp = xi ∗ pi
P
donde pi = 1
Observe que la Alternativa1 corresponde al promedio normal en que cada nota tiene el
mismo peso o ponderación y el alumno estarı́a reprobando la asignatura con nota 48 como se
ilustra:
X
xi ∗ pi = x1 ∗ p1 + x2 ∗ p2 + x3 ∗ p3 + x4 ∗ p4 = 63 ∗ 0, 25 + 39 ∗ 0, 25 + 40 ∗ 0, 25 + 50 ∗ 0, 25 = 48
y por último bajo la alternativa3 el estudiante estarı́a aprobando la asignatura con nota 50,
ponderación que obviamente le favorecerı́a
X
xi ∗ pi = x1 ∗ p1 + x2 ∗ p2 + x3 ∗ p3 + x4 ∗ p4 = 63 ∗ 0, 3 + 39 ∗ 0, 2 + 40 ∗ 0, 2 + 50 ∗ 0, 3 = 50
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
Definición 3.5 Sean x1 , x2 , x3 , ..., xn n datos reales. Se define la Varianza de los datos, y se
denota por S 2 , como:
(xi − X)2
P
2
S =
n
Definición 3.6 Sean x1 , x2 , x3 , ..., xn n datos reales. Se define la Desviación estándar de los
datos como la raiz cuadrada de la varianza, y se denota por S: ası́
s
√
P
(xi − X)2
S= S = 2
n
2 x2i
P
2
1. SX = X2 − X con X 2 = n
2. x1 = k, x2 = k, x3 = k, ..., xn = k, k ∈ ℜ entonces
2
X = k y SX =0
3. Si yi = axi + b, a ∈ ℜ, b ∈ ℜ entonces:
Y = aX + b
y
SY2 = a2 SX
2
Demostración:
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
1.
(xi − X)2
P
2
S =
n
1X
= (xi − X)2
n
1X 2 2
= (xi − 2xi X + X )
n
1 hX 2 X X 2 i
= xi − 2xi X + X )
n
P 2 P 2
xi xi nX
= − 2X +
Pn 2 n n
xi 2 2
= − 2X + X
Pn 2
xi 2
= −X
n
definiendo
x2i
P
X2 =
n
se tiene la propiedad señalada
2
S2 = X 2 − X
1 1
k = n1 nk = k
P P
2. X = n
xi = n
3.
2
S2 = Y 2 − Y
1X 2
= yi − (aX + b)2
n
1X
= (axi + b)2 − (aX + b)2
n
1X 2 2
= (a xi + 2abxi + b2 ) − (aX + b)2
nP
x2i xi nb2
P
2
= a + 2ab + − (aX + b)2
n n n
2 2
= a X + 2abX + b − (a X + 2abX + b2 )
2 2 2
2
= a2 X 2 − a2 X
= a2 SX
2
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
Ejemplo 3.3 Considerando los datos del ejemplo 3.2 en la página 21 podemos calcular la
desviación estándar sabiendo que
2
X = 3, 2 y entonces X = 10, 24
x2i
P
1
X2 = = (22 + 62 + 42 + 22 + 22 + 32 + 42 + 32 + 22 + 42 ) = 11, 8
10 10
de esta manera
2
S 2 = X 2 − X = 11, 8 − 10, 24 = 1, 56
Aprovecharemos ahora el hecho de que muchos datos se repiten para calcular la desviación
estándar recurriendo a una tabla de frecuencia: Observe que:
P 2 P 2 2
2 2fx fx 118 32
S = X2 −X = P − P = − = 11, 8 − 3, 22 = 11, 8 − 10, 24 = 1, 56
f f 10 10
por lo que
p
S= 1, 56 ≈ 1, 25
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
Vamos a continuar con el estudio de otros parámetros, pero para seguir un orden vamos a
seguir con parámetros que tienen una caracterı́stica común y en particular aquellos conocidos
como de tendencia central como lo es el promedio (o media). Cabe hacer notar que la
desviación estándar no es una medida de tendencia central pero como tiene una gran relación
con el promedio se aprovechó la oportunidad para mostarlo, sin embargo, se volverá a retomar
esta medidad para estudiarla con mayor profundidad mas adelante por la importancia que ella
tiene.
Definición 3.7 La mediana de un conjunto de datos es aquel valor (no necesariamente pertenece
al conjunto de los datos) que una vez ordenada la información se ubica de tal manera que deja
a su izquierda el 50 % de los datos y el otro 50 % a su derecha
Çuando el número de datos es impar (n impar), la mediana, es el valor del dato que está en la
mitad
Çuando el número de datos es par (n par), la mediana, es el valor que toma el promedio de los
dos datos centrales
Ejemplo 3.4 El número de accidentes, de la empresa Royal & Anderson, en los primeros 5
meses del año 2005 fueron respectivamente: 12,8,15,9,12.
La mediana no es 15, ya que previamente se debe ordenar la muestra (de menor → a mayor o
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
8 9 12 12 15
y se puede apreciar que la mediana es 12. Observe que en este ejemplo hay dos datos 12, pero
como la mediana es un valor y no un dato, hay que tomar al 12 como un valor que toma la
mediana
Distribución del número de accidentes de la empresa Royal & Anderson, durante el año 2005
Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic
12 8 15 9 12 16 10 9 7 8 15 17
10 + 12
Mediana = = 11
2
La mediana no es sino uno de los muchos cuantiles diferentes que dividen un conjunto de
datos en dos o mas partes iguales. También de importancia en la estadı́stica son los cuartiles,
quintiles y percentiles, pero como estos últimos se utilizan principalmente con respecto a grandes
masas de datos, los analizaremos en detalle en el próximo capı́tulo. Por tanto, mostraremos aqui
los tres cuartiles Q1 , Q2 , y Q3 . Para comprender mejor el concepto ordenamos la información
( de menor → a mayor) e imaginemos que se disponen en la siguiente recta
2. El segundo cuartil Q2 coincide con la mediana y deja a ambos lados el 50 % de los datos
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
Ejemplo 3.6 Los que siguen son los números de minutos que una persona, en su camino al
trabajo, tuvo que esperar el bus en 14 dı́as de trabajo.
Para encontrar los valores de Q1 , Q2 y Q3 debemos de ordenar los datos quedando asi:
1, 2, 2, 3, 5, 6, 8, 9, 9, 10, 10 10, 13 17
y se tiene que:
8+9
Mediana = Q2 = = 8, 5 Q1 = 3 y Q3 = 10
2
Definición 3.8 La moda es el valor que aparec con la mas alta frecuencia
En este sentido es el “mas común”de un conjunto de datos; sus dos ventajas principales son que
no requieren cálculos y que se puede determinar para datos cualitativos y cuantitativos. Por
otra parte al igual que la mediana, la moda no se encuentra afectada por los valores extremos
Ejemplo 3.7 Las temperatura, en grados celsius, durante las dos primeras semanas del mes
de marzo del 2006 en la ciudad de La Serena fueron:
25◦ , 28◦ , 27◦ , 25◦ , 26◦ , 27◦ , 25◦ , 26◦ , 27◦ , 25◦ , 27◦ , 22◦ , 27◦ y 27◦
Claramente la medición de mas alta frecuencia (se repite seis veces) es 27◦ y por lo tanto
corresponde a la moda.
Observación 3.5 No deja de ser importante la frecuencia presentada por la medición 25◦ que
se repite 4 veces como agregando una nueva moda en un segundo lugar de preferencia. En el
vaso de variables continuas no es extraño encontrar comportamiento bimodal (dos modas).
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
Ejemplo 3.8 Cuando se les pidió mencionaran al mejor equipo del futbol Chileno, 20 periodis-
tas deportivos nombraron a los siguientes clubes:
Dep. La Serena, U. de Chile, Colo Colo, Dep. La Serena, U. Católica, Dep. La Serena, U. de
Chile, U. Católica, Dep. La Serena, Huachipato, Colo Colo, Dep. La Serena, Colo Colo, Colo
Colo, U. Católica, U. de Chile, U. de Chile, Dep. La Serena, Dep. La Serena, Colo Colo.
Dado que Cobrelos se repite con mayor frecuencia, 7 veces, entonces Cobreloa corresponde a la
moda.
Observación 3.6 La información dada por los 20 periodista del ejemplo anterior puede pre-
sentarse en una tabla de distribución como sigue:
Clubes frecuencia
U. de Chile 4
U. Católica 3
Dep. La Serena 7
Colo Colo 5
Huachipato 1
20
Alumnos A1 A2 A3 A4
nota1 50 60 90 100
nota2 50 40 10 0
nota3 50 40 80 100
nota4 50 60 20 0
P
200 200 200 200
Como era de esperar, al coincidir las cuatro calificaciones del alumno A1, las desviaciones de
cada una de ellas respecto al promedio es nula y es la razón por la cual la desviación estándar
es cero, podemos asegurar en este caso entonces que el promedio es un muy buen representante
de las 4 calificaciones por estar muy cerca de cada una de ellas.
Por otra parte, se tiene que:
Ahora
2 902 + 102 + 802 + 202 15000
XA3 = = = 3750
4 4
por lo que la desviación estándar de las calificaciones del alumno A3 es:
q
2 √ √
2
SA3 = XA3 − X A3 = 3750 − 2500 = 1250 ≈ 34,35
y por último
2 1002 + 02 + 1002 + 02 20000
XA4 = = = 5000
4 4
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
En resumen podemos apreciar que en la medida en que las calificaciones de los alumnos se
alejan mas del promedio la desviación estándar aumenta y en consecuencia el promedio pierde
representatividad del conjunto de notas.
1. Mientras mas se alejan los datos del promedio mas aumenta la desviación estándar
Para tener una una noción mas exacta de lo que mide en realidad una desviación estándar,
dedicaremos esta sección a algunas aplicaciones.
En el argumento que nos llevó a la definición de la desviación estándar, se observó que la disper-
sión de un conjunto de datos es pequeña si los valores se agrupan en torno al promedio y que es
grande si los se dispersan ampliamente en torno al promedio. En forma correspondiente, ahora
podemos decir que si la desviación estándar de un conjunto de datos es pequeña, los valores se
concentran en la proximidad del promedio y si es grande los valores se dispersan ampliamente
en torno al promedio.
Esta idea es expresada de manera formal por el siguiente teorema, llamado teorema de Cheby-
shev en honor al matemático ruso P. L. Chevyshev (1821 - 1894)
2. si k = 3 se tiene que:
1 1 1 8
1− = 1 − 2 = 1 − = ≈ 0,89
x2 3 9 9
Observación 3.9 El teorema de chevyshev es válido para cualquier conjunto de datos, pero
si los datos tienden a distribuirse en forma simétrica alrededor del promedio, entonces la dis-
tribución de los porcentajes de dichos datos considerando una, dos y tres desviaciones estándar
quedan como muestra el siguiente gráfico:
Ejemplo 3.9 Supongamos que un estudiante es sometido a tres axámenes, en tres asignaturas
diferentes, y obtiene las siguientes calificaciones.
Aparentemente podrı́a parecer que la mejor calificación del estudiante es la de inglés y la más
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
pobre la de matemáticas. Sin embrago, serı́a póco inteligente apresurarse a tal conclusión, pués
existen varias razones por la que las calificaciones puras pueden no ser comparables. Por ejem-
plo, puede que el examen de inglés haya sido muy fácil, con abundancia de calificaciones abul-
tadas, mientras que el de matemática resultó demasiado difı́cil. O bien, que el examen de inglés
se ha calificado sobre un total de 100 puntos y el de matemática sobre 80 puntos etc.
Las calificaciones en sı́ suministran información sobre el número absoluto de puntos obtenidos,
pero ninguna indicación acerca de la bondad del rendimiento en comparación con el de los
demás. Supongamos que ahora se nos agrega una nueva información y nos dan el promedio de
las calificaciones de cada asignatura las que se reflejan en la siguiente tabla:
de matemática y sociologı́a para confrontarlo y para ello vamos a anlizar toda la información,
es decir, consideraremos la nota, el promedio y la desviación estándar:
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
La desviación estándar muestra que la dispersión de los datos en las notas de psicologı́a fue de
15 puntos por lo que la calificación 75 se encuentra a una distancia de una desviación estándar
respecto al promedio y se puede deducir que aproximadamente existe un 16 % de alumnos sobre
dicha nota.
Por otra parte la desviación estándar de las notas de matemática es de 5 y la calificación 65
se encuentra a dos desviaciones estándar respecto al promedio por lo que sobre ella sólo hay
aproximadamente un 2,5 %, lo que habla de que debe ser una de las mejores notas del curso.
Podemos resumir enfatizando la importancia que tiene hacer un análisis considerando el com-
portamiento del promedio y la desviación estándar. Hemos cambiado radicalmente de opinión
al conocer los parámetros mencionados y la asignatura de matemática pasó a ser la mejor cal-
ificación del alumno y la de inglés la peor y antes de este conocimiento la opinión era todo lo
contrario.
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
3.5.1. Estandarización
Hemos aprendido que las calificaciones, por si sola, no son comparables y todo pasa por
considerar el comportamiento del promedio y la desviación estándar. Una forma de establecer
un mecanismo que permita la comparación directa de las calificaciones, pasa por el concepto
de estandarización, que consiste en convertir las calificaciones originales en unas nuevas con la
importante propiedad de que éstas tienen promedio igual a cero y desviación estándar igual
a uno. Al estandarizar todas las calificaciones de cada asignatura entonces quedan en iguales
condiciones (igual promedio e igual desviación estándar) para ser comparadas.
xi − X
zi =
S
Ejemplo 3.10 Considerando el ejemplo de las calificaciones del estudiante en las asignaturas
de inglés, matemática y psicologı́a y procediendo a la estandarización de cada una de sus notas
se tiene lo siguiente: .
Ahora se pueden comparar los datos estandarizados(z) y observamos que la mejor es matemática(z =
2) luego psicologı́a(z = 1) y último inglés(z = −0,5)
S
CV = 100 %
X
Ejemplo 3.11 Durante los meses pasados, un corredor promedió 12 km. por semana con una
desviación estándar de 2 km., mientras que otro corredor promedió 25 km. por semana con una
desviación estándar de 3 km.¿Cuál de los dos corredores es relativamente mas consistente en
sus hábitos de correr todas las semanas?
Solución
Sea CV1 y CV2 los coeficientes de variación del primer y segundo corredor rspectivamente,
entonces:
2 3
CV1 = 100 % = 16, 7 % y CV2 = 100 % = 12 %
12 25
Por lo tanto el segundo corredor es relativamente mas consistente en sus hábitos de correr todas
las semanas
Definición 3.11 Un número ı́ndice es una relación en porcentaje que mide el cambio de un
tiempo a otro en precio, cantidad, valor o algún otro elemento de interés
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
Observación 3.10 Ası́ como el promedio o cualquier otro promedio resume un conjunto de
valores, un número ı́ndice se utiliza para determinar la variación en porcentaje (o en 1000,
10000, 100000 ó 1000000 etc.) en una sola cifra, del precio, valor o cantidad de un conjunto
de datos estadı́sticos de un perı́odo a otro.
. Es importante destacar que existe una gran variedad de ı́ndices y muchos de ellos obedecen a
una estructura general y otros tienen un tratado especial. En estos apuntes veremos una forma
muy elemental, de este concepto, y que obedecen a una patrón de comportamiento y luego
veremos algunos ı́ndices especiales que están ya estandarizados y normados por el Sernageomin
basados en estándares internacionales.
Ejemplo 3.12 Suponga que el precio de un artı́culo cualquiera entre 1990 1995 fue como sigue:
.
Año Precio
1990 400
1991 600
1992 550
1993 275
1994 350
1995 700
Para el cálculo de un ı́ndice se debe considerar un perı́odo base para fines comparativos. En el
caso del ejemplo consideraremos, como perı́odo base, el año 1990 y luego procederemos a calcular
el ı́ndice de variación de los años siguientes y finalemente estableceremos la comparaciones e
interpretación.
precio 1990 400
I90 = × 100 = × 100 = 100
precio 1990 400
precio 1991 600
I91 = × 100 = × 100 = 150
precio 1990 400
precio 1995 550
I92 = × 100 = × 100 = 137,5
precio 1990 400
precio 1993 275
I93 = × 100 = × 100 = 68,75
precio 1990 400
precio 1994 350
I94 = × 100 = × 100 = 87,5
precio 1990 400
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
Cuando se calcula un número ı́ndice la base puede permanecer fija, como en el caso del ejemplo,
en éste, el precio de cada perı́odo de la serie se comparó con el precio del perı́odo 1990 (base
fija).Otra forma de calcular los ı́ndices consiste en variar la base de un perı́odo a otro, cuando
este es el caso, se dice que los ı́ndices se calcularon con base variable.
Lo que hemos visto sobre, números ı́ndices, ha sido a nivel introductorio sin profundizar en otras
forma de generar indicadores. Nos proponemos ahora analizar, en particular, algunos ı́ndices
que han sido estandarizados y reconocidos por Sernageomin para establecer comparaciones con
estándares tanto nacionales como internacionales.
Indice de frecuencia
Definición 3.12 LLamamos ı́ndice de frecuencia al número de accidentes con tiempo perdido
por millón de horas hombres de exposición al riesgo, entendiendo por
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
3. Factor 1000000
Es una constante para facilitar los cálculos.
Observación 3.12 En el análisis de este ı́ndice se debe dejar constancia que el cálculo de
las horas hombres debe ser lo mas exacto posible y regirse por las normas emanadas por el
Sernageomin.
Ejemplo 3.13 En una faena minera laboran 1000 trabajadores en jornadas de trabajo de 5 × 2
con 9 horas de trabajo diario.
En un mes ocurrieron 150 accidentes que se descomponen como sigue:
Por otra parte el número total de accidentes con tiempo perdido es de 66. De esta manera el
ı́ndice de frecuencia es de:
66
IF = × 1000000 = 333,33 ≈ 333
198000
Significa que por cada millón de horas hombres con exposición al riesgo, ocurrirán 333 acci-
dentes con tiempo perdido.
Indice de gravedad
La importancia del ı́ndice de gravedad radica no solo en las consecuencias de las lesiones,
sino en el tiempo perdido y el mayor o menor costo que éstas acarrean. La forma mas práctica
de obtener el ı́ndice de gravedad es relacionar los dı́as perdidos debido a accidentes, con el
número total de horas hombres expuestas al riesgo.
Definición 3.13 El ı́ndice de gravedad es la relación que existe entre el total de dı́as perdidos
debido a los accidentes del trabajo y el total de horas hombres de exposición al riesgo, multipli-
cado por 1000000.
Si llamamos IG al ı́ndice de gravedad se tiene que:
N◦ de dı́as perdidos
IG = × 1000000
Total horas hombres
Ejemplo 3.14 En una industria de 1500 trabajadores con jornada completa, se produjeron en
un mes 50 accidentes distribuidos como se muestra en la siguiente tabla:
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
7000
IG = × 1000000 = 25925, 925 ≈ 25926
270000
Significa que por cada millón de horas hombres expuestas al riesgo se pierden 25926 dı́as de
trabajo.
Capı́tulo 4
Cuando los datos de una determinada población están relacionados con dos variables es muy
útil recurrir a una tabla de doble entrada para distribuir en ella todos los datos que cumplan
obviamente con los dos criterios definidos por las variables mencionadas. En general, una tabla
de doble entrada tiene la siguiente forma.
m
X
f•j = fij = f1j + f2j + · · · + fmj
i=1
CAPÍTULO 4. ESTADÍSTICA DESCRIPTIVA BIVARIADA
m X
X n m
X n
X
f•• = f ij = fi• + f•j
i=1 j=1 i=1 j=1
Recurriremos a un ejemplo para interpretar los valores que se encuentran en las celdas de
una tabla de doble entrada. Aprovecharemos, al mismo tiempo, de definir conceptos como:
Distribuciones marginales, distribuciones condicionales y covarianza:
Ejemplo 4.1 Considere la siguiente tabla de doble entrada que muestra a trabajadores de la
empresa W distribuidos según sus edades y años de experiencia.
Responderemos las siguientes preguntas como una manera de ilustrar diferente definiciones
como también apreciar las bondades que tiene una tabla de doble entrada
2. Calcular la edad promedio y la desviación estándar de los trabajadores con una experiencia
entre 5 y 10 años.
3. El 25 % de los trabajadores con mas años de servicios recibirán un bono extra de $180000
pesos. Si Juan Pérez tiene 14 años de servicio. ¿Tiene derecho el Sr. Pérez al bono?.
Respuestas
1. f33 = 15; Significa que 15 trabajadores tienen entre 30 y 35 años de edad y entre 10 y 15
años de experiencia.
f4• = 51;Significa que 51 trabajadores tienen entre 35 y 40 años.
f•3 = 50; Significa que 50 trabajadores tienen entre 10 y 15 años de experiencia.
CAPÍTULO 4. ESTADÍSTICA DESCRIPTIVA BIVARIADA
Para calcular el promedio y la desviación estándar debemos incorporar una nueva colum-
na con las marcas de clase que corresponden a los puntos medios de las clases (o intervalos),
quedando de la siguiente manera:
Hemos introducido la columna marca de clase con la finalidad de calcular un promedio (aprox-
imado) para datos tabulados. Con el objeto de aclarar esto interpretaremos la marca de clase
37, 5 (que corresponde al intervalo 35 − 40) diciendo que: 20 trabajadores tienen una edad de
37, 5 años. Lo que quiere decir que la edad 37, 5 años se repite 20 veces. Asi, tenemos que:
P5
j=1 xi fi2 1462, 5
X/y ∈ [5, 10] = P5 = = 35, 67
j=1 fi
41
donde la notación X/y ∈ [5, 10] se interpreta como el promedio de edad condicionado a los
valores de y entre 5 y 10, es decir a los trabajadores que tienen entre 5 y 10 años de servicio.
Buscaremos ahora la deviación estándar(datos tabulados), para ello completaremos la tabla
para realizar los cálculos necesarios:
Recuerde que:
P 2 P 2 2
2 2fx fx 53056, 25 1462, 5
S = X2 −X = P − P = − = 21, 706
f f 41 41
CAPÍTULO 4. ESTADÍSTICA DESCRIPTIVA BIVARIADA
Observe que nos están preguntando por el percentil 75 (P75 )y la variable que se está con-
siderando son los años de servicio de los trabajadores. Por esta razón vamos a construir una
tabla que se llama Tabla marginal, que pasamos a mostrar.
calculamos la expresión
75
124 = 93
100
comparamos el valor 93 con la columna de la frecuencia acumulada(F•j ), partiendo de la primera
celda, y con el primer valor que lo supere nos detenemos en dicho valor e inspeccionamos en
que intervalo se encuentra y concluimos que corresponde a 10 − 15. Conocido el intervalo donde
se encuentra el P75 , podemos aplicar la fórmula:
75
100
n − Fa− a
P75 = liminf +
f
reemplazando los datos liminf = 10, n = 124, Fa− = 49, a = 5 y f = 50 tenemos que:
75
100
124 − 49 5
P75 = 10 + = 14, 4
50
El señor Pérez por tener 14 años de servicio no logra ser beneficiado por el bono.
CAPÍTULO 4. ESTADÍSTICA DESCRIPTIVA BIVARIADA
4.0.5. Covarianza
Cuando se trabaja con dos variables, un parámetro que permite decidir que tipo de aso-
ciación existe entre ellas, es la covarianza que se denota por Cov(X, Y ) y que pasamos a definir:
Definición 4.1
Cov(X, Y ) = XY − X Y
donde P P P
xy x y
XY = y XY =
n n n
n representa el total de casos (suma de las frecuencias)
Ejemplo 4.2 Al calcular la Cov(X,Y) de la tabla de doble entrada del ejercicio en que la vari-
able X representa la edad de los trabajadores y la variable Y representa los años de experiencia
de ellos, se tiene que:
P P
fy f•j yj 1465
Y = P = P = = 11, 814
f f•j 124
P P
xy xyf 56200
XY = = Pi j ij = = 453, 225
n fij 124
Ası́:
Cov(X, Y ) = XY − X Y
Podemos decir, que existe una relación directamente proporcional entre los años de experiencia
y la edad de los trabajadores.
Bibliografı́a