Apunte Estadistica Descriptiva PDF

UNIVERSIDAD DE ATACAMA
FACULTAD DE INGENIERÍA
Departamento de Matemática
ESTADÍSTICA DESCRIPTIVA
por
Dr. David Jorge Elal Olivero
COPIAPÓ - CHILE
2006
c 2006 by David Jorge Elal Olivero
Copyright
Índice general
1. Introducción 1
1.1. Panorama General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2. Distribución de la información y tipos de datos 3

2.1. Introducción a las tablas de frecuencias . . . . . . . . . . . . . . . . . . . . . . . 3
2.2. La naturaleza de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3. Tabla de distribución y gráficos . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3.1. Determinación del número de clases . . . . . . . . . . . . . . . . . . . . . 9
2.3.2. Determinación de la amplitud de cada clase . . . . . . . . . . . . . . . . 9
2.3.3. Construcción de la tabla de distribución de frecuencia . . . . . . . . . . 11
2.3.4. Gráfico, histograma y polı́gono de frecuencia . . . . . . . . . . . . . . . . 13
2.3.5. Construcción de la tabla de distribución de frecuencia acumulada . . . . 16
2.3.6. Gráfico, Ojiva porcentual . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3.7. Cálculo de percentiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3. Estudio de Parámetros de una Población 19

3.1. Medidas de tendencia central:promedio . . . . . . . . . . . . . . . . . . . . . . . 20
3.1.1. Propiedades del promedio y la varianza . . . . . . . . . . . . . . . . . . . 23
3.2. Medidas de tendencia central: mediana y otras cuantiles . . . . . . . . . . . . . . 26
3.3. Medidas de tendencia central: moda . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.4. Medidas de variabilidad: desviación estándar . . . . . . . . . . . . . . . . . . . . 29
3.5. Estandarización y coeficiente de variación . . . . . . . . . . . . . . . . . . . . . . 32
3.5.1. Estandarización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.5.2. Coeficiente de variación . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.6. Introducción a los números ı́ndices . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.6.1. Indices de frecuencia y gravedad en prevención de riesgo . . . . . . . . . 38
4. Estadı́stica descriptiva bivariada 42

4.0.2. Distribución condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.0.3. Marca de clase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.0.4. Distribución marginal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.0.5. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Bibliografı́a 49
Capı́tulo 1
Introducción
1.1. Panorama General

Definición 1.1 Estadı́stica es la ciencia que trata de los métodos y medios para recopilar,
organizar, presentar, analizar e interpretar datos estadı́sticos, con el objeto de tomar decisiones
mas eficaces.
El problema de describir, resumir y analizar datos de censos condujo a la creación de métodos

que, hasta hace poco, constituı́an casi todo lo que habı́a sobre el tema de la estadı́stica. Estos
métodos, que en un principio consistı́an sobre todo en la presentación de datos en forma de
tablas y diagramas, constituyen lo que ahora se denomina la estadı́stica descriptiva. Esta
comprende cualquier cosa que se haga con los datos y que este diseñada para resumirlos o
describirlos, sin tener que ir mas lejos, o sea, sin intentar deducir nada que escape de los datos
mismos. Por ejemplo un anuario informa que los accidentes en faenas mineras en chile, durante
el año 2004, fueron de 21.567 mientras que en el año 2005 fueron de 25.469 y se realizan los
cálculos necesarios para demostrar que hubo un incremento de los accidentes, en dicho perı́odo,
de un 18,09 %, este trabajo pertenece al campo de la estadı́stica descriptiva. Sin embargo, éste
no serı́a el caso si se utilizaran los datos para predecir el número de accidente, por ejemplo,
para el 2006.
A pesar que la estadı́stica descriptiva es una rama importante de la estadı́stica y se sigue uti-
lizando ampliamente, la informacion estadı́stica suele emanar de muestras (de observaciones
hechas sólo en parte de un conjunto grande de elementos), y esto quiere decir que su análi-
sis requerirá generalizaciones que van mas allá de los datos mismos. Como resultado, una
CAPÍTULO 1. INTRODUCCIÓN
caracterı́stica importante del reciente desarrollo de la estadı́stica ha sido el paso de métodos

meramente descriptivos a métodos que sirven para hacer generalizaciones, es decir el paso de
la estadı́stica descriptiva a los métodos de la estadı́stica inferencial .
En estos apuntes nos ocuparemos de desarrollar solamente aspectos de la estadı́stica descriptiva
Capı́tulo 2
Distribución de la información y tipos

de datos
2.1. Introducción a las tablas de frecuencias

El poder resumir una gran masa de datos en forma utilizable siempre ha sido importante,
pero se ha multiplicado considerablemente en las últimas décadas. Esto se ha debido en parte
al desarrollo computacional que han hecho posible realizar en minutos lo que antes se tenı́a
que dejar de hacer debido a que se llevarı́a meses o años, y en parte por el torrente de datos
generados por el enfoque cada vez mas cuantitativo de las ciencias.
El método mas común de resumir datos consiste en presentarlos en forma condensada en tablas
o gráficas, y aquı́ la palabra clave es: Distribución
Definición 2.1 Una tabla compuesta de filas y columnas donde todos los datos de la población
en estudio se distribuyen según un criterio definido en las celdas generadas por la intersección
de las filas y culumnas se conoce con el nombre de Tabla de Frecuencias.
Para ilustrar la importancia de presentar una gran masa de datos en una tabla de frecuencia
analicemos los siguientes ejemplos
Ejemplo 2.1 Un sociólogo esta interesado en estudiar las edades de las personas de un de-
terminado Pais que tienen un ingreso menor al mı́nimo. No nos pongamos en el caso de las
grandes dificultades que tendrı́a para recolectar la información, y para simplificar la situación,
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS
supongamos que logra que un organismo gubernamental generosamente lo provea de gran infor-
mación.
Con respecto a grandes conjuntos de datos, con frecuencia se pueden transmitir a menudo una
buena representación total y la información suficiente mediante la clasificación de los datos en
una tabla de fecuencia y el sociólogo descubre que la información que busca se presenta como
se indica para el año 2005
Cuadro 2.1: Personas con ingreso menor que el mı́nimo.

Edad Número de personas
(en años) (en miles)
Menores de 16 1.233
de 16 a 21 932
de 22 a 44 779
de 45 a 64 175
de 65 y mas 863
P
3.982
Esta tabla de frecuencia muestra como se distribuyen, aproximadamente, 4 millones de

personas de acuerdo a su edad. Observe que la clasificación se hace bajo un criterio (Edad)
que es una magnitud numérica, y por ejemplo la clase ”de 16 a 21 ” comprende los valores
16,17,18,19,20 y 21. Cada clase también puede abarcar un solo valor; como se ilustra en el
siguiente ejemplo.
Ejemplo 2.2 La tabla siguiente muestra la distribución del número de accidentes laborales de
un pais Z entre los años 2001 hasta 2005.
Observe que cada clase considera solo un valor asi la primera es solo el valor 2001, la segunda
2002, la tercera 2003, la cuarta 20004 y por último la quinta clase contempla solo el valor 2005
Por otra parte observe que el número de accidentes en el año 2005 disminuyó en un 4.17 %
respecto al año 2004, sin embargo El número de accidentes In Itinere aumentó en un 2,87 %
en el mismo perı́odo.
¿Cómo se calculan los ı́ndices (porcentajes) 4.17 % y 2,87 %? Desarróllelo
Cuadro 2.2: Accidentabilidad laboral

Año N◦ de accidentes Accidentes
Totales Itinere
2001 486.109 5.196
2002 671.004 5.933
2003 801.416 6.918
2004 821.458 7.339
2005 787.182 7.550
P
3.567.169 32.936
En el siguiente ejemplo los datos se distribuyen, en la tabla de frecuencia, según un criterio de

acuerdo a si cumple o no ciertas condiciones dadas por una cualidad.
Ejemplo 2.3 La tabla de distribución siguiente muestra como se movilizan al trabajo los
obreros de la empresa XY
Cuadro 2.3: Medios de transporte de los obreros de la empresa XY

Medios de Porcentaje
Transporte %
En auto propio 42
Solo en tren 14
Solo en bus 32
Combina bus y tren 8
Caminando (generalmente) 4
P
100 %
Ejemplo 2.4 La siguiente tabla de frecuencia ilustra el nivel de colesterol en la sangre de

ciudadanos de la ciudad de Calama entre 25 a 34 años de edad, registrados durante el primer
semestre del año 2006.
.
Cuadro 2.4: Distribución de ciudadanos de La Serena según nivel de colesterol en la sangre.

Nivel de frecuencia
mg
Colesterol( 100ml ) f
80 - 119 13
120 - 159 150
160 - 199 442
200 - 239 299
240 - 279 115
280 - 319 34
320 - 359 9
360 - 399 5
P
1067
Convencidos de la importancia de distribuir la información en una tabla de frecuencia amerita

una construcción y análisis más detallada, situación que hemos reservado para tratarla mas
adelante. Sin embargo podemos rescatar, que en el análisis hecho de las tablas de frecuencia,
nos hemos enfrentado a diferentes tipos de datos (que representan números o cualidades) que
pasamos a precisar en la siguiente sección.
2.2. La naturaleza de los datos

Algunos conjuntos de datos consisten en números y otros son no numéricos. Suelen utilizarse
los términos datos cuantitativos y datos cualitativos para distinguir entre estos dos tipos.
Definición 2.2 Los datos cuantitativos consisten en números que representan conteo o medi-
ciones.
Los datos cualitativos (o categóricos o de atributos) se caracterizan por ser reconocidos por una
cualidad y son no numéricos
Ejemplo 2.5 De datos cuantitativos:
1. Número de hijos en familias
2. Número de accidentes ocurridos durante un determinado mes, en una empresa X

3. Sueldos de funcionarios de una determinada organización
4. Tiempo de vida útil de una maquinaria
5. Distancia recorrida por un móvil
Ejemplo 2.6 De datos cualitativas:
1. Estado Civil (soltero, casado, divorciado, viudo)
2. Género (masculino o femenino)
3. Religión
4. Color de los ojos
5. Marca de cigarrillos
Podemos describir con mayor detalle los datos cuantitativo distinguiendo entre los tipos discre-
tos y continuos
Definición 2.3 Los datos discretos se obtienen de un número finito de posibles valores o bien
de un número de posibles valores que puede contarse. (Esto es el número de posible valores es
0, 1, 2, etc.)
Los datos continuos se obtienen de un número infinito de posibles valores que pueden asociarse
a puntos de una escala continua, de tal manera que no haya hueco e interrupciones
Ejemplo: Considerando el ejemplo de datos continuos, antes mencionado, se puede apreciar

que los casos 1 y 2 son datos discretos mientras que los casos 3,4 y 5 son datos continuos.
Hasta ahora hemos aprendido a distinguir las diferentes formas en que podrı́amos enfrentar
a un conjunto de datos. Para realizar un análisis o estudio descriptivo acusioso de ellos apren-
deremos a continuación a construir tablas de distribuciones.
2.3. Tabla de distribución y gráficos

En esta sección se analizará la forma de organizar un conjunto de datos, sin procesar, en
una tabla de distribución de frecuencia y como representar esta distribución de manera gráfica
en un histograma, un polı́gono de frecuencia, y una ojiva porcentual. Luego se resumirán y

presentarán otros tipos de información numérica en forma de gráfica de linea, de barras o de
algún otro tipo.
Cuando las observaciones se agrupan o condensan en tablas de distribución de frecuencia, el
proceso de análisis e interpretación de los datos se hace mucho más manejable y significativo. Al
clasificar la información en clases o intervalos la información inicial referente a las observaciones
que se disponı́a se pierde a través del proceso de agrupamiento, es decir, se está perdiendo
precisión de la información pero se está ganando en interpretación y comprobare-
mos que bien vale la pena, ya que lo que se gana, es mucho mas de lo que se pierde.
Los pasos a seguir para elaborar una tabla de distribución de frecuencia se explican mejor
utilizando un ejemplo.
Ejemplo 2.7 La siguiente tabla muestra los sueldos lı́quidos (en miles)de 120 ejecutivos de la
empresa X
1170 1207 1581 1277 1305 1472 1077 1319 1537 1849
1332 1418 1949 1403 1744 1532 1219 896 1500 1671
1471 1399 1041 1379 821 1558 1118 1533 1510 1760
1826 1309 1426 1288 1394 1545 1032 1289 695 803
1440 1421 1329 1407 718 1457 1449 1455 2051 1677
1119 1020 1400 1442 1593 1962 1263 1788 1501 1668
1352 1340 1459 1823 1451 1138 1592 982 1981 1091
1428 1603 1699 1237 1325 1590 1142 1425 1550 913
1470 1783 1618 1431 1557 896 1662 1591 1551 1612
1249 1419 2162 1373 1542 1631 1567 1221 1972 1714
949 1539 1634 1637 1649 1607 1640 1739 1540 2187
1752 1648 1978 640 1736 1222 1790 1188 2091 1829
Es importante tener presente los siguientes consideraciones para confeccionar una tabla de
frecuencia:
1. Seleccionar el número apropiado de clases o intervalo
2. Obtener la amplitud de cada clase o intervalo

3. Establecer los lı́mites de cada clase o intervalo para evitar los traslapes y asi impedir que
un dato pueda ser clasificado en dos o mas clases.
2.3.1. Determinación del número de clases
Nos proponemos clasificar la información en una tabla de distribución de frecuencia, para ello
debemos primeramente ponernos de acuerdo en el número de clases o intervalos a utilizar. Sobre
este punto es importante que exista acuerdo entre el equipo que está realizando la investigación
y prevalecerá, por supuesto, las razones técnicas para decidirlo. Dado que este es un ejemplo
académico resolveremos esta situación recurriendo a la regla de Sturges que nos dice lo siguiente:
Si N representa el número de intervalos a encontrar, entonces la regla de Sturges propone
calcularlo ası́:
N = 1 + 3, 3 × log n
donde n es el número total de datos.
En nuestro caso n=120, luego N = 1 + 3, 3 × log120 = 1 + 3, 3 × 2, 0792 = 7, 86 ≈ 8
Ası́ el número de intervalos (o clases) es N = 8.
2.3.2. Determinación de la amplitud de cada clase
Siguiendo las recomendaciones para confeccionar una tabla de frecuencia y en relación a

la amplitud que debe tener cada intervalo también es tratado entre el grupo interesado en
la investigación aunque es recomendable que todos tengan la misma amplitud. Siguiendo este
último argumento la amplitud de un intervalos, que sera igual para todos, se obtiene de la
siguiente manera:
1. Se selecciona el dato mayor y el dato menor
2. Si denotamos por a la amplitud del intervalo, entonces, a se calcula ası́:
dato mayor - datos menor

a=
8
En nuestro caso se tiene que el dato mayor es 2187 y el menor es 640, por lo tanto
2187 − 640
a= = 193, 375
8
Observación 2.1 La verdad es que el valor 193, 375 es muy feo para considerarlo como una
amplitud de intervalo(aunque se puede trabajar con él), ya que se va a usar mucho para realizar
cálculos y sumarı́a bastante complejidad al problema. ¿Cómo resolver la situación?
Pareciera que una amplitud de 194, 195 ó 196, que están por sobre 193, 375, serı́an bastante
cómodo ya que son número entero y muy próximo a 193, 375. Es importante destacar, que
cualquiera de ellos que usemos, sus efectos serı́an realmente insignificante tanto en las diferencias
de los resultados como sus interpretaciones, recuerde que estamos perdiendo precisión pero
ganando en interpretación, aún ası́ es recomendable considerar el entero, superior, mas próximo
que en nuestro caso es 194. Veamos gráficamente la situación:
Se observa que la amplitud de cada clase se obtiene al dividir por 8 la diferencia “2187−640 =
1547” lo que resulta el número feo 193, 375 (observe que esta diferencia representa la longitud
del intervalo [640 2187]). Pero lo que queremos es que la amplitud sea el número bonito 194,
esto obliga a que la diferencia “?−? = 1552”. Esto nos lleva a aumentar en 5 unidades la
diferencia “2187 − 640 = 1547”. y por consiguente a ampliar en 5 unidades la longitud del
intervalo [640 2187]).
Observación 2.2 1. Si el aumento de la longitud del intervalo hubiese sido un número par,
por ejemplo 4, entonces se resta 2 unidades al lado izquierdo (640) y se suman 2 unidades
al lado derecho (2187)
2. En nuestro caso hay que aumentar en un número impar, que es 5, la longitud del intervalo
- en tal caso - se elige en forma arbitraria la distribución de 2 unidades a la izquierda
y 3 a la derecha o viceversa. Si la elección es restar 3 unidades a la izquierda y sumar
2 unidades a la derecha, el intervalo quedarı́a [637 2189]). y en tal caso se confirma la

amplitud a = 194, es decir:
2189 − 637 1552
a= = = 194
8 8
2.3.3. Construcción de la tabla de distribución de frecuencia
Una vez que hemos determinado el número de clases ó intervalos y la amplitud de cada uno
de ellos la tabla de distribución de frecuencia quedarı́a:
Intervalos frecuencia
- (f)
637 − 831
831 − 1025
1025 − 1219
1219 − 1413
1413 − 1607
1607 − 1801
1801 − 1995
1995 − 2189
Para seleccionar los datos dentro de la tabla de distribución, ya confeccionada, podrı́amos

tener el problema de que un dato pueda estar en dos intervalos, por ejemplo ¿Dónde clasificarı́a
usted el dato 1219? como respuesta podrı́amos decir que estarı́a en el 3er intervalos ó en el 4to
intervalo. Para evitar esta ambigüedad consideraremos el intervalo [1025 1219[ es decir cerrado
en 1025 y abierto 1219 lo que implica que el extremo derecho no se considera en dicho intervalo.
Con esta aclaración la respuesta a la pregunta serı́a “El dato 1219 estarı́a en el 4to intervalo”.
Con esta consideración la tabla de distribución la podrı́amos presentar ası́:
- (f)
[637 831[
[831 1025[
[1025 1219[
[1219 1413[
[1413 1607[
[1607 1801[
[1801 1995[
[1995 2189]
Ahora estamos en condiciones de completar la tabla de distribución de frecuencia clasificando

los datos en los respectivos intervalos y no estarı́amos expuestos a ningún tipo de problema.
Clasificados los datos la tabla quedarı́a:
- (f)
637 − 831 5
831 − 1025 6
1025 − 1219 11
1219 − 1413 24
1413 − 1607 38
1607 − 1801 23
1801 − 1995 9
1995 − 2189 4
Observación 2.3 Haremos algunas interpretaciones de algunos datos de la tabla de frecuencia

como también combinando alguno de ellos.
1. El datos 24 significa que: “24 ejecutivos de la empresa tienen un sueldo lı́quido entre
$1.219.000 y $1.413.000”.
2. “11 ejecutivos de la empresa tienen un sueldo entre $1.2025.000 y $1.219.000”. Observe

también que el mismo número, es decir 11, de los ejecutivos tienen un sueldo inferior
$1.025.000
3. observe que 36 ejecutivos de la empresa tienen un sueldo lı́quido superior (o igual) a

$1.607.000
2.3.4. Gráfico, histograma y polı́gono de frecuencia
Considerando la tabla de distribución de frecuencia, recién construı́da, podemos tener un

efecto visual de ella a través de un gráfico denominado histograma, que pasamos a mostrar:
La altura de los rectángulos del histograma muestran la frecuencia de ejecutivos mientras

que los extremos de la base de los rectángulos muestran donde flutúan los sueldos lı́quidos de
ellos.
Uniendo los puntos medios de las alturas de cada reactángulo se consigue un nuevo gráfico que
se denomina Polı́gono de frecuencia quedando como se muestra:
Observación 2.4 Para graficar el polı́gono de frecuencia se tomaron las siguientes considera-
ciones
1. Las lı́neas que unen los puntos de los techos de los rectángulos dan una aspecto tosco y se
ha preferido suavizarla dándole una forma mas acampanada.
2. Para cerrar la campana(polı́gono de frecuencia) se han considerados los puntos medios de

los intervalos (imaginarios) que no están contemplados en la tabla de frecuencia y que
son [443 637[ a la izquierda y [2189 2383[ a la derecha, siendo los puntos medios de cada
uno de ellos 540 y 2286 respectivamente.
La tabla de distribución de frecuencia se puede complementar agregando una nueva columna

que no es otra cosa que la columna de frecuencia pero expresada en porcentaje. Considerando
esta nueva columna se puede mostrar un histograma y su polı́gono de frecuencia y los gráficos
serı́an practicamente los mismos que hemos visto sólo que sufrirı́an un cambio de escala.
La tabla quedarı́a como se muestra a continuación:
Intervalos frecuencia frecuencia ( %)

- (f) relativa h
637 − 831 5 4,2
831 − 1025 6 5
1025 − 1219 11 9,1
1219 − 1413 24 20
1413 − 1607 38 31,7
1607 − 1801 23 19,2
1801 − 1995 9 7,5
1995 − 2189 4 3,3
P
120 100 %
El histograma con el polı́gono de frecuencia relativa quedarı́an ası́

2.3.5. Construcción de la tabla de distribución de frecuencia acu-

mulada
Ahora completaremos la tabla de distribución agregando dos nuevas columnas que se logran
acumulando las frecuencias y frecuencias relativas como se muestra a continuación:
Intervalos frecuencia frecuencia frecuencia frecuencia

- relativa acumulada acumulada
- f h F relativa( %) H
637 − 831 5 4,2 5 4,2
831 − 1025 6 5 11 9,2
1025 − 1219 11 9,1 22 18,3
1219 − 1413 24 20 46 38,3
1413 − 1607 38 31,7 84 70
1607 − 1801 23 19,2 107 89,2
1801 − 1995 9 7,5 116 96,7
1995 − 2189 4 3,3 120 100
P
120 100 % - -
Observación 2.5 A continuación interpretaremos algunos datos de esta última tabla
1. El valor 46 ubicado en la 4a columna se interpreta como: “46 ejecutivos de la empresa

tienen un sueldo inferior a $1.413.000”.
2. El valor 89,2 ubicado en la 5a columna se interpreta como: “El 89,2 % de los ejecutivos,
de la empresa, tienen un sueldo inferior a $1.801.000”.
3. El valor 38,3 ubicado en la 5a columna se interpreta como: “El 38, 3 % de los ejecutivos
de la empresa tienen un sueldo inferior a inferior a $1.413.000
4. Observe que: “El 60, 8 % (obtenido de 70 % - 9, 2 %)de los ejecutivos de la empresa tienen
un sueldo entre $1.025.000 y $1.607.000
2.3.6. Gráfico, Ojiva porcentual
La ojiva porcentual es un gráfico que se construye uniendo los puntos (831; 4,2), (1025; 9,2),
(1219; 18,3), (1413; 38,3), (1607;70), (1801; 89,2), (1995; 96,7), (2189; 100) y queda asi:
2.3.7. Cálculo de percentiles
Aprovechando el gráfico de la ojiva porcentual creemos oportuno introducir el concepto de

percentil y sus derivados, aprovechamos, a la vez, de realizar algunos cálculos de ellos.
Definición 2.4 Dado un conjunto de datos perteneciente a una población y suponiendo orde-
nada de menor a mayor, se define el percentil(k), y se denota por Pk a aquel valor que deja a
su izquierda el k % de los datos y a su derecha (100-k) %
Ejemplo 2.8 Una vez ordenado los datos, P30 es el valor que deja a su izquierda el 30 % de
los datos y a su derecha el 70 %.
Resuelva el siguiente ejercicio
1. Encuentre P70 de los datos correspondientes a los sueldos de los 120 ejecutivos de la
empresa X (con solo observar la ojiva porcentual)
2. Encuentre P80 y P50 de los datos correspondientes a los sueldos de los 120 ejecutivos de
la empresa X, utilizando la siguiente fórmula:
k

100
n − Fa− a
Pk = liminf +
f
donde
a) liminf : corresponde al extremo izquierdo del intervalo donde se encuentra el percentil

buscado Pk
b) Fa− : corresponde a la frecuencia acumulada hasta antes del intervalo donde se en-
cuentra el percentil buscado Pk
c) f: corresponde a la frecuencia del intervalo donde se encuentra el percentil buscado

Pk
d ) a: representa la amplitud del intervalo donde se encuentra el percentil buscado Pk
Observación 2.6 ¿Cómo saber en que intervalo se encuentra Pk ?

Primero se calcula la siguiente expresión
k
n
100
como resultado nos dará un número que debemos ir comparándolo con la columna de la fre-
cuencia acumulada y con el primer valor que supere al número nos detenemos en dicho valor y
observamos en que intervalo se encuentra el que nos dará precisamente el intervalo que andamos
buscando. Ası́ por ejemplo ¿ Dónde se encuentra el percentil P40 ?. Primero calculamos:
40
120 = 48
100
Recorriendo la columna de frecuencia acumulada vemos que el primer valor que supera al
número 48 es 84 el que se encuentra precisamente en el intervalo 1413 − 1607.
Capı́tulo 3
Estudio de Parámetros de una

Población
En estadı́stica es común usar los términos población y muestra. Estos términos son un centro
de atención en la estadı́stica, asi que los pasamos a precisar en la siguiente definición.
Definición 3.1 Una población es la colección completa de todos los elementos (puntajes, per-
sonas, mediciones, etc.)que se van a estudiar
Un Censo es la colección de datos de cada elemento de la población.
Una muestra es una porción, o parte de una población.
El estudio de una muestra de la población para proyectar resultados confiables a toda ella,
como hemos visto, corresponde a la estadı́stica inferencial.
Intimamente relacionado con los conceptos de población y muestra está el de parámetro
Definición 3.2 Un parámetro es una medición numérica que describe alguna caracterı́stica de
una población
Observación 3.1 Cuando la medición numérica describe alguna caracterı́stica de una muestra
de la población el parámetro toma el nombre de estadı́stico
Consideremos algunos ejemplos.
Ejemplo 3.1 1. Una encuesta aplicada a 348 dueñas de casa, en la ciudad de La Serena,
arrojó que 75 (21,55 %) de ellas tienen mas de dos hijos. Dado que la cifra 21,55 % se
basa en una muestra(no en toda la población) es un estadı́stico(no un parámetro)
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
2. Una encuesta aplicada a los 120 diputados de Chile muestra que 75 (62,5 %) de ellos
superan los 65 años de edad. La cifra 62,5 % serı́a un parámetro porque se basa en la
población de todos los diputados.
3. Una encuesta aplicada a los 258 funcionarios de la empresa XYZ arrojó que el suel-
do promedio imponible era de $458.650. La cifra promedio serı́a entonces también un
parámetro.
4. Una encuesta aplicada a la cadena de empresas ABC entregó la siguiente información:

”De los 53.576 accidentes ocurridos durante el año 2005; 86 resultaron fatales”. Si defini-
mos un indicador que mida la gravedad de los accidentes podrı́amos pensar en la expresión:
N◦ de Fallecidos
IL = × 100000
Total de Accidentes
En tal caso tenemos que:
86
IL = × 100000 = 162, 39
53.576
Observación 3.2 1. El ı́ndice IL: Se conoce como ı́ndice de letalidad y es un parámetro
ya que se calcula sobre el total de accidentados y por otra parte nos indica el número de
accidentes fatales por cada 100000 accidentados. En nuestro caso la cadena de empresas
ABC registra 162 accidentes fatales por cada 100000 accidentados. El ı́ndice de letalidad
es muy útil cuando se quiere conocer globalmente la gravedad (letalidad) que tienen los
accidentes en una determinada área.
86 por el factor 1000, por 10000, o por

2. Podrı́amos haber multiplicado la proporción 53.576
1000000 etc. y la interpretación seria fácilmente adaptable. Para fines comparativos con
el comportamiento de otras empresas es conveniente establecer acuerdos, para definir el
factor a utilizar.
3.1. Medidas de tendencia central:promedio

Las medidas de tendencia central pueden describirse rı́gidamente como “promedios” en
el sentido de que son indicativas del “centro o alrededor del centro”. En realidad uno de los
parámetros, con esta caracterı́stica, que goza de mayor popularidad en la estadı́stica es la media
o Promedio
Definición 3.3 Sean x1 , x2 , x3 , ..., xn n datos reales, se define el promedio de los n datos, y se
denota por X, como P
xi
X=
n
Observación: El promedio tiende a ubicarse alrededor del centro de los datos por lo que se le
conoce como una medida de tendencia central
Ejemplo 3.2 Considere el siguiente conjunto de datos
x1 = 2, x2 = 6, x3 = 4, x4 = 2, x5 = 2, x6 = 3, x7 = 4, x8 = 3, x9 = 2, x10 = 4
entonces
P
xi x1 + x2 + x3 + ... + x10 2 + 6 + 4 + ... + 4 32
X= = = = = 3, 2
n 10 10 10
Observación 3.3 En ejemplo anterior se puede observar que realmente hay cuatro datos que
son el 2,3,4 y 6: ocurre que el 2 se repite 4 veces, el 3 se repite 2 veces, el 4 se repite 3 veces
y por último el 6 aparece solo una vez. Podriamos mostar mejor esta observación disponiendo
los datos en una tabla de frecuencia como se ilustra a continuación:
Tabla de frecuencia para cálculo del promedio

x f fx
2 4 8
3 2 6
4 3 12
6 1 6
P
10 32
Si sumamos los datos de la columna encabezada por fx nos da 32

Si sumamos los datos de la columna encabezada por f nos da 10
32
Ahora si realizamos el cuociente 10
= 3, 2 nos da el promedio ya conocido, situación que
podemos formalizar mediante la siguiente fórmula:
P
fx 32
X= P = = 3, 2
f 10
Esta fórmula se conoce como Promedio para datos tabulados

Existe un concepto que generaliza al del promedio que se conoce como promedio ponderado y
en ocasiones es muy útil recurrir a él para realizar cálculos mas realistas.
Definición 3.4 Sean x1 , x2 , x3 , ..., xn n datos reales, se define el promedio ponderado de los n
datos, y se denota por Xp , como
X
Xp = xi ∗ pi
P
donde pi = 1
Ejemplo Un estudiante tiene las siguientes cuatro calificaciones en la asignatura de Estadı́sti-

ca 63, 39, 40 y un 50 en la escala de 1 a 100 y la nota de aprobación es un 50. La importancia
de los tópicos contemplado en cada prueba son distintos y el profesor, conciente de esto, tiene
la duda en elegir entre tres alternativas de ponderación que se ilustran en la siguiente tabla:
Tres alternativas de ponderación para cuatro notas en la asignatura de Estadı́stica
- Alternativa1 Alternativa2 Alternativa3
Nota1 0, 25 0, 2 0, 3
Nota2 0, 25 0, 3 0, 2
Nota3 0, 25 0, 2 0, 2
Nota4 0, 25 0, 3 0, 3
P
1 1 1
Observe que la Alternativa1 corresponde al promedio normal en que cada nota tiene el
mismo peso o ponderación y el alumno estarı́a reprobando la asignatura con nota 48 como se
ilustra:
X
xi ∗ pi = x1 ∗ p1 + x2 ∗ p2 + x3 ∗ p3 + x4 ∗ p4 = 63 ∗ 0, 25 + 39 ∗ 0, 25 + 40 ∗ 0, 25 + 50 ∗ 0, 25 = 48
Bajo la Alternativa2 el estudiante también reprueba la asignatura con nota 47 y la pon-

deración dada le perjudica en relación a la alternativa1 (Promedio normal).
X
xi ∗ pi = x1 ∗ p1 + x2 ∗ p2 + x3 ∗ p3 + x4 ∗ p4 = 63 ∗ 0, 2 + 39 ∗ 0, 3 + 40 ∗ 0, 2 + 50 ∗ 0, 3 = 47
y por último bajo la alternativa3 el estudiante estarı́a aprobando la asignatura con nota 50,
ponderación que obviamente le favorecerı́a
X
xi ∗ pi = x1 ∗ p1 + x2 ∗ p2 + x3 ∗ p3 + x4 ∗ p4 = 63 ∗ 0, 3 + 39 ∗ 0, 2 + 40 ∗ 0, 2 + 50 ∗ 0, 3 = 50
Estrechamente relacionado con el promedio está el importante parámetro que se denomina

desviación estándar. Aunque no es una medida de tendencia central lo veremos a continuación
en un modo superficial dado el grado de acercamiento mencionado, sin embargo lo veremos con
mucho detalle cuando abordemos, mas adelante, las medidas de variabilidad.
Tenemos, por obligación, que pasar previamente por el concepto de varianza para comprender
el de desviación estándar.
Definición 3.5 Sean x1 , x2 , x3 , ..., xn n datos reales. Se define la Varianza de los datos, y se
denota por S 2 , como:
(xi − X)2
P
2
S =
n
Definición 3.6 Sean x1 , x2 , x3 , ..., xn n datos reales. Se define la Desviación estándar de los
datos como la raiz cuadrada de la varianza, y se denota por S: ası́
s
√
P
(xi − X)2
S= S = 2
n
3.1.1. Propiedades del promedio y la varianza
Dado el acercamiento entre promedio y varianza mostraremos a continuación algunas propiedades

que los relacionan.
2 x2i
P
2
1. SX = X2 − X con X 2 = n
2. x1 = k, x2 = k, x3 = k, ..., xn = k, k ∈ ℜ entonces
2
X = k y SX =0
3. Si yi = axi + b, a ∈ ℜ, b ∈ ℜ entonces:
Y = aX + b
y
SY2 = a2 SX
2
Demostración:
1.
(xi − X)2
P
2
S =
n
1X
= (xi − X)2
n
1X 2 2
= (xi − 2xi X + X )
n
1 hX 2 X X 2 i
= xi − 2xi X + X )
n
P 2 P 2
xi xi nX
= − 2X +
Pn 2 n n
xi 2 2
= − 2X + X
Pn 2
xi 2
= −X
n
definiendo
x2i
P
X2 =
n
se tiene la propiedad señalada
2
S2 = X 2 − X
1 1
k = n1 nk = k
P P
2. X = n
xi = n
por otra parte:

X 2 = n1 1
k 2 = n1 nk 2 = k 2
P 2 P
xi = n
2
S 2 = X 2 − X = k2 − k2 = 0
3.
2
S2 = Y 2 − Y
1X 2
= yi − (aX + b)2
n
1X
= (axi + b)2 − (aX + b)2
n
1X 2 2
= (a xi + 2abxi + b2 ) − (aX + b)2
nP
x2i xi nb2
P
2
= a + 2ab + − (aX + b)2
n n n
2 2
= a X + 2abX + b − (a X + 2abX + b2 )
2 2 2
2
= a2 X 2 − a2 X
= a2 SX
2
En el siguiente ejemplo ocuparemos esta importante propiedad para calcular la desviación

estándar y aprovecharemos también de calcular este parámetro tabulando la información
Ejemplo 3.3 Considerando los datos del ejemplo 3.2 en la página 21 podemos calcular la
desviación estándar sabiendo que
2
X = 3, 2 y entonces X = 10, 24
por otra parte:
x2i
P
1
X2 = = (22 + 62 + 42 + 22 + 22 + 32 + 42 + 32 + 22 + 42 ) = 11, 8
10 10
de esta manera
2
S 2 = X 2 − X = 11, 8 − 10, 24 = 1, 56
Por lo que la desviación estándar queda como:

q
2 p
S = X 2 − X = 1, 56 ≈ 1, 25
Aprovecharemos ahora el hecho de que muchos datos se repiten para calcular la desviación
estándar recurriendo a una tabla de frecuencia: Observe que:
Tabla de frecuencia para cálculo de la desviación estándar

x f fx x2 f x2
2 4 8 4 16
3 2 6 9 18
4 3 12 16 48
6 1 6 36 36
P
- 10 32 - 118
P 2 P 2 2
2 2fx fx 118 32
S = X2 −X = P − P = − = 11, 8 − 3, 22 = 11, 8 − 10, 24 = 1, 56
f f 10 10
por lo que
p
S= 1, 56 ≈ 1, 25
Vamos a continuar con el estudio de otros parámetros, pero para seguir un orden vamos a
seguir con parámetros que tienen una caracterı́stica común y en particular aquellos conocidos
como de tendencia central como lo es el promedio (o media). Cabe hacer notar que la
desviación estándar no es una medida de tendencia central pero como tiene una gran relación
con el promedio se aprovechó la oportunidad para mostarlo, sin embargo, se volverá a retomar
esta medidad para estudiarla con mayor profundidad mas adelante por la importancia que ella
tiene.
3.2. Medidas de tendencia central: mediana y otras cuan-

tiles
Asi como el promedio tiende a ubicarse alrededor del centro de la información también existe
otro parámetro que tiene esta misma caracterı́stica y se llama mediana que pasamos a definir.
Definición 3.7 La mediana de un conjunto de datos es aquel valor (no necesariamente pertenece
al conjunto de los datos) que una vez ordenada la información se ubica de tal manera que deja
a su izquierda el 50 % de los datos y el otro 50 % a su derecha
Esta definición adolece de algunas debilidades y precisamente se presenta en el caso discreto,

que ha sido nuestro principal foco de atención, por lo que la reforzaremos con algunos ejemplos
para dicipar ambigüedades.
Antes de ejemplificar tomaremos en cuenta el siguiente consejo, teniendo presente que previa-
mente se han ordenado los datos (ya sea de menor a mayor o viceversa)
Çuando el número de datos es impar (n impar), la mediana, es el valor del dato que está en la
mitad
Çuando el número de datos es par (n par), la mediana, es el valor que toma el promedio de los
dos datos centrales
Ejemplo 3.4 El número de accidentes, de la empresa Royal & Anderson, en los primeros 5
meses del año 2005 fueron respectivamente: 12,8,15,9,12.
La mediana no es 15, ya que previamente se debe ordenar la muestra (de menor → a mayor o
de mayor → a menor). Si se considera como criterio ordenarlo de menor a mayor se tiene:
8 9 12 12 15
y se puede apreciar que la mediana es 12. Observe que en este ejemplo hay dos datos 12, pero
como la mediana es un valor y no un dato, hay que tomar al 12 como un valor que toma la
mediana
Ejemplo 3.5 Si la información, dada en ejemplo anterior, es mas completa y se obtiene el

número total de accidentes por mes, del año 2005, de la empresa Royal & Anderson, la que se
ilustra en la siguiente tyabla
Distribución del número de accidentes de la empresa Royal & Anderson, durante el año 2005
Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic
12 8 15 9 12 16 10 9 7 8 15 17
que al ordenar la información se tiene: 7 8 8 9 9 10 12 12 15 15 16 17

donde se observa que 10 y 12 son los datos centrales y asi le mediana serı́a
10 + 12
Mediana = = 11
2
La mediana no es sino uno de los muchos cuantiles diferentes que dividen un conjunto de
datos en dos o mas partes iguales. También de importancia en la estadı́stica son los cuartiles,
quintiles y percentiles, pero como estos últimos se utilizan principalmente con respecto a grandes
masas de datos, los analizaremos en detalle en el próximo capı́tulo. Por tanto, mostraremos aqui
los tres cuartiles Q1 , Q2 , y Q3 . Para comprender mejor el concepto ordenamos la información
( de menor → a mayor) e imaginemos que se disponen en la siguiente recta
Observación 3.4 Considerando la ilustración anterior se tiene que:
1. El primer cuartil Q1 deja a su izquierda el 25 % de los datos y a su derecha el 75 %.
2. El segundo cuartil Q2 coincide con la mediana y deja a ambos lados el 50 % de los datos
3. El tercer cuartil Q3 deja a su izquierda el 75 % de los datos y a su derecha el 25 %
Ejemplo 3.6 Los que siguen son los números de minutos que una persona, en su camino al
trabajo, tuvo que esperar el bus en 14 dı́as de trabajo.
10, 2, 17, 6, 8, 3, 10, 2, 9, 5, 9 13, 1 y 10
Para encontrar los valores de Q1 , Q2 y Q3 debemos de ordenar los datos quedando asi:
1, 2, 2, 3, 5, 6, 8, 9, 9, 10, 10 10, 13 17
y se tiene que:
8+9
Mediana = Q2 = = 8, 5 Q1 = 3 y Q3 = 10
2
3.3. Medidas de tendencia central: moda

La moda es otra medida de tendencia central que a veces se utiliza para describir la “mitad”
de un conjunto de datos. Se define de la manera siguiente:
Definición 3.8 La moda es el valor que aparec con la mas alta frecuencia
En este sentido es el “mas común”de un conjunto de datos; sus dos ventajas principales son que
no requieren cálculos y que se puede determinar para datos cualitativos y cuantitativos. Por
otra parte al igual que la mediana, la moda no se encuentra afectada por los valores extremos
Ejemplo 3.7 Las temperatura, en grados celsius, durante las dos primeras semanas del mes
de marzo del 2006 en la ciudad de La Serena fueron:
25◦ , 28◦ , 27◦ , 25◦ , 26◦ , 27◦ , 25◦ , 26◦ , 27◦ , 25◦ , 27◦ , 22◦ , 27◦ y 27◦
Claramente la medición de mas alta frecuencia (se repite seis veces) es 27◦ y por lo tanto
corresponde a la moda.
Observación 3.5 No deja de ser importante la frecuencia presentada por la medición 25◦ que
se repite 4 veces como agregando una nueva moda en un segundo lugar de preferencia. En el
vaso de variables continuas no es extraño encontrar comportamiento bimodal (dos modas).
Ejemplo 3.8 Cuando se les pidió mencionaran al mejor equipo del futbol Chileno, 20 periodis-
tas deportivos nombraron a los siguientes clubes:
Dep. La Serena, U. de Chile, Colo Colo, Dep. La Serena, U. Católica, Dep. La Serena, U. de
Chile, U. Católica, Dep. La Serena, Huachipato, Colo Colo, Dep. La Serena, Colo Colo, Colo
Colo, U. Católica, U. de Chile, U. de Chile, Dep. La Serena, Dep. La Serena, Colo Colo.
Dado que Cobrelos se repite con mayor frecuencia, 7 veces, entonces Cobreloa corresponde a la
moda.
Observación 3.6 La información dada por los 20 periodista del ejemplo anterior puede pre-
sentarse en una tabla de distribución como sigue:
Clubes frecuencia
U. de Chile 4
U. Católica 3
Dep. La Serena 7
Colo Colo 5
Huachipato 1
20
3.4. Medidas de variabilidad: desviación estándar

Una caracterı́stica importante de casi todos los tipos de datos es que los valores no son todos
iguales, y el grado al cual sean desiguales o varı́en entre ellos mismos es de importancia básica
en la estadı́stica. Una de las medidas mas populares e importante que miden variabilidad es la
desviación estándar, ya definida con anterioridad y lo que aprendimos solo fue calcularla sin
tener una clara interpretación de ella.
Para conocer mejor la desviación estándar, observe que la dispersión de un conjunto de datos es
pequeña si los valores se agrupan en forma cerrada junto a us media, y que es grande si los valores
se dispersan ampliamente en torno a su media. Para comprender mejor lo anterior consideremos
la siguiente tabla, donde se consideran las calificaciones de 4 alumnos en una determinada
asignatura y donde cada uno tiene 4 evaluaciones. Para simplificar la interpretación de la
Alumnos A1 A2 A3 A4
nota1 50 60 90 100
nota2 50 40 10 0
nota3 50 40 80 100
nota4 50 60 20 0
P
200 200 200 200
desviación estándar hemos considerado que el promedio de los 4 alumnos es de 50 (verifı́quelo)

Si calculamos la desviación estándar de las calificaciones de los 4 alumnos, y las denotamos por
SA1 , SA2 , SA3 , SA4 tenemos que:
2 2 502 + 502 + 502 + 502

X A1 = 502 = 2500 y X A1 = = 2500
4
asi se tiene que la desviación estándar para las calificaciones del alumnoA1 está dada por:
q
2 2
SA1 = XA1 − X A1 = 0
Como era de esperar, al coincidir las cuatro calificaciones del alumno A1, las desviaciones de
cada una de ellas respecto al promedio es nula y es la razón por la cual la desviación estándar
es cero, podemos asegurar en este caso entonces que el promedio es un muy buen representante
de las 4 calificaciones por estar muy cerca de cada una de ellas.
Por otra parte, se tiene que:
2 602 + 402 + 402 + 602 10400

XA2 = = = 2600
4 4
por lo que la desviación estándar de las calificaciones del alumno A2 es:
q
2 √ √
2
SA2 = XA2 − X A2 = 2600 − 2500 = 100 = 10
Ahora
2 902 + 102 + 802 + 202 15000
XA3 = = = 3750
4 4
por lo que la desviación estándar de las calificaciones del alumno A3 es:
q
2 √ √
2
SA3 = XA3 − X A3 = 3750 − 2500 = 1250 ≈ 34,35
y por último
2 1002 + 02 + 1002 + 02 20000
XA4 = = = 5000
4 4
asi la desviación estándar de las calificaciones del alumno A4 es:

q
2 √ √
2
SA4 = XA4 − X A4 = 5000 − 2500 = 2500 = 50
En resumen podemos apreciar que en la medida en que las calificaciones de los alumnos se
alejan mas del promedio la desviación estándar aumenta y en consecuencia el promedio pierde
representatividad del conjunto de notas.
Observación 3.7 Lo anterior se resume en:
1. Mientras mas se alejan los datos del promedio mas aumenta la desviación estándar
2. Mientras mas aumenta la desviación estándar menos representativo es el promedio del

conjunto de datos
Para tener una una noción mas exacta de lo que mide en realidad una desviación estándar,
dedicaremos esta sección a algunas aplicaciones.
En el argumento que nos llevó a la definición de la desviación estándar, se observó que la disper-
sión de un conjunto de datos es pequeña si los valores se agrupan en torno al promedio y que es
grande si los se dispersan ampliamente en torno al promedio. En forma correspondiente, ahora
podemos decir que si la desviación estándar de un conjunto de datos es pequeña, los valores se
concentran en la proximidad del promedio y si es grande los valores se dispersan ampliamente
en torno al promedio.
Esta idea es expresada de manera formal por el siguiente teorema, llamado teorema de Cheby-
shev en honor al matemático ruso P. L. Chevyshev (1821 - 1894)
Teorema 3.1 teorema de Chebyshev

Para un conjunto de datos cualquiera y una constante k cualquiera pero mayor que uno, cuando
menos 1− k12 de los datos están dentro de k desviaciones estándar en uno u otro lado del promedio
Observación 3.8 Aplicaremos el teorema de Chevyshev para el caso en que k = 2 y k = 3
1. si k=2 se tiene que:

1 1 1 3
1− = 1 − 2 = 1 − = = 0,75
x2 2 4 4
La interpretación es la siguiente: “Podemos estar seguro de que aproximadamente el 75 %,
de los datos se encuentran dentro de dos desviaciones estándar en torno al promedio, es
decir se encuentran en el intervalo [X − 2S X + 2S]
2. si k = 3 se tiene que:
1 1 1 8
1− = 1 − 2 = 1 − = ≈ 0,89
x2 3 9 9
La interpretación es la siguiente: “Podemos estar seguro de que aproximadamente el 89 %,

de los datos se encuentran dentro de tres desviaciones estándar en torno al promedio, es
decir se encuentran en el intervalo [X − 3S X + 3S]
Observación 3.9 El teorema de chevyshev es válido para cualquier conjunto de datos, pero
si los datos tienden a distribuirse en forma simétrica alrededor del promedio, entonces la dis-
tribución de los porcentajes de dichos datos considerando una, dos y tres desviaciones estándar
quedan como muestra el siguiente gráfico:
3.5. Estandarización y coeficiente de variación

Comenzaremos esta sección con un ilustrativo ejemplo que nos reforzará la importancia que
tienen los parámetros: Promedio y desviación estándar para luego presentar la estandarización
y finalizar con el coeficiente de variación.
Ejemplo 3.9 Supongamos que un estudiante es sometido a tres axámenes, en tres asignaturas
diferentes, y obtiene las siguientes calificaciones.
Inglés Matemática Psicologı́a

Notas(x) 80 65 75
Aparentemente podrı́a parecer que la mejor calificación del estudiante es la de inglés y la más
pobre la de matemáticas. Sin embrago, serı́a póco inteligente apresurarse a tal conclusión, pués
existen varias razones por la que las calificaciones puras pueden no ser comparables. Por ejem-
plo, puede que el examen de inglés haya sido muy fácil, con abundancia de calificaciones abul-
tadas, mientras que el de matemática resultó demasiado difı́cil. O bien, que el examen de inglés
se ha calificado sobre un total de 100 puntos y el de matemática sobre 80 puntos etc.
Las calificaciones en sı́ suministran información sobre el número absoluto de puntos obtenidos,
pero ninguna indicación acerca de la bondad del rendimiento en comparación con el de los
demás. Supongamos que ahora se nos agrega una nueva información y nos dan el promedio de
las calificaciones de cada asignatura las que se reflejan en la siguiente tabla:

Notas(x) 80 65 75
Promedio 85 55 60
Esta información adicional cambia considerablemente el panorama. Si observamos los prome-

dios, podemos ver que las calificaciones en inglés fueron muy elevadas, pues los 80 puntos son
inferiores a la media. Es decir, el resultado mas pobre del estudiante es precisamente en inglés.
Un observador poco reflexivo podrı́a ahora deducir que la mejor calificación del estudiante es ls
de psicologı́a, puesto que está 15 puntos por encima del promedio, mientras que en matemática
sólo la ha superado en 10 puntos.
Ahora se nos agrega una nueva información que tiene que ver con la desviación estándar, la que
se exhibe en la siguiente tabla: Graficaremos la situación del alumno considerando la asignatura

Notas(x) 80 65 75
Promedio 85 55 60
Desviación estándar 10 5 15
de matemática y sociologı́a para confrontarlo y para ello vamos a anlizar toda la información,
es decir, consideraremos la nota, el promedio y la desviación estándar:
La desviación estándar muestra que la dispersión de los datos en las notas de psicologı́a fue de
15 puntos por lo que la calificación 75 se encuentra a una distancia de una desviación estándar
respecto al promedio y se puede deducir que aproximadamente existe un 16 % de alumnos sobre
dicha nota.
Por otra parte la desviación estándar de las notas de matemática es de 5 y la calificación 65
se encuentra a dos desviaciones estándar respecto al promedio por lo que sobre ella sólo hay
aproximadamente un 2,5 %, lo que habla de que debe ser una de las mejores notas del curso.
Podemos resumir enfatizando la importancia que tiene hacer un análisis considerando el com-
portamiento del promedio y la desviación estándar. Hemos cambiado radicalmente de opinión
al conocer los parámetros mencionados y la asignatura de matemática pasó a ser la mejor cal-
ificación del alumno y la de inglés la peor y antes de este conocimiento la opinión era todo lo
contrario.
3.5.1. Estandarización
Hemos aprendido que las calificaciones, por si sola, no son comparables y todo pasa por
considerar el comportamiento del promedio y la desviación estándar. Una forma de establecer
un mecanismo que permita la comparación directa de las calificaciones, pasa por el concepto
de estandarización, que consiste en convertir las calificaciones originales en unas nuevas con la
importante propiedad de que éstas tienen promedio igual a cero y desviación estándar igual
a uno. Al estandarizar todas las calificaciones de cada asignatura entonces quedan en iguales
condiciones (igual promedio e igual desviación estándar) para ser comparadas.
Definición 3.9 Estandarizar el siguiente conjunto de datos reales x1 , x2 , x3 , ..., xn , consiste

en generar nuevos números reales z1 , z2 , z3 , ..., zn donde:
xi − X
zi =
S
donde X y S es el promedio y la desviación estándar, de los datos x1 , x2 , x3 , ..., xn ,

respectivamente.
Ejemplo 3.10 Considerando el ejemplo de las calificaciones del estudiante en las asignaturas
de inglés, matemática y psicologı́a y procediendo a la estandarización de cada una de sus notas
se tiene lo siguiente: .

Notas(x) 80 65 75
Promedio 85 55 60
Desviación estándar 10 5 15
80−85 65−55 75−60
Nota estandarizada z 10
= −0,5 5
=2 15
=1
Ahora se pueden comparar los datos estandarizados(z) y observamos que la mejor es matemática(z =
2) luego psicologı́a(z = 1) y último inglés(z = −0,5)
3.5.2. Coeficiente de variación
El coeficiente de variación es una medición relativa de variación: Se expresa como un por-

centaje antes que en términos de las unidades de los datos particulares.
El coeficiente de variación mide la dispersión en los datos relativo al promedio y se define de la

siguiente manera:
Definición 3.10 El coeficiente de variación se denota por CV , y se define como:
S
CV = 100 %
X
Como una medución relativa, el coeficiente de variación es particularmente útil al comparar la

variabilidad de dos o más series de datos que se expresan en distintas unidades de medición.
Ejemplo 3.11 Durante los meses pasados, un corredor promedió 12 km. por semana con una
desviación estándar de 2 km., mientras que otro corredor promedió 25 km. por semana con una
desviación estándar de 3 km.¿Cuál de los dos corredores es relativamente mas consistente en
sus hábitos de correr todas las semanas?
Solución
Sea CV1 y CV2 los coeficientes de variación del primer y segundo corredor rspectivamente,
entonces:
2 3
CV1 = 100 % = 16, 7 % y CV2 = 100 % = 12 %
12 25
Por lo tanto el segundo corredor es relativamente mas consistente en sus hábitos de correr todas
las semanas
3.6. Introducción a los números ı́ndices

En esta sección se examinará, a nivel introductorio, un medio estadı́stico muy útil denom-
inado ı́ndice. Muchos ı́ndices, tales como el indice de precios al consumidor, el de una bolsa
de valores y uno de indicadores económicos avanzados, compilados y publicados por gobier-
nos reciben considerable atención en los noticiarios de televisión y en las primeras planas de
periódicos.
Todos los paı́ses están preocupados por la variación de ciertos ı́ndices y la consideración de ellos
son determinantes, de una u otra manera, en tomas de decisiones.
Definición 3.11 Un número ı́ndice es una relación en porcentaje que mide el cambio de un
tiempo a otro en precio, cantidad, valor o algún otro elemento de interés
Observación 3.10 Ası́ como el promedio o cualquier otro promedio resume un conjunto de
valores, un número ı́ndice se utiliza para determinar la variación en porcentaje (o en 1000,
10000, 100000 ó 1000000 etc.) en una sola cifra, del precio, valor o cantidad de un conjunto
de datos estadı́sticos de un perı́odo a otro.
. Es importante destacar que existe una gran variedad de ı́ndices y muchos de ellos obedecen a
una estructura general y otros tienen un tratado especial. En estos apuntes veremos una forma
muy elemental, de este concepto, y que obedecen a una patrón de comportamiento y luego
veremos algunos ı́ndices especiales que están ya estandarizados y normados por el Sernageomin
basados en estándares internacionales.
Ejemplo 3.12 Suponga que el precio de un artı́culo cualquiera entre 1990 1995 fue como sigue:
.
Año Precio
1990 400
1991 600
1992 550
1993 275
1994 350
1995 700
Para el cálculo de un ı́ndice se debe considerar un perı́odo base para fines comparativos. En el
caso del ejemplo consideraremos, como perı́odo base, el año 1990 y luego procederemos a calcular
el ı́ndice de variación de los años siguientes y finalemente estableceremos la comparaciones e
interpretación.
precio 1990 400
I90 = × 100 = × 100 = 100
precio 1990 400
precio 1991 600
I91 = × 100 = × 100 = 150
precio 1990 400
precio 1995 550
I92 = × 100 = × 100 = 137,5
precio 1990 400
precio 1993 275
I93 = × 100 = × 100 = 68,75
precio 1990 400
precio 1994 350
I94 = × 100 = × 100 = 87,5
precio 1990 400
precio 1995 700

I95 = × 100 = × 100 = 175
precio 1990 400
Podemos resumir los cálculos hechos en una tabla como sigue: .
Año Precio Indice

1990 400 100
1991 600 150
1992 550 137.5
1993 275 68.8
1994 350 87.5
1995 700 175
Observación 3.11 Podemos realizar la siguientes interpretaciones de los ı́ndices calculados en

el ejemplo: Ası́ para el perı́odo 1991 el ı́ndice 150 significa que el precio del artı́culo en estudio,
en este perı́odo, es el 50 % mayor que en el perı́odo 1990. El ı́ndice de precios para 1992 de
137.5 indica que el precio, en este perı́odo, es de 37.5 % mas alto que en el perı́odo 1990. Para
los perı́odos 1993 y 1994 los ı́ndices son respectivamente 68.8 y 87.5 quiere decir que el precio
del año 1993 fue el 31.2 % menor que el perı́odo base (1990) y que en el perı́odo 1994 fue el
12.5 % menor que en 1990.
Cuando se calcula un número ı́ndice la base puede permanecer fija, como en el caso del ejemplo,
en éste, el precio de cada perı́odo de la serie se comparó con el precio del perı́odo 1990 (base
fija).Otra forma de calcular los ı́ndices consiste en variar la base de un perı́odo a otro, cuando
este es el caso, se dice que los ı́ndices se calcularon con base variable.
Lo que hemos visto sobre, números ı́ndices, ha sido a nivel introductorio sin profundizar en otras
forma de generar indicadores. Nos proponemos ahora analizar, en particular, algunos ı́ndices
que han sido estandarizados y reconocidos por Sernageomin para establecer comparaciones con
estándares tanto nacionales como internacionales.
3.6.1. Indices de frecuencia y gravedad en prevención de riesgo
Indice de frecuencia
Definición 3.12 LLamamos ı́ndice de frecuencia al número de accidentes con tiempo perdido
por millón de horas hombres de exposición al riesgo, entendiendo por
1. Accidente con tiempo perdido

Aquella lesión que hace perder al trabajador mas de una jornada de trabajo y los fatales.
2. Horas hombre de exposición al riesgo

Es el número total de hombres trabajando multiplicado por el número total de horas en
trabajo de todo el personal en el perı́odo considerado.
3. Factor 1000000
Es una constante para facilitar los cálculos.
Podemos resumir lo anterior en la siguiente fórmula:
N◦ accidentes con tiempo perdido

IF = × 1000000
Total horas hombres
donde IF es el ı́ndice de frecuencia
Observación 3.12 En el análisis de este ı́ndice se debe dejar constancia que el cálculo de
las horas hombres debe ser lo mas exacto posible y regirse por las normas emanadas por el
Sernageomin.
Ejemplo 3.13 En una faena minera laboran 1000 trabajadores en jornadas de trabajo de 5 × 2
con 9 horas de trabajo diario.
En un mes ocurrieron 150 accidentes que se descomponen como sigue:
Tipo de accidentes frecuencia (f)

con incapacidad laboral 1
con incapacidad parcial temporal 56
con incapacidad permanente parcial 9
sin tiempo perdido 84
P
150
Se pide calcular el ı́ndice de frecuencia

Solución
Cada trabajador está expuesto al riesgo 9 horas diarias y dado que labora en turnos de 5 × 2,
entonces hay 2 dı́as a la semana que descansa pr lo tanto en el mes no trabaja 8 dı́as, lo que
se desprende que durante el mes trabaja 22dı́as.

Por lo anterior podrı́amos asegurar que el número total de horas expuestas al riesgo por traba-
jador es de:
N◦ horas expuestas al riesgo por trabajador = 9 × 22 = 198 horas
Ahora si consideramos los 1000 trabajadores se tiene que:
N◦ total de horas expuestas al riesgo = 1000 × 198 = 198000 horas
Por otra parte el número total de accidentes con tiempo perdido es de 66. De esta manera el
ı́ndice de frecuencia es de:
66
IF = × 1000000 = 333,33 ≈ 333
198000
Significa que por cada millón de horas hombres con exposición al riesgo, ocurrirán 333 acci-
dentes con tiempo perdido.
Indice de gravedad
La importancia del ı́ndice de gravedad radica no solo en las consecuencias de las lesiones,
sino en el tiempo perdido y el mayor o menor costo que éstas acarrean. La forma mas práctica
de obtener el ı́ndice de gravedad es relacionar los dı́as perdidos debido a accidentes, con el
número total de horas hombres expuestas al riesgo.
Definición 3.13 El ı́ndice de gravedad es la relación que existe entre el total de dı́as perdidos
debido a los accidentes del trabajo y el total de horas hombres de exposición al riesgo, multipli-
cado por 1000000.
Si llamamos IG al ı́ndice de gravedad se tiene que:
N◦ de dı́as perdidos
IG = × 1000000
Total horas hombres
Ejemplo 3.14 En una industria de 1500 trabajadores con jornada completa, se produjeron en
un mes 50 accidentes distribuidos como se muestra en la siguiente tabla:
N◦ de accidentes incapacidad dı́as perdidos

43 parcial temporal 500
6 permanente parcial 500
1 permanente total 6000
P
50 - 7000
Se pide calcular el ı́ndice de gravedad

Solución
Cada trabajador trabaja a tiempo completo y en la semana debe cumplir con 45 horas por lo
que el número de horas mensuales expuesto al riesgo es de:
N◦ horas expuestas al riesgo por trabajador = 45 × 4 = 180 horas
asi el total de horas hombres expuestas al riesgo es de
N◦ total de horas expuestas al riesgo = 180 × 1500 = 270000 horas
se tiene entonces que el ı́ndice de gravedad es de:
7000
IG = × 1000000 = 25925, 925 ≈ 25926
270000
Significa que por cada millón de horas hombres expuestas al riesgo se pierden 25926 dı́as de
trabajo.
Capı́tulo 4
Estadı́stica descriptiva bivariada
Cuando los datos de una determinada población están relacionados con dos variables es muy
útil recurrir a una tabla de doble entrada para distribuir en ella todos los datos que cumplan
obviamente con los dos criterios definidos por las variables mencionadas. En general, una tabla
de doble entrada tiene la siguiente forma.
Tabla de doble entrada

P
Y y1 y2 · · · yj ··· yn
X
x1 f11 f12 ··· f1j ··· f1n f1•
x2 f21 f22 ··· f2j ··· f2n f2•
.. .. .. .. .. .. .. ..
. . . . . . . .
xi fi1 fi2 ··· fij ··· fin fi•
.. .. .. .. .. .. .. ..
. . . . . . . .
xm fm1 fm2 ··· fmi ··· fmn fm•
P
f•1 f•2 ··· f•i ··· f•n f••
donde fij representa el número de observaciones (frecuencia) que cumplen la condición de

pertenecer a la clase xi y también a la clase yj
n
X
fi• = fij = fi1 + fi2 = · · · + fin
j=1
m
X
f•j = fij = f1j + f2j + · · · + fmj
i=1
CAPÍTULO 4. ESTADÍSTICA DESCRIPTIVA BIVARIADA
m X
X n m
X n
X
f•• = f ij = fi• + f•j
i=1 j=1 i=1 j=1
Recurriremos a un ejemplo para interpretar los valores que se encuentran en las celdas de
una tabla de doble entrada. Aprovecharemos, al mismo tiempo, de definir conceptos como:
Distribuciones marginales, distribuciones condicionales y covarianza:
Ejemplo 4.1 Considere la siguiente tabla de doble entrada que muestra a trabajadores de la
empresa W distribuidos según sus edades y años de experiencia.
Distribución de trabajadores de acuerdo a su edad (X) y años de experiencia(Y).

Años Exp. Y 0-5 5 - 10 10 - 15 15 - 20 20 - 25
Edad X
20 − 25 1
25 − 30 2 4
30 − 35 5 10 15
35 − 40 1 20 30
40 − 45 6 5 10 15
Responderemos las siguientes preguntas como una manera de ilustrar diferente definiciones
como también apreciar las bondades que tiene una tabla de doble entrada
1. Interpretar los siguientes valores f33 , f4• y f•3
2. Calcular la edad promedio y la desviación estándar de los trabajadores con una experiencia
entre 5 y 10 años.
3. El 25 % de los trabajadores con mas años de servicios recibirán un bono extra de $180000
pesos. Si Juan Pérez tiene 14 años de servicio. ¿Tiene derecho el Sr. Pérez al bono?.
Respuestas
1. f33 = 15; Significa que 15 trabajadores tienen entre 30 y 35 años de edad y entre 10 y 15
años de experiencia.
f4• = 51;Significa que 51 trabajadores tienen entre 35 y 40 años.
f•3 = 50; Significa que 50 trabajadores tienen entre 10 y 15 años de experiencia.
4.0.2. Distribución condicional
Vamos a introducir el concepto de distribución condicional, observe que la pregunta, del

ejercicio 2, condiciona la respuesta a aquellos trabajadores que tienen una experiencia entre 5
y 10 años. Esto nos lleva a extraer la información de la siguiente tabla condicionada:
Distribución condicional de la edad de los trabajadores

con años de experiencia entre 5 y 10 años.
Edad N◦ de trabajadores
X fi2
20 − 25 1
25 − 30 4
30 − 35 10
35 − 40 20
40 − 45 6
P
41
4.0.3. Marca de clase
Para calcular el promedio y la desviación estándar debemos incorporar una nueva colum-
na con las marcas de clase que corresponden a los puntos medios de las clases (o intervalos),
quedando de la siguiente manera:
Edad Marca de clase N◦ de trabajadores

X xi fi2
20 − 25 22, 5 1
25 − 30 27, 5 4
30 − 35 32, 5 10
35 − 40 37, 5 20
40 − 45 42, 5 6
P
41
Edad Marca de clase N◦ de trabajadores

X xi fi2 xi fi2
20 − 25 22, 5 1 22, 5
25 − 30 27, 5 4 110
30 − 35 32, 5 10 325
35 − 40 37, 5 20 750
40 − 45 42, 5 6 255
P
41 1462, 5
Hemos introducido la columna marca de clase con la finalidad de calcular un promedio (aprox-
imado) para datos tabulados. Con el objeto de aclarar esto interpretaremos la marca de clase
37, 5 (que corresponde al intervalo 35 − 40) diciendo que: 20 trabajadores tienen una edad de
37, 5 años. Lo que quiere decir que la edad 37, 5 años se repite 20 veces. Asi, tenemos que:
P5
j=1 xi fi2 1462, 5
X/y ∈ [5, 10] = P5 = = 35, 67
j=1 fi
41
donde la notación X/y ∈ [5, 10] se interpreta como el promedio de edad condicionado a los
valores de y entre 5 y 10, es decir a los trabajadores que tienen entre 5 y 10 años de servicio.
Buscaremos ahora la deviación estándar(datos tabulados), para ello completaremos la tabla
para realizar los cálculos necesarios:
Edad M. de clase N◦ de trab.

X xi fi2 xi fi2 x2i x2i fi2
20 − 25 22, 5 1 22, 5 506, 25 506, 25
25 − 30 27, 5 4 110 756, 25 3025
30 − 35 32, 5 10 325 1056, 25 10562, 5
35 − 40 37, 5 20 750 1406, 25 28125
40 − 45 42, 5 6 255 1806, 25 10837, 5
P
41 1462, 5 53056, 25
Recuerde que:
P 2 P 2 2
2 2fx fx 53056, 25 1462, 5
S = X2 −X = P − P = − = 21, 706
f f 41 41
Ası́, la desviación estándar será:

p
S= 21, 706 = 4, 66
4.0.4. Distribución marginal
Observe que nos están preguntando por el percentil 75 (P75 )y la variable que se está con-
siderando son los años de servicio de los trabajadores. Por esta razón vamos a construir una
tabla que se llama Tabla marginal, que pasamos a mostrar.
Distribución marginal de los años de servicio de los trabajadores

Años Exp. N◦ de trabajadores Frec. Acumulada
Y f•j F•j
0−5 8 8
5 − 10 41 49
10 − 15 50 99
15 − 20 10 109
20 − 25 15 124
P
124
calculamos la expresión
75
124 = 93
100
comparamos el valor 93 con la columna de la frecuencia acumulada(F•j ), partiendo de la primera
celda, y con el primer valor que lo supere nos detenemos en dicho valor e inspeccionamos en
que intervalo se encuentra y concluimos que corresponde a 10 − 15. Conocido el intervalo donde
se encuentra el P75 , podemos aplicar la fórmula:
75

100
n − Fa− a
P75 = liminf +
f
reemplazando los datos liminf = 10, n = 124, Fa− = 49, a = 5 y f = 50 tenemos que:
75

100
124 − 49 5
P75 = 10 + = 14, 4
50
El señor Pérez por tener 14 años de servicio no logra ser beneficiado por el bono.
4.0.5. Covarianza
Cuando se trabaja con dos variables, un parámetro que permite decidir que tipo de aso-
ciación existe entre ellas, es la covarianza que se denota por Cov(X, Y ) y que pasamos a definir:
Definición 4.1
Cov(X, Y ) = XY − X Y
donde P P P
xy x y
XY = y XY =
n n n
n representa el total de casos (suma de las frecuencias)
Observación 4.1 De acuerdo al signo de Cov(X,Y) se distingue lo siguiente:
1. Si Cov(X, Y ) > 0, X e Y se relacionan en forma directamente proporcional
2. Si Cov(X, Y ) < 0, X e Y se relacionan en forma inversamente proporcional
3. Si Cov(X, Y ) = 0, No existe relación entre X e Y.
Ejemplo 4.2 Al calcular la Cov(X,Y) de la tabla de doble entrada del ejercicio en que la vari-
able X representa la edad de los trabajadores y la variable Y representa los años de experiencia
de ellos, se tiene que:
La siguiente tabla marginal permite calcular X

Edad M. de clase N◦ de trab.
X xi fi• xi fi•
20 − 25 22, 5 1 22, 5
25 − 30 27, 5 6 165
30 − 35 32, 5 30 975
35 − 40 37, 5 51 1912,5
40 − 45 42, 5 36 1530
P
124 4605
P P
fx xi fi• 4605
X= P = P = = 37, 137
f fi• 124
La siguiente tabla permite calcular Y

Años Exp. M. de clase N◦ de trabajadores
Y yj f•j f•j yj
0−5 2,5 8 20
5 − 10 7,5 41 307,5
10 − 15 12,5 50 625
15 − 20 17,5 10 175
20 − 25 22,5 15 337,5
P
124 1465
P P
fy f•j yj 1465
Y = P = P = = 11, 814
f f•j 124
La siguiente tabla permite calcular XY

yj 2,5 7,5 12,5 17,5 22,5
xi
22,5 0 1 0 0 0
27,5 2 4 0 0 0
32,5 5 10 15 0 0
37,5 1 20 30 0 0
42,5 0 6 5 10 15
P P
xy xyf 56200
XY = = Pi j ij = = 453, 225
n fij 124
Ası́:
Cov(X, Y ) = XY − X Y
= 453, 225 − 37, 137 ∗ 11, 814
= 14, 488 > 0
Podemos decir, que existe una relación directamente proporcional entre los años de experiencia
y la edad de los trabajadores.
Bibliografı́a
[1] MASON y LIND. “Estadı́stica para Administración y Economı́a”.
[2] TRIOLA, M. “Estadı́stica elemental”.
[3] BERENSON y LEVINE. “Estadı́stica básica en administración”.
[4] RUBILAR CORTES R. “Estadı́stica aplicada a la accidentabilidad”.
[5] AGUIRRE VERGARA, C. “Estadı́stica aplicada”.
[6] LEVIN Y RUBIN “Estadı́stica para administradores”.
[7] FREUND SMITH “Estadı́stica”.

Apunte Estadistica Descriptiva PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apunte Estadistica Descriptiva PDF

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD DE ATACAMA

Dr. David Jorge Elal Olivero

2. Distribución de la información y tipos de datos 3

3. Estudio de Parámetros de una Población 19

4. Estadı́stica descriptiva bivariada 42

1.1. Panorama General

El problema de describir, resumir y analizar datos de censos condujo a la creación de métodos

caracterı́stica importante del reciente desarrollo de la estadı́stica ha sido el paso de métodos

Distribución de la información y tipos

2.1. Introducción a las tablas de frecuencias

Cuadro 2.1: Personas con ingreso menor que el mı́nimo.

Esta tabla de frecuencia muestra como se distribuyen, aproximadamente, 4 millones de

Cuadro 2.2: Accidentabilidad laboral

En el siguiente ejemplo los datos se distribuyen, en la tabla de frecuencia, según un criterio de

Cuadro 2.3: Medios de transporte de los obreros de la empresa XY

Ejemplo 2.4 La siguiente tabla de frecuencia ilustra el nivel de colesterol en la sangre de

Cuadro 2.4: Distribución de ciudadanos de La Serena según nivel de colesterol en la sangre.

Convencidos de la importancia de distribuir la información en una tabla de frecuencia amerita

2.2. La naturaleza de los datos

Ejemplo 2.5 De datos cuantitativos:

1. Número de hijos en familias

2. Número de accidentes ocurridos durante un determinado mes, en una empresa X

3. Sueldos de funcionarios de una determinada organización

4. Tiempo de vida útil de una maquinaria

5. Distancia recorrida por un móvil

Ejemplo 2.6 De datos cualitativas:

1. Estado Civil (soltero, casado, divorciado, viudo)

2. Género (masculino o femenino)

4. Color de los ojos

Ejemplo: Considerando el ejemplo de datos continuos, antes mencionado, se puede apreciar

2.3. Tabla de distribución y gráficos

en un histograma, un polı́gono de frecuencia, y una ojiva porcentual. Luego se resumirán y

1. Seleccionar el número apropiado de clases o intervalo

2. Obtener la amplitud de cada clase o intervalo

2.3.1. Determinación del número de clases

donde n es el número total de datos.

En nuestro caso n=120, luego N = 1 + 3, 3 × log120 = 1 + 3, 3 × 2, 0792 = 7, 86 ≈ 8

Ası́ el número de intervalos (o clases) es N = 8.

2.3.2. Determinación de la amplitud de cada clase

Siguiendo las recomendaciones para confeccionar una tabla de frecuencia y en relación a

1. Se selecciona el dato mayor y el dato menor

2. Si denotamos por a la amplitud del intervalo, entonces, a se calcula ası́:

dato mayor - datos menor

2 unidades a la derecha, el intervalo quedarı́a [637 2189]). y en tal caso se confirma la

2.3.3. Construcción de la tabla de distribución de frecuencia

Para seleccionar los datos dentro de la tabla de distribución, ya confeccionada, podrı́amos

Ahora estamos en condiciones de completar la tabla de distribución de frecuencia clasificando

Observación 2.3 Haremos algunas interpretaciones de algunos datos de la tabla de frecuencia

2. “11 ejecutivos de la empresa tienen un sueldo entre $1.2025.000 y $1.219.000”. Observe

3. observe que 36 ejecutivos de la empresa tienen un sueldo lı́quido superior (o igual) a

2.3.4. Gráfico, histograma y polı́gono de frecuencia

Considerando la tabla de distribución de frecuencia, recién construı́da, podemos tener un

La altura de los rectángulos del histograma muestran la frecuencia de ejecutivos mientras

2. Para cerrar la campana(polı́gono de frecuencia) se han considerados los puntos medios de

La tabla de distribución de frecuencia se puede complementar agregando una nueva columna

Intervalos frecuencia frecuencia ( %)

El histograma con el polı́gono de frecuencia relativa quedarı́an ası́

2.3.5. Construcción de la tabla de distribución de frecuencia acu-

Intervalos frecuencia frecuencia frecuencia frecuencia

Observación 2.5 A continuación interpretaremos algunos datos de esta última tabla

1. El valor 46 ubicado en la 4a columna se interpreta como: “46 ejecutivos de la empresa

2.3.6. Gráfico, Ojiva porcentual

2.3.7. Cálculo de percentiles