Está en la página 1de 53

UNIVERSIDAD DE ATACAMA

FACULTAD DE INGENIERÍA
Departamento de Matemática

ESTADÍSTICA DESCRIPTIVA

por

Dr. David Jorge Elal Olivero

COPIAPÓ - CHILE
2006
c 2006 by David Jorge Elal Olivero
Copyright
Índice general

1. Introducción 1
1.1. Panorama General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

2. Distribución de la información y tipos de datos 3


2.1. Introducción a las tablas de frecuencias . . . . . . . . . . . . . . . . . . . . . . . 3
2.2. La naturaleza de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3. Tabla de distribución y gráficos . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3.1. Determinación del número de clases . . . . . . . . . . . . . . . . . . . . . 9
2.3.2. Determinación de la amplitud de cada clase . . . . . . . . . . . . . . . . 9
2.3.3. Construcción de la tabla de distribución de frecuencia . . . . . . . . . . 11
2.3.4. Gráfico, histograma y polı́gono de frecuencia . . . . . . . . . . . . . . . . 13
2.3.5. Construcción de la tabla de distribución de frecuencia acumulada . . . . 16
2.3.6. Gráfico, Ojiva porcentual . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3.7. Cálculo de percentiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3. Estudio de Parámetros de una Población 19


3.1. Medidas de tendencia central:promedio . . . . . . . . . . . . . . . . . . . . . . . 20
3.1.1. Propiedades del promedio y la varianza . . . . . . . . . . . . . . . . . . . 23
3.2. Medidas de tendencia central: mediana y otras cuantiles . . . . . . . . . . . . . . 26
3.3. Medidas de tendencia central: moda . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.4. Medidas de variabilidad: desviación estándar . . . . . . . . . . . . . . . . . . . . 29
3.5. Estandarización y coeficiente de variación . . . . . . . . . . . . . . . . . . . . . . 32
3.5.1. Estandarización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.5.2. Coeficiente de variación . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.6. Introducción a los números ı́ndices . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.6.1. Indices de frecuencia y gravedad en prevención de riesgo . . . . . . . . . 38

4. Estadı́stica descriptiva bivariada 42


4.0.2. Distribución condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.0.3. Marca de clase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.0.4. Distribución marginal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.0.5. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

Bibliografı́a 49
Capı́tulo 1

Introducción

1.1. Panorama General


Definición 1.1 Estadı́stica es la ciencia que trata de los métodos y medios para recopilar,
organizar, presentar, analizar e interpretar datos estadı́sticos, con el objeto de tomar decisiones
mas eficaces.

El problema de describir, resumir y analizar datos de censos condujo a la creación de métodos


que, hasta hace poco, constituı́an casi todo lo que habı́a sobre el tema de la estadı́stica. Estos
métodos, que en un principio consistı́an sobre todo en la presentación de datos en forma de
tablas y diagramas, constituyen lo que ahora se denomina la estadı́stica descriptiva. Esta
comprende cualquier cosa que se haga con los datos y que este diseñada para resumirlos o
describirlos, sin tener que ir mas lejos, o sea, sin intentar deducir nada que escape de los datos
mismos. Por ejemplo un anuario informa que los accidentes en faenas mineras en chile, durante
el año 2004, fueron de 21.567 mientras que en el año 2005 fueron de 25.469 y se realizan los
cálculos necesarios para demostrar que hubo un incremento de los accidentes, en dicho perı́odo,
de un 18,09 %, este trabajo pertenece al campo de la estadı́stica descriptiva. Sin embargo, éste
no serı́a el caso si se utilizaran los datos para predecir el número de accidente, por ejemplo,
para el 2006.
A pesar que la estadı́stica descriptiva es una rama importante de la estadı́stica y se sigue uti-
lizando ampliamente, la informacion estadı́stica suele emanar de muestras (de observaciones
hechas sólo en parte de un conjunto grande de elementos), y esto quiere decir que su análi-
sis requerirá generalizaciones que van mas allá de los datos mismos. Como resultado, una
CAPÍTULO 1. INTRODUCCIÓN

caracterı́stica importante del reciente desarrollo de la estadı́stica ha sido el paso de métodos


meramente descriptivos a métodos que sirven para hacer generalizaciones, es decir el paso de
la estadı́stica descriptiva a los métodos de la estadı́stica inferencial .
En estos apuntes nos ocuparemos de desarrollar solamente aspectos de la estadı́stica descriptiva
Capı́tulo 2

Distribución de la información y tipos


de datos

2.1. Introducción a las tablas de frecuencias


El poder resumir una gran masa de datos en forma utilizable siempre ha sido importante,
pero se ha multiplicado considerablemente en las últimas décadas. Esto se ha debido en parte
al desarrollo computacional que han hecho posible realizar en minutos lo que antes se tenı́a
que dejar de hacer debido a que se llevarı́a meses o años, y en parte por el torrente de datos
generados por el enfoque cada vez mas cuantitativo de las ciencias.
El método mas común de resumir datos consiste en presentarlos en forma condensada en tablas
o gráficas, y aquı́ la palabra clave es: Distribución

Definición 2.1 Una tabla compuesta de filas y columnas donde todos los datos de la población
en estudio se distribuyen según un criterio definido en las celdas generadas por la intersección
de las filas y culumnas se conoce con el nombre de Tabla de Frecuencias.

Para ilustrar la importancia de presentar una gran masa de datos en una tabla de frecuencia
analicemos los siguientes ejemplos

Ejemplo 2.1 Un sociólogo esta interesado en estudiar las edades de las personas de un de-
terminado Pais que tienen un ingreso menor al mı́nimo. No nos pongamos en el caso de las
grandes dificultades que tendrı́a para recolectar la información, y para simplificar la situación,
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS

supongamos que logra que un organismo gubernamental generosamente lo provea de gran infor-
mación.

Con respecto a grandes conjuntos de datos, con frecuencia se pueden transmitir a menudo una
buena representación total y la información suficiente mediante la clasificación de los datos en
una tabla de fecuencia y el sociólogo descubre que la información que busca se presenta como
se indica para el año 2005

Cuadro 2.1: Personas con ingreso menor que el mı́nimo.


Edad Número de personas
(en años) (en miles)
Menores de 16 1.233
de 16 a 21 932
de 22 a 44 779
de 45 a 64 175
de 65 y mas 863
P
3.982

Esta tabla de frecuencia muestra como se distribuyen, aproximadamente, 4 millones de


personas de acuerdo a su edad. Observe que la clasificación se hace bajo un criterio (Edad)
que es una magnitud numérica, y por ejemplo la clase ”de 16 a 21 ” comprende los valores
16,17,18,19,20 y 21. Cada clase también puede abarcar un solo valor; como se ilustra en el
siguiente ejemplo.

Ejemplo 2.2 La tabla siguiente muestra la distribución del número de accidentes laborales de
un pais Z entre los años 2001 hasta 2005.

Observe que cada clase considera solo un valor asi la primera es solo el valor 2001, la segunda
2002, la tercera 2003, la cuarta 20004 y por último la quinta clase contempla solo el valor 2005
Por otra parte observe que el número de accidentes en el año 2005 disminuyó en un 4.17 %
respecto al año 2004, sin embargo El número de accidentes In Itinere aumentó en un 2,87 %
en el mismo perı́odo.
¿Cómo se calculan los ı́ndices (porcentajes) 4.17 % y 2,87 %? Desarróllelo
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS

Cuadro 2.2: Accidentabilidad laboral


Año N◦ de accidentes Accidentes
Totales Itinere
2001 486.109 5.196
2002 671.004 5.933
2003 801.416 6.918
2004 821.458 7.339
2005 787.182 7.550
P
3.567.169 32.936

En el siguiente ejemplo los datos se distribuyen, en la tabla de frecuencia, según un criterio de


acuerdo a si cumple o no ciertas condiciones dadas por una cualidad.

Ejemplo 2.3 La tabla de distribución siguiente muestra como se movilizan al trabajo los
obreros de la empresa XY

Cuadro 2.3: Medios de transporte de los obreros de la empresa XY


Medios de Porcentaje
Transporte %
En auto propio 42
Solo en tren 14
Solo en bus 32
Combina bus y tren 8
Caminando (generalmente) 4
P
100 %

Ejemplo 2.4 La siguiente tabla de frecuencia ilustra el nivel de colesterol en la sangre de


ciudadanos de la ciudad de Calama entre 25 a 34 años de edad, registrados durante el primer
semestre del año 2006.

.
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS

Cuadro 2.4: Distribución de ciudadanos de La Serena según nivel de colesterol en la sangre.


Nivel de frecuencia
mg
Colesterol( 100ml ) f
80 - 119 13
120 - 159 150
160 - 199 442
200 - 239 299
240 - 279 115
280 - 319 34
320 - 359 9
360 - 399 5
P
1067

Convencidos de la importancia de distribuir la información en una tabla de frecuencia amerita


una construcción y análisis más detallada, situación que hemos reservado para tratarla mas
adelante. Sin embargo podemos rescatar, que en el análisis hecho de las tablas de frecuencia,
nos hemos enfrentado a diferentes tipos de datos (que representan números o cualidades) que
pasamos a precisar en la siguiente sección.

2.2. La naturaleza de los datos


Algunos conjuntos de datos consisten en números y otros son no numéricos. Suelen utilizarse
los términos datos cuantitativos y datos cualitativos para distinguir entre estos dos tipos.

Definición 2.2 Los datos cuantitativos consisten en números que representan conteo o medi-
ciones.
Los datos cualitativos (o categóricos o de atributos) se caracterizan por ser reconocidos por una
cualidad y son no numéricos

Ejemplo 2.5 De datos cuantitativos:

1. Número de hijos en familias

2. Número de accidentes ocurridos durante un determinado mes, en una empresa X


CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS

3. Sueldos de funcionarios de una determinada organización

4. Tiempo de vida útil de una maquinaria

5. Distancia recorrida por un móvil

Ejemplo 2.6 De datos cualitativas:

1. Estado Civil (soltero, casado, divorciado, viudo)

2. Género (masculino o femenino)

3. Religión

4. Color de los ojos

5. Marca de cigarrillos

Podemos describir con mayor detalle los datos cuantitativo distinguiendo entre los tipos discre-
tos y continuos

Definición 2.3 Los datos discretos se obtienen de un número finito de posibles valores o bien
de un número de posibles valores que puede contarse. (Esto es el número de posible valores es
0, 1, 2, etc.)
Los datos continuos se obtienen de un número infinito de posibles valores que pueden asociarse
a puntos de una escala continua, de tal manera que no haya hueco e interrupciones

Ejemplo: Considerando el ejemplo de datos continuos, antes mencionado, se puede apreciar


que los casos 1 y 2 son datos discretos mientras que los casos 3,4 y 5 son datos continuos.
Hasta ahora hemos aprendido a distinguir las diferentes formas en que podrı́amos enfrentar
a un conjunto de datos. Para realizar un análisis o estudio descriptivo acusioso de ellos apren-
deremos a continuación a construir tablas de distribuciones.

2.3. Tabla de distribución y gráficos


En esta sección se analizará la forma de organizar un conjunto de datos, sin procesar, en
una tabla de distribución de frecuencia y como representar esta distribución de manera gráfica
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS

en un histograma, un polı́gono de frecuencia, y una ojiva porcentual. Luego se resumirán y


presentarán otros tipos de información numérica en forma de gráfica de linea, de barras o de
algún otro tipo.
Cuando las observaciones se agrupan o condensan en tablas de distribución de frecuencia, el
proceso de análisis e interpretación de los datos se hace mucho más manejable y significativo. Al
clasificar la información en clases o intervalos la información inicial referente a las observaciones
que se disponı́a se pierde a través del proceso de agrupamiento, es decir, se está perdiendo
precisión de la información pero se está ganando en interpretación y comprobare-
mos que bien vale la pena, ya que lo que se gana, es mucho mas de lo que se pierde.
Los pasos a seguir para elaborar una tabla de distribución de frecuencia se explican mejor
utilizando un ejemplo.

Ejemplo 2.7 La siguiente tabla muestra los sueldos lı́quidos (en miles)de 120 ejecutivos de la
empresa X

1170 1207 1581 1277 1305 1472 1077 1319 1537 1849
1332 1418 1949 1403 1744 1532 1219 896 1500 1671
1471 1399 1041 1379 821 1558 1118 1533 1510 1760
1826 1309 1426 1288 1394 1545 1032 1289 695 803
1440 1421 1329 1407 718 1457 1449 1455 2051 1677
1119 1020 1400 1442 1593 1962 1263 1788 1501 1668
1352 1340 1459 1823 1451 1138 1592 982 1981 1091
1428 1603 1699 1237 1325 1590 1142 1425 1550 913
1470 1783 1618 1431 1557 896 1662 1591 1551 1612
1249 1419 2162 1373 1542 1631 1567 1221 1972 1714
949 1539 1634 1637 1649 1607 1640 1739 1540 2187
1752 1648 1978 640 1736 1222 1790 1188 2091 1829

Es importante tener presente los siguientes consideraciones para confeccionar una tabla de
frecuencia:

1. Seleccionar el número apropiado de clases o intervalo

2. Obtener la amplitud de cada clase o intervalo


CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS

3. Establecer los lı́mites de cada clase o intervalo para evitar los traslapes y asi impedir que
un dato pueda ser clasificado en dos o mas clases.

2.3.1. Determinación del número de clases

Nos proponemos clasificar la información en una tabla de distribución de frecuencia, para ello
debemos primeramente ponernos de acuerdo en el número de clases o intervalos a utilizar. Sobre
este punto es importante que exista acuerdo entre el equipo que está realizando la investigación
y prevalecerá, por supuesto, las razones técnicas para decidirlo. Dado que este es un ejemplo
académico resolveremos esta situación recurriendo a la regla de Sturges que nos dice lo siguiente:
Si N representa el número de intervalos a encontrar, entonces la regla de Sturges propone
calcularlo ası́:
N = 1 + 3, 3 × log n

donde n es el número total de datos.

En nuestro caso n=120, luego N = 1 + 3, 3 × log120 = 1 + 3, 3 × 2, 0792 = 7, 86 ≈ 8

Ası́ el número de intervalos (o clases) es N = 8.

2.3.2. Determinación de la amplitud de cada clase

Siguiendo las recomendaciones para confeccionar una tabla de frecuencia y en relación a


la amplitud que debe tener cada intervalo también es tratado entre el grupo interesado en
la investigación aunque es recomendable que todos tengan la misma amplitud. Siguiendo este
último argumento la amplitud de un intervalos, que sera igual para todos, se obtiene de la
siguiente manera:

1. Se selecciona el dato mayor y el dato menor

2. Si denotamos por a la amplitud del intervalo, entonces, a se calcula ası́:

dato mayor - datos menor


a=
8
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS

En nuestro caso se tiene que el dato mayor es 2187 y el menor es 640, por lo tanto

2187 − 640
a= = 193, 375
8

Observación 2.1 La verdad es que el valor 193, 375 es muy feo para considerarlo como una
amplitud de intervalo(aunque se puede trabajar con él), ya que se va a usar mucho para realizar
cálculos y sumarı́a bastante complejidad al problema. ¿Cómo resolver la situación?

Pareciera que una amplitud de 194, 195 ó 196, que están por sobre 193, 375, serı́an bastante
cómodo ya que son número entero y muy próximo a 193, 375. Es importante destacar, que
cualquiera de ellos que usemos, sus efectos serı́an realmente insignificante tanto en las diferencias
de los resultados como sus interpretaciones, recuerde que estamos perdiendo precisión pero
ganando en interpretación, aún ası́ es recomendable considerar el entero, superior, mas próximo
que en nuestro caso es 194. Veamos gráficamente la situación:

Se observa que la amplitud de cada clase se obtiene al dividir por 8 la diferencia “2187−640 =
1547” lo que resulta el número feo 193, 375 (observe que esta diferencia representa la longitud
del intervalo [640 2187]). Pero lo que queremos es que la amplitud sea el número bonito 194,
esto obliga a que la diferencia “?−? = 1552”. Esto nos lleva a aumentar en 5 unidades la
diferencia “2187 − 640 = 1547”. y por consiguente a ampliar en 5 unidades la longitud del
intervalo [640 2187]).

Observación 2.2 1. Si el aumento de la longitud del intervalo hubiese sido un número par,
por ejemplo 4, entonces se resta 2 unidades al lado izquierdo (640) y se suman 2 unidades
al lado derecho (2187)

2. En nuestro caso hay que aumentar en un número impar, que es 5, la longitud del intervalo
- en tal caso - se elige en forma arbitraria la distribución de 2 unidades a la izquierda
y 3 a la derecha o viceversa. Si la elección es restar 3 unidades a la izquierda y sumar
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS

2 unidades a la derecha, el intervalo quedarı́a [637 2189]). y en tal caso se confirma la


amplitud a = 194, es decir:
2189 − 637 1552
a= = = 194
8 8

2.3.3. Construcción de la tabla de distribución de frecuencia

Una vez que hemos determinado el número de clases ó intervalos y la amplitud de cada uno
de ellos la tabla de distribución de frecuencia quedarı́a:

Intervalos frecuencia
- (f)
637 − 831
831 − 1025
1025 − 1219
1219 − 1413
1413 − 1607
1607 − 1801
1801 − 1995
1995 − 2189

Para seleccionar los datos dentro de la tabla de distribución, ya confeccionada, podrı́amos


tener el problema de que un dato pueda estar en dos intervalos, por ejemplo ¿Dónde clasificarı́a
usted el dato 1219? como respuesta podrı́amos decir que estarı́a en el 3er intervalos ó en el 4to
intervalo. Para evitar esta ambigüedad consideraremos el intervalo [1025 1219[ es decir cerrado
en 1025 y abierto 1219 lo que implica que el extremo derecho no se considera en dicho intervalo.
Con esta aclaración la respuesta a la pregunta serı́a “El dato 1219 estarı́a en el 4to intervalo”.
Con esta consideración la tabla de distribución la podrı́amos presentar ası́:
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS

Intervalos frecuencia
- (f)
[637 831[
[831 1025[
[1025 1219[
[1219 1413[
[1413 1607[
[1607 1801[
[1801 1995[
[1995 2189]

Ahora estamos en condiciones de completar la tabla de distribución de frecuencia clasificando


los datos en los respectivos intervalos y no estarı́amos expuestos a ningún tipo de problema.
Clasificados los datos la tabla quedarı́a:

Intervalos frecuencia
- (f)
637 − 831 5
831 − 1025 6
1025 − 1219 11
1219 − 1413 24
1413 − 1607 38
1607 − 1801 23
1801 − 1995 9
1995 − 2189 4

Observación 2.3 Haremos algunas interpretaciones de algunos datos de la tabla de frecuencia


como también combinando alguno de ellos.

1. El datos 24 significa que: “24 ejecutivos de la empresa tienen un sueldo lı́quido entre
$1.219.000 y $1.413.000”.
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS

2. “11 ejecutivos de la empresa tienen un sueldo entre $1.2025.000 y $1.219.000”. Observe


también que el mismo número, es decir 11, de los ejecutivos tienen un sueldo inferior
$1.025.000

3. observe que 36 ejecutivos de la empresa tienen un sueldo lı́quido superior (o igual) a


$1.607.000

2.3.4. Gráfico, histograma y polı́gono de frecuencia

Considerando la tabla de distribución de frecuencia, recién construı́da, podemos tener un


efecto visual de ella a través de un gráfico denominado histograma, que pasamos a mostrar:

La altura de los rectángulos del histograma muestran la frecuencia de ejecutivos mientras


que los extremos de la base de los rectángulos muestran donde flutúan los sueldos lı́quidos de
ellos.
Uniendo los puntos medios de las alturas de cada reactángulo se consigue un nuevo gráfico que
se denomina Polı́gono de frecuencia quedando como se muestra:
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS

Observación 2.4 Para graficar el polı́gono de frecuencia se tomaron las siguientes considera-
ciones

1. Las lı́neas que unen los puntos de los techos de los rectángulos dan una aspecto tosco y se
ha preferido suavizarla dándole una forma mas acampanada.

2. Para cerrar la campana(polı́gono de frecuencia) se han considerados los puntos medios de


los intervalos (imaginarios) que no están contemplados en la tabla de frecuencia y que
son [443 637[ a la izquierda y [2189 2383[ a la derecha, siendo los puntos medios de cada
uno de ellos 540 y 2286 respectivamente.

La tabla de distribución de frecuencia se puede complementar agregando una nueva columna


que no es otra cosa que la columna de frecuencia pero expresada en porcentaje. Considerando
esta nueva columna se puede mostrar un histograma y su polı́gono de frecuencia y los gráficos
serı́an practicamente los mismos que hemos visto sólo que sufrirı́an un cambio de escala.
La tabla quedarı́a como se muestra a continuación:
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS

Intervalos frecuencia frecuencia ( %)


- (f) relativa h
637 − 831 5 4,2
831 − 1025 6 5
1025 − 1219 11 9,1
1219 − 1413 24 20
1413 − 1607 38 31,7
1607 − 1801 23 19,2
1801 − 1995 9 7,5
1995 − 2189 4 3,3
P
120 100 %

El histograma con el polı́gono de frecuencia relativa quedarı́an ası́


CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS

2.3.5. Construcción de la tabla de distribución de frecuencia acu-


mulada

Ahora completaremos la tabla de distribución agregando dos nuevas columnas que se logran
acumulando las frecuencias y frecuencias relativas como se muestra a continuación:

Intervalos frecuencia frecuencia frecuencia frecuencia


- relativa acumulada acumulada
- f h F relativa( %) H
637 − 831 5 4,2 5 4,2
831 − 1025 6 5 11 9,2
1025 − 1219 11 9,1 22 18,3
1219 − 1413 24 20 46 38,3
1413 − 1607 38 31,7 84 70
1607 − 1801 23 19,2 107 89,2
1801 − 1995 9 7,5 116 96,7
1995 − 2189 4 3,3 120 100
P
120 100 % - -

Observación 2.5 A continuación interpretaremos algunos datos de esta última tabla

1. El valor 46 ubicado en la 4a columna se interpreta como: “46 ejecutivos de la empresa


tienen un sueldo inferior a $1.413.000”.

2. El valor 89,2 ubicado en la 5a columna se interpreta como: “El 89,2 % de los ejecutivos,
de la empresa, tienen un sueldo inferior a $1.801.000”.

3. El valor 38,3 ubicado en la 5a columna se interpreta como: “El 38, 3 % de los ejecutivos
de la empresa tienen un sueldo inferior a inferior a $1.413.000

4. Observe que: “El 60, 8 % (obtenido de 70 % - 9, 2 %)de los ejecutivos de la empresa tienen
un sueldo entre $1.025.000 y $1.607.000
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS

2.3.6. Gráfico, Ojiva porcentual

La ojiva porcentual es un gráfico que se construye uniendo los puntos (831; 4,2), (1025; 9,2),
(1219; 18,3), (1413; 38,3), (1607;70), (1801; 89,2), (1995; 96,7), (2189; 100) y queda asi:

2.3.7. Cálculo de percentiles

Aprovechando el gráfico de la ojiva porcentual creemos oportuno introducir el concepto de


percentil y sus derivados, aprovechamos, a la vez, de realizar algunos cálculos de ellos.

Definición 2.4 Dado un conjunto de datos perteneciente a una población y suponiendo orde-
nada de menor a mayor, se define el percentil(k), y se denota por Pk a aquel valor que deja a
su izquierda el k % de los datos y a su derecha (100-k) %

Ejemplo 2.8 Una vez ordenado los datos, P30 es el valor que deja a su izquierda el 30 % de
los datos y a su derecha el 70 %.

Resuelva el siguiente ejercicio

1. Encuentre P70 de los datos correspondientes a los sueldos de los 120 ejecutivos de la
empresa X (con solo observar la ojiva porcentual)
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS

2. Encuentre P80 y P50 de los datos correspondientes a los sueldos de los 120 ejecutivos de
la empresa X, utilizando la siguiente fórmula:
k

100
n − Fa− a
Pk = liminf +
f

donde

a) liminf : corresponde al extremo izquierdo del intervalo donde se encuentra el percentil


buscado Pk

b) Fa− : corresponde a la frecuencia acumulada hasta antes del intervalo donde se en-
cuentra el percentil buscado Pk

c) f: corresponde a la frecuencia del intervalo donde se encuentra el percentil buscado


Pk

d ) a: representa la amplitud del intervalo donde se encuentra el percentil buscado Pk

Observación 2.6 ¿Cómo saber en que intervalo se encuentra Pk ?


Primero se calcula la siguiente expresión

k
n
100

como resultado nos dará un número que debemos ir comparándolo con la columna de la fre-
cuencia acumulada y con el primer valor que supere al número nos detenemos en dicho valor y
observamos en que intervalo se encuentra el que nos dará precisamente el intervalo que andamos
buscando. Ası́ por ejemplo ¿ Dónde se encuentra el percentil P40 ?. Primero calculamos:

40
120 = 48
100

Recorriendo la columna de frecuencia acumulada vemos que el primer valor que supera al
número 48 es 84 el que se encuentra precisamente en el intervalo 1413 − 1607.
Capı́tulo 3

Estudio de Parámetros de una


Población

En estadı́stica es común usar los términos población y muestra. Estos términos son un centro
de atención en la estadı́stica, asi que los pasamos a precisar en la siguiente definición.

Definición 3.1 Una población es la colección completa de todos los elementos (puntajes, per-
sonas, mediciones, etc.)que se van a estudiar
Un Censo es la colección de datos de cada elemento de la población.
Una muestra es una porción, o parte de una población.

El estudio de una muestra de la población para proyectar resultados confiables a toda ella,
como hemos visto, corresponde a la estadı́stica inferencial.
Intimamente relacionado con los conceptos de población y muestra está el de parámetro

Definición 3.2 Un parámetro es una medición numérica que describe alguna caracterı́stica de
una población

Observación 3.1 Cuando la medición numérica describe alguna caracterı́stica de una muestra
de la población el parámetro toma el nombre de estadı́stico

Consideremos algunos ejemplos.

Ejemplo 3.1 1. Una encuesta aplicada a 348 dueñas de casa, en la ciudad de La Serena,
arrojó que 75 (21,55 %) de ellas tienen mas de dos hijos. Dado que la cifra 21,55 % se
basa en una muestra(no en toda la población) es un estadı́stico(no un parámetro)
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN

2. Una encuesta aplicada a los 120 diputados de Chile muestra que 75 (62,5 %) de ellos
superan los 65 años de edad. La cifra 62,5 % serı́a un parámetro porque se basa en la
población de todos los diputados.

3. Una encuesta aplicada a los 258 funcionarios de la empresa XYZ arrojó que el suel-
do promedio imponible era de $458.650. La cifra promedio serı́a entonces también un
parámetro.

4. Una encuesta aplicada a la cadena de empresas ABC entregó la siguiente información:


”De los 53.576 accidentes ocurridos durante el año 2005; 86 resultaron fatales”. Si defini-
mos un indicador que mida la gravedad de los accidentes podrı́amos pensar en la expresión:
N◦ de Fallecidos
IL = × 100000
Total de Accidentes
En tal caso tenemos que:
86
IL = × 100000 = 162, 39
53.576
Observación 3.2 1. El ı́ndice IL: Se conoce como ı́ndice de letalidad y es un parámetro
ya que se calcula sobre el total de accidentados y por otra parte nos indica el número de
accidentes fatales por cada 100000 accidentados. En nuestro caso la cadena de empresas
ABC registra 162 accidentes fatales por cada 100000 accidentados. El ı́ndice de letalidad
es muy útil cuando se quiere conocer globalmente la gravedad (letalidad) que tienen los
accidentes en una determinada área.

86 por el factor 1000, por 10000, o por


2. Podrı́amos haber multiplicado la proporción 53.576
1000000 etc. y la interpretación seria fácilmente adaptable. Para fines comparativos con
el comportamiento de otras empresas es conveniente establecer acuerdos, para definir el
factor a utilizar.

3.1. Medidas de tendencia central:promedio


Las medidas de tendencia central pueden describirse rı́gidamente como “promedios” en
el sentido de que son indicativas del “centro o alrededor del centro”. En realidad uno de los
parámetros, con esta caracterı́stica, que goza de mayor popularidad en la estadı́stica es la media
o Promedio
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN

Definición 3.3 Sean x1 , x2 , x3 , ..., xn n datos reales, se define el promedio de los n datos, y se
denota por X, como P
xi
X=
n

Observación: El promedio tiende a ubicarse alrededor del centro de los datos por lo que se le
conoce como una medida de tendencia central

Ejemplo 3.2 Considere el siguiente conjunto de datos

x1 = 2, x2 = 6, x3 = 4, x4 = 2, x5 = 2, x6 = 3, x7 = 4, x8 = 3, x9 = 2, x10 = 4

entonces
P
xi x1 + x2 + x3 + ... + x10 2 + 6 + 4 + ... + 4 32
X= = = = = 3, 2
n 10 10 10

Observación 3.3 En ejemplo anterior se puede observar que realmente hay cuatro datos que
son el 2,3,4 y 6: ocurre que el 2 se repite 4 veces, el 3 se repite 2 veces, el 4 se repite 3 veces
y por último el 6 aparece solo una vez. Podriamos mostar mejor esta observación disponiendo
los datos en una tabla de frecuencia como se ilustra a continuación:

Tabla de frecuencia para cálculo del promedio


x f fx
2 4 8
3 2 6
4 3 12
6 1 6
P
10 32

Si sumamos los datos de la columna encabezada por fx nos da 32


Si sumamos los datos de la columna encabezada por f nos da 10
32
Ahora si realizamos el cuociente 10
= 3, 2 nos da el promedio ya conocido, situación que
podemos formalizar mediante la siguiente fórmula:
P
fx 32
X= P = = 3, 2
f 10
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN

Esta fórmula se conoce como Promedio para datos tabulados


Existe un concepto que generaliza al del promedio que se conoce como promedio ponderado y
en ocasiones es muy útil recurrir a él para realizar cálculos mas realistas.

Definición 3.4 Sean x1 , x2 , x3 , ..., xn n datos reales, se define el promedio ponderado de los n
datos, y se denota por Xp , como
X
Xp = xi ∗ pi
P
donde pi = 1

Ejemplo Un estudiante tiene las siguientes cuatro calificaciones en la asignatura de Estadı́sti-


ca 63, 39, 40 y un 50 en la escala de 1 a 100 y la nota de aprobación es un 50. La importancia
de los tópicos contemplado en cada prueba son distintos y el profesor, conciente de esto, tiene
la duda en elegir entre tres alternativas de ponderación que se ilustran en la siguiente tabla:
Tres alternativas de ponderación para cuatro notas en la asignatura de Estadı́stica
- Alternativa1 Alternativa2 Alternativa3
Nota1 0, 25 0, 2 0, 3
Nota2 0, 25 0, 3 0, 2
Nota3 0, 25 0, 2 0, 2
Nota4 0, 25 0, 3 0, 3
P
1 1 1

Observe que la Alternativa1 corresponde al promedio normal en que cada nota tiene el
mismo peso o ponderación y el alumno estarı́a reprobando la asignatura con nota 48 como se
ilustra:
X
xi ∗ pi = x1 ∗ p1 + x2 ∗ p2 + x3 ∗ p3 + x4 ∗ p4 = 63 ∗ 0, 25 + 39 ∗ 0, 25 + 40 ∗ 0, 25 + 50 ∗ 0, 25 = 48

Bajo la Alternativa2 el estudiante también reprueba la asignatura con nota 47 y la pon-


deración dada le perjudica en relación a la alternativa1 (Promedio normal).
X
xi ∗ pi = x1 ∗ p1 + x2 ∗ p2 + x3 ∗ p3 + x4 ∗ p4 = 63 ∗ 0, 2 + 39 ∗ 0, 3 + 40 ∗ 0, 2 + 50 ∗ 0, 3 = 47

y por último bajo la alternativa3 el estudiante estarı́a aprobando la asignatura con nota 50,
ponderación que obviamente le favorecerı́a
X
xi ∗ pi = x1 ∗ p1 + x2 ∗ p2 + x3 ∗ p3 + x4 ∗ p4 = 63 ∗ 0, 3 + 39 ∗ 0, 2 + 40 ∗ 0, 2 + 50 ∗ 0, 3 = 50
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN

Estrechamente relacionado con el promedio está el importante parámetro que se denomina


desviación estándar. Aunque no es una medida de tendencia central lo veremos a continuación
en un modo superficial dado el grado de acercamiento mencionado, sin embargo lo veremos con
mucho detalle cuando abordemos, mas adelante, las medidas de variabilidad.
Tenemos, por obligación, que pasar previamente por el concepto de varianza para comprender
el de desviación estándar.

Definición 3.5 Sean x1 , x2 , x3 , ..., xn n datos reales. Se define la Varianza de los datos, y se
denota por S 2 , como:
(xi − X)2
P
2
S =
n

Definición 3.6 Sean x1 , x2 , x3 , ..., xn n datos reales. Se define la Desviación estándar de los
datos como la raiz cuadrada de la varianza, y se denota por S: ası́
s

P
(xi − X)2
S= S = 2
n

3.1.1. Propiedades del promedio y la varianza

Dado el acercamiento entre promedio y varianza mostraremos a continuación algunas propiedades


que los relacionan.

2 x2i
P
2
1. SX = X2 − X con X 2 = n

2. x1 = k, x2 = k, x3 = k, ..., xn = k, k ∈ ℜ entonces

2
X = k y SX =0

3. Si yi = axi + b, a ∈ ℜ, b ∈ ℜ entonces:

Y = aX + b

y
SY2 = a2 SX
2

Demostración:
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN

1.
(xi − X)2
P
2
S =
n
1X
= (xi − X)2
n
1X 2 2
= (xi − 2xi X + X )
n
1 hX 2 X X 2 i
= xi − 2xi X + X )
n
P 2 P 2
xi xi nX
= − 2X +
Pn 2 n n
xi 2 2
= − 2X + X
Pn 2
xi 2
= −X
n
definiendo
x2i
P
X2 =
n
se tiene la propiedad señalada
2
S2 = X 2 − X

1 1
k = n1 nk = k
P P
2. X = n
xi = n

por otra parte:


X 2 = n1 1
k 2 = n1 nk 2 = k 2
P 2 P
xi = n
2
S 2 = X 2 − X = k2 − k2 = 0

3.
2
S2 = Y 2 − Y
1X 2
= yi − (aX + b)2
n
1X
= (axi + b)2 − (aX + b)2
n
1X 2 2
= (a xi + 2abxi + b2 ) − (aX + b)2
nP
x2i xi nb2
P
2
= a + 2ab + − (aX + b)2
n n n
2 2
= a X + 2abX + b − (a X + 2abX + b2 )
2 2 2

2
= a2 X 2 − a2 X

= a2 SX
2
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN

En el siguiente ejemplo ocuparemos esta importante propiedad para calcular la desviación


estándar y aprovecharemos también de calcular este parámetro tabulando la información

Ejemplo 3.3 Considerando los datos del ejemplo 3.2 en la página 21 podemos calcular la
desviación estándar sabiendo que

2
X = 3, 2 y entonces X = 10, 24

por otra parte:

x2i
P
1
X2 = = (22 + 62 + 42 + 22 + 22 + 32 + 42 + 32 + 22 + 42 ) = 11, 8
10 10
de esta manera
2
S 2 = X 2 − X = 11, 8 − 10, 24 = 1, 56

Por lo que la desviación estándar queda como:


q
2 p
S = X 2 − X = 1, 56 ≈ 1, 25

Aprovecharemos ahora el hecho de que muchos datos se repiten para calcular la desviación
estándar recurriendo a una tabla de frecuencia: Observe que:

Tabla de frecuencia para cálculo de la desviación estándar


x f fx x2 f x2
2 4 8 4 16
3 2 6 9 18
4 3 12 16 48
6 1 6 36 36
P
- 10 32 - 118

P 2  P 2  2
2 2fx fx 118 32
S = X2 −X = P − P = − = 11, 8 − 3, 22 = 11, 8 − 10, 24 = 1, 56
f f 10 10

por lo que

p
S= 1, 56 ≈ 1, 25
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN

Vamos a continuar con el estudio de otros parámetros, pero para seguir un orden vamos a
seguir con parámetros que tienen una caracterı́stica común y en particular aquellos conocidos
como de tendencia central como lo es el promedio (o media). Cabe hacer notar que la
desviación estándar no es una medida de tendencia central pero como tiene una gran relación
con el promedio se aprovechó la oportunidad para mostarlo, sin embargo, se volverá a retomar
esta medidad para estudiarla con mayor profundidad mas adelante por la importancia que ella
tiene.

3.2. Medidas de tendencia central: mediana y otras cuan-


tiles
Asi como el promedio tiende a ubicarse alrededor del centro de la información también existe
otro parámetro que tiene esta misma caracterı́stica y se llama mediana que pasamos a definir.

Definición 3.7 La mediana de un conjunto de datos es aquel valor (no necesariamente pertenece
al conjunto de los datos) que una vez ordenada la información se ubica de tal manera que deja
a su izquierda el 50 % de los datos y el otro 50 % a su derecha

Esta definición adolece de algunas debilidades y precisamente se presenta en el caso discreto,


que ha sido nuestro principal foco de atención, por lo que la reforzaremos con algunos ejemplos
para dicipar ambigüedades.
Antes de ejemplificar tomaremos en cuenta el siguiente consejo, teniendo presente que previa-
mente se han ordenado los datos (ya sea de menor a mayor o viceversa)

Çuando el número de datos es impar (n impar), la mediana, es el valor del dato que está en la
mitad
Çuando el número de datos es par (n par), la mediana, es el valor que toma el promedio de los
dos datos centrales

Ejemplo 3.4 El número de accidentes, de la empresa Royal & Anderson, en los primeros 5
meses del año 2005 fueron respectivamente: 12,8,15,9,12.
La mediana no es 15, ya que previamente se debe ordenar la muestra (de menor → a mayor o
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN

de mayor → a menor). Si se considera como criterio ordenarlo de menor a mayor se tiene:

8 9 12 12 15

y se puede apreciar que la mediana es 12. Observe que en este ejemplo hay dos datos 12, pero
como la mediana es un valor y no un dato, hay que tomar al 12 como un valor que toma la
mediana

Ejemplo 3.5 Si la información, dada en ejemplo anterior, es mas completa y se obtiene el


número total de accidentes por mes, del año 2005, de la empresa Royal & Anderson, la que se
ilustra en la siguiente tyabla

Distribución del número de accidentes de la empresa Royal & Anderson, durante el año 2005
Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic
12 8 15 9 12 16 10 9 7 8 15 17

que al ordenar la información se tiene: 7 8 8 9 9 10 12 12 15 15 16 17


donde se observa que 10 y 12 son los datos centrales y asi le mediana serı́a

10 + 12
Mediana = = 11
2

La mediana no es sino uno de los muchos cuantiles diferentes que dividen un conjunto de
datos en dos o mas partes iguales. También de importancia en la estadı́stica son los cuartiles,
quintiles y percentiles, pero como estos últimos se utilizan principalmente con respecto a grandes
masas de datos, los analizaremos en detalle en el próximo capı́tulo. Por tanto, mostraremos aqui
los tres cuartiles Q1 , Q2 , y Q3 . Para comprender mejor el concepto ordenamos la información
( de menor → a mayor) e imaginemos que se disponen en la siguiente recta

Observación 3.4 Considerando la ilustración anterior se tiene que:

1. El primer cuartil Q1 deja a su izquierda el 25 % de los datos y a su derecha el 75 %.

2. El segundo cuartil Q2 coincide con la mediana y deja a ambos lados el 50 % de los datos
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN

3. El tercer cuartil Q3 deja a su izquierda el 75 % de los datos y a su derecha el 25 %

Ejemplo 3.6 Los que siguen son los números de minutos que una persona, en su camino al
trabajo, tuvo que esperar el bus en 14 dı́as de trabajo.

10, 2, 17, 6, 8, 3, 10, 2, 9, 5, 9 13, 1 y 10

Para encontrar los valores de Q1 , Q2 y Q3 debemos de ordenar los datos quedando asi:

1, 2, 2, 3, 5, 6, 8, 9, 9, 10, 10 10, 13 17

y se tiene que:
8+9
Mediana = Q2 = = 8, 5 Q1 = 3 y Q3 = 10
2

3.3. Medidas de tendencia central: moda


La moda es otra medida de tendencia central que a veces se utiliza para describir la “mitad”
de un conjunto de datos. Se define de la manera siguiente:

Definición 3.8 La moda es el valor que aparec con la mas alta frecuencia

En este sentido es el “mas común”de un conjunto de datos; sus dos ventajas principales son que
no requieren cálculos y que se puede determinar para datos cualitativos y cuantitativos. Por
otra parte al igual que la mediana, la moda no se encuentra afectada por los valores extremos

Ejemplo 3.7 Las temperatura, en grados celsius, durante las dos primeras semanas del mes
de marzo del 2006 en la ciudad de La Serena fueron:

25◦ , 28◦ , 27◦ , 25◦ , 26◦ , 27◦ , 25◦ , 26◦ , 27◦ , 25◦ , 27◦ , 22◦ , 27◦ y 27◦

Claramente la medición de mas alta frecuencia (se repite seis veces) es 27◦ y por lo tanto
corresponde a la moda.

Observación 3.5 No deja de ser importante la frecuencia presentada por la medición 25◦ que
se repite 4 veces como agregando una nueva moda en un segundo lugar de preferencia. En el
vaso de variables continuas no es extraño encontrar comportamiento bimodal (dos modas).
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN

Ejemplo 3.8 Cuando se les pidió mencionaran al mejor equipo del futbol Chileno, 20 periodis-
tas deportivos nombraron a los siguientes clubes:
Dep. La Serena, U. de Chile, Colo Colo, Dep. La Serena, U. Católica, Dep. La Serena, U. de
Chile, U. Católica, Dep. La Serena, Huachipato, Colo Colo, Dep. La Serena, Colo Colo, Colo
Colo, U. Católica, U. de Chile, U. de Chile, Dep. La Serena, Dep. La Serena, Colo Colo.
Dado que Cobrelos se repite con mayor frecuencia, 7 veces, entonces Cobreloa corresponde a la
moda.

Observación 3.6 La información dada por los 20 periodista del ejemplo anterior puede pre-
sentarse en una tabla de distribución como sigue:

Clubes frecuencia
U. de Chile 4
U. Católica 3
Dep. La Serena 7
Colo Colo 5
Huachipato 1
20

3.4. Medidas de variabilidad: desviación estándar


Una caracterı́stica importante de casi todos los tipos de datos es que los valores no son todos
iguales, y el grado al cual sean desiguales o varı́en entre ellos mismos es de importancia básica
en la estadı́stica. Una de las medidas mas populares e importante que miden variabilidad es la
desviación estándar, ya definida con anterioridad y lo que aprendimos solo fue calcularla sin
tener una clara interpretación de ella.
Para conocer mejor la desviación estándar, observe que la dispersión de un conjunto de datos es
pequeña si los valores se agrupan en forma cerrada junto a us media, y que es grande si los valores
se dispersan ampliamente en torno a su media. Para comprender mejor lo anterior consideremos
la siguiente tabla, donde se consideran las calificaciones de 4 alumnos en una determinada
asignatura y donde cada uno tiene 4 evaluaciones. Para simplificar la interpretación de la
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN

Alumnos A1 A2 A3 A4
nota1 50 60 90 100
nota2 50 40 10 0
nota3 50 40 80 100
nota4 50 60 20 0
P
200 200 200 200

desviación estándar hemos considerado que el promedio de los 4 alumnos es de 50 (verifı́quelo)


Si calculamos la desviación estándar de las calificaciones de los 4 alumnos, y las denotamos por
SA1 , SA2 , SA3 , SA4 tenemos que:

2 2 502 + 502 + 502 + 502


X A1 = 502 = 2500 y X A1 = = 2500
4
asi se tiene que la desviación estándar para las calificaciones del alumnoA1 está dada por:
q
2 2
SA1 = XA1 − X A1 = 0

Como era de esperar, al coincidir las cuatro calificaciones del alumno A1, las desviaciones de
cada una de ellas respecto al promedio es nula y es la razón por la cual la desviación estándar
es cero, podemos asegurar en este caso entonces que el promedio es un muy buen representante
de las 4 calificaciones por estar muy cerca de cada una de ellas.
Por otra parte, se tiene que:

2 602 + 402 + 402 + 602 10400


XA2 = = = 2600
4 4
por lo que la desviación estándar de las calificaciones del alumno A2 es:
q
2 √ √
2
SA2 = XA2 − X A2 = 2600 − 2500 = 100 = 10

Ahora
2 902 + 102 + 802 + 202 15000
XA3 = = = 3750
4 4
por lo que la desviación estándar de las calificaciones del alumno A3 es:
q
2 √ √
2
SA3 = XA3 − X A3 = 3750 − 2500 = 1250 ≈ 34,35

y por último
2 1002 + 02 + 1002 + 02 20000
XA4 = = = 5000
4 4
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN

asi la desviación estándar de las calificaciones del alumno A4 es:


q
2 √ √
2
SA4 = XA4 − X A4 = 5000 − 2500 = 2500 = 50

En resumen podemos apreciar que en la medida en que las calificaciones de los alumnos se
alejan mas del promedio la desviación estándar aumenta y en consecuencia el promedio pierde
representatividad del conjunto de notas.

Observación 3.7 Lo anterior se resume en:

1. Mientras mas se alejan los datos del promedio mas aumenta la desviación estándar

2. Mientras mas aumenta la desviación estándar menos representativo es el promedio del


conjunto de datos

Para tener una una noción mas exacta de lo que mide en realidad una desviación estándar,
dedicaremos esta sección a algunas aplicaciones.
En el argumento que nos llevó a la definición de la desviación estándar, se observó que la disper-
sión de un conjunto de datos es pequeña si los valores se agrupan en torno al promedio y que es
grande si los se dispersan ampliamente en torno al promedio. En forma correspondiente, ahora
podemos decir que si la desviación estándar de un conjunto de datos es pequeña, los valores se
concentran en la proximidad del promedio y si es grande los valores se dispersan ampliamente
en torno al promedio.
Esta idea es expresada de manera formal por el siguiente teorema, llamado teorema de Cheby-
shev en honor al matemático ruso P. L. Chevyshev (1821 - 1894)

Teorema 3.1 teorema de Chebyshev


Para un conjunto de datos cualquiera y una constante k cualquiera pero mayor que uno, cuando
menos 1− k12 de los datos están dentro de k desviaciones estándar en uno u otro lado del promedio

Observación 3.8 Aplicaremos el teorema de Chevyshev para el caso en que k = 2 y k = 3

1. si k=2 se tiene que:


1 1 1 3
1− = 1 − 2 = 1 − = = 0,75
x2 2 4 4
La interpretación es la siguiente: “Podemos estar seguro de que aproximadamente el 75 %,
de los datos se encuentran dentro de dos desviaciones estándar en torno al promedio, es
decir se encuentran en el intervalo [X − 2S X + 2S]
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN

2. si k = 3 se tiene que:

1 1 1 8
1− = 1 − 2 = 1 − = ≈ 0,89
x2 3 9 9

La interpretación es la siguiente: “Podemos estar seguro de que aproximadamente el 89 %,


de los datos se encuentran dentro de tres desviaciones estándar en torno al promedio, es
decir se encuentran en el intervalo [X − 3S X + 3S]

Observación 3.9 El teorema de chevyshev es válido para cualquier conjunto de datos, pero
si los datos tienden a distribuirse en forma simétrica alrededor del promedio, entonces la dis-
tribución de los porcentajes de dichos datos considerando una, dos y tres desviaciones estándar
quedan como muestra el siguiente gráfico:

3.5. Estandarización y coeficiente de variación


Comenzaremos esta sección con un ilustrativo ejemplo que nos reforzará la importancia que
tienen los parámetros: Promedio y desviación estándar para luego presentar la estandarización
y finalizar con el coeficiente de variación.

Ejemplo 3.9 Supongamos que un estudiante es sometido a tres axámenes, en tres asignaturas
diferentes, y obtiene las siguientes calificaciones.

Inglés Matemática Psicologı́a


Notas(x) 80 65 75

Aparentemente podrı́a parecer que la mejor calificación del estudiante es la de inglés y la más
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN

pobre la de matemáticas. Sin embrago, serı́a póco inteligente apresurarse a tal conclusión, pués
existen varias razones por la que las calificaciones puras pueden no ser comparables. Por ejem-
plo, puede que el examen de inglés haya sido muy fácil, con abundancia de calificaciones abul-
tadas, mientras que el de matemática resultó demasiado difı́cil. O bien, que el examen de inglés
se ha calificado sobre un total de 100 puntos y el de matemática sobre 80 puntos etc.
Las calificaciones en sı́ suministran información sobre el número absoluto de puntos obtenidos,
pero ninguna indicación acerca de la bondad del rendimiento en comparación con el de los
demás. Supongamos que ahora se nos agrega una nueva información y nos dan el promedio de
las calificaciones de cada asignatura las que se reflejan en la siguiente tabla:

Inglés Matemática Psicologı́a


Notas(x) 80 65 75
Promedio 85 55 60

Esta información adicional cambia considerablemente el panorama. Si observamos los prome-


dios, podemos ver que las calificaciones en inglés fueron muy elevadas, pues los 80 puntos son
inferiores a la media. Es decir, el resultado mas pobre del estudiante es precisamente en inglés.
Un observador poco reflexivo podrı́a ahora deducir que la mejor calificación del estudiante es ls
de psicologı́a, puesto que está 15 puntos por encima del promedio, mientras que en matemática
sólo la ha superado en 10 puntos.
Ahora se nos agrega una nueva información que tiene que ver con la desviación estándar, la que
se exhibe en la siguiente tabla: Graficaremos la situación del alumno considerando la asignatura

Inglés Matemática Psicologı́a


Notas(x) 80 65 75
Promedio 85 55 60
Desviación estándar 10 5 15

de matemática y sociologı́a para confrontarlo y para ello vamos a anlizar toda la información,
es decir, consideraremos la nota, el promedio y la desviación estándar:
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN

La desviación estándar muestra que la dispersión de los datos en las notas de psicologı́a fue de
15 puntos por lo que la calificación 75 se encuentra a una distancia de una desviación estándar
respecto al promedio y se puede deducir que aproximadamente existe un 16 % de alumnos sobre
dicha nota.
Por otra parte la desviación estándar de las notas de matemática es de 5 y la calificación 65
se encuentra a dos desviaciones estándar respecto al promedio por lo que sobre ella sólo hay
aproximadamente un 2,5 %, lo que habla de que debe ser una de las mejores notas del curso.

Podemos resumir enfatizando la importancia que tiene hacer un análisis considerando el com-
portamiento del promedio y la desviación estándar. Hemos cambiado radicalmente de opinión
al conocer los parámetros mencionados y la asignatura de matemática pasó a ser la mejor cal-
ificación del alumno y la de inglés la peor y antes de este conocimiento la opinión era todo lo
contrario.
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN

3.5.1. Estandarización

Hemos aprendido que las calificaciones, por si sola, no son comparables y todo pasa por
considerar el comportamiento del promedio y la desviación estándar. Una forma de establecer
un mecanismo que permita la comparación directa de las calificaciones, pasa por el concepto
de estandarización, que consiste en convertir las calificaciones originales en unas nuevas con la
importante propiedad de que éstas tienen promedio igual a cero y desviación estándar igual
a uno. Al estandarizar todas las calificaciones de cada asignatura entonces quedan en iguales
condiciones (igual promedio e igual desviación estándar) para ser comparadas.

Definición 3.9 Estandarizar el siguiente conjunto de datos reales x1 , x2 , x3 , ..., xn , consiste


en generar nuevos números reales z1 , z2 , z3 , ..., zn donde:

xi − X
zi =
S

donde X y S es el promedio y la desviación estándar, de los datos x1 , x2 , x3 , ..., xn ,


respectivamente.

Ejemplo 3.10 Considerando el ejemplo de las calificaciones del estudiante en las asignaturas
de inglés, matemática y psicologı́a y procediendo a la estandarización de cada una de sus notas
se tiene lo siguiente: .

Inglés Matemática Psicologı́a


Notas(x) 80 65 75
Promedio 85 55 60
Desviación estándar 10 5 15
80−85 65−55 75−60
Nota estandarizada z 10
= −0,5 5
=2 15
=1

Ahora se pueden comparar los datos estandarizados(z) y observamos que la mejor es matemática(z =
2) luego psicologı́a(z = 1) y último inglés(z = −0,5)

3.5.2. Coeficiente de variación

El coeficiente de variación es una medición relativa de variación: Se expresa como un por-


centaje antes que en términos de las unidades de los datos particulares.
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN

El coeficiente de variación mide la dispersión en los datos relativo al promedio y se define de la


siguiente manera:

Definición 3.10 El coeficiente de variación se denota por CV , y se define como:

S
CV = 100 %
X

Como una medución relativa, el coeficiente de variación es particularmente útil al comparar la


variabilidad de dos o más series de datos que se expresan en distintas unidades de medición.

Ejemplo 3.11 Durante los meses pasados, un corredor promedió 12 km. por semana con una
desviación estándar de 2 km., mientras que otro corredor promedió 25 km. por semana con una
desviación estándar de 3 km.¿Cuál de los dos corredores es relativamente mas consistente en
sus hábitos de correr todas las semanas?
Solución
Sea CV1 y CV2 los coeficientes de variación del primer y segundo corredor rspectivamente,
entonces:
2 3
CV1 = 100 % = 16, 7 % y CV2 = 100 % = 12 %
12 25
Por lo tanto el segundo corredor es relativamente mas consistente en sus hábitos de correr todas
las semanas

3.6. Introducción a los números ı́ndices


En esta sección se examinará, a nivel introductorio, un medio estadı́stico muy útil denom-
inado ı́ndice. Muchos ı́ndices, tales como el indice de precios al consumidor, el de una bolsa
de valores y uno de indicadores económicos avanzados, compilados y publicados por gobier-
nos reciben considerable atención en los noticiarios de televisión y en las primeras planas de
periódicos.
Todos los paı́ses están preocupados por la variación de ciertos ı́ndices y la consideración de ellos
son determinantes, de una u otra manera, en tomas de decisiones.

Definición 3.11 Un número ı́ndice es una relación en porcentaje que mide el cambio de un
tiempo a otro en precio, cantidad, valor o algún otro elemento de interés
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN

Observación 3.10 Ası́ como el promedio o cualquier otro promedio resume un conjunto de
valores, un número ı́ndice se utiliza para determinar la variación en porcentaje (o en 1000,
10000, 100000 ó 1000000 etc.) en una sola cifra, del precio, valor o cantidad de un conjunto
de datos estadı́sticos de un perı́odo a otro.

. Es importante destacar que existe una gran variedad de ı́ndices y muchos de ellos obedecen a
una estructura general y otros tienen un tratado especial. En estos apuntes veremos una forma
muy elemental, de este concepto, y que obedecen a una patrón de comportamiento y luego
veremos algunos ı́ndices especiales que están ya estandarizados y normados por el Sernageomin
basados en estándares internacionales.

Ejemplo 3.12 Suponga que el precio de un artı́culo cualquiera entre 1990 1995 fue como sigue:
.

Año Precio
1990 400
1991 600
1992 550
1993 275
1994 350
1995 700

Para el cálculo de un ı́ndice se debe considerar un perı́odo base para fines comparativos. En el
caso del ejemplo consideraremos, como perı́odo base, el año 1990 y luego procederemos a calcular
el ı́ndice de variación de los años siguientes y finalemente estableceremos la comparaciones e
interpretación.
precio 1990 400
I90 = × 100 = × 100 = 100
precio 1990 400
precio 1991 600
I91 = × 100 = × 100 = 150
precio 1990 400
precio 1995 550
I92 = × 100 = × 100 = 137,5
precio 1990 400
precio 1993 275
I93 = × 100 = × 100 = 68,75
precio 1990 400
precio 1994 350
I94 = × 100 = × 100 = 87,5
precio 1990 400
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN

precio 1995 700


I95 = × 100 = × 100 = 175
precio 1990 400
Podemos resumir los cálculos hechos en una tabla como sigue: .

Año Precio Indice


1990 400 100
1991 600 150
1992 550 137.5
1993 275 68.8
1994 350 87.5
1995 700 175

Observación 3.11 Podemos realizar la siguientes interpretaciones de los ı́ndices calculados en


el ejemplo: Ası́ para el perı́odo 1991 el ı́ndice 150 significa que el precio del artı́culo en estudio,
en este perı́odo, es el 50 % mayor que en el perı́odo 1990. El ı́ndice de precios para 1992 de
137.5 indica que el precio, en este perı́odo, es de 37.5 % mas alto que en el perı́odo 1990. Para
los perı́odos 1993 y 1994 los ı́ndices son respectivamente 68.8 y 87.5 quiere decir que el precio
del año 1993 fue el 31.2 % menor que el perı́odo base (1990) y que en el perı́odo 1994 fue el
12.5 % menor que en 1990.

Cuando se calcula un número ı́ndice la base puede permanecer fija, como en el caso del ejemplo,
en éste, el precio de cada perı́odo de la serie se comparó con el precio del perı́odo 1990 (base
fija).Otra forma de calcular los ı́ndices consiste en variar la base de un perı́odo a otro, cuando
este es el caso, se dice que los ı́ndices se calcularon con base variable.
Lo que hemos visto sobre, números ı́ndices, ha sido a nivel introductorio sin profundizar en otras
forma de generar indicadores. Nos proponemos ahora analizar, en particular, algunos ı́ndices
que han sido estandarizados y reconocidos por Sernageomin para establecer comparaciones con
estándares tanto nacionales como internacionales.

3.6.1. Indices de frecuencia y gravedad en prevención de riesgo

Indice de frecuencia

Definición 3.12 LLamamos ı́ndice de frecuencia al número de accidentes con tiempo perdido
por millón de horas hombres de exposición al riesgo, entendiendo por
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN

1. Accidente con tiempo perdido


Aquella lesión que hace perder al trabajador mas de una jornada de trabajo y los fatales.

2. Horas hombre de exposición al riesgo


Es el número total de hombres trabajando multiplicado por el número total de horas en
trabajo de todo el personal en el perı́odo considerado.

3. Factor 1000000
Es una constante para facilitar los cálculos.

Podemos resumir lo anterior en la siguiente fórmula:

N◦ accidentes con tiempo perdido


IF = × 1000000
Total horas hombres

donde IF es el ı́ndice de frecuencia

Observación 3.12 En el análisis de este ı́ndice se debe dejar constancia que el cálculo de
las horas hombres debe ser lo mas exacto posible y regirse por las normas emanadas por el
Sernageomin.

Ejemplo 3.13 En una faena minera laboran 1000 trabajadores en jornadas de trabajo de 5 × 2
con 9 horas de trabajo diario.
En un mes ocurrieron 150 accidentes que se descomponen como sigue:

Tipo de accidentes frecuencia (f)


con incapacidad laboral 1
con incapacidad parcial temporal 56
con incapacidad permanente parcial 9
sin tiempo perdido 84
P
150

Se pide calcular el ı́ndice de frecuencia


Solución
Cada trabajador está expuesto al riesgo 9 horas diarias y dado que labora en turnos de 5 × 2,
entonces hay 2 dı́as a la semana que descansa pr lo tanto en el mes no trabaja 8 dı́as, lo que
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN

se desprende que durante el mes trabaja 22dı́as.


Por lo anterior podrı́amos asegurar que el número total de horas expuestas al riesgo por traba-
jador es de:

N◦ horas expuestas al riesgo por trabajador = 9 × 22 = 198 horas

Ahora si consideramos los 1000 trabajadores se tiene que:

N◦ total de horas expuestas al riesgo = 1000 × 198 = 198000 horas

Por otra parte el número total de accidentes con tiempo perdido es de 66. De esta manera el
ı́ndice de frecuencia es de:

66
IF = × 1000000 = 333,33 ≈ 333
198000

Significa que por cada millón de horas hombres con exposición al riesgo, ocurrirán 333 acci-
dentes con tiempo perdido.

Indice de gravedad

La importancia del ı́ndice de gravedad radica no solo en las consecuencias de las lesiones,
sino en el tiempo perdido y el mayor o menor costo que éstas acarrean. La forma mas práctica
de obtener el ı́ndice de gravedad es relacionar los dı́as perdidos debido a accidentes, con el
número total de horas hombres expuestas al riesgo.

Definición 3.13 El ı́ndice de gravedad es la relación que existe entre el total de dı́as perdidos
debido a los accidentes del trabajo y el total de horas hombres de exposición al riesgo, multipli-
cado por 1000000.
Si llamamos IG al ı́ndice de gravedad se tiene que:

N◦ de dı́as perdidos
IG = × 1000000
Total horas hombres

Ejemplo 3.14 En una industria de 1500 trabajadores con jornada completa, se produjeron en
un mes 50 accidentes distribuidos como se muestra en la siguiente tabla:
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN

N◦ de accidentes incapacidad dı́as perdidos


43 parcial temporal 500
6 permanente parcial 500
1 permanente total 6000
P
50 - 7000

Se pide calcular el ı́ndice de gravedad


Solución
Cada trabajador trabaja a tiempo completo y en la semana debe cumplir con 45 horas por lo
que el número de horas mensuales expuesto al riesgo es de:

N◦ horas expuestas al riesgo por trabajador = 45 × 4 = 180 horas

asi el total de horas hombres expuestas al riesgo es de

N◦ total de horas expuestas al riesgo = 180 × 1500 = 270000 horas

se tiene entonces que el ı́ndice de gravedad es de:

7000
IG = × 1000000 = 25925, 925 ≈ 25926
270000

Significa que por cada millón de horas hombres expuestas al riesgo se pierden 25926 dı́as de
trabajo.
Capı́tulo 4

Estadı́stica descriptiva bivariada

Cuando los datos de una determinada población están relacionados con dos variables es muy
útil recurrir a una tabla de doble entrada para distribuir en ella todos los datos que cumplan
obviamente con los dos criterios definidos por las variables mencionadas. En general, una tabla
de doble entrada tiene la siguiente forma.

Tabla de doble entrada


P
Y y1 y2 · · · yj ··· yn
X
x1 f11 f12 ··· f1j ··· f1n f1•
x2 f21 f22 ··· f2j ··· f2n f2•
.. .. .. .. .. .. .. ..
. . . . . . . .
xi fi1 fi2 ··· fij ··· fin fi•
.. .. .. .. .. .. .. ..
. . . . . . . .
xm fm1 fm2 ··· fmi ··· fmn fm•
P
f•1 f•2 ··· f•i ··· f•n f••

donde fij representa el número de observaciones (frecuencia) que cumplen la condición de


pertenecer a la clase xi y también a la clase yj
n
X
fi• = fij = fi1 + fi2 = · · · + fin
j=1

m
X
f•j = fij = f1j + f2j + · · · + fmj
i=1
CAPÍTULO 4. ESTADÍSTICA DESCRIPTIVA BIVARIADA

m X
X n m
X n
X
f•• = f ij = fi• + f•j
i=1 j=1 i=1 j=1

Recurriremos a un ejemplo para interpretar los valores que se encuentran en las celdas de
una tabla de doble entrada. Aprovecharemos, al mismo tiempo, de definir conceptos como:
Distribuciones marginales, distribuciones condicionales y covarianza:

Ejemplo 4.1 Considere la siguiente tabla de doble entrada que muestra a trabajadores de la
empresa W distribuidos según sus edades y años de experiencia.

Distribución de trabajadores de acuerdo a su edad (X) y años de experiencia(Y).


Años Exp. Y 0-5 5 - 10 10 - 15 15 - 20 20 - 25
Edad X
20 − 25 1
25 − 30 2 4
30 − 35 5 10 15
35 − 40 1 20 30
40 − 45 6 5 10 15

Responderemos las siguientes preguntas como una manera de ilustrar diferente definiciones
como también apreciar las bondades que tiene una tabla de doble entrada

1. Interpretar los siguientes valores f33 , f4• y f•3

2. Calcular la edad promedio y la desviación estándar de los trabajadores con una experiencia
entre 5 y 10 años.

3. El 25 % de los trabajadores con mas años de servicios recibirán un bono extra de $180000
pesos. Si Juan Pérez tiene 14 años de servicio. ¿Tiene derecho el Sr. Pérez al bono?.

Respuestas

1. f33 = 15; Significa que 15 trabajadores tienen entre 30 y 35 años de edad y entre 10 y 15
años de experiencia.
f4• = 51;Significa que 51 trabajadores tienen entre 35 y 40 años.
f•3 = 50; Significa que 50 trabajadores tienen entre 10 y 15 años de experiencia.
CAPÍTULO 4. ESTADÍSTICA DESCRIPTIVA BIVARIADA

4.0.2. Distribución condicional

Vamos a introducir el concepto de distribución condicional, observe que la pregunta, del


ejercicio 2, condiciona la respuesta a aquellos trabajadores que tienen una experiencia entre 5
y 10 años. Esto nos lleva a extraer la información de la siguiente tabla condicionada:

Distribución condicional de la edad de los trabajadores


con años de experiencia entre 5 y 10 años.
Edad N◦ de trabajadores
X fi2
20 − 25 1
25 − 30 4
30 − 35 10
35 − 40 20
40 − 45 6
P
41

4.0.3. Marca de clase

Para calcular el promedio y la desviación estándar debemos incorporar una nueva colum-
na con las marcas de clase que corresponden a los puntos medios de las clases (o intervalos),
quedando de la siguiente manera:

Edad Marca de clase N◦ de trabajadores


X xi fi2
20 − 25 22, 5 1
25 − 30 27, 5 4
30 − 35 32, 5 10
35 − 40 37, 5 20
40 − 45 42, 5 6
P
41
CAPÍTULO 4. ESTADÍSTICA DESCRIPTIVA BIVARIADA

Edad Marca de clase N◦ de trabajadores


X xi fi2 xi fi2
20 − 25 22, 5 1 22, 5
25 − 30 27, 5 4 110
30 − 35 32, 5 10 325
35 − 40 37, 5 20 750
40 − 45 42, 5 6 255
P
41 1462, 5

Hemos introducido la columna marca de clase con la finalidad de calcular un promedio (aprox-
imado) para datos tabulados. Con el objeto de aclarar esto interpretaremos la marca de clase
37, 5 (que corresponde al intervalo 35 − 40) diciendo que: 20 trabajadores tienen una edad de
37, 5 años. Lo que quiere decir que la edad 37, 5 años se repite 20 veces. Asi, tenemos que:

P5
j=1 xi fi2 1462, 5
X/y ∈ [5, 10] = P5 = = 35, 67
j=1 fi
41

donde la notación X/y ∈ [5, 10] se interpreta como el promedio de edad condicionado a los
valores de y entre 5 y 10, es decir a los trabajadores que tienen entre 5 y 10 años de servicio.
Buscaremos ahora la deviación estándar(datos tabulados), para ello completaremos la tabla
para realizar los cálculos necesarios:

Edad M. de clase N◦ de trab.


X xi fi2 xi fi2 x2i x2i fi2
20 − 25 22, 5 1 22, 5 506, 25 506, 25
25 − 30 27, 5 4 110 756, 25 3025
30 − 35 32, 5 10 325 1056, 25 10562, 5
35 − 40 37, 5 20 750 1406, 25 28125
40 − 45 42, 5 6 255 1806, 25 10837, 5
P
41 1462, 5 53056, 25

Recuerde que:
P 2 P 2  2
2 2fx fx 53056, 25 1462, 5
S = X2 −X = P − P = − = 21, 706
f f 41 41
CAPÍTULO 4. ESTADÍSTICA DESCRIPTIVA BIVARIADA

Ası́, la desviación estándar será:


p
S= 21, 706 = 4, 66

4.0.4. Distribución marginal

Observe que nos están preguntando por el percentil 75 (P75 )y la variable que se está con-
siderando son los años de servicio de los trabajadores. Por esta razón vamos a construir una
tabla que se llama Tabla marginal, que pasamos a mostrar.

Distribución marginal de los años de servicio de los trabajadores


Años Exp. N◦ de trabajadores Frec. Acumulada
Y f•j F•j
0−5 8 8
5 − 10 41 49
10 − 15 50 99
15 − 20 10 109
20 − 25 15 124
P
124

calculamos la expresión
75
124 = 93
100
comparamos el valor 93 con la columna de la frecuencia acumulada(F•j ), partiendo de la primera
celda, y con el primer valor que lo supere nos detenemos en dicho valor e inspeccionamos en
que intervalo se encuentra y concluimos que corresponde a 10 − 15. Conocido el intervalo donde
se encuentra el P75 , podemos aplicar la fórmula:
75

100
n − Fa− a
P75 = liminf +
f

reemplazando los datos liminf = 10, n = 124, Fa− = 49, a = 5 y f = 50 tenemos que:
75

100
124 − 49 5
P75 = 10 + = 14, 4
50

El señor Pérez por tener 14 años de servicio no logra ser beneficiado por el bono.
CAPÍTULO 4. ESTADÍSTICA DESCRIPTIVA BIVARIADA

4.0.5. Covarianza

Cuando se trabaja con dos variables, un parámetro que permite decidir que tipo de aso-
ciación existe entre ellas, es la covarianza que se denota por Cov(X, Y ) y que pasamos a definir:

Definición 4.1
Cov(X, Y ) = XY − X Y

donde P P P
xy x y
XY = y XY =
n n n
n representa el total de casos (suma de las frecuencias)

Observación 4.1 De acuerdo al signo de Cov(X,Y) se distingue lo siguiente:

1. Si Cov(X, Y ) > 0, X e Y se relacionan en forma directamente proporcional

2. Si Cov(X, Y ) < 0, X e Y se relacionan en forma inversamente proporcional

3. Si Cov(X, Y ) = 0, No existe relación entre X e Y.

Ejemplo 4.2 Al calcular la Cov(X,Y) de la tabla de doble entrada del ejercicio en que la vari-
able X representa la edad de los trabajadores y la variable Y representa los años de experiencia
de ellos, se tiene que:

La siguiente tabla marginal permite calcular X


Edad M. de clase N◦ de trab.
X xi fi• xi fi•
20 − 25 22, 5 1 22, 5
25 − 30 27, 5 6 165
30 − 35 32, 5 30 975
35 − 40 37, 5 51 1912,5
40 − 45 42, 5 36 1530
P
124 4605
P P
fx xi fi• 4605
X= P = P = = 37, 137
f fi• 124
CAPÍTULO 4. ESTADÍSTICA DESCRIPTIVA BIVARIADA

La siguiente tabla permite calcular Y


Años Exp. M. de clase N◦ de trabajadores
Y yj f•j f•j yj
0−5 2,5 8 20
5 − 10 7,5 41 307,5
10 − 15 12,5 50 625
15 − 20 17,5 10 175
20 − 25 22,5 15 337,5
P
124 1465

P P
fy f•j yj 1465
Y = P = P = = 11, 814
f f•j 124

La siguiente tabla permite calcular XY


yj 2,5 7,5 12,5 17,5 22,5
xi
22,5 0 1 0 0 0
27,5 2 4 0 0 0
32,5 5 10 15 0 0
37,5 1 20 30 0 0
42,5 0 6 5 10 15

P P
xy xyf 56200
XY = = Pi j ij = = 453, 225
n fij 124
Ası́:

Cov(X, Y ) = XY − X Y

= 453, 225 − 37, 137 ∗ 11, 814

= 14, 488 > 0

Podemos decir, que existe una relación directamente proporcional entre los años de experiencia
y la edad de los trabajadores.
Bibliografı́a

[1] MASON y LIND. “Estadı́stica para Administración y Economı́a”.

[2] TRIOLA, M. “Estadı́stica elemental”.

[3] BERENSON y LEVINE. “Estadı́stica básica en administración”.

[4] RUBILAR CORTES R. “Estadı́stica aplicada a la accidentabilidad”.

[5] AGUIRRE VERGARA, C. “Estadı́stica aplicada”.

[6] LEVIN Y RUBIN “Estadı́stica para administradores”.

[7] FREUND SMITH “Estadı́stica”.

También podría gustarte