Está en la página 1de 36

2.

ESTADISTICA
DESCRIPTIVA
CONTENIDO

2 ESTADISTICA DESCRIPTIVA................................................................................... 11
2.1 DISTRIBUCIONES DE FRECUENCIAS Y GRAFICOS 11
2.1.1 DATOS CORRESPONDIENTES A UN ATRIBUTO 11
2.1.2 DATOS CORRESPONDIENTES A UNA VARIABLE DISCRETA 14
2.1.3 DATOS CORRESPONDIENTES A UNA VARIABLE CONTINUA 16
2.1.4GRAFICAS DE SERIE DE TIEMPO 22

2.2 MEDIDAS CARACTERISTICAS DE UNA DISTRIBUCION DE


FRECUENCIAS. 25
2.2.1 MEDIDAS DE POSICION 26
2.2.2 MEDIDAS DE DISPERSIN 29
2.2.3 COEFICIENTE DE VARIACION 32

2.3 REGLA EMPIRICA 33

2.4 DIAGRAMAS DE CAJA O BOX - PLOT 34

2.5 TRANSFORMACIONES LINEALES 36

2.6 TRABAJO PRACTICO 38

2.7 COMPLEMENTO PARA EL USO DE EXCEL 44

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 11

2 ESTADISTICA DESCRIPTIVA

Una vez fijado el objetivo de estudio y en consecuencia definida la o las poblaciones asociadas,
se procede a la recoleccin de los datos (censo o muestra).

Considerando que el conjunto de datos constituye una muestra, en este captulo se estudian
algunas de las tcnicas ms usadas para:

la presentacin de los mismos en forma ordenada ( tablas y grficos)


el clculo de medidas resmenes.
Antes de analizar los datos es importante determinar primero si se recogieron datos cualitativos
o cuantitativos ya que se usan tcnicas estadsticas distintas para cada uno de ellos, por lo que
se pueden esperar resultados errneos si se aplica una tcnica inapropiada.

2.1 DISTRIBUCIONES DE FRECUENCIAS Y GRAFICOS

Una forma til de presentar un conjunto de datos es la distribucin de frecuencias.

2.1.1 DATOS CORRESPONDIENTES A UN ATRIBUTO

Ejemplo :
Los siguientes datos representan la condicin en Matemtica Discreta de los alumnos de la ca-
rrera de Ingeniera en Sistemas de Informacin de la U.T.N., Reg. Rosario, inscriptos en la
asignatura Probabilidad y Estadstica, en el ao 2002

Nmero de alumnos Proporcin de alumnos


Condicin nk fk
Aprobada 119 0,24
Regular 320 0,64
Cursada 13 0,03
Cursando 44 0,09
Sin cursar 3 0
Totales 499 1,00

Caracterstica en estudio: Condicin en Matemtica Discreta (variable cualitativa o atributo)

Para armar la distribucin de frecuencias se particion al conjunto de los 499 alumnos


inscriptos en Probabilidad y Estadstica en el ao 2002 en subconjuntos o clases segn los
niveles del atributo (en el ejemplo 5 niveles que se corresponden con las condiciones de:
aprobada, regular, cursada, cursando y sin cursar).
El nmero de elementos que pertenecen a cada clase recibe el nombre de frecuencia
absoluta (nk).
El cociente entre la frecuencia absoluta y el nmero total de observaciones recibe el nombre de
frecuencia relativa ( fk ).
La suma de las frecuencias absolutas es igual al nmero total de observaciones y en conse-
cuencia, la suma de las frecuencias relativas es siempre igual a 1.

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 12

Es muy frecuente expresar a las frecuencias relativas como porcentaje; as en el ejemplo


diremos que slo el 24 % de los alumnos que cursaron Probabilidad y Estadstica en el 2002,
tenan aprobada la asignatura Matemtica Discreta.

REPRESENTACION GRAFICA

GRAFICO CIRCULAR O SECTORES (realizado en Excel, con asistente de grfico )

Condicin en Matemtica Discreta de los alumnos


que cursan Prob. y Estadstica - ao 2002

Sin cursar
Cursando
0%
9%
Aprobada
Cursada
24%
3%

Regular
64%

GRAFICO DE BARRAS (realizado en Excel con asistente de grfico)

Condicin en Matemtica Discreta de los alumnos


inscriptos en Probabilidad y Estadstica - 2002

0,70

0,60

0,50
frec. relativa

0,40

0,30

0,20

0,10

0,00
Aprobada Regular Cursada Cursando Sin cursar
Condicin

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 13

DIAGRAMA DE PARETO

Es un caso especial del diagrama de barras, que se usa con frecuencia en control de calidad.
Las barras se grafican en orden descendente. Puede tambin incluir una segunda escala (del
0 al 100), encima de las barras de las clases, que muestre los porcentajes acumulados.
Este tipo de diagrama lleva el nombre del economista italiano V. Pareto y en general
representa la ley de Pareto, esto es: la mayor parte de los defectos aparece slo en unas
pocas categoras.

Ejemplo :
Un analista de redes registr las causas principales que propiciaron fallas en los sistemas
durante los ltimos seis meses, obteniendo el siguiente resultado:

Razn de la falla Frecuencia


Conexin fsica 1
Falla elctrica 8
Software del servidor 28
Hardware del servidor 4
Servidor sin memoria disponible 14
Ancho de banda inadecuado 1

Este resultado se presenta en un diagrama de Pareto (obtenido a travs del software


estadstico SPSS)

Razn de la falla
60
Percent

100

50

40

30
50
28

20

14
10
Count

8
0 4 0
Soft servidor Falla elctrica Ancho de banda
Sin memoria Hardware Conexin fsica

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 14

2.1.2 DATOS CORRESPONDIENTES A UNA VARIABLE DISCRETA

Ejemplo :
Un distribuidor de aspiradoras registra el nmero de unidades vendidas por da durante un
perodo de 50 das. Los resultados obtenidos fueron:

84 88 87 89 88 89 88 91 87 85
88 89 90 88 87 91 86 89 85 88
86 90 89 84 91 92 89 88 94 90
87 89 91 86 90 89 91 92 89 88
85 88 87 88 91 87 92 90 85 87

Caracterstica en estudio: nmero de aspiradoras vendidas por da (variable discreta)

A fin de ordenar la informacin se particiona al conjunto de 50 das en clases, segn la variable


en estudio: nmero de aspiradoras vendidas por da y se realiza el cmputo de frecuencias
segn se indica en la siguiente:

DISTRIBUCION DE FRECUENCIAS

Frecuencia Frecuencia
Valor de la Frecuencia Frecuencia
Cmputo de absoluta relativa
variable absoluta relativa
Frecuencias acumulada acumulada
xk nk fk Nk Fk
84 // 2 0,04 2 0,04
85 //// 4 0,08 6 0,12
86 /// 3 0,06 9 0,18
87 //// // 7 0,14 16 0,32
88 //// //// 10 0,20 26 0,52
89 //// //// 9 0,18 35 0,70
90 //// 5 0,10 40 0,80
91 //// / 6 0,12 46 0,92
92 /// 3 0,06 49 0,98
93 0 0,00 49 0,98
94 / 1 0,02 50 1,00
Total 50 1,00

La frecuencia absoluta acumulada ( Nk ) es la cantidad de elementos correspondientes a


valores de la variable menores o iguales a xk .

La frecuencia relativa acumulada ( Fk ) es la proporcin de elementos cuyo valor de la


variable es menor o igual que xk.

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 15

REPRESENTACION GRAFICA

GRAFICO DE BASTONES (realizado en Excel con Anlisis de datos1)

El mismo se obtiene representando la frecuencia (absoluta o relativa) correspondiente a cada


valor de la variable mediante un segmento cuya longitud es proporcional a la frecuencia.

0,25

0,2
frecuencia relativa

0,15

0,1

0,05

0
83 84 85 86 87 88 89 90 91 92 93 94
nmero de aspiradoras

GRAFICO ESCALONADO

0,8
Frec. rel. acumulada

0,6

0,4

0,2

0
83 84 85 86 87 88 89 90 91 92 93 94 95

Nmero de aspiradoras

1
Ver pasos a seguir para su utilizacin en el punto 2.7: Complemento para el uso de Excel, pag 45.

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 16

Si el nmero de observaciones hubiese sido pequeo (supongamos las dos primeras


columnas), el tratamiento de la informacin se hara a travs de un:

DIAGRAMA DE PUNTOS

84 85 86 87 88 89 90 91

nmero de aspiradoras

2.1.3 DATOS CORRESPONDIENTES A UNA VARIABLE CONTINUA

Ejemplo:
Con el propsito de adecuar los objetivos curriculares de una escuela, se decide analizar la
realidad socioeconmica de la familia a la cual pertenecen los alumnos ingresantes en un
ao determinado. A tal fin se registran para cada uno de ellos (entre otros datos) la superfi-
cie cubierta de la vivienda que habita la familia del alumno ingresante. Los resultados obteni-
dos para 30 alumnos ingresantes seleccionados al azar fueron:

85 - 117 - 92 - 120 - 94 - 110 - 151 - 90 - 80 - 116 - 95 - 102 - 100 - 113 - 118 - 140 - 133 -
108 - 115 - 148 - 110 - 130 - 100 - 120 - 108 - 125 - 105 - 130 - 112 - 150

Caracterstica en estudio: superficie cubierta de la vivienda, en m2 (variable continua).

DIAGRAMA DE TALLO-HOJA

Como un paso previo a la construccin de la distribucin de frecuencias, los datos pueden


organizarse en un diagrama de tallo-hoja. En este tipo de diagramas, cada valor observado
se descompone en dgitos tallo y dgitos hoja.
En el ejemplo planteado, la decena y la centena de cada valor observado forman los dgitos
tallo y la unidad el dgito hoja.
dgitos tallo dgitos hoja
As, para las dos primeras observaciones (85 y 117) re-
sultan: 8 5
11 7

Es conveniente presentar a los dgitos hoja ordenados en forma creciente para facilitar la
posterior utilizacin del diagrama tallo-hoja, tanto en forma grfica como tabular.

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 17

En el ejemplo, resulta el diagrama de tallo-hoja realizado con PHStat 2 :

8 05
9 0245
10 002588
11 00235678
12 005
13 003
14 08
15 01

DISTRIBUCION DE FRECUENCIAS

Otra forma de organizar la informacin es individualizando entre los datos, el valor mnimo (80
m2) y el mximo (151 m2) que asume la variable.
La diferencia entre ambos valores (en este caso 71 m2) se llama rango.
Los 28 valores restantes pertenecen al intervalo [ 80, 151].
Para poder realizar el respectivo cmputo de frecuencias, dicho intervalo se particiona en
subintervalos de igual amplitud. Cada uno de ellos identifica a una clase y recibe el nombre de
intervalo de clase .
Cuando se agrupan datos a travs de intervalos de clase, se produce una prdida de
informacin por la no conservacin de los valores individuales. Demasiados intervalos provoca
prdida de efectividad como medio de resumir datos; en cambio, pocos intervalos condensan
tanto la informacin que arrojan poca luz sobre el comportamiento de la caracterstica.
La eleccin del nmero de subintervalos est estrechamente relacionada con la cantidad de
datos que se consideran. Es comn usar entre 5 y 20 subintervalos.
Suele aplicarse una regla prctica que indica que el nmero de subintervalos es
aproximadamente igual a la raz cuadrada del nmero de observaciones.
Para el ejemplo dado, se tomarn 6 subintervalos, dado que 30 = 5,4772

Cuando se fijan los intervalos de clase, se debe tener en cuenta que:

Deben ser semiabiertos para que cada valor de la variable pertenezca a uno y slo
uno de los intervalos.
En el ejemplo : 79 < x 91 ( 79 , 91]

El punto medio de cada intervalo de clase debe ser un posible valor de la variable (de
acuerdo a las restricciones con las que se expresan los valores de las observaciones).
En el ejemplo los puntos medios deben ser valores enteros a pesar de que la variable
es continua.

Es preferible, por facilidad en el anlisis, que los intervalos posean igual amplitud.
La tabla siguiente muestra la distribucin de frecuencias del ejemplo :

2
PHStat es un complemento estadstico para Microsoft Excel incluido en el CD que acompaa al libro Estadstica para Adminis-
tracin (2da edicin) de Berenson, M; Levine , D. y Krehbiel,T.; editorial Pearson Educacin, Mxico, 2001.

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 18

Frecuencia Frecuencia
Frecuencia Frecuencia
Intervalo de clase Punto medio absoluta relativa
absoluta relativa
acumulada acumulada
79 < x 91 85 3 0,10 3 0,10
91 < x 103 97 6 0,20 9 0,30
103 < x 115 109 8 0,27 17 0,57
115 < x 127 121 6 0,20 23 0,77
127 < x 139 133 3 0,10 26 0,87
139 < x 151 145 4 0,13 30 1,00
30 1,00

REPRESENTACION GRAFICA

HISTOGRAMA

Las bases de las barras tienen la longitud igual a la amplitud del intervalo de clase que
representan y se ubican sobre el eje de la abscisa.

El rea de cada barra es proporcional a la frecuencia del intervalo de clase.

Si los intervalos de clase son de igual amplitud, las alturas de las barras resultan
proporcionales a las frecuencias de las clases. En caso de amplitudes diferentes, las
alturas deben ser calculadas para que se verifique la condicin anterior.

Para el ejemplo, se presenta a continuacin la distribucin de frecuencia y el histograma


realizado en Excel con Anlisis de datos:3

Clases Frecuencia Frec. acumulada


79 0 0
91 0,10 0,10
103 0,20 0,30
115 0,27 0,57
127 0,20 0,77
139 0,10 0,87
151 0,13 1
163 0 1

3
Ver pasos a seguir para su utilizacin en el punto 2.7: Complemento para el uso de Excel, pag 45

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 19

0,3

0,25

0,2

Frecuencia
0,15

0,1

0,05

0
79 91 103 115 127 139 151 163
Superficie cubierta (en m2)

Los histogramas son ms fciles de interpretar si los intervalos de clase tienen la misma
amplitud.
El histograma, al igual que el diagrama de tallo-hoja, proporciona una impresin visual del
aspecto que tiene la distribucin de las observaciones, as como informacin sobre la
dispersin de los datos.
Al pasar de los datos originales o del diagrama de tallo-hoja a la distribucin de frecuencias y al
histograma, se pierde parte de la informacin debido a que ya no se tienen las observaciones
originales. Sin embargo, esta prdida en la informacin a menudo es pequea si se le compara
con la facilidad de interpretacin ganada al utilizar la distribucin de frecuencias y el
histograma.
Para conjuntos de datos pequeos, los histogramas pueden cambiar claramente de apariencia
si el nmero de clases o el ancho de stas cambia. Los histogramas son ms estables si el
nmero de observaciones es grande.

POLIGONO DE FRECUENCIAS

Otra forma de representar grficamente la distribucin de frecuencias absolutas o relativas es a


travs del polgono de frecuencias.
Si se considera una distribucin de frecuencias con intervalos de clase de igual amplitud, el
polgono est referido a un sistema coordenado donde cada vrtice tiene por abscisa el punto
medio del intervalo y por ordenada la frecuencia del intervalo de clase.
Para hallar los puntos de iniciacin y finalizacin del polgono, se consideran dos intervalos
de clase (uno anterior al primero y otro posterior al ltimo) de igual amplitud a los restantes y de
frecuencia cero.
Se demuestra mediante la igualdad de tringulos que el polgono as construido encierra igual
rea que el histograma.

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 20

Para el ejemplo:

0,3

0,25

frecuencia relativa
0,2

0,15

0,1

0,05

0
73 85 97 109 121 133 145 157
sup. cubierta (en m2)

POLIGONO DE FRECUENCIAS ACUMULADAS

De igual forma se puede construir el polgono de frecuencias acumuladas como se muestra en


la siguiente figura:

1
0,9
Frec. relativa acumulada

0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
67 79 91 103 115 127 139 151 163
Sup. cubierta (en m2)

4
Se presenta a continuacin otro ejemplo sobre variable continua :
4
Ejemplo extrado de Probabilidad y Estadstica aplicada a la Ingeniera de Montgomery Douglas, Runger Geor-
ge.- Mc Graw Hill Mxico, 1996. pag. 5

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 21

Los datos de la siguiente tabla representan la resistencia a la tensin, en libras por pulgada
cuadrada (psi), de 80 muestras de una nueva aleacin de aluminio y litio, que est siendo
evaluada como posible material para la fabricacin de elementos estructurales de aeronaves.

Resistencia a la tensin de 80 muestras de aleacin de aluminio-litio


105 221 183 186 121 181 180 143
97 154 153 174 120 168 167 141
245 228 174 199 181 158 176 110
163 131 154 115 160 208 158 133
207 180 190 193 194 133 156 123
134 178 76 167 184 135 229 146
218 157 101 171 165 172 158 169
199 151 142 163 145 171 148 158
160 175 149 87 160 237 150 135
196 201 200 176 150 170 118 149

Los datos fueron registrados conforme se realizaba la prueba y en este formato no conllevan
mucha informacin con respecto a la resistencia a la tensin. No es fcil responder a preguntas
tales como Qu porcentaje de las muestras fallaron debajo de los 120 psi?.
Dado que se tienen muchas observaciones, la construccin de un diagrama de puntos para
estos datos es ineficiente; existen presentaciones visuales ms eficaces para conjuntos
grandes de datos. Una de ellas es el ya visto diagrama de tallo y hoja:

Tallo Hoja Frecuencia


7 6 1
8 7 1
9 7 1
10 51 2
11 580 3
12 103 3
13 413535 6
14 29583169 8
15 471340886808 12
16 3073050879 10
17 8544162106 10
18 0361410 7
19 960934 6
20 7108 4
21 8 1
22 189 3
23 7 1
24 5 1

Otra grfica apropiada es el histograma. Ntese en la figura siguiente la simetra de la


distribucin de frecuencias de las mediciones de resistencia.

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 22

2.1.4 GRAFICAS DE SERIE DE TIEMPO 5

Las grficas consideradas hasta el momento (histogramas, diagramas de tallo y hoja) son
mtodos visuales muy tiles para mostrar la variabilidad presente en los datos. Sin embargo,
con frecuencia el tiempo es un factor importante que contribuye a la variabilidad observada en
los datos, y los mtodos anteriores no lo toman en cuenta. Una serie de tiempo, o secuencia de
tiempo, es un conjunto de datos en los que las observaciones se registran en el orden en que
ocurren. La grfica de una serie de tiempo es un diagrama en el que el eje vertical denota el
valor observado (por ejemplo x), mientras que el eje horizontal denota el tiempo (que puede ser
minutos, das, aos, etc.). Cuando se grafican las mediciones como una serie de tiempo, a
menudo se observan tendencias, ciclos u otras caractersticas importantes de los datos que, de
otra forma, pasaran inadvertidas.
Por ejemplo, considrese la figura 1-18 a, la cual presenta la grfica de una serie de tiempo de
las ventas anuales de una compaa durante los ltimos diez aos. La impresin general que
ofrece esta grfica es que las ventas tienen una tendencia a crecer. Existe cierta variabilidad
en esta tendencia, donde, las ventas en algunos aos aumentaron con respecto a las del ao
anterior, mientras que las ventas de otros aos disminuyeron. La figura 1-18 b presenta las
ventas de los tres ltimos aos notificadas por trimestre. Esta grfica muestra de manera clara
que las ventas anuales de la empresa exhiben una variabilidad cclica por trimestre, donde las
ventas en los dos primeros trimestres son mayores que en los dos ltimos.

5
Extrado de Probabilidad y Estadstica aplicada a la Ingeniera de Montgomery Douglas, Runger George.- Mc
Graw Hill Mxico, 1996. pag. 33

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 23

a)

b)

Figura 1-18 Ventas de una compaa por ao a) y por trimestre b)

Algunas veces puede ser til combinar las grficas de serie de tiempo con alguno de los tipos
de presentacin grfica considerados hasta el momento, por ejemplo con los diagramas de ta-
llo y hoja, para formar un diagrama de dgitos y lneas.
La figura 1.19 presenta un diagrama de dgitos y lneas para las observaciones de resistencia
a la tensin del ejemplo de la pgina 23, que como se dijo, fueron registradas en el orden en
que ocurrieron.
Esta grfica indica de manera eficaz la variabilidad total de los datos de resistencia a la tensin
y, de manera simultnea, presenta la variabilidad en las mediciones con el paso del tiempo. La
impresin general es que la resistencia cambia alrededor del valor medio de 162,67, y no hay
ningn patrn obvio sobre esta variabilidad con respecto al tiempo.

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 24

El diagrama de dgitos y lneas de la figura 1.20 presenta una situacin diferente. Esta grfica
resume 30 observaciones sobre la concentracin de un producto obtenido mediante un proceso
qumico, donde las observaciones se registraron a intervalos de una hora. La grfica indica
que, durante las primeras 20 horas de operacin, el proceso produjo concentraciones en
general por encima de 85 g/l, pero despus de la muestra 20 algo ocurri con el proceso, que
dio como resultado concentraciones ms bajas. Si esta variabilidad en la concentracin del
producto puede reducirse, entonces es posible mejorar la operacin del proceso.

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 25

2.2 MEDIDAS CARACTERISTICAS DE UNA DISTRIBUCION DE


FRECUENCIAS.

Las medidas que resumen la informacin de una distribucin de frecuencias reciben el nombre
de:

ESTADISTICOS

de acuerdo a

la informacin que brindan

pueden ser de

POSICION DISPERSION

Media
Media Mediana Moda Fractilas Rango Varianza Desvo Desvo Inter-
estndar cuartlico

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 26

2.2.1 MEDIDAS DE POSICION

Se llaman tambin de tendencia central y estn referidas a la posicin de la distribucin de


frecuencias sobre el eje de las abscisas.

Ellas son :

NOMBRE NOTACION DEFINICION

Media aritmtica x Es el promedio de las observaciones

Es el valor de la variable con mayor


Moda x frecuencia

Es el mnimo valor de la variable que


Mediana ~
x
acumula, por lo menos, el 50 % de las
observaciones ordenadas en forma
creciente

Son los mnimos valores de la variable que


acumulan respectivamente, por lo menos :
Cuartiles q1 q2 q3
d1 d2 ...... d9 el 25% , el 50% y el 75% de las observa-
p1 p2 ........p99 ciones ordenadas en forma creciente.
Fractilas Deciles
el 10% , el 20% ........el 90% de las obser-
vaciones ordenadas en forma creciente.
Percentiles
el 1% , el 2% ........ el 99% de las obser-
vaciones ordenadas en forma creciente.

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 27

Media aritmtica o promedio muestral

Es la ms conocida y utilizada de las medidas de posicin.


No coincide necesariamente con un valor de la variable.
Para el clculo del promedio de n observaciones de la variable X ( xi con i = 1, 2,.......n ),
resulta:
n
1
x=
n

i= 1
xi (1)

Si las n observaciones estn agrupadas en r clases , la frmula (1) resulta :

r r
1
x=
n

i= 1
xi ni =
i= 1
xi fi (2)

En los casos en que las observaciones se encuentren agrupadas en intervalos de clase,


se le da a xi el valor del punto medio del intervalo de clase correspondiente.

Caractersticas del promedio:

Toma en consideracin toda la informacin por lo tanto es muy sensible a la influencia


de los valores extremos, lo que puede ser una ventaja o desventaja, segn la situacin.

Es una medida de posicin til para comparar dos o ms distribuciones, slo si stas
tienen forma semejante.

Moda

Es el valor de la variable con mayor frecuencia.

Caractersticas de la moda:

Algunos conjuntos de observaciones no poseen moda.

Algunos conjuntos de observaciones tienen ms de una moda.

Mediana

Es el mnimo valor de la variable que acumula, por lo menos, el 50 % de las observaciones


ordenadas en forma creciente, por tal razn es uno de los llamados estadsticos de orden.
~
x / F (~
x ) 0,5

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 28

Caracterstica de la mediana:

Al no tomar en cuenta toda la informacin pues depende de la cantidad de observaciones y no de


la magnitud de ningn valor extremo, no es sensible a dichos valores extremos.

Fractilas

Se trabajan en forma similar a la mediana.

Ejercicios

1. Indique cmo calculara la mediana en los siguientes casos :

si se tiene un nmero impar de observaciones, por ej. : 7 , 12 , 15 , 10 , 4

si se tiene un nmero par de observaciones, por ej. : 4 , 17 , 15 , 10 , 12 , 7

si las observaciones se encuentran clasificadas en clases (ej. apartado 2.1.2, pag. 16)

si las observaciones se encuentran agrupadas en intervalos de clase (ej. apartado


2.1.3 , pag. 20 )

2. Los ltimos diez das de junio, el tren Costa Especial lleg tarde a su destino en los
siguientes nmeros de minutos ( un nmero negativo significa que el tren lleg con anti-
cipacin):

3 , 6 , 4 , 10 , - 4 , 124 , 2 , - 1 , 4 , 1

Qu medidas de posicin utilizara Ud. para :

mostrar que el tren ofrece un buen servicio?


mostrar que el tren ofrece un mal servicio?

COMPARACION DE MEDIA ARITMETICA, MEDIANA Y MODA

Distribucin Sim trica

Media
Mediana
Moda

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 29

Distribuciones Asimtricas o Sesgadas

Distribucin asimtrica a la derecha

Distribucin asimtrica a la izquierda

2.2.2 MEDIDAS DE DISPERSIN

Analizando comparativamente las siguientes distribuciones se observa que a pesar de que


estn igualmente centradas, los valores de la variable de cada una de ellas estn alejados del
promedio de manera distinta. Esta situacin hace ver la necesidad del estudio de otro tipo de
medida caracterstica de las distribuciones de frecuencias que son llamadas de dispersin.

Dicha informacin se obtiene a travs de los siguientes estadsticos de dispersin:

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 30

NOMBRE NOTACION DEFINICION

Es la diferencia entre el mayor y


r el menor valor de las
Rango
observaciones

Es el promedio, aproximado, de
los cuadrados de las diferencias
Varianza muestral entre los valores de las observacio-
s2n-1
nes y su correspondiente media
aritmtica

Es la raz cuadrada positiva de la


Desvo estndar muestral s
varianza.

Recorrido intercuartlico Es la diferencia entre el cuartil 3


riq
y el cuartil 1.

Rango

Es la diferencia entre el mximo valor de las observaciones (x M) y el mnimo valor de las


mismas (xm )

r = xM - x m

Proporciona una primera informacin sobre la dispersin de los valores pero basta que al
menos uno de los dos valores que intervienen en su clculo est excesivamente alejado
para que pierda importancia la informacin que brinda.

Varianza muestral

Es el promedio, aproximado, de los cuadrados de los desvos de las observaciones con res-
pecto a su media aritmtica.

1 r
( xi x ) ni
2
s n2 1 =
n 1 i= 1
Si el denominador hubiese sido n en lugar de n-1, se hubiera obtenido el promedio de los
cuadrados de los desvos de las observaciones con respecto al promedio de las mismas. Sin
embargo, n-1 se usa aqu debido a ciertas propiedades deseables del estadstico s2 que lo

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 31

hacen apropiado para la inferencia estadstica. Si el tamao de la muestra es grande, la


diferencia entre s2n y s2n-1 es despreciable.

La varianza est expresada en unidades al cuadrado, lo que representa una desventaja para
su interpretacin.

Desvo estndar muestral

Es la raz cuadrada positiva de la varianza muestral.

s = s n2 1

Este estadstico tiene la ventaja de estar expresado en la misma unidad de las


observaciones

Recorrido intercuartlico

Es la diferencia entre el tercer cuartil y el primer cuartil.

riq = q3 - q1

Se darn a continuacin las medidas caractersticas calculadas para los dos ejemplos
trabajados con variable discreta y con variable continua. Las mismas fueron obtenidas en Excel
con Anlisis de datos, en la opcin Estadstica Descriptiva :

Para el ejemplo del apartado 2.1.2 correspondiente al nmero de aspiradoras vendidas


diariamente por un distribuidor, las mismas resultaron :

Nmero de Aspiradoras
Media 88,44
Error tpico 0,32
Mediana 88,00
Moda 88,00
Desviacin estndar 2,23
Varianza de la muestra 4,99
Curtosis -0,22
Coeficiente de asimetra 0,05
Rango 10
Mnimo 84
Mximo 94
Suma 4422
Cuenta 50

Con respecto al ejemplo del apartado 2.1.3 correspondiente a la superficie cubierta de las
viviendas de los alumnos ingresantes a una escuela las mismas resultaron :

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 32

Superficie cubierta (en m2)


Media 113,90
Error tpico 3,41
Mediana 112,50
Moda 120,00
Desviacin estndar 18,70
Varianza de la muestra 349,54
Curtosis -0,33
Coeficiente de asimetra 0,35
Rango 71
Mnimo 80
Mximo 151
Suma 3417
Cuenta 30

2.2.3 COEFICIENTE DE VARIACION

Es una medida de variacin relativa. Se simboliza c.v. y es igual a :

s
c.v. = . 100
x
Es el desvo estndar expresado como porcentaje de la media aritmtica, por lo tanto no viene
expresado en unidades.
Es til para la comparacin de la variabilidad relativa entre distribuciones que no estn
expresadas en la misma unidad de medida o bien, entre distribuciones que si bien estn
expresadas en la misma unidad, poseen promedios muy dispares.

Ejemplo :
En febrero del ao pasado, los datos de prstamos personales de una mutual mostraron
un promedio de $650 y una desviacin estndar de $300. Recientemente se calcul la
media y la desviacin estndar correspondiente a los prstamos personales de febrero
del presente ao resultando las mismas $ 900 y $ 350 respectivamente.
En cul de los dos aos los prstamos personales presentaron menor dispersin
relativa?

c.v. ao pasado = ( 300 / 650 ) . 100 = 45%

c.v. presente ao = ( 350 / 900 ) . 100 = 39%

La menor dispersin relativa se presenta en los prstamos personales otorgados este


ao por la mutual.

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 33

2.3 REGLA EMPIRICA

Es posible que dos conjuntos de datos distintos tengan el mismo rango pero difieran
considerablemente en el grado de variacin de los datos. En consecuencia, el rango es una
medida relativamente insensible de la variacin de los datos. La varianza tiene importancia
terica, pero es difcil de interpretar porque las unidades de medicin de la variable de inters
estn elevadas al cuadrado. En cambio, las unidades de medicin de la desviacin estndar
son las unidades de la variable. Si la desviacin estndar se combina con la media del conjunto
de datos, resulta fcil interpretarla. Una regla prctica til es la que se conoce como regla
emprica, a saber:

Si un conjunto de datos tiene una distribucin aproximadamente simtrica se pueden utilizar


las siguientes reglas prcticas para describir el conjunto de datos:

Aproximadamente el 68 % de las observaciones quedan a una desviacin estndar de su


media (es decir, dentro del intervalo x s )

Aproximadamente el 95 % de las observaciones quedan a dos desviaciones estndar de su


media (es decir, dentro del intervalo x 2 s )

Casi todas las observaciones quedan a tres desviaciones estndar de su media (es decir,
dentro del intervalo x 3 s )

La regla emprica es el resultado de la experiencia prctica de investigadores en muchas


disciplinas, que han observado muy diferentes tipos de conjuntos de datos de la vida real.

Fuente : Estadstica Elemental. Johnson Kuby pag 82

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 34

Con respecto al ejemplo del apartado 2.1.3 correspondiente a la superficie cubierta de las
viviendas de los alumnos ingresantes a una escuela, la media es 113,8 m2 y la desviacin
estndar 18,267 m2.
Las proporciones del nmero total de observaciones que se esperara encontrar en
los intervalos x s , x 2 s y x 3 s segn la regla emprica, as como las
proporciones reales, se presentan en la siguiente tabla:

Proporcin esperada de Proporcin real de


k x ks observaciones en el observaciones en el
intervalo intervalo
1 95,533 132,067 0,68 0,67

2 77,266 150,334 0,95 1,00

3 58,999 168,601 Aproximadamente 1,00 1,00

En caso de conocer la distribucin de frecuencias, lgicamente se encuentran las proporciones


reales de las observaciones para los distintos intervalos y no se aplica la regla emprica.

2.4 DIAGRAMAS DE CAJA O BOX - PLOT

Representa los tres cuartiles junto con los dos valores extremos de las observaciones.
Los diagramas de caja que se presentan a continuacin ( confeccionados con PHStat ),
corresponden a los datos observados para las caractersticas nmero de aspiradoras
vendidas y superficie cubierta de la vivienda analizadas anteriormente en el desarrollo de las
distribuciones de frecuencias de las variables discretas y continuas, respectivamente.

N Aspiradoras
96
94
92

90
88
86
84 N Aspiradoras

82

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 35

Superficie cubierta

150

130

110

90
Superficie
70

El lado inferior de las cajas corresponde al primer cuartil, el lado superior al tercer cuartil y el
segmento que divide a las cajas al segundo cuartil. Un segmento de recta une el lado inferior
de las cajas con el mnimo valor observado y otro segmento une el lado superior de las cajas
con el mximo valor observado.

Constituyen una herramienta eficaz para el anlisis de la simetra de una distribucin de


frecuencias y su estudio comparativo con otras distribuciones.

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 36

DETECCION DE VALORES ANOMALOS (outliers)

Hay ocasiones en que un conjunto de datos contiene observaciones inconsistentes y es proba-


ble que no se desee incluirlas para su anlisis. Cuando dichas observaciones se salen del in-
tervalo de valores de datos que se quiere describir, se denominan valores anmalos u
outliers.
Una observacin x que es inusualmente grande o pequea en relacin con los dems valores
de un conjunto de datos se denomina valor anmalo.
Uno de los mtodos para determinar si una observacin es un valor anmalo es observar si el
valor absoluto de z es anormalmente grande.
El valor z de un valor x de un conjunto de datos es la distancia a la que se encuentra x
por arriba o por debajo de la media, medida en unidades de la desviacin estndar:

x -x
Valor z =
s

Estos valores por lo general son atribuibles a una de las siguientes causas:

La observacin se registra incorrectamente.


La observacin proviene de una poblacin distinta.
La observacin es correcta pero representa un suceso poco comn (fortuito)

2.5 TRANSFORMACIONES LINEALES

Supongamos una variable x con media aritmtica ( x ) y varianza ( s2x ) y una variable y
de la forma:

y = a+bx

Se demuestra fcilmente que:

y= a+ bx ( media aritmtica de la variable y )

2 2 2
sy = b sx ( varianza de la variable y )

sy = b sx ( desvo estndar de la variable y )

En el caso b = 1, lo nico que se hace es sumar una constante (a). La media aritmtica de la
nueva variable quedar incrementada en un valor igual al de la constante (a) y el desvo
estndar, que es una medida de dispersin, permanece igual.

En cambio, si la variable es multiplicada por una constante b 1, esto produce una contraccin
o una dilatacin de la distribucin (segn sea b menor o mayor que 1) lo que se refleja en la
varianza.

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 37

Ejemplo :
Sea la variable x : nmero de das completos trabajados en un ao por operario de una f-
brica.
Se conoce que el promedio de la variable x es 290,1 das con una desviacin de 2,2 das.
Cada da no trabajado ocasiona a la fbrica una prdida de $ 150.
Calcule la prdida anual promedio por operario y su desvo estndar (considere 300 das la-
borables en el ao).

y : prdida anual por operario

yi = ( 300 - xi ) 150

de donde :

y = ( 300 - 290,1 ) 150 = $ 1485 prdida anual promedio por operario

sy = 150 . 2,2 = $ 330 desviacin estndar de la prdida anual por operario

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 38

2.6 TRABAJO PRACTICO

1.- Analice los siguientes grficos6. Comente.

a ) El siguiente grfico representa una reduccin ( en el ao 1990 con respecto al ao


anterior ) del 50% en el nmero de barriles de petrleo extranjero utilizado en el proceso
de manufactura de productos de pelculas por una empresa.

120,000
Barriles

60,000

1989 1990

b)

Liderazgo
2% 2%
3%

COLDWELL BANKER
11%
E.R.A.

32% GALLERY

CENTURY
otros

Quin creen los propietarios que es el lder en bienes races?

6
Los grficos fueron realizados por Diego Martnez Viademonte, alumno que curs la asignatura en el ao 2003

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 39

c)

Chevrolet. Los camiones ms formales y de mayor duracin.

Como una roca

98
Porcentaje

97

96

95
CHEVY FORD TOYOTA NISSAN
Camin

Ms del 98% de los camiones Chevy vendidos durante los ltimos 10 aos siguen en el camino.

Chevrolet. Los camiones ms formales y de mayor duracin.

Como una roca

100
90
80
70
Porcentaje

60
50
40
30
20
10
0
CHEVY FORD TOYOTA NISSAN
Camin

Ms del 98% de los camiones Chevy vendidos durante los ltimos 10 aos siguen en el camino.

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 40

2.- En una editorial se clasificaron las publicaciones del ao anterior segn su carcter y se
obtuvo que el 45% de las publicaciones eran cientficas, el 17% tcnicas, 16% literarias,
12% artsticas y 10% de otro carcter.
Presente un informe respecto a las publicaciones de la editorial.

3.- Una fbrica de estreos desea estudiar la relacin entre el nmero de piezas defectuosas y
el momento de la jornada de trabajo en que se producen las mismas. Se fijaron tres
perodos de la jornada : 6 7 horas ; 10 11 horas y 13 14 horas y en cada uno de ellos
se observ durante treinta das el nmero de defectuosos. Los resultados obtenidos fueron:

4 1 4 3 5 10 4 8 10 3 7 6 6 5 9
1 perodo
8 10 6 4 6 5 7 6 6 9 7 5 6 7 5
6 2 4 5 7 8 5 6 4 6 5 7 4 6 5
2 perodo
3 6 6 5 9 8 6 7 6 4 7 6 6 5 7
4 5 6 9 8 10 12 11 12 10 9 9 10 8 7
3 perodo
11 12 9 14 12 9 11 13 12 11 13 14 12 10 13

Compare y concluya respecto de la relacin entre el nmero de piezas defectuosas y el


momento de la jornada de trabajo.

4.- Los siguientes datos corresponden a los tiempos de duracin (en segundos) de 100 temas
de rock. Realiza un anlisis descriptivo completo de la informacin:

Tiempo Frecuencia
135 t < 145 8
145 t < 155 9
155 t < 165 18
165 t < 175 20
175 t < 185 35
185 t < 195 10

5.- A los efectos de organizar las compras de gaseosas para la fiesta de fin de curso de un
instituto, se le pregunt a cada uno de los 200 integrantes de la comunidad educativa la
gaseosa preferida.

Completa la siguiente tabla a doble entrada considerando que:

el 20 % de los docentes y el 30 % de los alumnos prefieren naranja

de los no docentes , el 40 % prefieren cola y el 20 % prefieren pomelo

el porcentaje de alumnos que prefieren pomelo es igual al de los docentes que prefieren
la misma gaseosa

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 41

Integrante
s
Docentes No docentes Alumnos Totales
Gaseosa
Cola

Pomelo 4

Naranja

Totales 40 10

6.- Una compaa de seguros registr entre sus asegurados el nmero de accidentes del ao
2003, obteniendo la siguiente informacin:

Edad del asegurado


[18-28) [28-38) [38-48) [48-58) 58 y ms Totales
N de accidentes
0 748 821 786 720 672

1 84 50 41 66 60

2 41 15 12 16 25

ms de 2 10 9 5 5 8

Totales

En base al cuadro anterior responde:

a) Qu porcentaje de asegurados no tuvo accidentes durante 2003?


b) Analiza en qu rango de edades hay el mayor y el menor porcentaje de asegurados
que tuvieron al menos un accidente.
c) Si la compaa decide no renovar el seguro a todos aquellos asegurados que hayan
tenido ms de dos accidentes, cuntos asegurados estn en condiciones de renovar
su seguro en 2004?
d) Cul puede haber sido el objetivo de este estudio?
e) La compaa decide dar un premio del 5% de descuento sobre el valor de la pliza del
ao 2004 a todos aquellos asegurados que no sufrieron accidentes en 2003. El valor
promedio de cada pliza es de $ 3.200, cunto dejar de ganar la compaa en 2004
por la implementacin de dicho premio?

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 42

7.- La siguiente es la distribucin de frecuencias de los sueldos de los empleados


administrativos de una industria:

Sueldo ( x ) ( en $ ) Nmero de empleados

200 < x 400 10


400 < x 600 25
600 < x 800 40
800 < x 1000 10
1000 < x 1200 2

a) Calcule las medidas descriptivas que crea conveniente para representar los datos e
interprete sus resultados.
b) El sueldo promedio de los 1000 operarios de esa industria es de $ 490. Obtenga el
sueldo promedio para el conjunto de ambas categoras de empleados.
c) Si conociera la mediana y la moda para la categora de los operarios, podra calcular
esas medidas para el conjunto de todos los trabajadores de la industria?
d) Si se aumentara en un 10 % el sueldo de cada empleado, calcule sueldo promedio y
varianza.
e) Si a cada empleado se le aumenta el sueldo en 50 $, calcule sueldo promedio y varian-
za.

8.- Los siguientes datos son mediciones de viscosidad de un producto qumico tomadas cada
hora (de arriba abajo y de izquierda a derecha).

47,9 48,8 48,6 43,2 43,0


47,9 48,1 48,0 43,0 42,8
48,6 48,3 47,9 43,5 43,1
48,0 47,2 48,3 43,1 43,2
48,4 48,9 48,5 43,0 43,6
48,1 48,6 48,1 42,9 43,2
48,0 48,0 48,0 43,6 43,5
48,6 47,5 48,3 43,3 43,0

a) Grafique de la manera ms conveniente.

b) Las especificaciones sobre la viscosidad del producto son 48 + 2. Qu conclusiones


puede obtener sobre el desempeo del proceso?

9.- En un proceso de produccin interesa controlar el dimetro ( X ) de un tipo de lata ( en mm ).

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 43

Se seleccionan al azar 160 latas a las cules se les mide el dimetro y se obtiene la
siguiente distribucin de frecuencias:

Dimetro de las latas Cantidad de latas


83,4 x < 83,5 3
83,5 x < 83,6 12
83,6 x < 83,7 21
83,7 x < 83,8 30
83,8 x < 83,9 47
83,9 x < 84,0 28
84,0 x < 84,1 19

a) Indique la caracterstica en estudio y clasifquela. D la unidad elemental asociada a la


variable o atributo. Grafique.
b) Calcule la media aritmtica, mediana, moda , desvo estndar. Analice la simetra.
c) De otra muestra de 200 observaciones del dimetro de la lata mencionada se obtuvo
un promedio de 83,93 mm con una desviacin estndar de 0,20 mm. Puede a partir
de estos datos encontrar el promedio de las observaciones de las dos muestras? En
caso afirmativo, encuntrelo. En caso negativo, justifique porqu.
d) Cul de la dos muestras (la primera de 160 observaciones y la segunda de 200
observaciones) presenta menor dispersin relativa? Justifique la respuesta.

10.- Para comparar la capacidad de frenado de tres diseos de bandas de rodamiento, se


midi la distancia necesaria para detener un tipo de automvil que se desplazaba sobre
pavimento hmedo. Los neumticos de cada diseo fueron probados en el mismo
vehculo que circulaba sobre un pavimento hmedo controlado.

Diseo A Diseo B Diseo C


37 36 34 40 38 - 32 33 34 35 38 42 - 34 40 39 41 41 40 - 43

Construya un grfico de cajas para cada uno de los tres diseos y presente un informe
con sus conclusiones.

G.Carnevali-E.Franchelli-G.Gervasoni
ESTADSTICA DESCRIPTIVA 44

2.7 COMPLEMENTO PARA EL USO DE EXCEL

1. Se entra en Excel en HERRAMIENTAS

2. En COMPLEMENTOS DISPONIBLES se activan las opciones Herramientas para


anlisis y Herramientas para anlisis VBA

3. Se activa ANALISIS DE DATOS ( ahora ya en Herramientas )

4. Para graficar se entra a la opcin HISTOGRAMA


a) Rango entrada : se marca la columna en donde estn los datos
b) Rango de clase : se marca la columna en donde se han dado los lmites superiores de
los intervalos de clase elegidos
c) Rango de salida : se elige dnde se quieren la distribucin de frecuencias y el grfico
( puede ser en la misma hoja o en hoja nueva )
d) Se activa crear grfico
e) Para los dos tipos de grficos (bastones e histograma) se activa una barra.
En OPCIONES: ANCHO DE RANGO:
- Si se lleva a 500 las barras se separan y se obtiene el grfico de BASTONES
- Si se lleva a 0 las barras se unen y se obtiene el HISTOGRAMA

5.- En ANALISIS DE DATOS la opcin ESTADSTICA DESCRIPTIVA da el resumen de


todos los estadsticos (posicin, dispersin, asimetra etc.)

G.Carnevali-E.Franchelli-G.Gervasoni

También podría gustarte