Está en la página 1de 31

Estadstica descriptiva:

presentaciones tabulares y
grficas

ING. AUGUSTO TEVES ROJAS

12/11/16

Contenido
2.1 RESUMEN DE DATOS
CUALITATIVOS
Distribucin de frecuencia
Distribuciones de frecuencia
relativa y de frecuencia
porcentual
Grficas de barra y grficas
de pastel
2.2 RESUMEN DE DATOS
CUANTITATIVOS
Distribucin de frecuencia
Distribuciones de frecuencia
relativa y de frecuencia
porcentual
Grficas de puntos
Histograma
Distribuciones acumuladas
Ojiva
2.3 ANLISIS EXPLORATORIO
DE DATOS: EL DIAGRAMA
DE TALLO Y HOJAS
2.4 TABULACIONES CRUZADAS
Y DIAGRAMAS DE
DISPERSIN
Tabulacin cruzada
Paradoja de Simpson
Diagrama de dispersin y lnea
de tendencia

12/11/16

2.1 Resumen de datos cualitativos: Distribucin de


frecuencia
DISTRIBUCIN DE FRECUENCIA
Una distribucin de frecuencia es un resumen tabular de datos
que muestra el nmero (frecuencia) de elementos en cada una
de las diferentes clases disyuntas (que no se sobreponen).

Esta distribucin de frecuencia proporciona un resumen de cmo se


distribuyeron las 50 ventas entre los cinco refrescos
12/11/16

Distribuciones de frecuencia relativa y de


frecuencia porcentual
La frecuencia relativa de una clase es igual a la parte o
proporcin de los elementos que pertenecen a cada clase. En un
conjunto de datos, en el que hay n observaciones, la frecuencia
relativa de cada clase se determina como sigue:

La frecuencia porcentual de una clase es la frecuencia relativa


multiplicada por 100

12/11/16

Grficas de barra y grficas de pastel

Una grfica de barras o un diagrama de barras, es una grfica


para representar los datos cualitativos de una distribucin de
frecuencia, de frecuencia relativa o de frecuencia porcentual.

En el control de calidad, las graficas de barras se usan para


identificar las principales causas de problemas. Las graficas se
acomodan en orden de alturas descendentes de izquierda a
derecha colocando primero la causa de frecuencia mas comn
en primer lugar. A esta grafica de barras se le llama diagrama
12/11/16
de Pareto en honor a su inventor Wilfredo Pareto, un

La grfica de pastel
La grfica de pastel proporciona otra grfica para presentar
distribuciones de frecuencia relativa y de frecuencia porcentual de
datos cualitativos. Para elaborar una grfica de pastel, primero se
dibuja un crculo que representa todos los datos. Despus se usa la
frecuencia relativa para subdividir el crculo en sectores, o partes,
que corresponden a la frecuencia relativa de cada clase.

12/11/16

Los cuatro programas con horario estelar de televisin


son CSI, ER, Everybody Loves Raymond y Friends
(Nielsen Media Research, 11 de enero de 2004). A
continuacin se presentan los datos sobre las
preferencias de los 50 televidentes de una muestra.
a. Estos datos son cualitativos o cuantitativos?
b. Proporcione las distribuciones de frecuencia y de
frecuencia relativa.
c. Construya una grfica de barras y una grfica de
pastel.
d. De acuerdo con la muestra, qu programa de
televisin tiene la mayor audiencia? Cul es el segundo?
12/11/16

Los cuatro programas con horario estelar de televisin


son CSI, ER, Everybody Loves Raymond y Friends

FRECUENCIA ABSOLUTA
20
18

FREC
CSI
18
Friends
15
ER
11
Raymo
nd
6
50

FREC
REL
0.36
0.30
0.22
0.12
1.00

18
15

16
14

11

12

10
8

6
4
2
0

CSI

Friends

ER

Raymond

PROGRAMA CON HORARIO ESTELAR DE TELEVISION

12/11/16

GRAFICO DE PASTEL

12/11/16

GRAFICO DE PARETO

12/11/16

10

Resumen de datos cuantitativos


Distribucin de frecuencia. Datos
cuantitativos

Considere, por ejemplo, los datos cuantitativos de


la tabla 2.4. En esta tabla se presenta la duracin
en das de una muestra de auditoras de fin de ao
de 20 clientes de una empresa pequea de
contadores pblicos
Los tres pasos necesarios para definir las clases de
una distribucin de frecuencia con datos
cuantitativos son
1. Determinar el nmero de clases disyuntas.
2. Determinar el ancho de cada clase
3. Determinar los lmites de clase.
12/11/16

11

Nmero de clases
Se recomienda emplear entre 5 y 20 clases. Cuando los datos son
pocos, cinco o seis clases bastan para resumirlos. Si son muchos,
se suele requerir ms clases. La idea es tener las clases
suficientes para que se muestre la variacin en los datos, pero no
deben ser demasiadas si algunas de ellas contienen slo unos
cuantos datos

Como el nmero de datos en la


tabla
2.4
es
relativamente
pequea (n
20), se decide
elaborar una distribucin de
frecuencia con cinco clases.

REGLA EMPIRICA PARA DETERMINAR EL


NUMERO DE CLASES EN UN HISTOGRAMA
Numero de datos
(n)

12/11/16

Numero de Clases
(k)

<25

5o6

25-50

7 14

12

Ancho de clase
Hacer las clases de una misma amplitud reduce la
posibilidad de que los usuarios hagan interpretaciones
inapropiadas.

Como regla general es recomendable que el


ancho sea el mismo para todas las clases.
Entre mayor sea el nmero de clases menor
es el ancho de las clases y viceversa.

12/11/16

13

Lmites de clase
Los lmites de clase deben elegirse de manera
que cada dato pertenezca a una y slo una de
las clases.
El limite de clase inferior indica el menor valor
de los datos a que pertenece esa clase.
El limite de clase superior indica el mayor valor
de los datos a que pertenece esa clase.
El menor valor (12)est contenido en el
primer intervalo.
El mayor valor (33) est contenido en el
ultimo intervalo

12/11/16

14

Punto medio de clase


En algunas aplicaciones se desea conocer el punto medio de las clases de una
distribucin de frecuencia de datos cuantitativos. El punto medio de clase es el
valor que queda a la mitad entre el lmite inferior y el lmite superior de la clase.
Intervalo punto medio
1014 ..12
1519 17
2024 ...22
2529 27
3034.32

12/11/16

15

Distribuciones de frecuencia
relativa y de frecuencia porcentual
frecuencia relativa es el cociente,
La

respecto al total de observaciones, de las


observaciones que pertenecen a una
clase. Si el nmero de observaciones es n,

La frecuencia porcentual de una clase es


la frecuencia relativa multiplicada por 100.

12/11/16

16

Dado que n
20
tabla
2.5 , en la tabla 2.6 se muestran las
distribuciones de frecuencia relativa y de frecuencia porcentual de los
datos de las duraciones de las auditoras. Observe que 0.40 de las
auditoras, o 40%, necesitaron entre 15 y 19 das. Slo 0.05, o 5%,
requiri 30 o ms das. De nuevo, hay ms interpretaciones o ideas que
se obtienen de la tabla 2.6.

12/11/16

17

Grficas de puntos
En el eje horizontal se presenta el intervalo
de los datos. Cada dato se representa por
un punto colocado sobre este eje.

Los tres puntos que se encuentran sobre el 18 del


eje horizontal indican que hubo tres auditoras de
18 das.
12/11/16

18

HISTOGRAMA
Una presentacin grfica usual para datos cuantitativos es el histograma.
Esta grfica se hace con datos previamente resumidos mediante una
distribucin de frecuencia, de frecuencia relativa o de frecuencia porcentual.
Un histograma se construye colocando la variable de inters en el eje
horizontal y la frecuencia, la frecuencia relativa o la frecuencia porcentual en
el eje vertical.
La frecuencia, frecuencia relativa o frecuencia porcentual de cada clase se
indica dibujando un
rectngulo cuya base est determinada por los lmites de
clase sobre el eje horizontal y cuya altura es la frecuencia, la frecuencia
relativa o la frecuencia porcentual correspondiente

12/11/16

19

12/11/16

20

Distribuciones acumuladas

La distribucin de frecuencia acumulada usa la


cantidad, las amplitudes y los lmites de las clases de la
distribucin de frecuencia. Sin embargo, en lugar de
mostrar la frecuencia de cada clase, la distribucin de
frecuencia acumulada muestra la cantidad de datos
que tienen un valor menor o igual al lmite superior de
cada clase

La distribucin de frecuencias relativas acumuladas indica la


proporcin de todos los datos que tienen valores menores o iguales al
lmite superior de cada clase,
y la distribucin de frecuencias porcentuales acumuladas indica el
porcentaje
12/11/16
de todos los datos que tienen valores menores o iguales21al

OJIVA
La ojiva, es una grfica que muestra los valores de los datos en el eje
horizontal y las frecuencias acumuladas, las frecuencias relativas
acumuladas o las frecuencias porcentuales acumuladas en el eje vertical.
En la figura 2.6 se muestra una ojiva correspondiente a las frecuencias
acumuladas de las duraciones de las auditoras

12/11/16

22

Anlisis exploratorio de datos:el diagrama de tallo y


hojas
Las tcnicas del anlisis exploratorio de datos emplean
aritmtica sencilla y grficas fciles de dibujar tiles para
resumir datos. La tcnica conocida como diagrama de tallo y
hojas muestra en forma simultnea el orden jerrquico y la
forma de un conjunto de datos.

12/11/16

23

Los nmeros a la izquierda de la lnea vertical (6, 7, 8, 9, 10, 11, 12,


13 y 14) forman el tallo, y cada dgito a la derecha de la lnea
vertical es una hoja. Por ejemplo, considere el primer rengln que
tiene como tallo el 6 y como hojas 8 y 9.
6 |8 9
Este rengln indica que hay dos datos que tienen como primer dgito
el seis. Las hojas indican que estos datos son 68 y 69. De manera
similar, el segundo rengln
7 |2 3 3 5 6 6
indica que hay seis datos que tienen como primer dgito el 7. Las
hojas indican que estos datos son 72, 73, 73, 75, 76 y 76

12/11/16

24

12/11/16

25

Tabulaciones cruzadas y
diagramas de dispersin
Las tabulaciones cruzadas y los diagramas
de dispersin son empleados para
presentar un resumen de datos, de tal
manera que revele la relacin entre las
dos variables
Tabulacin cruzada
Una tabulacin cruzada es un resumen
tabular de los datos de dos variables

12/11/16

26

El uso de la tabulacin cruzada se ilustrar con los


datos de la aplicacin siguiente, que se basan en
datos de Zagats Restaurant Review.

Se recolectaron los datos correspondientes a la calidad y precios de


300 restaurantes en el rea de Los ngeles. La tabla 2.9 muestra los
datos de los 10 primeros restaurantes.
Se presentan los datos de calidad y precio caractersticos de estos
restaurantes. La calidad es una variable cualitativa que tiene como
categoras bueno, muy bueno y excelente. El precio es una variable
cuantitativa que va desde $10 hasta $49.

12/11/16

27

La tabla 2.10 muestra que la mayor parte de los restaurantes de la


muestra (64) tienen muy buena calidad y su precio est en el
intervalo $2029. Tambin se ve que slo dos restaurantes tienen una
calidad excelente y un precio en el intervalo $1019.

12/11/16

28

En este estudio sobre los restaurantes de Los ngeles, en la tabulacin


cruzada se emplea una variable cualitativa (las calidades) y una
cuantitativa (los precios). Tambin se elaboran tabulaciones cruzadas con
dos variables cualitativas o cuantitativas. Cuando se usan variables
cuantitativas, primero es necesario crear las clases para los valores de las
variables. Por ejemplo, en el caso de los restaurantes se agruparon los
precios en cuatro categoras ($1019, $2029, $3039 y $4049).

12/11/16

29

12/11/16

30

12/11/16

31