Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadística Descriptiva PDF
Estadística Descriptiva PDF
Estadística Descriptiva
2
Estadística Descriptiva
PRESENTACIÓN
En el marco del Programa Integral de Capacitación, Formación
e Investigación (PICFI), se desarrolló en el INEGI el proyecto de
capacitación en Estadística apoyada con instructores internos,
con el propósito de brindar los elementos teórico—prácticos
necesarios para el uso y aprovechamiento de las diversas
herramientas y metodología estadísticas, que coadyuven a un
mayor rendimiento y una mejor calidad en las labores cotidianas
de los trabajadores.
Para que este fin pueda ser alcanzado, es necesario que haya
una producción de material didáctico de apoyo a los eventos de
capacitación; la cual es por un lado creativa y por otro
reproductiva.
3
Estadística Descriptiva
ESTADÍSTICA DESCRIPTIVA
4
Estadística Descriptiva
Bibliografía:
• Título: Estadística para Administración y Economía
Autor: Mendenhall Reinmuth
Editorial: Grupo Editorial Iberoamérica
• Título: Probabilidad y Estadística Aplicaciones y Métodos
Autor: G.C. Canavos
Editorial: Mc. Graw Hill, 1987
• Título: Statistics Third Edition
Autor: David S. Moore
Editorial: W.H. Freeman and Company
5
Estadística Descriptiva
1. INTRODUCCIÓN
Para mucha gente, estadística significa descripciones
numéricas. Esto puede verificarse fácilmente al escuchar, un
domingo cualquiera, a un comentarista de televisión narrar un
juego de fútbol. Sin embargo, en términos más precisos, la
estadística es el estudio de los fenómenos aleatorios. En este
sentido la ciencia de la estadística tiene, virtualmente, un
alcance ilimitado de aplicaciones en un espectro tan amplio de
disciplinas que van desde las ciencias y la ingeniería hasta las
leyes y la medicina. El aspecto más importante de la estadística
es la obtención de conclusiones basadas en los datos
experimentales. Este proceso se conoce como inferencia
estadística. Si una conclusión dada pertenece a un indicador
económico importante o a una posible concentración peligrosa
de cierto contaminante, o bien, si se pretende establecer una
relación entre la incidencia de cáncer pulmonar y el fumar, es
muy común que la conclusión esté basada en la inferencia
estadística.
OBJETIVOS DE LA ESTADÍSTICA
El objetivo de la estadística y lo que son las partes de un
problema estadístico se dan a continuación.
El objetivo de la estadística es el de hacer inferencias
(predecir, decidir) sobre algunas características de una
población1 con base en la información contenida en una
muestra2.
1
Definición: Una población es el conjunto de todas las mediciones de
interés al muestrista.
1
Definición: Una muestra es una colección de mediciones seleccionadas
de la población de interés.
6
Estadística Descriptiva
7
Estadística Descriptiva
una estimación sin una medida de confiabilidad? ¿Será la
estimación precisa dentro de un 1%, 5% ó 20%? ¿Será lo
suficientemente confiable como para basar en ella planes de
producción? Como se verá más adelante, los procedimientos de
estimación, toma de decisiones y predicción permiten calcular
una medida de la bondad de cada inferencia. En consecuencia,
en una situación práctica, toda inferencia debe ir acompañada
por una medida que diga «que tanta fe» se le puede tener.
8
Estadística Descriptiva
9
Estadística Descriptiva
EJERCICIOS
En cualquier experimento que incluya análisis de datos, es
importante tener una imagen clara de la composición tanto de la
muestra como de la población. A menudo los conceptos se
confunden o se definen vagamente por lo que los resultados
experimentales resultan de difícil interpretación. En
ocasiones los errores llevan a conclusiones absurdas o
simplemente sin sentido.
Para aclarar las nociones de muestra y población se consideran
tres actividades a realizar ya sea individualmente o por grupos
de estudiantes.
10
Estadística Descriptiva
11
Estadística Descriptiva
DIAGRAMA DE BARRAS
Cuando se tienen datos que fueron colectados en distintos
períodos de tiempo o distintas áreas geográficas es conveniente
usar tablas o diagramas de diversos tipos para su presentación.
Se cuenta con auxiliares como los diagramas de barras, las
gráficas de líneas o los diagramas circulares que sirven como
un resumen visual de los datos. Hay muchos otros métodos
gráficos que usa el estadístico en los negocios y en la
economía pero la discusión se limita a los ya mencionados.
1974 1975 1976 1977
Total de Empleados 100 115 110 150
Profesionales 40 44 42 58
Hombres 37 40 39 48
Mujeres 3 4 3 10
No Profesionales 60 71 68 92
Hombres 50 58 56 69
Mujeres 10 13 12 23
12
Estadística Descriptiva
13
Estadística Descriptiva
200
150
Número de Empleados
hombres
100
mujeres
50
0
1974 1975 1976 1977
Años
DIAGRAMA DE PUNTOS
Basta ilustrar con un ejemplo, considérense las observaciones
muéstrales 5, 7, 1, 2, 4. Estas observaciones se muestran en el
diagrama de puntos que se presenta en la gráfica 2.
0 1 2 3 4 5 6 7 8
14
Estadística Descriptiva
TABLA DE FRECUENCIAS
15
Estadística Descriptiva
HISTOGRAMAS
Al graficarse las frecuencias relativas de las clases contra sus
respectivos intervalos en forma de rectángulos, se produce lo
que comúnmente se conoce como histograma de frecuencia
relativa o distribución de frecuencia relativa. Esta última es la
que puede hacer evidentes los patrones existentes en un
conjunto de datos.
Como ilustración, los datos de la tabla 2 representan las
frecuencias de unidades vendidas por día de un determinado
producto por una compañía. El histograma de frecuencia
relativa se construye graficando en el eje vertical la frecuencia
relativa y en el eje horizontal las fronteras inferiores de cada
clase, como se ilustra en la gráfica 3.
0,25
0,2
Este
Frecuencia relativa
Oeste
0,15
Norte
Columnas 4
0,1
Columnas 5
Columnas 6
0,05
Columnas 7
Columnas 8
Columnas 9
0
16
Estadística Descriptiva
17
Estadística Descriptiva
EJERCICIOS.
$ 82 85 86 87 87 89 89 90 91 91
92 93 94 95 95 95 95 95 97 98
99 99 100 100 101 101 103 103 103 104
105 105 106 107 107 107 109 110 110 111
18
Estadística Descriptiva
AÑO
TIPO DE BIENES 1929 1949 1959 1969
bienes perdurables 9.2 24.6 44.3 90.0
bienes perecederos 37.7 94.6 146.6 245.8
Servicios 30.3 54.6 120.3 241.6
19
Estadística Descriptiva
3. MEDIDAS NUMÉRICAS
Medidas de localización
n
X = ∑X
i =1
i n
Definición 3.2
20
Estadística Descriptiva
Definición 3.3
21
Estadística Descriptiva
Ejercicios
1. Los siguientes datos representan el número de
interrupciones por día de trabajo debidas a fallas mecánicas
en una planta procesadora de alimentos:
2, 3, 0, 5, 4, 3, 1, 3, 5, 2
Calcule la media, la mediana y encuentre el número modal
de interrupciones diarias.
(Respuesta: Media = 2.8, mediana = 3, moda = 3)
Medidas de dispersión
Una medida de tendencia central proporciona información
acerca de un conjunto de datos pero no proporciona ninguna
idea de la variabilidad de las observaciones en dicho conjunto.
Por ejemplo, considere los dos siguientes conjuntos de datos,
cada uno de los cuales consiste de cuatro observaciones:
0, 25, 75, 100; 48, 49, 51, 52.
En ambos casos, media = mediana = 50. Estos dos conjuntos
son muy diferentes entre sí, sin embargo las observaciones en
el primero se encuentran mucho más dispersas que en el
segundo. Una de las medidas más útiles de dispersión o
variación es la varianza.
22
Estadística Descriptiva
Definición 3.4
i =1
Definición 3.5
⎧n ⎫
s = ⎨∑ ( xi − x ) ( n − 1)⎬
2
⎩ i =1 ⎭
23
Estadística Descriptiva
Medidas de sesgo
24
Estadística Descriptiva
50
0
45
1
Número de muestras
40
2
35 3
30 4
25 5
20 6
7
15
8
10
9
5
0
Errores en el muestreo
En nuestro experimento, conocemos p. Si p fuera desconocido,
los mismos hechos deberían mantenerse. No podemos
garantizar que la estadística muestral p^ esté cercano al
desconocido p (por la variación del muestreo), pero podemos
estar seguros que así es (porque la mayoría de las veces las
muestras aleatorias simples dan valores de p^ cercanos a p).
Así, los resultados de una muestra aleatoria simple no solo son
25
Estadística Descriptiva
imparciales sino que tienden a ser reiterativos de muestra a
muestra. Finalmente, debemos abundar que el hecho de la falta
de repeticiones en un método muestral (la muestra resulta
extraviarse en el corral) es un problema tan serio como el
favoritismo.
Puesto que una muestra es seleccionada con el propósito de
obtener información de una población, por «error en una
muestra» obtenemos una incorrecta estimación del parámetro
de una población para una estadística muestral. Dos tipos
básicos de errores son asociados con cualquier método de
recolección muestral de datos.
26
Estadística Descriptiva
Ejercicios
27
Estadística Descriptiva
así que el lote es equivocadamente rechazado.
28
Estadística Descriptiva
Diagramas de dispersión
29
Estadística Descriptiva
6 0.8 82
7 1.0 93
8 0.6 75
9 0.9 91
10 1.1 105
Tabla 5. Gastos publicitarios y volúmenes de venta de una compañía durante 10 meses
elegidos al azar
130
Volumen de Ventas
120
110
100
90
80
70
0,5 0,6 0,7 0,8 0,9 1 1,1 1,2 1,3
Gasto Publicitario
30
Estadística Descriptiva
31
Estadística Descriptiva
E(εi) = 0, Var(εi) = σ2 i = 1, 2, . . . , n,
y
Cov(εi, εj) = 0 i ≠ j;
entonces
E(Yi) = E(ß0 + ß1x + εi) = ß0 + ß1x,
Cov(Yi, Yj) = σ2 i ≠ j,
y
Var(Yi) = Var(ß0 + ß1xi + εi) = Var(εi) = σ2.
Z
i =1 i =1
32
Estadística Descriptiva
33
Estadística Descriptiva
Nótese que si se sustituye \ por B0 en ^ se obtiene una forma
alternativa para la recta de regresión estimada, la cual se
encuentra dada por
_ _ _
Y^i = (y - b1x) + B1xi = Y + B1(xi - x).
_
Con base en Y, la diferencia entre la realización yi y el valor
estimado y^i es un estimador del correspondiente error. Este
estimador se conoce como el i-ésimo residual y se denota por
ei = yi - y^i .
`
De nuevo, nótese que los residuos no son estimados en el
sentido clásico de la estimación de parámetros (fijos), sino que
son estimadores de los valores de las variables aleatorias no
observables εi, los cuales se obtienen de la recta de regresión
estimada. Los residuos e1, e2, . . . , en son muy importantes
debido a que proporcionan una abundante información sobre lo
que puede faltar del modelo de regresión estimado. En este
momento se ilustrarán los pesos de cálculo para obtener la
recta de regresión estimada para el modelo lineal simple
empleando para ello los datos de los salarios. El propósito de
esto radica en familiarizar al estudiante únicamente con el
procedimiento de cálculo. En la tabla B, se incluyen los cálculos
básicos necesarios para obtener los estimadores de mínimos
cuadrados de la intersección y la pendiente.
34
Estadística Descriptiva
CP Salario
xi yi x iy i x i2
2.95 18.5 54.575 8.7025
3.20 20.0 64.000 10.2400
3.40 21.1 71.740 11.5600
3.60 22.4 80.640 12.9600
3.20 21.2 67.840 10.2400
2.85 15.0 42.750 8.1225
3.10 18.0 55.800 9.6100
2.85 18.8 53.580 8.1225
3.05 15.7 47.885 9.3025
2.70 14.4 38.880 7.2900
2.75 15.5 42.625 7.5625
3.10 17.2 53.320 9.6100
3.15 19.0 59.850 9.9225
2.95 17.2 50.740 8.7025
2.75 16.8 46.200 7.5625
Totales 45.6 270.8 830.425 139.5100
Tabla B. Cálculos básicos para obtener los estimadores de mínimos cuadrados b0 y b1 (con
base en los datos de salarios dados en la tabla A)
35
Estadística Descriptiva
cierta validez. De esta forma, ésta debe verse con mucho
cuidado, ya que la ecuación de regresión estimada puede no
ser apropiada para un intervalo de valores más amplio de la
variable de predicción. La interpretación del valor estimado de la
pendiente es directa. El incremento estimado en el salario inicial
promedio para cada aumento igual a una unidad de la
calificación promedio es de 8 120 dólares.
EJERCICIOS
x -3 -1 1 1 2
y 6 4 3 1 1
Producció 3 4 5 6 7 8 9
n (X $10
000)
Costos 12 10.5 13 12 13 13.3 16.5
fijos (X $1
000)
36
Estadística Descriptiva
TABLAS DE CONTINGENCIA
37
Estadística Descriptiva
H0 : pij = pi· p·j, i = 1, 2, 3; j = 1, 2, 3.
Número de Opinión
acciones A favor En contra Indecisos Totales
Menos de 200 38 29 9 76
200 — 1 000 30 42 7 79
Más de 1 000 32 59 4 95
Totales 100 130 20 250
Tabla 7. datos muéstrales para el ejemplo de los accionistas
38
Estadística Descriptiva
30 42 7 79
200 — 1 000 31.60 41.08 6.32 79
0.08 0.02 0.07 0.17
32 59 4 95
Más de 1 000 38 49.40 7.60 95
0.95 1.87 1.71 4.53
39
Estadística Descriptiva
columna, de acuerdo a la ley multiplicativa de la probabilidad.
Por ejemplo, la probabilidad que un defecto en particular ocurra
en el primer turno y que sea del tipo A es p1pA. Observe que los
valores de las probabilidades de las celdas no están totalmente
especificados en este problema. La hipótesis nula especifica
solamente que cada probabilidad de celda debe ser igual al
producto de la probabilidad de su fila por la probabilidad de su
columna, y por ello implica la independencia de las dos
clasificaciones. La hipótesis alternativa es que la igualdad
mencionada no es cierta para al menos una de las celdas.
Tipo de defecto
Turno A B C D Totales
1 15 21 45 13 94
2 26 31 34 5 96
3 33 17 49 20 119
Totales 74 69 128 38 309
Tabla 9. Tabla de contingencia en la que se clasifican defectos de muebles según tipo de
defecto y turno de operación
40
Estadística Descriptiva
Tipo de defecto
Turno A B C D Totales
15 21 45 13 94
1 22.51 20.99 38.94 11.56 94
2.51 0.00 0.94 0.18 3.63
26 31 34 5 96
2 22.99 21.44 39.77 11.81 96
0.40 4.26 0.84 3.92 9.42
33 17 49 20 119
3 28.50 26.57 49.29 14.63 119
0.71 3.44 0.00 1.97 6.12
74 69 128 38 309
Totales 74 69 128 38 309
3.62 7.70 1.78 6.07 19.17
41
Estadística Descriptiva
de libertad asociados a una tabla de contingencia de r filas y c
columnas son siempre (r - 1)(c - 1). Para el ejemplo de los
muebles, se compara χ2 con el valor crítico de una χ2 con (r -
1)(c - 1) = (3 - 1)(4 - 1) = 6 grados de libertad.
Los grados de libertad asociados con la estadística χ2 son el
número de celdas (en este caso k = rc) menos un grado de
libertad por cada restricción lineal independiente que deban
satisfacer las frecuencias de las celdas. El número de celdas
para los datos de la tabla 10 es k = 12.
42
Estadística Descriptiva
Clase socioeconómica
Baja Media Alta Totales
Usó precios 249 494 201 944
unitarios
No usó precios 26 26 4 56
unitarios
Totales 275 520 205 1 000
Tabla 11. Datos para el ejemplo 3.
4
H.R. Isakson y A.R. Maurizi, «The Consumer Economics of Unit Pricing,»
Journal of Marketing (1973).
43
Estadística Descriptiva
Las frecuencias esperadas de cada celda se estiman
calculando los totales de fila y columna.
Ê(nij) = ni· n·j / n
Se tiene
Ê(n11) = n1· n·1 / n = (944)(275)/1000 = 259.6
Ê(n12) = n1· n·2 / n = (944)(520)/1000 = 490.9
Ê(n13) = n1· n·3 / n = (944)(205)/1000 = 193.5
Ê(n21) = n2· n·1 / n = (56)(275)/1000 = 15.4
Ê(n22) = n2· n·2 / n = (56)(520)/1000 = 29.1
Ê(n23) = n2· n·3 / n = (56)(205)/1000 = 11.5
y así sucesivamente. Estos valores aparecen en la tabla 12
Clase socioeconómica
Baja Media Alta Totales
249 494 201 944
Usó precios 259.6 490.9 193.5 944
unitarios
0.43 0.02 0.30 0.75
26 26 4 56
No usó precios 15.4 29.1 11.5 56
unitarios
7.30 0.33 4.89 12.52
44
Estadística Descriptiva
Ejercicios.
5
B.G. Malkiel y R.E. Quandt, «Moral Issues in Investment Policy,» Harvard
Business Review, marzo-abril de 1971.
45
Estadística Descriptiva
¿Existe alguna razón para creer que la disminución en ventas
fue diferente en esta temporada con respecto a las anteriores?
Úsese α = 0.05. ¿Cuál es el valor de p?
Tamaño de automóvil
Pequeño Compacto Grande
Accidentes con heridos fatales o graves 67 26 16
Accidentes sin heridos fatales o graves 128 63 46
Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic
95 105 95 105 90 95 105 110 105 100 95 100
COEFICIENTE DE CORRELACIÓN
Con frecuencia se requiere de un indicador o medida de la
fuerza con la que dos variables y y x se encuentran linealmente
relacionadas, de modo que el indicador no dependa de las
escalas en las que cada una de las variables y y x se hayan
medido. Un tal indicador o medida se conoce como medida de
la correlación lineal entre y y x.
46
Estadística Descriptiva
En donde
n _ n n
SCx = ∑ (xi - x)² = ∑ xi² - (∑ xi )² / n
i=1 i=1 i=1
y
n _ _ n n n
SCxy = ∑ (xi - x)(yi - y) = ∑xiyi - (∑xi)(∑yi) / n
i=1 i=1 i=1 i=1
47
Estadística Descriptiva
EJERCICIOS
48
Estadística Descriptiva
49
Estadística Descriptiva
χ2 0.100 χ2 0.050 χ2 0.025 χ2 0.010 χ2 0.005 g. de libertad
2.70554 3.84146 5.02389 6.63490 7.87944 1
4.60517 5.99147 7.37776 9.21034 10.5966 2
6.25139 7.814473 9.34840 11.3449 12.8381 3
7.77944 9.48773 11.1433 13.2767 14.8602 4
Concluye
2
Tomada de «Tables of the Percentage Points of the -Distribution,» Biometrika, Vol. 32
50
Estadística Descriptiva
z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
0.0 .0000 .0040 .0080 .0120 .0160 .0199 .0239 .0279 .0319 .0359
0.1 .0398 .0438 .0478 .0517 .0557 .0596 .0636 .0675 .0714 .0753
0.2 .0793 .0832 .0871 .0910 .0948 .0987 .1026 .1064 .1103 .1141
0.3 .1179 .1217 .1255 .1293 .1331 .1368 .1406 .1443 .1480 .1517
0.4 .1554 .1591 .1628 .1664 .1700 .1736 .1772 .1808 .1844 .1879
0.5 .1915 .1950 .1985 .2019 .2054 .2088 .2123 .2157 .2190 .2224
0.6 .2257 .2291 .2324 .2357 .2389 .2422 .2454 .2486 .2517 .2549
0.7 .2580 .2611 .2642 .2673 .2704 .2734 .2764 .2794 .2823 .2852
0.8 .2881 .2910 .2939 .2967 .2995 .3023 .3051 .3078 .3106 .3133
0.9 .3159 .3186 .3212 .3238 .3264 .3289 .3315 .3340 .3365 .3389
1.0 .3413 .3438 .3461 .3485 .3508 .3531 .3554 .3577 .3599 .3621
1.1 .3643 .3665 .3686 .3708 .3729 .3749 .3770 .3790 .3810 .3930
1.2 .3849 .3869 .3888 .3907 .3925 .3944 .3962 .3980 .3997 .4015
1.3 .4032 .4049 .4066 .4082 .4099 .4115 .4131 .4147 .4162 .4177
1.4 .4192 .4207 .4222 .4236 .4251 .4265 .4279 .4292 .4306 .4319
1.5 .4332 .4345 .4357 .4370 .4382 .4394 .4406 .4418 .4429 .4441
1.6 .4452 .4463 .4474 .4484 .4495 .4505 .4515 .4525 .4535 .4545
1.7 .4554 .4564 .4573 .4582 .4591 .4599 .4608 .4616 .4625 .4633
1.8 .4641 .4649 .4656 .4664 .4671 .4678 .4686 .4693 .4699 .4706
1.9 .4713 .4719 .4726 .4732 .4738 .4744 .4750 .4756 .4761 .4767
2.0 .4772 .4778 .4783 .4788 .4793 .4798 .4803 .4808 .4812 .4817
2.1 .4821 .4826 .4830 .4834 .4838 .4842 .4846 .4850 .4854 .4857
2.2 .4861 .4864 .4868 .4871 .4875 .4878 .4881 .4884 .4887 .4890
2.3 .4893 .4896 .4898 .4901 .4904 .4906 .4909 .4911 .4913 .4916
2.4 .4918 .4920 .4922 .4925 .4927 .4929 .4931 .4932 .4934 .4936
2.5 .4938 .4940 .4941 .4943 .4945 .4946 .4948 .4949 .4951 .4952
2.6 .4953 .4955 .4956 .4957 .4959 .4960 .4961 .4962 .4963 .4964
2.7 .4965 .4966 .4967 .4968 .4969 .4970 .4971 .4972 .4973 .4974
2.8 .4974 .4975 .4976 .4977 .4977 .4978 .4979 .4979 .4980 .4981
2.9 .4981 .4982 .4982 .4983 .4984 .4984 .4985 .4985 .4986 .4986
3.0 .4987 .4987 .4987 .4988 .4988 .4989 .4989 .4989 .4990 .4990
6
Versión extractada de la tabla 1 de Statistical Tables and Formulas, por A.
Hald (New York: John Wiley & Sons, Inc., 1952).
51