Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CAPITULO 1
EL PROCESO ESTADÍSTICO
La estadística es una ciencia que estudia una serie de fenómenos no deterministas, a partir de la
recogida, análisis e interpretación de unos datos que tienen lugar dentro de una colectividad.
Un ejemplo nos ayuda a diferenciar entre fenómenos deterministas y no deterministas:
− Al pulsar el interruptor de la luz, si ésta estaba apagada, se encenderá; y al contrario, si la luz
está encendida y pulsamos el interruptor, la luz se apagará. Este fenómeno es determinista,
ya que antes de ejecutar la acción puedo prever el resultado de la misma, y, si no hay ningún
imprevisto (en el caso de la luz, que la bombilla esté encendida), obtendremos el resultado
esperado.
− Los fenómenos no deterministas son aquellos en los que no se puede predecir el resultado,
antes de su ejecución. Sería un fenómeno no determinista “la puntuación que se obtiene al
tirar un dado”; antes de realizar la tirada no sabemos los puntos que se obtendrán. Además
este fenómeno descrito se denomina aleatorio, ya que el resultado depende exclusivamente
del azar (si el dado no está trucado). También hay fenómenos no deterministas que no son
aleatorios, por ejemplo, la respuesta a la pregunta sobre el Estado Civil en una encuesta. El
encuestador no conoce previamente la respuesta que va a obtener, pero de ninguna manera
depende la respuesta del azar.
1
MSc. Ing. Luis Herman Hinojosa Saavedra
• Es una ciencia que, utilizando como instrumento a las matemáticas, estudia las leyes de
comportamiento de aquellos fenómenos que dependen del azar. Generalizando estas leyes y
basándose en ellas predice e infiere resultados.
• Significa la técnica o el método que se sigue para recoger, organizar, resumir, presentar,
analizar, generalizar y contrastar los resultados de las observaciones de los fenómenos reales.
La importancia de la estadística no está reducida al ámbito de la matemática sino que se ha
convertido en una herramienta de trabajo fundamental para muchas otras ciencias y facilita
mediciones e inferencias de ámbito educativo y social: por ejemplo, costumbres relativas al
cuidado de la salud, niños que están escolarizados en diferentes tipos de centros, capacidades
(tests).
La Estadística es una ciencia positiva y sigue unas reglas y procesos determinados.
Resumiéndolo de una manera sencilla, enumeramos los pasos elementales a seguir en un estudio
estadístico.
Para llevar a cabo el proceso estadístico son necesarias varias fases, que se pueden resumir en
estas cuatro1:
1. El diseño o planteamiento, mediante el cual se fija el objetivo a conseguir, la población y
muestra que va a estudiarse, los caracteres que interesan y la presentación que se hará con los
datos recogidos; es preciso también determinar tanto costes como tiempo que se va a invertir.
Se respondería a las siguientes preguntas: ¿sobre quién se realiza el estudio? y ¿qué
característica o características vamos a analizar?
2. La recogida de datos, que puede ser directa, cuando es el propio individuo el que facilita los
datos, generalmente mediante un cuestionario o la observación directa; o puede ser indirecta,
cuando se recurre a un fichero, a un banco de datos, etc.
3. La obtención de resultados mediante el tratamiento de datos: son las operaciones, cuadros,
tablas, gráficos, previstos en el diseño, que hay que efectuar para obtener los resultados. Si la
cantidad de datos es grande, se usan técnicas informáticas. En este punto tratamos, por tanto
la cuantificación y análisis de los datos. Las técnicas que se utilizan para ello son tanto de
cálculo como gráficas.
4. La interpretación de resultados. Al final del proceso, se pueden tomar las soluciones
pertinentes a partir de la información obtenida. Dependiendo del estudio y de la temática, se
terminará definiendo predicciones o conclusiones sobre los fenómenos estudiados.
Analizamos estos pasos a la luz de un ejemplo:
2
MSc. Ing. Luis Herman Hinojosa Saavedra
Tras definir la población y dado que no podemos obtener datos de todos los
niños españoles de esas edades, pues convertiría nuestro trabajo en algo
inabarcable y costoso, buscamos la selección de una parte de la población.
Para que el resultado sea fidedigno, tendremos que respetar el reparto
proporcional de niños de la población y niños encuestados: es decir, si hay
300.000 niños de las características señaladas, no podemos recoger datos de
450, o solamente de alumnos de colegios públicos o solo de habitantes de
grandes poblaciones urbanas. En la muestra (definiremos más tarde este
concepto) tendrá que haber niños de diferentes niveles socioeconómicos, de
barrios acomodados y marginales, de colegios públicos, privados y
concertados, de ámbito rural y ámbito urbano; y todo, guardando la debida
proporción muestra-población. (No hemos querido hacer un elenco
exhaustivo de factores, simplemente ilustrar las necesidades que surgen al
seleccionar la muestra).
3
MSc. Ing. Luis Herman Hinojosa Saavedra
GENERALIDADES.-
El campo de la estadística tiene que ver con la recopilación, presentación, análisis y uso
de datos para tomar decisiones y resolver problemas. Cualquier persona, tanto en su
carrera profesional como en la vida cotidiana recibe información en forma de datos a
través de periódicos, de la televisión y de otros medios. De manera específica, el
conocimiento de la estadística y la probabilidad puede constituirse en una herramienta,
poderosa para ayudar a los científicos e ingenieros a diseñar nuevos productos y
sistemas, a perfeccionar los existentes y a diseñar, desarrollar y mejorar los procesos
productivos.
4
MSc. Ing. Luis Herman Hinojosa Saavedra
¿Qué es la estadística?
ESTADÍSTICA DESCRIPTIVA
ESTADISTICA
INFERENCIA ESTADÍSTICA
El término estadística tiene su raíz en la palabra Estado. Surge cuando se hace necesario
para sus intereses cuantificar conceptos. En la mayoría de los casos esta cuantificación
se hará en función de unos fines económicos o militares. El estado quiere conocer censo
de esta información.
5
MSc. Ing. Luis Herman Hinojosa Saavedra
La estadística inferencial comprende las técnicas con las que, con base únicamente en
una muestra sometida a observación, se toman decisiones sobre una población o proceso
estadísticos. Dado que estas decisiones se toman en condiciones de incertidumbre,
suponen el uso de conceptos de probabilidad. Mientras que a las características medidas
de una muestra se les llama estadísticas muestrales, a las características medidas de una
población estadística, o universo, se les llama parámetros de la población. El
procedimiento para la medición de las características de todos los miembros de una
población definida se llama censo. Cuando la inferencia estadística se usa en el control
de procesos, al muestreo, le interesa en particular el descubrimiento y control de las
fuentes de variación en la calidad de la producción.
6
MSc. Ing. Luis Herman Hinojosa Saavedra
Las poblaciones pueden ser infinitas o finitas. Una población infinita es la que contiene
un número infinito de unidades elementales; por ejemplo, el conjunto de piezas que se
obtienen en un proceso productivo; en el sentido de que se siguen produciendo
indefinidamente. Otro ejemplo son todos los posibles resultados al lanzar una moneda
sin cesar.
Una población es finita cuando tiene un número finito de unidades elementales. Por
ejemplo, los estudiantes de una determinada universidad; el número de escuelas que
7
MSc. Ing. Luis Herman Hinojosa Saavedra
Una muestra es una parte de la población; por ejemplo, cuando se desea hacer un
estudio relativo al rendimiento académico de los alumnos de cierta universidad, y para
esto se toma sólo un grupo de estudiantes de la misma. Todos los estudiantes de ella son
la población y el grupo escogido constituye la muestra. Es importante hacer notar que
para hacer una investigación mediante el análisis de una muestra, ésta tiene que ser,
necesariamente, representativa. La representatividad de la muestra implica que cada
unidad de la población debe tener igual probabilidad de ser seleccionada. En estas
condiciones, se dice que la muestra es aleatoria. La obtención de una muestra
representativa es uno de los aspectos más importantes de la teoría estadística. Incluye
preguntas como, ¿qué tan grande debe ser la muestra?, ¿qué tipo de datos deben ser
recolectados?, ¿cómo se recogerán éstos? Estas preguntas serán contestadas más
adelante. (El número de unidades elementales de una muestra se denota con la letra n).
Dentro de una población, un parámetro es un valor fijo que no varía. Cada muestra
tomada de la población tiene su propio valor de cualquier estadística que se utilice para
estimar este parámetro. Por ejemplo, la media de los datos en una muestra es utilizada
para dar información sobre la media de la población total de la cual esa muestra fue
tomada.
8
MSc. Ing. Luis Herman Hinojosa Saavedra
Los datos discretos son datos contables y recolectados por conteo, por ejemplo, el
número de los artículos defectuosos producidos durante un día de producción.
Los datos continuos son recolectados por medición y expresados en una escala
continua. Por ejemplo, midiendo la altura de una persona.
9
MSc. Ing. Luis Herman Hinojosa Saavedra
Número de hijos
Número de hermanos
Núm. De materias
Variables Discretas aprobadas
(Son valores puntuales, exactos) Cantidad de autos
Cantidad de televisores
Variables Cuantitativas
(Son medibles; son numéricas)
Edad
Peso
Estatura
Variables Continuas Salarios
(Pueden estar dentro de un intérvalo) Tiempo
Dosis de medicamento
Variables
10
MSc. Ing. Luis Herman Hinojosa Saavedra
11
MSc. Ing. Luis Herman Hinojosa Saavedra
Para poder analizar la forma como se distribuye la frecuencia con que aparecen los
diferentes valores correspondientes a las mediciones de las variables que se están
estudiando, es necesario organizar, resumir y simplificar los datos mediante un soporte
que posibilite su recuperación para el procesamiento estadístico. Esto se realiza
mediante Tablas Inteligibles, denominadas Distribuciones de Frecuencias, o también
Base de Datos.
Regla de sturges
Para obtener la fórmula k = 1 + 3,32 log n , se deben hacer los siguientes supuestos:
12
MSc. Ing. Luis Herman Hinojosa Saavedra
log(n) = log(2k −1 )
log(n) = (k − 1) log(2)
log(n)
1+ =k
log 2
log(n)
k = 1+
0,30103
k = 1 + (3,322) log(n)
13
MSc. Ing. Luis Herman Hinojosa Saavedra
450 1152 250 300 175 80 25 2680 605 785 1595 2300 5000 1200 100
5 180 200 675 500 375 1500 205 985 185 125 315 425 560 1100
Evidentemente, la variable estadística tiene un recorrido muy grande, 4998 euros, por lo
que sí queremos hacer una tabla con estos datos tendremos que tomar intervalos. Para
decidir la amplitud de los intervalos, necesitaremos decidir cuántos intervalos queremos.
Normalmente se suele trabajar con no más de 10 ó 12 intervalos.
[ Li-1 , Li ) Frecuencia
[ 0,500) 16
[ 500, 1000) 6
[ 1000,1500) 3
[ 1500, 2000) 2
[ 2000, 2500) 1
[ 2500, 3000) 1
[ 3000, 3500) 0
[ 3500, 4000) 0
[ 4000, 4500) 0
14
MSc. Ing. Luis Herman Hinojosa Saavedra
[ 4500, 5000) 0
[ 5000,5500) 1
Ej: Con los siguientes datos elaborar una tabla de distribución de frecuencias.
35 42 31 20 80 71
56 52 53 43 61 58
29 36 41 48 54 60 n=30
72 66 64 60 56 52
43 44 61 32 27 34
1er. Paso.-
Se calcula el Rango, que es igual a la diferencia entre el valor máximo y el mínimo del
conjunto de datos.
R = VMax − VMin = 80 − 20 = 60
2do. Paso.-
Se calcula la cantidad de clases, intervalos o filas que tendrá la tabla de distribución de
frecuencias. Para ello se utiliza la Regla de Sturges.
K = 1+ 3,32. log n
Donde n = Tamaño de la muestra
K = 1 + 3,32. log 30
K = 5,797 6
3er. Paso.-
Se encuentra el Ancho de Clases (AC)
R AC = Ancho de clases
AC = R = Rango
K
K = Cantidad de clases o intervalos
60
AC = Lo que indica que cada intervalo tendrá
10 un ancho de 6 unidades
AC = 6
15
MSc. Ing. Luis Herman Hinojosa Saavedra
TIPOS DE FRECUENCIAS.-
Li - Ls fi
20 – 30 3 Li = Límite inferior de clase
30 – 40 5 Ls = Límite superior de clase
40 – 50 6 fi = Frecuencia absoluta
50 – 60 9
60 – 70 4
70 – 80 3
Li - Ls fi fa(-)
20 – 30 3 3
30 – 40 5 8
SUMAR
40 – 50 6 14
50 – 60 9 23
60 – 70 4 27
70 – 80 3 30
Li - Ls fi fa(+)
20 – 30 3 30
30 – 40 5 27
SUMAR
40 – 50 6 22
50 – 60 9 16
60 – 70 4 7
70 – 80 3 3
16
MSc. Ing. Luis Herman Hinojosa Saavedra
- Frecuencia Relativa.-(hi)
La frecuencia absoluta, es una medida que está influida por el tamaño de la muestra, al
aumentar el tamaño de la muestra aumentará también el tamaño de la frecuencia
absoluta. Esto hace que no sea una medida útil para poder comparar. Para esto es
necesario introducir el concepto de frecuencia relativa, que es el cociente entre la
frecuencia absoluta y el tamaño de la muestra. La denotaremos por hi
Li - Ls hi
fi hi = Frecuencia Relativa
20 – 30 0,100 hi = fi = Frecuencia absoluta
30 – 40 0,167 n n = Número total de observaciones
40 – 50 0,200
50 – 60 0,300
60 – 70 0,133
70 – 80 0,100
Li - Ls hi Hi (-)
20 – 30 0,100 0,100
30 – 40 0,167 0,267
SUMAR
40 – 50 0,200 0,467
50 – 60 0,300 0,767
60 – 70 0,133 0,900
70 – 80 0,100 1,000
17
MSc. Ing. Luis Herman Hinojosa Saavedra
SUMAR
40 – 50 0,200 0,733
50 – 60 0,300 0,533
60 – 70 0,133 0,233
70 – 80 0,100 0,100
Li - Ls hi %
20 – 30 10,0 hi % = hi x 100 hi %= Frecuencia Porcentual
hi = Frecuencia Relativa
30 – 40 16,7
40 – 50 20.0
50 – 60 30,0
60 – 70 13,3
70 – 80 10,0
Li - Ls hi % Hi %(-)
20 – 30 10,0 10,0
30 – 40 16,7 26,7
SUMAR
40 – 50 20.0 46,7
50 – 60 30,0 76,7
60 – 70 13,3 90.0
70 – 80 10,0 100,0
18
MSc. Ing. Luis Herman Hinojosa Saavedra
Li - Ls hi % Hi % (+)
20 – 30 10,0 100,0
30 – 40 16,7 90,0
SUMAR
40 – 50 20.0 73,3
50 – 60 30,0 53,3
60 – 70 13,3 23,3
70 – 80 10,0 10,0
Frecuencias Porcentuales
Frecuencias Absolutas
Frecuencias Relativas
que”
que”
que”
que”
19
MSc. Ing. Luis Herman Hinojosa Saavedra
Li + Ls
MC =
2
Li - Ls fi MC
20 – 30 3 25
30 – 40 5 35
40 – 50 6 45
50 – 60 9 55
60 – 70 4 65
70 – 80 3 75
fi
9
8
7
6
5
4
3
2
1
Límites
20 30 40 50 60 70 80
20
MSc. Ing. Luis Herman Hinojosa Saavedra
Fa (-)
30
27
24
21
18
15
12
9
6
3
Límites
20 30 40 50 60 70 80
21
MSc. Ing. Luis Herman Hinojosa Saavedra
Fa (+)
30
27
24
21
18
15
12
9
6
3
Límites
20 30 40 50 60 70 80
Fa (-)
30
27
24
21
18
15
12
9
6
3
MC
25 35 45 55 65 75
22
MSc. Ing. Luis Herman Hinojosa Saavedra
Fa (+)
30
27
24
21
18
15
12
9
6
3
MC
25 35 45 55 65 75
fi
9
8
7
6
5
4
3
2
1
MC
25 35 45 55 65 75
23
MSc. Ing. Luis Herman Hinojosa Saavedra
EJERCICIO 1.1.
24
MSc. Ing. Luis Herman Hinojosa Saavedra
EJERCICIO 1.2
4
5 10
42 10
54 0,28
0,70
30
0,10
Solución.-
26 34 30 1 4 100
34 42 38 5 0,10 10
42 50 46 -8 10
50 54 58 54 0,28 28
58 66 62 +8 0,70 70
66 74 70 0,30 30
74 82 76 0,10 1 10 100
42 Lim 54 Lim
42 50 54 58
+8 +8
AC = 8
25
MSc. Ing. Luis Herman Hinojosa Saavedra
26 34 30 50 1 4 4 100
34 42 38 5 0,10 10
+
42 50 46 10 15
50 58 54 0,28 28
58 66 62 0,70 70
66 74 70 0,30 90 30
74 82 76 5 50 0,10 1 10 100
50
(1)
(2)
50 1,00 5 10 %
f7 0,10 n 100 %
f7 = 5
n = 50
(Numero total de
obs.)
26 34 30 2 50 0,04 1 4 4 100
34 42 38 5 0,10 6 10
42 50 46 10 15 0,30 30
50 58 54 14 0,28 28 58
58 66 62 0,70 70
66 74 70 45 0,30 90 30
74 82 76 5 50 5 0,10 1 0,10 10 100 10
50
26
MSc. Ing. Luis Herman Hinojosa Saavedra
SOLUCION FINAL.-
27
MSc. Ing. Luis Herman Hinojosa Saavedra
2 3 2 1 1 1 3 4 2 2
2 2 1 2 1 1 1 3 2 2
3 2 3 1 2 4 2 1 4 1
1 3 4 3 2 2 2 1 3 3
Podemos observar que la variable toma valores comprendidos entre 1 y 4, por lo que
precisaremos una tabla en la que resumamos estos datos quedando la siguiente tabla:
1 16
2 20
3 9
4 5
Total 50
Una vez calculada las frecuencias absolutas, se procede a encontrar las demás
frecuencias de la misma manera que para datos cuantitativos continuos.
EJEMPLO.-
Ej: Se realiza una encuesta a 20 estudiantes de la Universidad sobre la cantidad de
hermanos que tiene, obteniéndose los siguientes resultados
1 3 0 1 1
2 3 4 5 1
3 1 1 2 3
3 2 2 2 1
28
MSc. Ing. Luis Herman Hinojosa Saavedra
Cantidad
fi fa(-) fa(+) hi Hi (-) Hi (+) hi % Hi %(-) Hi % (+)
hermanos
7
6
5
4
3
2
1
Cant.
hermanos
0 1 2 3 4
29
MSc. Ing. Luis Herman Hinojosa Saavedra
fa(-)
20
16
12
Cant.
hermanos
0 1 2 3 4 5
VARIABLES CUALITATIVAS.-
Ej: Se realiza una encuesta a 25 personas fumadoras sobre la marca de cigarrillos que
fuman, obteniendo los siguientes resultados:
Marca de
fi fa(-) fa(+) hi Hi (-) Hi (+) hi % Hi %(-) Hi % (+)
Cigarrillos
25 1,00 100 %
¿Cuantas personas ¿Cuantas personas ¿Qué fracción de ¿Qué porcentaje de ¿Qué porcentaje de
fuman CAMEL o fuman DERBY o personas fuman personas fuman personas fuman
MARLBORO? EXTRA? CAMEL o LM? CAMEL o EXTRA? MARLBORO,
Resp.- 10 personas Resp.- 7 personas Resp.- 0,40 Resp.- 40 % DERBY O EXTRA?
Resp.- 40 %
30
MSc. Ing. Luis Herman Hinojosa Saavedra
RESPUESTA fi
MUY BUENA 2
BUENA 34
REGULAR 10
MALA 3
MUY MALA 1
SOLUCIÓN.-
fi fa(-) fa(+) hi Hi(-) H(+) hi% Hi(-) Hi(+)
GRAFICOS.-
40
MUY MALA 34
35
2%
MUY
MALA 30
BUENA
6% 25
4%
20
REGULAR
20% 15
10
10
BUENA 5 2 3
1
68%
0
MUY BUENA REGULAR MALA MUY
BUENA MALA
31
MSc. Ing. Luis Herman Hinojosa Saavedra
Ejemplo
Al u m n os Án gu l o
Bal on cest o 12 14 4°
Nat aci ón 3 36 °
F ú t b ol 9 10 8°
S i n d ep ort e 6 72 °
Tot al 30 36 0°
32
MSc. Ing. Luis Herman Hinojosa Saavedra
Son gráficos con dibujos alusivos al carácter que se está estudiando y cuyo tamaño es
proporcional a las frecuencias que representan.
Tomemos el Padrón Municipal de Habitantes a 1 de Enero de 2005, podemos hacer una
representación gráfica de los habitantes de cada una de las 8 provincias de Andalucía.
Una imagen alusiva será la figura de una persona, cuyo tamaño estará relacionado con
el número de habitantes de cada provincia.
El pictograma correspondiente es el que sigue:
33
MSc. Ing. Luis Herman Hinojosa Saavedra
1 2 3 4 5 6 7 8 9
(años de edad)
Figura 1: Gráfico de caja en una distribución “muy sesgada” (sesgo positivo).
34
MSc. Ing. Luis Herman Hinojosa Saavedra
35
MSc. Ing. Luis Herman Hinojosa Saavedra
EJERCICIO RESUELTO.-
Hi (-)
1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
Límites
5 7 12 15
36
MSc. Ing. Luis Herman Hinojosa Saavedra
Solución.-
Li - LS fi hi HI(-)
0–5 0,2 0,2
5–7 0,3 0,5
7 – 12 0,3 0,8
12 – 15 0,2 1,0
n = 50
fi Li - LS fi hi HI(-)
Siendo: hi =
n 0–5 10 0,2 0,2
5–7 15 0,3 0,5
Entonces: fi = hi .n 7 – 12 15 0,3 0,8
Reemplazamos para encontrar 12 – 15 10 0,2 1,0
las frecuencias absolutas:
n = 50
f1 = 0,2 x50 = 10
f 2 = 0,3x50 = 15
f 3 = 0,3x50 = 15
f 4 = 0,2 x50 = 10
37
MSc. Ing. Luis Herman Hinojosa Saavedra
7 a 12 15 5 15 3 x15
x= =9
7 a 10 x 3 x 5
10 + 15 + 9 = 34 observaciones
5 15 4 x15
7 a 12 15 x= = 12
4 x 5
7 a 11 x
10 + 15 + 12 = 37 observaciones inferiores a 11
38
MSc. Ing. Luis Herman Hinojosa Saavedra
Problema 1.1
Problema 1.2.
Los siguientes datos representan el periodo de vida, en segundos, de 50 mosquitos que
están sujetos a un nuevo insecticida en un experimento controlado de laboratorio
18 20 10 8 25 14 13 19 18 24
12 17 8 9 12 14 7 9 15 22
14 18 17 14 16 31 8 7 15 12
13 8 18 7 10 5 28 17 14 15
10 12 15 19 6 8 13 14 18 21
39
MSc. Ing. Luis Herman Hinojosa Saavedra
Problema 1.3.
Los contenidos de nicotina, en miligramos, de 40 cigarrillos marca CANCER se
registraron de la siguiente manera
Problema 1.4.-
4 6 5 6 4 6 5 5 6 5
5 5 8 8 8 6 9 6 5 7
7 9 3 2 7 4 5 7 7 3
6 7 7 7 8 3 6 6 7 6
4 6 8 5 6 6 7 5 7 4
40
MSc. Ing. Luis Herman Hinojosa Saavedra
Problema 1.5.-
Al comenzar el curso se pasó una encuesta a los alumnos del primer curso,
preguntándoles, entre otras cosas, por el número de hermanos que tenía,
obteniéndose los siguientes resultados:
3 1 3 2 4 4
3 3 4 4 3 3
2 3 3 2 3 3
8 2 2 2 2 3
2 3 4 3 4 3
3 2 3 4 3 5
Elaborar una tabla de distribución de frecuencias, con todas las frecuencias conocidas.
Problema 1.6.-
Limites Cantidad
1,40 – 1,49 2
1,50 – 1,59 21
1,60 – 1,69 56
1,70 – 1,79 67
1,80 – 1,89 13
1,90 – 2,00 1
41
MSc. Ing. Luis Herman Hinojosa Saavedra
Problema 1.7.-
X1 f hi fa(-) Hi(-)
0 2
1 5
2 9
3 14 0,70
4
5 0,20
42