94%(17)94% encontró este documento útil (17 votos) 47K vistas463 páginasEstadistica Descriptiva - Rufino Moya Calderón USER201283
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido,
reclámalo aquí.
Formatos disponibles
Descarga como PDF o lee en línea desde Scribd
METI Te
Ua
RUFINO MOYA CALDBCONTENIDO
1 ESTADI{STICA
2 ORGANIZACION Y
GENERALIDADES... 1 CLASIFICACION DE
35
1a {Qué es estadistica? 1
1.2 Divisién de la estadistica 2 21 Introduccién... 35
1.2.1 Estadistica descriptiva . 2 | 22 Revisién y correccién de Jos
1.2.2 Estadistica inferenci: 3 .- 35
13 Poblacién y muestra 7 23 Tablas de distribucién. de.
14 Usos de la estadistica. 12 frecuencias ... 36
14.1 Laestadfstica en el desarrollo 23.1 Datos de variables discretas 36
de la investigaci6n 13 2.3.1.1
15 El método estadfstico 14
1.6 Recoleccién de los datos 16 2.3.2 Datos de variables continuas 52
1.6.1 Algunos procedimientos y 2.3.2.1 Limites reales de clases ...... 69
métodos para recolectar datos 17 | 2.3.2.2 Simetria de una tabla de
1.6.2 Principales procedimientos distribucién de frecuencias. 73
para recolectar informac.sn 23.3 Datos de variables
en ciencias sociales, salud, cualitativas ....
18 | 23.4 — Diagrama de hojas y tallos. 79
17 21 =| 23.4.1 Ventajas de los diagramas
1.8 _ Disefio 0 elaboracién de de hojas y tallos ... 81
formularios ww 25 | 2.3.5 Problemas de repaso 2A..... 82
18.1 Principios bisicos que se 2.4 — Representacién tabular y
deben tener en cuenta en la F
confeccién de formularios.. 26 24.1
19 Ventajas del empleo de 2.4.1.1 Partes de un cuadro
muestras estadistico .. 89
1.10 Desventaja del empleo de 2.4.1.2 Elaboracién de un cuadro.
muestras .... a) estadistico ... we 91
L1L Condiciones de una buena 2.4.1.3 Enrores de la ‘presentacién
muestra .. de cuadros.... en
1.12 Tipos de muestras 2.4.1.4 Pasosa nope al leer un
1.12.1 Métodos para obtener :
muestras probabilisticas ..... 24.2 — Representacién gréfica 92
1.12.1.1 Muestreo aleatorio simple 2A21 Veuajas ydeaveatajas del
1.12.1.2 Muestreo sistematico 2422 93
1.12.13 Muestreo estratificado .. 2423
1.12.1.4 Muestreo por conglomerados 33 trazado de gréficas lineales. 93Principales tipos de gréficos 94
Graficos de Darras wuss 95
Grafico de barras dobles,
multiples ... 97
2.4.2.7 Grafico de barras
compuestas o proporcionales 100
Pictograma o pict6grafos..... 102
Graficos de sectores 0 pastel 103
Diagrama de frecuencias .... 109
Histograma de frecuencias . 111
Polfgonos de frecuencias .... 114
Poligonos de frecuencias
acumuladas. Ojivas 114
2.4.2.14 Grdficas de linea ...
3 METODO PARA EL
ANALISIS DESCRIPTIVO
DE DATOS
CUALITATIVOS. .. 130
3.1 Introduccién.. 130
32
33
3.4
3.5 Porcentajes...
3.5.1 Porcentaje de Cambi 134
3.5.2 Porcentaje de error. 135
3.6 Tasas.. 137
3.6.1 Tipos de tasas 138
4 METODO PARA EL
ANALISIS DESCRIPTIVO
DE DATOS
CUANTITATIVOS ....seecee 141
4.1 Introduccién... a 141
42 Estadigrafos de posicién.... 142
4.2.1 Media aritmética..
4.2.1.1 Media de la poblacién
4.2.1.2 Propiedades de la media
aritmética .....
4.2.13 Métodos abreviados de
4.2.1.4
4.2.15
4.2.1.6
4.2.17
4.2.1.8
4.2.2
4.2.2.1
4.2.2.2
4.2.2.3
423
423.1
4.23.2
4.23.3
4.24
4.24.1
425
42.6
4.2.6.1
4.2.6.2
4.2.63
42.6.4
42.65
4.2.7
428
4.2.9
4.2.9.1
4.2.10
4.2.10.1
4.2.11
cdlculo de la media
aritmética ..
Media aritmética de ,
distribuciones simétricas ....
Media aritmética a partir de
submuestras
159
164
165
Media aritmética ponderada 170
Ventajas de la media
aritmética 176
Desventajas de la media
aritmética ...
Media geométrica
Desventajas de la me
geométrica .. a
Aplicaciones ha la media
geométrica .. a
Propiedades de la media
geoménica ...
Media arménica
Propiedades de la media
Ventajas y desventajas ..
Aplicaciones de la media
arménica ....
Media cuadratica ..
Propiedad de la media
cuadritica ...
Media de potencias
176
177
Mediana.....
CaAlculo de la mediana ........ 192
Método gréfico para
obtener la mediana... a
Propiedades de la mediana . 205
Ventajas de la mediana....... 208
Desventajas de la mediana.. 208
Cuantiles
Cuartiles
Deciles ...
Clculo de los deciles
Percentiles...
CAlculo de los percentiles4.2111
4.2.11.2
42.113
4.2114
4.2.12
42.13
43
43.1
43.2
433
43.4
43.4.1
43.4.2
43.4.3
4344
Calculo de 1a moda de datos
tabulados ..
Moda de una distribuci
simétric:
Ventajas de la moda
Desventajas de la mod
Relacién entre moda, media
y mediana en distribuciones
simétricas y asimétricas ...... 238
Problemas de repaso 4A ..... 240
Estadigrafos de dispersién.. 256
Introduccién...... . 256
Desviacién media absoluta. 258
Desviacién mediana
absoluta..... » 261
Varianza y desviacién tfpica 262
Férmulas de trabajo para el
cAlculo de la varianza . 267
Propiedades de la varianza . 270
Varianza calculada a partir
de submuestras ... see
Métodos abreviados de
cAlculo de Ja varianza .........
Desviacién tipica o
desviacién estandar....
Propiedades de la
desviacién tipica .
Interpretacién y aplicaciones
de la desviacién tipica ........ 286
Verificacién del célculo de la
desviacin tipica 289
Ventajas de la
desviacién tipica ..
Correccién Sheppard .......... 290
Relaciones empiricas entre
las medidas de dispersin ... 290
Medidas de dispersién
telativa 291
Momentos . 298
Relaciones entre momentos 305
Problemas de repaso 4B ..... 307
Medidas de concentracié6n .. 322
45.21
Curva de concentracién ......
Indice de concentracién ...... 324
Concentracién y dispersién 328
Medidas de forma de la
distribucién .. 332
332
Coeficientes de Asimetria .. 333
Medidas de apuntamiento 0
curtosis .. 341
Formas de medir la curtosis 341
5 DISTRIBUCIONES
BIDIMENSIONALES ........ 354
SA
5.2 iblas
estadisticas bidimensionales 355
5.2.1 Frecuencias relativas . . 357
5.2.2 Distribuciones marginales .. 359
5.3 Representacién gréfica ....... 363
54 Distribuciones
condicionadas .. . 369
3.5 Descripcién numérica
de las variables estadisticas
cuantitativas
bidimensionales
55.1 Medias y varianzas
marginales
5.5.2 Covarianza
5.5.3. Varianza y covarianza
5.6 Diagrama de dispersion .
57 Correlacién lineal ...
5.7.1 Otros coeficientes de
correlacién
58 Correlacién y causalidad
59 Regresién lineal simple ..
5.9.1 Estimacién por el método de
minimos cuadrados.....
6 SERIES
CRONOLOGICAS ...6.3.1
6.3.2
63.3
6.3.4
64
64.1
6.4.2
643
644
Introduccién.. om
Concepto y tipos de series
cronolégicas.. see 394
Tipos de series cronolégicas 396
Componentes de una serie
cronolédgica ..
Tendencia secular 398
Movimientos cfclicos. 399
Movimientos estacionales .. 399
Movimientos irregulares 0
al azar ot
Anilisis de las series
cronolégicas......
Estudio de la tendencia.
Método de mano alzad:
Método de Ios
semipromedios.. a
Método del movimiento
medio .....
Método de mfnimos
cuadrados ...
- 394
397
7 NUMEROS INDICES ........ 414
Wa
TAA
Definicién y clasificacién... 414
Indices simples .... 415
7.1.2 Indices compuestos...... 416
7.1.2.1 Indices compuestos no
7.1.2.2 Indices compuestos
ponderados....
72 Indices de precios, de
7.21
7.22
723
73 Cambio de base
7.3.1 Empalme de indices
14 Indices en cadena..
75 Indices de precios al
consumidor (IPC) - 439
76 Deflacién estadistica. . 440
7.6.1 Salario real...
7.6.2 Indice mensual y
acumulado .... 5
77 Problemas de repaso 7A .....
APENDICE A
(Sumatorias) os 451
BIBLIOGRAFIA
TABLA DE NUMEROS
ALEATORIOS...
457ESTADISTICA
GENERALIDADES
1.1 ,QUE ES ESTADISTICA?
La palabra “estadistica” como muchas otras palabras tienen varios significados.
En el Ienguaje comin, el término “estadistica” significa un poco mds que datos o
informaciones numéricas y se emplea generalmente en plural. Por ejemplo, el cronista
deportivo, mientras comenta las incidencias de la primera etapa de un partido de fiitbol
puede decir, estas son las estadisticas para la primera etapa; equipo A: disparos al arco
diez, errados nueve y acertado uno, tiros de esquina seis, etc., equipo B: disparos al arco
ocho todos errados, tiros de esquina siete, etc. Los comentaristas de radio otelevisién
informan diciendo: las estadisticas del Producto Bruto Interno (PBI) de la Industria
Manufacturera pasaron de un 15.3% en 1988 a un 11.7% en 1990. Entre Marzo del 88
y Agosto del 90 los sueldos han tenido una caida del 60%. Segin el Instituto Nacional
de Estadistica e Informatica (INED), el nivel acumulado de inflacién durante el primer
semestre del presente afio lleg6 a 230.5%. Una persona cualquiera puede preguntar: jhas
visto las iltimas estadisticas acerca del empleo?, etc. Naturalmente, encada uno de estos
comentarios, las personas est4n usando la palabra “estadistica” en forma correcta, sin
embargo, cada uno la usa en una forma diferente para un propdsito también diferente.
El término “estadistica” también se emplea para designar un drea de estudio, una
disciplina; por ejemplo, cuando se emplea esta palabra en el titulo de un libro o cuando
nos referimos a los cursos de estadistica de la curricula de una profesién, etc. Sin
embargo ambos significados de “estadistica” estén muy relacionados debido a que las
“estadisticas” consideradas como datos numéricos en gran parte son Ja “materia prima”
de la “Estadistica” como disciplina.La evoluci6n y desarrollo de la “Estadistica” en el mundo actual, es tal que seria
dificil dar una definicién precisa de este concepto. A riesgo de agregar una més a las
tantas existentes daremos la siguiente.
DEFINICION 1.1 La Estadistica es una ciencia que proporciona un conjunto de
métodos que se utilizan para recolectar, resumir, clasificar, analizar e interpretarelcom-
portamiento de los “datos” con respecto a una caracteristica materia de estudio o inves-
tigacién. En primera instancia se encarga de obtener informacién, describirla y luego
usa esta informaci6n a fin de predecir “algo” respecto a la fuente de informacién.
La Estadistica actual es el resultado de la unién de las disciplinas que evolucio-
naron independientemente hasta confluir en el siglo XIX: la primera es el “cdlculo de
probabilidades”, que nace aproximadamente en el siglo XVII como teoria matematica
de los juegos de azar; la segunda es la “Estadistica” 0 ciencia del estado, del latin status
(aunque sobre este significado etimolégico de estadistica no hay un criterio unico de los
autores, pues para unos se deriva del gricgo statera que significa balanza, para otros se
deriva del alem4n staat que significa estado) que estudia la descripcién de los datos y
tiene raices mds antiguas. La integracién de ambas lineas de pensamiento da lugar aesta
nueva ciencia:
1.2. DIVISION DE LA ESTADISTICA
El campo de la Estadistica generalmente estd dividido en dos grandes reas:
Estadistica Descriptiva y Estadistica Inferencial.
1.2.1ESTADISTICA DESCRIPTIVA
De la definicién de Estadistica, el lector notard dos aspectos bien remarcados, él
primero: obtener informacién, procesarla y describirla, es lo que constituye la Estadis-
tica Descriptiva. Precisaremos con la definicién siguiente.
DEFINICION 1.2 Estadistica Descriptiva es el conjunto de métodos que implican
larrecolecci6n, presentaci6n y caracterizacién de un conjunto de datos a fin de describir
en forma apropiada las diversas caracteristicas de estas. Es decir, un estudio estadistico
se considera “descriptivo” cuando sélo se analiza y describe los datos.
EJEMPLO 1.1 Un gerente de personal desea conocer las aptitudes de cinco secretarias
que trabajan en una dependencia particular de una compafiia. Se aplica una prueba de
aptitudes a las cinco secretarias y las calificaciones son 85, 90, 93, 82 y 95 puntos.
Supongamos que la medida estadistica que emplea el gerente de personal es la aptitud
2promedio o media aritmética, la cual cs la suma de los valores observados dividida
entre el nimero de observaciones. Entonces, la calificacién promedio es:
85 + 90+ 3 + 824 95 = 48 = 89 puntos
El resultado se limita a los datos obtenidos en este caso particular y no implica
ninguna generalizaci6n acerca de las aptitudes de las secretarias de otras oficinas de la
misma compaiiia. Es decir, el gerente estd usando estadistica para describir aptitudes de
las secretarias de esa oficina. Este método es de naturaleza descriptiva, debido a que cl
promedio condensa y describe la informacién obtenida.
Los graficos, tablas y mapas que muestra datos de tal forma que sean mis faciles
de entender son todos ejemplos del uso de Estadistica Descriptiva.
1.2.2 ESTADISTICA INFERENCIAL
El segundo aspecto de la definicién de Estadistica es: predecir “‘algo” con respecto
ala fuente de informacién, es lo que constituye la Estadistica Inferencial o Inferencia
Estadistica, la definiciOn es la siguiente.
DEFINICION 1.3 LaInferencia Estadistica es el conjunto de métodeso técnicas que
posibilitan la generalizacién o toma de las decisiones en base a una informaci‘sn parcial
obtenida mediante técnicas descriptivas.
Es decir, un estudio estadistico, se considera inferencial cuando se pretendeinferir
o predecir conclusiones que atafien a toda Ja fuente de informacién de donde proviene
los datos.
Ahora bien esta prediccién se hace con un cierto grado de confianza; este grado
de confianza se mide por la “probabilidad”. Por tanto, el cAlculo de probabilidades,
piedra angular de la inferencia estadistica estA como puente entre las dos partes de la
Estadistica.
Aunque la Estadistica descriptiva es importante para caracterizar y presentar in-
formaci6n de los datos, sin embargo, el desarrollo de 1a Inferencia Estadistica es lo que
ha conducido a la gran expansidn en la aplicacién de los métodos estadisticos.
EJEMPLO 1.2 Suponga ahora en el ejemplo 1.1, que el gerente de personal desea
conocer la aptitud promedio de todas las secretarias de la compajiia, pero carece de
tiempo c de los recursos para aplicar una prueba de aptitud a todas ellas. Entonces decide
usar Ja aptitud promedio de las cinco secretarias para estimar la aptitud promedio de
todas las secretarias de la compafiia. El proceso de estimar esta aptitud promedio global
serd un problema de Inferencia Estadistica.EJEMPLO 1.3 Un fabricante de medicinas afirma que una nueva vacuna contra el
catarro desarrollada por su compaiiia tienc una efectividad del 95%, estoes, en promedio
95 de cada 100 personas que emplean la vacuna pasardn el invierno sin contagiarse de
ratarro. Como resulta imposible probar la vacuna en todas las personas, consideremos
que 40 personas han recibido la vacuna, que de las 40, 35 no se contagiaron de catarro.
Vemos que si la afirmaci6n del fabricante es correcta se esperaria que 38 personas (40
x 0.95 = 38) pasaran el invierno sin catarro. Puesto que el ntimero observado es 35, lo
cual es inferior al ntimero esperado 38, gdeberd rechazarse la afirmacién del fabricante
en base a la evidencia? El proceso de decisién de rechazar 0 no la afirmacién del
fabricante es un problema de Inferencia Estadistica,
EI problema también puede plantearse como sigue: La proporcién de personas
no contagiadas, la cual es el cociente del mimero de personas observadas que no se
contagiaron entre el nimero total de personas observadas. Es decir, la proporcién de
Personas no contagiadas es:
esia proporcién expresado en porcentaje es 100(0.88)% = 88%. Entonces la evidencia
indica s6lo un 88% de efcctividad de la vacunaen cuestién, quees menora la Afirmacién
del fabricante. El proceso de decidir, se rechaza 0 no la afirmaci6n del fabricante es un
problema de inferencia estadistica.
EJEMPLO 1.4 Cuatro bombillas de marca A dejaron de funcionar después de 1100,
980, 900 y 1020 horas de uso continuo. Cinco bombillas de marca B dejaron de
funcionar después de 960, 1050, 1065, 845 y 980 horas de uso continuo. Se llega a las
siguientes conclusiones:
a. Laduracién promedio de las cuatro bombillas marca A es de 1000 hs, mientras que
la duracién promedio de las cince bombillas marca B es de 980 hs.
b. La duracién promedio dc todas las bombillas marca A es mayor que la de todas las
bombillas marca B.
¢. La diferencia entre los dos promedios es de 20 hs.
a. La diferencia entre los dos promedios es demasiado pequefio para llegar a la
conclusi6n de que las bombillas marca‘A son mejores que las bombillas marca B.
¢. Sise selecciona y prucba otra bombilla marca A, probablemente durara més que el
promedio de las bombilias marca B.
f. Ud. decide comprar bombillas marca A en vez de bombillas marca B.
‘les de las conclusiones provicnen de la Estadistica Descriptiva y cudles de la
Estadistica?SOLUCION:
a. La duracién promedio de las cuatro bombillas marca A es
100 1 200 O80 + 1020 400 = 1.000 hs.
La duracién promedio de las cinco bombillas marca B es
1050 + 960+ 1065 + 845 + 980 4200 ~ 80 hs
como se est4 usando Estadistica para describirel comportamiento s6lo de los datos
observados y no para una generalizacién, la conclusién proviene de Estadistica
Descriptiva.
b. Puesto que se esta generalizando, que la duracién promedio de todas las bombillas
marca A es mayor que todas las bombillas marca B, la conclusién proviene de la
Estadistica Inferencial.
c. Vemos que: 1000 - 980 = 20 hs, es decir la conclusién proviene de la Estadistica
Descriptiva.
d. Seestdusandolos promedios de los datos observados para inferir sobre la diferencia
de todas las bombillas. Por lo tanto, es Inferencia Estadistica.
e. Se hace una generalizaci6n de que cualquier bombilla marca A duraré mds que el
promedio de las bombillas marca B, proviene de Inferencia Estadistica.
f. Ud. esta generalizando que las bombillas marca A duran mas que las bombillas
marca B. Por lo tanto, es Inferencia Estadistica.
PROBLEMAS 1-1
1. En una prueba de aptitud, cuatro trabajadores recibieron calificaciones de 85, 90,
82 y 83. Cuatro trabajadoras recibieron calificaciones de 88, 87, 89, 92. De las
siguientes declaraciones realizadas con base en estas calificaciones, identificar
aquellas que se derivan de métodos descriptivos y aquellos que se derivan de
Inferencia Estadistica.
a. La calificacién promedio de los cuatro trabajadores es 85, y la calificacién
promedio de las cuatro trabajadoras es 89.
b. La aptitud promedio de todas las trabajadoras es probablemente mayor que lade
los trabajadores.
¢c. En la siguiente prueba de aptitudes, probablemente los trabajadores reciban
calificaciones mds bajas que las trabajadoras.4.
5.
Cinco neumiaticos para automévil de marca A y cuatro neuméaticos de marca B se
prueban para determinar su duraci6n en servicio. La duracién para los neumaticos
marca A, son: 36 000, 29 000, 33 000, 37 000 y 40 000 km; para la marca B, son:
29.000, 31 000, 33 000 y 35 000 km. De las siguientes declaraciones hechas en base
a estas cifras, identifique las que provienen de métodos descriptivos y las que
provienen de inferencia estadistica.
a. La duraci6n promedio de los cinco neuméticos marca A es mayor que la de los
cuatro neumiticos marca B.
b. Probablemente, la duracién promedio de todos los neumaticos marca A sea casi
35 000 km, mientras que la de los neumAticos marca B sea aproximadamente de
32.000 km.
c. Siel precio de los neumaticos marca A es el mismo que de los neumdticos marca
B, Ud. recomendaria los neumdticos marca A a todos sus amigos y parientes.
En cuatro pruebas de matemiatica, Juana recibié calificaciones de 17, 18, 15 y 14;
mientras que Juan recibié calificaciones de 14, 13, 16 y 13. A partir de estos datos
sc llcga q las siguientes conclusiones, gcudles de éstas incluyen el método descrip-
livo y cuales se obtienen mediante la inferencia estadistica?.
a. El promedio de las calificaciones de Juana es 16 y el promedio de las califica-
ciones de Juan es 14.
b. Juana es mejor estudiante que Juan.
c. Probablemente en la siguiente prueba, Juana obtenga calificaciones mds eleva-
das que Juan.
d. La diferencia entre los dos promedios es 2 puntos.
4En qué contexto se emplea gencralmente la palabra “estadistica” en radio y
televisi6n?
Clasifique cada una de las afirmaciones siguientes ya sea como inferencias 0
métodos descriptivos.
a. El afio pasado, en la Universidad Nacional del Callao, el puntaje promedio del
examen de admisién fue 85.
b. El Dr. Garcia, un écdlogo, informé que en cierto rio de la selva la carne de los
peces conticnen un promedio de 300 unidades de mercurio.
c. La compafiia “RM” predijo quién seria el ganador en una eleccién presidencial
después de conocer los resultados de las votaciones de 25 mesas de sufragio de
las 2 800 mesas que hubo en total.1.3 POBLACION Y MUESTRA
La palabra “poblacién” igual que sucede con el término “estadistica” tiene varios
significados. En el uso comin, se refiere‘a todas las personas de una regi6n, localidad
pais. (La poblacién de Limaes 6 millones; la poblacidn de China es 900 millones, etc).
El concepto de “poblacién”, estadisticamente hablando, es un concepto mds amplio de
loque se tiene al referirsea los habitantes de un Departamento o un Pais; poblacién desde
el punto de vista estadistico se define como sigue.
DEFINICION 1.4 Poblacién es la coleccién de todos los individuos, objetos u obser-
vaciones que poseen al menos una caracteristica comin.
Los términos poblacién y universo, suelen usarse indistintamente.
EJEMPLOS 1.5
Las edades de los estudiantes del Peri.
Las edades de los alumnos del sistema univertario peruano.
Los didmetros de la produccién diaria de tuercas.
Los pesos de los melones de una cosecha de la cooperativa los “meloneros”.
Las placas de los automéviles que circulan en un pais.
Los pacientes con poliomiclitis sometidos a una determinada terapetitica de
rehabilitaci6n.
g. Los enfermos de SIDA, tratado con uno de tres tratamientos diferentes.
Peangsp
En cada uno de los ejemplos anteriores, existe al menos una caracteristica comin
para todos los elementos integrantes de la poblacién. Y cada situacién diferente implica
una poblacidn diferente. En el ejemplo 1.5g, en lugar de una poblaci6n, se tiene tres
poblaciones diferentes, cada poblacién esté definida por cada uno de los tres tratamien-
tos que se utilizan.
Es importante definir la poblaci6n de acuerdo a la naturaleza y extensién del
problema bajo estudio. AI hablar de naturaleza, entenderemos la caracteristica materia
de estudio; es decir, si quisiéramos estudiar los pesos, alturas y edades de las personas,
la poblacién estard formada por los pesos, alturas y edades respectivamente. Y al hablar
de extensién definimos la poblacién tan extensa como sca necesario; es decir, si
quisiéramos estudiar las caracteristicas anteriores en los alumnos del sistema universi-
tario peruano, Ia poblacién estar4 referida al sistema universitario peruano; y si
estuviéramos interesados en estudiar éstas caracteristicas en los alumnos de las
universidades de Lima, la poblacién estard referida solamente a ellas. Al referirnos a la
naturaleza del problema, optamos también por distinguir entre lo que podemos Ilamar
poblacién “objeto” y poblacién “objetivo”; entendemos por poblacién objeto, el
conjunto de elementos materia de estudio y por poblacién objetivo las diferentes
7medidas de la caracteristica que nos interesa de la poblacién objeto. Aclaremos esto
con el ejemplo siguiente: al estudiar el rendimiento académico de los alumnos en el
sistema universitario; la poblacin objeto estar constituida por los alumnos del sistema
ylapoblaci6n objetivo, por lasnotas, que miden el rendimiento académico. Es necesario
ademés anotar que:
(a). Toda poblacién debe definirse de manera que la ubicacién en ella de cualquier
elemento pueda decidirse de manera inequivoca.
(b). Toda poblacién puede ser real o virtual.
Por otro lado obsérvese, por ejemplo, al hablar de los “‘alumnos del sistema uni-
versitario”, definimos una poblacién acotada, por Jo tanto finita. En cambio al hablar de
los “pacientes con poliomielitis, sometidos a una determinada terapéutica de rehabili-
taci6n” definimos una poblacién no acotada, por lo tanto virtualmente infinita, cuyos
elementos son, tanto las personas que ya han sido sometidos a la referida terapia, como
los que sean en el futuro. Es decir, la poblaci6n puede clasificarse como finita o infinita.
POBLACION FINITA Unapoblaci6n finita es aquella que tiene un némero limitado
de elementos. Por ejemplo, las estaturas de todos los estudiante que actualmente
estudian en las universidades del Peni.
Notacién: El tamaiio de la poblaci6n finita lo denotaremos por.“N”.
POBLACION INFINITA Una poblacién infinita es aquella que no tiene limite o
cotas, es decir, tiene un nimero infinito de elementos. Por ejemplo, la calidad de todas
las unidades producida mediante un proceso manufacturero.
DEFINICION 1.5 Parametroes una medida resumen que describe una caracteristica
de toda la poblacién.
Los pardmetros son caracteristicas medibles de una poblacién y naturalmente para
determinar su valor es necesario utilizar la informacién de toda la poblacién. Por
ejemplo, la edad promedio de los escolares del primer afio de secundaria de los colegios
del Pert, es una caracteristica medible (por tanto un parametro) de la poblacién formada
por las edades de todos los escolares del primer afio de secundaria del pais; es pués la
media de la poblacién. Similarmente, la proporcién de todos los telespectadores que
ven un cierto programa dominical a cierta hora, es una caracteristica medible (por tanto
un pardmetro) de la poblacién formada por todos los telespectadores de ese programa
dominical; es la proporcién de la poblacién. Los pardmetros mds usados son:
- Lamedia poblagional = 41 (que se lee mu)
- Proporcién poblacional = p (que s¢ lee pe)
- Desviacién tipica poblacional = g (que se lee sigma)Obviamente es imposible calcular el verdadero valor de cualquier parametro de
una poblaci6n infinita. En la mayor parte de los casos iampoco resulta practico (0 eco-
némico) calcular el verdadero valor de cualquier pardmetro de una poblaci6n finita. Por
tanto, resulta necesario realizar inferencias acerca de los pardmetros de la poblacién, a
partir de la informaci6n contenida en una parte de la poblacién.
DEFINICION 1.6 Muestra es una parte o un subconjunto representativo de la
poblacién. Y al proceso de obtener la muestra se llama muestreo.
Notacién: El nimero de observaciones (0 tamafio) de la muestra se denota por “n”.
Desde luego, el ntimero de observaciones en una muestra es menor que el nimero
de observaciones posibles en la poblacién, de otra forma, la muestra seria la poblaci6n
misma.
La seleccién y el estudio de una muestra, tiene por objeto la extraccién de
conclusiones que sean v4lidas para la poblacién del cual sé obtuvo dicha muestra. En
otras palabras, nuestro propésito es conocer la poblaci6n, para lo cual se extrae una
muestra de ésta.
Por ejemplo, si se desca estimar el gasto promedio anual de los estudiantes
universitarios del Peri, se extraeria una muestra formada por cierto nimero de
estudiantes, en seguida se determinaria cl gasto anual correspondiente a cada uno de
ellos y después se obtendria el promedio de estos gastos. Se utiliza una muestra debido
aquesimplemente no se tiene el tiempo y los recursos para establecer contacto con todos
los estudiantes universiiarios del pais, aun cuando es posible hacerlo. En base al
promedio de la muestra (promedio muestra!) obtenido de esta forma, se realiza una
inferencia acerca del gasto promedio de todos los estudiantes universitarios del Peri.
Hemos expresado, también que es imposible calcular el verdadero valor dv
cualquier pardmetro de una peblacién infinita, es pués necesario emplear una informa-
cién muestral. Por ejemplo, para determinar la proporcidén de partes defectuosas
producidas en cierto proceso de fabricacién, los técnicos de control de calidad examinan
un lote de unidades producidas para determinar el nimero de defectuosas contenida cn
él. (Generalmente un lote de este tipo, el cual constituye una muestra, se toma ;1
intervalos regulares de tiempo). La proporcién de la poblacién, lacual es un parametre
que se desconoce, es la proporcién de todas las unidades defectuosas producidas en cf
proceso; se estima mediante la proporcién ce la muestra, la cual es la proporcidn d=
las unidades defectuosas contenida en la muestra. Asi, si en un lote de 300 unidades
producidas en cl proceso, el ingeniero de control de calidad encuentra 45 defectuosis,
entonces la proporcién de defectuosas en la muestra seré 45/300 = 0.15 (15%).
Obsérvese, que tanto el promedio de la muestra, como la proporcién de la muestra en
los ejemplos considerados en el parrafo anterior son caracteristicas medibles de las
mucstras, lo cual da lugar a la definici6n siguiente.DEFINICION 1.7 Estadistico o Estadigrafoes una medida resumen que describe una
caracteristica de la muestra.
Por ejemplo, el C.I. (cocficiente de inteligencia) promedio de una muestra de
escolares de primer grado seleccionada de entre todos los estudiantes de primer grado
del Peri, es un estadistico; pués se trata de una caracteristica de la muestra. Similarmen-
te, la proporcién de una muestra de telespectadores de un cierto programa a cierta hora,
es también un estadistico; ya que se trata de una caracteristica de la muestra de telespec-
tadores.
EJEMPLO 1.6 Suponga que los ingresantes al primer afio de su universidad consta
de 3 000 estudiantes, todos los cuales han dado un examen tnico de seleccién que se
aplicé a todos los estudiantes que han ingresado a primer afio de universidad en el pais.
Explique las circunstancias bajo las cuales las calificaciones recibidas por los estudian-
tes ingresantes al primer afio de su universidad puede considerarse como: a. una
muestra, b. una poblacién.
SOLUCION:
a. Puede haber mds de una circunstancia. Por ejemplo, si-se quiere conocer, la
calificaci6n promedio de todos Ios ingresantes a las universidades del pais, la
poblacién estaria formada por las calificaciones de todos los ingresantes a primer
afio de universidad en el pais, entonces las calificaciones de los ingresantes a su
universidad seria una muestra.
b. También puede haber varias circunstancias. Por ejemplo, si se desea conocer la
calificacién promedio de todos los ingresantes a su universidad. La poblacién
estarfa compuesta por Jas calificaciones de todos los ingresantes a su universidad.
Tendremos asi, una circunstancia en la cual las calificaciones recibidas por los
estudiantes ingresantes a primer afio de su universidad se consideran como
poblacién.
EJEMPLO 1.7 Se realiza una votaci6n preliminar para determinar las preferencias de
los electores en una eleccién presidencial. Con este fin se entrevistan 1500 electores
registrados y entre ellos 860 estén a favor del candidato A. Responda lo siguiente:
a. zQué constituye la muestra?
b. zQué constituye la poblacién?
c. ¢La poblacién es finita o infinita?
d. © 4Cudl es el parémetro de la poblacién?
e. ¢Cuél es el estadistico de la muestra?
10SOLUCION:
a.
b.
c
d.
e
La muestra est4 constituida por las respuestas de 1 500 electores registrados.
La poblacién esta constituida por las respuestas de todos los electores registrados.
La poblacién es finita.
El pardmetro de la poblaci6n seré la proporcién de tédos los electores registrados
que est4n a favor del candidato A.
El estadistico de la muestra es la proporcién de los 1 500 electores registrados que
estan a favor de! candidato A. Es decir 860/1 500 ~ 0.57 (57%).
PROBLEMAS 1-2
1.
2.
Durante cicrta semana, en un restaurante se atendié a 2 300 clientes. Explique las
circunstancias bajo las cuales estos 2 300 clientes puedcn considcrarse como:
a. una muestra y b. una poblacién
Supéngase que el 60% de todos los electores registrados en un pais son integrantes
de un partido A y el 40% no. A partir de una mucsira de 500 electores, sc encuentra
que 250 pettenecen al partido A. Responda lo siguiente:
. {Cual es la proporcién de electores en Ja muestra que pertenccen al partido A?
. {Cua cs la proporcién de electorcs cn la poblacion que pertenccen al partido A?
. Cual es la poblacién? ges finita o infinita?
. {Cual es cl parimetro de la poblacién?
e. gCual cs el cstadistico de la muestra?
aeoce
Establezca la veracidad o falsedad de cada una de las proposicionés siguientes.
Reemplace cada enunciado falso por la proposici6n verdadera correspondicnt:
a. La poblacién es una coleccién de todos los elementos que estamos estudiand..
b. Un estadistico es una caractéristica de la poblacién.
c. |. Inferencia Estadistica, formula infcrencias con respecto a una mucstra.
Se realiza un muestrco de opinion para determinar si las amas de casa de Lim:
preficren un detergente de una marca A con respecte a vira. Con este fin se
entrevistan 2 000 amas de casa y entre cilas 1 506 prcficron la marca A. Respond:
lo signicnte:
a. (Qué constituye a la muestra?
b. {Qué constituye a la poblacién?
c. jLa poblaci6n es finita o infinita?
d. {Cual es cl parémetro de la poblacién?
e. (Cual es el estadistico de la muestra?
u$. Para cada una de las siguicnwes proposicioncs, definase la poblacién que se esta
8 D
mucstreando y describa cl pardémetro de Ia poblacién y cl estadistico muestral.
a. Se entrevista a 800 estudiantes universitarios acerca de sus opiniones (respucs-
tas si o no) sobre la legalizacién del aborto.
b. Sc entrevista a 300 trabajadores no sindicalizados para determinar sus opiniones
(respuestas si 0 no) acerca de la sindicalizacién.
¢. Se selecciona una muestra de los tornillos producidos por una maquina automé4-
tica y se prueban para determinar la proporcién de defectuosos.
d. Se selecciona una muestra de los becerros nacidos en Cajamarca en 1989 y se
lleva un registro de sus pesos al nacer.
6. Defina poblaciones apropiadas y a partir de ellas seleccione las muestras siguien-
tes:
a. Se Ilamé por teléfono a personas de 200 hogares de cierta ciudad y se les pidié
mencionar el nombre de su candidato para la alcaldia.
b. Se probaron 200 pares de un nuevo tipo de zapatos para futbolistas en un torneo
profesional y, en promedio duraron 4 meses.
c. Encincoocaciones diferentes, aun Ingeniero le tomé6 21, 26,24, 22 y 21 minutos
conducir su auto de su casa en las afueras de la ciudad hasta su oficina en el centro
de la ciudad.
1.4 USOS DE LA ESTADISTICA
La Estadistica proporciona un conjunto de métodos aplicables en todas las dreas
cientfficas donde se acumulan, se analizan y se interpretan datos. Resulta, pués muy
dificil nombrar areas donde no se aplica. Citaremos aqu{ brevemente algunos campos
en los cuales los métodos estadisticos juegan un papel principal, como: Salud y
Medicina, Biologia, Economia, Administracién, Contabilidad, Ingenieria, etc. y en la
investigacién Cientifica.
&N SALUD Y MEDICINA: Las estadisticas de salud incluyen toda informacién
numérica relacionada de modo directo con los problemas de salud, concebidos en una
escala social. Podemos citar muchos ejempios que muestran lo necesario que son las
estadisticas de salud, lado a lado con los métodos para su andlisis e interpretaci6n para
omentar y desarrollar una politica sanitaria adecuada. Las siguientes interrogantes y
muchas mas, que encuentran respuesta en las estadisticas de salud, son una muestra de
ellos:
12iCudl es la causa més importante de muerte én ésta regién: el cAncer?, la
tuberculosis?, los accidentes de trnsito?.
iA qué edad resulta més alta la mortalidad y por cual enfermedad?
{En qué zona, determinado tipo de enfermedad presenta una incidencia mucho mds
elevada que la incidencia promedio? ; Qué condiciones prevalecen en esas zonas?
jExisten algunas reas especificas o algunas épocas en que se registran preferen-
temente brotes de alguna enfermedad?
Algunos usos principales de las estadisticas de salud son las siguientes:
- Describir el nivel de salud de una comunidad.
- Diagnosticar las enfermedades de una comunidad.
- Encontrar soluciones a los problemas de salud.
- Determinar prioridad para los programas de salud, etc.
También en salud publica, pueden presentarse problemas que reclamen estudios
de cardcter expcrimental y por tanto, la planificacién de disefios experimentales, que se
llevan a cabo segtin determinados principios estadisticos: la evaluaci6n de la eficiencia
de una vacuna como medic: de prevenir o atenuar el efecto de una epidemia de una
enfermedad dada, o la comparacién de una nueva terapia basada en la rehabilitacién
fisica y el consejo psiquiatrico a pacientes cardiovasculares, con la terapia tradicional
sintomatica, con vistas a la aplicacién masiva de aquella que evidencia su superioridad.
Finalmente el proceso cientifico en Medicina, que tiene lugar (como en todas las
ciencias) como resultado de lainvestigacién, encuentra también en laciencia Estadistica
un instrumento de incalculable valor.
EN ECONOMIA: La estadistica constituye uno de los pilares de la aplicacién de la
teoria.econémica. Se utiliza en la descripcién de fenédmenos econémicos, en la
estimacién de las relaciones econémicas, en la verificacién de las teorias econémicas
y en la prediccion y previsi6n de las variables econémicas.
EN BIOLOGIA: La estadistica se puede utilizar para estimar el tamajio real de la
poblaci6n de una especie animal particular, la propagacién de bacterias, en mejorar la
raza de los animales.
1.41 LA ESTADISTICA EN EL DESARROLLO DE LA INVESTIGA-
CION
El desarrollo del conocimiento en la ciencia, se caracteriza porque su« jecucién se
lleva a cabo segiin un método: “El método cientifico”. La aplicacidn de est: método es
lo que diferencia al conocimiento cientifico del conocimiento ordinario.
13Las etapas del método cientifico, segiin el matematico filésofo Bertrand Russel
son tres:
1. La observacién del fenémeno que se estudia.
2. La formulacién de una (0 de varias) hipdtesis mediante la cual puedan explicarse
los hechos observados.
3. La verificacién de las hipétesis mediante nuevas observaciones.
Esta divisi6n en etapas, sugiere, que el método cientifico esté definido por un
proceso de observacién, de racionalizacién y de experimentaci6n. La estadistica desem-
pefia un papel importante en cada una de las tres etapas de que consta el método
cientifico de investigacién.
En la primera etapa interviene, mediante la presentacién, en forma sindptica y
resumida, de los resultados de la observacién, facilitando su andlisis¢ interpretacién. En
esta primera etapa, la Estadistica cumple una funcién esencialmente descriptiva.
En la segunda etapa interviene, proporcionando el lenguaje adecuado para la for-
mulaci6n rigurosa de las hipotesis de investigaci6n.
En la tercera etapa, la utilizacién del método estadistico es decisiva, no sdlo en
cuanto a la planificacién y adecuado disefio del experimento, sino también en la
seleccién del procedimiento de andlisis, y en la interpretacién de los resultados que se
obtenga al aplicar dicho procedimiento.
“El papel de la Estadistica en la investigacién es, entonces, funcionar como una
herramienta en el disefio de investigacién, en el andlisis de datos, y en la extraccién de
conclusiones a partir de ellos. Dificilmente puede preverse un papel mayor y mds
importante. . .” (BERNARD OSTLE, Estadistica Aplicada. Ed. Limusa, Wiley, S.A.).
Otras aplicaciones: Control estadistico de calidad como ya hemos indicado, en
politica se puede utilizar para orientar la estrategia electoral de un partido politico; en
educaci6n, ayuda a interpretar un test de inteligencia; en los negocios, ayuda a juzgar
respecto a la demanda potencial de un producto mediante un estudio de mercado; en la
industria, ayuda a decidir si un proceso industrial funciona 0 no adecuadamente de
acuerdo con las especificaciones; también por ejemplo a prever las averias de un taller
y disefiar el equipo de mantenimiento.
Es obvio que en cada campo se aplican o desarrollan procedimientos especificos,
como aplicaciones particulares o variantes de la teoria general. En este libro se
estudiaran los métodos estadisticos descriptivos de mds ampliaaplicacién y por lotanto,
de uso mas frecuente en los diferentes campos técnicos y cientificos, asi como algunos
de uso menos frecuente.
1.5 EL METODO ESTADISTICO
El método cientifico de investigacién se basa en dos tipos de razonamiento: el
deductivo y el inductivo. El método deductivo procede de lo general a lo particular y
14utiliza especialmente el razonamiento matematico: se establecen hipétesis generales
que caracterizan un problema y se deducen ciertas propiedades particulares por
razonamientos légicos. El método inductivo realiza el proceso inverso: a partir de
‘observaciones particulares de ciertos fenémenos se intenta deducir unas reglas genera-
les aplicables a todos ellos.
La investigacién estadistica se desarrolla utilizando el ciclo deductivo-inductivo
en las siguientes cuatro etapas:
Planeamiento del problema.
Recoleccién de la informacién.
Organizacién y clasificacién de los datos recogidos.
Anilisis e interpretacién de los resultados.
aere
a. PLANEAMIENTO DEL PROBLEMA
El primer paso de la investigacin es definir claramente los objetivos del estudio
y relacionar este objetivo con los valores numéricos de las variables observables. La
investigacién cientifica es una actividad con propésito (finalidad, meta) y como tal para
quedar entcramente caracterizado debe dar respuesta a las siguientes interrogantes
fundamentales:
1. En qué consiste el problema objeto de investigacién? 0 bien gqué se quiere
conocer?
Por qué o para qué se plantea su investigacién?
{Sobre quién recac la investigaci6n?
{Cémo se va a investigar?
{Quién va a realizar la investigacién?
{Dénde se va a realizar?
jCudndo se va a realizar?
NAVAN
S6lo cuando se est en condiciones de dar respuesta a todos y cada una de esas
interrogantes se puede redactar cl protocolo de un trabajo de investigacién, que es el
documento basico.
Los objetivos surgen al contestar la pregunta acerca de para quése va a realizar
la investigaci6n, y estén directamente vinculados a la justificacién ¢ importancia de la
investigacién proyectada.
La hipétesis, es una conjetura (0 un supuesto, o proposicidn) acerca de determinados
hechos que va mds alld (trasciende) ac los datos (cvidencia empirica) que intenta
explicar. Es decir, que una hipétesis es una herramienta en la tarea cientifica, que
pretende explicar o interpretar ciertos hechos, pero que va mds all4 de los mismos,
aspirando a dar cucnta explicativa o predecir también algunos hechos independicntes de
aquellos que los originaron.
51)Cuaniiv se ha considerado un problema cientitico y se ha logrado formular una
hipétesis en relacidn al mismo, la labor investigativa posee un grado de lucidez y de
claridad considerablemente mayor. Es precisamente esta claridad la que permite definir
los objetivos con mucha mayor precisién y orientar la realizacién de los experimentos
© la prictica de las observaciones con un alto grado de especificidad.
b. RECOLECCION DE LA INFORMACION
La recoleccién correcta de los datos es de extrema importancia para el investiga-
dor,-que tiene que ser realizada o vigilada por éste. Para remarcarlo los investigadores
han acufiado el término inglés “GIGO”, entrada de datos invalidos-salida de datos
invalidos. Esta etapa consiste en: determinar los métodos de recoleccién adecuado,
preparar los instrumentos de recoleccién, prueba del método y de los instrumentos de
recoleccién seleccionados, y realizar la recoleccién de los datos. Algunos de los
principales métodos de recoleccién se abordard en detalle en 1.6.
c. ORGANIZACION Y CLASIFICACION DE LOS DATOS
Aqui se debe hacer un andlisis de consistencia y ajuste de los datos. Se trata de
asegurar la validez y confiabilidad de los datos recopilados. Luego se debe clasificar y
tabular los datos y finalmente presentarlos en cuadros estadisticos y graficas. En el cap.
2 presentaremos en detalle cada uno de estos aspectos.
d. ANALiSIS E INTERPRETACION DE LOS RESULTADOS
En esta etapa se calculan indicadores y medidas resumen que describen al
conjunto de datos. También se establece relaciones entre variables de modelos estadis-
ticos que nos permitiran aceptar o rechazar los modelos. En este texto por tratarse de la
Estadistica Descriptiva, s6lo abordaremos los primeros, que debido a su importancia
sern tratacos en los capitulos 3 y 4.
1.6 RECOLECCION DE LOS DATOS
Desarrollaremos aqui, la segunda etapa del método de investigacién estadistica,
que comprende la recoleccién de la informacién, y fundamentalmente los principales
procedimientos y métodos que son utilizados para recolectar la informacién necesaria
para un estudio determinado.
161.6.1 ALGUNOS PROCEDIMIENTOS Y METODOS PARA RECO-
LECTAR DATOS
Existen tres métodos basicos con los cuales el investigador pucde obtencr los datos
deseados: en primer lugar, el investigador puede recurrir a datos ya publicados por
fuentes gubernamentales, industriales 0 individuales; en segundo lugar, puede disefiar
un experimento para obtener los datos necesarios, y en tercer lugar, puede efectuar una
encuesta.
FUENTES DE INFORMACION Esel lugar, la instituci6n, la persona donde estan
Jos datos que se necesitan para cada una de las variables 0 aspectos de la investigacién.
Las fuentes de datos pueden ser:
1, FUENTEDEDATOSINTERNOS Esla informacién recopilada por lacmpresa
(ola institucién) de los resultados de su propia gestién. Son pues las observaciones
queconstantemente realizan los departamentos, administrativos, contables, comer-
ciales, técnicos, etc. Estas pueden ser por ejemplo:
a. Reportes financieros.
b. Reportes de operaciones, que estan dadas por la informacién de la produccién,
ventas, compras, estados de pérdidas y ganancias.
c. Reportes especiales, es informacién adicional para andlisis especifico.
2. FUENTE DE DATOS EXTERNOS Son informaciones estadisticas claboradas
por instituciones de investigacién, ya sean publicos o privados, o dependencias es-
pecializadas, generalmente requeridos a nivel nacional o sectorial.
3. FUENTES PRIMARIAS Cuando la informacién estadistica es obtenida direc-
tamente de la unidad de observacién. Por ejemplo, los resultados de los censos de
poblacién y vivienda, indices de precios al consumidor, etc.
4. FUENTES SECUNDARIAS Cuando se obtiene informacién estadistica elabo-
tada a base de los datos de fuentes primarias.
El organismo oficial fundamental de datos estadisticos es el Instituto N::cional de
Estadistica e Informatica (INEI). Se encarga de formular y desarrollar el sistema
Estadistico Nacional, levanta los censos nacionales de poblacién y vivienda cada
10 afios y los censos econdémicos ¢ada diez afios, etc.
EI Ministerio de Industria Turismo e Integracién, elabora estadistica como:
indice de volumen fisico de producci6n, producto bruto interno, etc.
EI Ministerio de Economia y Finanzas, através de sus organismos especializados
lleva y-elabora estadistica de comercio al por mayor y al por menor, comercio
exterior (importacién y exportacién), etc.
17En general todos los ministerios tienen una oficina especializada de Estadistica.
DISENO DEEXPERIMENTO Unsegundométododerecoleccién dela informacién
escon un disefio de experimentos. Los disefios experimentales deben utilizarse siempre
que sea posible cuando se desee construir modelos explicativos, y sus estudios suelen
ser materia de textos mds avanzados, ya que implican procedimientos estadisticos
complejos.
ENCUESTAS Es el proceso de recopilar informacién a través de una muestra (en el
punto 1.6.2 veremos con mayor detalle).
1.6.2 PRINCIPALES PROCEDIMIENTOS PARA RECOLECTAR
INFORMACION EN CIENCIAS SOCIALES, SALUD, EDUCA-
CION, ETC.
Toda informacién tiene dos aspectos fundamentales: Fuente de obtencién, y
métodos para su recoleccién.
FUENTE DE OBTENCION La fuente de obtencién puede ser: primarios y secun-
darios.
PRIMARIOS Como ya hemos dicho, se recogen directamente de su origen.
SECUNDARIOS Cuando no se recogen directamente de su fuente de origen.
METODOS DERECOLECCION Cuando es utilizada una fuente primaria para re-
colectar informacién se distinguen dos procedimientos fundamentales a saber: la obser-
vacion y el interrogatorio.
DESVENTAJAS DE LA OBSERVACION
- Requiere personal especializado.
- Puede resultar ser un método demasiado care:
-. Noes conveniente cuando se estudia grandes masas humanas.
Una cuestién que invalida la observacién es cuando se requiere investigar:
- Lasmanifestaciones subjetivas de los individuos. Por ejemplo, saber si un paciente
tiene apetito.
- Ensu comportamiento pasado. Por ejemplo, enfermedades que ha padecido,
- Susactitudes futuras. Por ejemplo, qué habitos higiénicos observard cuando esté de
alta.
18VENTAJAS DEL INTERROGATORIO Como podrd observarse las limitaciones
de la observaci6n son ventajas del interrogatorio, ya que cuando se indaga el pasado o
futuro, asi como las condiciones subjetivas del individuo ofrece resultados satisfacto-
Tios.
DESVENTAJAS DEL INTERROGATORIO
- Se apela a la memoria y/o a la buena fe del interrogado.
- Produce diferentes resultados seguin el tipo de preguntas y a la manera de formular-
los.
Para evitar errores en la segunda desventaja debe observarse los siguientes
aspectos:
- Las preguntas deben ser claras y concisas.
- — Las preguntas no deben ser capciosas ni ambiguas.
- Las preguntas no deben presuponer hechos.
- Las preguntas no deben sugerir respuestas.
METODOS DE INTERROGATORIOS
El interrogatorio puede hacerse mediante dos métodos:
Método directo (se efecttia por medio de entrevistas)
Método indirecto (se efectiia por medio de cuestionarios)
La entrevista tiene una ventaja principal que la acentiia, y es que puede
completarse con la observacién directa, también tiene como principal desventaja el
hecho que la personalidad, posicién social, la inflexién de la voz, la manera de hacer las
preguntas, etc. pueden hacer variar las respuestas.
El cuestionario tiene como ventaja principal el ser mas barato. Como desventaja
solo es posible para preguntas sencillas y también en ocasiones no es devuelto por el
individuo encuestado, 0 no Ilena con todos los requisitos adecuadamente.
FRECUENCIA PARA LA RECOLECCION DE LOS DATOS
Los procedimientos para recoger la informacién, por su frecuencia, pueden
clasificarse en:
- Métodos de recoleccién ocasional: las encuestas.
- Métodos de recoleccién periédicas: los censos.
- Métodos de recoleccién continuas: los registros.
Estos métodos se diferencian entre sien una serie de aspectos importantes y que son:
19- Frecuencia de recoleccién.
- Los aspectos de cobertura.
- Los aspectos de temporalidad.
- Los aspectos de propésitos.
Veremos que la encuesta tiene una amplitud parcial, mientras que el censo y el
registro la tienen universal. Otro aspecto muy importante es que el censo y la encuesta
tienen un cardcter transversal, es decir se realiza en un determinado momento, mientras
que el registro tiene un cardctér longitudinal, o sea, se recoge la informacién a lo largo
del tiempo. Finalmente diremos, que el censo es un procedimiento que tiene objetivos
generales, mientras que el registro y la encuesta tienen objetivos especificos.
ENCUESTA Es el procedimiento de obtenci6n de informacién estructurada segun
criterios previos de sistematizacién, que se efectiia con un propésito especifico (y que
tiene alcance restringido) en un sector de la poblacién.
Ejemplo_ Encuesta nacional de propésitos multiples (ENAPROM) realizada por el
INEI en 1977 y 1978, y publicadas en 13 fasciculos por ésta institucién.
TIPOS DE ENCUESTAS:; Encuesta retrospectiva, encuesta prospectiva.
ENCUESTA RETROSPECTIVA En este tipo de encuestas se parte de datos que se
conoce y la investigacién consiste en descubrir caracteristicas de su historia. Por
ejemplo, se coge un grupo de personas afectadas con cdncer en el pulmén y vamos a
recoger en su historia retrospectivamente si tiene antecedentes de: hdbito de fumar,
riesgos industriales, etc.
ENCUESTA PROSPECTIVA. Comienza con una muestra de la poblacién estudian-
do una o més caracteristicas a uavés del tiempo. Por ejemplo, se coge un grupo de
personas, y vemos la caracteristica de hdbito de fumar: observamos si en el transcurso
del tiempo se desarrolla cancer al pulmén.
CENSO DE POBLACION Se llama al proceso de recolectar, completar y publicar
datos demogrdficos, econémicos y sociales pertenecientes a un tiempo especifico y
datos de todas las personas en un pais o un territorio determinado.
EI propésito principal de un censo de poblacién nacional consiste en satisfacer
ciertas necesidades de informacién estadistica concernientes a la totalidad de los
habitantes de un pajs con vistas a: planificacién de una serie de aspectos como son los
Tequerimientos de alimento, los mimeros de escuelas y hospitales, asi como su
ubicacién, etc.
20REGISTROS Son los procedimientos que se siguenpara conocer adecuadamente los
cambios y las estructuras de:
- Cambios en el numero de la poblacién.
- Aumento de la poblaci6n por nacimiento.
- Aumento de la poblacién por inmigracién.
- Reduccién de la poblacién por emigracién.
- — Reduccién de la poblacién por fallecidos.
Mediante los sistemas de registros se establecen asi, un proceso continuo que sigue
sin pausa los movimientos de cambio en la poblacién.
1.7 TIPOS DE DATOS
Sea cual fuere la fuente de la que obtenemos la informacién, esta pucde estar
referida a caracteristicas cualitativas o cuantitativas. Las primeras se refieren a
cualidades tales como, color: blanco, azul, etc.; estado civil: casado, soltcro, etc.;
profesién: economista, ingeniero, etc.; calidad de un producto: bueno, regular, etc. Los
segundos se refieren a cantidades tales como: estatura en cm., salario en soles, nimero
de hijos de una familia, nimero de dormitorios por vivienda, etc.
Con cada caracteristica materia de investigacién, asociamos una variable; asi,
podemos dar la definici6n siguiente.
VARIABLE Es una caracteristica de la poblacién que se va investigar y que puede
tomar diferentes valores.
Asi, por ejemplo una variable seria, las horas extras trabajadas por los trabajadores
de una empresa y los valores de esta variable vendrian dadas por las diferentes horas
trabajados por cada trabajador fuera de 1a jornada normal: ninguna, una, dos, tres, .. ..
Notacién: Las variables se denotardn por X, Y, etc.
Las variables se clasifican en: cualitativas y cuantitativas.
VARIABLE CUALITATIVA Se Ilama asi, cuando la variable esté asociada a una
caracteristica cualitativa. Es decir, son variables cuyos valores son cualidades que
presenta la poblacién.
Por ejemplo, la variable “profesién” puede adoptar las modalidades: Ingeniero,
Médico, Bidlogo, Economista, etc.
Las variables cualitativas se clasifican en: nominales y ordinales.
21VARIABLE CUALITATIVA NOMINAL Son aquellas que establecen la distincién
de los elementos en las categorias sin implicar orden entre ellas.
EJEMPLO 1.8 Clasificar un grupo de individuos por sexo: masculino, femenino; por”
su estado civil: soltcro, casado, viudo, etc.
VARIABLE CUALITATIVA ORDINAL Son aquellas que agrupan a los objetos,
individuos, en categorias ordenadas, para establecer relaciones comparativas. Es decir,
son suceptibles de ordenacién pero no de medicién cuantitativas.
EJEMPLO 1.9
a. Clasificar a un grupo de personas por su hbito de fumar. Se procede asf:
No fumadores
Fumadores leves
Fumadores moderados
Fumadores severos
b. Clasificar un grupo de individuos por su grado de instruccién. Se procede como
sigue:
Analfabeto
Primaria
Secundaria
Superior
VARIABLE CUANTITATIVA Sc llama asi, cuando la variable esta asociada a una
caractcristica cuantitativa. Es decir, estas surgen cuando se puede establecer cudnto 0
en qué cantidad se posce una determinada caracteristica.
EJEMPLO 1.10 Son variables cuantitativas: ingreso por familia, mimero de acciden-
tes de transito, longitud, tiempo, etc.
Las variables cuantitativas se dividen en discretas y continuas.
VARIABLE DISCRETA Son aquellas que surgen por el procedimiento de conteo.
Es decir, las variables estadisticas discretas suelen tomar valores enteros.
Por cjemplo, el némero de hijos por familia; el némero de estudiantes por colegio;
el numero de automéviles que pasan por una avenida en una hora; el nimero de
habitantes por distrito; etc., son variables discretas.
22VARIABLE CONTINUA Son aquellas que surgen cuando se mide alguna caracte-
ristica. Es decir, las variables continuas, pueden tomar al menos teéricamente cualquier
valor dentro de un intervalo.
Por ejemplo, el peso, la estatura, la tension arterial de las personas, los ingresos,
el tiempo de servicio, etc., son variables estadisticas continuas.
No significa que el ntiimero asignado a cada peso, estatura, etc., pueda tomar en
la prdctica cualquier valor real de un intervalo (aunque tedricamente sea asf) porque la
imprecisién de nuestras mediciones hard que en definitiva éstas vengan representadas
por valores discretos. Pero es el cardcter de posibilidad que tiene todo ntimero real de
ser asignado a una de estas variables lo que las define como continuas.
En general, todas las magnitudes relacionadas con el tiempo (edad, duracién de
un fendmeno, . . .), la masa (volumen, peso, . . .), el espacio (longitud, superficie, . . .)
© una combinacién de estos (velocidad, densidad, capacidad, . . .) son variables
continuas.
EJEMPLO 1.11 Clasifique las siguientes caracteristicas en variables cualitativas,
continuas, discretas.
a. Tiempo de servicio de los empleados de una empresa.
b. Numero de cheques girados diariamente en un mes.
c. Niimero de acciones comunes vendidas cada dia en la Bolsa de Valores de Lima.
d. Lugar de nacimiento de las personas que viven en Lima,
e. Nivel educacional y religién de las limefias.
f. Temperatura y humedad diaria de Lima.
g. Nivel educacional, estatura y color de ojos de las cajamarquinas.
SOLUCION:
a. El tiempo que cualquier persona presta servicios a una empresa esta comprendida
generalmente de acuerdo a ciertas leyes entre 0 y 30 afios. Es decir, puede ser
cualquier punto del intervalo [0, 30], al menos en teoria. Por tanto es una variable
cuantitativa continua.
b. Elniimero de cheques girados diariamente en un mes, puede ser: ninguno, uno, dos,
.. Es decir, es una variable cuantitativa discreta.
¢. También es una variable cuantitativa discreta.
d. Las personas que viven en Lima, pueden haber nacido en cualquier distrito o lugar
del pais o del extranjero. Por tanto, es una variable cualitativa.
e. El nivel educacional es una caracteristica cualitativa ordinal y la religién es
cualitativa nominal. Por tanto, las limefias son clasificadas por las variables
‘cualitativas, nivel educacional y religién.
f. Latemperatura y la humedad son variables cuantitativas continuas. Luego, Limaes
clasificada por las variables temperatura y humedad ser una variable continua.
23g- Nivel educacional y color de los ojos son variables cualitativas; la estatura es una
variable cuantitativa continua. Por tanto, Jas cajamarquinas son clasificadas por las
caracteristicas cualitativas: nivel educacional y color de sus ojos, y la variable
continua estatura.
UNIDADESTADISTICA Esel elemento u objeto indivisible de la poblacién que sera
analizado.
Por ejemplo, si se quiere estudiar la demanda del detergente X en Lima Metropo-
litana, la unidad estadistica serdn las familias.
DATOS. Son los valores recopilados como resultado de Jas observaciones de una
caracteristica o variable. Llamados también series estadisticas.
Como hay dostipos de variables: cualitativas y cuantitativas, diremos también que
hay dos tipos de datos: datos cualitativos y cuantitativos. Los datos cuantitativos, se
pueden considerar también como datos discretos y datos continuos.
PROBLEMAS 1 - 3
1. ~Puede ordenar a las personas por su estado civil: soltero (a), casado (a), viudo (a),
divorciado (a)? Justifique su respuesta.
2. En una carrera de caballos, Saltarin leg6 primero, Pintado, segundo y Ronco,
tercero. {Puede encontrar la distancia entre los caballos?. Justifique su respuesta.
3. Clasifique las siguientes caracteristicas, en variables cualitativas, cuantitativas
continuas y discretas.
a. Consumo de corriente (kw) mensual en un afiv.
‘». El nimero de tornillos de cada caja producidos en un mes.
c. Estado civil, opinién piiblica, lugar de nacimiento de las personas que viven en
el Callao.
d. Marca y pais de procedencia de los automdéviles vendidos durante el afio en el
Pond.
4. Silos tinicos valores posibles para una variable X son: 1/2, 1/3, 1/4, .. ., entonces
X es una variable continua.
5. En cada aparato que produce una empresa de equipos eléctricos se incluye una
poliza de garantia para el cliente. Ademés de validar la garantia y proporcionar a la
compaiifa cl nombre y domicilio del cliente, la péliza pide otra informacién com-
plemeni.::ia que sc empleaen los estudios de mercado. Para cada uno de los blancos
numeracs de la péliza, determine las caracteristicas mas probables de las catego-
rias que utilizard la compaiiia para registrar la informacion. En particular:
a. {Scrdn cuantitativas o cualitativas?
b. {Continuas 0 discretas?Nombre Estado civil @
Domicilio EE iD6nde se compré el equipo?
Ciudad Estado.
Cédigo Postal __._________ {Por qué compré el equipo?
Edad @ Ingreso anual @
6. 4Cudldelos siguientes enunciados representa el esquema mds exacto paraclasificar
datos?
a. Métodos cuantitativos.
b. Métodos cualitativos.
c. Una combinacién de métodos cuantitativos y cualitativos.
d. El esquema se determina sélo mediante la informacién concreta sobre la
situacién.
7. Para cada uno de los siguientes enunciados, identifique la unidad estadistica:
a. Elalcalde de una ciudad desea estimar el porcentaje de votantes en su distrito que
estard a favor de la aprobacién de una ley municipal.
b. Unacadena de supermercados desea conocer la opinién de sus empleados acerca
de un plan de seguro médico patrocinado por la compaiiia.
c. Unejecutivo de mercadotecnia de una compaiiia desea hacer una encuesta entre
los compradores para determinar su actitud hacia una nueva linea de productos.
8. Enlossiguicntes enunciados identifique usted: la poblacin, la muestra, la variable,
el tipo de variable, la unidad estadfstica, el parametro y dé una observacién.
a. Se vaa realizar un estudio de la cantidad de azticar vendida por semana, en un
supermercado de cierto sector de Lima, para el aiio 1990; para lo cual se utilizara
el promedio de ventas de ese afio, los registros se hacen en kgs. por semana.
b. Una firma industrial, comprometida en la produccién de aceros, produce
tornillos para los cuales existen estrechos margenes de tolerancia con respecto
a la anchura, se selecciona un nimero de tornillos de la producci6n diaria y se
mide cuidadosamente.
1.8 DISENO O ELABORACION DE FORMULARIOS
En toda actividad de cardcter cientifico, lo que se hace en tiltima instancia, es dar
respuestas a ciertas preguntas. De acuerdo con esto, necesitamos un documento donde
plantear preguntas y registrar sus respuestas, resultando asi que una de las primeras y
realmente mas decisiva etapa en cualquier investigaci6n es la confeccién de formula-
T1os.
25DEFINICION 1.8 Bajo la denominacién genérica de formularios, se incluye toda
forma impresa destinada a la recoleccidn de datos.
EJEMPLO 1.12 Las historias clinicas; las fichas epidemioldgicas, etc.
Los formularios recogen dos clases de datos:
Datos administrativos o de identificaci6n.
Datos sobre el problema que se estudia.
Los primeros ayudan a identificar las unidades estadisticas de observacién o
incluyen cl nombre de la persona, su edad, sexo, residencia 0 ubicacién, fecha de
realizacién del estudio, etc. Los segundos se reficren especificamente al problema que
Antes de claborar el formulario debe considerarse:
1. El propésito para el cual serd utilizado.
2. Circunstancias bajo las cuales se recogeran la informacién.
Lo primero tiene importancia para decidir sobre los datos que se recogeran y lo
segundo para la determinacién del tamaiio y del material mds conveniente.
1.8.1 PRINCIPIOS BASICOS QUE SE DEBEN TENER EN CUENTA
EN LA CONFECCION DE FORMULARIOS
1. DECIDIR SOBRE LOS DATOS QUE SERECOGERAN Entodo formulario
se debe recoger séio los datos utiles y adecuados al estudio. Formularios muy
extcnsos conspiran contra la exacta recoleccién de los datos. Es pués, entonces
convenicnte:
a. Hacer una lista de todos los datos que sean necesario recoger de acuerdo a la
finalidad del estudio.
b. Considerar cudles datos son factibles de recoger de manera fidedigna y exacto.
c. Limitar a aquellos datos practicos a recoger y que se usard.
‘JEMPLO 1.13 Averiguar si una persona es 0 no adicta a drogas, puede ser una
informacién deseable a recoger, pero es raro que las personas estén dispuestas a
suministrarlo.
2. DECIDIR SOBRE EL ORDEN EN QUESE ACEPTARANLOS DATOS Las
preguntas deben hacerse de manera l6gica y ordenada. Por ejemplo, preguntas sobre
ocupacién, educacién, vivienda y otras referentes a condiciones econdémicas y
sociales no deben estar separados.
3. CONSIDERAR COMO SE HARAN LAS PREGUNTAS:
a. Considerar si hay alguna ambigiiedad en la pregunta como consecuencia de la
respuesta recibida.
26EJEMPLO 1.14 Si queremos recoger el dato edad, debemos tener en cuenta
si se recogerd en afios cumplidos o en el cumple afios mas préximo.
b. Toda pregunta debe tener respuesta ya que seria imposible saber si una persona
posee o no cierta caracteristica, si no se obtuvo la informacién al respecto. Asi,
cada pregunta necesita una categoria final para asegurar que se dé alguna
respuesta ya sea ella desconocida, no informa, no especifica u otra.
EJEMPLO 1.15 Al preguntar si ha padecido de rubeola durante el embarazo,
no solamente debe preguntar si o no, sino también si se desconoce.
c. Debe usarse un lenguaje claro y poco técnico.
EJEMPLO 1.16 Si queremos saber si una persona padece de cefaleas frecuen-
tes, debe preguntarse si padece de dolores de cabeza frecuentes.
d. Evitar respuestas inducidas.
EJEMPLO 1.17 Ud. nunca ha padecido de tuberculosis. Con esta pregunta
estamos induciendo a la persona a que su respuesta sea negativa.
PLANEAR COMO SE ANOTARAN LAS RESPUESTAS EI espacio que se
deja debe ser adecuado para las respuestas que se esperan y siempre que sea posible
se adoptard el sistema que exige el menor esfuerzo.
EJEMPLO 1.18 a. Sexo 3b. Sexo_______ Femenino
——______ Masculino
En cl inciso (a),.se pone nombre y en el (b), se marca con una cruz, este ultimo es
de menor esfucrzo.
Puede usdrse otro. método que sea la utilizacién de un cédigo, por ejemplo, ,debe
existir una revisién periédica del salario minimo?
1. Si
2.No
0. No sabe o no opina
ELECCION DE VARIAS RESPUESTAS _Debe procurarse que sc pueda elegir
entre varias respuestas, evitando ambigiiedad u omisién de datos.
EJEMPLO 1.19 Enfermedades que usted ha padecido.
incorrect.
Aqui se deja a libre eleccién la respuesta, siendo un método incorrecto.
Es.2 debe hacerse de la siguiente manera:
sarampién
varicela
bronquitis_______.__== ete.
27El entrevistado marca entonces sélo las enfermedades que ha padecido y las cuales
se desca recoger.
6. DETERMINAR LAS CARACTERISTICAS DEL FORMULARIO Decidir
sobre la forma, tamaiio, color, etc., del formulario de acuerdo a algunas interrogan-
tes como:
{Quién recogerd la informacién? {De quién se recogerd la informaci6n? ;Cudndo
y d6nde se registrard los datos? 4C6mo se procesar la informacién?
7, REALIZAR ESTUDIO PILOTO Debe realizarse un estudio piloto antes que el
formulario sea impreso de manera definitiva, con el fin de probarlo y ver la
operatividad del formulario y para darse cuenta de las fallas que pueda tener y hacer
las correcciones necesarias.
8. REDACTAR LAS INSTRUCCIONES NECESARIAS Aunque se debe tratar
que cada pregunta sea autoexplicativa, de ser necesario, debe redactarse las instruc-
ciones de cémo anotar las respuestas. Estas pueden imprimirse en el mismo
formulario o aparte cuando son muy extensas.
19 VENTAJAS DEL EMPLEO DE MUESTRAS
En ocasiones, el muestreo es una necesidad, como cuando estamos en presencia
de poblaciones virtuales o infinitas, o poblaciones finitas grandes. También es obligado
en situaciones como las que se presentan, digamos, en el control decalidad de productos
farmacéuticos, en que el examen del producto hace que haya que desechar luego de
efectuado el control. En otras ocasiones, muestrear constituye una alternativa frente al
estudio de todo el universo. La alternativa de muestrear es generalmente favorable,
porque ella significa un ahorro en tiempo, recursos y esfuerzo. *
1.10 DESVENTAJA DEL EMPLEO DE MUESTRAS
Una de las principales desventajas, es que el empleo de muestras introduce el
llamado error de muestreo, que tiene su origen en la variabilidad de los elementos que
componen la poblacién, muestras del mismo tamafio arrojan resultados diferentes.
Supongamos, por ejemplo que tenemos una poblacién formada por cuatro
personas, Cuyas estaturas en centimetros son 158, 160, 166 y 172, respectivamente. La
talla promedio de las personas de esta poblacién es de
— 158+ 160 + 166 + 172
4
Si no se conociera dicho promedio poblacional, podriamos estimar esta estatura
promedio con una muestra, por ejemplo de sélo dos individuos. Los resultados seria
como se muestra en el cuadro siguiente.
uw = 164 centimetros
28valores muestrales estatura promedio
18+ 160 _ 159
158 + 166 _ 169
2
158 +172 _
158+ 172 -
160 + 166 _
nore
160+ 172 _
+17
166 + 172
2
158, 160
158, 166
158, 172
165
160, 166 163
166
160, 172
166, 172 = 169
Como vemos, a cada muestra correspende un valor promedio diferente, y
diferente a su vez, del verdadero promedio de la poblacién. Esta diferencia entre el valor
promcedio que arroja la muestra y el valor promedio de la poblacién, se llama error de
muestreo.
Nota: Es importante sefialar, que el término “error”, como puede apreciarse en el
ejemplo anterior, no se usa como sindénimo de equivocaci6n, sino que ticne una con-
notacién completamente diferente.
Aunque el error de muestreo no puede conocerse exactamente (porque para ello
habré que conocer el valor poblacional, y en ese caso no seria necesario seleccionar
muestra alguna), si puede calcularse indirectamente por procedimientos estadisticos. El
error de muestrco, desde luego, sdlo puede estimarse a condicién de que la muestra sea
adecuadamente seleccionada, y ademas, puede disminuirse tanto como se desce,
aumentando el tamaiio de la muestra. Este hecho hace que el mucstreo sea un arma muy
poderosa y por consiguiente, una alternativa a valorar particularmente cuando se trata
de poblaciones grandes cuyo estudio exhaustivo es dificil y costoso.
1.11 CONDICIONES DE UNA BUENA MUESTRA
Aunque cualquier parte o subconjunto de una poblacién constituye una muestra,
parece intuitivamente evidente que no cualquier mucstra resulta util para hacer inferen-
cias adecuadas en relacién con la poblacion, Las muestras deben cumplir determinadas
condiciones. Podriamos decir que estas son dos:
291. La relativa al tamafio muestral, y
2. La calidad muestral
Delo que sc trataa menudo es pues, de tener una muestra suficientemente grande,
pero no mayor de lo necesario. Esto depende generalmente de la frecuencia con que el
fendémeno 0 caracteristica en estudio se encuentre en la poblacién y de la variabilidad
de ésta.
Sin embargo, el tamaiio por si solo no puede garantizar que la muestra sea Util 0
adecuada. Por ejemplo, pensemos lo que ocurriria si para estudiar la presencia de “el
célera” en la poblacién de la ciudad de Lima, tomarfamos una muestra del cercado de
Lima. Esta muestra, atin cuando fuese tan grande que cubriera toda la poblacién del
cercado, no seria una muestra representativa de la poblacién. Entonces, la condicién de
calidad s6lo se garantiza con muestras representativas, que son las que reproducen las
caracteristicas esenciales que posee la poblacién que se desea estudiar, y con muestras
exentas de errores sistematicos, que son originados al no tener en cuenta determinados
principios de seleccién.
1.12 TIPOS DE MUESTRAS
Existen basicamente dos clases de muestras: muestra no probabilfstica y muestra
probabilistica.
MUESTRA NO PROBABILISTICA Llamada también muestras de convenienciao
de juicio, se basan en el conocimiento y la opinién personal para identificar los
elementos de la poblacién que van a incluirse en la muestra. Una muestra seleccionada
a juicio se basa en el conocimiento de la poblacién por parte de una persona que
generalmente es un experto en la materia.
MUESTRAS PROBABILISTICAS Son aquellas en que todos los elementos de la
poblacién tienen una posibilidad (una probabilidad conocida) de ser incluida en la
muestra. Naturalmente noes necesario que todos tengan la misma posibilidad, basta que
tengan alguna posibilidad.
1.12.1 METODOS PARA OBTENER MUESTRAS PROBABILISTICAS
Ya sabemos que las muestras probabilisticas son aquellas en que todos los
elementos de la poblacién tienen una probabilidad conocida de ser seleccionados. A
continuacién veremos algunos de los procedimientos mas usuales para la seleccién de
muestras probabilisticas. Existen al menos cuatro métodos cominmente utilizados:
Muestreo aleatorio simple, Muestreo sistemdtico, Muestreo estratificado y Muestreo
por conglomerados.
301.12.11. MUESTREO ALEATORIO SIMPLE
Este método o esquema de muestreo, se caracteriza porque todos los elementos de
Ia poblacién tienen Ia misma probabilidad-de ser incluidos en la muestra, 0 en otros
términos, porque todas las posibles muestras de un tamaiio fijo son igualmente
probables.
Una manera sencilla aunque poco practica de obtener una muestra aleatoria es la
técnica “de la urna” (0 de la pecera). Consiste en colocar en una urna o pecera, fichas
con los nombres o niimeros de cada elemento de la poblacién y luego de mezclarlos ade-
cuadamente, se extrae tantos elementos como haya de tener la muestra que se ha deci-
dido escoger. Debido a esta mezcla cuidadosa antes de cada extraccién, cada elemento
tiene la misma posibilidad de ser seleccionado.
TABLA DE DiGITOS ALEATORIOS Otro procedimiento ae extraer una muestra
aleatoria simple, es empleando una tabla de digitos aleatorios, e! cual puede construirse,
empleando e! método de la urna con 10 tarjetas numeradas: 0, 1,2,... ,9. Después que
se mezclan las tarjetas, se extrae aleatoriamente una taryeta y se registra su nimero. La
tarjeta se reemplaza antes de la extraccién siguiente, se mezclan bien las tarjetas y asi,
sucesivamente. En la practica, esto se realiza mediante una computadora, por un
procedimiento completamente al azar. Cada pagina de estas tablas contienen los digitos
agrupados en filas y columnas para facilitar su eleccién. .
USO DELA TABLA DEDIGITOS ALEATORIOS Para utilizar esta tabla, se hace
Jo siguiente:
1. Seenumera los elementos de la poblacién con igual némero de digitos queel tamafio
N de la poblacién. Por ejemplo, si tenemos 120 empleados de una compaiiia y
deseamos entrevistar una muestra de 20 de ellos seleccionados al azar. Entonces,
primero debemos enumerar la poblacién N = 120 con ntimeros de tres digitos: 001,
el primer elemento de la poblacién, 002 al segundo, y asi sucesivamente, el nimero
119 al 119 avo y 120 al N-ésimo.
2. Conel propésito de extraer la muestra al azar, se establece un punto de partida al
azar en la tabla de niimeros aleatorios (TABLA I al final del libro). Un método es
cerrar los ojos y rayar con un lapiz la tabla y empezar de ese punto la Icctura de la
muestra, hacia arriba, abajo, derecha o hacia la izquierda. Supongamos que se
Siguié ese procedimiento y se seleccioné como punto de partida la fila 19, y columna
3. Suponga también que se decidié leer hacia abajo; y leemos sdlo los tres primeros
digitos de cada rengl6n. Notese que nuestro primer nimero usando éste método sera
055, el segundo 048, el tercero 069, y asi sucesivamente: 041, 020, 066, 074, 054,
035, 059, 079, 102, 034, 081, 099, 073, 101, 097, 090 y 031.
Note que se descarta toda la sucesién de nimeros de tres digitos mayores que N
(en nuestro caso mayores que 120).
31Si en el proceso de eleccién se repite el ntimero (de tres cifras en este caso), se
volver a incluir en la muestra el elemento de la poblaci6n correspondiente a ese
nimero, si el muestreo es con reemplazo y se descarta si el muestreo es sin reemplazo
como en nuestro ejemplo.
1.12.12, MUESTREO SISTEMATICO
En éste procedimiento, se selecciona una muestra, tomando cada k-ésima unidad
de la poblacién una vez que las unidades de muestreo estén numeradas 0 arregladas en
alguna forma. El nimero k es la raz6n de muestreo; esto es ia razén del tamafio de la
poblacién N al tamaiio de la muestra n(k = N/n). Por ejemplo, si se vaa seleccionar una
muestra de 50 unidades a partir de una poblaci6n de tamafioN = 1000 unidades, entonces
k = 1000/50 = 20. Luego la muestra se obtiene tomando cada 20-esima unidad de la
poblacién.
Se puede utilizar el procedimiento de la urna para determinar con cudl de las
primeras 20 unidades empezar. Si se selecciona la unidad- 15 ésima como inicio
aleatorio, entonces la muestra incluird a las unidades 15, 35, 55, 75,. .. 995 - ésimas.
Por razones obvias, este procedimiento sistematico s6lo se puede aplicar cuando el
marco de muestreo es homogéneo.
1.12.13 MUESTREO ESTRATIFICADO
Esta se usa cuando la poblacién no es homogénea, sino que pueden en ella
identificarse clases definidas por algiin atributo o caracteristica relacionada con la
variable que se estudia.
Este procedimiento implica djvidir fa poblacién en clases o grupos homogéneos
relativos a las caracteristicas que van a estudiarse, llamados estratos. Después se toma
una submuestra de cada estrato de una de las formas posibles: O bien seleccionamos al
azar en cada estrato un nimero especificado de elementos a la proporcién del estrato de
la poblacién total o bien extraemos un nimero igual de elementos de cada estrato y
damos un peso a los resultados de acuerdo con la proporcién del estrato en la poblacién
total. En uno y otra forma, el muestreo estratificado garantiza que todos los elementos
dela poblacién tengan una posibilidad de ser seleccionados. Algunas veces las unidades
ena muestra de cada estrato estd relacionado inversamente con la homogeneidad de las
unidades en el estrato; mientras mas homogénea sea el estrato, menor serd la proporcién
incluida en la muestra. La raz6n es que cuando las unidades en un estrato son mds
homogéneas, resulta suficiente una submuestra m4s pequefia para asegurar la represen-
tatividad. En consecuencia el costo del muestreo se reduce.
Las ventajas del muestreo estratificado sobre el aleatorio simple son fundamen-
talmente dos:
1. Se obtiene informaci6n separada para cada uno de los estratos.
322. Se evita el riesgo de que determinado estrato quede inadecuadamente representa-
do.
1.12.14 MUESTREO POR CONGLOMERADOS
Se usa en poblaciones grandes y muy dispersos desde el punto de vista geografico,
y en las cuales el muestreo aleatorio simple seria poco econémico debido a que daria
lugar a muestras igualmente dispersas.
En este tipo de muestreo, en lugar de seleccionar directamente los elementos de
la poblaci6n se hace una seleccién inicial de grupos o conglomerados, que son agru-
paciones de elementos que deben ser lo mds heterogéneo posible a diferencia de los
estratos, de suerte que cada una de ellas resulte una réplica reducida de la poblacion, la
muestra general esta formado por todas o por una submuestra de las unidades en cada
conglomerado.
Estos tipos de muestras se emplcan solos 0 combinados, en etapas multiples, con
restricciones y en consideraciones tales como el costo.
El uso de uno 0 de otro, depende de las caracteristicas de la poblacién y de las
condiciones en que se encuentre, buscando siempre la mayor representatividad de la
muestra y la simplificacién del trabajo, de forma que haga,posible la realizacién del
mucstreo con calidad y a un costo moderado.
PROBLEMAS 1-4
1. Conteste si es verdadero o falso cada una de las siguientes proposiciones:
a. Cuando una muestra contiene las caracteristicas relevantes de cierta poblacién
en la misma proporci6n en que figuran en esta ultima, se dice que es una muestra
representativa.
b. Cuando los elementos incluidos en una muestra se basan en el juicio del indi-
viduo que toma la muestra, se dice que es no aleatoria.
c. Un plan de muestreo que seleccione miembros de una poblacién a intervalos
uniformes en el tiempo, orden o espacio recibe el nombre de muestreo estratifi-
cado.
2. Son representativas las siguientes muestras? Explique:
a. El editor de una revista desea predicir el resultado de la siguicnte eleccién
presidencial y con esta finalidad entrevista a 1000 suscriptores de su revista para
determinar sus preferencias al votar.
b. Se entrevista a los estudiantes de una clase de estadistica acerca de sus actitudes
hacia la legalizacién del aborto; sus respuestas se utilizaran para predecir la
opinion de la comunidad universitaria en lo referente a este problema.
3. Unaorganizaci6n no lucrativa esta efectuando una encuesta domiciliaria de opinion
sobre los servicios que presta la municipalidad a la comunidad. La organizacién ha
3334
ideado un esquema para realizar el muestreo aleatorio de las casas y planea efectuar
fa enc uesta los dias laborales de las 12 del dia a las 5 de la tarde. Producird este
esquema una muestra aleatoria?.
{Dcberia utilizarse muestreo estratificado o muestreo por conglomerados, y cémo
para obiener una muestra aleatoria en cada una de fas siguientes situaciones?
a. Se realiza un estudio para determinar el patron de gastos familiares en cierta
ciudad,
b. Sc realiza una encucsta para determinar la actitud de los estudiantes universita-
rios del Peri, con respecto a la pena capital.
El centro de estudiantes de la Facultad de Ingenieria Mecénica informa que el 50%
de las alumnas de la Facultad se han casado con sus profesores, {Existe algin
defecto en tal informacién?. Explique.ORGANIZACION Y
CLASIFICACION DE DATOS
2.1 INTRODUCCION
Frente a un conjunto de datos, el primer paso a dar, debe ser expresarlo y
clasificarlo de acuerdo acriterios convenientes, en alguna forma simple que permita ver
rapidamente todas las caracteristicas posibles para obtener conclusiones ttiles, ya sea
directamente o por medio de cAlculos posteriores. Se consideran los siguientes pasos:
1. Revisidn y correccién de los datos.
2. Construccién de tablas de frecuencias.
3. Representacién tabular o cuadros estadisticos y grafica.
2.2. REVISION Y CORRECCION DE LOS DATOS
Ningiin andlisis estadistico, por acabado y seguro que sea, es capaz de suministrar
respuestas adecuadas a un problema en estudio, si aquel sc basa en una informacién
incorrecta. De aqui que la revisi6n y ta correccién de la informaci6n recolectada debe
ser obligatoriamente el paso previo a la clasificacién y computacién de los datos.
Una regla empirica ampliamente contrastada (Huber 1984) es esperar entre un 2
y un 5% de observaciones con errores de medicién, transcripcién, etc. Por tanto antes
de utilizar los datos muestrales conviene aplicar técnicas simples para probarlos, como
dar respuestas a las siguientes preguntas:
35{. ;Los datos apoyan o contradicen otra evidencia que tengamos?
dEs légica la conclusién? ¢Hemos obtenido conclusiones que no estén sustentados
por los datos?
{Cudntas observaciones se tiene? ¢Ellasrepresentan a todos los grupos que se desea
estudiar?
2.3 TABLAS DE DISTRIBUCION DE FRECUENCIAS
Si los datos que se dispone son numerosos, es indispensable clasificarlos en un
~uadroo tabla resumen de las observaciones originales, alas que en adelante llamaremos
‘Tabla de distribucién de frecuencias 0 simplemente Tabla de frecuencias.
2.3.1 DATOS DE VARIABLES DISCRETAS
Scan x,,X»)...,X, un conjunto de n observaciones discretas y SCAM Y,, Yor ++ +» Yn
cl conjunto de valores diferentes que toman los datos originales (m
=010; hy=35 37 3p 0-20: = 35
hl=
5 = 0.16.
gfe i
7. Las frecuencias relativas acumuladas MENOR QUE, que faltan son:
H, =h,=0.10; H,=H,+h,=0.10+0.15=0.25, — propicdad 2.10 y 2.13
H, =H, + h, = 0.25 + 0.2 = 0.45
H, = H, + h, = 0.70 + 0.20 = 0.90
H, =H, +h, = 0.90 + 0.10 = 1.0
Por tanto la Tabla de Distribucion de frecuencias completa es la siguiente:
TABLA 2.5
Totales} 20 | 1.00
EJEMPLO 2.3 Un ingenicro agrénomo visita 25 cooperativas agrarias de naranjas en
el valle de Huaral y en cada una anoté el ntimero de plantas atacadas por cierto hongo,
de lo cual resultaron los datos siguientes:
4815, 20, 25, 15, 18, 16, 17, 18, 20, 18, 18, 18, 19, 16, 17, 19, 16, 17, 17, 17, 19, 18,
19, 18, 15
a. Diga qué tipo de datos son estos.
b. Construya una tabla de distribucién de frecuencia adecuada a este conjunto de
valores.
c. Cudntas cooperativas agrarias tienen a lo mds 20 plantas atacadas por hongos?
d. ;Cudntas cooperativas agrarias tienen por lo menos 17 plantas atacadas por hongos?
e. {Qué proporcién de cooperativas bajo estudio tienen 18 plantas atacadas por
hongos?
f. Qué proporcién de cooperativas tienen 18 o menos plantas atacadas por hongos?
g- Qué porcentaje de cooperativas tienen 18 o menos plantas atacadas por hongos?
SOLUCION:
a. Puesto que los datos se obtienen como resultado del conteo de plantas atacadas por
hongos, estos son discretos.
b. 1. El conjunto de observaciones es de tamafio 25, luego n = 25.
2. Los diferentes valores de la caracteristica observada son:
y, = 15, y,= 16, y,=17, y, = 18, y, = 19, y,= 20, y, = 25
Es decir, m = 7.
3. Conteo: secuentael nimero decooperativascon 15, 16, 17,18, 19,20 y25 plantas
atacadas por hongos respectivamente. Asif, el niimero 15 aparece 3 veces en el
conjunto de datos, luego n, = 3; el nimero 16 aparece también 3 veces, entonces
; el mimero 17 aparece 5 veces, luego n, = 5; el 18 aparece 7 véces, osea
n,= 7; el 19 aparece 4 veces, es decir; n, = 4; el 20 aparece dos veces, luego n,
= 2; y finalmente el 25 aparece una vez, 0 sean, = 1.
4. La frecuencia relativa de y,,i= 1,2,... ,7, son:
4950
5. Las frecuencias absolutas acumuladas para y,, i= 1, 2,..., 7, estén dadas por:
N,=9,=33 N,=N, +n, =18+4= 22;
N,=N, +n ,=3+3=6; N,=N,+n,=224+2=24
N,=N,+n,=6+5=1; N,=n=25.
N,=N,+n,=11+7=18;
Nis n= 25; TEN,
ND =Ni-n, = 25-3=22; SENS
NU=Nj-n,=22-3=19; Ni =Ni-n,=3-2=n,=1
NU =Nj-n,=19-5=14
6. L.» irecuencias relativas acumuladas para y,, i= 1,2,...,7 son:
H,=h,=012;
H,=H,+h,=0.12+ 0 12= 0.24;
H,=H,+h,=0.24+020=0.44;
H,=H, +h, =0.44+ 0.28= 072;
H =H, +h, = 0.72 + 0.16 = 0.88 ;
H =H, +h, = 0.88 + 0.08 = 096 ;
H,=H,+h,=0.96+ 004=1.
H=1;
H) =H) -h,=1-0.12= 0.88;
H) =H} -h, = 0.88- 012 = 0.76;
H) =H) h, = 0.76- 020-056;
Hiss h,= 056-028 = 0.28;
Hi = Hy - hy = 0.28- 016 = 0.12;
H’ = Hi) -hp=0.12-0.08=0.04=h,.Portanto, losdiferentes tiposde tablas de distribucién de frecuencias que se puede
confeccionar para el mismo conjunto de datos est4 dado en la Tabla 2.6
TABLA 2.6 DISTRIBUCION DE FRECUENCIAS DEL NUMERO DE
PLANTAS ATACADAS POR EL HONGO
Valores | Frecuen- | Frecuen- | Frecuen-
diferentes | cia abso- | ciarelati- | cias abso-
observa- | luta lutas acu-
muladas
menor que
Frec. ab-| Frec. rela-
solutas
acumula-
das ma-
yor que
c. Elndmero de cooperativas que tienen a lo m4s 20 plantas atacadas por hongos es
N,=24.
d. Elndmero de cooperativas que tienen por lo menos 17 plantas atacadas por hongos
es N*= 19,
e. La proporcién de cooperativas en la muestra que tienen 18 plantas atacadas por
hongos, es h, = 0.28, la cual expresado en porcentaje es 28%.
f. La proporcién de cooperativas que tienen 18 0 menos plantas atacadas por hongos
es H, = 0.72.
g. E1100 H,% = 72%
NOTA 2.1 Discutiremos brevemente la utilidad de la construccién de una tabla de
distribucién de frecuencias. Claro esté que con nuestros ejemplos, donde sdlo hemos
considerado unos cuantos datos por el problema de simplificar los cdlculos, es posible
que éste procedimiento no muestre aplenitud todas sus ventajas; no obstante con un poco
de imaginacién por paste del lector, las experiencias que se deriven de estos ejemplos
51se puede facilmente extender a otra situacién donde el nimero de datos sea mayor. De
este modo, a partir de la Tabla 2.6, donde se brindan las diferentes variantes de tablas
de frecuencias que se pucde construir parael ejemplo 2.3, a parte de las preguntas yacon-
testadas, es posible extraer, por ejemplo conclusiones como las siguientes:
I. Noexisteen gencral grandes diferencias en cuantoa nimero de plantas atacadas con
hongos en las 25 cooperativas. El ntimero de plantas atacadas que més se repite es
18, ya que hay 7 cooperativas que poseen esta cifra. (Esta dado por la frecuencia
absoluta del valor 18).
2. Sise tienen criterios sobre el nimero de plantas atacadas con hongos que debe tener
cada cooperativa para ser declarada en emergencia por el Ministerio de Agricultura,
digamos que este ntimero fuese 100, de los datos de la tabla se puede apreciar que
todas las coopcrativas estin por debajo de este ntimero, por tanto noserdn declarados
en emergencia.
OBSERVACION 2.1 El lector observard que la construccién de tablas de frecuencias
para datos discretos, no es mas que un procedimiento mediante el cual se ha condensado
la informacién contenida en el conjunto original. Decimos esto porque del conjunto
original de n observaciones hemos pasado a considerar un conjunto mas pequefio
compuesto sélo por m valores (m < n) diferentes (y,). Ahora bien, este procedimiento
que conduce a la construccién de una tabla de frecuencias, no implica pérdida de
informacién contenida en cl conjunto de observaciones originales, ya que a partir del
conocimiento de las y,, i= 1,2, ...,m_y sus respectivas frecuencias absolutas, se puede
construir el conjunto original de los valores de estas observaciones sin tener en cuenta
el orden de aparicién de éstas. Es decir, dada una tabla de frecuencias de este tipo,
podemos saber la cantidad de veces que cada valor diferente debe aparccer en el conjunto
original y asi cnumerar cada uno de ellos; si el orden de apariciGn no es importante,
entonces pucde asegurarse que se conoce completamente el conjunto original de
observaciones.
2.3.2. DATOS DE VARIABLES CONTINUAS
Designaremos también el conjunto original de datos u observaciones por Xi) Xa
- ++ +X,, Siendo n el tamaiio del conjunto (Tamafio muestral) y donde estos datos son del
tipo continuo. En este caso debido a que la magnitud de la caracteristica puede omar,
al menos te6ricamente, una infinidad de valores, el proceso de reduccién, agrupacién
© condensacién de los datos originales, que conducen a la construccién de tablas de
frecucncia, no cs tan simple como en el caso de datos discretcs y no se puede proceder
como en cl caso ya estudiado; es mas bien un problema de clasificacién de datos donde
la subjetividad del hombre tiene una influcncia que no debe ignorarse.
52DEFINICION2.9 Se llamaclasesacada uno de los gtuposen quese divide el conjunto
de datos.
El primer paso a dar para resolver este problema de clasificacién, es decidir cudles
y cudntas han de ser las clases a considerarse. Para ello normalmente se empieza por
determinar la observaci6n que tiene el valor maximo “x,,,”, y la observacién que tiene
el valor minimo “x,”
Es decir
Xmax = max {x/i=1,2,...,n),x,,,=min (x/i=1,2,...,0};
estos valores extremos definen el recorrido o rango del conjunto de observaciones, el
cual est4 dado por el intervalo [x,,.5 Xnu,]-
min
Fig. 2.1
DEFINICION 2.10 Amplitud del recorrido (£), es la longitud del recorrido del
conjunto de datos. O sea
una vez determinado el nimero de clases en que se dividird los datos, digamos m, el cual
puede hacerse con cierto grado de arbitrariedad, pues depende del problema en cuesti6n
y en tiltima instancia del investigador o del estadistico (esto lo comentaremos mas
adelante de modo general), se divide el recorrido del conjunto de datos en tantos
intervalos como clase se desee, que en adelante llamaremos intervalos de clase (0
simplemente clase). En la practica se suele dividir no exactamente el recorrido [X i.) Xmax!
sino un intervalo minimo [x’,,,,, X’,,,,] que contenga a dicho zecorrido, cuyos extremos
sean niimeros que faciliten esta operacién y de manera que la amplitud ¢' del nuevo
recorrido sea miltiplo del nimero de clases m.
Ix 3X
min? ™ max
Je De, + Xp
Notacion: Sea m el numero de clases y Yp Yor Wy los extremos 0 limites de
los intervalos de clase, entonces
53denota el i-€simo intervalo de clase. Donde y;_, eselextremo inferior, y} el ex-
tremo superior del intervalo.
Unintervalo de clase, que al menos teéricamente no tiene limite inferior o superior
se llama intervalo de clase abierto.
DEFINICION2.11 Amplitud de clase es la longitud del intervalo que define la clase.
Es decir
Asi, cayyn % es la longitud del primer intervalo de clase;
C,=Y¥-Y¥} _ eslalongituddel segundointervalodeclase;
etc.
Si los intervatos tienen igual longitud digamos “c”, es decir
c=y-y para todoi =1, 2,...,m
1
entonces,
CONSTRUCCION DE LOS INTERVALOS DE CLASE Los intervalos de clase
se construyen partiendo de x, (0 x’,,,,), luego se va asignando consecutivamente a las
clases, los limites inferior y superior de clase (y' 174 ) , de la siguiente manera:
i-
limite inferior limite superior
primer intervalo de clase: ¥§ = * nin Y= Xan TORYVUtS
I i me eS =y
segundo intervalo de clase: y\ = x _..+¢ Y= Xia t 2c yyte
-ésimo inte: ce _ 7 =
m-€simo intervalo de clase: y 1 =X min FM WC Y= X it MC Xray
Los intervalos de clase de amplitud diferentes se construyen en forma similar.
DEFINICION 2.12 La marca de clase es el punto medio del intervalo que representa
a dicha clase. Se denota por “y,”, i= 1, 2,..., m. Es decir,
54DETERMINACION DE LA FRECUENCIA ABSOLUTA Se pasa finalmente a
determinar el nimero de observaciones (frecuencia absolutan,) del conjunto original (x,,
Xy +++ »X,), que pertenecen a cada intervalo de clase. Este proceso se conoce como la
operacién de conteo. Consiste en tomar cada una de las observaciones registradas y
asignar una “tarja” a la clase a la cual pertenece (método de los “palotes”. El nimero de
tarjas es la frecuencia absoluta de clase. El concepto de frecuencia absoluta es la misma
que la definici6n 2.1, s6lo que en este caso se refieren a las clases y no a los valores y,.
Para que no queden dudas damos la definici6n siguiente.
DEFINICION 2.13 La frecuencia absoluta (n,) de la clase i-ésima, es el mimero de
observaciones del conjunto original que pertenecen a dicha clase. Entonces, la tabla de
distribucién de frecuencias tiene la forma siguiente.
TABLA 2.7 DISTRIBUCION DE FRECUENCIA
intervalo de clase frecuencia absoluta
yi o-y! de clase n i
1 i
OBSERVACIONES:
2.2. En situaciones especiales se podrd tener intervalos de clase de amplitud diferentes.
Esto depende del problema en cuestién y del criterio del investigador. Desde que
la teorfa para tablas con amplitud de clase diferentes es la misma que la teoria con
amplitudes iguales, en gran parte de las aplicaciones de este texto se limitara al
estudio de esta Ultima.
552.3, Cuando es conveniente ampliar laamplitud del recorrido de tal manera quec resulte
un ndimero “manejable” en futuros c4lculos, esta ampliacién en lo posible debe
hacerse en forma siméurica, es decir a la izquierda de x,,, y a la derecha de x,, ..
Aclararemos esto en el ejemplo 2.4.
2.4. Respecto al numero de clases (m) no existe un concenso undnime entre [os autores.
Bradfor Hill sefiala que debe tomarse un mimero de clases comprendido entre 10
y 20, mientras que Camel indica que el némero apropiado es entre 8 y 15. Sin
embargo, el sentido comin nos dice que el nimero de clases no deben ser pocas
debidoaque lacondensacién seriamucha y conello habrian pérdidas de informaci6n
fuerte en relacidn con la contenida en el conjunto de datos originales. Por otra parte,
unndimeroexcesivodeclases, sibien produce pocapérdida de informacién noreduce
osimplificael trabajo, siendo en ocasiones preferible el trabajo com los propios datos
originales. También algunas pueden resultar vacias, es decir, con frecuencia nula.
Daremos a continuacién algunas reglas frecuentemente utilizadas:
a. Tomar el niimero de clases (m) igual al entero mas préximo a 2Vn_ ,sien-
do n el néimero de datos.
b. m2 ‘V/n,, donde nes el niimero de observaciones.
c. Regla de Sturges: m = 1 + 3.3log(n), con n el niimero de observaciones.
En general se recomienda que ei ntimero de clases esté entre cinco y veinte.
S5
con esta alternativa cada clase excluye la observacién que coincide con su limite
superior.
NOTA 2.2 Se debe destacar que lo anterior es pura notacién y que no afecta la amplitud
de clase ni la marca de clase.
CONVENCION Enel desarrollode este texto porcriteriode uniformidad, asumiremos
la tercera alternativa. Evidentemente se puede tomar las otras alternativas, esto queda
acriterio del especialista.
REGLA GENERAL PARA ELABORAR LAS DISTRIBUCIONES DE FRE-
CUENCIA
1. Decidir el nimero m de clases a considerar, de acuerdo con la observacién 2.4.
2. Determinar el recorrido 0 rango de los datos y la amplitud (¢ ) del recorrido.
3. Determinar, la amplitud o longitud de los intervalos de clase. En lo posible es
conveniente que los intervalos de clase sean de igual amplitud (c), la cual est dado
por
c=e/m
Siesto noes posible, utilizar intervalos de clase de diferente tamafio o intervalos de
clase abiertos.
4. Determinar los limites de clase, de manera que cada observacion se clasifique sin
ambigiiedades en una sola clase.
5. Se determina las marcas de clases.
6. Finalmente se halla la frecuencia absoluta de cada clase.
EJEMPLO 2.4 Supongaquese han registrado 50 observaciones referentes a los pesos
de 50 lingotes de acero producidos por SIDERPERU, la muestra fue obtenida de la
produccién semanal y las unidades estén dadas en Kg.
94.3 93.0 95.5 95.3 924 944 928 93.2 93.6 95.5
92.9 93.6 95.7 938 948 93.9 92.7 916 93.6 93.7
94.2 95.7 94.7 94.3 92.7 94.5 96.2 954 93.7 91.9
94.7 92.7 95.0 93.0 92.9 93.7 92.7 93.3 946 96.4
94.1 93.7 94.2 93.7 94.0 93.9 93.6 946 923 944
57a. Clasificar estas observaciones en una tabla de frecuencias con 5 clases de igual
amplitud.
b. Interpretar cada n,.
SOLUCION: a.
1. Por datos; m= 5.
2. Del conjunto de datos x,,, = max {X,,X,,.. +, Xs} =96.4 y x,,, = min (x,,X,,...
+ Xsq} = 91.6, luego el recorrido de los datos es [91.6, 96.4] y la amplitud es
2 =964-916=48
3. De (1) y (2) la amplitud de clase constame seré c= 4 = 4.8 - 0 96, un ni-
mero como este es dificil de manejar, por eso al igual que ud. preferimos trabajar
con el entero mds préximo c = 1. Para esto ampliamos el recorrido de los datos si-
métricamente a izquierda de x,,, = 91.6 y a derecha de x, = 96.4, de manera que
contenga al recorrido original (91.6, 96.4] y cuya amplitud sea miltiplo de m = 5,
en este caso puede ser ¢ = 96.5 - 91.5 = 5, donde Xan = 91S y x’, = 96.5
4. Determinaremos ahora los limites de clase:
¥o= X nin = ILS y,=¥,+ c= 93.54+1=94.5;
Y,=Yp + C= 91.5 4+1= 92.5; y,=y¥,+ c= 9454+1= 95.5;
yp=yte=9254+1=935 yy sy), +¢=95.5+1= 965.
5. Se halla las marcas de clases:
— 915 +92.5 _ . — 945+95.5 = .
Y= 920 Y= a 95.05
92.5 +93.5 . _ 955+965 _
Y= = 98.05 y,=— > = 6.0.
— 93.54+94.5 _ P
y= Reh = 4.0;
6. Finalmente se determina la frecuencia absoluta de cada clase, de acuerdo a lo
expresadoen la pégina 55 y teniendo encuenta queestamos considerando intervalos
de clase abierto a la derecha y cerrados a izquierda, es decir
Yi yi
ind i
. '
Lyi. ¥,>
Por ejemplo, el valor 94.5 estard en la cuarta clase.Se procede como sigue: Se toma la primera observacién 94.3 y se buscael intervalo
de clase aque pertenece, esel 93.5 -94.5, luego se asigna una tarjaen la intersecci6n
de la columna de conteo y la fila de este intervalo. Se toma ahora la otra observacién
93.0, la cual pertenece al intervalo 92.5 - 93.5, entonces se asigna una tarja en la
interseccion de la fila de este nuevo intervalo y la columna de conteo. Asf
sucesivamente hasta agotar la tltima observacién. Sumando las tarjas se obtiene la
frecuencia absoluta de cada clase. Se obtiene de esta manera la Tabla 2.8.
TABLA 2.8 DISTRIBUCION DE FRECUENCIAS DE LOS PESOS DE 50 LIN-
GOTES DE ACERO
Intervalo de clase Marca de clase Conteo Frecuencia absoluta
yi joy)
-1'7i
i
91.5 - 92.5
92.5 - 93.5
93.5 - 94.5
94.5. - 95.5
95.5 - 96.5
b. Interpretacién de las n;
n, =4, significa que en la muestra hay 4 \ingotes que pesan 91.5 kg. omds pero menos
de 92.5 kg.
n,= 11, en Ja muestra, 11 lingotes pesan 92.5 kg o ms, pero menos de 93.5 kg, etc.
NOTA2.3 Alelaborar la Tabla de frecuencias de datos de variables continuas, siempre
hay una ligera pérdida de informaci6n, que ocurre al no considerar més los datos
individuales, si no la marca de clase (0 punto medio de cada clase) como un valor
Tepresentativo de toda laclase. Asi, y, = 93.0 representaa toda las observaciones mayores
0 iguales a 92.5 y menores que 93.5. Sin embargo, esta pérdida de informacién queda
compensada por la ganancia en concisién, sencillez y claridad.
NOTA 2.4 Lacolumna de conteo sélo se incluye al iniciar el trabajo, luego se puede
omitir, puesto que el lector ya sabe como se obtienen las frecuencias absolutas.
Las definiciones de 2.2 a 2.7 son también vAlidas en este caso, naturalmente que
ellas se refieren a lasclases y noalos valores y,. Para evitar confusiones y dudasal respecto
volvemos a definirlas.
59DEFINICION 2.14 Frecuencia absoluta acumulada “menor que” (N)) de la clase
i-Gsima, es el ndmero de observaciones menores que el extremo superior del intervalo
de clase i-simo, 0 sea menores a y';. Entonces
Asi, para el ejemplo 2.4:
N, =n, = 4, es el ntimero de lingotes de acero que pesan menos de 92.5 kg.;
N, =n, +0,=4+ 11 = 15, es el niimero de lingotes de acero cuyo peso es menor que
93.5 kg.;
N, =n, +n, +n, =4+ 11 +20 =35, numero de lingotes de acero que pesan menos de
94.5 kg.;
N,=n, +n, +n,+n,=4+11+20+9=44, ntimero de lingotesde acero que pesan menos
de 95.5 kg.;
N,=n=50.
DEFINICION 2.15 Frecuencia absoluta acumulada “mayor 0 igual que” (N*) de
i
laclasc i-ésima, es el niimero de observaciones mayores 0 iguales quc elextremo inferior
dcl intervalo de clase i-ésimo, es decir mayor o igual a rs Ve Entonces
Asi, para el ejemplo 2.4:
Ni =n,+n,+... +n=n=50, ver de lingotes de acero que pesan por lo menos
_- kg.
N, =n, +n, +n, +n,= 11 +20 +49 + 6=46, mimero de lingotes de acero que pesan
por lo menos 92.5kg.
N= n, +n, +n,=20 + 9+ 6=35, numero de lingotes de acero que pesan por lo menos
° 93.5 kg.
N =n, +n, =9 + 6=15, nimero de lingotes de acero que pesan por lo menos 94.5 kg.
Ny =n, = 6, numero de lingotes de acero que pesan por lo menos 95.5 kg.
60DEFINICION 2.16 Frecuencia relativa (h,) del i-ésimo intervalo de clase, es el
cociente
para el ejemplo 2.4;
n
hy = = = s = 0.08 _,esla proporcién de lingotes de acero que pesan menos de
h 92.5 Kg.
ho= =2 = #4 = 0 22__,es la proporcién de lingote de acero que pesan 92.5 Kg 0
mas pero menos de 93.5 Kg.
20 _ 40 ,esla proporcién de lingotes de acero que pesan 93.5 kg 6
més pero menos de 94.5 Kg.
DEFINICION 2.17 Se llama frecuencia relativa porcentual a la frecuencia relativa
h, multiplicada por 100% (100 h,%) y representa el porcentaje de observaciones que
pertenecen a la clase i-ésima.
Asi, para el ejemplo 2.4:
100 h,% = 100(0.08)% = 8%, es el porcentaje de lingotes de acero que pesan menos de
92.5 Kg.
100 h,% = 100(0.22)% = 22%, es el porcentaje de lingotes de acero que pesan 92.5 Kg
o mas pero menos de 93.5 Kg.
100 h,% = 100(0.40)% = 40%, es el porcentaje de lingotes de acero que pesan 93.5 Kg
o més pero menos de 94.5 Kg.
etc.
DEFINICION 2.18 Frecuencia relativa acumulada “menor que” (Hi) de la clase
i-€sima, es la frecuencia relativa total correspondiente a los valores observados menores
que yi ,esdecirmenores que el extremo superior del intervalo declasei-ésimo. Entonces
para el ejemplo 2.4:
61, = 0.08, es la proporcién de lingotes de acero que pesan menos de 92.5 Kg.
, +h, = 0.08 + 0.22 = 0.30, es la proporcién de lingotes de acero que pesan menos
de 93.5 Kg.
H, =h, +h, +h, = 0.08 + 0.22 + 0.40 = 0.70, es la proporcién de lingotes de acero que
pesan menos de 94.5 Kg.
ec.
DEFINICION 2.19 Frecuencia relativa acumulada “mayor o igual que” (H") de
la i-€sima clase, es la frecuencia relativa total correspondiente a los valores observados
mayores 0 iguales al extremo inferior del intervalo de clase i-ésimo, se decir mayores
0 iguales que y',_ , > entonces
para el ejemplo 2.4:
HW) =h,+h, +h, +b,=0.22 + 0.40 +0.18 + 0.12=0.92,
es la proporcién de lingotes de acero que pesan por lo menos 92.5 Kg.
Hy =h,+h,+h,=0.40+0.18 +0.12=0.70,
es la proporci6n de lingotes de acero que pesan por lo menos 93.5 Kg.
etc.
DEFINICION 2.20 Se lama ute relativa acumulada porcentual a la fre-
cuencia relativa acumulada H, (0 ce ) multiplicada por 100%.
Es decir 100 H,% (0 100 Hq. “% yy representa el porcentaje de observaciones menores
que ye (0 mayores 0 iguales a a , ).
Asi, para el ejemplo 2.4
100 H, % = 100(0.08)% = 8%, es el porcentaje de lingotes de acero que pesan menos de
92.5 Kg.
62100 H,% = 100(0.30)% = 30%, es el porcentajé de lingote de acero que pesan menos de
93.5 Kg.
etc.
100H 3 % =100(0.92)% =92%, es el porcentaje de lingotes de acero que pesan por
. Jo menos 92.5 Kg.
100H ,% = 100(0.70)% = 70%, es el porcentaje de lingotes de acero que pesan por
lo menos 93.5 Kg.
etc.
Por tanto, las diferentes tablas de frecuencias que se pueden confeccionar para un
conjunto de datos continuos estd dada en la tabla 2.9.
TABLA 2.9
pf Ps of ff won | vs
Las Tablas de frecuencias diferentes que se puede formar para el ejemplo 2.4 se resume
en la Tabla 2.10.
TABLA 2.10
91.5-92.5
92.5-93.5
93.5-94.5
94.5-95.5
95.5-96.5
TotalesNOTA 2.5 Antes de pasar, vale la pena ilustrar, al igual que se hizo con los resultados
de la Tabla 2.6, cémo a partir de una clasificacién de datos continuos, se puede obtener
informacion valiosa y resumida de ellos. En el ejemplo 2.4 donde las observaciones
respecto a los pesos de 50 lingotes de acero producidos por SIDERPERU, se consideran
representativos de toda la poblacién de lingotes de acero producidos por dicha empresa,
las diferentes distribuciones de frecuencias que aparecen en la Tabla 2.10 pueden entre
otros, brindar informaciones como las siguientes:
1. Quecl mayor tanto porciento de lingotes de acero pesan entre 93.5 y 94.5 Kg. Como
se puede observar cn la columna correspondiente a 100h,% este tanto por ciento es
40.
2. Si el peso apropiado de los lingotes de acero para su aceptacién en el mercado
internacional es como minimo 93.5 Kg, los resultados de la Tabla reflejan que s6lo
el 70% (ver la columna 100 H , %) de esta poblacién cumple la condicién, lo cual
representa quizas, que dicha empresa debe reajustar sus maquinarias, ya que habria
un 30% que no se pucde negociar.
NOTA 2.6 Las propicdades de las frecuencias de 2.1 a 2.13 dada para datos de variables
discretas son también validas para el caso de datos de variables continuas. No volvemos
acscribirla, s6lo las usaremos en adclante.
EJEMPLO 2.5 La inversién real (en milcs de d6lares) anual de un grupo de pequefias
empresas fucron:
10 12 8 40 6 8 10 30 2 8 6 14
16 20 25 28 30 26 30 4 6 10 «18 7
13° (17° «(21 7 6 8 14 7 15 19 27 «22
Oo 14 6 8 9 11 13 15 18 20 30 60
2 6 5 5 6 8 7 12 15 36 39 52
Se pide:
a. Formar una tabla de todas las distribuciones de frecuencias, con intervalos de
amplitud constante;
b. El nimero de pequefias empresas con iti. ersiones menores de 40 mil délares;
El ndmero de pequeiias empresas que han invertido 40 mil délares o mas;
El nimero de pequefias empresas que invirtieron 10 mil délares o m4s pero menos
de 35 mil délares;
. La proporcién de pequefias empresas con inversiones menos de 8 mil délares;
f. La proporcién de pequefias empresas que invirtieron por lo menos 20 mil délares
pero a lo mas 38 mil délares;
aog. Elporcentaje de pequefias empresas que han invertido entre 6 mil délares y 30 r.il
délares inclusive;
h. El porcentaje de pequefias empresas que invirtieron mas de 64 mil délares.
SOLUCION: a.
1. Consideremos m>-V/60 =7. 746, es decir m = &
2. x, = 0 y x,,, = 0, por tanto £ = 60-0 = 60
3. De()y@)¢=4£=9-75.
Obviamente preferimos trabajar con c = 8. Para lo cual ampliamos el recorrido de
Jos datos, de manera que sea miltiplo de m = 8. Pero como la inversién no puede
ser negativa, ampliamos sdlo a la derecha, es decir, hacemos:
Xa = 64 YX FX pig =O
Ahora: 2 = 64 -0= 64.
4. Los limites de clases son:
Y'p = Xuig = 93 Ye=¥, t6c=48;
Yy=¥y + c=0+8; y,=Yy + 7c = 56;
y',= Yip + 2c = 0+ 2x8 = 16; Y= Y'y + 8c= 4.
y,=y, + 3c= 24;
Yi, =Yiy t 4c = 325
Y5= yi) + Sc= 40;
5. Las marcas de clases son:
= O+8 _ = 8+16
2
Yay TAG,
Y,=¥,+¢=4+8=12. Entonces y,=y,+c=12+8=20,
= 12. Observeque esto es lo mismo que
Y,=Y, + c= 20 + 8= 28, etc.
6. Las frecuencias absolutas de cada clase se obtiene siguiendo el proceso indicado en
la pdgina 55. Las otras frecuencias también se ubicardn directamente en la tabla.TABLA 2.11 DISTRIBUCION DE FRECUENCIAS DE LAS INVERSIONES
DE PEQUENAS EMPRESAS
66
. Elndmero de pequefias empresas con inversiones menores de 40 mil délares es 57.
Este ntimero se encuentra en la interseccidn de la fila del intervalo “32-40” y la
columna N,. Graficamente se ve en la Figura 2.2.
1522-10 8 2 1 1 1
8 16 2432 A 4856
15 +22+10+842 =57 14141 =3
Fig. 2.2
El niimero de pequefias empresas con inversiones de 40 mil délares 0 mas es 3 y se
encuentra en la interseccion de Ia fila del intervalo “40-48” y la columnaN; .
Grdficamente se ve en la Figura 2.2.
Ubiquemos los puntos 10 y 35 y los intervalos de clase en una recta como se muestra
en la Figura 2.3.
22 10 8 2
St OO SO
DM Il
8 10 16 24 32 35 40
uo uu
x y
Fig. 2.3
por tanto, cl ntimero de pequefias empresas que invirtieron 10 mildélaresomés pero
menos de 35 mil délares sera
x+10+8+yx, se determina interpolando linealmente de la siguiente manera: suponiendo que
los datos estén uniformemente distribuidos en los intervalos de clase, entonces
si en una amplitud de 8 = 16 - 8 hay 22 valores
en una amplitud de 6 = 16 - 10 habrd x valores
. _ 46-1022 6x22 _
Esdecir x = EG = 2 = 16.5 =17
similarmente se obtiene y:
si en una amplitud de 8 = 40 - 32 hay 2 observaciones
en una amplitud de 3 = 35 - 32 habré y observaciones
5-32)? _ 3x2 _ 6
40 - 32 8 8
Por tanto, el nimero sera 17 + 10 + 8 + 1 = 36 empresas
osea y= =1
La proporcién de pequefias empresas con inversiones menos de 8 mil délares es
15/60 = 0.25.
Ubiquemos los limites de los intervalos y los puntos 20 y 38 en una recta como en
la Figura 2.4.
10/60 8/60 2/60
Cr pee, iy
——S- Waits 11111111}
16 20 24 32 38. 40
uo uo _
P P.
‘Fig. 2.4 2
La proporcién de pequefias empresas que invirtieron por lo menos 20 mil délares
pero a lo mas 38 mil délares, estar dado por:
8
Pitot Pa
P, se determina como sigue: suponiendo que las observaciones est4 uniformemente
distribuido en cada intervalo de clase, entonces
Si en una amplitud de 8 = 24 - 16 hay una proporcién de 10/60
en una amplitud de 4 = 24 - 20 habra una proporcién p,
_ (24 — 20)00/ 60) _ 41)_5
luego, Pi= "34-16 8 “6 10
6768
Andlogamente se obtiene p,:
Si en una amplitud de 8 = 40 - 32 hay una proporcién de 2/60
en una amplitud de 6 = 38 - 32 habrd una proporcién P,
deci = BD CIM _ §(2)-
esdeeir, Py = "40 - 32 860)” 121
por tanto, la proporcién pedida sera 3X48, 3.02
° 60 60 120
Se sigue el mismo proceso de (d) y (f).
150/6% 220/6 % 100/6% 80/6%
TF Ot St
> Ho tere
0 6 8. 16 24 30 «32 40
es SSE
x% yo
Fig. 25
EI porcentaje de pequefias empresas que han invertido entre 6 y 30 mil délares
inclusive sera:
220 100
% + —=—% + —h+ y%
x% + 6 6 y
x%, se obtiene como sigue:
Si en una amplitud de 8 = 8 - 0, hay un 150/6%
en una amplitud de 2 = 8 - 6, habré un x%
150
_ (B= 6)(150/6)% _ 2(150\q _
= Eso _ 2 50.) = 6.25%
Es decir: x% 8-0
En forma completamente similar se obtiene y%:
Si en una amplitud de 8 = 32 - 24 hay un 80/6%
en una amplitud de 6 = 30 - 24 habra y%
(30— 24)(80/ 6)% - $(2
8
(G2 - 24) = a
estocs y% =
Entonces, el porcentaje pedido sera6: 25% + (#2) % + (2°) % + 10% = 69. 58%
hb. El porcentaje de pequefias empresas que invirticron mds de 64 mil délares es 0%.
23.2.1 LIMITES REALES DE CLASES
En el ejemplo 2.5, las inversiones se presentan redondeadas a la unidad de millar
mas cercano. Con toda seguridad el importe de las inversiones es conocida hasta cientos
de délares, pero slo se presentan valores redondeados. Por ejemplo 8 mil délares se
interpreta comoel valor a la cual ha sido redondeado cualquier valor comprendido entre
$7500 y $8 499 inclusive. Similarmente 16 mil d6larcs se interpreta como el valor al
cual se han redondeado los valores comprendidos entre $ 15 500 y $ 16 499 inclusive.
Entonces, el intervalo de clase 8 - 16 Ilamados valores aparentes, teéricamente incluye
todas las medidas desde 7 500 a 16 500 délares, éstos se conocen como limites reales
de intervalos de clase 0 limites verdaderos de intervalo de clase y se define como
sigue.
DEFINICION 2.21 El limite real de un intervalo de clase es igual al valor aparente
més o menos la mitad de la unidad de medida utilizada.
EJEMPLO 2.6 Con las cuotas anualcs (en délares) de 40 compaitias para un seguro
de vida de $ 25 000 para hombres de 30 afios de edad se nan formado una Tabla de
frecuencias, cuyos intervalos de clases son:
82-87, 87-92; 92-97; 97-102; 102-107; 107-112
Determine los limites reales de clase.
SOLUCION La cuota de $ 82 se interpreta como el valor al cual se han redondeado
cuotas comprendidas entre $ 81.50 y $82.49, similarmente los otros limites de clase.
Entonces de acuerdo con la definicién 2.21, los seis intervalos de clase con sus
respectivos limites reales son:
81.5-87.5; 87.5-92.5; 92.5-97.5; 97.5-102.5; 102.5-107.5; 107.5-112.5
EJEMPLO 2.7 Ena tabla de frecuencias que se da a continuaci6n faltan algunos datos
complétala.
69SOLUCION:
1. Obviamente los limites inferiores que faltan son 28 y 36. Y cl limite superior que
falta es 36.
2. Las marcas de clases son:
— 20424 _9. = 24428 _ 46. = 28432 _ 4).
YS =22; he 26; y, > 30 ;
1 2
32436 4,. _ 36440 _
Yee MS Vg = = 3K
3. Para las frecuencias relativas se tiene:
H, = h, = 0.10, por la propiedad 2.10;
, +h, =0.10 +h, = 0.25, propiedad 2.13. De donde h, = 0.25 - 0.10 = 0.15;
I, + h, = 0.25 + h, = 0.55, propiedad 2.13. Despejando h, = (1.55 - 0.25 = 0.30;
H, = H, + h, = 0.55 + h, = 0.85, luego h, = 0.85 - 0.55 = 0.30;
H, =H, +h, = 0.85 +h, = 1.00, de donde; h, = 1.00 - 0.85 = 0.15.
1
4. CAlculo de las frecuencias absolutas.
no t+nj+n
age - th 2 3 -ll_ -_ L
sth thy+hy = = 0.55, dedonde n = 55 = 20.
n,
Por lo tanto de ho= z » obtenemos n; = nh, i=1,2,..,m.
Luego, n,= nh, = 200.10)=2; n= nh, = 20(0.15) =3
n,=nh, = 20(0.30)=6; n, = nh, = 20(0.30) = 6
p, = nh, = 20(0.15) = 3+
Las frecucncias absolutas acumuladas menores que, son:
N,=N, +n, =2+3=5; N,=N,+n,=5+6=11;
ve
70TMQ TENG Mg TORE OE MAE BS OO
4 4
De (1), (2), 3), (4) y (5) fa tabla completa es
TABLA 2.12
Totales
EJEMPLO 2.8 En base a la siguiente informacién:
y,= 550; y,= 850; b= Hy m=6
hy= O14 5 H,= 0.76; h,= 0.20; H,-h, = 0.26 y c= constante,
Reconstruir la tabla de frecuencias.
SOLUCION
Yt,
2
yg teryy + 2c dy, + 3c .
2? Por construccin de limite de clase
dedonde 2y', + 3c = 1100 ®
, Por definicién de marca de clase
lL 550=y,=
similarmente
Yut¥s yot4ctry,+5e 2y,+9c
z % a
uega 2yh + 9c= 1700 a
850 = he
__ Resalvicndo el sistema de ecuaciones (I) y (II) (Restando (1) de (ID)
7172
2y)+9e= 1700
-2y')- 3c =- 1100
6c= 600, dedonde c= 100.
Reemplazando este valor de c en la ecuacién (I) obtenemos.
2y4 + 3000) = 1100
luego y', = 1100 = 300 _ 499
2
Con estos dos valores Y', = 400 y c = 100 construimos las dos primeras columnas
de la tabla de distribucién de frecuencias (ver Tabla 2.13).
Calculo de las h, y H, que faltan:
=-4. =h-=
h, = Fo = 0-04 = h, =H, -
H =H, +h,=0.04+014=0.18.
H,—h, = 0.26 , entoncesH, = 0.26 +h, = 0.26 + 0. 14=0. 40.
También H, =H, + h,=0.18 + h, = 0.40, luego h, = 0.40 - 0.18 = 0.22.
H, =H, +h, =0.40+h, = 0.76, de donde h, = 0.76 - 0.40 = 0.36.
H, =H, +h, = 0.76 + 0.20 = 0.96
Finalmente H, =H, + h,= 0.96 + 0.04 = 1.00
Calculo de las frecuencias absolutas.
Note que: ho= 4 Z=00=h, entonces podriamos tener:
00 ~ 50
a. n,=n.=4 y n=1006
b. n,=n,=2 y n=50
Tomemos la opcién (b). Es decir, n = 50, n, = n, = 2. Por tanto usando la ecuacién
n=nh, i=1,2,...,m; tenemos:
n, = 50(0.14)=7; n,=50(0.22) = 11
50(0.36) = 18; n, = 50(0.20) = 10De (1), (2) y (3) obtenemos la Tabla 2.13.
TABLA 2.13
2.3.2.2. SIMETRIA DE UNA TABLA DE DISTRIBUCION DE FRECUENCIAS
1,
Una tabla de distribucién de frecuencias que tiene un nimero impar (m = 2k-1) de
clases, se dice que es simétrica, si las clases equidistantes de la clase central tienen
frecuencias iguales. Es decir, si las frecuencias absolutas cumplen la relacién:
a, j=n » isjsk-1
Una Tabla de Distribucién de frecuencias que tiene un nimero par (m = 2K) de
clases, se dice que es simétrica, si las dos clases centrales tienen frecuencias iguales
y las clases equidistantes de éstas centrales tiene también frecuencias iguales.
EJEMPLO 2.9 En una Tabla de distribucién simétrica con siete intervalos de clase
de igual longitud, se conocen los datos siguientes:
c=10, n, =8, y,n, = 1260, n, +2, =62, h,=0.21,y H,=0.96. Reconstruir la tabla
de distribucién de frecuencias.
SOLUCION:
1. m=7=2k-1,de donde k= is 1 ~ 4. Entonces para
7374
Evidentemente, en tablas simétricas de distribucién de frecuencias, las relaciones
entre las frecuencias relativas son las mismas que hay entre las frecuencias
absolutas. Es decir, en este caso
hy jah,» USJSK-1, onk=4,
Asi pues, para jah
Luego.
1=H,=H,+h, = 0.96 +h, , propiedad 2.6 y 2.13 de donde h, = 1 - 0.96 = 0.04.
Es decir, h, = h, = 0.
De (3) y los datos hy =
de donde: n = 8/(0.04) = 200.
De (2) y la ecuacién n, = nh, se tiene
n, =n, = 200(0.21) = 42
De datos y (5) n, + n, =n, + 42 = 62, de donde n, = n, = 20.
Por tanto, h, = = =0. 10.
TABLA 2.147. 0.96=H,=H,+h,=H,+0.10
Es decir: H, = 0.96 - 0.10 = 0.86
0.86 = H, = H, +h, =H, +0.21
dedonde: — H, = 0.86 - 0.21 = 0.65
0.65 =H, = H, +h, =0.35 +h,
luego, h, = 0.65 - 0.35 = 0.30
Por tanto, n, = nh, = 200(0.30) = 60
8. De los datos 1260 = y,n, = y,(42), luego y, = 1260/42 = 30
y,+y5 Yor 2e+y,+3c 2y', +5
pero 30=y, = QE OO TT
2y'yt 50
=— yy, + 35
de donde: y= 30-25=5
Con Y= 5 y c=10seconstruye los intervalos de clase de la Tabla 2.14.
EJEMPLO 2.10 Deuna tabla de distribucién de frecuencias absolutas, con 5 interva-
los de clase de igual amplitud se sabe:
a. Sus marcas de clases forman una progresi6n aritmética cuya suma es 45 y tiltimo
término 15.
b. Lastres primeras frecuencias absolutas forman una progresién geométrica y las tres
tiltimas una progresi6n aritmética.
c. El producto de la primera y la tercera frecuencia absoluta es 100.
d. EI producto de la tercera y quinta frecuencia absoluta es 480.
e. La diferencia comin de la progresién aritmética y la raz6n de la progresién
geométrica son iguales.
Reconstruir la tabla de distribucién de frecuencias.
SOLUCION
1. Calculo de las marcas de clases. Por la condicién (a) éstas forman una progresién
aritmética, entonces, si:
a= primer término de la progresién; d= 1a diferencia comin entre los términos;
¢= 15 el dltimo término, y n=5 nimero de términos.
1516
Las marcas de clases serén:
y,=3 y,=a+d; y,=a+2d, y,=at3d; y, y,=a+4d=15
pero 45=s=2 @it)=3@+15)
90-75 _
ye a3,
Por otro lado, 15 =4=a + (n- 1)d=3 + 4d, luego a= a3 =3.
osea 90= Sa+ 75, de donde a =
Entonces, y, = 3; y,=34+3=
¥,=3+9= 12; ys=3412=15.
y,=3+6=9;
Calculo de Jos limites de los intervalos de clase.
Obviamente c = 3. Entonces:
AE Yt yYoryyte dy + 3
=yj=—y = > +
2 2 2
luego, 6 = 2y!, + 3, de donde y', -$33 =LS.
Con yy = 1.5 yc=3, se construye los limites de los intervalos de clase (Ver Tabla
2.15).
CAlculo de Jas frecuencias absolutas.
Sean a= el primer término de la progresién geométrica
r= la raz6n de la progresién geométrica
d= la diferencia comdn de la progresién aritmética
Tenicndo en cuenta que r = d por (e), las frecuencias absolutas seran:
A, =a; n, = ar; n,=ar,n,=ar+d=ar+rn,=ar+ 2d=ar + 2r
Pero n,n, =a ar? = ar? = 100 por (b)
luego, ar = +10, pero como se trata de frecuencias absolutas, escogemos;
ar=10 ®
También:
ap, = ar(ar? + 2r) = ar(ar + 2) = ar°(10 + 2) = ar°(12) = 480de donde ar? = 40 a
Resolvemos el sistema de ecuaciones (I) y (II)
De) a=10/r
De() a=40/°
Igualando los segundos miembros de estas
ecuaciones: TABLA 2.15
10 _ 40
TAT? entonces
1? =4 dedonde r =+2
Elegimos r = 2 por tratarse de frecuencias ab-
solutas. Luego reemplazando este valor en (I),
resulta que
2a= 10 , osea a=5
Por tanto, n, = 5,n, = 10, n, = 20, n, = 22 y n= 24°
NOTA 2.7 Cabe destacar que cuando el conjunto de observaciones discretas son
numerosas, para abreviar el trabajo, con cierta arbitrariedad y alguna pérdida de
precisién e informacién, puede tratarse como si fuera datos continuos, formando
intervalos de clase. En este caso los intervalos pueden ser cerrados en ambos lados, es
decir: .
ist
Yor YC yd
2.3.3 DATOS DE VARIABLES CUALITATIVAS
En el caso de datos cualitativos, la tabla de distribucién de frecuencias adoptard
la forma siguiente:
Variable. Frecuencias Frecuencias Frecuencia
absolutas relativas relativa porcentual
Caracteristica A
Caracteristica B
Caracteristica Z
7EJEMPLO 2.11 Una revista muy conocida efectué una encuesta respecto a lo
adccuado de la proteccién policial en la ciudad. Se seleccion6 un total de 419 personas
en una muestra aleatoria simple. Los siguientes datos reflejan las respuestas de las
personas encuestadas a la pregunta Es adecuada la proteccién policial en su vecinda-
Tio?
Si
No
No sabe responder
a. Qué proporcién de personas no saben responder?
b. Qué porcentaje de personas contestaron si?
SOLUCION Para respondera las preguntas debemos calcular las frecuencias relativas
y porcentuales de las respuestas.
Respuestas Frecuencia Frecuencia Frecuencia
absoluta relativa porcentual
Si 293 0.6993 69.93
No 80 0.1909 19.09
No sabe responder 46 0.1098 10.98
1.0000 100.00
a. La proporcion de personas que no saben responder es 0.1098.
b. El 69.93% de las personas encuestadas contestaron si.
EJEMPLO 2.12 Construya una clasificacién cerrada y discreta, de las posibles
respuestas sobre “cl estado civil” de una encuesta. También construya una clasificacién
discreta de tres categorias, abierta en los extremos, para las mismas respuestas.
78SOLUCION.
Clasificacién cerrada Clasificacién abierta
Estado Civil Estado Civil | Frecuencia
Soltero
Casado
Divorciado
Otros
2.3.4 DIAGRAMA DE HOJAS Y TALLOS
Un procedimiento semi-grafico (tabular y grafico) de presentar la informacién
para datos cuantitativos, que es especialmente titil cuando el nimero total de observa-
ciones es pequefio (menor que 50), es el diagrama de hojas y tallos de TUKEY. Los
principios basicos para construirlo son:
a. Redondear los datos a dos 0 tres cifras significativas, expresdndolos en unidades
convenientes,
b. Disponerlos en una tabla con dos columnas separadas por una linea como sigue:
b,.Para datos con dos digitos, escribir a la izquierda de la linea los digitos de las
decenas, que forman el tallo, y a la derecha las unidades que seran las ramas. Pot
ejemplo 85 se escribe:
Tallo Hoja
8 5
b,.Para datos con tres digitos el tallo estaré formado por los digitos de las centenas
y decenas, que se escribirén a la izquierda, separados de las unidades. Por
ejemplo, 329 se escribira:
Tallo Hoja
32 9
c. Cada tallo define una clase, y se escribe slo una vez. El niimero de “hojas”
representa la frecuencia de dicha clase, que se ubica en una tercera columna det
diagrama.
EJEMPLO 2.13 Los siguientes datos representan la longitud en cm de 16 camarones
de un criadero:
7911.367; 12.543; 11.382; 12.441; 14.313; 15.212; 13.301; 11.300; 17.806; 12.711;
13.456; 16.142;-12.622; 13.421; 14.697; 13.165.
Construir un diagrama de hojas y tallos.
SOLUCION
1. Los datos redondeados expresados en mm:
114;,125; 114; 124; 143; 152; 133; 113; 178; 127; 135; 161; 126; 134; 147; 132.
2. Siguiendo el proceso indicado en b, se construye la Tabla 2.16.
TABLA 2.16 DIAGRAMA DE HOJAS Y TALLOS DE LA LONGITUD DE
Frecuencia
LOS CAMARONES
EJEMPLO 2.14 Los siguientes datos representan la vida en segundos de 50 moscas
de frutas a las que se somete a un nuevo insecticida en un experimento controlado de
laboratorio:
17 20 «10 9 23 13 12. (19 18 24
12 «14 6 9 13 6 7 10 13 7
16 «18 8 13 3 32 9 7 10 #11
13 7 18 7 10 4 27 19 16 8
7 10 5 14 15 10 9 6 7 15
Construya un diagrama de hojas y tallos para las vidas de las moscas de fruta.
SOLUCION De acuerdo con b, yc, se construye la Tabla 2.17.
80TABLA 2.17 DIAGRAMA DETALLOS Y HOJAS PARA LAS VIDAS DE LAS
MOSCAS
9696778397774875967
70329824303683013809604505
0347
2
El diagrama de tallos y hojas de la Tabla 2.17 contiene sélo 4 tallos, y en
consecuencia no proporciona una imagen adecuada de la distribucién. Para subsanar
este problema, se requiere aumentar el ndmero de tallos del diagrama. Una forma simple
de lograrlo es anotar dos veces cada uno de los valores de los tallos en el lado izquierdo
de la linea vertical y después registrar las hojas 0, 1, 2,3 y 4 frente del valor apropiado
del tallo donde aparece por primera vez; y las hojas 5, 6, 7,8 y 9 frente de este mismo
valor del tallo donde aparece por segunda vez. Este diagrama modificado de doble tallo
y hojas se ilustra en la Tabla 2.18, donde los tallos que corresponden a las hojas 0, 1,
2,3 y 4 se han distinguido por el simbolo * yy los tallos correspondientes a las hojas 5,
6, 7, 8 y 9 por el simbolos. Asi, por ejemplo, el primer valor observado 17 tiene el tallo
I’ _y la hoja 7; el segundo valor observado 20, tiene tallo 2" y hoja 0, etc.
TABLA 2.18 DIAGRAMA DE DOBLE TALLO Y HOJAS DE LA VIDA DE
LAS MOSCAS
Tallos
34
96967789777875967
0322430330130040
7986889655
034
7
2
2.3.4.1 VENTAJAS DE LOS DIAGRAMAS DE HOJAS Y TALLOS
1. Los diagramas de tallos y jas conservan los datos originales, por lo que es facil
identificar algiin dato particular si lo quisiéramos.
812. Es flexible en cuanto a poder incluir datos extremos sin perder el grado de detalle
en el resto de Ios datos.
3. Permiten percibir caracteristicas de los datos que a veces los intervalos cubren.
4. No necesita algiin grafico adicional para percibir la forma de la distribucién,
DESVENTAJAS
No es una representacién practica para voltimenes grandes de datos.
2.3.5 PROBLEMAS DE REPASO 2A
PROBLEMA 1 En una distribucién simétrica de 8 intervalos de clase, se conoce la
siguiente informaci6n: n, = 4; N = 120; N, =92; Ni - n= 20; c=6;
8
X y, = 220; donde:
1=4
N° = frecuencia acumulada “mayor 0 igual que” del i-ésimo intervalo.
c¢ =amplitud de clase.
y, = marca de clase.
a. Construya cl cuadro completo.
b. Determine cl % de datos que est4n entre 18 y 45 inclusive.
SOLUCION a. Reconstruccién del cuadro:
1, Calculo de las marcas de clase: y, = Y,_, + ©} entonces,
8
LAY t st V eA Yy Hg = 220
is
y,ty,+6t+y, +124 y, + 18+ y, + 24= 220
Sy , = 220 — 60 = 160
y, = 32.
Lucgo: y |= 32-6=26; y,=20; y,= 14; y,= 32+ 6 = 38; y,=44;
y,=50; y,= 56
2. Calculo de los limites de clase:
ot Y, YotYote 2¥, +6
Me yyy
8228-6 _
2 =ll.
Entonces, y, =11+6=17; ¥,=233 y= 29; y= 35;
y5a4ls yg =475 y= 53; y, = 59.
dedonde y=
3. Calculo de las frecuencias absolutas:
. 8
Como N, = 5 n, =120, se tiene que n = 120.
i=l
Por ser la distribuci6n simétrica se cumple:
n=n=4; n=; n=ng m=n,
Por tanto,
8+ 2n,+ 2n,+ 2n,= 120
n +n, +n,= 56 mM
De los datos,
n,=20
N
prop 2. 12.
prop. 2.12.
a
N,-n, =92
N,-n,-10, =92 y como N,=N, -n, = 120-4 = 116
83—n,-—n,=92-116=- 24
ni +n,= 24 dip
Reemplazando (III) en (1) tenemos
24+n,=56
n, = 32.
Sustituyendo, este valor en la ecuacidn (II), obtenemos
2x32+n,=72
n,=8.
Finalmente, reemplazando n, en la ecuaci6n (Ill), n, = 24 - 8 = 16.
De (1), (2) y (3) queda construido el cuadro.
Ubiquemos en una recta, los limites de clase y los puntos en cuestién.
x y
4 —o4
Mill + $< Witlitg t tA —
MN 17g 23 29 35 at a7 53 59
Bae et
8 16 32,—~Sts 32 16
Fig, 2.6.
Sea; r = ntimero de observaciones que estan entre 18 y 45; entonces
r=x+16+32+32+y
x ey se obtienen interpolando linealmecite, de la siguiente manera:
en una amplitud de 6 hay 8 datos 823 - 18) _ 6.67
en una amplitud de 23 - 18 habrd x datos x 6 ~
__ -4
S is y = SO 4D _ 1067,
45-41 ——y 6
Luego;
1r=7+ 16+324+32+11=98
Por tanto el porcentaje de datos que estan entre 18 y 45 inclusive, serd aproxima-
damente:P=tx1 = 3B x 100 = 81. 67%.
PROBLEMAS 2-1
1. ¢Por qué las frecuencias relativas son mds importantes que las absolutas? Explique.
2. Cuando seconstruye una distribucién de frecuencia, el mimero de clases que se usan
depende de:
a. Niimero de datos c. Tamaifio de la poblacién
b. Intervalo de los datos reunidos. —_d. Todas las anteriores
e.ay bperonoc,
3. Explique la diferencia entre distribuciones de frecuencias relativas y de porcenta-
jes.
4. A continuaci6n se transcriben las edades de 50 integrantes de un programa de
servicio social del gobierno:
81 533. 67 6 80 G S6 S54 91 61
66 8 67 65 52 72 74 6 73 69
43 5476 #70 97 +68 82 75 79 60
39 87 7 97 8 45 6 45 65 76
92 72 82 8 70 6 SO 58 70 56
Construya con estos datos las distribuciones de frecuencia relativa usando 7 y 13
intervalos iguales. Las politicas estatales de los programas de servicio social exigen
que aproximadamente 40% de los participantes del programa sean mayores de 50
afios.
a. iSe ajusta el programa a esa politica?
b. ,Cual de las distribuciones de frecuencia relativa le ayuda a contestar mejor la
parte (a)?
c. Supongaque el director de los servicios sociales quiera conocer la proporcién de
participantes en el programa cuya edad fluctia entre 45 y 80 afios. ;Con cual de
las dos distribuciones podria estimar mejor la respuesta el director?
5. Lacompafifa VELOZ, una empresa situada en Arequipa, muestreé sus registros de
embarque durante cierto dia, obtenicndo los siguientes resultados:
TIEMPO TRANSCURRIDO DESDE LA RECEPCION DE LA ORDEN
HASTA LA ENTREGA (EN DIAS)
4 12 8 14 11 6 7 13 3 11 Ww
20 5 19 10 15 24 7 29 610.
86
Construya una distribucién de frecuencia para los datos anteriores y una distribu-
cién de frecuencia relativa. Use intervalos de 6 dias.
a. {Qué afirmaci6n puede hacer sobre la eficacia del procesamiento de pedidos a
partir de la distribuci6n de frecuencia?
b. Si la compajiia quiere asegurarse de que la mitad de sus entregas se realicen en
10 0 menos dias, puede Ud. determinar mediante la distribucién de frecuencia
si la compafiia ha alcanzado su meta?
Las marcas de clase de una distribucién de frecuencias con intervalos de igual
amplitud son: 46, 55, 64, 73, 82, 91. Halle:
a. El intervalo de clase ¢. Los limites de clase.
b. El rango. d. Los limites reales de clase.
Se tiene una distribucién de frecuencias con cuatro intervalos de clase de igual
amplitud y los siguientes datos:
y, = 10, y,=22,. h,=0.30, h=175%, H,=045, n=120
Reconstruir la tabla de frecuencias.
Los puntajes de 50 alumnos se clasifican en un cuadro de distribucién de frecuen-
cias de cuatro intervalos de amplitud constante Sapiendo que: y, = 50, n, = 4,
N, = 20, n, = 25, c = 62. Reconstruir el cuadro.
En cada uno de los siguicntes casos, determine si son consistentes o no los datos:
a. m = ndmero de clases = 6, h, = 0.2, h, = 0.2, H, = 0.6, H,+H,=19
b. H, = 0.30, n = 10, h, = 0.31.
.40, n = 50, n, = 20.
d. h, = 4%, h, = 12%, H, = 15%.
e. H, = 0.36, N, = 30, h, = 6, = 50.
Suponga quc la siguiente tabla de distribucién representa los salarios diarios de los
trabajadores de construccién civil de Lima:
a. Elsindicato de construccién civil
solicita que en el nuevo pacto
colectivo se establezca un salario
diario minimo de S/.14. ;Qué
porcentaje de trabajadores se be-
neficiardn con este pacto?b. Los trabajadores que reciben mds de 30 soles diarios, se supone son muy
calificados (maestros de obra). ,Qué porcentaje de trabajadores se supone muy
calificados?
c. Estime el nimero de trabajadores que ganan entre 15 y 27 soles diarios.
11. Los siguientes datos indican el nimero de minutos que ocuparon sus asientos 50
clientes de una cafeteria:
73 6 82 70 45 S50 70 54 32 75
15 67 65 60 75 87 83 40 72 64
58 75 89 70 73 S55 61 78 89 93
4 51 59 38 65 71 7 85 65 85
49 47 55 60 7 7 69 35 45 63
Construya un cuadro de distribucién de frecuencias escogiendo un numero declases
adecuado para contestar las preguntas siguientes:
a. yCu4ntos clientes ocuparon entre 35 y 52 minutos los asientos?
b. gCudntos clientes ocuparon més de una hora los asientos?
¢. {Qué porcentaje ocuparon los asientos menos de 92 minutos?
12. Condorito, que es un jefe de practica muy divertido, pierde los ex4menes de
estadistica. Pero recuerda que las 120 notas tenian una distribucién simétrica con
7 intervalos de clase de amplitud constante. Ademés en sus archivos encuentra la
siguiente informacién:
. 7
h,=5%, h,=15%; H}= 85%, y,=72, © y,= 400
i=3
donde: y, = marca de clase.
H, = frecuencia relativa acumulada “mayor o igual que”.
a. Reconstruya la tabla de distribucién de frecuencias.
b. Si para aprobar el examen se necesita obtener por lo menos 70 puntos, ,cudntos
desaprobaron dicho examen?
13. En una investigaci6n agricola en el Valle de Chancay se determiné la produccién
total (en kilogramos) de un cierto cultivo, el cual fue sembrado en 20 parcelas
experimentales. Los resultados obtenidos fueron:
Produccién en kilogramos
40 35 38 40 41 37 41 40 38 20 25
33 27 25 28 4422 200 299 386
8714.
15.
16.
88
a. Construya una distribuci6n de frecuencias con 5 clases.
b. Si el 80% de los pesos estan por arriba de 30 kilogramos, se recomendar4 su
cultivo en el valle. A la vista de los resultados se, grecomendaré su cultivo?.
Unacompaiiia tiene 60 trabajadores. El sueldo minimo de un trabajador es 100 soles
y el maximo 590 soles mensuales. El 80% de los trabajadores ganan por lo menos
210 soles; 18 perciben haberes inferiores a 390 soles mensuales; 20% son profesio-
nales y reciben un haber de por lo menos 490 soles mensuales. Se pide:
a. Construir la tabla de distribucién de frecuencias relativas.
b. Cudntos ganan mds de 450 soles mensuales.
c. Qué porcentaje de trabajadores tienen un sueldo de 300 o mds pero menos de 500
soles mensuales.
d. Estime el valor bajo el cual se encuentran los haberes de las dos terceras partes
de todos los trabajadores.
En los tiltimos 30 dias se tomaron los siguientes datos que representan la duracién
en afios de tres bombas de combustible similaces:
20 30 03 33 13 04 02 60 55 65
0.2 23 15 40 59 18 47 07 45 03
1S 0.5 25 50 10 60 56 60 12 02
a, Construya un diagrama de hojas y tallos para las duraciones de las bombas &
combustible utilizando el digito que se encuentra a la izquierda del puntodecimal
como el talto para cada observacién.
b. Construya una distribucién de frecuencias relativas simples y acumuladas.
¢. Estime cl valor bajo el cual se encuentran la tercera parte de todas las observa-
ciones.
El contenido de nicotina, en miligramos, para 40 cigarrillos de cierta marca sc
registraron de la siguiente manera:
1.09 192 231 1.79 228 1.74 147 197 085 1.24
158 2.03 1.70 217 255 211 186 190 168 151
164 0.72 169 185 182 1.79 246 188 208 1.67
137 193 140 164 2.09 1.75 163 237 1.75 1.69
a. Construya un diagrama de hojas y tallos para los datos, en la que los tallos sean
los digitos que se encuentran a la izquierda del punto decimal, repetido cada uno
de ellos cinco veces, de manera que las hojas de doble digito 00 a 19 estén
asociados a los tallos con la letra a; que las hojas 20 a 39 estén asociados con los
tallos codificados con la letra b; y asi sucesivamente. De esta manera, un ntimero
como 1.29 tiene un valor de tallo de 1b y una hoja con equivalencia a 29.
b. Construya la distribucion de frecuencias relativas.2.4 REPRESENTACION TABULAR Y GRAFICA
Unconjunto de observaciones o medidas realizadas en una poblacién, atendiendo
a una o més caracteristicas determinadas, es Ilamada también serie estadistica. Las
series cronolégicas o temporales, se ocupan del comportamiento de loshechos alo largo
del tiempo. En el capitulo 6, nos referiremos a ellas.
Una vez que se ha ejecutado la investigacién y se ha recolectado y clasificado la
informacién o serie estadistica, resulta imprescindible representarlo de manera adecua-
da, de tal forma que nos permita hacer un andlisis util. Existen dos tiposde presentaci6n:
mediante los cuadros estadisticos y graficos.
2.4.1 CUADROS ESTADISTICOS
En general un cuadro estadistico es uni arreglo ordenado, de filas y columnas de
los datos 0 series estadisticas, por tanto tiene dos entradas (podrian considerarse incluso
con mas de dos). En ellas pueden representarse caracteristicas cualitativas, cuantitativas
© una combinacién de ambas. Se puede también considerar variables discretas, conti-
nuas o de ambos tipos. La finalidad es ofrecer informacién resumida de facil lectura,
comparacién e interpretacién. Segtin su objetivo, las lineas (horizontales) y columnas
(verticales) de un cuadro se deben organizar de modo que pongan en evidencia los
aspectos que interesa mostrar y resalten las comparaciones que se desean hacer notar.
La tabla de distribucién de frecuencias es un caso especial de un cuadro estadistico.
2.4.1.1 PARTES DE UN CUADRO ESTADISTICO
Las partes esenciales de un cuadroestadistico son: 1. Numero; 2. Titulo; 3. Cuadro
Propiamente dicho; 4. Las notas explicativas 0 calce.
1. NUMERO: Es el cédigo de identificacién del cuadro. Este numero se escribe a
continuaci6n de la palabra “cuadro”. Por ejemplo cuadro N° 2.5, indica el quinto
cuadro del capitulo dos.
2. TITULO: Es la indicacién que preside a la tabla y es colocada en la parte superior
de la misma. El titulo debe reunir las condiciones siguientes: a. ser completo; b. ser
conciso.
a. SER COMPLETO: Un titulo completo debe indicar claramente cual es el
contenido del cuadro estadistico. Debe responder a las preguntas: Qué, Cémo,
Donde y Cuando.
QUE: A qué se refiere la tabla que se estudia. Cul es el universo que se
investiga.
89COMO: Cémo se estudia, de acuerde a cudles caracteristicas se clasifican
los. individuos u objetos estudiados. Las variables ubicadas en las
filas se identifican con la proposicién “por” y las de la columna
con la proposicién “segin”.
CUANDO: Momento 0 periodo de tiempo a que se refiere el estudio.
DONDE: __ Lugara que se refiere la informacion.
b, SER CONCISO: El titulo debe ser breve, lo mds conciso posible, aunque no
debe sacrificarse la claridad a la concisién.
¢ JEMPLO2.45 Enelcuadro 2.1, indicar, sisu titulo cs completo. En cfccto: el Titulo:
f istribucion de las mujeres de 15 a 49 afios por drca urbana, rural y regi6n natural.
Stgtin estado conyugal.
Vemos que ¢s completo, ya que responde a las preguntas: qué, c6mo, dénde y
undo.
Distribucién de mujeres de 15 a 49 afios.
Por rca urbana, rural, y region natural. Segtin estado conyugal.
CUANDO: — En 1986.
DONDE: En cl Perd.
CUADRO 2.1 PER U: DISTRIBUCION DELAS MUJERES DE 154.49 ANOS
POR AREA URBANA, RURAL Y REGION NATURAL, SE-
GUN ESTADO CONYUGAL: 1986
ESTADO AREA REGION NATURAL,
| CONYUGAL TOTAL URBANA RURAL AML” RESTO DE SIERRA SELVA
COSTA
TOTAL 4999 3406 15931591 1331
SOLTERA 1760 1335 425 660 481
CASADA 2004 1335 668 640 495
CONVIVIENTE 895 491 405 185 266
VIUDA 70 34 35 13 9
DIVORCIADA 20 20 0 14 3
SEPARADA 250 191 60 79 77
\/ Area Metropolitana de Lima.
Fuente: Instituto Nacional de Estadistica e Informatica.- Encuesta Nacional Demogréfica y de
Salud familiar (ENDES).
90EJEMPLO 2.16 Un titulo no recomendable seria por ejemplo:
“CUADRO QUE MUESTRA LA DISTRIBUCION DE LAS DEFUN-
CIONES EN LA PROVINCIA DE LIMA, DURANTE EL ANO 1990
CLASIFICADOS DE ACUERDO CON LA EDAD Y EL SEXO DELOS
FALLECIDOS”.
EI titulo recomendable seria:
“DEFUNCIONES POR EDAD Y SEXO, PROVINCIA DE LIMA: 1990”
Los dos titulos son completos, sin embargo el segundo es mucho més conciso.
CUADRO PROPIAMENTE DICHO: Es la parte del cuadro que contiene la
informacién y consta de un conjunto de casillas o celdas, dispuestas en columnas
y filas. Sus elementos esenciales son: encabezamiento de las columnas, columna
principal o matriz y cuerpo.
ENCABEZAMIENTO: Es la primera fila del cuadro, en el se explica las
categorias, y el objeto de cada una de las columnas, es decir indica la naturale7a de
los datos inscritos en cada celda que se hallan debajo. Deben ser breves y explicitos.
Por ejemplo, en el cuadro 2.1. El encabezamicnto es: el drea, urbana y rural y la
region natural subdividida en AML, resto de costa, sierra y sclva; y el estado
conyugal.
COLUMNA PRINCIPAL O MATRIZ: Es aquella en que se anotan las catego-
rias o las diferentes clases de la escala de clasificacion utilizada. Por ejemplo, en el
cuadro 2.1, la columna principal esta constituido por el estado conyugal: soltera,
casada,... , separada.
CUERPO: Es el conjunto de celdas 0 casillas, que son las intersecciones de filas
y columnas, donde estan anotados los datos numéricos (Ver cuadro 2.1)
NOTAS EXPLICATIVAS O CALCE: Contiene habitualmente la fuente de los
datos representados y cualquier nota aclaratoria sobre el contenido del cuadro.
FUENTE: Es la indicaci6n al pie del cuadro que sirve para nombrar la entidad
responsable de donde se obtuvieron los datos (Ver cuadro 2.1).
2.4.1.2 ELABORACION DE UN CUADRO ESTADISTICO
No es facil la elaboracién de un cuadro. Se deben plantear cuidadosamente su
tamaiio, las columnas y la distribuci6n de la informacién por orden de importancia, que,
por lo general, no es el orden alfabético.
Es necesario ser cuidadoso en la eleccién de las columnas y sus encabezamientos
ya que en ellas se pondran en evidencia relaciones que interesa destacar.
91
También podría gustarte
ESTADISTICA
Aún no hay calificaciones
ESTADISTICA
115 páginas
Capitulo 1
Aún no hay calificaciones
Capitulo 1
94 páginas