94% encontró este documento útil (17 votos)
47K vistas463 páginas

Estadistica Descriptiva - Rufino Moya Calderón USER201283

Cargado por

Juan Perez
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF o lee en línea desde Scribd
94% encontró este documento útil (17 votos)
47K vistas463 páginas

Estadistica Descriptiva - Rufino Moya Calderón USER201283

Cargado por

Juan Perez
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF o lee en línea desde Scribd
METI Te Ua RUFINO MOYA CALDB CONTENIDO 1 ESTADI{STICA 2 ORGANIZACION Y GENERALIDADES... 1 CLASIFICACION DE 35 1a {Qué es estadistica? 1 1.2 Divisién de la estadistica 2 21 Introduccién... 35 1.2.1 Estadistica descriptiva . 2 | 22 Revisién y correccién de Jos 1.2.2 Estadistica inferenci: 3 .- 35 13 Poblacién y muestra 7 23 Tablas de distribucién. de. 14 Usos de la estadistica. 12 frecuencias ... 36 14.1 Laestadfstica en el desarrollo 23.1 Datos de variables discretas 36 de la investigaci6n 13 2.3.1.1 15 El método estadfstico 14 1.6 Recoleccién de los datos 16 2.3.2 Datos de variables continuas 52 1.6.1 Algunos procedimientos y 2.3.2.1 Limites reales de clases ...... 69 métodos para recolectar datos 17 | 2.3.2.2 Simetria de una tabla de 1.6.2 Principales procedimientos distribucién de frecuencias. 73 para recolectar informac.sn 23.3 Datos de variables en ciencias sociales, salud, cualitativas .... 18 | 23.4 — Diagrama de hojas y tallos. 79 17 21 =| 23.4.1 Ventajas de los diagramas 1.8 _ Disefio 0 elaboracién de de hojas y tallos ... 81 formularios ww 25 | 2.3.5 Problemas de repaso 2A..... 82 18.1 Principios bisicos que se 2.4 — Representacién tabular y deben tener en cuenta en la F confeccién de formularios.. 26 24.1 19 Ventajas del empleo de 2.4.1.1 Partes de un cuadro muestras estadistico .. 89 1.10 Desventaja del empleo de 2.4.1.2 Elaboracién de un cuadro. muestras .... a) estadistico ... we 91 L1L Condiciones de una buena 2.4.1.3 Enrores de la ‘presentacién muestra .. de cuadros.... en 1.12 Tipos de muestras 2.4.1.4 Pasosa nope al leer un 1.12.1 Métodos para obtener : muestras probabilisticas ..... 24.2 — Representacién gréfica 92 1.12.1.1 Muestreo aleatorio simple 2A21 Veuajas ydeaveatajas del 1.12.1.2 Muestreo sistematico 2422 93 1.12.13 Muestreo estratificado .. 2423 1.12.1.4 Muestreo por conglomerados 33 trazado de gréficas lineales. 93 Principales tipos de gréficos 94 Graficos de Darras wuss 95 Grafico de barras dobles, multiples ... 97 2.4.2.7 Grafico de barras compuestas o proporcionales 100 Pictograma o pict6grafos..... 102 Graficos de sectores 0 pastel 103 Diagrama de frecuencias .... 109 Histograma de frecuencias . 111 Polfgonos de frecuencias .... 114 Poligonos de frecuencias acumuladas. Ojivas 114 2.4.2.14 Grdficas de linea ... 3 METODO PARA EL ANALISIS DESCRIPTIVO DE DATOS CUALITATIVOS. .. 130 3.1 Introduccién.. 130 32 33 3.4 3.5 Porcentajes... 3.5.1 Porcentaje de Cambi 134 3.5.2 Porcentaje de error. 135 3.6 Tasas.. 137 3.6.1 Tipos de tasas 138 4 METODO PARA EL ANALISIS DESCRIPTIVO DE DATOS CUANTITATIVOS ....seecee 141 4.1 Introduccién... a 141 42 Estadigrafos de posicién.... 142 4.2.1 Media aritmética.. 4.2.1.1 Media de la poblacién 4.2.1.2 Propiedades de la media aritmética ..... 4.2.13 Métodos abreviados de 4.2.1.4 4.2.15 4.2.1.6 4.2.17 4.2.1.8 4.2.2 4.2.2.1 4.2.2.2 4.2.2.3 423 423.1 4.23.2 4.23.3 4.24 4.24.1 425 42.6 4.2.6.1 4.2.6.2 4.2.63 42.6.4 42.65 4.2.7 428 4.2.9 4.2.9.1 4.2.10 4.2.10.1 4.2.11 cdlculo de la media aritmética .. Media aritmética de , distribuciones simétricas .... Media aritmética a partir de submuestras 159 164 165 Media aritmética ponderada 170 Ventajas de la media aritmética 176 Desventajas de la media aritmética ... Media geométrica Desventajas de la me geométrica .. a Aplicaciones ha la media geométrica .. a Propiedades de la media geoménica ... Media arménica Propiedades de la media Ventajas y desventajas .. Aplicaciones de la media arménica .... Media cuadratica .. Propiedad de la media cuadritica ... Media de potencias 176 177 Mediana..... CaAlculo de la mediana ........ 192 Método gréfico para obtener la mediana... a Propiedades de la mediana . 205 Ventajas de la mediana....... 208 Desventajas de la mediana.. 208 Cuantiles Cuartiles Deciles ... Clculo de los deciles Percentiles... CAlculo de los percentiles 4.2111 4.2.11.2 42.113 4.2114 4.2.12 42.13 43 43.1 43.2 433 43.4 43.4.1 43.4.2 43.4.3 4344 Calculo de 1a moda de datos tabulados .. Moda de una distribuci simétric: Ventajas de la moda Desventajas de la mod Relacién entre moda, media y mediana en distribuciones simétricas y asimétricas ...... 238 Problemas de repaso 4A ..... 240 Estadigrafos de dispersién.. 256 Introduccién...... . 256 Desviacién media absoluta. 258 Desviacién mediana absoluta..... » 261 Varianza y desviacién tfpica 262 Férmulas de trabajo para el cAlculo de la varianza . 267 Propiedades de la varianza . 270 Varianza calculada a partir de submuestras ... see Métodos abreviados de cAlculo de Ja varianza ......... Desviacién tipica o desviacién estandar.... Propiedades de la desviacién tipica . Interpretacién y aplicaciones de la desviacién tipica ........ 286 Verificacién del célculo de la desviacin tipica 289 Ventajas de la desviacién tipica .. Correccién Sheppard .......... 290 Relaciones empiricas entre las medidas de dispersin ... 290 Medidas de dispersién telativa 291 Momentos . 298 Relaciones entre momentos 305 Problemas de repaso 4B ..... 307 Medidas de concentracié6n .. 322 45.21 Curva de concentracién ...... Indice de concentracién ...... 324 Concentracién y dispersién 328 Medidas de forma de la distribucién .. 332 332 Coeficientes de Asimetria .. 333 Medidas de apuntamiento 0 curtosis .. 341 Formas de medir la curtosis 341 5 DISTRIBUCIONES BIDIMENSIONALES ........ 354 SA 5.2 iblas estadisticas bidimensionales 355 5.2.1 Frecuencias relativas . . 357 5.2.2 Distribuciones marginales .. 359 5.3 Representacién gréfica ....... 363 54 Distribuciones condicionadas .. . 369 3.5 Descripcién numérica de las variables estadisticas cuantitativas bidimensionales 55.1 Medias y varianzas marginales 5.5.2 Covarianza 5.5.3. Varianza y covarianza 5.6 Diagrama de dispersion . 57 Correlacién lineal ... 5.7.1 Otros coeficientes de correlacién 58 Correlacién y causalidad 59 Regresién lineal simple .. 5.9.1 Estimacién por el método de minimos cuadrados..... 6 SERIES CRONOLOGICAS ... 6.3.1 6.3.2 63.3 6.3.4 64 64.1 6.4.2 643 644 Introduccién.. om Concepto y tipos de series cronolégicas.. see 394 Tipos de series cronolégicas 396 Componentes de una serie cronolédgica .. Tendencia secular 398 Movimientos cfclicos. 399 Movimientos estacionales .. 399 Movimientos irregulares 0 al azar ot Anilisis de las series cronolégicas...... Estudio de la tendencia. Método de mano alzad: Método de Ios semipromedios.. a Método del movimiento medio ..... Método de mfnimos cuadrados ... - 394 397 7 NUMEROS INDICES ........ 414 Wa TAA Definicién y clasificacién... 414 Indices simples .... 415 7.1.2 Indices compuestos...... 416 7.1.2.1 Indices compuestos no 7.1.2.2 Indices compuestos ponderados.... 72 Indices de precios, de 7.21 7.22 723 73 Cambio de base 7.3.1 Empalme de indices 14 Indices en cadena.. 75 Indices de precios al consumidor (IPC) - 439 76 Deflacién estadistica. . 440 7.6.1 Salario real... 7.6.2 Indice mensual y acumulado .... 5 77 Problemas de repaso 7A ..... APENDICE A (Sumatorias) os 451 BIBLIOGRAFIA TABLA DE NUMEROS ALEATORIOS... 457 ESTADISTICA GENERALIDADES 1.1 ,QUE ES ESTADISTICA? La palabra “estadistica” como muchas otras palabras tienen varios significados. En el Ienguaje comin, el término “estadistica” significa un poco mds que datos o informaciones numéricas y se emplea generalmente en plural. Por ejemplo, el cronista deportivo, mientras comenta las incidencias de la primera etapa de un partido de fiitbol puede decir, estas son las estadisticas para la primera etapa; equipo A: disparos al arco diez, errados nueve y acertado uno, tiros de esquina seis, etc., equipo B: disparos al arco ocho todos errados, tiros de esquina siete, etc. Los comentaristas de radio otelevisién informan diciendo: las estadisticas del Producto Bruto Interno (PBI) de la Industria Manufacturera pasaron de un 15.3% en 1988 a un 11.7% en 1990. Entre Marzo del 88 y Agosto del 90 los sueldos han tenido una caida del 60%. Segin el Instituto Nacional de Estadistica e Informatica (INED), el nivel acumulado de inflacién durante el primer semestre del presente afio lleg6 a 230.5%. Una persona cualquiera puede preguntar: jhas visto las iltimas estadisticas acerca del empleo?, etc. Naturalmente, encada uno de estos comentarios, las personas est4n usando la palabra “estadistica” en forma correcta, sin embargo, cada uno la usa en una forma diferente para un propdsito también diferente. El término “estadistica” también se emplea para designar un drea de estudio, una disciplina; por ejemplo, cuando se emplea esta palabra en el titulo de un libro o cuando nos referimos a los cursos de estadistica de la curricula de una profesién, etc. Sin embargo ambos significados de “estadistica” estén muy relacionados debido a que las “estadisticas” consideradas como datos numéricos en gran parte son Ja “materia prima” de la “Estadistica” como disciplina. La evoluci6n y desarrollo de la “Estadistica” en el mundo actual, es tal que seria dificil dar una definicién precisa de este concepto. A riesgo de agregar una més a las tantas existentes daremos la siguiente. DEFINICION 1.1 La Estadistica es una ciencia que proporciona un conjunto de métodos que se utilizan para recolectar, resumir, clasificar, analizar e interpretarelcom- portamiento de los “datos” con respecto a una caracteristica materia de estudio o inves- tigacién. En primera instancia se encarga de obtener informacién, describirla y luego usa esta informaci6n a fin de predecir “algo” respecto a la fuente de informacién. La Estadistica actual es el resultado de la unién de las disciplinas que evolucio- naron independientemente hasta confluir en el siglo XIX: la primera es el “cdlculo de probabilidades”, que nace aproximadamente en el siglo XVII como teoria matematica de los juegos de azar; la segunda es la “Estadistica” 0 ciencia del estado, del latin status (aunque sobre este significado etimolégico de estadistica no hay un criterio unico de los autores, pues para unos se deriva del gricgo statera que significa balanza, para otros se deriva del alem4n staat que significa estado) que estudia la descripcién de los datos y tiene raices mds antiguas. La integracién de ambas lineas de pensamiento da lugar aesta nueva ciencia: 1.2. DIVISION DE LA ESTADISTICA El campo de la Estadistica generalmente estd dividido en dos grandes reas: Estadistica Descriptiva y Estadistica Inferencial. 1.2.1ESTADISTICA DESCRIPTIVA De la definicién de Estadistica, el lector notard dos aspectos bien remarcados, él primero: obtener informacién, procesarla y describirla, es lo que constituye la Estadis- tica Descriptiva. Precisaremos con la definicién siguiente. DEFINICION 1.2 Estadistica Descriptiva es el conjunto de métodos que implican larrecolecci6n, presentaci6n y caracterizacién de un conjunto de datos a fin de describir en forma apropiada las diversas caracteristicas de estas. Es decir, un estudio estadistico se considera “descriptivo” cuando sélo se analiza y describe los datos. EJEMPLO 1.1 Un gerente de personal desea conocer las aptitudes de cinco secretarias que trabajan en una dependencia particular de una compafiia. Se aplica una prueba de aptitudes a las cinco secretarias y las calificaciones son 85, 90, 93, 82 y 95 puntos. Supongamos que la medida estadistica que emplea el gerente de personal es la aptitud 2 promedio o media aritmética, la cual cs la suma de los valores observados dividida entre el nimero de observaciones. Entonces, la calificacién promedio es: 85 + 90+ 3 + 824 95 = 48 = 89 puntos El resultado se limita a los datos obtenidos en este caso particular y no implica ninguna generalizaci6n acerca de las aptitudes de las secretarias de otras oficinas de la misma compaiiia. Es decir, el gerente estd usando estadistica para describir aptitudes de las secretarias de esa oficina. Este método es de naturaleza descriptiva, debido a que cl promedio condensa y describe la informacién obtenida. Los graficos, tablas y mapas que muestra datos de tal forma que sean mis faciles de entender son todos ejemplos del uso de Estadistica Descriptiva. 1.2.2 ESTADISTICA INFERENCIAL El segundo aspecto de la definicién de Estadistica es: predecir “‘algo” con respecto ala fuente de informacién, es lo que constituye la Estadistica Inferencial o Inferencia Estadistica, la definiciOn es la siguiente. DEFINICION 1.3 LaInferencia Estadistica es el conjunto de métodeso técnicas que posibilitan la generalizacién o toma de las decisiones en base a una informaci‘sn parcial obtenida mediante técnicas descriptivas. Es decir, un estudio estadistico, se considera inferencial cuando se pretendeinferir o predecir conclusiones que atafien a toda Ja fuente de informacién de donde proviene los datos. Ahora bien esta prediccién se hace con un cierto grado de confianza; este grado de confianza se mide por la “probabilidad”. Por tanto, el cAlculo de probabilidades, piedra angular de la inferencia estadistica estA como puente entre las dos partes de la Estadistica. Aunque la Estadistica descriptiva es importante para caracterizar y presentar in- formaci6n de los datos, sin embargo, el desarrollo de 1a Inferencia Estadistica es lo que ha conducido a la gran expansidn en la aplicacién de los métodos estadisticos. EJEMPLO 1.2 Suponga ahora en el ejemplo 1.1, que el gerente de personal desea conocer la aptitud promedio de todas las secretarias de la compajiia, pero carece de tiempo c de los recursos para aplicar una prueba de aptitud a todas ellas. Entonces decide usar Ja aptitud promedio de las cinco secretarias para estimar la aptitud promedio de todas las secretarias de la compafiia. El proceso de estimar esta aptitud promedio global serd un problema de Inferencia Estadistica. EJEMPLO 1.3 Un fabricante de medicinas afirma que una nueva vacuna contra el catarro desarrollada por su compaiiia tienc una efectividad del 95%, estoes, en promedio 95 de cada 100 personas que emplean la vacuna pasardn el invierno sin contagiarse de ratarro. Como resulta imposible probar la vacuna en todas las personas, consideremos que 40 personas han recibido la vacuna, que de las 40, 35 no se contagiaron de catarro. Vemos que si la afirmaci6n del fabricante es correcta se esperaria que 38 personas (40 x 0.95 = 38) pasaran el invierno sin catarro. Puesto que el ntimero observado es 35, lo cual es inferior al ntimero esperado 38, gdeberd rechazarse la afirmacién del fabricante en base a la evidencia? El proceso de decisién de rechazar 0 no la afirmacién del fabricante es un problema de Inferencia Estadistica, EI problema también puede plantearse como sigue: La proporcién de personas no contagiadas, la cual es el cociente del mimero de personas observadas que no se contagiaron entre el nimero total de personas observadas. Es decir, la proporcién de Personas no contagiadas es: esia proporcién expresado en porcentaje es 100(0.88)% = 88%. Entonces la evidencia indica s6lo un 88% de efcctividad de la vacunaen cuestién, quees menora la Afirmacién del fabricante. El proceso de decidir, se rechaza 0 no la afirmaci6n del fabricante es un problema de inferencia estadistica. EJEMPLO 1.4 Cuatro bombillas de marca A dejaron de funcionar después de 1100, 980, 900 y 1020 horas de uso continuo. Cinco bombillas de marca B dejaron de funcionar después de 960, 1050, 1065, 845 y 980 horas de uso continuo. Se llega a las siguientes conclusiones: a. Laduracién promedio de las cuatro bombillas marca A es de 1000 hs, mientras que la duracién promedio de las cince bombillas marca B es de 980 hs. b. La duracién promedio dc todas las bombillas marca A es mayor que la de todas las bombillas marca B. ¢. La diferencia entre los dos promedios es de 20 hs. a. La diferencia entre los dos promedios es demasiado pequefio para llegar a la conclusi6n de que las bombillas marca‘A son mejores que las bombillas marca B. ¢. Sise selecciona y prucba otra bombilla marca A, probablemente durara més que el promedio de las bombilias marca B. f. Ud. decide comprar bombillas marca A en vez de bombillas marca B. ‘les de las conclusiones provicnen de la Estadistica Descriptiva y cudles de la Estadistica? SOLUCION: a. La duracién promedio de las cuatro bombillas marca A es 100 1 200 O80 + 1020 400 = 1.000 hs. La duracién promedio de las cinco bombillas marca B es 1050 + 960+ 1065 + 845 + 980 4200 ~ 80 hs como se est4 usando Estadistica para describirel comportamiento s6lo de los datos observados y no para una generalizacién, la conclusién proviene de Estadistica Descriptiva. b. Puesto que se esta generalizando, que la duracién promedio de todas las bombillas marca A es mayor que todas las bombillas marca B, la conclusién proviene de la Estadistica Inferencial. c. Vemos que: 1000 - 980 = 20 hs, es decir la conclusién proviene de la Estadistica Descriptiva. d. Seestdusandolos promedios de los datos observados para inferir sobre la diferencia de todas las bombillas. Por lo tanto, es Inferencia Estadistica. e. Se hace una generalizaci6n de que cualquier bombilla marca A duraré mds que el promedio de las bombillas marca B, proviene de Inferencia Estadistica. f. Ud. esta generalizando que las bombillas marca A duran mas que las bombillas marca B. Por lo tanto, es Inferencia Estadistica. PROBLEMAS 1-1 1. En una prueba de aptitud, cuatro trabajadores recibieron calificaciones de 85, 90, 82 y 83. Cuatro trabajadoras recibieron calificaciones de 88, 87, 89, 92. De las siguientes declaraciones realizadas con base en estas calificaciones, identificar aquellas que se derivan de métodos descriptivos y aquellos que se derivan de Inferencia Estadistica. a. La calificacién promedio de los cuatro trabajadores es 85, y la calificacién promedio de las cuatro trabajadoras es 89. b. La aptitud promedio de todas las trabajadoras es probablemente mayor que lade los trabajadores. ¢c. En la siguiente prueba de aptitudes, probablemente los trabajadores reciban calificaciones mds bajas que las trabajadoras. 4. 5. Cinco neumiaticos para automévil de marca A y cuatro neuméaticos de marca B se prueban para determinar su duraci6n en servicio. La duracién para los neumaticos marca A, son: 36 000, 29 000, 33 000, 37 000 y 40 000 km; para la marca B, son: 29.000, 31 000, 33 000 y 35 000 km. De las siguientes declaraciones hechas en base a estas cifras, identifique las que provienen de métodos descriptivos y las que provienen de inferencia estadistica. a. La duraci6n promedio de los cinco neuméticos marca A es mayor que la de los cuatro neumiticos marca B. b. Probablemente, la duracién promedio de todos los neumaticos marca A sea casi 35 000 km, mientras que la de los neumAticos marca B sea aproximadamente de 32.000 km. c. Siel precio de los neumaticos marca A es el mismo que de los neumdticos marca B, Ud. recomendaria los neumdticos marca A a todos sus amigos y parientes. En cuatro pruebas de matemiatica, Juana recibié calificaciones de 17, 18, 15 y 14; mientras que Juan recibié calificaciones de 14, 13, 16 y 13. A partir de estos datos sc llcga q las siguientes conclusiones, gcudles de éstas incluyen el método descrip- livo y cuales se obtienen mediante la inferencia estadistica?. a. El promedio de las calificaciones de Juana es 16 y el promedio de las califica- ciones de Juan es 14. b. Juana es mejor estudiante que Juan. c. Probablemente en la siguiente prueba, Juana obtenga calificaciones mds eleva- das que Juan. d. La diferencia entre los dos promedios es 2 puntos. 4En qué contexto se emplea gencralmente la palabra “estadistica” en radio y televisi6n? Clasifique cada una de las afirmaciones siguientes ya sea como inferencias 0 métodos descriptivos. a. El afio pasado, en la Universidad Nacional del Callao, el puntaje promedio del examen de admisién fue 85. b. El Dr. Garcia, un écdlogo, informé que en cierto rio de la selva la carne de los peces conticnen un promedio de 300 unidades de mercurio. c. La compafiia “RM” predijo quién seria el ganador en una eleccién presidencial después de conocer los resultados de las votaciones de 25 mesas de sufragio de las 2 800 mesas que hubo en total. 1.3 POBLACION Y MUESTRA La palabra “poblacién” igual que sucede con el término “estadistica” tiene varios significados. En el uso comin, se refiere‘a todas las personas de una regi6n, localidad pais. (La poblacién de Limaes 6 millones; la poblacidn de China es 900 millones, etc). El concepto de “poblacién”, estadisticamente hablando, es un concepto mds amplio de loque se tiene al referirsea los habitantes de un Departamento o un Pais; poblacién desde el punto de vista estadistico se define como sigue. DEFINICION 1.4 Poblacién es la coleccién de todos los individuos, objetos u obser- vaciones que poseen al menos una caracteristica comin. Los términos poblacién y universo, suelen usarse indistintamente. EJEMPLOS 1.5 Las edades de los estudiantes del Peri. Las edades de los alumnos del sistema univertario peruano. Los didmetros de la produccién diaria de tuercas. Los pesos de los melones de una cosecha de la cooperativa los “meloneros”. Las placas de los automéviles que circulan en un pais. Los pacientes con poliomiclitis sometidos a una determinada terapetitica de rehabilitaci6n. g. Los enfermos de SIDA, tratado con uno de tres tratamientos diferentes. Peangsp En cada uno de los ejemplos anteriores, existe al menos una caracteristica comin para todos los elementos integrantes de la poblacién. Y cada situacién diferente implica una poblacidn diferente. En el ejemplo 1.5g, en lugar de una poblaci6n, se tiene tres poblaciones diferentes, cada poblacién esté definida por cada uno de los tres tratamien- tos que se utilizan. Es importante definir la poblaci6n de acuerdo a la naturaleza y extensién del problema bajo estudio. AI hablar de naturaleza, entenderemos la caracteristica materia de estudio; es decir, si quisiéramos estudiar los pesos, alturas y edades de las personas, la poblacién estard formada por los pesos, alturas y edades respectivamente. Y al hablar de extensién definimos la poblacién tan extensa como sca necesario; es decir, si quisiéramos estudiar las caracteristicas anteriores en los alumnos del sistema universi- tario peruano, Ia poblacién estar4 referida al sistema universitario peruano; y si estuviéramos interesados en estudiar éstas caracteristicas en los alumnos de las universidades de Lima, la poblacién estard referida solamente a ellas. Al referirnos a la naturaleza del problema, optamos también por distinguir entre lo que podemos Ilamar poblacién “objeto” y poblacién “objetivo”; entendemos por poblacién objeto, el conjunto de elementos materia de estudio y por poblacién objetivo las diferentes 7 medidas de la caracteristica que nos interesa de la poblacién objeto. Aclaremos esto con el ejemplo siguiente: al estudiar el rendimiento académico de los alumnos en el sistema universitario; la poblacin objeto estar constituida por los alumnos del sistema ylapoblaci6n objetivo, por lasnotas, que miden el rendimiento académico. Es necesario ademés anotar que: (a). Toda poblacién debe definirse de manera que la ubicacién en ella de cualquier elemento pueda decidirse de manera inequivoca. (b). Toda poblacién puede ser real o virtual. Por otro lado obsérvese, por ejemplo, al hablar de los “‘alumnos del sistema uni- versitario”, definimos una poblacién acotada, por Jo tanto finita. En cambio al hablar de los “pacientes con poliomielitis, sometidos a una determinada terapéutica de rehabili- taci6n” definimos una poblacién no acotada, por lo tanto virtualmente infinita, cuyos elementos son, tanto las personas que ya han sido sometidos a la referida terapia, como los que sean en el futuro. Es decir, la poblaci6n puede clasificarse como finita o infinita. POBLACION FINITA Unapoblaci6n finita es aquella que tiene un némero limitado de elementos. Por ejemplo, las estaturas de todos los estudiante que actualmente estudian en las universidades del Peni. Notacién: El tamaiio de la poblaci6n finita lo denotaremos por.“N”. POBLACION INFINITA Una poblacién infinita es aquella que no tiene limite o cotas, es decir, tiene un nimero infinito de elementos. Por ejemplo, la calidad de todas las unidades producida mediante un proceso manufacturero. DEFINICION 1.5 Parametroes una medida resumen que describe una caracteristica de toda la poblacién. Los pardmetros son caracteristicas medibles de una poblacién y naturalmente para determinar su valor es necesario utilizar la informacién de toda la poblacién. Por ejemplo, la edad promedio de los escolares del primer afio de secundaria de los colegios del Pert, es una caracteristica medible (por tanto un parametro) de la poblacién formada por las edades de todos los escolares del primer afio de secundaria del pais; es pués la media de la poblacién. Similarmente, la proporcién de todos los telespectadores que ven un cierto programa dominical a cierta hora, es una caracteristica medible (por tanto un pardmetro) de la poblacién formada por todos los telespectadores de ese programa dominical; es la proporcién de la poblacién. Los pardmetros mds usados son: - Lamedia poblagional = 41 (que se lee mu) - Proporcién poblacional = p (que s¢ lee pe) - Desviacién tipica poblacional = g (que se lee sigma) Obviamente es imposible calcular el verdadero valor de cualquier parametro de una poblaci6n infinita. En la mayor parte de los casos iampoco resulta practico (0 eco- némico) calcular el verdadero valor de cualquier pardmetro de una poblaci6n finita. Por tanto, resulta necesario realizar inferencias acerca de los pardmetros de la poblacién, a partir de la informaci6n contenida en una parte de la poblacién. DEFINICION 1.6 Muestra es una parte o un subconjunto representativo de la poblacién. Y al proceso de obtener la muestra se llama muestreo. Notacién: El nimero de observaciones (0 tamafio) de la muestra se denota por “n”. Desde luego, el ntimero de observaciones en una muestra es menor que el nimero de observaciones posibles en la poblacién, de otra forma, la muestra seria la poblaci6n misma. La seleccién y el estudio de una muestra, tiene por objeto la extraccién de conclusiones que sean v4lidas para la poblacién del cual sé obtuvo dicha muestra. En otras palabras, nuestro propésito es conocer la poblaci6n, para lo cual se extrae una muestra de ésta. Por ejemplo, si se desca estimar el gasto promedio anual de los estudiantes universitarios del Peri, se extraeria una muestra formada por cierto nimero de estudiantes, en seguida se determinaria cl gasto anual correspondiente a cada uno de ellos y después se obtendria el promedio de estos gastos. Se utiliza una muestra debido aquesimplemente no se tiene el tiempo y los recursos para establecer contacto con todos los estudiantes universiiarios del pais, aun cuando es posible hacerlo. En base al promedio de la muestra (promedio muestra!) obtenido de esta forma, se realiza una inferencia acerca del gasto promedio de todos los estudiantes universitarios del Peri. Hemos expresado, también que es imposible calcular el verdadero valor dv cualquier pardmetro de una peblacién infinita, es pués necesario emplear una informa- cién muestral. Por ejemplo, para determinar la proporcidén de partes defectuosas producidas en cierto proceso de fabricacién, los técnicos de control de calidad examinan un lote de unidades producidas para determinar el nimero de defectuosas contenida cn él. (Generalmente un lote de este tipo, el cual constituye una muestra, se toma ;1 intervalos regulares de tiempo). La proporcién de la poblacién, lacual es un parametre que se desconoce, es la proporcién de todas las unidades defectuosas producidas en cf proceso; se estima mediante la proporcién ce la muestra, la cual es la proporcidn d= las unidades defectuosas contenida en la muestra. Asi, si en un lote de 300 unidades producidas en cl proceso, el ingeniero de control de calidad encuentra 45 defectuosis, entonces la proporcién de defectuosas en la muestra seré 45/300 = 0.15 (15%). Obsérvese, que tanto el promedio de la muestra, como la proporcién de la muestra en los ejemplos considerados en el parrafo anterior son caracteristicas medibles de las mucstras, lo cual da lugar a la definici6n siguiente. DEFINICION 1.7 Estadistico o Estadigrafoes una medida resumen que describe una caracteristica de la muestra. Por ejemplo, el C.I. (cocficiente de inteligencia) promedio de una muestra de escolares de primer grado seleccionada de entre todos los estudiantes de primer grado del Peri, es un estadistico; pués se trata de una caracteristica de la muestra. Similarmen- te, la proporcién de una muestra de telespectadores de un cierto programa a cierta hora, es también un estadistico; ya que se trata de una caracteristica de la muestra de telespec- tadores. EJEMPLO 1.6 Suponga que los ingresantes al primer afio de su universidad consta de 3 000 estudiantes, todos los cuales han dado un examen tnico de seleccién que se aplicé a todos los estudiantes que han ingresado a primer afio de universidad en el pais. Explique las circunstancias bajo las cuales las calificaciones recibidas por los estudian- tes ingresantes al primer afio de su universidad puede considerarse como: a. una muestra, b. una poblacién. SOLUCION: a. Puede haber mds de una circunstancia. Por ejemplo, si-se quiere conocer, la calificaci6n promedio de todos Ios ingresantes a las universidades del pais, la poblacién estaria formada por las calificaciones de todos los ingresantes a primer afio de universidad en el pais, entonces las calificaciones de los ingresantes a su universidad seria una muestra. b. También puede haber varias circunstancias. Por ejemplo, si se desea conocer la calificacién promedio de todos los ingresantes a su universidad. La poblacién estarfa compuesta por Jas calificaciones de todos los ingresantes a su universidad. Tendremos asi, una circunstancia en la cual las calificaciones recibidas por los estudiantes ingresantes a primer afio de su universidad se consideran como poblacién. EJEMPLO 1.7 Se realiza una votaci6n preliminar para determinar las preferencias de los electores en una eleccién presidencial. Con este fin se entrevistan 1500 electores registrados y entre ellos 860 estén a favor del candidato A. Responda lo siguiente: a. zQué constituye la muestra? b. zQué constituye la poblacién? c. ¢La poblacién es finita o infinita? d. © 4Cudl es el parémetro de la poblacién? e. ¢Cuél es el estadistico de la muestra? 10 SOLUCION: a. b. c d. e La muestra est4 constituida por las respuestas de 1 500 electores registrados. La poblacién esta constituida por las respuestas de todos los electores registrados. La poblacién es finita. El pardmetro de la poblaci6n seré la proporcién de tédos los electores registrados que est4n a favor del candidato A. El estadistico de la muestra es la proporcién de los 1 500 electores registrados que estan a favor de! candidato A. Es decir 860/1 500 ~ 0.57 (57%). PROBLEMAS 1-2 1. 2. Durante cicrta semana, en un restaurante se atendié a 2 300 clientes. Explique las circunstancias bajo las cuales estos 2 300 clientes puedcn considcrarse como: a. una muestra y b. una poblacién Supéngase que el 60% de todos los electores registrados en un pais son integrantes de un partido A y el 40% no. A partir de una mucsira de 500 electores, sc encuentra que 250 pettenecen al partido A. Responda lo siguiente: . {Cual es la proporcién de electores en Ja muestra que pertenccen al partido A? . {Cua cs la proporcién de electorcs cn la poblacion que pertenccen al partido A? . Cual es la poblacién? ges finita o infinita? . {Cual es cl parimetro de la poblacién? e. gCual cs el cstadistico de la muestra? aeoce Establezca la veracidad o falsedad de cada una de las proposicionés siguientes. Reemplace cada enunciado falso por la proposici6n verdadera correspondicnt: a. La poblacién es una coleccién de todos los elementos que estamos estudiand.. b. Un estadistico es una caractéristica de la poblacién. c. |. Inferencia Estadistica, formula infcrencias con respecto a una mucstra. Se realiza un muestrco de opinion para determinar si las amas de casa de Lim: preficren un detergente de una marca A con respecte a vira. Con este fin se entrevistan 2 000 amas de casa y entre cilas 1 506 prcficron la marca A. Respond: lo signicnte: a. (Qué constituye a la muestra? b. {Qué constituye a la poblacién? c. jLa poblaci6n es finita o infinita? d. {Cual es cl parémetro de la poblacién? e. (Cual es el estadistico de la muestra? u $. Para cada una de las siguicnwes proposicioncs, definase la poblacién que se esta 8 D mucstreando y describa cl pardémetro de Ia poblacién y cl estadistico muestral. a. Se entrevista a 800 estudiantes universitarios acerca de sus opiniones (respucs- tas si o no) sobre la legalizacién del aborto. b. Sc entrevista a 300 trabajadores no sindicalizados para determinar sus opiniones (respuestas si 0 no) acerca de la sindicalizacién. ¢. Se selecciona una muestra de los tornillos producidos por una maquina automé4- tica y se prueban para determinar la proporcién de defectuosos. d. Se selecciona una muestra de los becerros nacidos en Cajamarca en 1989 y se lleva un registro de sus pesos al nacer. 6. Defina poblaciones apropiadas y a partir de ellas seleccione las muestras siguien- tes: a. Se Ilamé por teléfono a personas de 200 hogares de cierta ciudad y se les pidié mencionar el nombre de su candidato para la alcaldia. b. Se probaron 200 pares de un nuevo tipo de zapatos para futbolistas en un torneo profesional y, en promedio duraron 4 meses. c. Encincoocaciones diferentes, aun Ingeniero le tomé6 21, 26,24, 22 y 21 minutos conducir su auto de su casa en las afueras de la ciudad hasta su oficina en el centro de la ciudad. 1.4 USOS DE LA ESTADISTICA La Estadistica proporciona un conjunto de métodos aplicables en todas las dreas cientfficas donde se acumulan, se analizan y se interpretan datos. Resulta, pués muy dificil nombrar areas donde no se aplica. Citaremos aqu{ brevemente algunos campos en los cuales los métodos estadisticos juegan un papel principal, como: Salud y Medicina, Biologia, Economia, Administracién, Contabilidad, Ingenieria, etc. y en la investigacién Cientifica. &N SALUD Y MEDICINA: Las estadisticas de salud incluyen toda informacién numérica relacionada de modo directo con los problemas de salud, concebidos en una escala social. Podemos citar muchos ejempios que muestran lo necesario que son las estadisticas de salud, lado a lado con los métodos para su andlisis e interpretaci6n para omentar y desarrollar una politica sanitaria adecuada. Las siguientes interrogantes y muchas mas, que encuentran respuesta en las estadisticas de salud, son una muestra de ellos: 12 iCudl es la causa més importante de muerte én ésta regién: el cAncer?, la tuberculosis?, los accidentes de trnsito?. iA qué edad resulta més alta la mortalidad y por cual enfermedad? {En qué zona, determinado tipo de enfermedad presenta una incidencia mucho mds elevada que la incidencia promedio? ; Qué condiciones prevalecen en esas zonas? jExisten algunas reas especificas o algunas épocas en que se registran preferen- temente brotes de alguna enfermedad? Algunos usos principales de las estadisticas de salud son las siguientes: - Describir el nivel de salud de una comunidad. - Diagnosticar las enfermedades de una comunidad. - Encontrar soluciones a los problemas de salud. - Determinar prioridad para los programas de salud, etc. También en salud publica, pueden presentarse problemas que reclamen estudios de cardcter expcrimental y por tanto, la planificacién de disefios experimentales, que se llevan a cabo segtin determinados principios estadisticos: la evaluaci6n de la eficiencia de una vacuna como medic: de prevenir o atenuar el efecto de una epidemia de una enfermedad dada, o la comparacién de una nueva terapia basada en la rehabilitacién fisica y el consejo psiquiatrico a pacientes cardiovasculares, con la terapia tradicional sintomatica, con vistas a la aplicacién masiva de aquella que evidencia su superioridad. Finalmente el proceso cientifico en Medicina, que tiene lugar (como en todas las ciencias) como resultado de lainvestigacién, encuentra también en laciencia Estadistica un instrumento de incalculable valor. EN ECONOMIA: La estadistica constituye uno de los pilares de la aplicacién de la teoria.econémica. Se utiliza en la descripcién de fenédmenos econémicos, en la estimacién de las relaciones econémicas, en la verificacién de las teorias econémicas y en la prediccion y previsi6n de las variables econémicas. EN BIOLOGIA: La estadistica se puede utilizar para estimar el tamajio real de la poblaci6n de una especie animal particular, la propagacién de bacterias, en mejorar la raza de los animales. 1.41 LA ESTADISTICA EN EL DESARROLLO DE LA INVESTIGA- CION El desarrollo del conocimiento en la ciencia, se caracteriza porque su« jecucién se lleva a cabo segiin un método: “El método cientifico”. La aplicacidn de est: método es lo que diferencia al conocimiento cientifico del conocimiento ordinario. 13 Las etapas del método cientifico, segiin el matematico filésofo Bertrand Russel son tres: 1. La observacién del fenémeno que se estudia. 2. La formulacién de una (0 de varias) hipdtesis mediante la cual puedan explicarse los hechos observados. 3. La verificacién de las hipétesis mediante nuevas observaciones. Esta divisi6n en etapas, sugiere, que el método cientifico esté definido por un proceso de observacién, de racionalizacién y de experimentaci6n. La estadistica desem- pefia un papel importante en cada una de las tres etapas de que consta el método cientifico de investigacién. En la primera etapa interviene, mediante la presentacién, en forma sindptica y resumida, de los resultados de la observacién, facilitando su andlisis¢ interpretacién. En esta primera etapa, la Estadistica cumple una funcién esencialmente descriptiva. En la segunda etapa interviene, proporcionando el lenguaje adecuado para la for- mulaci6n rigurosa de las hipotesis de investigaci6n. En la tercera etapa, la utilizacién del método estadistico es decisiva, no sdlo en cuanto a la planificacién y adecuado disefio del experimento, sino también en la seleccién del procedimiento de andlisis, y en la interpretacién de los resultados que se obtenga al aplicar dicho procedimiento. “El papel de la Estadistica en la investigacién es, entonces, funcionar como una herramienta en el disefio de investigacién, en el andlisis de datos, y en la extraccién de conclusiones a partir de ellos. Dificilmente puede preverse un papel mayor y mds importante. . .” (BERNARD OSTLE, Estadistica Aplicada. Ed. Limusa, Wiley, S.A.). Otras aplicaciones: Control estadistico de calidad como ya hemos indicado, en politica se puede utilizar para orientar la estrategia electoral de un partido politico; en educaci6n, ayuda a interpretar un test de inteligencia; en los negocios, ayuda a juzgar respecto a la demanda potencial de un producto mediante un estudio de mercado; en la industria, ayuda a decidir si un proceso industrial funciona 0 no adecuadamente de acuerdo con las especificaciones; también por ejemplo a prever las averias de un taller y disefiar el equipo de mantenimiento. Es obvio que en cada campo se aplican o desarrollan procedimientos especificos, como aplicaciones particulares o variantes de la teoria general. En este libro se estudiaran los métodos estadisticos descriptivos de mds ampliaaplicacién y por lotanto, de uso mas frecuente en los diferentes campos técnicos y cientificos, asi como algunos de uso menos frecuente. 1.5 EL METODO ESTADISTICO El método cientifico de investigacién se basa en dos tipos de razonamiento: el deductivo y el inductivo. El método deductivo procede de lo general a lo particular y 14 utiliza especialmente el razonamiento matematico: se establecen hipétesis generales que caracterizan un problema y se deducen ciertas propiedades particulares por razonamientos légicos. El método inductivo realiza el proceso inverso: a partir de ‘observaciones particulares de ciertos fenémenos se intenta deducir unas reglas genera- les aplicables a todos ellos. La investigacién estadistica se desarrolla utilizando el ciclo deductivo-inductivo en las siguientes cuatro etapas: Planeamiento del problema. Recoleccién de la informacién. Organizacién y clasificacién de los datos recogidos. Anilisis e interpretacién de los resultados. aere a. PLANEAMIENTO DEL PROBLEMA El primer paso de la investigacin es definir claramente los objetivos del estudio y relacionar este objetivo con los valores numéricos de las variables observables. La investigacién cientifica es una actividad con propésito (finalidad, meta) y como tal para quedar entcramente caracterizado debe dar respuesta a las siguientes interrogantes fundamentales: 1. En qué consiste el problema objeto de investigacién? 0 bien gqué se quiere conocer? Por qué o para qué se plantea su investigacién? {Sobre quién recac la investigaci6n? {Cémo se va a investigar? {Quién va a realizar la investigacién? {Dénde se va a realizar? jCudndo se va a realizar? NAVAN S6lo cuando se est en condiciones de dar respuesta a todos y cada una de esas interrogantes se puede redactar cl protocolo de un trabajo de investigacién, que es el documento basico. Los objetivos surgen al contestar la pregunta acerca de para quése va a realizar la investigaci6n, y estén directamente vinculados a la justificacién ¢ importancia de la investigacién proyectada. La hipétesis, es una conjetura (0 un supuesto, o proposicidn) acerca de determinados hechos que va mds alld (trasciende) ac los datos (cvidencia empirica) que intenta explicar. Es decir, que una hipétesis es una herramienta en la tarea cientifica, que pretende explicar o interpretar ciertos hechos, pero que va mds all4 de los mismos, aspirando a dar cucnta explicativa o predecir también algunos hechos independicntes de aquellos que los originaron. 51) Cuaniiv se ha considerado un problema cientitico y se ha logrado formular una hipétesis en relacidn al mismo, la labor investigativa posee un grado de lucidez y de claridad considerablemente mayor. Es precisamente esta claridad la que permite definir los objetivos con mucha mayor precisién y orientar la realizacién de los experimentos © la prictica de las observaciones con un alto grado de especificidad. b. RECOLECCION DE LA INFORMACION La recoleccién correcta de los datos es de extrema importancia para el investiga- dor,-que tiene que ser realizada o vigilada por éste. Para remarcarlo los investigadores han acufiado el término inglés “GIGO”, entrada de datos invalidos-salida de datos invalidos. Esta etapa consiste en: determinar los métodos de recoleccién adecuado, preparar los instrumentos de recoleccién, prueba del método y de los instrumentos de recoleccién seleccionados, y realizar la recoleccién de los datos. Algunos de los principales métodos de recoleccién se abordard en detalle en 1.6. c. ORGANIZACION Y CLASIFICACION DE LOS DATOS Aqui se debe hacer un andlisis de consistencia y ajuste de los datos. Se trata de asegurar la validez y confiabilidad de los datos recopilados. Luego se debe clasificar y tabular los datos y finalmente presentarlos en cuadros estadisticos y graficas. En el cap. 2 presentaremos en detalle cada uno de estos aspectos. d. ANALiSIS E INTERPRETACION DE LOS RESULTADOS En esta etapa se calculan indicadores y medidas resumen que describen al conjunto de datos. También se establece relaciones entre variables de modelos estadis- ticos que nos permitiran aceptar o rechazar los modelos. En este texto por tratarse de la Estadistica Descriptiva, s6lo abordaremos los primeros, que debido a su importancia sern tratacos en los capitulos 3 y 4. 1.6 RECOLECCION DE LOS DATOS Desarrollaremos aqui, la segunda etapa del método de investigacién estadistica, que comprende la recoleccién de la informacién, y fundamentalmente los principales procedimientos y métodos que son utilizados para recolectar la informacién necesaria para un estudio determinado. 16 1.6.1 ALGUNOS PROCEDIMIENTOS Y METODOS PARA RECO- LECTAR DATOS Existen tres métodos basicos con los cuales el investigador pucde obtencr los datos deseados: en primer lugar, el investigador puede recurrir a datos ya publicados por fuentes gubernamentales, industriales 0 individuales; en segundo lugar, puede disefiar un experimento para obtener los datos necesarios, y en tercer lugar, puede efectuar una encuesta. FUENTES DE INFORMACION Esel lugar, la instituci6n, la persona donde estan Jos datos que se necesitan para cada una de las variables 0 aspectos de la investigacién. Las fuentes de datos pueden ser: 1, FUENTEDEDATOSINTERNOS Esla informacién recopilada por lacmpresa (ola institucién) de los resultados de su propia gestién. Son pues las observaciones queconstantemente realizan los departamentos, administrativos, contables, comer- ciales, técnicos, etc. Estas pueden ser por ejemplo: a. Reportes financieros. b. Reportes de operaciones, que estan dadas por la informacién de la produccién, ventas, compras, estados de pérdidas y ganancias. c. Reportes especiales, es informacién adicional para andlisis especifico. 2. FUENTE DE DATOS EXTERNOS Son informaciones estadisticas claboradas por instituciones de investigacién, ya sean publicos o privados, o dependencias es- pecializadas, generalmente requeridos a nivel nacional o sectorial. 3. FUENTES PRIMARIAS Cuando la informacién estadistica es obtenida direc- tamente de la unidad de observacién. Por ejemplo, los resultados de los censos de poblacién y vivienda, indices de precios al consumidor, etc. 4. FUENTES SECUNDARIAS Cuando se obtiene informacién estadistica elabo- tada a base de los datos de fuentes primarias. El organismo oficial fundamental de datos estadisticos es el Instituto N::cional de Estadistica e Informatica (INEI). Se encarga de formular y desarrollar el sistema Estadistico Nacional, levanta los censos nacionales de poblacién y vivienda cada 10 afios y los censos econdémicos ¢ada diez afios, etc. EI Ministerio de Industria Turismo e Integracién, elabora estadistica como: indice de volumen fisico de producci6n, producto bruto interno, etc. EI Ministerio de Economia y Finanzas, através de sus organismos especializados lleva y-elabora estadistica de comercio al por mayor y al por menor, comercio exterior (importacién y exportacién), etc. 17 En general todos los ministerios tienen una oficina especializada de Estadistica. DISENO DEEXPERIMENTO Unsegundométododerecoleccién dela informacién escon un disefio de experimentos. Los disefios experimentales deben utilizarse siempre que sea posible cuando se desee construir modelos explicativos, y sus estudios suelen ser materia de textos mds avanzados, ya que implican procedimientos estadisticos complejos. ENCUESTAS Es el proceso de recopilar informacién a través de una muestra (en el punto 1.6.2 veremos con mayor detalle). 1.6.2 PRINCIPALES PROCEDIMIENTOS PARA RECOLECTAR INFORMACION EN CIENCIAS SOCIALES, SALUD, EDUCA- CION, ETC. Toda informacién tiene dos aspectos fundamentales: Fuente de obtencién, y métodos para su recoleccién. FUENTE DE OBTENCION La fuente de obtencién puede ser: primarios y secun- darios. PRIMARIOS Como ya hemos dicho, se recogen directamente de su origen. SECUNDARIOS Cuando no se recogen directamente de su fuente de origen. METODOS DERECOLECCION Cuando es utilizada una fuente primaria para re- colectar informacién se distinguen dos procedimientos fundamentales a saber: la obser- vacion y el interrogatorio. DESVENTAJAS DE LA OBSERVACION - Requiere personal especializado. - Puede resultar ser un método demasiado care: -. Noes conveniente cuando se estudia grandes masas humanas. Una cuestién que invalida la observacién es cuando se requiere investigar: - Lasmanifestaciones subjetivas de los individuos. Por ejemplo, saber si un paciente tiene apetito. - Ensu comportamiento pasado. Por ejemplo, enfermedades que ha padecido, - Susactitudes futuras. Por ejemplo, qué habitos higiénicos observard cuando esté de alta. 18 VENTAJAS DEL INTERROGATORIO Como podrd observarse las limitaciones de la observaci6n son ventajas del interrogatorio, ya que cuando se indaga el pasado o futuro, asi como las condiciones subjetivas del individuo ofrece resultados satisfacto- Tios. DESVENTAJAS DEL INTERROGATORIO - Se apela a la memoria y/o a la buena fe del interrogado. - Produce diferentes resultados seguin el tipo de preguntas y a la manera de formular- los. Para evitar errores en la segunda desventaja debe observarse los siguientes aspectos: - Las preguntas deben ser claras y concisas. - — Las preguntas no deben ser capciosas ni ambiguas. - Las preguntas no deben presuponer hechos. - Las preguntas no deben sugerir respuestas. METODOS DE INTERROGATORIOS El interrogatorio puede hacerse mediante dos métodos: Método directo (se efecttia por medio de entrevistas) Método indirecto (se efectiia por medio de cuestionarios) La entrevista tiene una ventaja principal que la acentiia, y es que puede completarse con la observacién directa, también tiene como principal desventaja el hecho que la personalidad, posicién social, la inflexién de la voz, la manera de hacer las preguntas, etc. pueden hacer variar las respuestas. El cuestionario tiene como ventaja principal el ser mas barato. Como desventaja solo es posible para preguntas sencillas y también en ocasiones no es devuelto por el individuo encuestado, 0 no Ilena con todos los requisitos adecuadamente. FRECUENCIA PARA LA RECOLECCION DE LOS DATOS Los procedimientos para recoger la informacién, por su frecuencia, pueden clasificarse en: - Métodos de recoleccién ocasional: las encuestas. - Métodos de recoleccién periédicas: los censos. - Métodos de recoleccién continuas: los registros. Estos métodos se diferencian entre sien una serie de aspectos importantes y que son: 19 - Frecuencia de recoleccién. - Los aspectos de cobertura. - Los aspectos de temporalidad. - Los aspectos de propésitos. Veremos que la encuesta tiene una amplitud parcial, mientras que el censo y el registro la tienen universal. Otro aspecto muy importante es que el censo y la encuesta tienen un cardcter transversal, es decir se realiza en un determinado momento, mientras que el registro tiene un cardctér longitudinal, o sea, se recoge la informacién a lo largo del tiempo. Finalmente diremos, que el censo es un procedimiento que tiene objetivos generales, mientras que el registro y la encuesta tienen objetivos especificos. ENCUESTA Es el procedimiento de obtenci6n de informacién estructurada segun criterios previos de sistematizacién, que se efectiia con un propésito especifico (y que tiene alcance restringido) en un sector de la poblacién. Ejemplo_ Encuesta nacional de propésitos multiples (ENAPROM) realizada por el INEI en 1977 y 1978, y publicadas en 13 fasciculos por ésta institucién. TIPOS DE ENCUESTAS:; Encuesta retrospectiva, encuesta prospectiva. ENCUESTA RETROSPECTIVA En este tipo de encuestas se parte de datos que se conoce y la investigacién consiste en descubrir caracteristicas de su historia. Por ejemplo, se coge un grupo de personas afectadas con cdncer en el pulmén y vamos a recoger en su historia retrospectivamente si tiene antecedentes de: hdbito de fumar, riesgos industriales, etc. ENCUESTA PROSPECTIVA. Comienza con una muestra de la poblacién estudian- do una o més caracteristicas a uavés del tiempo. Por ejemplo, se coge un grupo de personas, y vemos la caracteristica de hdbito de fumar: observamos si en el transcurso del tiempo se desarrolla cancer al pulmén. CENSO DE POBLACION Se llama al proceso de recolectar, completar y publicar datos demogrdficos, econémicos y sociales pertenecientes a un tiempo especifico y datos de todas las personas en un pais o un territorio determinado. EI propésito principal de un censo de poblacién nacional consiste en satisfacer ciertas necesidades de informacién estadistica concernientes a la totalidad de los habitantes de un pajs con vistas a: planificacién de una serie de aspectos como son los Tequerimientos de alimento, los mimeros de escuelas y hospitales, asi como su ubicacién, etc. 20 REGISTROS Son los procedimientos que se siguenpara conocer adecuadamente los cambios y las estructuras de: - Cambios en el numero de la poblacién. - Aumento de la poblaci6n por nacimiento. - Aumento de la poblacién por inmigracién. - Reduccién de la poblacién por emigracién. - — Reduccién de la poblacién por fallecidos. Mediante los sistemas de registros se establecen asi, un proceso continuo que sigue sin pausa los movimientos de cambio en la poblacién. 1.7 TIPOS DE DATOS Sea cual fuere la fuente de la que obtenemos la informacién, esta pucde estar referida a caracteristicas cualitativas o cuantitativas. Las primeras se refieren a cualidades tales como, color: blanco, azul, etc.; estado civil: casado, soltcro, etc.; profesién: economista, ingeniero, etc.; calidad de un producto: bueno, regular, etc. Los segundos se refieren a cantidades tales como: estatura en cm., salario en soles, nimero de hijos de una familia, nimero de dormitorios por vivienda, etc. Con cada caracteristica materia de investigacién, asociamos una variable; asi, podemos dar la definici6n siguiente. VARIABLE Es una caracteristica de la poblacién que se va investigar y que puede tomar diferentes valores. Asi, por ejemplo una variable seria, las horas extras trabajadas por los trabajadores de una empresa y los valores de esta variable vendrian dadas por las diferentes horas trabajados por cada trabajador fuera de 1a jornada normal: ninguna, una, dos, tres, .. .. Notacién: Las variables se denotardn por X, Y, etc. Las variables se clasifican en: cualitativas y cuantitativas. VARIABLE CUALITATIVA Se Ilama asi, cuando la variable esté asociada a una caracteristica cualitativa. Es decir, son variables cuyos valores son cualidades que presenta la poblacién. Por ejemplo, la variable “profesién” puede adoptar las modalidades: Ingeniero, Médico, Bidlogo, Economista, etc. Las variables cualitativas se clasifican en: nominales y ordinales. 21 VARIABLE CUALITATIVA NOMINAL Son aquellas que establecen la distincién de los elementos en las categorias sin implicar orden entre ellas. EJEMPLO 1.8 Clasificar un grupo de individuos por sexo: masculino, femenino; por” su estado civil: soltcro, casado, viudo, etc. VARIABLE CUALITATIVA ORDINAL Son aquellas que agrupan a los objetos, individuos, en categorias ordenadas, para establecer relaciones comparativas. Es decir, son suceptibles de ordenacién pero no de medicién cuantitativas. EJEMPLO 1.9 a. Clasificar a un grupo de personas por su hbito de fumar. Se procede asf: No fumadores Fumadores leves Fumadores moderados Fumadores severos b. Clasificar un grupo de individuos por su grado de instruccién. Se procede como sigue: Analfabeto Primaria Secundaria Superior VARIABLE CUANTITATIVA Sc llama asi, cuando la variable esta asociada a una caractcristica cuantitativa. Es decir, estas surgen cuando se puede establecer cudnto 0 en qué cantidad se posce una determinada caracteristica. EJEMPLO 1.10 Son variables cuantitativas: ingreso por familia, mimero de acciden- tes de transito, longitud, tiempo, etc. Las variables cuantitativas se dividen en discretas y continuas. VARIABLE DISCRETA Son aquellas que surgen por el procedimiento de conteo. Es decir, las variables estadisticas discretas suelen tomar valores enteros. Por cjemplo, el némero de hijos por familia; el némero de estudiantes por colegio; el numero de automéviles que pasan por una avenida en una hora; el nimero de habitantes por distrito; etc., son variables discretas. 22 VARIABLE CONTINUA Son aquellas que surgen cuando se mide alguna caracte- ristica. Es decir, las variables continuas, pueden tomar al menos teéricamente cualquier valor dentro de un intervalo. Por ejemplo, el peso, la estatura, la tension arterial de las personas, los ingresos, el tiempo de servicio, etc., son variables estadisticas continuas. No significa que el ntiimero asignado a cada peso, estatura, etc., pueda tomar en la prdctica cualquier valor real de un intervalo (aunque tedricamente sea asf) porque la imprecisién de nuestras mediciones hard que en definitiva éstas vengan representadas por valores discretos. Pero es el cardcter de posibilidad que tiene todo ntimero real de ser asignado a una de estas variables lo que las define como continuas. En general, todas las magnitudes relacionadas con el tiempo (edad, duracién de un fendmeno, . . .), la masa (volumen, peso, . . .), el espacio (longitud, superficie, . . .) © una combinacién de estos (velocidad, densidad, capacidad, . . .) son variables continuas. EJEMPLO 1.11 Clasifique las siguientes caracteristicas en variables cualitativas, continuas, discretas. a. Tiempo de servicio de los empleados de una empresa. b. Numero de cheques girados diariamente en un mes. c. Niimero de acciones comunes vendidas cada dia en la Bolsa de Valores de Lima. d. Lugar de nacimiento de las personas que viven en Lima, e. Nivel educacional y religién de las limefias. f. Temperatura y humedad diaria de Lima. g. Nivel educacional, estatura y color de ojos de las cajamarquinas. SOLUCION: a. El tiempo que cualquier persona presta servicios a una empresa esta comprendida generalmente de acuerdo a ciertas leyes entre 0 y 30 afios. Es decir, puede ser cualquier punto del intervalo [0, 30], al menos en teoria. Por tanto es una variable cuantitativa continua. b. Elniimero de cheques girados diariamente en un mes, puede ser: ninguno, uno, dos, .. Es decir, es una variable cuantitativa discreta. ¢. También es una variable cuantitativa discreta. d. Las personas que viven en Lima, pueden haber nacido en cualquier distrito o lugar del pais o del extranjero. Por tanto, es una variable cualitativa. e. El nivel educacional es una caracteristica cualitativa ordinal y la religién es cualitativa nominal. Por tanto, las limefias son clasificadas por las variables ‘cualitativas, nivel educacional y religién. f. Latemperatura y la humedad son variables cuantitativas continuas. Luego, Limaes clasificada por las variables temperatura y humedad ser una variable continua. 23 g- Nivel educacional y color de los ojos son variables cualitativas; la estatura es una variable cuantitativa continua. Por tanto, Jas cajamarquinas son clasificadas por las caracteristicas cualitativas: nivel educacional y color de sus ojos, y la variable continua estatura. UNIDADESTADISTICA Esel elemento u objeto indivisible de la poblacién que sera analizado. Por ejemplo, si se quiere estudiar la demanda del detergente X en Lima Metropo- litana, la unidad estadistica serdn las familias. DATOS. Son los valores recopilados como resultado de Jas observaciones de una caracteristica o variable. Llamados también series estadisticas. Como hay dostipos de variables: cualitativas y cuantitativas, diremos también que hay dos tipos de datos: datos cualitativos y cuantitativos. Los datos cuantitativos, se pueden considerar también como datos discretos y datos continuos. PROBLEMAS 1 - 3 1. ~Puede ordenar a las personas por su estado civil: soltero (a), casado (a), viudo (a), divorciado (a)? Justifique su respuesta. 2. En una carrera de caballos, Saltarin leg6 primero, Pintado, segundo y Ronco, tercero. {Puede encontrar la distancia entre los caballos?. Justifique su respuesta. 3. Clasifique las siguientes caracteristicas, en variables cualitativas, cuantitativas continuas y discretas. a. Consumo de corriente (kw) mensual en un afiv. ‘». El nimero de tornillos de cada caja producidos en un mes. c. Estado civil, opinién piiblica, lugar de nacimiento de las personas que viven en el Callao. d. Marca y pais de procedencia de los automdéviles vendidos durante el afio en el Pond. 4. Silos tinicos valores posibles para una variable X son: 1/2, 1/3, 1/4, .. ., entonces X es una variable continua. 5. En cada aparato que produce una empresa de equipos eléctricos se incluye una poliza de garantia para el cliente. Ademés de validar la garantia y proporcionar a la compaiifa cl nombre y domicilio del cliente, la péliza pide otra informacién com- plemeni.::ia que sc empleaen los estudios de mercado. Para cada uno de los blancos numeracs de la péliza, determine las caracteristicas mas probables de las catego- rias que utilizard la compaiiia para registrar la informacion. En particular: a. {Scrdn cuantitativas o cualitativas? b. {Continuas 0 discretas? Nombre Estado civil @ Domicilio EE iD6nde se compré el equipo? Ciudad Estado. Cédigo Postal __._________ {Por qué compré el equipo? Edad @ Ingreso anual @ 6. 4Cudldelos siguientes enunciados representa el esquema mds exacto paraclasificar datos? a. Métodos cuantitativos. b. Métodos cualitativos. c. Una combinacién de métodos cuantitativos y cualitativos. d. El esquema se determina sélo mediante la informacién concreta sobre la situacién. 7. Para cada uno de los siguientes enunciados, identifique la unidad estadistica: a. Elalcalde de una ciudad desea estimar el porcentaje de votantes en su distrito que estard a favor de la aprobacién de una ley municipal. b. Unacadena de supermercados desea conocer la opinién de sus empleados acerca de un plan de seguro médico patrocinado por la compaiiia. c. Unejecutivo de mercadotecnia de una compaiiia desea hacer una encuesta entre los compradores para determinar su actitud hacia una nueva linea de productos. 8. Enlossiguicntes enunciados identifique usted: la poblacin, la muestra, la variable, el tipo de variable, la unidad estadfstica, el parametro y dé una observacién. a. Se vaa realizar un estudio de la cantidad de azticar vendida por semana, en un supermercado de cierto sector de Lima, para el aiio 1990; para lo cual se utilizara el promedio de ventas de ese afio, los registros se hacen en kgs. por semana. b. Una firma industrial, comprometida en la produccién de aceros, produce tornillos para los cuales existen estrechos margenes de tolerancia con respecto a la anchura, se selecciona un nimero de tornillos de la producci6n diaria y se mide cuidadosamente. 1.8 DISENO O ELABORACION DE FORMULARIOS En toda actividad de cardcter cientifico, lo que se hace en tiltima instancia, es dar respuestas a ciertas preguntas. De acuerdo con esto, necesitamos un documento donde plantear preguntas y registrar sus respuestas, resultando asi que una de las primeras y realmente mas decisiva etapa en cualquier investigaci6n es la confeccién de formula- T1os. 25 DEFINICION 1.8 Bajo la denominacién genérica de formularios, se incluye toda forma impresa destinada a la recoleccidn de datos. EJEMPLO 1.12 Las historias clinicas; las fichas epidemioldgicas, etc. Los formularios recogen dos clases de datos: Datos administrativos o de identificaci6n. Datos sobre el problema que se estudia. Los primeros ayudan a identificar las unidades estadisticas de observacién o incluyen cl nombre de la persona, su edad, sexo, residencia 0 ubicacién, fecha de realizacién del estudio, etc. Los segundos se reficren especificamente al problema que Antes de claborar el formulario debe considerarse: 1. El propésito para el cual serd utilizado. 2. Circunstancias bajo las cuales se recogeran la informacién. Lo primero tiene importancia para decidir sobre los datos que se recogeran y lo segundo para la determinacién del tamaiio y del material mds conveniente. 1.8.1 PRINCIPIOS BASICOS QUE SE DEBEN TENER EN CUENTA EN LA CONFECCION DE FORMULARIOS 1. DECIDIR SOBRE LOS DATOS QUE SERECOGERAN Entodo formulario se debe recoger séio los datos utiles y adecuados al estudio. Formularios muy extcnsos conspiran contra la exacta recoleccién de los datos. Es pués, entonces convenicnte: a. Hacer una lista de todos los datos que sean necesario recoger de acuerdo a la finalidad del estudio. b. Considerar cudles datos son factibles de recoger de manera fidedigna y exacto. c. Limitar a aquellos datos practicos a recoger y que se usard. ‘JEMPLO 1.13 Averiguar si una persona es 0 no adicta a drogas, puede ser una informacién deseable a recoger, pero es raro que las personas estén dispuestas a suministrarlo. 2. DECIDIR SOBRE EL ORDEN EN QUESE ACEPTARANLOS DATOS Las preguntas deben hacerse de manera l6gica y ordenada. Por ejemplo, preguntas sobre ocupacién, educacién, vivienda y otras referentes a condiciones econdémicas y sociales no deben estar separados. 3. CONSIDERAR COMO SE HARAN LAS PREGUNTAS: a. Considerar si hay alguna ambigiiedad en la pregunta como consecuencia de la respuesta recibida. 26 EJEMPLO 1.14 Si queremos recoger el dato edad, debemos tener en cuenta si se recogerd en afios cumplidos o en el cumple afios mas préximo. b. Toda pregunta debe tener respuesta ya que seria imposible saber si una persona posee o no cierta caracteristica, si no se obtuvo la informacién al respecto. Asi, cada pregunta necesita una categoria final para asegurar que se dé alguna respuesta ya sea ella desconocida, no informa, no especifica u otra. EJEMPLO 1.15 Al preguntar si ha padecido de rubeola durante el embarazo, no solamente debe preguntar si o no, sino también si se desconoce. c. Debe usarse un lenguaje claro y poco técnico. EJEMPLO 1.16 Si queremos saber si una persona padece de cefaleas frecuen- tes, debe preguntarse si padece de dolores de cabeza frecuentes. d. Evitar respuestas inducidas. EJEMPLO 1.17 Ud. nunca ha padecido de tuberculosis. Con esta pregunta estamos induciendo a la persona a que su respuesta sea negativa. PLANEAR COMO SE ANOTARAN LAS RESPUESTAS EI espacio que se deja debe ser adecuado para las respuestas que se esperan y siempre que sea posible se adoptard el sistema que exige el menor esfuerzo. EJEMPLO 1.18 a. Sexo 3b. Sexo_______ Femenino ——______ Masculino En cl inciso (a),.se pone nombre y en el (b), se marca con una cruz, este ultimo es de menor esfucrzo. Puede usdrse otro. método que sea la utilizacién de un cédigo, por ejemplo, ,debe existir una revisién periédica del salario minimo? 1. Si 2.No 0. No sabe o no opina ELECCION DE VARIAS RESPUESTAS _Debe procurarse que sc pueda elegir entre varias respuestas, evitando ambigiiedad u omisién de datos. EJEMPLO 1.19 Enfermedades que usted ha padecido. incorrect. Aqui se deja a libre eleccién la respuesta, siendo un método incorrecto. Es.2 debe hacerse de la siguiente manera: sarampién varicela bronquitis_______.__== ete. 27 El entrevistado marca entonces sélo las enfermedades que ha padecido y las cuales se desca recoger. 6. DETERMINAR LAS CARACTERISTICAS DEL FORMULARIO Decidir sobre la forma, tamaiio, color, etc., del formulario de acuerdo a algunas interrogan- tes como: {Quién recogerd la informacién? {De quién se recogerd la informaci6n? ;Cudndo y d6nde se registrard los datos? 4C6mo se procesar la informacién? 7, REALIZAR ESTUDIO PILOTO Debe realizarse un estudio piloto antes que el formulario sea impreso de manera definitiva, con el fin de probarlo y ver la operatividad del formulario y para darse cuenta de las fallas que pueda tener y hacer las correcciones necesarias. 8. REDACTAR LAS INSTRUCCIONES NECESARIAS Aunque se debe tratar que cada pregunta sea autoexplicativa, de ser necesario, debe redactarse las instruc- ciones de cémo anotar las respuestas. Estas pueden imprimirse en el mismo formulario o aparte cuando son muy extensas. 19 VENTAJAS DEL EMPLEO DE MUESTRAS En ocasiones, el muestreo es una necesidad, como cuando estamos en presencia de poblaciones virtuales o infinitas, o poblaciones finitas grandes. También es obligado en situaciones como las que se presentan, digamos, en el control decalidad de productos farmacéuticos, en que el examen del producto hace que haya que desechar luego de efectuado el control. En otras ocasiones, muestrear constituye una alternativa frente al estudio de todo el universo. La alternativa de muestrear es generalmente favorable, porque ella significa un ahorro en tiempo, recursos y esfuerzo. * 1.10 DESVENTAJA DEL EMPLEO DE MUESTRAS Una de las principales desventajas, es que el empleo de muestras introduce el llamado error de muestreo, que tiene su origen en la variabilidad de los elementos que componen la poblacién, muestras del mismo tamafio arrojan resultados diferentes. Supongamos, por ejemplo que tenemos una poblacién formada por cuatro personas, Cuyas estaturas en centimetros son 158, 160, 166 y 172, respectivamente. La talla promedio de las personas de esta poblacién es de — 158+ 160 + 166 + 172 4 Si no se conociera dicho promedio poblacional, podriamos estimar esta estatura promedio con una muestra, por ejemplo de sélo dos individuos. Los resultados seria como se muestra en el cuadro siguiente. uw = 164 centimetros 28 valores muestrales estatura promedio 18+ 160 _ 159 158 + 166 _ 169 2 158 +172 _ 158+ 172 - 160 + 166 _ nore 160+ 172 _ +17 166 + 172 2 158, 160 158, 166 158, 172 165 160, 166 163 166 160, 172 166, 172 = 169 Como vemos, a cada muestra correspende un valor promedio diferente, y diferente a su vez, del verdadero promedio de la poblacién. Esta diferencia entre el valor promcedio que arroja la muestra y el valor promedio de la poblacién, se llama error de muestreo. Nota: Es importante sefialar, que el término “error”, como puede apreciarse en el ejemplo anterior, no se usa como sindénimo de equivocaci6n, sino que ticne una con- notacién completamente diferente. Aunque el error de muestreo no puede conocerse exactamente (porque para ello habré que conocer el valor poblacional, y en ese caso no seria necesario seleccionar muestra alguna), si puede calcularse indirectamente por procedimientos estadisticos. El error de muestrco, desde luego, sdlo puede estimarse a condicién de que la muestra sea adecuadamente seleccionada, y ademas, puede disminuirse tanto como se desce, aumentando el tamaiio de la muestra. Este hecho hace que el mucstreo sea un arma muy poderosa y por consiguiente, una alternativa a valorar particularmente cuando se trata de poblaciones grandes cuyo estudio exhaustivo es dificil y costoso. 1.11 CONDICIONES DE UNA BUENA MUESTRA Aunque cualquier parte o subconjunto de una poblacién constituye una muestra, parece intuitivamente evidente que no cualquier mucstra resulta util para hacer inferen- cias adecuadas en relacién con la poblacion, Las muestras deben cumplir determinadas condiciones. Podriamos decir que estas son dos: 29 1. La relativa al tamafio muestral, y 2. La calidad muestral Delo que sc trataa menudo es pues, de tener una muestra suficientemente grande, pero no mayor de lo necesario. Esto depende generalmente de la frecuencia con que el fendémeno 0 caracteristica en estudio se encuentre en la poblacién y de la variabilidad de ésta. Sin embargo, el tamaiio por si solo no puede garantizar que la muestra sea Util 0 adecuada. Por ejemplo, pensemos lo que ocurriria si para estudiar la presencia de “el célera” en la poblacién de la ciudad de Lima, tomarfamos una muestra del cercado de Lima. Esta muestra, atin cuando fuese tan grande que cubriera toda la poblacién del cercado, no seria una muestra representativa de la poblacién. Entonces, la condicién de calidad s6lo se garantiza con muestras representativas, que son las que reproducen las caracteristicas esenciales que posee la poblacién que se desea estudiar, y con muestras exentas de errores sistematicos, que son originados al no tener en cuenta determinados principios de seleccién. 1.12 TIPOS DE MUESTRAS Existen basicamente dos clases de muestras: muestra no probabilfstica y muestra probabilistica. MUESTRA NO PROBABILISTICA Llamada también muestras de convenienciao de juicio, se basan en el conocimiento y la opinién personal para identificar los elementos de la poblacién que van a incluirse en la muestra. Una muestra seleccionada a juicio se basa en el conocimiento de la poblacién por parte de una persona que generalmente es un experto en la materia. MUESTRAS PROBABILISTICAS Son aquellas en que todos los elementos de la poblacién tienen una posibilidad (una probabilidad conocida) de ser incluida en la muestra. Naturalmente noes necesario que todos tengan la misma posibilidad, basta que tengan alguna posibilidad. 1.12.1 METODOS PARA OBTENER MUESTRAS PROBABILISTICAS Ya sabemos que las muestras probabilisticas son aquellas en que todos los elementos de la poblacién tienen una probabilidad conocida de ser seleccionados. A continuacién veremos algunos de los procedimientos mas usuales para la seleccién de muestras probabilisticas. Existen al menos cuatro métodos cominmente utilizados: Muestreo aleatorio simple, Muestreo sistemdtico, Muestreo estratificado y Muestreo por conglomerados. 30 1.12.11. MUESTREO ALEATORIO SIMPLE Este método o esquema de muestreo, se caracteriza porque todos los elementos de Ia poblacién tienen Ia misma probabilidad-de ser incluidos en la muestra, 0 en otros términos, porque todas las posibles muestras de un tamaiio fijo son igualmente probables. Una manera sencilla aunque poco practica de obtener una muestra aleatoria es la técnica “de la urna” (0 de la pecera). Consiste en colocar en una urna o pecera, fichas con los nombres o niimeros de cada elemento de la poblacién y luego de mezclarlos ade- cuadamente, se extrae tantos elementos como haya de tener la muestra que se ha deci- dido escoger. Debido a esta mezcla cuidadosa antes de cada extraccién, cada elemento tiene la misma posibilidad de ser seleccionado. TABLA DE DiGITOS ALEATORIOS Otro procedimiento ae extraer una muestra aleatoria simple, es empleando una tabla de digitos aleatorios, e! cual puede construirse, empleando e! método de la urna con 10 tarjetas numeradas: 0, 1,2,... ,9. Después que se mezclan las tarjetas, se extrae aleatoriamente una taryeta y se registra su nimero. La tarjeta se reemplaza antes de la extraccién siguiente, se mezclan bien las tarjetas y asi, sucesivamente. En la practica, esto se realiza mediante una computadora, por un procedimiento completamente al azar. Cada pagina de estas tablas contienen los digitos agrupados en filas y columnas para facilitar su eleccién. . USO DELA TABLA DEDIGITOS ALEATORIOS Para utilizar esta tabla, se hace Jo siguiente: 1. Seenumera los elementos de la poblacién con igual némero de digitos queel tamafio N de la poblacién. Por ejemplo, si tenemos 120 empleados de una compaiiia y deseamos entrevistar una muestra de 20 de ellos seleccionados al azar. Entonces, primero debemos enumerar la poblacién N = 120 con ntimeros de tres digitos: 001, el primer elemento de la poblacién, 002 al segundo, y asi sucesivamente, el nimero 119 al 119 avo y 120 al N-ésimo. 2. Conel propésito de extraer la muestra al azar, se establece un punto de partida al azar en la tabla de niimeros aleatorios (TABLA I al final del libro). Un método es cerrar los ojos y rayar con un lapiz la tabla y empezar de ese punto la Icctura de la muestra, hacia arriba, abajo, derecha o hacia la izquierda. Supongamos que se Siguié ese procedimiento y se seleccioné como punto de partida la fila 19, y columna 3. Suponga también que se decidié leer hacia abajo; y leemos sdlo los tres primeros digitos de cada rengl6n. Notese que nuestro primer nimero usando éste método sera 055, el segundo 048, el tercero 069, y asi sucesivamente: 041, 020, 066, 074, 054, 035, 059, 079, 102, 034, 081, 099, 073, 101, 097, 090 y 031. Note que se descarta toda la sucesién de nimeros de tres digitos mayores que N (en nuestro caso mayores que 120). 31 Si en el proceso de eleccién se repite el ntimero (de tres cifras en este caso), se volver a incluir en la muestra el elemento de la poblaci6n correspondiente a ese nimero, si el muestreo es con reemplazo y se descarta si el muestreo es sin reemplazo como en nuestro ejemplo. 1.12.12, MUESTREO SISTEMATICO En éste procedimiento, se selecciona una muestra, tomando cada k-ésima unidad de la poblacién una vez que las unidades de muestreo estén numeradas 0 arregladas en alguna forma. El nimero k es la raz6n de muestreo; esto es ia razén del tamafio de la poblacién N al tamaiio de la muestra n(k = N/n). Por ejemplo, si se vaa seleccionar una muestra de 50 unidades a partir de una poblaci6n de tamafioN = 1000 unidades, entonces k = 1000/50 = 20. Luego la muestra se obtiene tomando cada 20-esima unidad de la poblacién. Se puede utilizar el procedimiento de la urna para determinar con cudl de las primeras 20 unidades empezar. Si se selecciona la unidad- 15 ésima como inicio aleatorio, entonces la muestra incluird a las unidades 15, 35, 55, 75,. .. 995 - ésimas. Por razones obvias, este procedimiento sistematico s6lo se puede aplicar cuando el marco de muestreo es homogéneo. 1.12.13 MUESTREO ESTRATIFICADO Esta se usa cuando la poblacién no es homogénea, sino que pueden en ella identificarse clases definidas por algiin atributo o caracteristica relacionada con la variable que se estudia. Este procedimiento implica djvidir fa poblacién en clases o grupos homogéneos relativos a las caracteristicas que van a estudiarse, llamados estratos. Después se toma una submuestra de cada estrato de una de las formas posibles: O bien seleccionamos al azar en cada estrato un nimero especificado de elementos a la proporcién del estrato de la poblacién total o bien extraemos un nimero igual de elementos de cada estrato y damos un peso a los resultados de acuerdo con la proporcién del estrato en la poblacién total. En uno y otra forma, el muestreo estratificado garantiza que todos los elementos dela poblacién tengan una posibilidad de ser seleccionados. Algunas veces las unidades ena muestra de cada estrato estd relacionado inversamente con la homogeneidad de las unidades en el estrato; mientras mas homogénea sea el estrato, menor serd la proporcién incluida en la muestra. La raz6n es que cuando las unidades en un estrato son mds homogéneas, resulta suficiente una submuestra m4s pequefia para asegurar la represen- tatividad. En consecuencia el costo del muestreo se reduce. Las ventajas del muestreo estratificado sobre el aleatorio simple son fundamen- talmente dos: 1. Se obtiene informaci6n separada para cada uno de los estratos. 32 2. Se evita el riesgo de que determinado estrato quede inadecuadamente representa- do. 1.12.14 MUESTREO POR CONGLOMERADOS Se usa en poblaciones grandes y muy dispersos desde el punto de vista geografico, y en las cuales el muestreo aleatorio simple seria poco econémico debido a que daria lugar a muestras igualmente dispersas. En este tipo de muestreo, en lugar de seleccionar directamente los elementos de la poblaci6n se hace una seleccién inicial de grupos o conglomerados, que son agru- paciones de elementos que deben ser lo mds heterogéneo posible a diferencia de los estratos, de suerte que cada una de ellas resulte una réplica reducida de la poblacion, la muestra general esta formado por todas o por una submuestra de las unidades en cada conglomerado. Estos tipos de muestras se emplcan solos 0 combinados, en etapas multiples, con restricciones y en consideraciones tales como el costo. El uso de uno 0 de otro, depende de las caracteristicas de la poblacién y de las condiciones en que se encuentre, buscando siempre la mayor representatividad de la muestra y la simplificacién del trabajo, de forma que haga,posible la realizacién del mucstreo con calidad y a un costo moderado. PROBLEMAS 1-4 1. Conteste si es verdadero o falso cada una de las siguientes proposiciones: a. Cuando una muestra contiene las caracteristicas relevantes de cierta poblacién en la misma proporci6n en que figuran en esta ultima, se dice que es una muestra representativa. b. Cuando los elementos incluidos en una muestra se basan en el juicio del indi- viduo que toma la muestra, se dice que es no aleatoria. c. Un plan de muestreo que seleccione miembros de una poblacién a intervalos uniformes en el tiempo, orden o espacio recibe el nombre de muestreo estratifi- cado. 2. Son representativas las siguientes muestras? Explique: a. El editor de una revista desea predicir el resultado de la siguicnte eleccién presidencial y con esta finalidad entrevista a 1000 suscriptores de su revista para determinar sus preferencias al votar. b. Se entrevista a los estudiantes de una clase de estadistica acerca de sus actitudes hacia la legalizacién del aborto; sus respuestas se utilizaran para predecir la opinion de la comunidad universitaria en lo referente a este problema. 3. Unaorganizaci6n no lucrativa esta efectuando una encuesta domiciliaria de opinion sobre los servicios que presta la municipalidad a la comunidad. La organizacién ha 33 34 ideado un esquema para realizar el muestreo aleatorio de las casas y planea efectuar fa enc uesta los dias laborales de las 12 del dia a las 5 de la tarde. Producird este esquema una muestra aleatoria?. {Dcberia utilizarse muestreo estratificado o muestreo por conglomerados, y cémo para obiener una muestra aleatoria en cada una de fas siguientes situaciones? a. Se realiza un estudio para determinar el patron de gastos familiares en cierta ciudad, b. Sc realiza una encucsta para determinar la actitud de los estudiantes universita- rios del Peri, con respecto a la pena capital. El centro de estudiantes de la Facultad de Ingenieria Mecénica informa que el 50% de las alumnas de la Facultad se han casado con sus profesores, {Existe algin defecto en tal informacién?. Explique. ORGANIZACION Y CLASIFICACION DE DATOS 2.1 INTRODUCCION Frente a un conjunto de datos, el primer paso a dar, debe ser expresarlo y clasificarlo de acuerdo acriterios convenientes, en alguna forma simple que permita ver rapidamente todas las caracteristicas posibles para obtener conclusiones ttiles, ya sea directamente o por medio de cAlculos posteriores. Se consideran los siguientes pasos: 1. Revisidn y correccién de los datos. 2. Construccién de tablas de frecuencias. 3. Representacién tabular o cuadros estadisticos y grafica. 2.2. REVISION Y CORRECCION DE LOS DATOS Ningiin andlisis estadistico, por acabado y seguro que sea, es capaz de suministrar respuestas adecuadas a un problema en estudio, si aquel sc basa en una informacién incorrecta. De aqui que la revisi6n y ta correccién de la informaci6n recolectada debe ser obligatoriamente el paso previo a la clasificacién y computacién de los datos. Una regla empirica ampliamente contrastada (Huber 1984) es esperar entre un 2 y un 5% de observaciones con errores de medicién, transcripcién, etc. Por tanto antes de utilizar los datos muestrales conviene aplicar técnicas simples para probarlos, como dar respuestas a las siguientes preguntas: 35 {. ;Los datos apoyan o contradicen otra evidencia que tengamos? dEs légica la conclusién? ¢Hemos obtenido conclusiones que no estén sustentados por los datos? {Cudntas observaciones se tiene? ¢Ellasrepresentan a todos los grupos que se desea estudiar? 2.3 TABLAS DE DISTRIBUCION DE FRECUENCIAS Si los datos que se dispone son numerosos, es indispensable clasificarlos en un ~uadroo tabla resumen de las observaciones originales, alas que en adelante llamaremos ‘Tabla de distribucién de frecuencias 0 simplemente Tabla de frecuencias. 2.3.1 DATOS DE VARIABLES DISCRETAS Scan x,,X»)...,X, un conjunto de n observaciones discretas y SCAM Y,, Yor ++ +» Yn cl conjunto de valores diferentes que toman los datos originales (m =010; hy=35 37 3p 0-20: = 35 hl= 5 = 0.16. gfe i 7. Las frecuencias relativas acumuladas MENOR QUE, que faltan son: H, =h,=0.10; H,=H,+h,=0.10+0.15=0.25, — propicdad 2.10 y 2.13 H, =H, + h, = 0.25 + 0.2 = 0.45 H, = H, + h, = 0.70 + 0.20 = 0.90 H, =H, +h, = 0.90 + 0.10 = 1.0 Por tanto la Tabla de Distribucion de frecuencias completa es la siguiente: TABLA 2.5 Totales} 20 | 1.00 EJEMPLO 2.3 Un ingenicro agrénomo visita 25 cooperativas agrarias de naranjas en el valle de Huaral y en cada una anoté el ntimero de plantas atacadas por cierto hongo, de lo cual resultaron los datos siguientes: 48 15, 20, 25, 15, 18, 16, 17, 18, 20, 18, 18, 18, 19, 16, 17, 19, 16, 17, 17, 17, 19, 18, 19, 18, 15 a. Diga qué tipo de datos son estos. b. Construya una tabla de distribucién de frecuencia adecuada a este conjunto de valores. c. Cudntas cooperativas agrarias tienen a lo mds 20 plantas atacadas por hongos? d. ;Cudntas cooperativas agrarias tienen por lo menos 17 plantas atacadas por hongos? e. {Qué proporcién de cooperativas bajo estudio tienen 18 plantas atacadas por hongos? f. Qué proporcién de cooperativas tienen 18 o menos plantas atacadas por hongos? g- Qué porcentaje de cooperativas tienen 18 o menos plantas atacadas por hongos? SOLUCION: a. Puesto que los datos se obtienen como resultado del conteo de plantas atacadas por hongos, estos son discretos. b. 1. El conjunto de observaciones es de tamafio 25, luego n = 25. 2. Los diferentes valores de la caracteristica observada son: y, = 15, y,= 16, y,=17, y, = 18, y, = 19, y,= 20, y, = 25 Es decir, m = 7. 3. Conteo: secuentael nimero decooperativascon 15, 16, 17,18, 19,20 y25 plantas atacadas por hongos respectivamente. Asif, el niimero 15 aparece 3 veces en el conjunto de datos, luego n, = 3; el nimero 16 aparece también 3 veces, entonces ; el mimero 17 aparece 5 veces, luego n, = 5; el 18 aparece 7 véces, osea n,= 7; el 19 aparece 4 veces, es decir; n, = 4; el 20 aparece dos veces, luego n, = 2; y finalmente el 25 aparece una vez, 0 sean, = 1. 4. La frecuencia relativa de y,,i= 1,2,... ,7, son: 49 50 5. Las frecuencias absolutas acumuladas para y,, i= 1, 2,..., 7, estén dadas por: N,=9,=33 N,=N, +n, =18+4= 22; N,=N, +n ,=3+3=6; N,=N,+n,=224+2=24 N,=N,+n,=6+5=1; N,=n=25. N,=N,+n,=11+7=18; Nis n= 25; TEN, ND =Ni-n, = 25-3=22; SENS NU=Nj-n,=22-3=19; Ni =Ni-n,=3-2=n,=1 NU =Nj-n,=19-5=14 6. L.» irecuencias relativas acumuladas para y,, i= 1,2,...,7 son: H,=h,=012; H,=H,+h,=0.12+ 0 12= 0.24; H,=H,+h,=0.24+020=0.44; H,=H, +h, =0.44+ 0.28= 072; H =H, +h, = 0.72 + 0.16 = 0.88 ; H =H, +h, = 0.88 + 0.08 = 096 ; H,=H,+h,=0.96+ 004=1. H=1; H) =H) -h,=1-0.12= 0.88; H) =H} -h, = 0.88- 012 = 0.76; H) =H) h, = 0.76- 020-056; Hiss h,= 056-028 = 0.28; Hi = Hy - hy = 0.28- 016 = 0.12; H’ = Hi) -hp=0.12-0.08=0.04=h,. Portanto, losdiferentes tiposde tablas de distribucién de frecuencias que se puede confeccionar para el mismo conjunto de datos est4 dado en la Tabla 2.6 TABLA 2.6 DISTRIBUCION DE FRECUENCIAS DEL NUMERO DE PLANTAS ATACADAS POR EL HONGO Valores | Frecuen- | Frecuen- | Frecuen- diferentes | cia abso- | ciarelati- | cias abso- observa- | luta lutas acu- muladas menor que Frec. ab-| Frec. rela- solutas acumula- das ma- yor que c. Elndmero de cooperativas que tienen a lo m4s 20 plantas atacadas por hongos es N,=24. d. Elndmero de cooperativas que tienen por lo menos 17 plantas atacadas por hongos es N*= 19, e. La proporcién de cooperativas en la muestra que tienen 18 plantas atacadas por hongos, es h, = 0.28, la cual expresado en porcentaje es 28%. f. La proporcién de cooperativas que tienen 18 0 menos plantas atacadas por hongos es H, = 0.72. g. E1100 H,% = 72% NOTA 2.1 Discutiremos brevemente la utilidad de la construccién de una tabla de distribucién de frecuencias. Claro esté que con nuestros ejemplos, donde sdlo hemos considerado unos cuantos datos por el problema de simplificar los cdlculos, es posible que éste procedimiento no muestre aplenitud todas sus ventajas; no obstante con un poco de imaginacién por paste del lector, las experiencias que se deriven de estos ejemplos 51 se puede facilmente extender a otra situacién donde el nimero de datos sea mayor. De este modo, a partir de la Tabla 2.6, donde se brindan las diferentes variantes de tablas de frecuencias que se pucde construir parael ejemplo 2.3, a parte de las preguntas yacon- testadas, es posible extraer, por ejemplo conclusiones como las siguientes: I. Noexisteen gencral grandes diferencias en cuantoa nimero de plantas atacadas con hongos en las 25 cooperativas. El ntimero de plantas atacadas que més se repite es 18, ya que hay 7 cooperativas que poseen esta cifra. (Esta dado por la frecuencia absoluta del valor 18). 2. Sise tienen criterios sobre el nimero de plantas atacadas con hongos que debe tener cada cooperativa para ser declarada en emergencia por el Ministerio de Agricultura, digamos que este ntimero fuese 100, de los datos de la tabla se puede apreciar que todas las coopcrativas estin por debajo de este ntimero, por tanto noserdn declarados en emergencia. OBSERVACION 2.1 El lector observard que la construccién de tablas de frecuencias para datos discretos, no es mas que un procedimiento mediante el cual se ha condensado la informacién contenida en el conjunto original. Decimos esto porque del conjunto original de n observaciones hemos pasado a considerar un conjunto mas pequefio compuesto sélo por m valores (m < n) diferentes (y,). Ahora bien, este procedimiento que conduce a la construccién de una tabla de frecuencias, no implica pérdida de informacién contenida en cl conjunto de observaciones originales, ya que a partir del conocimiento de las y,, i= 1,2, ...,m_y sus respectivas frecuencias absolutas, se puede construir el conjunto original de los valores de estas observaciones sin tener en cuenta el orden de aparicién de éstas. Es decir, dada una tabla de frecuencias de este tipo, podemos saber la cantidad de veces que cada valor diferente debe aparccer en el conjunto original y asi cnumerar cada uno de ellos; si el orden de apariciGn no es importante, entonces pucde asegurarse que se conoce completamente el conjunto original de observaciones. 2.3.2. DATOS DE VARIABLES CONTINUAS Designaremos también el conjunto original de datos u observaciones por Xi) Xa - ++ +X,, Siendo n el tamaiio del conjunto (Tamafio muestral) y donde estos datos son del tipo continuo. En este caso debido a que la magnitud de la caracteristica puede omar, al menos te6ricamente, una infinidad de valores, el proceso de reduccién, agrupacién © condensacién de los datos originales, que conducen a la construccién de tablas de frecucncia, no cs tan simple como en el caso de datos discretcs y no se puede proceder como en cl caso ya estudiado; es mas bien un problema de clasificacién de datos donde la subjetividad del hombre tiene una influcncia que no debe ignorarse. 52 DEFINICION2.9 Se llamaclasesacada uno de los gtuposen quese divide el conjunto de datos. El primer paso a dar para resolver este problema de clasificacién, es decidir cudles y cudntas han de ser las clases a considerarse. Para ello normalmente se empieza por determinar la observaci6n que tiene el valor maximo “x,,,”, y la observacién que tiene el valor minimo “x,” Es decir Xmax = max {x/i=1,2,...,n),x,,,=min (x/i=1,2,...,0}; estos valores extremos definen el recorrido o rango del conjunto de observaciones, el cual est4 dado por el intervalo [x,,.5 Xnu,]- min Fig. 2.1 DEFINICION 2.10 Amplitud del recorrido (£), es la longitud del recorrido del conjunto de datos. O sea una vez determinado el nimero de clases en que se dividird los datos, digamos m, el cual puede hacerse con cierto grado de arbitrariedad, pues depende del problema en cuesti6n y en tiltima instancia del investigador o del estadistico (esto lo comentaremos mas adelante de modo general), se divide el recorrido del conjunto de datos en tantos intervalos como clase se desee, que en adelante llamaremos intervalos de clase (0 simplemente clase). En la practica se suele dividir no exactamente el recorrido [X i.) Xmax! sino un intervalo minimo [x’,,,,, X’,,,,] que contenga a dicho zecorrido, cuyos extremos sean niimeros que faciliten esta operacién y de manera que la amplitud ¢' del nuevo recorrido sea miltiplo del nimero de clases m. Ix 3X min? ™ max Je De, + Xp Notacion: Sea m el numero de clases y Yp Yor Wy los extremos 0 limites de los intervalos de clase, entonces 53 denota el i-€simo intervalo de clase. Donde y;_, eselextremo inferior, y} el ex- tremo superior del intervalo. Unintervalo de clase, que al menos teéricamente no tiene limite inferior o superior se llama intervalo de clase abierto. DEFINICION2.11 Amplitud de clase es la longitud del intervalo que define la clase. Es decir Asi, cayyn % es la longitud del primer intervalo de clase; C,=Y¥-Y¥} _ eslalongituddel segundointervalodeclase; etc. Si los intervatos tienen igual longitud digamos “c”, es decir c=y-y para todoi =1, 2,...,m 1 entonces, CONSTRUCCION DE LOS INTERVALOS DE CLASE Los intervalos de clase se construyen partiendo de x, (0 x’,,,,), luego se va asignando consecutivamente a las clases, los limites inferior y superior de clase (y' 174 ) , de la siguiente manera: i- limite inferior limite superior primer intervalo de clase: ¥§ = * nin Y= Xan TORYVUtS I i me eS =y segundo intervalo de clase: y\ = x _..+¢ Y= Xia t 2c yyte -ésimo inte: ce _ 7 = m-€simo intervalo de clase: y 1 =X min FM WC Y= X it MC Xray Los intervalos de clase de amplitud diferentes se construyen en forma similar. DEFINICION 2.12 La marca de clase es el punto medio del intervalo que representa a dicha clase. Se denota por “y,”, i= 1, 2,..., m. Es decir, 54 DETERMINACION DE LA FRECUENCIA ABSOLUTA Se pasa finalmente a determinar el nimero de observaciones (frecuencia absolutan,) del conjunto original (x,, Xy +++ »X,), que pertenecen a cada intervalo de clase. Este proceso se conoce como la operacién de conteo. Consiste en tomar cada una de las observaciones registradas y asignar una “tarja” a la clase a la cual pertenece (método de los “palotes”. El nimero de tarjas es la frecuencia absoluta de clase. El concepto de frecuencia absoluta es la misma que la definici6n 2.1, s6lo que en este caso se refieren a las clases y no a los valores y,. Para que no queden dudas damos la definici6n siguiente. DEFINICION 2.13 La frecuencia absoluta (n,) de la clase i-ésima, es el mimero de observaciones del conjunto original que pertenecen a dicha clase. Entonces, la tabla de distribucién de frecuencias tiene la forma siguiente. TABLA 2.7 DISTRIBUCION DE FRECUENCIA intervalo de clase frecuencia absoluta yi o-y! de clase n i 1 i OBSERVACIONES: 2.2. En situaciones especiales se podrd tener intervalos de clase de amplitud diferentes. Esto depende del problema en cuestién y del criterio del investigador. Desde que la teorfa para tablas con amplitud de clase diferentes es la misma que la teoria con amplitudes iguales, en gran parte de las aplicaciones de este texto se limitara al estudio de esta Ultima. 55 2.3, Cuando es conveniente ampliar laamplitud del recorrido de tal manera quec resulte un ndimero “manejable” en futuros c4lculos, esta ampliacién en lo posible debe hacerse en forma siméurica, es decir a la izquierda de x,,, y a la derecha de x,, .. Aclararemos esto en el ejemplo 2.4. 2.4. Respecto al numero de clases (m) no existe un concenso undnime entre [os autores. Bradfor Hill sefiala que debe tomarse un mimero de clases comprendido entre 10 y 20, mientras que Camel indica que el némero apropiado es entre 8 y 15. Sin embargo, el sentido comin nos dice que el nimero de clases no deben ser pocas debidoaque lacondensacién seriamucha y conello habrian pérdidas de informaci6n fuerte en relacidn con la contenida en el conjunto de datos originales. Por otra parte, unndimeroexcesivodeclases, sibien produce pocapérdida de informacién noreduce osimplificael trabajo, siendo en ocasiones preferible el trabajo com los propios datos originales. También algunas pueden resultar vacias, es decir, con frecuencia nula. Daremos a continuacién algunas reglas frecuentemente utilizadas: a. Tomar el niimero de clases (m) igual al entero mas préximo a 2Vn_ ,sien- do n el néimero de datos. b. m2 ‘V/n,, donde nes el niimero de observaciones. c. Regla de Sturges: m = 1 + 3.3log(n), con n el niimero de observaciones. En general se recomienda que ei ntimero de clases esté entre cinco y veinte. S5 con esta alternativa cada clase excluye la observacién que coincide con su limite superior. NOTA 2.2 Se debe destacar que lo anterior es pura notacién y que no afecta la amplitud de clase ni la marca de clase. CONVENCION Enel desarrollode este texto porcriteriode uniformidad, asumiremos la tercera alternativa. Evidentemente se puede tomar las otras alternativas, esto queda acriterio del especialista. REGLA GENERAL PARA ELABORAR LAS DISTRIBUCIONES DE FRE- CUENCIA 1. Decidir el nimero m de clases a considerar, de acuerdo con la observacién 2.4. 2. Determinar el recorrido 0 rango de los datos y la amplitud (¢ ) del recorrido. 3. Determinar, la amplitud o longitud de los intervalos de clase. En lo posible es conveniente que los intervalos de clase sean de igual amplitud (c), la cual est dado por c=e/m Siesto noes posible, utilizar intervalos de clase de diferente tamafio o intervalos de clase abiertos. 4. Determinar los limites de clase, de manera que cada observacion se clasifique sin ambigiiedades en una sola clase. 5. Se determina las marcas de clases. 6. Finalmente se halla la frecuencia absoluta de cada clase. EJEMPLO 2.4 Supongaquese han registrado 50 observaciones referentes a los pesos de 50 lingotes de acero producidos por SIDERPERU, la muestra fue obtenida de la produccién semanal y las unidades estén dadas en Kg. 94.3 93.0 95.5 95.3 924 944 928 93.2 93.6 95.5 92.9 93.6 95.7 938 948 93.9 92.7 916 93.6 93.7 94.2 95.7 94.7 94.3 92.7 94.5 96.2 954 93.7 91.9 94.7 92.7 95.0 93.0 92.9 93.7 92.7 93.3 946 96.4 94.1 93.7 94.2 93.7 94.0 93.9 93.6 946 923 944 57 a. Clasificar estas observaciones en una tabla de frecuencias con 5 clases de igual amplitud. b. Interpretar cada n,. SOLUCION: a. 1. Por datos; m= 5. 2. Del conjunto de datos x,,, = max {X,,X,,.. +, Xs} =96.4 y x,,, = min (x,,X,,... + Xsq} = 91.6, luego el recorrido de los datos es [91.6, 96.4] y la amplitud es 2 =964-916=48 3. De (1) y (2) la amplitud de clase constame seré c= 4 = 4.8 - 0 96, un ni- mero como este es dificil de manejar, por eso al igual que ud. preferimos trabajar con el entero mds préximo c = 1. Para esto ampliamos el recorrido de los datos si- métricamente a izquierda de x,,, = 91.6 y a derecha de x, = 96.4, de manera que contenga al recorrido original (91.6, 96.4] y cuya amplitud sea miltiplo de m = 5, en este caso puede ser ¢ = 96.5 - 91.5 = 5, donde Xan = 91S y x’, = 96.5 4. Determinaremos ahora los limites de clase: ¥o= X nin = ILS y,=¥,+ c= 93.54+1=94.5; Y,=Yp + C= 91.5 4+1= 92.5; y,=y¥,+ c= 9454+1= 95.5; yp=yte=9254+1=935 yy sy), +¢=95.5+1= 965. 5. Se halla las marcas de clases: — 915 +92.5 _ . — 945+95.5 = . Y= 920 Y= a 95.05 92.5 +93.5 . _ 955+965 _ Y= = 98.05 y,=— > = 6.0. — 93.54+94.5 _ P y= Reh = 4.0; 6. Finalmente se determina la frecuencia absoluta de cada clase, de acuerdo a lo expresadoen la pégina 55 y teniendo encuenta queestamos considerando intervalos de clase abierto a la derecha y cerrados a izquierda, es decir Yi yi ind i . ' Lyi. ¥,> Por ejemplo, el valor 94.5 estard en la cuarta clase. Se procede como sigue: Se toma la primera observacién 94.3 y se buscael intervalo de clase aque pertenece, esel 93.5 -94.5, luego se asigna una tarjaen la intersecci6n de la columna de conteo y la fila de este intervalo. Se toma ahora la otra observacién 93.0, la cual pertenece al intervalo 92.5 - 93.5, entonces se asigna una tarja en la interseccion de la fila de este nuevo intervalo y la columna de conteo. Asf sucesivamente hasta agotar la tltima observacién. Sumando las tarjas se obtiene la frecuencia absoluta de cada clase. Se obtiene de esta manera la Tabla 2.8. TABLA 2.8 DISTRIBUCION DE FRECUENCIAS DE LOS PESOS DE 50 LIN- GOTES DE ACERO Intervalo de clase Marca de clase Conteo Frecuencia absoluta yi joy) -1'7i i 91.5 - 92.5 92.5 - 93.5 93.5 - 94.5 94.5. - 95.5 95.5 - 96.5 b. Interpretacién de las n; n, =4, significa que en la muestra hay 4 \ingotes que pesan 91.5 kg. omds pero menos de 92.5 kg. n,= 11, en Ja muestra, 11 lingotes pesan 92.5 kg o ms, pero menos de 93.5 kg, etc. NOTA2.3 Alelaborar la Tabla de frecuencias de datos de variables continuas, siempre hay una ligera pérdida de informaci6n, que ocurre al no considerar més los datos individuales, si no la marca de clase (0 punto medio de cada clase) como un valor Tepresentativo de toda laclase. Asi, y, = 93.0 representaa toda las observaciones mayores 0 iguales a 92.5 y menores que 93.5. Sin embargo, esta pérdida de informacién queda compensada por la ganancia en concisién, sencillez y claridad. NOTA 2.4 Lacolumna de conteo sélo se incluye al iniciar el trabajo, luego se puede omitir, puesto que el lector ya sabe como se obtienen las frecuencias absolutas. Las definiciones de 2.2 a 2.7 son también vAlidas en este caso, naturalmente que ellas se refieren a lasclases y noalos valores y,. Para evitar confusiones y dudasal respecto volvemos a definirlas. 59 DEFINICION 2.14 Frecuencia absoluta acumulada “menor que” (N)) de la clase i-Gsima, es el ndmero de observaciones menores que el extremo superior del intervalo de clase i-simo, 0 sea menores a y';. Entonces Asi, para el ejemplo 2.4: N, =n, = 4, es el ntimero de lingotes de acero que pesan menos de 92.5 kg.; N, =n, +0,=4+ 11 = 15, es el niimero de lingotes de acero cuyo peso es menor que 93.5 kg.; N, =n, +n, +n, =4+ 11 +20 =35, numero de lingotes de acero que pesan menos de 94.5 kg.; N,=n, +n, +n,+n,=4+11+20+9=44, ntimero de lingotesde acero que pesan menos de 95.5 kg.; N,=n=50. DEFINICION 2.15 Frecuencia absoluta acumulada “mayor 0 igual que” (N*) de i laclasc i-ésima, es el niimero de observaciones mayores 0 iguales quc elextremo inferior dcl intervalo de clase i-ésimo, es decir mayor o igual a rs Ve Entonces Asi, para el ejemplo 2.4: Ni =n,+n,+... +n=n=50, ver de lingotes de acero que pesan por lo menos _- kg. N, =n, +n, +n, +n,= 11 +20 +49 + 6=46, mimero de lingotes de acero que pesan por lo menos 92.5kg. N= n, +n, +n,=20 + 9+ 6=35, numero de lingotes de acero que pesan por lo menos ° 93.5 kg. N =n, +n, =9 + 6=15, nimero de lingotes de acero que pesan por lo menos 94.5 kg. Ny =n, = 6, numero de lingotes de acero que pesan por lo menos 95.5 kg. 60 DEFINICION 2.16 Frecuencia relativa (h,) del i-ésimo intervalo de clase, es el cociente para el ejemplo 2.4; n hy = = = s = 0.08 _,esla proporcién de lingotes de acero que pesan menos de h 92.5 Kg. ho= =2 = #4 = 0 22__,es la proporcién de lingote de acero que pesan 92.5 Kg 0 mas pero menos de 93.5 Kg. 20 _ 40 ,esla proporcién de lingotes de acero que pesan 93.5 kg 6 més pero menos de 94.5 Kg. DEFINICION 2.17 Se llama frecuencia relativa porcentual a la frecuencia relativa h, multiplicada por 100% (100 h,%) y representa el porcentaje de observaciones que pertenecen a la clase i-ésima. Asi, para el ejemplo 2.4: 100 h,% = 100(0.08)% = 8%, es el porcentaje de lingotes de acero que pesan menos de 92.5 Kg. 100 h,% = 100(0.22)% = 22%, es el porcentaje de lingotes de acero que pesan 92.5 Kg o mas pero menos de 93.5 Kg. 100 h,% = 100(0.40)% = 40%, es el porcentaje de lingotes de acero que pesan 93.5 Kg o més pero menos de 94.5 Kg. etc. DEFINICION 2.18 Frecuencia relativa acumulada “menor que” (Hi) de la clase i-€sima, es la frecuencia relativa total correspondiente a los valores observados menores que yi ,esdecirmenores que el extremo superior del intervalo declasei-ésimo. Entonces para el ejemplo 2.4: 61 , = 0.08, es la proporcién de lingotes de acero que pesan menos de 92.5 Kg. , +h, = 0.08 + 0.22 = 0.30, es la proporcién de lingotes de acero que pesan menos de 93.5 Kg. H, =h, +h, +h, = 0.08 + 0.22 + 0.40 = 0.70, es la proporcién de lingotes de acero que pesan menos de 94.5 Kg. ec. DEFINICION 2.19 Frecuencia relativa acumulada “mayor o igual que” (H") de la i-€sima clase, es la frecuencia relativa total correspondiente a los valores observados mayores 0 iguales al extremo inferior del intervalo de clase i-ésimo, se decir mayores 0 iguales que y',_ , > entonces para el ejemplo 2.4: HW) =h,+h, +h, +b,=0.22 + 0.40 +0.18 + 0.12=0.92, es la proporcién de lingotes de acero que pesan por lo menos 92.5 Kg. Hy =h,+h,+h,=0.40+0.18 +0.12=0.70, es la proporci6n de lingotes de acero que pesan por lo menos 93.5 Kg. etc. DEFINICION 2.20 Se lama ute relativa acumulada porcentual a la fre- cuencia relativa acumulada H, (0 ce ) multiplicada por 100%. Es decir 100 H,% (0 100 Hq. “% yy representa el porcentaje de observaciones menores que ye (0 mayores 0 iguales a a , ). Asi, para el ejemplo 2.4 100 H, % = 100(0.08)% = 8%, es el porcentaje de lingotes de acero que pesan menos de 92.5 Kg. 62 100 H,% = 100(0.30)% = 30%, es el porcentajé de lingote de acero que pesan menos de 93.5 Kg. etc. 100H 3 % =100(0.92)% =92%, es el porcentaje de lingotes de acero que pesan por . Jo menos 92.5 Kg. 100H ,% = 100(0.70)% = 70%, es el porcentaje de lingotes de acero que pesan por lo menos 93.5 Kg. etc. Por tanto, las diferentes tablas de frecuencias que se pueden confeccionar para un conjunto de datos continuos estd dada en la tabla 2.9. TABLA 2.9 pf Ps of ff won | vs Las Tablas de frecuencias diferentes que se puede formar para el ejemplo 2.4 se resume en la Tabla 2.10. TABLA 2.10 91.5-92.5 92.5-93.5 93.5-94.5 94.5-95.5 95.5-96.5 Totales NOTA 2.5 Antes de pasar, vale la pena ilustrar, al igual que se hizo con los resultados de la Tabla 2.6, cémo a partir de una clasificacién de datos continuos, se puede obtener informacion valiosa y resumida de ellos. En el ejemplo 2.4 donde las observaciones respecto a los pesos de 50 lingotes de acero producidos por SIDERPERU, se consideran representativos de toda la poblacién de lingotes de acero producidos por dicha empresa, las diferentes distribuciones de frecuencias que aparecen en la Tabla 2.10 pueden entre otros, brindar informaciones como las siguientes: 1. Quecl mayor tanto porciento de lingotes de acero pesan entre 93.5 y 94.5 Kg. Como se puede observar cn la columna correspondiente a 100h,% este tanto por ciento es 40. 2. Si el peso apropiado de los lingotes de acero para su aceptacién en el mercado internacional es como minimo 93.5 Kg, los resultados de la Tabla reflejan que s6lo el 70% (ver la columna 100 H , %) de esta poblacién cumple la condicién, lo cual representa quizas, que dicha empresa debe reajustar sus maquinarias, ya que habria un 30% que no se pucde negociar. NOTA 2.6 Las propicdades de las frecuencias de 2.1 a 2.13 dada para datos de variables discretas son también validas para el caso de datos de variables continuas. No volvemos acscribirla, s6lo las usaremos en adclante. EJEMPLO 2.5 La inversién real (en milcs de d6lares) anual de un grupo de pequefias empresas fucron: 10 12 8 40 6 8 10 30 2 8 6 14 16 20 25 28 30 26 30 4 6 10 «18 7 13° (17° «(21 7 6 8 14 7 15 19 27 «22 Oo 14 6 8 9 11 13 15 18 20 30 60 2 6 5 5 6 8 7 12 15 36 39 52 Se pide: a. Formar una tabla de todas las distribuciones de frecuencias, con intervalos de amplitud constante; b. El nimero de pequefias empresas con iti. ersiones menores de 40 mil délares; El ndmero de pequeiias empresas que han invertido 40 mil délares o mas; El nimero de pequefias empresas que invirtieron 10 mil délares o m4s pero menos de 35 mil délares; . La proporcién de pequefias empresas con inversiones menos de 8 mil délares; f. La proporcién de pequefias empresas que invirtieron por lo menos 20 mil délares pero a lo mas 38 mil délares; ao g. Elporcentaje de pequefias empresas que han invertido entre 6 mil délares y 30 r.il délares inclusive; h. El porcentaje de pequefias empresas que invirtieron mas de 64 mil délares. SOLUCION: a. 1. Consideremos m>-V/60 =7. 746, es decir m = & 2. x, = 0 y x,,, = 0, por tanto £ = 60-0 = 60 3. De()y@)¢=4£=9-75. Obviamente preferimos trabajar con c = 8. Para lo cual ampliamos el recorrido de Jos datos, de manera que sea miltiplo de m = 8. Pero como la inversién no puede ser negativa, ampliamos sdlo a la derecha, es decir, hacemos: Xa = 64 YX FX pig =O Ahora: 2 = 64 -0= 64. 4. Los limites de clases son: Y'p = Xuig = 93 Ye=¥, t6c=48; Yy=¥y + c=0+8; y,=Yy + 7c = 56; y',= Yip + 2c = 0+ 2x8 = 16; Y= Y'y + 8c= 4. y,=y, + 3c= 24; Yi, =Yiy t 4c = 325 Y5= yi) + Sc= 40; 5. Las marcas de clases son: = O+8 _ = 8+16 2 Yay TAG, Y,=¥,+¢=4+8=12. Entonces y,=y,+c=12+8=20, = 12. Observeque esto es lo mismo que Y,=Y, + c= 20 + 8= 28, etc. 6. Las frecuencias absolutas de cada clase se obtiene siguiendo el proceso indicado en la pdgina 55. Las otras frecuencias también se ubicardn directamente en la tabla. TABLA 2.11 DISTRIBUCION DE FRECUENCIAS DE LAS INVERSIONES DE PEQUENAS EMPRESAS 66 . Elndmero de pequefias empresas con inversiones menores de 40 mil délares es 57. Este ntimero se encuentra en la interseccidn de la fila del intervalo “32-40” y la columna N,. Graficamente se ve en la Figura 2.2. 1522-10 8 2 1 1 1 8 16 2432 A 4856 15 +22+10+842 =57 14141 =3 Fig. 2.2 El niimero de pequefias empresas con inversiones de 40 mil délares 0 mas es 3 y se encuentra en la interseccion de Ia fila del intervalo “40-48” y la columnaN; . Grdficamente se ve en la Figura 2.2. Ubiquemos los puntos 10 y 35 y los intervalos de clase en una recta como se muestra en la Figura 2.3. 22 10 8 2 St OO SO DM Il 8 10 16 24 32 35 40 uo uu x y Fig. 2.3 por tanto, cl ntimero de pequefias empresas que invirtieron 10 mildélaresomés pero menos de 35 mil délares sera x+10+8+y x, se determina interpolando linealmente de la siguiente manera: suponiendo que los datos estén uniformemente distribuidos en los intervalos de clase, entonces si en una amplitud de 8 = 16 - 8 hay 22 valores en una amplitud de 6 = 16 - 10 habrd x valores . _ 46-1022 6x22 _ Esdecir x = EG = 2 = 16.5 =17 similarmente se obtiene y: si en una amplitud de 8 = 40 - 32 hay 2 observaciones en una amplitud de 3 = 35 - 32 habré y observaciones 5-32)? _ 3x2 _ 6 40 - 32 8 8 Por tanto, el nimero sera 17 + 10 + 8 + 1 = 36 empresas osea y= =1 La proporcién de pequefias empresas con inversiones menos de 8 mil délares es 15/60 = 0.25. Ubiquemos los limites de los intervalos y los puntos 20 y 38 en una recta como en la Figura 2.4. 10/60 8/60 2/60 Cr pee, iy ——S- Waits 11111111} 16 20 24 32 38. 40 uo uo _ P P. ‘Fig. 2.4 2 La proporcién de pequefias empresas que invirtieron por lo menos 20 mil délares pero a lo mas 38 mil délares, estar dado por: 8 Pitot Pa P, se determina como sigue: suponiendo que las observaciones est4 uniformemente distribuido en cada intervalo de clase, entonces Si en una amplitud de 8 = 24 - 16 hay una proporcién de 10/60 en una amplitud de 4 = 24 - 20 habra una proporcién p, _ (24 — 20)00/ 60) _ 41)_5 luego, Pi= "34-16 8 “6 10 67 68 Andlogamente se obtiene p,: Si en una amplitud de 8 = 40 - 32 hay una proporcién de 2/60 en una amplitud de 6 = 38 - 32 habrd una proporcién P, deci = BD CIM _ §(2)- esdeeir, Py = "40 - 32 860)” 121 por tanto, la proporcién pedida sera 3X48, 3.02 ° 60 60 120 Se sigue el mismo proceso de (d) y (f). 150/6% 220/6 % 100/6% 80/6% TF Ot St > Ho tere 0 6 8. 16 24 30 «32 40 es SSE x% yo Fig. 25 EI porcentaje de pequefias empresas que han invertido entre 6 y 30 mil délares inclusive sera: 220 100 % + —=—% + —h+ y% x% + 6 6 y x%, se obtiene como sigue: Si en una amplitud de 8 = 8 - 0, hay un 150/6% en una amplitud de 2 = 8 - 6, habré un x% 150 _ (B= 6)(150/6)% _ 2(150\q _ = Eso _ 2 50.) = 6.25% Es decir: x% 8-0 En forma completamente similar se obtiene y%: Si en una amplitud de 8 = 32 - 24 hay un 80/6% en una amplitud de 6 = 30 - 24 habra y% (30— 24)(80/ 6)% - $(2 8 (G2 - 24) = a estocs y% = Entonces, el porcentaje pedido sera 6: 25% + (#2) % + (2°) % + 10% = 69. 58% hb. El porcentaje de pequefias empresas que invirticron mds de 64 mil délares es 0%. 23.2.1 LIMITES REALES DE CLASES En el ejemplo 2.5, las inversiones se presentan redondeadas a la unidad de millar mas cercano. Con toda seguridad el importe de las inversiones es conocida hasta cientos de délares, pero slo se presentan valores redondeados. Por ejemplo 8 mil délares se interpreta comoel valor a la cual ha sido redondeado cualquier valor comprendido entre $7500 y $8 499 inclusive. Similarmente 16 mil d6larcs se interpreta como el valor al cual se han redondeado los valores comprendidos entre $ 15 500 y $ 16 499 inclusive. Entonces, el intervalo de clase 8 - 16 Ilamados valores aparentes, teéricamente incluye todas las medidas desde 7 500 a 16 500 délares, éstos se conocen como limites reales de intervalos de clase 0 limites verdaderos de intervalo de clase y se define como sigue. DEFINICION 2.21 El limite real de un intervalo de clase es igual al valor aparente més o menos la mitad de la unidad de medida utilizada. EJEMPLO 2.6 Con las cuotas anualcs (en délares) de 40 compaitias para un seguro de vida de $ 25 000 para hombres de 30 afios de edad se nan formado una Tabla de frecuencias, cuyos intervalos de clases son: 82-87, 87-92; 92-97; 97-102; 102-107; 107-112 Determine los limites reales de clase. SOLUCION La cuota de $ 82 se interpreta como el valor al cual se han redondeado cuotas comprendidas entre $ 81.50 y $82.49, similarmente los otros limites de clase. Entonces de acuerdo con la definicién 2.21, los seis intervalos de clase con sus respectivos limites reales son: 81.5-87.5; 87.5-92.5; 92.5-97.5; 97.5-102.5; 102.5-107.5; 107.5-112.5 EJEMPLO 2.7 Ena tabla de frecuencias que se da a continuaci6n faltan algunos datos complétala. 69 SOLUCION: 1. Obviamente los limites inferiores que faltan son 28 y 36. Y cl limite superior que falta es 36. 2. Las marcas de clases son: — 20424 _9. = 24428 _ 46. = 28432 _ 4). YS =22; he 26; y, > 30 ; 1 2 32436 4,. _ 36440 _ Yee MS Vg = = 3K 3. Para las frecuencias relativas se tiene: H, = h, = 0.10, por la propiedad 2.10; , +h, =0.10 +h, = 0.25, propiedad 2.13. De donde h, = 0.25 - 0.10 = 0.15; I, + h, = 0.25 + h, = 0.55, propiedad 2.13. Despejando h, = (1.55 - 0.25 = 0.30; H, = H, + h, = 0.55 + h, = 0.85, luego h, = 0.85 - 0.55 = 0.30; H, =H, +h, = 0.85 +h, = 1.00, de donde; h, = 1.00 - 0.85 = 0.15. 1 4. CAlculo de las frecuencias absolutas. no t+nj+n age - th 2 3 -ll_ -_ L sth thy+hy = = 0.55, dedonde n = 55 = 20. n, Por lo tanto de ho= z » obtenemos n; = nh, i=1,2,..,m. Luego, n,= nh, = 200.10)=2; n= nh, = 20(0.15) =3 n,=nh, = 20(0.30)=6; n, = nh, = 20(0.30) = 6 p, = nh, = 20(0.15) = 3+ Las frecucncias absolutas acumuladas menores que, son: N,=N, +n, =2+3=5; N,=N,+n,=5+6=11; ve 70 TMQ TENG Mg TORE OE MAE BS OO 4 4 De (1), (2), 3), (4) y (5) fa tabla completa es TABLA 2.12 Totales EJEMPLO 2.8 En base a la siguiente informacién: y,= 550; y,= 850; b= Hy m=6 hy= O14 5 H,= 0.76; h,= 0.20; H,-h, = 0.26 y c= constante, Reconstruir la tabla de frecuencias. SOLUCION Yt, 2 yg teryy + 2c dy, + 3c . 2? Por construccin de limite de clase dedonde 2y', + 3c = 1100 ® , Por definicién de marca de clase lL 550=y,= similarmente Yut¥s yot4ctry,+5e 2y,+9c z % a uega 2yh + 9c= 1700 a 850 = he __ Resalvicndo el sistema de ecuaciones (I) y (II) (Restando (1) de (ID) 71 72 2y)+9e= 1700 -2y')- 3c =- 1100 6c= 600, dedonde c= 100. Reemplazando este valor de c en la ecuacién (I) obtenemos. 2y4 + 3000) = 1100 luego y', = 1100 = 300 _ 499 2 Con estos dos valores Y', = 400 y c = 100 construimos las dos primeras columnas de la tabla de distribucién de frecuencias (ver Tabla 2.13). Calculo de las h, y H, que faltan: =-4. =h-= h, = Fo = 0-04 = h, =H, - H =H, +h,=0.04+014=0.18. H,—h, = 0.26 , entoncesH, = 0.26 +h, = 0.26 + 0. 14=0. 40. También H, =H, + h,=0.18 + h, = 0.40, luego h, = 0.40 - 0.18 = 0.22. H, =H, +h, =0.40+h, = 0.76, de donde h, = 0.76 - 0.40 = 0.36. H, =H, +h, = 0.76 + 0.20 = 0.96 Finalmente H, =H, + h,= 0.96 + 0.04 = 1.00 Calculo de las frecuencias absolutas. Note que: ho= 4 Z=00=h, entonces podriamos tener: 00 ~ 50 a. n,=n.=4 y n=1006 b. n,=n,=2 y n=50 Tomemos la opcién (b). Es decir, n = 50, n, = n, = 2. Por tanto usando la ecuacién n=nh, i=1,2,...,m; tenemos: n, = 50(0.14)=7; n,=50(0.22) = 11 50(0.36) = 18; n, = 50(0.20) = 10 De (1), (2) y (3) obtenemos la Tabla 2.13. TABLA 2.13 2.3.2.2. SIMETRIA DE UNA TABLA DE DISTRIBUCION DE FRECUENCIAS 1, Una tabla de distribucién de frecuencias que tiene un nimero impar (m = 2k-1) de clases, se dice que es simétrica, si las clases equidistantes de la clase central tienen frecuencias iguales. Es decir, si las frecuencias absolutas cumplen la relacién: a, j=n » isjsk-1 Una Tabla de Distribucién de frecuencias que tiene un nimero par (m = 2K) de clases, se dice que es simétrica, si las dos clases centrales tienen frecuencias iguales y las clases equidistantes de éstas centrales tiene también frecuencias iguales. EJEMPLO 2.9 En una Tabla de distribucién simétrica con siete intervalos de clase de igual longitud, se conocen los datos siguientes: c=10, n, =8, y,n, = 1260, n, +2, =62, h,=0.21,y H,=0.96. Reconstruir la tabla de distribucién de frecuencias. SOLUCION: 1. m=7=2k-1,de donde k= is 1 ~ 4. Entonces para 73 74 Evidentemente, en tablas simétricas de distribucién de frecuencias, las relaciones entre las frecuencias relativas son las mismas que hay entre las frecuencias absolutas. Es decir, en este caso hy jah,» USJSK-1, onk=4, Asi pues, para jah Luego. 1=H,=H,+h, = 0.96 +h, , propiedad 2.6 y 2.13 de donde h, = 1 - 0.96 = 0.04. Es decir, h, = h, = 0. De (3) y los datos hy = de donde: n = 8/(0.04) = 200. De (2) y la ecuacién n, = nh, se tiene n, =n, = 200(0.21) = 42 De datos y (5) n, + n, =n, + 42 = 62, de donde n, = n, = 20. Por tanto, h, = = =0. 10. TABLA 2.14 7. 0.96=H,=H,+h,=H,+0.10 Es decir: H, = 0.96 - 0.10 = 0.86 0.86 = H, = H, +h, =H, +0.21 dedonde: — H, = 0.86 - 0.21 = 0.65 0.65 =H, = H, +h, =0.35 +h, luego, h, = 0.65 - 0.35 = 0.30 Por tanto, n, = nh, = 200(0.30) = 60 8. De los datos 1260 = y,n, = y,(42), luego y, = 1260/42 = 30 y,+y5 Yor 2e+y,+3c 2y', +5 pero 30=y, = QE OO TT 2y'yt 50 =— yy, + 35 de donde: y= 30-25=5 Con Y= 5 y c=10seconstruye los intervalos de clase de la Tabla 2.14. EJEMPLO 2.10 Deuna tabla de distribucién de frecuencias absolutas, con 5 interva- los de clase de igual amplitud se sabe: a. Sus marcas de clases forman una progresi6n aritmética cuya suma es 45 y tiltimo término 15. b. Lastres primeras frecuencias absolutas forman una progresién geométrica y las tres tiltimas una progresi6n aritmética. c. El producto de la primera y la tercera frecuencia absoluta es 100. d. EI producto de la tercera y quinta frecuencia absoluta es 480. e. La diferencia comin de la progresién aritmética y la raz6n de la progresién geométrica son iguales. Reconstruir la tabla de distribucién de frecuencias. SOLUCION 1. Calculo de las marcas de clases. Por la condicién (a) éstas forman una progresién aritmética, entonces, si: a= primer término de la progresién; d= 1a diferencia comin entre los términos; ¢= 15 el dltimo término, y n=5 nimero de términos. 15 16 Las marcas de clases serén: y,=3 y,=a+d; y,=a+2d, y,=at3d; y, y,=a+4d=15 pero 45=s=2 @it)=3@+15) 90-75 _ ye a3, Por otro lado, 15 =4=a + (n- 1)d=3 + 4d, luego a= a3 =3. osea 90= Sa+ 75, de donde a = Entonces, y, = 3; y,=34+3= ¥,=3+9= 12; ys=3412=15. y,=3+6=9; Calculo de Jos limites de los intervalos de clase. Obviamente c = 3. Entonces: AE Yt yYoryyte dy + 3 =yj=—y = > + 2 2 2 luego, 6 = 2y!, + 3, de donde y', -$33 =LS. Con yy = 1.5 yc=3, se construye los limites de los intervalos de clase (Ver Tabla 2.15). CAlculo de Jas frecuencias absolutas. Sean a= el primer término de la progresién geométrica r= la raz6n de la progresién geométrica d= la diferencia comdn de la progresién aritmética Tenicndo en cuenta que r = d por (e), las frecuencias absolutas seran: A, =a; n, = ar; n,=ar,n,=ar+d=ar+rn,=ar+ 2d=ar + 2r Pero n,n, =a ar? = ar? = 100 por (b) luego, ar = +10, pero como se trata de frecuencias absolutas, escogemos; ar=10 ® También: ap, = ar(ar? + 2r) = ar(ar + 2) = ar°(10 + 2) = ar°(12) = 480 de donde ar? = 40 a Resolvemos el sistema de ecuaciones (I) y (II) De) a=10/r De() a=40/° Igualando los segundos miembros de estas ecuaciones: TABLA 2.15 10 _ 40 TAT? entonces 1? =4 dedonde r =+2 Elegimos r = 2 por tratarse de frecuencias ab- solutas. Luego reemplazando este valor en (I), resulta que 2a= 10 , osea a=5 Por tanto, n, = 5,n, = 10, n, = 20, n, = 22 y n= 24° NOTA 2.7 Cabe destacar que cuando el conjunto de observaciones discretas son numerosas, para abreviar el trabajo, con cierta arbitrariedad y alguna pérdida de precisién e informacién, puede tratarse como si fuera datos continuos, formando intervalos de clase. En este caso los intervalos pueden ser cerrados en ambos lados, es decir: . ist Yor YC yd 2.3.3 DATOS DE VARIABLES CUALITATIVAS En el caso de datos cualitativos, la tabla de distribucién de frecuencias adoptard la forma siguiente: Variable. Frecuencias Frecuencias Frecuencia absolutas relativas relativa porcentual Caracteristica A Caracteristica B Caracteristica Z 7 EJEMPLO 2.11 Una revista muy conocida efectué una encuesta respecto a lo adccuado de la proteccién policial en la ciudad. Se seleccion6 un total de 419 personas en una muestra aleatoria simple. Los siguientes datos reflejan las respuestas de las personas encuestadas a la pregunta Es adecuada la proteccién policial en su vecinda- Tio? Si No No sabe responder a. Qué proporcién de personas no saben responder? b. Qué porcentaje de personas contestaron si? SOLUCION Para respondera las preguntas debemos calcular las frecuencias relativas y porcentuales de las respuestas. Respuestas Frecuencia Frecuencia Frecuencia absoluta relativa porcentual Si 293 0.6993 69.93 No 80 0.1909 19.09 No sabe responder 46 0.1098 10.98 1.0000 100.00 a. La proporcion de personas que no saben responder es 0.1098. b. El 69.93% de las personas encuestadas contestaron si. EJEMPLO 2.12 Construya una clasificacién cerrada y discreta, de las posibles respuestas sobre “cl estado civil” de una encuesta. También construya una clasificacién discreta de tres categorias, abierta en los extremos, para las mismas respuestas. 78 SOLUCION. Clasificacién cerrada Clasificacién abierta Estado Civil Estado Civil | Frecuencia Soltero Casado Divorciado Otros 2.3.4 DIAGRAMA DE HOJAS Y TALLOS Un procedimiento semi-grafico (tabular y grafico) de presentar la informacién para datos cuantitativos, que es especialmente titil cuando el nimero total de observa- ciones es pequefio (menor que 50), es el diagrama de hojas y tallos de TUKEY. Los principios basicos para construirlo son: a. Redondear los datos a dos 0 tres cifras significativas, expresdndolos en unidades convenientes, b. Disponerlos en una tabla con dos columnas separadas por una linea como sigue: b,.Para datos con dos digitos, escribir a la izquierda de la linea los digitos de las decenas, que forman el tallo, y a la derecha las unidades que seran las ramas. Pot ejemplo 85 se escribe: Tallo Hoja 8 5 b,.Para datos con tres digitos el tallo estaré formado por los digitos de las centenas y decenas, que se escribirén a la izquierda, separados de las unidades. Por ejemplo, 329 se escribira: Tallo Hoja 32 9 c. Cada tallo define una clase, y se escribe slo una vez. El niimero de “hojas” representa la frecuencia de dicha clase, que se ubica en una tercera columna det diagrama. EJEMPLO 2.13 Los siguientes datos representan la longitud en cm de 16 camarones de un criadero: 79 11.367; 12.543; 11.382; 12.441; 14.313; 15.212; 13.301; 11.300; 17.806; 12.711; 13.456; 16.142;-12.622; 13.421; 14.697; 13.165. Construir un diagrama de hojas y tallos. SOLUCION 1. Los datos redondeados expresados en mm: 114;,125; 114; 124; 143; 152; 133; 113; 178; 127; 135; 161; 126; 134; 147; 132. 2. Siguiendo el proceso indicado en b, se construye la Tabla 2.16. TABLA 2.16 DIAGRAMA DE HOJAS Y TALLOS DE LA LONGITUD DE Frecuencia LOS CAMARONES EJEMPLO 2.14 Los siguientes datos representan la vida en segundos de 50 moscas de frutas a las que se somete a un nuevo insecticida en un experimento controlado de laboratorio: 17 20 «10 9 23 13 12. (19 18 24 12 «14 6 9 13 6 7 10 13 7 16 «18 8 13 3 32 9 7 10 #11 13 7 18 7 10 4 27 19 16 8 7 10 5 14 15 10 9 6 7 15 Construya un diagrama de hojas y tallos para las vidas de las moscas de fruta. SOLUCION De acuerdo con b, yc, se construye la Tabla 2.17. 80 TABLA 2.17 DIAGRAMA DETALLOS Y HOJAS PARA LAS VIDAS DE LAS MOSCAS 9696778397774875967 70329824303683013809604505 0347 2 El diagrama de tallos y hojas de la Tabla 2.17 contiene sélo 4 tallos, y en consecuencia no proporciona una imagen adecuada de la distribucién. Para subsanar este problema, se requiere aumentar el ndmero de tallos del diagrama. Una forma simple de lograrlo es anotar dos veces cada uno de los valores de los tallos en el lado izquierdo de la linea vertical y después registrar las hojas 0, 1, 2,3 y 4 frente del valor apropiado del tallo donde aparece por primera vez; y las hojas 5, 6, 7,8 y 9 frente de este mismo valor del tallo donde aparece por segunda vez. Este diagrama modificado de doble tallo y hojas se ilustra en la Tabla 2.18, donde los tallos que corresponden a las hojas 0, 1, 2,3 y 4 se han distinguido por el simbolo * yy los tallos correspondientes a las hojas 5, 6, 7, 8 y 9 por el simbolos. Asi, por ejemplo, el primer valor observado 17 tiene el tallo I’ _y la hoja 7; el segundo valor observado 20, tiene tallo 2" y hoja 0, etc. TABLA 2.18 DIAGRAMA DE DOBLE TALLO Y HOJAS DE LA VIDA DE LAS MOSCAS Tallos 34 96967789777875967 0322430330130040 7986889655 034 7 2 2.3.4.1 VENTAJAS DE LOS DIAGRAMAS DE HOJAS Y TALLOS 1. Los diagramas de tallos y jas conservan los datos originales, por lo que es facil identificar algiin dato particular si lo quisiéramos. 81 2. Es flexible en cuanto a poder incluir datos extremos sin perder el grado de detalle en el resto de Ios datos. 3. Permiten percibir caracteristicas de los datos que a veces los intervalos cubren. 4. No necesita algiin grafico adicional para percibir la forma de la distribucién, DESVENTAJAS No es una representacién practica para voltimenes grandes de datos. 2.3.5 PROBLEMAS DE REPASO 2A PROBLEMA 1 En una distribucién simétrica de 8 intervalos de clase, se conoce la siguiente informaci6n: n, = 4; N = 120; N, =92; Ni - n= 20; c=6; 8 X y, = 220; donde: 1=4 N° = frecuencia acumulada “mayor 0 igual que” del i-ésimo intervalo. c¢ =amplitud de clase. y, = marca de clase. a. Construya cl cuadro completo. b. Determine cl % de datos que est4n entre 18 y 45 inclusive. SOLUCION a. Reconstruccién del cuadro: 1, Calculo de las marcas de clase: y, = Y,_, + ©} entonces, 8 LAY t st V eA Yy Hg = 220 is y,ty,+6t+y, +124 y, + 18+ y, + 24= 220 Sy , = 220 — 60 = 160 y, = 32. Lucgo: y |= 32-6=26; y,=20; y,= 14; y,= 32+ 6 = 38; y,=44; y,=50; y,= 56 2. Calculo de los limites de clase: ot Y, YotYote 2¥, +6 Me yyy 82 28-6 _ 2 =ll. Entonces, y, =11+6=17; ¥,=233 y= 29; y= 35; y5a4ls yg =475 y= 53; y, = 59. dedonde y= 3. Calculo de las frecuencias absolutas: . 8 Como N, = 5 n, =120, se tiene que n = 120. i=l Por ser la distribuci6n simétrica se cumple: n=n=4; n=; n=ng m=n, Por tanto, 8+ 2n,+ 2n,+ 2n,= 120 n +n, +n,= 56 mM De los datos, n,=20 N prop 2. 12. prop. 2.12. a N,-n, =92 N,-n,-10, =92 y como N,=N, -n, = 120-4 = 116 83 —n,-—n,=92-116=- 24 ni +n,= 24 dip Reemplazando (III) en (1) tenemos 24+n,=56 n, = 32. Sustituyendo, este valor en la ecuacidn (II), obtenemos 2x32+n,=72 n,=8. Finalmente, reemplazando n, en la ecuaci6n (Ill), n, = 24 - 8 = 16. De (1), (2) y (3) queda construido el cuadro. Ubiquemos en una recta, los limites de clase y los puntos en cuestién. x y 4 —o4 Mill + $< Witlitg t tA — MN 17g 23 29 35 at a7 53 59 Bae et 8 16 32,—~Sts 32 16 Fig, 2.6. Sea; r = ntimero de observaciones que estan entre 18 y 45; entonces r=x+16+32+32+y x ey se obtienen interpolando linealmecite, de la siguiente manera: en una amplitud de 6 hay 8 datos 823 - 18) _ 6.67 en una amplitud de 23 - 18 habrd x datos x 6 ~ __ -4 S is y = SO 4D _ 1067, 45-41 ——y 6 Luego; 1r=7+ 16+324+32+11=98 Por tanto el porcentaje de datos que estan entre 18 y 45 inclusive, serd aproxima- damente: P=tx1 = 3B x 100 = 81. 67%. PROBLEMAS 2-1 1. ¢Por qué las frecuencias relativas son mds importantes que las absolutas? Explique. 2. Cuando seconstruye una distribucién de frecuencia, el mimero de clases que se usan depende de: a. Niimero de datos c. Tamaifio de la poblacién b. Intervalo de los datos reunidos. —_d. Todas las anteriores e.ay bperonoc, 3. Explique la diferencia entre distribuciones de frecuencias relativas y de porcenta- jes. 4. A continuaci6n se transcriben las edades de 50 integrantes de un programa de servicio social del gobierno: 81 533. 67 6 80 G S6 S54 91 61 66 8 67 65 52 72 74 6 73 69 43 5476 #70 97 +68 82 75 79 60 39 87 7 97 8 45 6 45 65 76 92 72 82 8 70 6 SO 58 70 56 Construya con estos datos las distribuciones de frecuencia relativa usando 7 y 13 intervalos iguales. Las politicas estatales de los programas de servicio social exigen que aproximadamente 40% de los participantes del programa sean mayores de 50 afios. a. iSe ajusta el programa a esa politica? b. ,Cual de las distribuciones de frecuencia relativa le ayuda a contestar mejor la parte (a)? c. Supongaque el director de los servicios sociales quiera conocer la proporcién de participantes en el programa cuya edad fluctia entre 45 y 80 afios. ;Con cual de las dos distribuciones podria estimar mejor la respuesta el director? 5. Lacompafifa VELOZ, una empresa situada en Arequipa, muestreé sus registros de embarque durante cierto dia, obtenicndo los siguientes resultados: TIEMPO TRANSCURRIDO DESDE LA RECEPCION DE LA ORDEN HASTA LA ENTREGA (EN DIAS) 4 12 8 14 11 6 7 13 3 11 Ww 20 5 19 10 15 24 7 29 6 10. 86 Construya una distribucién de frecuencia para los datos anteriores y una distribu- cién de frecuencia relativa. Use intervalos de 6 dias. a. {Qué afirmaci6n puede hacer sobre la eficacia del procesamiento de pedidos a partir de la distribuci6n de frecuencia? b. Si la compajiia quiere asegurarse de que la mitad de sus entregas se realicen en 10 0 menos dias, puede Ud. determinar mediante la distribucién de frecuencia si la compafiia ha alcanzado su meta? Las marcas de clase de una distribucién de frecuencias con intervalos de igual amplitud son: 46, 55, 64, 73, 82, 91. Halle: a. El intervalo de clase ¢. Los limites de clase. b. El rango. d. Los limites reales de clase. Se tiene una distribucién de frecuencias con cuatro intervalos de clase de igual amplitud y los siguientes datos: y, = 10, y,=22,. h,=0.30, h=175%, H,=045, n=120 Reconstruir la tabla de frecuencias. Los puntajes de 50 alumnos se clasifican en un cuadro de distribucién de frecuen- cias de cuatro intervalos de amplitud constante Sapiendo que: y, = 50, n, = 4, N, = 20, n, = 25, c = 62. Reconstruir el cuadro. En cada uno de los siguicntes casos, determine si son consistentes o no los datos: a. m = ndmero de clases = 6, h, = 0.2, h, = 0.2, H, = 0.6, H,+H,=19 b. H, = 0.30, n = 10, h, = 0.31. .40, n = 50, n, = 20. d. h, = 4%, h, = 12%, H, = 15%. e. H, = 0.36, N, = 30, h, = 6, = 50. Suponga quc la siguiente tabla de distribucién representa los salarios diarios de los trabajadores de construccién civil de Lima: a. Elsindicato de construccién civil solicita que en el nuevo pacto colectivo se establezca un salario diario minimo de S/.14. ;Qué porcentaje de trabajadores se be- neficiardn con este pacto? b. Los trabajadores que reciben mds de 30 soles diarios, se supone son muy calificados (maestros de obra). ,Qué porcentaje de trabajadores se supone muy calificados? c. Estime el nimero de trabajadores que ganan entre 15 y 27 soles diarios. 11. Los siguientes datos indican el nimero de minutos que ocuparon sus asientos 50 clientes de una cafeteria: 73 6 82 70 45 S50 70 54 32 75 15 67 65 60 75 87 83 40 72 64 58 75 89 70 73 S55 61 78 89 93 4 51 59 38 65 71 7 85 65 85 49 47 55 60 7 7 69 35 45 63 Construya un cuadro de distribucién de frecuencias escogiendo un numero declases adecuado para contestar las preguntas siguientes: a. yCu4ntos clientes ocuparon entre 35 y 52 minutos los asientos? b. gCudntos clientes ocuparon més de una hora los asientos? ¢. {Qué porcentaje ocuparon los asientos menos de 92 minutos? 12. Condorito, que es un jefe de practica muy divertido, pierde los ex4menes de estadistica. Pero recuerda que las 120 notas tenian una distribucién simétrica con 7 intervalos de clase de amplitud constante. Ademés en sus archivos encuentra la siguiente informacién: . 7 h,=5%, h,=15%; H}= 85%, y,=72, © y,= 400 i=3 donde: y, = marca de clase. H, = frecuencia relativa acumulada “mayor o igual que”. a. Reconstruya la tabla de distribucién de frecuencias. b. Si para aprobar el examen se necesita obtener por lo menos 70 puntos, ,cudntos desaprobaron dicho examen? 13. En una investigaci6n agricola en el Valle de Chancay se determiné la produccién total (en kilogramos) de un cierto cultivo, el cual fue sembrado en 20 parcelas experimentales. Los resultados obtenidos fueron: Produccién en kilogramos 40 35 38 40 41 37 41 40 38 20 25 33 27 25 28 4422 200 299 386 87 14. 15. 16. 88 a. Construya una distribuci6n de frecuencias con 5 clases. b. Si el 80% de los pesos estan por arriba de 30 kilogramos, se recomendar4 su cultivo en el valle. A la vista de los resultados se, grecomendaré su cultivo?. Unacompaiiia tiene 60 trabajadores. El sueldo minimo de un trabajador es 100 soles y el maximo 590 soles mensuales. El 80% de los trabajadores ganan por lo menos 210 soles; 18 perciben haberes inferiores a 390 soles mensuales; 20% son profesio- nales y reciben un haber de por lo menos 490 soles mensuales. Se pide: a. Construir la tabla de distribucién de frecuencias relativas. b. Cudntos ganan mds de 450 soles mensuales. c. Qué porcentaje de trabajadores tienen un sueldo de 300 o mds pero menos de 500 soles mensuales. d. Estime el valor bajo el cual se encuentran los haberes de las dos terceras partes de todos los trabajadores. En los tiltimos 30 dias se tomaron los siguientes datos que representan la duracién en afios de tres bombas de combustible similaces: 20 30 03 33 13 04 02 60 55 65 0.2 23 15 40 59 18 47 07 45 03 1S 0.5 25 50 10 60 56 60 12 02 a, Construya un diagrama de hojas y tallos para las duraciones de las bombas & combustible utilizando el digito que se encuentra a la izquierda del puntodecimal como el talto para cada observacién. b. Construya una distribucién de frecuencias relativas simples y acumuladas. ¢. Estime cl valor bajo el cual se encuentran la tercera parte de todas las observa- ciones. El contenido de nicotina, en miligramos, para 40 cigarrillos de cierta marca sc registraron de la siguiente manera: 1.09 192 231 1.79 228 1.74 147 197 085 1.24 158 2.03 1.70 217 255 211 186 190 168 151 164 0.72 169 185 182 1.79 246 188 208 1.67 137 193 140 164 2.09 1.75 163 237 1.75 1.69 a. Construya un diagrama de hojas y tallos para los datos, en la que los tallos sean los digitos que se encuentran a la izquierda del punto decimal, repetido cada uno de ellos cinco veces, de manera que las hojas de doble digito 00 a 19 estén asociados a los tallos con la letra a; que las hojas 20 a 39 estén asociados con los tallos codificados con la letra b; y asi sucesivamente. De esta manera, un ntimero como 1.29 tiene un valor de tallo de 1b y una hoja con equivalencia a 29. b. Construya la distribucion de frecuencias relativas. 2.4 REPRESENTACION TABULAR Y GRAFICA Unconjunto de observaciones o medidas realizadas en una poblacién, atendiendo a una o més caracteristicas determinadas, es Ilamada también serie estadistica. Las series cronolégicas o temporales, se ocupan del comportamiento de loshechos alo largo del tiempo. En el capitulo 6, nos referiremos a ellas. Una vez que se ha ejecutado la investigacién y se ha recolectado y clasificado la informacién o serie estadistica, resulta imprescindible representarlo de manera adecua- da, de tal forma que nos permita hacer un andlisis util. Existen dos tiposde presentaci6n: mediante los cuadros estadisticos y graficos. 2.4.1 CUADROS ESTADISTICOS En general un cuadro estadistico es uni arreglo ordenado, de filas y columnas de los datos 0 series estadisticas, por tanto tiene dos entradas (podrian considerarse incluso con mas de dos). En ellas pueden representarse caracteristicas cualitativas, cuantitativas © una combinacién de ambas. Se puede también considerar variables discretas, conti- nuas o de ambos tipos. La finalidad es ofrecer informacién resumida de facil lectura, comparacién e interpretacién. Segtin su objetivo, las lineas (horizontales) y columnas (verticales) de un cuadro se deben organizar de modo que pongan en evidencia los aspectos que interesa mostrar y resalten las comparaciones que se desean hacer notar. La tabla de distribucién de frecuencias es un caso especial de un cuadro estadistico. 2.4.1.1 PARTES DE UN CUADRO ESTADISTICO Las partes esenciales de un cuadroestadistico son: 1. Numero; 2. Titulo; 3. Cuadro Propiamente dicho; 4. Las notas explicativas 0 calce. 1. NUMERO: Es el cédigo de identificacién del cuadro. Este numero se escribe a continuaci6n de la palabra “cuadro”. Por ejemplo cuadro N° 2.5, indica el quinto cuadro del capitulo dos. 2. TITULO: Es la indicacién que preside a la tabla y es colocada en la parte superior de la misma. El titulo debe reunir las condiciones siguientes: a. ser completo; b. ser conciso. a. SER COMPLETO: Un titulo completo debe indicar claramente cual es el contenido del cuadro estadistico. Debe responder a las preguntas: Qué, Cémo, Donde y Cuando. QUE: A qué se refiere la tabla que se estudia. Cul es el universo que se investiga. 89 COMO: Cémo se estudia, de acuerde a cudles caracteristicas se clasifican los. individuos u objetos estudiados. Las variables ubicadas en las filas se identifican con la proposicién “por” y las de la columna con la proposicién “segin”. CUANDO: Momento 0 periodo de tiempo a que se refiere el estudio. DONDE: __ Lugara que se refiere la informacion. b, SER CONCISO: El titulo debe ser breve, lo mds conciso posible, aunque no debe sacrificarse la claridad a la concisién. ¢ JEMPLO2.45 Enelcuadro 2.1, indicar, sisu titulo cs completo. En cfccto: el Titulo: f istribucion de las mujeres de 15 a 49 afios por drca urbana, rural y regi6n natural. Stgtin estado conyugal. Vemos que ¢s completo, ya que responde a las preguntas: qué, c6mo, dénde y undo. Distribucién de mujeres de 15 a 49 afios. Por rca urbana, rural, y region natural. Segtin estado conyugal. CUANDO: — En 1986. DONDE: En cl Perd. CUADRO 2.1 PER U: DISTRIBUCION DELAS MUJERES DE 154.49 ANOS POR AREA URBANA, RURAL Y REGION NATURAL, SE- GUN ESTADO CONYUGAL: 1986 ESTADO AREA REGION NATURAL, | CONYUGAL TOTAL URBANA RURAL AML” RESTO DE SIERRA SELVA COSTA TOTAL 4999 3406 15931591 1331 SOLTERA 1760 1335 425 660 481 CASADA 2004 1335 668 640 495 CONVIVIENTE 895 491 405 185 266 VIUDA 70 34 35 13 9 DIVORCIADA 20 20 0 14 3 SEPARADA 250 191 60 79 77 \/ Area Metropolitana de Lima. Fuente: Instituto Nacional de Estadistica e Informatica.- Encuesta Nacional Demogréfica y de Salud familiar (ENDES). 90 EJEMPLO 2.16 Un titulo no recomendable seria por ejemplo: “CUADRO QUE MUESTRA LA DISTRIBUCION DE LAS DEFUN- CIONES EN LA PROVINCIA DE LIMA, DURANTE EL ANO 1990 CLASIFICADOS DE ACUERDO CON LA EDAD Y EL SEXO DELOS FALLECIDOS”. EI titulo recomendable seria: “DEFUNCIONES POR EDAD Y SEXO, PROVINCIA DE LIMA: 1990” Los dos titulos son completos, sin embargo el segundo es mucho més conciso. CUADRO PROPIAMENTE DICHO: Es la parte del cuadro que contiene la informacién y consta de un conjunto de casillas o celdas, dispuestas en columnas y filas. Sus elementos esenciales son: encabezamiento de las columnas, columna principal o matriz y cuerpo. ENCABEZAMIENTO: Es la primera fila del cuadro, en el se explica las categorias, y el objeto de cada una de las columnas, es decir indica la naturale7a de los datos inscritos en cada celda que se hallan debajo. Deben ser breves y explicitos. Por ejemplo, en el cuadro 2.1. El encabezamicnto es: el drea, urbana y rural y la region natural subdividida en AML, resto de costa, sierra y sclva; y el estado conyugal. COLUMNA PRINCIPAL O MATRIZ: Es aquella en que se anotan las catego- rias o las diferentes clases de la escala de clasificacion utilizada. Por ejemplo, en el cuadro 2.1, la columna principal esta constituido por el estado conyugal: soltera, casada,... , separada. CUERPO: Es el conjunto de celdas 0 casillas, que son las intersecciones de filas y columnas, donde estan anotados los datos numéricos (Ver cuadro 2.1) NOTAS EXPLICATIVAS O CALCE: Contiene habitualmente la fuente de los datos representados y cualquier nota aclaratoria sobre el contenido del cuadro. FUENTE: Es la indicaci6n al pie del cuadro que sirve para nombrar la entidad responsable de donde se obtuvieron los datos (Ver cuadro 2.1). 2.4.1.2 ELABORACION DE UN CUADRO ESTADISTICO No es facil la elaboracién de un cuadro. Se deben plantear cuidadosamente su tamaiio, las columnas y la distribuci6n de la informacién por orden de importancia, que, por lo general, no es el orden alfabético. Es necesario ser cuidadoso en la eleccién de las columnas y sus encabezamientos ya que en ellas se pondran en evidencia relaciones que interesa destacar. 91

También podría gustarte