Está en la página 1de 169

Ministerio de Educación

Dirección Nacional de Educación


Gerencia de Gestión Pedagógica
Escuela Superior de Maestros

PROGRAMA DE DIGNIFICACIÓN DEL MAGISTERIO Y DESARROLLO PROFESIONAL


DE DIRECTIVOS Y DOCENTES

PROYECTO
PROGRAMA DE ESPECIALIZACIÓN PARA DOCENTES DE EDUCACIÓN MEDIA Y DE TERCER CICLO DE
EDUCACIÓN BÁSICA.

Matemática
MATERIAL DE APOYO - CURSO 7

MÓDULO ESTADÍSTICA
Equipo de diseño:
Rolando Lemus Gómez (Coordinador)
Francisco Asdrubal Hernández Ramírez
Camilo Salvador Ernesto Zamora Castro
Jose René Palacios Barrera
Pedro Armando Ramos Alberto
Ricardo Salvador Ríos Márquez
Walter Otoniel Campos Granados
Ingrid Carolina Martínez Barahona
José Nerys Funes Torres
Oscar Hernán Lemus Gómez
Armando Figueroa Morales
Oscar de Jesús Aguila Chávez
Carlos Ernesto Gámez Rodríguez
Marcelino Mejía González
José Enry García Flores
Jorge Alberto Martínez Gutiérrez

San Salvador, Septiembre-Noviembre 2011.


Resumen

La estadística es una de las herramientas más ampliamente utilizadas en la investigación científica.

Su aplicación en instituciones gubernamentales y educativas, en los negocios y en la industria,


en la banca y en otros quehaceres diarios hacen de la estadística una herramienta indispensable.

Sin embargo el término ”Estadística” tiene varios significados para diferentes personas; para la
gente común y corriente la estadística solamente significa números. En el periodo de la mañana se
pueden encontrar la estadística más reciente sobre los delitos en el país; de asesinatos, de robos de
automóviles; de asaltos y demás delitos que hayan sido denunciados en determinado periodo de
tiempo; de la situación económica sobre la canasta básica, el empleo, el precio de la gasolina; sobre
la actuación del gabinete del actual gobierno; o en relación con el deporte, el número de partidos
ganados y perdidos por equipos de la liga mayor de futbol.

Para otras personas es un método para obtener, presentar y escribir grandes cantidades de
datos, y para otras es un método para tomar decisiones en situaciones bajo incertidumbre.

El objetivo básico de este material de apoyo para el Módulo de Estadística es aclarar los sig-
nificados de Estadística, definir sus conceptos básicos utilizados con frecuencia, estudiar el proceso
de análisis estadístico en la investigación educativa con ayuda del computador, y evidenciar los usos
y abusos de los métodos estadísticos.

Aunque los significados sean diferentes, todos ellos forman parte del concepto total de ”Es-
tadística”. La palabra tiene su sentido más amplio para aquellas personas cuyo trabajo requiere un
conocimiento de los aspectos más técnicos de la estadística. Para estas personas, la palabra tiene
relación con aquellos métodos y técnicas que se utilizan en la formulación del problema a investigar,
la recopilación de los datos, su organización y presentación, su resumen a través de medidas, su
análisis, interpretación y comunicación de la información o modelo para obtener conclusiones que
enriquezcan nuestro conocimiento de la realidad y nuestra capacidad para transformarla.

La computadora y, estos métodos y técnicas juegan un papel importante en las actividades que
realizan los profesionales de todas las ciencias, y en especial los docentes de educación media, del
sistema de educación nacional, ya que la Estadística contribuye al conocimiento de las condiciones
fisiológicas, psicológicas y sociales de los alumnos y de los docentes. Al perfeccionamiento de los
métodos de enseñanza y de evaluación.
ÍNDICE 1

Índice
1. Introducción a la estadística 7
1.1. Reseña histórica de la estadística . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2. Etapas de Desarrollo de la Estadística . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3. Importancia de la estadística y definición . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4. La investigación educativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.1. ¿Qué es investigar? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.2. ¿Qué es investigar en educación? . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.3. Paradigmas de la investigación educativa . . . . . . . . . . . . . . . . . . . 14
1.4.4. Particularidades de la investigación educativa . . . . . . . . . . . . . . . . . 16
1.5. La investigación educativa y su relación con la estadística . . . . . . . . . . . . . . . 16

2. Conceptos básicos 19
2.1. Aleatoriedad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2. Población, muestra, parámetro y estadístico . . . . . . . . . . . . . . . . . . . . . . 20
2.3. Variables y tipos de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4. Medición de variables y escalas de medición . . . . . . . . . . . . . . . . . . . . . . 24
2.5. Tipos de escalas de medición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3. Fuentes y recolección de datos 27


3.1. Fuentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2. Técnicas e instrumentos de recolección de datos . . . . . . . . . . . . . . . . . . . . 27

4. Planeación y diseño de una encuesta por muestreo 31


4.1. Generalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.2. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

5. Organización y presentación de los datos 32


5.1. Presentación de datos en tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.2. Distribuciones de frecuencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.3. Presentación de datos en gráficos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.4. Representación gráfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.5. Representaciones para variables cualitativas o Categóricas . . . . . . . . . . . . . . 36
5.6. Representaciones para variables cuantitativas sin agrupamiento . . . . . . . . . . . . 39
5.7. Representaciones para variables cuantitativas agrupadas . . . . . . . . . . . . . . . . 42

6. Resumen de datos 47
6.1. Medidas de Centralización. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
6.1.1. Moda , Mo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
6.1.2. Mediana , Md . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
6.1.3. Media , X̄ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6.2. Medidas de Posición. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
6.2.1. Cuartiles, Qi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
6.2.2. Deciles, Di . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
6.2.3. Centiles, Ci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
ÍNDICE 2

6.3. Medidas de Dispersión. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52


6.3.1. Rango o Recorrido, R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.3.2. Desviación Media, DM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.3.3. Varianza, S 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.3.4. Coeficiente de variación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6.3.5. Estadísticos de Asimetría. . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
6.3.6. Estadístico de apuntamiento. . . . . . . . . . . . . . . . . . . . . . . . . . . 57
6.4. Diagrama de caja. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
6.5. Otros resúmenes estadísticos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
6.6. Números índices: cambio de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.7. Algunos índices demográficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.7.1. Nacimientos brutos e índice de mortalidad . . . . . . . . . . . . . . . . . . . 62
6.8. Estandarización de indicadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.8.1. Índice de mortalidad estandarizado . . . . . . . . . . . . . . . . . . . . . . 64

7. Probabilidades 67
7.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
7.2. Reseña Histórica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
7.3. Conceptos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7.4. Algebra de sucesos de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . 69
7.5. Definición de Probabilidad. Probabilidad de un evento . . . . . . . . . . . . . . . . 72
7.6. Nociones Básicas de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.7. Teoremas de espacios probabilísticos . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.8. Probabilidades Condicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
7.9. Leyes de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
7.10. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

8. Distribuciones de probabilidad 76
8.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
8.2. Conceptos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
8.3. Distribuciones de Probabilidad. Distribución de Bernoulli . . . . . . . . . . . . . . . 79
8.4. Distribución de probabilidad Binomial, Valor Esperado y Varianza . . . . . . . . . . 80
8.5. Distribución Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
8.6. Distribución Normal Estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

9. Muestreo 86
9.1. Algunas técnicas probabilísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
9.2. Muestreo aleatorio simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
9.3. Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
9.4. Muestreo estratificado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
9.4.1. Muestreo Estratificado sin reposición: Estimadores y errores . . . . . . . . . 90
9.4.2. Muestreo Estratificado con reposición: Estimadores y errores . . . . . . . . . 90
9.4.3. Afijación de la muestra: Tipos de afijación y errores de los estimadores para
muestreo con reposición . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
9.5. Muestreo por conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
9.6. Muestreo sistemático . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
ÍNDICE 3

9.7. Números Aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96


9.7.1. Aleatorización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

10. Inferencia estadística 98


10.1. Estimación puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
10.1.1. Propiedades deseables de los estimadores puntuales . . . . . . . . . . . . . . 98
10.2. Estimación por intervalo de confianza de medias y proporciones . . . . . . . . . . . 99
10.2.1. Intervalo de confianza para la media poblacional, σ conocida (n ≥ 30) . . . . 99
10.2.2. Intervalo de confianza para la media poblacional, σ es desconocida (n ≥ 30) 100
10.2.3. Intervalo de confianza para estimar la diferencia de medias poblacionales
(µx − µy ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
10.2.4. Estimación por intervalo para proporciones . . . . . . . . . . . . . . . . . . 101
10.2.5. Estimación por intervalo para diferencias de proporciones . . . . . . . . . . 102
10.2.6. Estimación de µ para muestas pequeñas (n < 30) . . . . . . . . . . . . . . . 102
10.2.7. Intervalos de confianza para diferencia de medias poblacionales (n < 30) . . 102
10.2.8. Intervalos de confianza para una proporción poblacional P (n < 30) . . . . . 103
10.3. Prueba de hipótesis estadísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
10.3.1. Definición de pruebas de hipótesis y tipo de error . . . . . . . . . . . . . . . 103
10.3.2. Procedimiento para probar hipótesis estadísticas . . . . . . . . . . . . . . . 104
10.3.3. Prueba de hipótesis para muestras grandes . . . . . . . . . . . . . . . . . . . 104
10.3.4. Prueba de hipótesis para muestras pequeñas y distribución t de Student . . . 106

11. Distribuciones bidimensionales 109


11.1. Tablas de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
11.1.1. Contraste de independencia de caracteres . . . . . . . . . . . . . . . . . . . 109
11.1.2. Distribuciones marginales y condicionales . . . . . . . . . . . . . . . . . . . 111
11.2. Correlación y predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
11.3. Modelos de regresión lineal: Línea de tendencia . . . . . . . . . . . . . . . . . . . . 113
11.4. Estimación de los parámetros por mínimos cuadrados . . . . . . . . . . . . . . . . . 113

12. Problemas propuestos 117


12.1. Introducción a la estadística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
12.1.1. Guía de Trabajo No. 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
12.1.2. Guía de Trabajo No. 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
12.1.3. Tarea No. 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
12.2. Organización y presentación de datos . . . . . . . . . . . . . . . . . . . . . . . . . 121
12.3. Resumen de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
12.4. Probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
12.4.1. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
12.4.2. Probabilidades condicionales y teorema de bayes . . . . . . . . . . . . . . . 129
12.4.3. Varios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
12.5. Distribuciones de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
12.5.1. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
12.5.2. Distribución binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
12.5.3. Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
12.6. Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
ÍNDICE 4

12.7. Inferencia estadística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142


12.8. Distribuciones bidimensionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
12.8.1. Prueba χ2 para tablas de contingencia . . . . . . . . . . . . . . . . . . . . . 144
12.8.2. Distribuciones marginales y condicionales . . . . . . . . . . . . . . . . . . . 144
12.8.3. Correlación y predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

A. Bibliografía 161

Anexos 163

A. Tablas de distribuciones de probabilidad 163


ÍNDICE DE TABLAS 5

Índice de tablas
1. Diferentes formas de medir la presencia del hábito tabáquico. . . . . . . . . . . . . . . . . 26
2. Distribución de frecuencias simple . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3. Distribución de frecuencia agrupada . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4. Resumen de las decisiones que el investigador puede tomar en la prueba de hipótesis 103
5. Prueba de hipótesis para µ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
6. Prueba de hipótesis para P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
7. Prueba de hipótesis para µ en muestras pequeñas . . . . . . . . . . . . . . . . . . . 107
8. Prueba de hipótesis para P en muestras pequeñas . . . . . . . . . . . . . . . . . . . 108
9. Remesas en millones de dólares . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
ÍNDICE DE FIGURAS 6

Índice de figuras
1. Etapas que comprende la investigación educativa . . . . . . . . . . . . . . .. . . . . . . 17
2. La estadística en la investigación educativa . . . . . . . . . . . . . . . . . .
. . . . . . . 19
3. Relación población, muestra, parámetro y estadístico . . . . . . . . . . . . .
. . . . . . . 22
4. Clasificación de variables . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . 23
5. Clasificación según el número de variables . . . . . . . . . . . . . . . . . .
. . . . . . . 24
6. Diagrama de técnicas e instrumentos para la recolección de datos . . . . . . .
. . . . . . . 28
7. Proceso estándar para la generación de estadísticas en Encuestas por Muestreo. . . . . . . 31
8. Gráfico de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
9. Gráfico de pastel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
10. Pictograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
11. Cartograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
12. Gráfico de barras para las notas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
13. Gráfico tomando porcentajes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
14. Polígono de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
15. Gasto en leña . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
16. Ayuda en remesas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
17. Poligono de frecuencias acumuladas . . . . . . . . . . . . . . . . . . . . . . . . . . 45
18. Serie temporal para el flujo de remesas . . . . . . . . . . . . . . . . . . . . . . . . . 46
19. Medidas representativas de un conjunto de datos estadísticos . . . . . . . . . . . . . 47
20. La mediana es el punto de corte de la ojiva creciente con la decreciente . . . . . . . . 49
21. Posibles ubicaciones de las medidas de centralización en un conjunto de datos . . . . 51
22. Distribuciones de frecuencias simétricas y asimétricas . . . . . . . . . . . . . . . . . 56
23. Uso de los cuartiles para medir la asimetría. . . . . . . . . . . . . . . . . . . . . . . 57
24. Apuntamiento de distribuciones de frecuencia. . . . . . . . . . . . . . . . . . . . . . 58
25. Intervalo de confianza para µ con σ conocido . . . . . . . . . . . . . . . . . . . . . 99
26. Interpretación del nivel de confianza en un intervalo para la media de una distribución
normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
27. Diagrama de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
28. Densidad de población por km2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
29. PIB nominal per cápita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
30. Áreas variadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
1 INTRODUCCIÓN A LA ESTADÍSTICA 7

1. Introducción a la estadística
Como dijera Huntsberger: ”La palabra estadística a menudo nos trae a la mente imágenes de números
apilados en grandes arreglos y tablas, de volúmenes de cifras relativas a nacimientos, muertes, im-
puestos, poblaciones, ingresos, deudas, créditos y así sucesivamente”. Huntsberger tiene razón pues
al instante de escuchar esta palabra estas son las imágenes que llegan a nuestra cabeza.
La Estadística es mucho más que sólo números apilados y gráficas bonitas. Es una ciencia con tanta
antigüedad como la escritura, y es por sí misma auxiliar de todas las demás ciencias.
La ausencia de ésta conllevaría a un caos generalizado, dejando a los investigadores, administradores
y ejecutivos sin información vital a la hora de tomar decisiones en tiempos de incertidumbre.
La interpretación de esta información puede resultar una tarea difícil, si además recordamos cuántas
veces se nos pretende manipular con ella. Para la obtención, interpretación y evaluación de toda esta
información resulta indispensable el conocimiento de los métodos estadísticos.
La estadística pretende determinar formas eficientes de obtener información sobre un fenómeno o
población y cómo analizar dicha información para hacer inferencias sobre la población, siempre
tomando en cuenta la presencia de perturbaciones originadas por el azar, ya sean inherentes al ob-
jeto de estudio o debidas a errores de medición. Los métodos y conceptos que desarrolla la estadística
pueden aplicarse, con las modificaciones adecuada, en muchos campos diferentes: como la medicina,
la biología, la ingeniería, la educación, la industria, los gobiernos, etc.
La Estadística que conocemos hoy en día debe gran parte de su realización a los trabajos matemáti-
cos de aquellos hombres que desarrollaron la teoría de las probabilidades, con la cual se adhirió a la
Estadística a las ciencias formales.

1.1. Reseña histórica de la estadística


Los comienzos de la estadística pueden ser hallados en el antiguo Egipto, cuyos faraones lograron
recopilar, hacia el año 3050 antes de Cristo, prolijos datos relativos a la población y la riqueza del
país. De acuerdo al historiador griego Heródoto, dicho registro de riqueza y población se hizo con el
objetivo de preparar la construcción de las pirámides. En el mismo Egipto, Ramsés II hizo un censo
de las tierras con el objeto de verificar un nuevo reparto.
En el antiguo Israel la Biblia da referencias, en el libro de los Números, de los datos estadísticos
obtenidos en dos recuentos de la población hebrea. El rey David por otra parte, ordenó a Joab, general
del ejército hacer un censo de Israel con la finalidad de conocer el número de la población.
También los chinos efectuaron censos hace más de cuarenta siglos. Los griegos efectuaron censos
periódicamente con fines tributarios, sociales (división de tierras) y militares (cálculo de recursos y
hombres disponibles). La investigación histórica revela que se realizaron 69 censos para calcular los
impuestos, determinar los derechos de voto y ponderar la potencia guerrera.
Pero fueron los romanos, maestros de la organización política, quienes mejor supieron emplear los re-
cursos de la estadística. Cada cinco años realizaban un censo de la población y sus funcionarios públi-
cos tenían la obligación de anotar nacimientos, defunciones y matrimonios, sin olvidar los recuentos
periódicos del ganado y de las riquezas contenidas en las tierras conquistadas. Para el nacimiento de
Cristo sucedía uno de estos empadronamientos de la población bajo la autoridad del imperio.
Durante los mil años siguientes a la caída del imperio Romano se realizaron muy pocas operaciones
Estadísticas, con la notable excepción de las relaciones de tierras pertenecientes a la Iglesia, compi-
ladas por Pipino el Breve en el 758 y por Carlomagno en el 762 DC. Durante el siglo IX se realizaron
1 INTRODUCCIÓN A LA ESTADÍSTICA 8

en Francia algunos censos parciales de siervos. En Inglaterra, Guillermo el Conquistador recopiló el


Domesday Book o libro del Gran Catastro para el año 1086, un documento de la propiedad, extensión
y valor de las tierras de Inglaterra. Esa obra fue el primer compendio estadístico de Inglaterra.
Aunque Carlomagno, en Francia; y Guillermo el Conquistador, en Inglaterra, trataron de revivir la
técnica romana, los métodos estadísticos permanecieron casi olvidados durante la Edad Media.
Durante los siglos XV, XVI, y XVII, hombres como Leonardo de Vinci, Nicolás Copérnico, Galileo,
Neper, William Harvey, Sir Francis Bacon y René Descartes, hicieron grandes aportaciones al método
científico, de tal forma que cuando se crearon los Estados Nacionales y surgió como fuerza el comer-
cio internacional existía ya un método capaz de aplicarse a los datos económicos.
Para el año 1532 empezaron a registrarse en Inglaterra las defunciones debido al temor que Enrique
VII tenía por la peste. Más o menos por la misma época, en Francia la ley exigió a los clérigos reg-
istrar los bautismos, fallecimientos y matrimonios. Durante un brote de peste que apareció a fines de
la década de 1500, el gobierno inglés comenzó a publicar estadística semanales de los decesos. Esa
costumbre continuó muchos años, y en 1632 estos Bills of Mortality (Cuentas de Mortalidad) con-
tenían los nacimientos y fallecimientos por sexo. En 1662, el capitán John Graunt usó documentos
que abarcaban treinta años y efectuó predicciones sobre el número de personas que morirían de varias
enfermedades y sobre las proporciones de nacimientos de varones y mujeres que cabría esperar. El
trabajo de Graunt, condensado en su obra Natural and Political Observations...Made upon the Bills of
Mortality (Observaciones Políticas y Naturales ... Hechas a partir de las Cuentas de Mortalidad), fue
un esfuerzo innovador en el análisis estadístico.
Por el año 1540 el alemán Sebastián Muster realizó una compilación estadística de los recursos na-
cionales, comprensiva de datos sobre organización política, instrucciones sociales, comercio y poderío
militar. Durante el siglo XVII aportó indicaciones más concretas de métodos de observación y análisis
cuantitativo y amplió los campos de la inferencia y la teoría Estadística.
Los eruditos del siglo XVII demostraron especial interés por la Estadística Demográfica como resul-
tado de la especulación sobre si la población aumentaba, decrecía o permanecía estática.
En los tiempos modernos tales métodos fueron resucitados por algunos reyes que necesitaban cono-
cer las riquezas monetarias y el potencial humano de sus respectivos países. El primer empleo de
los datos estadísticos para fines ajenos a la política tuvo lugar en 1691 y estuvo a cargo de Gaspar
Neumann, un profesor alemán que vivía en Breslau. Este investigador se propuso destruir la antigua
creencia popular de que en los años terminados en siete moría más gente que en los restantes, y para
lograrlo hurgó pacientemente en los archivos parroquiales de la ciudad. Después de revisar miles de
partidas de defunción pudo demostrar que en tales años no fallecían más personas que en los demás.
Los procedimientos de Neumann fueron conocidos por el astrónomo inglés Halley, descubridor del
cometa que lleva su nombre, quien los aplicó al estudio de la vida humana. Sus cálculos sirvieron de
base para las tablas de mortalidad que hoy utilizan todas las compañías de seguros.
Durante el siglo XVII y principios del XVIII, matemáticos como Bernoulli, Francis Maseres, La-
grange y Laplace desarrollaron la teoría de probabilidades. No obstante durante cierto tiempo, la
teoría de las probabilidades limitó su aplicación a los juegos de azar y hasta el siglo XVIII no comen-
zó a aplicarse a los grandes problemas científicos.
Godofredo Achenwall, profesor de la Universidad de Gotinga, acuñó en 1760 la palabra estadística,
que extrajo del término italiano statista (estadista). Creía, y con sobrada razón, que los datos de la
nueva ciencia serían el aliado más eficaz del gobernante consciente. La raíz remota de la palabra se
halla, por otra parte, en el término latino status, que significa estado o situación; Esta etimología au-
menta el valor intrínseco de la palabra, por cuanto la estadística revela el sentido cuantitativo de las
1 INTRODUCCIÓN A LA ESTADÍSTICA 9

más variadas situaciones.


Jacques Quételect es quien aplica las Estadísticas a las ciencias sociales. Este interpretó la teoría de la
probabilidad para su uso en las ciencias sociales y resolver la aplicación del principio de promedios y
de la variabilidad a los fenómenos sociales. Quételect fue el primero en realizar la aplicación práctica
de todo el método Estadístico, entonces conocido, a las diversas ramas de la ciencia.
Entretanto, en el período del 1800 al 1820 se desarrollaron dos conceptos matemáticos fundamentales
para la teoría Estadística; la teoría de los errores de observación, aportada por Laplace y Gauss; y la
teoría de los mínimos cuadrados desarrollada por Laplace, Gauss y Legendre. A finales del siglo XIX,
Sir Francis Gaston ideó el método conocido por Correlación, que tenía por objeto medir la influencia
relativa de los factores sobre las variables.
Hasta mediados del siglo XIX la palabra ”Estadística” se usaba con referencia a informaciones o datos
de tipo Socio-económico sobre la realidad de un estado.
A finales del siglo XIX, con Galton y Karl Pearson nace la inferencia estadística, como fruto del en-
cuentro entre la antigua Estadística (de carácter descriptivo) y el cálculo de probabilidades.
Karl Pearson, es considerado el fundador de la Ciencia Estadística, por sus aportes en áreas como
la teoría de las distribuciones, teoría de la correlación, errores probables de estadísticos, distribu-
ción Gi-Dos, sistemáticas aplicaciones realizadas junto a alumnos como Yule o Shepard a numerosos
problemas reales, fundaron la revista Biometrika publicaron numerosas tablas estadísticas. También
contribuyeron Neyman y Ego Pearson en el área de contraste de hipótesis y Ronald Aylmer Fisher
con sus aportaciones en la estimación y en la teoría de los modelos lineales.
En 1940, lo que hoy en día entendemos como inferencia estadística ya estaba establecida. El cálculo
de probabilidades, con las aportaciones de Misses y sobre todo de Kolmogorov, basados en los tra-
bajos de Borel y Lebesgue, constituye ya una teoría matemática firme con una base axiomática. Los
trabajos de Wald, Von Newmann y Savage permiten un enfoque unificado de la Teoría de Decisión
Estadística.
En la decada de los ochenta, se aplica la estadística como herramienta para la mejora de procesos en
la industria, y alcanza su auge con su utilización masiva en Japón bajo la filosofía del Dr. Deming
sobre calidad y productividad.
Los progresos más recientes en el campo de la Estadística se refieren al ulterior desarrollo del cál-
culo de probabilidades, particularmente en la rama denominada indeterminismo o relatividad, se ha
demostrado que el determinismo fue reconocido en la Física como resultado de las investigaciones
atómicas y que este principio se juzga aplicable tanto a las ciencias sociales como a las físicas.

1.2. Etapas de Desarrollo de la Estadística


La historia de la estadística está resumida en tres grandes etapas o fases.

1.- Primera Fase: Los Censos:


Desde el momento en que se constituye una autoridad política, la idea de inventariar de una
forma más o menos regular la población y las riquezas existentes en el territorio está ligada a la
conciencia de soberanía y a los primeros esfuerzos administrativos.

2.- Segunda Fase: De la Descripción de los Conjuntos a la Aritmética Política:


Las ideas mercantilistas extrañan una intensificación de este tipo de investigación. Colbert mul-
tiplica las encuestas sobre artículos manufacturados, el comercio y la población: los intendentes
del Reino envían a París sus memorias. Vauban, más conocido por sus fortificaciones o su Dime
1 INTRODUCCIÓN A LA ESTADÍSTICA 10

Royale, que es la primera propuesta de un impuesto sobre los ingresos, se señala como el ver-
dadero precursor de los sondeos. Más tarde, Bufón se preocupa de esos problemas antes de
dedicarse a la historia natural.
La escuela inglesa proporciona un nuevo progreso al superar la fase puramente descriptiva. Sus
tres principales representantes son Graunt, Petty y Halley. El penúltimo es autor de la famosa
Aritmética Política.
Chaptal, ministro del interior francés, publica en 1801 el primer censo general de población,
desarrolla los estudios industriales, de las producciones y los cambios, haciéndose sistemáticos
durantes las dos terceras partes del siglo XIX.

3.- Tercera Fase: Estadística y Cálculo de Probabilidades:


El cálculo de probabilidades se incorpora rápidamente como un instrumento de análisis ex-
tremadamente poderoso para el estudio de los fenómenos económicos y sociales y en general
para el estudio de fenómenos ”cuyas causas son demasiados complejas para conocerlos total-
mente y hacer posible su análisis”.

1.3. Importancia de la estadística y definición


La estadística es una herramienta fundamental para la investigación científica o estudio de fenómenos
inciertos (aleatorios), ya que ha desarrollado métodos 1 y técnicas 2 estadísticas para apoyar el trabajo
de los investigadores para describir lo que ven, tratar de explicar lo observado y usar esos conocimien-
tos para predecir eventos del mundo en que vivimos. Entre los problemas que se presentan en este
proceso de investigación, y que trata de resolver la Estadística podemos mencionar los siguientes:

1. La descripción de datos:
Es muy poca la información útil que podemos obtener simplemente observando una tabla de
datos. Necesitamos, entonces, procedimientos para resumir eficientemente la información ya
sea de tipo gráfico o numérico. En este caso suele hablarse de Estadística Descriptiva.

2. La elección y análisis de muestras:


Al estudiar una población o fenómeno, en general es imposible (o muy costoso) obtener in-
formación sobre todos los elementos de la población o repetir un número grande de veces un
experimento. Por consiguiente, nos vemos en la necesidad de usar información parcial, y de-
seamos que está sea lo mejor posible. Nos enfrentamos, entonces, al problema de cómo elegir
un subconjunto significativo de la población (Teoría de Muestreo) o de cómo diseñar un exper-
imento que nos proporcione la mayor cantidad posible de información sobre el fenómeno de
interés (Diseño de Experimentos). Así mismo, deseamos utilizar está información parcial para
obtener inferencias sobre el total de la población o fenómeno estudiado en base a los resultados
de la muestra. Para ello, suponemos que el azar afecta los resultados que hemos obtenido y
empleamos Modelos Probabilísticos.

3. El contraste o prueba de Hipótesis:


Cuando se desea probar la validez de alguna hipótesis, es necesario recabar información que
1
Método es una palabra que proviene del griego methodos, meta, y odos, vía y que se interpreta como la vía con la
cual se logra algo y que se puede generalizar como un modo razonado de obrar.
2
Del griego téchne, que significa arte, la técnica es un conjunto de saberes prácticos o procedimintos para obtener el
resultado deseado. La ténica requiere de destreza manual y/o intelectual, generalmente con el uso de herramientas.
1 INTRODUCCIÓN A LA ESTADÍSTICA 11

sea pertinente a dicha hipótesis y que nos permita observar el fenómeno de particular interés.
Para ello, es necesario en general el Diseño de Experimentos con el fin de obtener información
relevante al problema. De la misma manera, una vez recabada dicha información, es necesario
disponer de métodos que permitan la interpretación de los resultados, es decir, que permitan
decidir si la información obtenida apoya o contradice la hipótesis planteada.

4. La medición de relaciones entre variables:


En muchos casos es interesante estudiar las relaciones entre las diferentes variables que inter-
vienen en el problema. Por ejemplo, cómo se relaciona el tabaquismo con el número de horas
dedicadas a estudiar, o cuál es el efecto de la alimentación sobre el incremento de peso de los
pollos en una granja avícola. De esta manera, al conocerse una de las variables puede predecirse
el valor de la otra. Para hacer esto, recurrimos al ajuste de modelos Modelos Probabilísticos,
pues suponemos la presencia de perturbaciones en los datos, las cuales atribuímos al azar.

5. La predicción:
En muchas ocasiones deseamos predecir eventos futuros, como por ejemplo cuál será el precio
de un barril de petroleo durante el próximo año, o cuánto alcanzará la inflación. La estadística
desarrolla metodos para realizar estas predicciones dentro de ciertos márgenes de error conoci-
dos.

6. La decisión:
Ante cualquier situación, distintas decisiones producirán ganancias o pérdidas diferentes. ¿Có-
mo podemos elegir aquella decisión o línea de acción que produzca la mayor ganancia espera-
da? A esta rama de la Estadística suele denominársele Teoria de Decisión.
Definición:
ESTADÍSTICA
Es una ciencia interdisciplinar que utiliza un conjunto de técnicas y métodos para recoger,
preparar, organizar, resumir, hallar regularidades, analizar e interpretar datos del fenómeno
en estudio, siempre y cuando la variabilidad e incertidumbre sea una causa intrínseca de los
mismos; con el fin de obtener conclusiones o hacer predicciones sobre el fenómeno y tomar
decisiones más acertadas.
Ejemplos:
¿Qué son los métodos estadísticos?
Son técnicas y métodos estadísticos con los que se toman decisiones basadas en el análisis de datos
recopilados en experimentos de diseño minucioso. Puesto que los experimentos no pueden diseñarse
para tener en cuenta toda posible contingencia, siempre existe algo de incertidumbre en la ciencia
experimental. Los métodos estadísticos están ideados para permitir la evaluación del grado de incer-
tidumbre de los resultados.
Es posible clasificar los métodos estadísticos de manera general en tres categorías: estadística descrip-
tiva, estadística inferencial y construcción de modelos.
La estadística descriptiva, actualmente también conocida como Análisis Exploratorio de Datos
(AED), se puede definir como los métodos que permiten recoger, organizar, representar, resumir y
analizar una o varias características de todos los individuos u objetos de un conjunto con la finalidad
de explicar en forma apropiada las relaciones de interdependencia y dependencia de las característi-
cas, de dicho conjunto.
1 INTRODUCCIÓN A LA ESTADÍSTICA 12

A la estadística inferencial o inferencia estadística le conciernen los métodos que hacen posible obten-
er conclusiones relevantes y válidas sobre un grupo o conjunto de objetos, al estudiar únicamente una
porción o subconjunto de los elementos de dicho grupo. La confiabilidad de las conclusiones basadas
en los datos puede ser evaluada objetivamente por medio del uso de la probabilidad, ya que la teoría
de la probabilidad permite pasar de datos específicos a conclusiones generales. Este concepto conlleva
a la definición de población y de muestra que se hará más adelante.
Por otra parte la construcción de modelos comprende los métodos estadísticos que buscan encon-
trar una ley, mediante el el desarrollo de ecuaciones predictivas a partir de datos experimentales, que
explique tanto la parte sistemática o previsible del fenómeno en estudio como la parte aleatoria del
mismo.
No se trata de categorías mutuamente excluyentes. Dicho de otra manera, los métodos creados para
solucionar problemas en un área suelen tener aplicación en otra.

1.4. La investigación educativa


Ante los cambios acelerados de conocimiento y la diversidad de paradigmas, se requiere de profe-
sionales competentes que den respuesta a los problemas de una realidad compleja y dinámica; que
adopten una actitud reflexiva y crítica con respecto a la realidad educativa y que posean idoneidad
técnico-profesional para investigar científicamente esa realidad y transformarla creativamente.
Se necesita también de profesionales que se asuman como pensadores, es decir como sostiene Paulo
Freire, que ”realicen la tarea permanente de estructurar la realidad, de preguntarle y preguntarse sobre
lo cotidiano y evidente, tarea ineludible para todo trabajador social”. [3]
Consideramos que los especialistas de la educación deben comprometerse como investigadores de su
propia práctica y reflexionar críticamente acerca de la misma para mejorarla, a través del contraste, el
diálogo, el debate, la deliberación y la experiencia compartida sobre prácticas pedagógicas habituales.
Por otra parte, se hace indispensable para aprender a investigar, tener una experiencia directa con la
problemática a estudiar, cuyas conclusiones superen la mera recolección de información. Para ello,
es fundamental introducir las herramientas de investigación en el estudio de situaciones cotidianas,
para un posterior análisis teórico-reflexivo y la implementación de estrategias superadoras de esas
prácticas.

1.4.1. ¿Qué es investigar?


Cuando hablamos de conocimiento científico, nos referimos a aquel tipo de conocimiento que se
encuentra muy relacionado con el proceso de investigación y que se obtiene mediante la utilización
de métodos y procedimientos científicos, que se utilizan cuidadosamente para dar respuestas fiables a
los interrogantes planteados.
Las características del conocimiento científico han sido ampliamente desarrolladas por autores como
Bayés (1974), Arnau (1978), y Kerlinger (1985), quienes lo caracterizan como:

fáctico (ya que la fuente de información y de respuesta a los problemas es la experiencia),

contrastable (puesto que el conocimiento se pone a prueba),

racional (porque se utiliza la razón como camino fundamental para llegar al conocimiento),
1 INTRODUCCIÓN A LA ESTADÍSTICA 13

metódico (pues el conocimiento se adquiere mediante el empleo de procedimientos, estrategias


y planes construidos cuidadosamente para dar respuesta a los problemas planteados),
sistemático (es un conocimiento lógico, coherente y ordenado en sus elementos),
analítico (ya que se seleccionan aspectos o variables del fenómeno para estudiarlo con mayor
detenimiento),
comunicable (porque se expresa por medio de un lenguaje claro y preciso, aceptado por la
comunidad científica), y
objetivo (se corresponde con la realidad, independientemente de las preferencias y opiniones
individuales del investigador.)
Esta última característica, la de la objetividad e imparcialidad del conocimiento científico, ha sido y
es actualmente discutida y puesta en duda por muchos autores y científicos, fundamentalmente en lo
concerniente a la objetividad en las ciencias sociales.
Este conocimiento científico que hemos caracterizado, es el resultado de la investigación científica,
pero, ¿En qué consiste dicha investigación?
Según Carlos Borsotti, "...investigar es un proceso por el cual se intenta dar respuesta a problemas
científicos mediante procedimientos sistemáticos, que incluyen la producción de información válida
y confiable."[4]
Debemos tener en cuenta que toda investigación, ya sea científica o no, comienza con el tratamiento
de algún problema, es decir, reside en encontrar, enunciar y trabajar con determinados problemas.
El vocablo problema denota una dificultad que necesita de un proceso de investigación (empírica o
conceptual) para ser resuelta, puesto que no puede solucionarse de manera rápida y automática.
Sin embargo, no todo problema es un problema científico. Sólo son científicos aquellos problemas
que se plantean sobre un trasfondo científico, con medios e instrumentos científicos y con el objetivo
primordial de acrecentar nuestro conocimiento. (Bunge, Mario, 1986, Pág. 167.)
Cabe aclarar, que cuando hablamos de trasfondo científico nos referimos al cuerpo de conocimientos
preexistente, el cual está compuesto por conceptos teóricos, datos, técnicas, procedimientos, general-
izaciones empíricas, supuestos, etc. Debemos tener en cuenta que los problemas no surgen de la nada,
toda teoría determina los problemas que se pueden formular.
Podríamos decir que la postura problematizadora es la más evidente de la ciencia, puesto que investi-
gar es investigar problemas. En palabras de Mario Bunge: ”...El proceso creador de la ciencia arranca
del reconocimiento de problemas y culmina con la construcción de teorías (...) Los problemas son el
muelle que impulsa la actividad científica, y el nivel de investigación se mide por la dimensión de los
problemas que maneja”. [5]
La investigación es una práctica social específica que busca la producción de conocimiento científico.
”Investigar significa dar respuestas a problemas del conocimiento. Implica o requiere actitudes y ca-
pacidades básicas de: descubrimiento, observación, pensar reflexivo, relacionar teoría y empirismo,
sensibilidad social, artesanía intelectual, etc.” [6]

1.4.2. ¿Qué es investigar en educación?


En el campo educativo, como en el resto de las ciencias, la investigación se ha constituido en una
actividad precisa y elemental. Por este motivo, se ha originado la investigación educativa, como dis-
ciplina que ”trata las cuestiones y problemas relativos a la naturaleza, epistemología, metodología,
1 INTRODUCCIÓN A LA ESTADÍSTICA 14

fines y objetivos en el marco de la búsqueda progresiva de conocimiento en el ámbito educativo”. [7]


Los orígenes de la investigación educativa se sitúan a fines del siglo XIX, cuando en pedagogía
se adopta la metodología científica. Esta investigación, como disciplina de base empírica, se llamó
primeramente pedagogía experimental, designación similar a la de psicología experimental, utilizada
por Wundt en 1880.
La pedagogía experimental nace en un contexto histórico-social en el cual se resalta el interés por afi-
anzar la educación sobre fundamentos empíricos e incorporar el método experimental en las ciencias
humanas.
Según los estudios de Buyse (1949), se pueden diferenciar tres influencias principales en la pedagogía
experimental: el pensamiento filosófico reinante en el siglo XIX, el surgimiento de la pedagogía cien-
tífica y el crecimiento de la metodología experimental.
El pensamiento filosófico imperante en el siglo XIX, se caracterizó por corrientes filosóficas que
fueron fundamentales para la independencia de las ciencias sociales, contribuyendo en gran medi-
da a dotar de cientificidad a la pedagogía. Estas corrientes son el positivismo, cuyo representante es
Comte; el pragmatismo, representado por James; el sociologismo de Durkheim; y el experimentalis-
mo de Dewey.
El surgimiento de la pedagogía científica, basada en la experimentación, fue otro factor de importancia
para el desarrollo de la pedagogía experimental. Esto se produce gracias a los aportes del racionalismo
del siglo XVIII; el crecimiento de las ciencias naturales con la contribución de las ideas de Darwin,
Cournot y de Bain; la publicación de las obras de autores como C.Bernard, Galton, Burt, Cattell y
Rice, entre otros. También son destacables las ideas educativas de Rousseau, Pestalozzi, Froebel y
Herbart para establecer los pilares empíricos de la educación. (Arnal, J. y otros, 1994, Pág.24-25.) El
desarrollo de la metodología experimental es el producto de numerosos elementos de carácter político,
social y cultural. Se produce inicialmente en el área de la medicina y de la psicología, para propagarse
posteriormente al ámbito educativo.
El concepto de investigación educativa se ha ido modificando a medida que han surgido nuevos en-
foques para el tratamiento de los fenómenos educativos. Actualmente, son variados los significados
atribuidos a la expresión Investigación Educativa, dependiendo de la diversidad de objetivos y carac-
terísticas que se le establecen. Esta temática nos conduce a abordar el siguiente apartado vinculado
con los paradigmas en el estudio de los sucesos educativos.

1.4.3. Paradigmas de la investigación educativa


El concepto de paradigma desarrollado por Kuhn permite diversos usos y una pluralidad de significa-
dos, por eso me parece necesario aclarar como será entendido y utilizado el concepto en el desarrollo
de esta temática.
El término paradigma hace referencia al conjunto de creencias y actitudes, como una visión del mundo
”compartida” por un grupo de científicos que implica, específicamente, una metodología determinada
(Alvira, 1982, Pág.34).
Cada comunidad de científicos comparte un mismo paradigma y conforma, de esta manera, una comu-
nidad intelectual cuyos integrantes tienen en común valores, creencias, normas, objetivos, un lenguaje
determinado, etc. La Investigación Educativa ha estado determinada por conflictos y debates paradig-
máticos, se ha desplazado desde enfoques marcadamente positivistas a enfoques más abiertos y plu-
ralistas.
Diversos autores, analistas de esta temática, ( como Popkewitz , Koerting , Morin y De Miguel, en-
tre otros), sostienen que podemos distinguir tres grandes paradigmas en la Investigación Educativa.
1 INTRODUCCIÓN A LA ESTADÍSTICA 15

Los mismos son (aunando la diversidad de designaciones utilizadas para los mismos) el positivista,
el interpretativo y el sociocrítico. Tradicionalmente la investigación en educación ha seguido los fun-
damentos y preceptos surgidos de la corriente positivista. Esta corriente se relaciona con las ideas
empiristas y positivistas de autores como Comte, S. Mill, y Durkheim. Sus supuestos básicos son que
el mundo natural tiene existencia propia y que está regido por leyes que el investigador debe des-
cubrir objetivamente y con procedimientos científicos, para poder explicar, predecir y, por lo tanto,
controlar todos los fenómenos. Además, este conocimiento adquirido sobre la base de la metodología
hipotético-deductiva ( científica y válida para todas las ciencias) se supone legítimo para todo tiempo
y lugar, objetivo y factual.
Desde esta concepción, la investigación educativa equivale a investigación científica aplicada a la edu-
cación y debe alinearse a las normas del método científico en su sentido riguroso. Se concede valor al
carácter empírico de la investigación, sustentándose en los mismos principios y bases que las ciencias
de la naturaleza. Sólo el conocimiento es aceptado como tal cuando se subordina a las normativas
del método científico y puede, por consiguiente, ser utilizado para construir leyes que expliquen y
predigan los fenómenos.
Desde esta perspectiva, la investigación en el ámbito educativo tiene como finalidad desnudar las
leyes que rigen los hechos educativos para poder formular teorías que orienten y controlen la práctica
educativa. Todo ello mediante el uso de instrumentos y técnicas cuantitativas de investigación.
A pesar de que este paradigma facilita la utilización de criterios de rigor metodológico en el ámbito
educativo, es acusado de reduccionismo, ya que en aras de dicho rigor, sacrifica el estudio de otras
dimensiones importantísimas del fenómeno educativo como son la realidad sociocultural, política,
humana, ideológica, etc.
El paradigma interpretativo se remonta a las ideas de autores como Dilthey, Rickert y Weber, entre
otros, sumado a escuelas de pensamiento como la fenomenología, el interaccionismo simbólico, la et-
nometodología y la sociología cualitativa. Estas corrientes humanístico-interpretativas se concentran
en el análisis de los significados de las acciones humanas y de la vida en sociedad. Para ello utilizan
técnicas de investigación de carácter cualitativo.
La investigación, más que aportar explicaciones de carácter causal, intenta interpretar y comprender
la conducta humana desde los significados e intenciones de los sujetos que intervienen en la escena
educativa. Los seguidores de esta orientación, se centran en la descripción y comprensión de lo que
es único y particular del sujeto más que en lo generalizable; buscan desarrollar conocimiento ideográ-
fico y aceptan que la realidad es múltiple, holística y dinámica. Pretenden llegar a la objetividad en
el ámbito de los significados, usando como criterio de evidencia el pacto intersubjetivo en el contexto
educativo. Acentúan la interpretación y la comprensión de la realidad educativa desde los significados
de las personas involucradas y estudian sus intenciones, creencias, motivaciones y otras característi-
cas no directamente manifiestas ni susceptibles de experimentación.
El paradigma sociocrítico se origina como una respuesta a los anteriores, ya que acusa de reduccionis-
mo al positivismo y de conservadurismo a la corriente interpretativa.
Las bases de este paradigma la encontramos en la escuela de Frankfurt, en el neomarxismo, en las
obras de Freire, Carr y Kemmis, entre otros, y en la teoría crítica social de Habermas.
En los aspectos metodológicos y conceptuales, se asemejan al paradigma interpretativo, pero le in-
corporan la ideología de forma explícita y la autorreflexión crítica en los procesos del conocimiento.
Todo ello con el fin fundamental de modificar la estructura de las relaciones sociales, además de de-
scribirlas y comprenderlas.
Los partidarios de esta línea de investigación intentan conocer y comprender la realidad como prax-
1 INTRODUCCIÓN A LA ESTADÍSTICA 16

is; unir teoría y práctica; implicar al educador mediante la autorreflexión y dirigir el conocimiento a
emancipar al hombre. (Popkewitz,1988, Pág. 75.) En este sentido, vemos que esta postura niega la
hipotética neutralidad de la ciencia.
Esta corriente tiene actualmente un impacto muy fuerte en diversos espacios educativos, como son el
estudio de la administración educativa, del currículo, de la formación del profesorado, etc.

1.4.4. Particularidades de la investigación educativa


Frente a la investigación en las ciencias naturales, la investigación en el ámbito educativo (como en
todas las ciencias sociales), presenta diversas particularidades que se relacionan justamente con la es-
pecificidad de los fenómenos que estudia. Siguiendo el desarrollo realizado por J. Arnal, Del Rincón
y Latorre sobre esta temática, podemos establecer las siguientes características de la Investigación
Educativa.
Los fenómenos educativos, debido a su complejidad, presentan una dificultad epistemológica mayor,
ya que en los mismos interaccionan una diversidad de variables que no permiten un estudio preciso y
exacto como el que se realiza en las ciencias naturales. Cuestiones importantes de los hechos educa-
tivos (como son los valores, significados, intenciones y creencias) no son directamente observables
ni susceptibles de experimentación. En el ámbito educativo la conducta debe contextualizarse (Guba,
1982), esto hace difícil su generalización, porque la misma debe estar desligada del contexto.
La diversidad de paradigmas existentes, conformados por supuestos, perspectivas teóricas y
metodologías difíciles de armonizar y articular.(A diferencia de las ciencias naturales que se ori-
entan por paradigmas integrados).
La variedad de metodologías que se utilizan, ya que las características de los hechos educativos gen-
eran la instrumentación de múltiples métodos y modelos de investigación. (Cuestión relacionada con
la diversidad de paradigmas).
El carácter pluridisciplinar de los fenómenos educativos lleva a que su estudio requiera de los aportes
coordinados de diferentes disciplinas, como la psicología, la sociología, la pedagogía, etc.
La variación de los fenómenos educativos en el tiempo y en el espacio no facilitan el proceso de gen-
eralización y el establecimiento de regularidades. Esto hace más complicado el alcance de uno de los
objetivos de la ciencia.
El investigador (como en todas las ciencias sociales) forma parte del objeto de estudio que investiga.
Esto produce que no pueda mantenerse neutral y ajeno a la problemática educativa que investiga, lo
cual no implica que deba abandonar la necesidad de ser lo más objetivo posible.
Se hace necesario aclarar que el concepto de investigación educativa no tiene un marco definido y
claro para delimitar lo que es considerado propiamente de la disciplina. Esto exige mantener una
actitud abierta hacia sus diferentes modalidades y realizar un esfuerzo de clarificación.

1.5. La investigación educativa y su relación con la estadística


La investigación educativa es investigación científica, por eso en su búsqueda de conocimiento obje-
tivo se apoya en el método científico. La observación directa de los hechos, la búsqueda de evidencias
que sustenten las ideas, permiten alcanzar un conocimiento más exacto y confiable. La historia del
hombre ha demostrado que este es el método más seguro y productivo para obtener conocimiento.
En el campo educativo la Estadística contribuye al conocimiento de las condiciones fisiológicas, psi-
cológicas y sociales de los alumnos y de los profesores. Al perfeccionamiento de los métodos de
1 INTRODUCCIÓN A LA ESTADÍSTICA 17

enseñanza y de evaluación. Los investigadores, los educadores, los profesionales, los grupos priva-
dos, las fundaciones, el gobierno y otros interesados que intentan entender y explicar racionalmente
los problemas o fenómenos del proceso educativo, siguen más o menos las etapas del procedimiento
que se muestra en la siguiente figura.

Figura 1: Etapas que comprende la investigación educativa

1. Selección del problema.


La idea o problema debe surgir de aspectos importantes para nuestras vidas. Es decir tiene que
interesarnos saber algo de nuestra cotidianeidad, pues este es nuestro principal punto de ref-
erencia y conocimiento previo. Jamás debe pensarse que una idea es estúpida y descabellada.
Una idea inicial siempre es vaga y cargada de confusión pero eso no significa que no sea impor-
tante. No existen ideas ”obvias” que no deban ser consideradas. Lo ”obvio” sin análisis previo
es prejuicio. El prejuicio es lo opuesto a la verdadera ciencia, por lo tanto se debe tener mucho
cuidado en este aspecto.

2. Revisión bibliográfica.
La idea o problema debe surgir de aspectos importantes para nuestras vidas. Es decir tiene que
interesarnos saber algo de nuestra cotidianeidad, pues este es nuestro principal punto de ref-
erencia y conocimiento previo. Jamás debe pensarse que una idea es estúpida y descabellada.
Una idea inicial siempre es vaga y cargada de confusión pero eso no significa que no sea impor-
tante. No existen ideas ”obvias” que no deban ser consideradas. Lo ”obvio” sin análisis previo
es prejuicio. El prejuicio es lo opuesto a la verdadera ciencia, por lo tanto se debe tener mucho
cuidado en este aspecto.

3. Las restantes etapas estan incluidas en el Proceso de Análisis Estadístico que se detalla en la
página 18.

La Investigación Educativa presenta una serie de características particulares. La multiplicidad de los


objetivos y fines que pretende, la singularidad de los fenómenos que estudia y la pluralidad de los
métodos que emplea son dimensiones que le otorgan especificidad propia a la vez que hacen más
compleja y ardua su descripción y estudio. El método es un modo de abordar los problemas, siendo la
naturaleza del objeto a estudiar, la que hace recomendables posibles métodos y técnicas específicas.
1 INTRODUCCIÓN A LA ESTADÍSTICA 18

La estadística es una de las herramientas fundamentales en la aplicación del método científico. Así,
cuando se realiza un experimento y se miden determinadas variables como resultado del mismo (nivel
de colesterol, peso, etc.) y se desea sacar alguna conclusión del estilo de ”qué tratamiento es mejor”
o ”aumenta o disminuye el peso”, será necesario realizar un análisis estadístico de los datos.
Conclusiones basadas en la pura observación de los resultados, o en la observación de algunos es-
tadísticos descriptivos, tales como la media aritmética o el valor máximo, pueden conducir a error y
son inadmisibles en la ciencia moderna. El motivo de ello es que al realizar cualquier medida en el
transcurso de un experimento siempre existe un componente muy importante debido al azar. La es-
tadística es, por lo tanto, un conjunto de conocimientos y técnicas que permiten ”cuantificar” el azar.
La mayoría de las veces el investigador quiere inferir resultados sobre toda una población a partir de
una muestra reducida sobre la cual se llevará a cabo el experimento. Es importante conocer a priori
cuál es el tamaño de la muestra, lo cual dependerá estrechamente del tipo de análisis estadístico que se
realizará posteriormente, así como de la precisión con la que se desea trabajar. A lo largo de este doc-
umento se hablará de los métodos y técnicas estadísticas usadas más frecuentemente en los análisis
y diseños estadísticos de investigaciones experimentales, así como del cálculo de los tamaños mues-
trales adecuados. El empleo de la estadística dentro de la investigación basada en el uso del método
científico, tanto en Ciencias Sociales como en aspectos administrativos relacionados con la toma de
decisiones resulta cada vez más importante. En general, como veremos más adelante, se puede decir
que la metodología de investigación determina la calidad de la información en la cual se basan tanto
la descripción del comportamiento de variables e indicadores, como la toma de decisiones.
La estadística es un campo del conocimiento que permite al investigador deducir y evaluar conclu-
siones acerca de una población a partir de la información proporcionada por una muestra, por medio
de métodos y técnicas necesarias para recolectar y analizar los datos requeridos en una investigación,
este procedimiento se denomina Proceso de Análisis Estadístico y se puede sintetizar en los siguientes
pasos:

1. Formulación del problema específico de la investigación. En base al conocimiento conocimien-


to del problema Problemática, justificación, antecedentes, y objetivos específicos, hipótesis.

2. Desarrollo de un método para la obtención de datos. Definir las características o variables a


estudiar y su operacionalidad; la obtención de los datos puede requirir diseñar un experimento,
diseñar fichas, diseñar un cuestionario, o extraerlos de una base de datos, para lo cual podría
ser necesario definir: la población objetivo, la población muestreada, la unidad de observación,
el marco de muestreo, el tamaño de la muestra muestra; y elegir el método de selección de la
muestra más adecuado.

3. Recolección de los datos. Seleccionar las unidades a observar o medir y que integraran la mues-
tra; diseñar un plan para la recolección, preparar los materiales; y realizar el experimento, en-
trevista, o encuesta.

4. Organización y presentación de los datos. Después que los datos han sido recolectados, estos se
presentan en su forma primaria, sin ninguna organización, lo que hace imposible el análisis de
ellos; en consecuencia, se hace necesario clasificar estos datos, a través de la revisión, el agru-
pamiento y presentación. Revisión en la inspección de los formularios y de los registros donde
se han reunido los datos para corregir los errores, las respuestas ilógicas y encontrar las omi-
siones. Agrupamiento es volcar en una sola hoja o base de datos todos los datos contenidos en
los cuestionarios. La presentación (tablas y gráficos) de los datos: Luego de la agrupación de los
2 CONCEPTOS BÁSICOS 19

datos estos se pueden presentar ordenados en tablas ó cuadros y mediante de representaciones


gráficas.

5. Análisis Estadístico. Después de clasificar los datos, se encuentran en condiciones de ser anal-
izados desde el punto de vista estadístico, haciendo uso de las medidas de las características,
relaciones entre ellas y de métodos descriptivos e inductivos, simples y compuestos. Es decir,
los datos obtenidos a través de la recolección se condensan, se estiman las medidas en función
de la población, se determinan sus relaciones y se prueban las hipótesis. , para interpretar los
resultados en función de los objetivos y preguntas planteadas.

6. Interpretación de los resultados. Consiste en traducir las medidas estadísticas obtenidas, de


acuerdo al lenguaje del fenómeno o hecho estudiado. Se interpretará lo hallado y emitirá prin-
cipios, leyes, etc., sobre el problema investigado.

7. Presentación de los resultados. Se dan a conocer los resultados obtenidos considerando en


lo posible hacia quienes va dirigido, haciéndolo en forma comprensible y efectiva. Esta pre-
sentación puede hacerse en forma: textual a través de letras y símbolos algebraicos; tabular o
semitabular a través de los cuadros estadísticos, gráfica a través de esquemas y diagramas; y
por medio de modificaciones de la forma gráfica como son las formas pictóricas.

El método de investigación que se


aplica al análisis de problemas de
nuestra realidad esta basado en el
proceso estadístico planteado ante-
riormente y en el uso de herramien-
tas tecnológicas, tal como lo mues-
tra la figura de la derecha.
Figura 2: La estadística en la investigación educativa

2. Conceptos básicos
A fin de ayudar al maestro en sus trabajos de investigación, en esta sección se revisa una serie de
conceptos básicos para aplicar la estadística.

2.1. Aleatoriedad
La aleatoriedad es un campo de definición que, en matemáticas, se asocia a todo proceso cuyo resul-
tado no es previsible más que en razón de la intervención del azar. La consecuencia de todo suceso
aleatorio no puede determinarse en ningún caso antes de que este se produzca. Por consiguiente, los
procesos aleatorios quedan englobados dentro del área del cálculo de probabilidad y, en un marco
más amplio en el de la estadística. La palabra aleatorio se usa para expresar una aparente carencia de
propósito, causa, u orden. El diccionario del uso del español, define la cualidad de ser aleatorio como
aquello que es ”incierto”.
2 CONCEPTOS BÁSICOS 20

2.2. Población, muestra, parámetro y estadístico


El libro Women and Love: A Cultural Revolution in Progress (1987), de Shere Hite, tiene varios
resultados ampliamente citados:

El 84 % de las mujeres ”no están satisfechas emocionalmente con sus relaciones” (página 804).

El 70 % de las mujeres ”con cinco o más años de casadas tienen relaciones sexuales fuera del
matrimonio (página 856).

El 95 % de las mujeres ”informan de diversas maneras de acoso emocional y psicológico por


parte de los hombres con los que mantuvieron alguna relación sentimental” (página 810).

El 84 % de las mujeres ”informan de ciertos sentimientos de superioridad por parte de los hom-
bres con los que mantuvieron relaciones sentimentales” (página 809).

El libro fue muy criticado en los artículos de periódicos y revistas a lo largo de los Estados Unidos.
¿Por qué fue tan criticado el estudio de Hite?¿Fue incorrecto que citara a las mujeres que sentían que
los hombres de sus vidas se resistían a tratarlas como iguales, féminas que posiblemente no habían
tenido la oportunidad de hablar anteriormente?¿Era incorrecto informar de los porcentajes de estas
mujeres que no se sentían felices con la relación que llevaban con los hombres?
Por supuesto que no. La investigación de Hite permitió a las mujeres analizar una visión de sus ex-
periencias y reflejó la riqueza de las experiencias de estas mujeres de una forma que no lo lograría
un examen de opción múltiple. El error de Hite fue generalizar estos resultados a todas las mujeres,
hayan participado en la encuesta o no, y afirmar que los porcentajes se aplicaban a todas las mujeres.
En la encuesta de Hite, como las mujeres que recibieron cuestionarios (de 127 preguntas) fueron
elegidas a propósito y un porcentaje extremadamente pequeño de ellas regresó los cuestionarios, las
estadísticas calculadas a partir de estos datos no sirven para indicar la actitud de todas las mujeres de
Estados Unidos. La muestra final no es representativa de todas las mujeres de Estados Unidos y las
estadísticas sólo sirven para describir a las mujeres que contestaron la encuesta.
Una muestra perfecta, una versión a escala de la población, que reflejaría cada una de las caracterís-
ticas de toda la población, por supuesto que no puede existir para poblaciones complejas (aunque
existiera, no sabríamos que es perfecta sin antes medir toda la población). Pero una buena muestra
reproduce las características de interés que existen en la población de la manera más cercana posible.
Esta muestra será representativa, en el sentido de que cada unidad muestreada representará las car-
acterísticas de una cantidad conocida de unidades de la población.
Necesitamos algunas definiciones para precisar el concepto de buena muestra.

Unidad de observación. Es el objeto sobre el cual se realiza una medición de la característica a


investigar. Esta es la unidad básica de observació, a veces llamada elemento. En los estudios de
población humana, con frecuencia ocurre que las unidades de observación son los individuos.

Población: es el conjunto de elementos u objetos que satisfacen una definición común y en


los que interesa analizar una o varias características observables y medibles. Aquí el término
población tiene un significado mucho más amplio que el usual, ya que puede referirse a per-
sonas, animales, cosas, actos, áreas geográficas e incluso al tiempo.
Una población se precisa como un conjunto finito o infinito de personas que presentan carac-
terísticas comunes, por lo que debe estar perfectamente definida en el espacio y en el tiempo,
2 CONCEPTOS BÁSICOS 21

de modo que ante la presencia de un potencial integrante de la misma, se pueda decidir si forma
parte o no de la población bajo estudio. Por lo tanto, al definir una población, se debe cuidar
que el conjunto de elementos que la integran quede perfectamente delimitado. Si, por ejemplo,
estamos analizando las escuelas primarias, debemos especificar cuáles y cuándo, por ejemplo:
Escuelas primarias de San Salvador, año 2010.
El tamaño N de una población viene dado por la cantidad de elementos que la componen, en el
caso en que sea una población finita, es decir, que podemos contabilizar y establecer un límite
de existencia.
Hay que distinguir entre la "población objetivo"formada por todos los elementos que poseen
la(s) característica(s) que deseamos estudiar; y la ”población muestreada” formada por aquellas
unidades (elementos o grupos de elementos) que posiblemente puedan ser miembros de una
muestra.

Unidad de muestreo: es la unidad (individuos, objetos o grupos) de la población muestreada


sobre la que se mide la(s) característica(s) que se estudia(n). Por ejemplo, podríamos querer
estudiar a las personas, pero no tenemos una lista de todos los individuos que pertenecen a la
población objetivo. En vez de esto, las familias sirven como las unidades de muestreo y las
unidades de observación son los indiduos que viven en una familia.

Marco de muestreo: es una una lista de de las unidades de mustreo. Para las encuestas telefóni-
cas, el marco de muestreo podría ser una lista de todos los números telefónicos residenciales de
la ciudad; para las entrevistas personales, una lista de las direcciones de todas las calles.

Censo: es el proceso de estudiar todos los elementos que conforman la población. Es decir,
tomar una muestra igual a la población.

Muestra: es un subconjunto de unidades (elementos o grupos de elementos) de la población


muestreada, que se seleccionan a partir del marco de muestreo, destinado a suministrar infor-
mación sobre dicha población. Para que este subconjunto de unidades sea de utilidad estadística,
deben reunirse ciertos requisitos en la selección de los elementos.
Las causas por la cual se seleccionan muestras son muchas. Puede ocurrir que la población que
se defina tenga tamaño infinito (incontable), y en consecuencia, no fuera posible observar a
todos sus elementos. En otras ocasiones, el costo de la observación exhaustiva puede ser muy
elevado, el extenso tiempo de recolección de la información, o más aún, la observación de los
elementos puede ser destructiva.
En todos estos casos, la única manera de estudiar la población es obteniendo muestras de ella.
El tamaño de la muestra queda determinado por el número de elementos que la forman y se
simboliza con la letra n.

Parámetro: es un valor (único) que resume la característica que se investiga en una población,
se cálcula considerando a todos los elementos. Los parámetros de una característica que usual-
mente interesan son: el promedio, la proporción, la razón, el total, la varianza o variabilidad.

Estadístico: es un valor o medida que resume la característica que se investiga en una población,
se obtiene considerando a todos los elementos o unidades de una muestra particular, por lo
tanto puede tomar distintos valores dependiendo de la muestra seleccionada. Formalmente, un
estadístico es una función matemática de una muestra, que mediante métodos inferenciales
permite aproximar o estimar al respectivo parámetro poblacional.
2 CONCEPTOS BÁSICOS 22

Figura 3: Relación población, muestra, parámetro y estadístico


Las encuestas de opinión pública se realizan con frecuencia para predecir el candidato que ganará
en las próximas elecciones. Por ejemplo, en la elección del alcalde de San Salvador. La población
objetivo está formada por las personas que viven en San Salvador y que votarán en la próxima elección
de alcaldes, año 2011; la población muestreada podría estar formada por las personas que pueden ser
localizadas por teléfono y dicen estar dispuestas a votar en la próxima elección. El marco de muestreo
puede ser el directorio telefónico (lista de números telefónicos).
En la Encuesta de Hogares y Propósitos Múltiples, que se realiza en El Salvador, la población objetivo
está formada por todos los hogares del país. La población muestreada estaría formada por todas las
viviendas registradas hasta cierta fecha, anterior a la realización de la Encuesta. El marco de muestreo
sería un listado de viviendas registradas hasta la fecha establecida. Entonces la unidad de muestreo
es la vivienda pero la unidad de observación (elemento) podría ser el hogar (jefé o jefa del hogar),
observe que la vivienda A del registro podría contener 3 hogares al momento de la realizar la encuesta.
La calidad de una muestra, o la confianza que se pueda depositar en ella, depende exclusivamente de
la calidad del método usado para obtenerla, o de la confianza que él merezca. En la práctica, lo único
que puede legítimamente hacerse es aplicar un método que, por el modo de hacerse la selección y
por el tamaño del subconjunto elegido, produzca un alto porcentaje de muestras ”buenas”, de manera
que resulte muy probable que la que seleccionemos en suerte pertenezca al subgrupo específico de
muestras posibles que tienen ese atributo. La selección de la muestra se hace por un procedimiento que
asegure en alto grado que sea representativa de la población. Los métodos de selección de muestras
se describen más adelante.

2.3. Variables y tipos de variables


Datos Estadísticos, Son los resultados del experimento o mediciones de las observaciones realizadas,
son en general, el producto de las observaciones efectuadas en los cuales se produce el fenómeno que
queremos estudiar. Los datos (valores o modalidades) de una característica o cualidad que se observa
o mide y que es común en todos los elementos de una población o muestra son variables, su resultado
varia aleatoriamente de una medición a otra. Debido lo a los datos estadísticos los denominamos vari-
ables aleatorias. Por ejemplo, Ingresos mensuales de los miembros de una comunidad, Calificaciones
de un examen, número de asesinatos por mes en El Salvador en el 2010, estado civil, etc.
Nota: En términos prácticos, los instrumentos de medición presentan ciertas limitaciones de tipo físi-
co que restringen el grado de precisión, a pesar de esto los datos siguen siendo continuos. Este es
2 CONCEPTOS BÁSICOS 23

el caso de datos que representan la estatura de una persona. Usando una cinta métrica tradicional,
se habla por ejemplo, de que una persona mide 1.73 mts. Pero si tuviésemos a disposición algún
instrumento electrónico sofisticado podría obtenerse que está persona mide 1.7287253046301 mts.
Debemos tener claro que una variable no es el objeto de estudio en sí, sino sus características, por
ejemplo si estuviéramos analizando un local para alquilar el local no es la variable, variables son sus
atributos: ubicación, tamaño, iluminación, ventilación, etc.
La definición operacional de una variable es el proceso que que permite pasar de las preguntas de in-
vestigación formuladas a nivel conceptual (calidad de vida, edad, tabaquismo, mortalidad, etc.) desde
el plano teórico al operativo, a su medición (o clasificación) en cada unidad de observación o de análi-
sis específica. Es algo que tiene el mismo significado ayer, hoy y mañana para todos los individuos.
Consideremos un ejemplo simple y familiar: la edad. Formalmente, la edad de un sujeto habría de
difirse como el número de vueltas que ha dado la tierra en torno al sol, más la fracción del recorrido
realizado desde la última vuelta completa hasta el instante en que se hace la indagación. Sin embargo,
en la mayoría de los estudios, la edad se operacionaliza tomando simplemente el número de años
cumplidos (vueltas completas). Dependiendo de los valores o modalidades que tomen las variable,
estas se pueden clasificar de la siguiente manera:

Variables cualitativas: son aquellas que describen cuali-


dades o atributos. No son numéricas, sus valores posible
son categorías o modalidades, y se subdividen en:
Nominales: sus valores son categorías o nombres que no
guardan un orden. Ej. Estado civil, preferencia por una
marca, sexo, lugar de residencia. Ordinales: sus valores
son categorías o nombres que representan un orden y jer-
arquía. Ej. Nivel educacional, días de la semana, calidad
de la atención, nivel socioeconómico.

Variables cuantitativas: son aquellas cuyo conjunto de


valores posibles son valores numéricos. Dentro de ella,
Figura 4: Clasificación de variables se subdividen en:
Discretas: toman valores enteros. Ej. No. de hijos de una
familia, no. de alumnos de un curso. Continuas: son val-
ores reales. Pueden tomar cualquier valor dentro de un
intervalo. Ej. Peso, estatura, salarios.

Existe otra clasificación de acuerdo al número de variables que se analizan conjuntamente. Cuando
las variables se presentan y analizan individualmente, se habla de variable univariante. Alternativa-
mente, cuando se analizan simultáneamente dos, tres o más variables se habla de variable bivariante,
trivariante o multivariante. Por ejemplo, de una encuesta se obtienen los datos sobre tipo de sangre,
peso, ingreso y sexo de los estudiantes de un curso de Estadística; y se analiza cada una de estas
variables separadamente. En este caso se tienen cuatro variables univariantes.
Por otro lado, si es de interés analizar conjuntamente las variables tipo de sangre y peso se está ante
la presencia de una variable bivariante. Pero, si se analizan simultáneamente las cuatro variables en-
tonces se habla de una variable multivariante.
2 CONCEPTOS BÁSICOS 24

Sea, X : T ipo de sangre, Y : P eso, W : Ingreso, Z : Sexo.

Figura 5: Clasificación según el número de variables

2.4. Medición de variables y escalas de medición


Datos Estadísticos: son los resultados del experimento o mediciones de las observaciones real-
izadas, son el general, el producto de las observaciones efectuadas en los cuales se produce el
fenómeno o característica que queremos estudiar.

Medición. Es la observación de un fenómeno o propiedad, y la asignación de un número o


categoría, como forma de representar ese fenómeno. Suele usarse el término observar como
sinónimo de medir. Por ejemplo, pesar un objeto es observar una propiedad, su peso, y asig-
narle un número, el número de kilogramos que pesa. Determinar el estado civil de una persona
también es efectuar una medición, que consiste en clasificar esa propiedad en una de varias
categorías: soltera, casada, etc.

Dato o medida: es el valor (número) o atributo (categoría) que se asigna al medir un fenómeno
o una característica. Un sinónimo de medida es observación.

Escala de Medida: una escala de medida es el conjunto de valores que puede tomar una deter-
minada medida. Los tipos de escala se estudian a continuación.

2.5. Tipos de escalas de medición


Existen distintas formas de medir las variables, distintos tipos de escalas de medición con uno omás
de los siguientes atributos matemáticos: magnitud, un intervalo igual entre unidades adyacentes y un
cero absoluto. No podemos decir que una sea mejor que otra, sino que cada una tiene sus propiedades
y responde mejor a un problema, y sobre todo que condiciona las técnicas que se pueden utilizar para
analizarla. Podemos distinguir cuatro escalas o niveles de medición, en orden ascendente:

1. Escalas nominales: al utilizar una escala nominal, la característica o variable se divide en sus
diversas categorías. Estas categorías comprenden las ”unidades” de la escala y los elementos se
”miden” al determinar la categoría a la cual pertenecen. Así, la medición con una escala nominal
equivale, en realidad, a clasificar los elementos y a darles el nombre (de ahí lo de escala nom-
inal) de la categoría a la cual pertenecen. Las categorías deben ser mutuamente excluyentes y
2 CONCEPTOS BÁSICOS 25

colectivamente exhaustivas. Mutuamente excluyentes significa que un individuo, objeto o medi-


ción pertenece únicamente a una categoría, y exhaustiva significa que ningún individuo, objeto
o medición puede quedar sin categoría, por ejemplo: En un aula de clases vamos a clasificar las
personas por lugar de nacimiento, una misma persona no puede haber nacido en dos lugares,
pero tampoco se puede decir que no nació en ningún lado, por lo tanto, todos tenemos que
estar en una sola categoría. A cada categoría se le puede asignar un número, por ejemplo, la
variable sexo puede tomar dos valores: mujer = 1, hombre = 2. Estos numeros son única-
mente un identificador o código, pues no existe siquiera una relación de orden entre ellas. No
existe relación de magnitud entre las categorías, representa el nivel mínimo de medición y se
utiliza con frecuencia para variables cualitativas. Por ejemplo, marcas de zapatos, los días de la
semana, nacionalidad, preferencia política, creencia religiosa, etc. Las únicas operaciones que
se pueden efectuar con medidas (datos) de variables nominales están basadas en la relación de
equivalencia: frecuencias, modas, tablas de contingencia, etc.
2. Escalas ordinales: además de las propiedades de la escala nominal permite establecer un orden
entre los elementos medidos. La escala ordinal representa el siguiente nivel de medición, el cual
es relativamente bajo de acuerdo con la propiedad de magnitud. Con esta escala, ordenamos los
elementos medidos según si poseen más, menos o la misma cantidad de la variable medida.
Así, una escala ordinal para medir el rendimiento de los alumnos A y B, permite determinar
si A > B, A = B, o A < B. Otro ejemplo de una escala ordinal es el orden de los primeros
cinco participantes en un concurso de oratoria, de acuerdo con su facilidad de palabra. En este
ejemplo, la diferencia de facilidad de palabra entre las personas de rango 1 y 2 podría ser
grande y la que existe entre los individuos de rango 2 y 3 podría ser pequeña. Así, una escala
ordinal no tiene la propiedad de intervalos iguales entre unidades adyacentes. Las operaciones
que se pueden efectuar con medidas de una variable ordinal se basan en relaciones de orden: la
mediana, el coeficiente de correlación de rangos, etc.
3. Escalas de intervalos: además de las propiedades de la escala ordinal, hace que tenga sentido
calcular diferencias entre mediciones, tiene magnitud, igual separación entre unidades adya-
centes pero no cero absoluto. Por ejemplo, la escala de temperatura Celsius en la que el cero
es la temperatura a la cual se congela el agua, este es un cero arbitrario, ya que una lectura de
20o Celsius no es el doble de caliente que 10o Celsius. Además de determinar si A > B, A =
B, o A < B permite determinar si A − B > C − D, A − B = C − D, o A − B < C − D, por
ejemplo, la diferencia entre un C.I. de 120 a 125 es la misma que entre 112 y 117 (125-12005,
117-112=5). Las medidas de este tipo de escala permiten utilizar casi todas las operaciones
estadísticas para analizar los resultados: la media, la desviación estándar, el coeficiente de cor-
relación, test paramétricos, etc.
4. Escalas de razón y proporción: posee magnitud, intervalos iguales entre unidades adyacentes y
cero absoluto. Por ejemplo, la escala de temperatura Kelvin que posee un cero absoluto definido
por la ausencia completa de calor, es el punto menor en la escala, y por lo tanto permite pro-
porciones, una lectura de 20o Kelvin es el doble de caliente que 10o Kelvin. Otro ejemplo, de
escala de razón se tiene al querer medir la edad, el salario. Sobre medidas de este tipo de escala
se pueden efectuar todas las operaciones matemáticas clásicas: suma, resta, multiplicación y
división, y las operaciones estadísticas: media, varianza, moda, coeficiente de correlación, etc.
Otra manera de expresar esta escala es la siguiente. Supongamos que tenemos un grupo de estu-
6
diantes que incluye 6 hombres y 14 mujeres: la proporción de hombres en el grupo es: 20 = 0.30
2 CONCEPTOS BÁSICOS 26

la proporción de mujeres es: 14


20
= 0.70. Es lo que posteriormente llamaremos frecuencia relati-
va.
Porcentaje. Es la proporción multiplicada por 100: porcentaje de hombres 30 %, de mujeres
70 %.
Cociente. El cociente o relación entre mujeres y hombres es 146
= 2.33 a 1. Siempre va arriba
lo mas frecuente. Se usa en casos como "la posibilidad de contraer cáncer de pulmón es 7 veces
mayor (o 7 a 1) entre los fumadores".
Tasa. Se usan en dos situaciones: cuando el denominador es muy bajo (por ejemplo la tasa de
mortalidad es de 10 en 100,000, si fuéramos a expresarnos en porcentaje sería de 0.0001 lo que
es impráctico de trabajar) o en casos en que no es una frecuencia relativa (el numerador no
forma parte del denominador, como por ejemplo la tasa de autos por habitante es de 0.7 autos
por persona).
Como vamos a ver más adelante el concepto de la frecuencia relativa nos lleva al concepto de
probabilidad.

5. Relaciones entre escalas: los cuatro tipos de escalas están ligados por una relación de jerarquía,
desde la escala de razón, que posee mayores propiedades, hasta la nominal, la menos operativa.
De las escalas de razón se puede pasar a las de intervalos, a las de orden y a las nominales. Así,
por ejemplo, la edad se puede asociar a una variable de razón (edad, un número exacto), a una
variable de intervalos (la clase de edad), a una variable de orden (clases de edad representados
por un ordinal) y nominal (grupo de jóvenes y no jóvenes).

Una variable siempre puede bajar de escala pero no subir. Por ejemplo el peso de los niños al nacer se
puede categorizar en bajo peso, medio, y sobrepeso. Pero si nos dicen que un niño es de bajo peso, no
sabemos cual fue exactamente ese peso. Una definición operacional proporciona un significado a un
concepto o variable que puede comunicarse a otros individuos. Es algo que tiene el mismo significado
ayer, hoy y mañana para todos los individuos. En la tabla 1 se muestra un ejemplo.

Tabla 1: Diferentes formas de medir la presencia del hábito tabáquico.


3 FUENTES Y RECOLECCIÓN DE DATOS 27

3. Fuentes y recolección de datos


La base para el trabajo estadístico, es decir los datos, se pueden obtener de manera indirecta, por ejem-
plo al utilizar la información de los censos nacionales o de algún tipo de organización o institución, o
de manera directa, llenando fichas, cédulas de observación o aplicando cuestionarios. En aplicaciones
reales, lo más común es que la parte inicial o básica de un estudio se apoye en datos generales que no
se hayan obtenido de manera directa (por ejemplo, distribución general de la población por edades,
niveles de escolaridad, distribución de actividades por entidad federativa) y que la parte medular y las
conclusiones descansen en datos obtenidos en forma directa, por ser específicos para el problema que
se está analizando.
En muchas ocasiones en la investigación científica es necesario recurrir a la obtención directa de
datos, ya sea al emplear fichas o cédulas de observación en las que se registran características de
interés, o bien al diseñar un cuestionario cuyas respuestas nos permitan conocer las características de
quien responde, su opinión, las condiciones reales en las cuales se encuentra en relación con algún
aspecto específico, como podría ser trabajo, educación y capacitación, salud, relaciones interperson-
ales, empleo del tiempo libre, etcétera.
Cuando los datos se obtengan de manera directa, será necesario apoyarse en el muestreo, diseñar el
instrumento de recolección, coordinar la recopilación de datos y su procesamiento, para finalmente
hacer en análisis de la información y efectuar el informe o informes finales en que se basará la toma
de decisiones.

3.1. Fuentes
Las fuentes de recolección de datos de una investigación estadística son:

1. Fuentes Primarias: Es cuando la persona o institución ha recolectado los datos.

2. Fuentes Secundarias: Si la persona o institución que ha publicado los datos, no es la que ha efec-
tuado la investigación. Se utilizan cuando la oficina que las publica tenga suficiente solvencia
técnica.

3. Fuentes Oficiales: Es cuando los datos son provistos por cualquier dependencia gubernamental.

4. Fuentes Privadas: Es cuando son provistos por agencias, personas, organizaciones, etc., no gu-
bernamentales.

3.2. Técnicas e instrumentos de recolección de datos


Técnica: Se entiende como técnica, el procedimiento o forma particular de obtener datos o informa-
ción.
La aplicación de una técnica conduce a la obtención de información, la cual debe ser resguardada
mediante un instrumento de recolección de datos.
Instrumento de recolección de datos: Es un dispositivo o formato (en papel o digital), que se utiliza
para obtener, registrar o almacenar información. Son ejemplos de instrumentos

Un cuestionario en cuya estructura queda registradas las respuestas suministradas por el en-
cuestado.(Formulario para rellenar)
3 FUENTES Y RECOLECCIÓN DE DATOS 28

Una libreta en la que el investigador anota lo observado.

Computadora portátil con sus respectivos medios de almacenaje

Dispositivos como cámara fotográfica, video- filmadora, grabador de audio, etc.

Figura 6: Diagrama de técnicas e instrumentos para la recolección de datos

Las tres técnicas para la investigación de campo son utilizadas frecuentemente.


La Observación.
Consiste en el uso sistemático de nuestros sentidos para captar la realidad que queremos estudiar.
Es una técnica antigua, a través de sus sentidos, el hombre capta la realidad que lo rodea, que luego
organiza intelectualmente. El uso de nuestros sentidos es una fuente inagotable de datos que, tanto
para la actividad científica como para la vida práctica resulta de inestimable valor. Observación: Es el
registro visual de lo ocurre es una situacional real, clasificando los acontecimientos de acuerdo con
algún esquema pre estructurado y cónsono con el problema que se estudia.
La observación es un proceso cotidiano para nosotros, es parte de nuestra experiencia de vida, pero
nuestras observaciones diarias al no estar orientadas a un propósito determinado carecen de controles
que nos alejen de los errores. Para realizar un proceso de observación con el propósito de recabar
datos debemos seguir algunos principios básicos:

Debe tener un propósito específico.

Debe ser planeada cuidadosa y sistemáticamente.

Debe llevarse, por escrito o de forma audiovisual, un control cuidadoso de la misma.

Debe especificarse su duración y frecuencia.


3 FUENTES Y RECOLECCIÓN DE DATOS 29

Debe seguir los principios básicos de validez y confiabilidad.

La principal ventaja de esta técnica es que los hechos son percibidos directamente, sin ninguna clase
de intermediación, colocándonos ante una situación tal como ésta se da naturalmente. De este modo,
nunca obtendremos distorsiones de la realidad, las cuales solemos tener al emplear una entrevista,
ya que en ellas los entrevistados colocan su toque personal al brindar la información. Otra ventaja es
que la conducta se describe en el momento exacto en que está ocurriendo.
Además, las observaciones se pueden realizar independientemente de que las personas estén dispues-
tas a cooperar o no, a diferencia de otros métodos en los que sí necesitamos de la cooperación de las
personas para obtener la información deseada.
Su principal desventaja reside en que la presencia del observador puede generar una alteración o
modificación en la conducta de los objetos observados, destruyendo la espontaneidad y por tanto
alterando la confiabilidad de los datos.

La Entrevista.
La entrevista es una técnica en la cual es investigador, de acuerdo a la información que necesita
recolectar elabora una serie de preguntas que más tarde realiza a la persona que se convertirá en
su fuente. Las entrevistas la mayoría de las veces se realizan en persona, es decir, visitando al
entrevistado y registrando la información ofrecida, ya sea con un grabador o por escrito.
Como técnica de recolección de datos la entrevista tiene muchas ventajas; es aplicable a toda persona,
siendo muy útil con los analfabetos, los niños o con aquellos que tienen limitación física u orgánica
que les dificulte proporcionar una respuesta escrita. Se le puede explicar al entrevistado con qué
propósito estamos recogiendo los datos y esta ayuda a que éste dirija mejor sus respuestas.
A pesar de todas sus bondades la entrevista también posee algunas desventajas o limitaciones:
Requiere una mayor inversión de tiempo para recoger la información, como las respuestas pueden
ser totalmente abiertas se puede dificultar el análisis de los datos y requiere de mucha astucia para
obtener los datos que se desean canalizando las respuestas del entrevistado aun cuando éste se
desoriente.

Por su importancia, en este material vamos a revisar la técnica de la encuesta.


Encuesta: Se define como una técnica que pretende obtener información que suministra un grupo,
muestra o población de sujetos acerca de si mismo, o en relación a un tema en particular. La encuesta
puede ser oral o escrita.

Encuesta Oral: Se fundamenta en un interrogatorio cara a cara o vía telefónica en el cual el


encuestador pregunta y el encuestado responde. Su duración es bastante corta por lo cual se
realizan poca preguntas. Esta modalidad utiliza como instrumento la Guía de encuesta.

Encuesta escrita: Se realiza a través de un cuestionario autoadministrado, el cual como su nom-


bre lo indica, siempre es respondido de forma escrita por el encuestado.

El Cuestionario.
Se realiza de forma escrita mediante un instrumento o formato en papel, medios magnéticos o
electrónicos contentivo de una serie de preguntas. Se le denomina cuestionario auto administrado
porque debe ser llenado por el encuestado sin intervención del encuestador. Como en el caso de la
entrevista, hay preguntas pero todas están formuladas en un papel, ellas están destinadas a obtener
repuestas sobre el problema en estudio y son dadas por consultado a través de un proceso de escritura,
3 FUENTES Y RECOLECCIÓN DE DATOS 30

sin embargo, el cuestionario puede ser llenado por el encuestado o con ayuda de un empadronador.
El cuestionario puede aplicarse a grupos o individuos estando presente el responsable de recoger la
información o no; puede enviarse por diversos medios a los seleccionados en la muestra. También
puede contratarse a una persona que cumpla que aplique el cuestionario, en estos casos se suele
llamar cédula de entrevista. Un ejemplo de esta aplicación son los empadronadores de los censos de
población, recordemos que ellos traen el cuestionario con sus preguntas y sus respuestas, la función
que cumplen es leer cada pregunta y marcar la respuesta dada por el encuestado.
Las ventajas de esta administración es que no quedarán preguntas en blanco y también que puede ser
aplicada a analfabetos, niños o personas con alguna discapacidad.
Cuando la aplicación cuestionario queda en manos de los encuestados se pueden presentar problemas
relacionados con la cantidad y calidad de datos que pretende obtener para el estudio. Estos problemas
que a su vez se convierten en desventaja son: que el cuestionario no fuese devuelto; que los
consultados evadan la respuesta a alguna pregunta o no darle la importancia necesaria a las respuestas
proporcionadas. Debido a esa posible pérdida de información se recomienda cuando se use está
técnica se escoja una muestra más grande de sujetos de estudio.

Tipos de cuestionarios:
Preguntas Cerradas: Son aquellas que establecen previamente las opciones de respuesta. Ejemplo:
¿Posee usted un televisor? Si No
Preguntas Abiertas o de desarrollo: Son las que no ofrecen opciones de respuesta, sino que se da la
libertad de responder al encuestado, quien construye su respuesta de manera independiente. ¿Que
actividades deportivas realiza durante el ultimo mes?
Preguntas Mixtas: Es aquel cuestionario que combina preguntas abierta y cerradas.

Recomendaciones para la elaboración del cuestionario:

1. Las preguntas del cuestionario no se inventan a capricho, es decir estas deben tener una corre-
spondencia con los objetivos específicos de la investigación.

2. Ordena las preguntas de lo general a lo particular.

3. Evitar preguntas que abusen de la memoria del encuestado

4. Obviar preguntas sobre temas o conocimientos especializados.

5. No incluir preguntas que induzcan a la respuesta (preguntas guías).

6. Omitir preguntas que originen múltiples interpretaciones.

7. Separar las preguntas de ”doble cañón”, es decir, aquellas que se interroga sobre dos puntos en
una misma pregunta.

8. Incluir preguntas que permitan verificar respuesta anteriores o preguntas de control.

9. Emplear frases de enlace cuando sea necesario.

10. Utilizar escalas de rangos para preguntas sobre tópicos muy personales, tales como, la edad y
el salario
4 PLANEACIÓN Y DISEÑO DE UNA ENCUESTA POR MUESTREO 31

11. Una vez construido el cuestionario se recomienda aplicar una prueba piloto o sondeo preliminar
a un pequeño grupo que no forme parte de la muestra, pero que sea equivalente en cuanto a su
característica. Esto con la finalidad de establecer la validez, corregir cualquier falla y elaborar
una versión definitiva del instrumento.

4. Planeación y diseño de una encuesta por muestreo


4.1. Generalidades
Puede resumirse un proceso de generación de estadística básica de encuestas por muestreo, en siete
grandes fases, cuyas actividades se interrelacionan bajo distintos esquemas de orden y secuencia. Las
denominaciones convencionales de esas fases son:

Figura 7: Proceso estándar para la generación de estadísticas en Encuestas por Muestreo

Los operativos para la captación implican dos grandes grupos de actividades: las relacionadas con el
diseño de estrategias y las correspondientes a su ejecución; de ahí que en el marco del proceso están-
dar de generación de estadísticas básicas, cubran dos de las siete fases del proceso de generación, la
de ”Diseño de la captación y el procesamiento” y la de ”Captación”.
En la medida que la ejecución de un operativo involucra movilización de recursos, su relación con la
fase de planeación es fundamental, en virtud de que debe ajustarse a determinadas restricciones en
materia de disponibilidad sobre esos recursos, a la vez que la precisión sobre las características del
operativo es necesaria para una detallada programación y presupuestación del proyecto.
En este sentido, ya que los recursos son limitados, se parte de una estimación global de los costos del
proyecto, con base en experiencias previas sobre otros similares, lo cual sirve de referencia para eval-
uar la factibilidad y conveniencia de generar la información requerida bajo determinada estrategia. De
resultar factible y conveniente la propuesta, se hace necesaria la cuantificación de todos los requerim-
ientos y su calendarización conforme al programa detallado de actividades, y con ello establecer un
5 ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 32

presupuesto preciso y la programación de su ejercicio, así como las previsiones necesarias en materia
de administración de los recursos. La fase de captación implica en la práctica gran interacción con las
fases previas y las subsiguientes.

4.2. Conceptos básicos


Las actividades sobre la captación se planean en la fase de ”Diseño de la captación y el procesamien-
to”, en la cual se establece una ”Serie de actividades para determinar, desarrollar y probar las es-
trategias, procedimientos, esquemas técnicos y sistemas informáticos para las actividades tanto de la
captación de datos como de su procesamiento”.
Las estrategias para los operativos de captación de datos cubren tres aspectos principales: la operativa,
la integración de los recursos humanos, y la comunicación y concertación.
La estrategia operativa consiste en un Conjunto integrado y ordenado de procedimientos para deter-
minar la estructura operativa y plantilla de personal, el programa general de actividades y para la
cobertura de las áreas seleccionadas y la organización administrativa del proyecto para gestionar la
estimación y adquisición de los requerimientos, flujo de materiales, elaboración de presupuesto y los
controles para su eficiente aplicación.
La estrategia para la integración de los recursos humanos, considera el Conjunto de procedimientos
para disponer del personal capaz de desempeñar las funciones de los distintos cargos operativos y en
número suficiente que permita cubrir todas las áreas geográficas que se contemplan en el proyecto,
así como proporcionarles los conocimientos necesarios para cumplir con sus responsabilidades.
Por último, la estrategia para la comunicación y concertación es el conjunto integral y ordenado de
procedimientos para difundir el proyecto y la concertación de apoyos para el mismo, con lo cual se
contribuye al logro de los objetivos y metas del proyecto estadístico en cuestión.
En la fase de ”Captación”, se llevan a la práctica las estrategias diseñadas en la anterior, y consiste
en la ”Serie de actividades para obtener los datos de cada elemento de la población de estudio o una
muestra de ella, siguiendo las estrategias determinadas en programas y procedimientos de trabajo”.
La fase culmina con la concentración ordenada de los formatos de control y reportes de trabajo, así
como la documentación donde se registran los datos a nivel individual, y el envío de éstos últimos
al área de captura. Según las características del proyecto, principalmente en cuanto a cobertura ge-
ográfica, especificidad de los datos, y complejidad de captación, esta etapa puede requerir operativos
especiales, campañas de difusión, concertaciones y diversos apoyos institucionales.

5. Organización y presentación de los datos


Una vez que se han recolectado los datos necesarios, es importante organizarlos o agruparlos de
alguna manera para poder ”manejarlos” más fácilmente. Sin la ayuda de la estadística, los datos
recolectados para una investigación podrían resultar algo así como una masa caótica de números. La
presentación de estos datos en tablas o gráficos permite apreciarlos con mayor claridad, permitiendo
explorar la información antes de analizarla. Mientras que las tablas aportan una descripción más
detallada de los datos, los gráficos permiten observar los patrones generales. Veremos, entonces, cómo
organizar los datos en tablas y, posteriormente, cómo presentarlos en gráficos.
5 ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 33

5.1. Presentación de datos en tablas


Para organizar los datos y presentarlos en forma de tabla lo primero que tenemos que hacer es agrupar
a los individuos o unidades del estudio (personas, viviendas, enfermedades, etc.) según alguna de sus
características. La forma de agrupación dependerá de la escala que hayamos utilizado para medir la
variable.
Si la escala que utilizamos es nominal u ordinal deberemos agrupar los datos de acuerdo a las difer-
entes categorías de la variable.
Si la escala que utilizamos es numérica discreta, deberemos observar el rango de valores diferentes
que adoptó esa variable. Si este rango es pequeño, entonces los datos se agruparán de acuerdo a cada
uno de los valores de la variable. Pero si dicho rango de valores es muy amplio, entonces, deberán
construirse intervalos.
Si la escala que utilizamos para medir la variable es numérica continua, siempre deben formarse in-
tervalos o clases.
Una vez lograda la agrupación de los datos en diferentes categorías o intervalos, determinar la frecuen-
cia de observaciones en cada categoría o intervalo de la variable y construir la Tabla de Distribución
de Frecuencias, en el primero de los casos, y la Tabla de Frecuencias con Intervalos de Clases, en el
segundo de los casos.
Las tablas para facilitar su lectura e interpretación deben contener las siguientes partes:
Título. Este describe la información más importante del problema como es: la variable, la mues-
tra o población, a quién corresponde la muestra.
Encabezado. Este describe el tipo de información que se describe en cada columna.
Cuerpo. El cuerpo agrupa el contenido de la información.
Final. En el final se registran los totales.
Fuente. En esta parte se debe especificar: cómo, quién, en dónde y cuándo se tomaron los datos.

5.2. Distribuciones de frecuencia


Supongamos que tenemos recogidos un conjunto de N datos de una variable X. La tabla que recoge
de un modo sistemático estos datos se denomina distribución de frecuencias. Una distrubución de
frecuencias puede ser de dos tipos: simple o agrupada. La siguiente tabla recoge las principales car-
acterísticas de una distribución de frecuencia simple o no agrupada.
La primera columna representa los distintos valores de esos datos y la segunda la frecuencia simple,
es decir, el número de veces que se ha observado el correspondiente valor. La tercera columna
recoge la frecuencia acumulada, es decir, el número de veces que se han observado valores menores
o iguales que el correspondiente a dicha fila. Las frecuencias relativas se obtienen a partir de las
frecuencias absolutas, dividiendo por el tamño de la muestra.

Cuando en la muestra hay muchos valores diferentes y mucha variabilidad se recomienda, aún a costa
de perder información, agrupar los datos en clases, en lo que se denomina distribución de frecuencias
agrupadas en intervalos. La siguiente tabla recoge las principales características de una distribución
de frecuencia agrupada.
5 ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 34

Datos Frecuencias Frecuencias F. absolutas


absolutas relativas acumuladas
x1 n1 f1 = n1 /N N1 = n1
x2 n2 f2 = n2 /N N2 = n1 + n2
.. .. .. ..
. . . .
xk nk fk = nk /N Nk = n1 + n2 + . . . + nk
k
X X k
Totales ni = N fi = 1
i=1 i=1

Tabla 2: Distribución de frecuencias simple

Intervalos Marcas Frecuencias Frecuencias F. Absolutas Amplitudes Densidades


de clase absolutas relativas acumuladas (longitudes)
Xi
ni
Ii xi ni fi = ni /N Ni = nj ci = Li − Li−1 di = ci
j=1
[L0 , L1 ] x1 n1 f1 N1 c1 d1
[L1 , L2 ] x2 n2 f2 N2 c2 d2
.. .. .. .. .. .. ..
. . . . . . .
[Lk−1 , Lk ] xk nk fk Nk ck dk
k
X k
X
Totales ni = N fi = 1
i=1 i=1

Tabla 3: Distribución de frecuencia agrupada

A cada uno de los intervalos se les denomina clase; a los extremos, extremos de la clase, y al punto
medio de cada clase se le llama marca de la clase. Para efectos de cálculo se elige a la marca de
clase como representante del intervalo. El número de clases en que se dividen los datos no debe
ser excesivo, puesto que pueden aparecer irregularidades accidentales si hay pocas observaciones en
algunas clases. Por el contrario, si se eligen un número reducido, se producirá una pérdida importante
de información. A modo orientativo, el número de clases se puede obtener mediante la siguiente
fórmula empírica, llamada fórmula empírica de Sturges:
 
3 log(N )
k = número de clases = + (1)
2 log(2)

donde los corchetes en la ecuación anterior significa que se toma la parte entera de la expresión.

5.3. Presentación de datos en gráficos.


En ocasiones, preferirá representar gráficamente sus datos, con el objeto de obtener una rápida impre-
sión visual del conjunto. Para ello podrá utilizar diferentes tipos de gráficos, pero lo que nunca debe
olvidar son las siguientes aspectos:
5 ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 35

El gráfico debe ser sencillo y explicarse por sí mismo.


No intente graficar "todos"los datos que tiene en un solo gráfico; por el contrario, es preferible
que no contenga demasiada información y su lectura sea fácil.
Utilice un diseño atractivo, pero sin deformar los hechos que está describiendo.
Seleccione el gráfico más apropiado de acuerdo al tipo de variable y la escala de medición
utilizada para medirla.
Los gráficos son importantes porque permiten:
Organizar los datos
Observar patrones
Observar agrupamientos
Observar relaciones
Comparar distribuciones
Visualizar rápidamentela distribuciónde los datos
Visualizar, obtenery comparar medidas estadísticas
El tipo de gráfico está condicionado por el tipo de escala utilizada para medir la variable que desea
graficar.

5.4. Representación gráfica


El objetivo esencial de las reprensentaciones gráficas de las distribuciones de frecuencias es obtener
una idea general sobre sus propiedades en un simple vistazo, así por ejemplo, observando un
histograma de frecuencias podemos ver si la variable se aproxima a una distribución normal, o
si es simétrica, así como otras propiedades que posteriormente pueden ser analizadas utilizando
herramientas estadística avanzadas.
A la hora de representar distribuciones de frecuencias será necesario tener presente en primer
lugar si la variable es cualitativa o cuantitativa. En segundo lugar, y ya dentro de las variables
cuantitativas, habrá que tener presente si la variable es agrupada o no agrupada. Teniendo en cuenta
estas características de la variable cuya distribución de frecuencias se presenta se pueden clasificar
los gráficos como sigue:
  

 
  Histograma de frecuencias
Datos agrupados Polígono de frecuencias

 


 

 Poligono de frecuencias acumuladas

 
 

 
Cuantitativas Diagrama de barras



 

Diagrama escalonado
 
 
Variables Datos sin agrupar


Polígono de frecuencias



 
 

Polígono de frecuencia acumuladas

  

 
Diagramas de sectores


Cualitativas

 
Diagramas de rectángulos


 o Categóricas 


Pictogramas
5 ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 36

5.5. Representaciones para variables cualitativas o Categóricas


Después de que han sido reunidos los datos, se consolidan y resumen para mostrar la siguiente infor-
mación:

¿Qué valores de la variable han sido medidos?

¿Con qué frecuencia ha ocurrido cada valor?

Para este propósito, se construyen las tablas estadísticas para mostrar los datos en forma gráfica como
una distribución de datos. El tipo de gráfico que elija depende del tipo de variable que ha medido.
Cuando la variable de interés es cualitativa, la tabla estadística es una lista de las categorías consid-
eradas junto a una medida de la frecuencia con que ocurrió cada valor. Puede medir la frecuencia de
tres maneras distintas:

La frecuencia absoluta o el número de mediciones en cada categoría,

La frecuencia relativa o proporción de mediciones en cada categoría,

El porcentaje de mediciones en cada categoría

Por ejemplo, si N es el número total de mediciones, encontrará la frecuencia relativa (denotada por
f ) y el porcentaje (denotado por p), mediante las siguientes relaciones:
F
f= , p = f ∗ 100
N
donde F es la frecuencia absoluta de la categoría.
5 ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 37

Las categorías para una variable cualitativa se deben elegir de modo que
una medición pertenecerá a una y solo una categoría,

cada medición tiene una categoría a la cual se asigna


Una vez que las mediciones han sido clasificadas y resumidas en una tabla estadística puede usar una
gráfica de sectores (de pastel) o una gráfica de barras para mostrar las distribución de los datos.
Definición 5.1. Diagramas de Barras
Los diagramas de barras o rectángulos se construyen asignando a cada modalidad de la variable
cualitativa un rectángulo con altura igual (o proporcional) a su frecuencia absoluta ni y con base
constante.
Ejemplo 5.1. En la siguiente figura se muestra el gráfico de barras para la pregunta de la encuesta
nacional ¿Local de uso público de internet más cercano?, las categorías son: A pie, Carreta, Mi-
crobús, Bus, Pick-up o Camión, Bicicleta, Auto particular, Caballo, Otros, No sabe-no utiliza, No se
desplaza

Figura 8: Gráfico de barras

De la Figura 8 se desprende que la gente que tiene acceso a internet se traslada a pie, sin embargo,
una gran mayoría no sabe o no utiliza Internet.
Definición 5.2. Diagramas Circulares
También llamados Gráficos de pastel, constituyen el tipo de gráfico más utilizado para represen-
tar distribuciones de frecuencias de variables cualitativas. La variable se representa en un círculo
cuyas proporciones (sectores circulares) tienen un área proporcional a las frecuencias absolutas de
5 ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 38

las modalidades de la variable. Para realizar el gráfico basta con asignar a cada modalidad de la vari-
able un sector circular cuyo ángulo central sea proporcional a la frecuencia absoluta de la modalidad.
Matemáticamente, el ángulo central αi de la modalidad i−ésima cuya frecuencia absoluta es ni se
expresa como sigue:
360 ni
αi = ni = 360 = 360fi
N N
Ejemplo 5.2. En la Figura 9 se presenta el gráfico de pastel para la pregunta de la encuenta nacional
¿A que jornada (escolar o universitaria) asiste predominantemente?. (Aquí se toma el total sobre
todas las personas que antes habían contestado positivamente a la pregunta ¿Estudia actualmente?,
que son 20,915)

Figura 9: Gráfico de pastel

Ejercicio 1. Interprete los gráficos de las Figuras 8 y 9, y diga cual le resulta más simple de entender.

Otra forma habitual de construir gráficos de sectores consiste en asignar al sector circular relativo a
la modalidad i−ésima un porcentaje
P igual al tanto por ciento que representa su frecuencia absoluta
ni sobre la frecuencia total N = ni . Matemáticamente, la expresión del porcentaje pi relativo a la
modalidad i−ésima se expresa como sigue:
ni
pi = 100 = 100fi
N
5 ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 39

Definición 5.3. Pictogramas


Es un gráfico con dibujos alusivos al carácter que se está estudiando y cuyo tamaño es proporcional a
la frecuencia que representan, dicha frecuencia se suele indicar.
Su formato es libre,

Emplean una secuencia de símbolos para representar frecuencias,

Se emplean para el tratamiento de datos tanto cualitativos como cuantitativos.


Ejemplo 5.3. La Figura 10, representa el número de árboles plantados cada mes durante un año.

Figura 10: Pictograma

Ejercicio 2. En base al gráfico de la Figura 10, explique: ¿en qué mes se plantaron menos árboles?,
¿y en cuál se hicieron más plantaciones?
Definición 5.4. Cartogramas:
Los cartogramas son gráficos realizados sobre mapas, en los que aparecen indicados sobre las distin-
tas zonas cantidades o colores de acuerdo con el carácter que representan.
Ejemplo 5.4. La Figura 11, muestra el cartograma que describe la urbanización en el mundo aten-
diendo a la industrialización:

Ejercicio 3. Mencione tomando como referencia el gráfico de la figura 11 las zonas de cada conti-
nente que estén menos urbanizadas.

5.6. Representaciones para variables cuantitativas sin agrupamiento


Las variables cuantitativas miden una cantidad en cada unidad experimental. Si la variable toma sólo
un número finito o contable de valores, es una variable discreta. Una variable con un númro infinito
de valores que corresponden a puntos en un intervalo lineal se llama continua.
Algunas veces la información que se reune para una variable cuantitativa es medida en segmentos
distintos de la población, o para diferentes categorías de clasificación. Por ejemplo se podría medir
el ingreso promedio para personas de distintos grupos de edad, generos diferentes o que viven en
5 ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 40

Figura 11: Cartograma

distintas zonas geográficas del país. En estos casos se pueden usar gráficas de sectores o de barras
para describir los datos, con la cantidad medida en cada categoría y no la frecuencia de ocurrencia en
cada cateoría. La gráfica de sectores muestra como se distribuye la cantidad total entre las categorías
y la gráfica de barras usa la altura de la barra para mostrar la cantidad en una categoría particular.

Definición 5.5. Diagramas de barras

Para variables cuantitativas sin agrupar se construyen situando sobre el eje de las abscisas los valores
de la variable y sobre el eje de ordenaddas los valores de sus frecuencias absolutas.

Ejemplo 5.5. En el siguiente gráfico se muestran las notas en el examen parcial 1 del curso de
posgrado en cierta sede, las categorías son: mal, para los que tengan menos de 5; bueno, para los
que tengan más de 5 y menos o igual que 7.5; muy bueno para los que tengan mas de 7.5 y menos o
igual que 8.5; excelente para el resto.

Figura 12: Gráfico de barras para las notas


5 ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 41

Recordar que esto se puede hacer también tomando porcentajes, en la siguiente figura se representa
esta opción:

Figura 13: Gráfico tomando porcentajes

Ejercicio 4. En base a los gráficos de las Figuras 12 y 13, explique el rendimiento de los docentes en
el examen parcial. ¿Cuál le resulta mejor?
Definición 5.6. Polígono de frecuencias
Paraconstruir el polígono de frecuencias se unen los puntos (xi , ni ), también pueden unirse los puntos
(xi , fi ). Finalmente para construir el polígono de frecuencias acumuladas se unen los puntos (xi , Ni ).
Tmbién pueden unirse los puntos (xi , Fi ).
Ejemplo 5.6. Se presenta el polígono de frecuencias para el ejemplo de las notas del curso de pos-
grado anterior

Figura 14: Polígono de frecuencias

Ejercicio 5. Explique el gráfico de la Figura 14, ¿su explicación coincíde con la que dio anterior-
mente?
5 ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 42

5.7. Representaciones para variables cuantitativas agrupadas


Los análisis anteriores parten de la idea que la cantidad de datos con que se está trabajando es poca,
sin embargo, cuando se hacen encuestas nacionales (como por ejemplo, consumo de canasta básica
por hogar) se obtienen grandes cantidades de datos y los anteriores gráficos no son viables.
En lo que sigue se estudiaran las representaciones más importantes y conocidas para variables cuan-
titativas que tienen una gran cantidad de datos y cuyos valores se repiten muchas veces.

Definición 5.7. Histogramas de frecuencias

Los histogramas de frecuencias para variables cuantitativas agrupadas en intervalos se construyen


levantando sobre cada intervalo un rectángulo de área proporcional a la frecuencia absoluta cor-
respondiente a dicho intervalo. Hay que tener muy presente que si los intervalos son de amplitud
constante, las alturas de los rectángulos seran iguales a las frecuencias absolutas respéctivas
(en este caso las áreas dependen solo de las alturas porque las bases de los rectángulos son
iguales). Si las amplitudes de los intervalos son desiguales, las alturas de los rectángulos (densi-
dades de frecuencias) deben calcularse dividiendo la frecuencia absoluta por la amplitud del intervalo.

Si llamamos di a la altura del intervalo i−ésimo, ci a su longitud (amplitud) y ni a sus frecuencias


absolutas, la densidad de frecuencia di vendrá dada por
ni
di =
ci
Como norma, el número de clases o intervalos en que se agrupa la variable debe variar de 5 a 12,
cuantos más datos disponibles haya, más clases son necesarias. Las clases o intervalos deben ser
elegidas de modo que cada observación en uno y solo un intervalo.
La Tabla 2 resume los valores necesarios para construir el histograma de frecuencias, que como ya se
sabe, consta de rectángulos cuyas bases sobre el eje de abscisas son los intervalos Ii y cuyas alturas
son las densidades de frecuencias di .

Ejemplo 5.7. La Figura 15 muestra el histograma para la variable “gasto de dólares en leña” de los
hogares en el país.
5 ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 43

Figura 15: Gasto en leña

Ejemplo 5.8. La Figura 16 muestra el histograma para la variable “cantidad de ayuda en remesas”
en los hogares nacionales, la división de los intervalos se hizo así: intervalo 1, de cero a 100; inter-
valo 2, de 100 a 200; intervalo 3, de 200 a 500; itervalo 4, de 500 a 1000; y el intervalo 5, mayor que
1000. (todo en dólares).
5 ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 44

Figura 16: Ayuda en remesas

En ocasiones suele sustituirse el histograma por el polígono de frecuencias simple, gráfico que se
forma al unir los puntos medios de cada intervalos xi (marcas de clase) a una altura proporcional
a la frecuencia (para intervalos iguales). La unión de estos puntos (xi , ni ) o (xi , di ) forman una
línea quebrada rectilínea que al prolongarla por los extremos corta al eje X (esta prolongación suele
hacerse hasta los puntos medios de la categoría inferior y superior inmediatos que corresponden a la
clase de frecuencia cero). De esta forma, el área que queda por debajo del polígono de frecuencias
es igual al área contenida dentro del correspondiente histograma. Este gráfico permite comparar las
distribuciones de varios grupos observando las áreas donde coincíden o se separan.

Otro instrumento gráfico esencial para representar una distribución de frecuencias es el polígono de
frecuencias acumuladas, que se utiliza cuando se trabaja con frecuencias absolutas o relativas acumu-
ladas y que se construye levantando en el extremo superior de cada intervalo de clase una ordenada
igual a la frecuencia acumulada correspondiente y uniendo a continuación dichas ordenadas. Los pun-
tos que se unen serán (Li+1 , Ni ). La primera ordenada se une al extremo inferior del primer intervalo
prolongándose el polígono desde este punto hasta la izquierda sobre el eje X, y prolongándose tam-
bién el polígono a partir de la ordenada del extremo superior del último entervalo con una paralela
al eje de abscisas. De esta forma, la ordenada correspondiente a cada valor de la variable X mide el
número de observaciones para las cuales la variable toma valores menores o iguales que la abscisa
(este concepto aproxima la idea de función de distribución de la variable x).
5 ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 45

Figura 17: Poligono de frecuencias acumuladas

Ejercicio 6. Interprete el gráfico de la Figura 17

Definición 5.8. Serie Temporal

Hasta ahora todas las variables que se han estudiado tenían en común que, por lo general, nunca han
estado fechadas, es decir no estaban vinculadas al tiempo en forma alguna y menos explícitamente.
Se trataba de datos de corte transversal o atemporales. Sin embargo es muy frecuente, especialmente
en el ámbito económico y en las ciencias sociales, que las observaciones de los caracteres de una
población se realicen ligadas al tiempo o fechadas en instantes determinados del tiempo. Así, por
ejemplo, uno de los caracteres de una empresa, susceptible de ser observado puede ser su volumen
de ventas y podemos estar interesados en estudiar el comportamiento y evolución temporal de esa
característica de la empresa. En este caso esa observación se realizará de forma repetida durante una
serie de momentos del tiempo. Esa observación repetida en el tiempo da lugar a una serie temporal.
En este sentido diremos que una serie temporal, cronológica, histórica o de tiempo es una sucesión de
observaciones cuantitativas de un fenómeno ordenadas en el tiempo.

Ejemplo 5.9. En la Figura 18 se presenta el gráfico para la serie temporal que se obtiene al observar
el flujo de remesas mensuales en El Salvador desde enero de 1991 hasta junio de 2011
5 ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 46

Figura 18: Serie temporal para el flujo de remesas

El análisis de series temporales, desde el punto de vista de su comportamiento, tanto pasado como
futuro, requiere el uso de nuevas técnicas, pues las presentadas hasta el momento, aunque le son
aplicables, no cubren las necesidades que surgen en el tratamiento de este tipo de datos. Desde el
momento que los valores de una serie temporal van ligados a instantes del tiempo, entonces, podemos
decir que el análisis de una serie implica el manejo conjunto de dos variables, siendo una de ellas
nuestra serie temporal y la otra los intervalos o instantes del tiempo sobre los cuales se han realiza-
do las observaciones. Hay que señalar que esa observación sincronizada de la variable en el tiempo
implica que los valores de la misma han de estar perfectamente ordenados, de igual modo que los
intervalos del tiempo lo están. Sin embargo, las técnicas para abordar el análisis de las series tempo-
rales está por encima de los objetivos de este curso, ya que son necesarias herramientas avanzadas de
estadísticas y probabilidad.
6 RESUMEN DE DATOS 47

6. Resumen de datos
Anteriormente hemos visto cómo como se pueden resumir los datos obtenidos del estudio de una
muestra o población en una tabla o un gráfico. No obstante, tras la elaboración de tabla y su repre-
sentación gráfica, en la mayoría de las ocasiones resulta más eficaz condensar dicha información en
algunos números que la expresen de forma clara y concisa.
Los fenómenos no suelen ser constantes, por lo que será necesario que junto a una medida que in-
dique el valor alrededor del cual se agrupan los datos, se asocie una medida que haga referencia a la
variabilidad que refleje dicha fluctación.
Por tanto el siguiente paso y objeto de este capítulo consistirá en definir algunos tipos de medidas que
sinteticen aún más.
Es decir, dado un grupo de datos organizados en una distribución de frecuencias o bien una serie de
obsevaciones sin ordenar, pretendemos describirlos mediante dos o tres cantidades sintéticas.
En ese sentido pueden examinarse varias característica, siendo las más comunes: la tendencia central
de los datos, disperción o variación con respecto a este centro, los datos que ocupan ciertas posiciones,
la simetría de los datos, la forma en la que los datos se agrupan.
A lo largo de este capítulo, y siguiendo este orden, iremos estudiando los estadísticos que nos van
a orientar sobre cada uno de los niveles de información: valores alrededor de los que se agrupan los
datos, la mayor o menor fluctuación alrededor de esos valores, nos interesaremos en ciertos valores
que marcan posiciones características de una distribución de frecuencias.

Figura 19: Medidas representativas de un conjunto de datos estadísticos

6.1. Medidas de Centralización.


6.1.1. Moda , Mo .
Definición 6.1. La Moda es una medida de tendencia central que indica cuál es la puntuación, cate-
gorías o modalidad que más se repite en el conjunto de datos. Otra forma de entenderla es decir que
la Moda es cualquier máximo relativo de la distribución de frecuencias, es decir cualquier valor de
la variable que posea una frecuancia mayor que su anterior y su posterior.

Propiedades de la moda

Puede calcularse para cualquier conjunto de datos medidos en cualquier escala.

La moda es inestable ya que puede variar mucho de una muestra a otra de una muestra extraidas
de una misma población.
6 RESUMEN DE DATOS 48

Podemos encontrarnos con que no existe una única moda, a lo que llamaremos distribuciones
bimodales o multimodales.

Si nos encontramos con que todas las puntuaciones de una distribución tienen la misma fre-
cuencia consideraríamos que no existe moda.

Para datos agrupados por intervalos, el valor de la moda dependerá de la amplitud de los inter-
valos, el número de ellos y los límites fijados.

En caso de que dos valores alcazaran la misma frecuencia máxima y estos son adyacentes, la
moda sería el promedio de ambos valores.

Cálculo de la Moda
Datos no agrupados.
En primer lugar se construye la distribución de frecuencias. La moda sería aquel valor con frecuencia
máxima. Si la frecuencia máxima se repite en dos o más valores tendremos varias modas, y el grupo
se denominaria bimodal o multimodal según el caso. En el caso de que valores adyacentes alcanzaran
la misma frecuencia máxima, la moda será el promedio de ambos valores.
Datos agupados.
ni − ni−1
Mo = Li−1 + (Li − Li−1 ) (2)
(ni − ni−1 ) + (ni − ni+1 )
En donde: Li−1 : límite inferior de la clase modal, Li : límite superior de la clase modal, ni : frecuencia
de la clase modal, ni−1 : frecuencia de la clase premodal, ni+1 : frecuencia de la clase postmodal, Clase
modal es aquella con mayor frecuencia.

6.1.2. Mediana , Md .
Definición 6.2. La mediana es una medida de tendencia central, que divide en dos partes igules a
un conjunto de datos previamente ordenados. Es la puntuación del dato que deja por encima y por
debajo de sí el 50 % de los casos.

Cálculo de la Mediana
Datos no agrupados.
Inicialmente se ordenan los datos, si el número de datos es impar, la mediana será el valor que queda
justo al centro, en el caso de ser par tomamos el promedio de los dos datos centrales en este caso Md
no corresponde a ningún valor en el conjunto de datos.
6 RESUMEN DE DATOS 49

Datos agrupados.
Sea ]Li−1 , Li ] la clase donde sea encontrado que por debajo de Li está al menos la mitad de las obser-
vaciones, razonemosPi la deducción del valor de Md a partir de la gráfica de las frecuencias acumuladas,
en donde Ni = k=1 ni , como se puede ver en la gráfica siguiente:

Figura 20: La mediana es el punto de corte de la ojiva creciente con la decreciente

En la figura 20 tenemos que los triángulos M ACC1 y M ABB1 son semejantes, de donde tenemos
que: CC
AC
1
= BB
AB
1
, es decir:
N
ni − Ni−1
= 2
Li − Li−1 Md − Li−1
despejando Md obtenemos:
N
2
− Ni−1
Md = Li−1 + (Li − Li−1 ) (3)
ni
Propiedades de Md .
Destacamos las siguientes propiedades:

Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas,
ya que no depende de los valores que toma la variable, sino del orden de las mismas. Por ello
es adecuado su uso en distribuciones que presentan asimétrias.

Es de cálculo rápido y de interpretación sencilla.

La mediana de una variable discreta es casi siempre un valor de la variable que estudiamos.

Para datos agrupados por intervalos, el valor de la mediana dependerá de la amplitud de los
intervalos, el número de estos y los límites fijados.
6 RESUMEN DE DATOS 50

6.1.3. Media , X̄ .
Definición 6.3. La media es una medida de tendencia central que se obtiene por la suma de todas las
puntuaciones de un grupo de datos dividida por el número total de datos.
Cálculo de la Media
Datos no agrupados.
Si los datos no estan ordenados en una tabla, tenemos que la media es:
PN
xi
X̄ = i=1 (4)
N
donde N es el total de datos.
Datos agrupados.
Si los datos estan organizados en tabla, tenemos que la media es:
Pk
xi ni
X̄ = i=1 (5)
N
Pk
donde: ni es la frecuencia de dato xi y N = i=1 ni . Si los datos estan agrupados en clases de
frecuencia, tenemos que la expresión anterior cambiamos xi por ci que es el punto medio de la clase
o intervalo y tenemos k intervalos.
Propiedades de la media

Es muy sensible a los valores extremos de la variable: ya que todas las observaciones inter-
vienen en el cálculo de la media, la aparición de una observación extrema, hará que la media
se desplace en esa dirección. En consecuencia,no es recomendable usar la media como medida
central en las distribuciones muy asimétricas; si consideramos una variable discreta, por ejem-
plo, el número de hijos en las familias de cierto país el valor de la media puede no pertenecer
al conjunto de valores de la variable.
Sólo puede calcularse para variables cuantitativas.
La
PNsuma de las desviaciones de todas las puntuaciones respecto a la media es 0, es decir
i=1 (xi − x̄) = 0
PN 2
i=1 (xi − x̄) ≥ 0

La suma de las desviaciones al cuadrado respecto a la media es menor que respecto a otro valor
cualquiera. es decir,

N
X N
X
2
(xi − x̄) ≤ (xi − c)2
i=1 i=1

Si definimos yi = xi + k entonces ȳ = x̄ + k, para k ∈ <.


Si definimos yi = kxi entonces ȳ = kx̄, para k ∈ < .
Cuando calculamos la media para datos agrupados en intervalos el valor resultante depende de
los intervalos elegidos, de su amplitud, el número de intervalos y de los límites fijados en estos.
6 RESUMEN DE DATOS 51

La media puede calcularse cuando las variables se han medido en una escala de intervalo o
razón.

Si yi = kr=1 ai xri , para i = 1 a i = n entonces ȳ = kr=1 ai x̄ri .


P P

Si un grupo esta particionado en r partes y cada parte tiene ni datos con una media cada parte
i-ésima de x̄i , entonces la media del grupo es:
Pr
ni x̄i
x̄ = Pi=1
r
i=1 ni

En el caso de distribuciones unimodales, la mediana está con frecuencia comprendida entre la media
y la moda incluso más cerca de la media. En distribuciones que presentan cierta inclinación, es más
aconsejable el uso de la mediana. Sin embargo en estudios relacionados con propósitos estadísticos y
de inferencia suele ser más apta la media.
Por otra parte criterios muy generales para escoger que medida de tendencia central usamos: primero
escogemos x̄ pues un mejor estimador para la media poblacional;si no podemos calcular la media,
ya sea porque estemos en presencia de varible ordinal o tenemos muchos valores extremos usamos
la mediana; si no se puede obtener la mediana pues los datos son nominales, o tenemos intervalos
abiertos con más con más 50 % de los datos calcular la moda.

Figura 21: Posibles ubicaciones de las medidas de centralización en un conjunto de datos

En algunos casos los tres indicadores pueden dar valores similares pero no necesariamente ha de ser
así, como se muestral en la figura 21.

6.2. Medidas de Posición.


En la sección anterior, vimos lo referente a las medidas de tendencia central, las cuales, a su vez, son
también medidas de posición ya que, de todas maneras ocupan un lugar dentro de la información. Nos
ocuparemos ahora de ciertos parámetros posicionales muy útiles en la interpretación porcentual de la
información. Estos son: Cuartiles, Deciles y Centiles.

6.2.1. Cuartiles, Qi
Definición 6.4. Las cuartillas o cuartiles son valores posicionales que dividen la información en
cuatro partes iguales, el primer cuartil deja el 25 % de la información por debajo de él, y el 75 % por
encima, el segundo cuartil, al igual que la mediana, divide la información en dos partes iguales, y
por último el tercer cuartil deja el 75 % por debajo de sí, y el 25 % por encima.
6 RESUMEN DE DATOS 52

Para calcular los cuartiles.


Para deducir una expresión que nos permita el cálculo tanto el Q1 , Q2 , Q3 procedemos como cuando
se dedujo la expresión para la media.

ni N 4i − Ni−1
=
Li − Li−1 Qi − Li−1
para i = 1, 2, 3, despejando tenemos que:

N 4i − Ni−1
Qi = Li−1 + (Li − Li−1 ) (6)
ni
para i = 1, 2, 3. Para datos no agrupados se procede de manera semejante a cuando se calcula la
mediana.

6.2.2. Deciles, Di .
Definición 6.5. Dividen la información en diez parte iguales,en catidades porcentuales de 10 % en
10 % .

Para calcular los deciles.

N 10i − Ni−1
Di = Li−1 + (Li − Li−1 ) (7)
ni
para i = 1, 2, 3, . . . , 9. Para datos no agrupados se procede de manera semejante a cuando se calcula
la mediana.

6.2.3. Centiles, Ci .
Definición 6.6. Dividen la información en cien parte iguales, lo que facilita la interpretación por-
centual de la distribución de frecuencia.

Para calcular los centiles.


i
N 100 − Ni−1
Ci = Li−1 + (Li − Li−1 ) (8)
ni
para i = 1, 2, 3, . . . , 99. Para datos no agrupados se procede de manera semejante a cuando se calcula
la mediana.

6.3. Medidas de Dispersión.


En el análisis estadístico no basta el cálculo e interpretación de las medidas de tendencia central o de
posición, ya que, por ejemplo, cuando pretendemos representar toda una información con la media
aritmética, no estamos siendo absolutamente fieles a la realidad, pues suelen existir datos extremos
inferiores y superiores a la media aritmética, los cuales, en honor a la verdad, no están siendo bien
representados por este parámetro.
En dos informaciones con igual media aritmética, no significa este hecho, que las distribuciones sean
exactamente iguales, por lo tanto, debemos analizar el grado de homogeneidad entre sus datos. Por
6 RESUMEN DE DATOS 53

ejemplo, los valores 5, 50, 95 tiene igual media aritmética, y mediana que los valores 49, 50, 51; sin
embargo, para la primera información la media aritmética , se encuentra muy alejada de los valores
extremos 5 y 95, cosa que no ocurre con la segunda información que posee igual media aritmética y
mediana, vemos entonces que la primera información es mas heterogénea o dispersa que la segunda.
Para medir el grado de dispersión de una variable, se utilizan principalmente los siguientes indi-
cadores: Rango, Desviación media, Varianza y desviación típica.

6.3.1. Rango o Recorrido, R .


Definición 6.7. Es la medida de dispersión mas sencilla ya que solo considera los dos valores ex-
tremos de una colección de datos, es decir, el valor máximo xmax y mínimo xmin de los datos, para la
variable x de estudio.

Para calcular el rango o recorrido.

R = xmax − xmin
Otro recorrido utilizado es el recorrido intercuartílico, que se cálcula RQ = Q3 − Q1 .

6.3.2. Desviación Media, DM .


Definición 6.8. La desviación media, mide la distancia absoluta promedio entre cada uno de los
datos, y el parámetro que caracteriza la información. Usualmente se considera la desviación media
con respecto a la media aritmética o la mediana.

Para calcular la desviación media.


Datos no agrupados.
PN PN
i=1 |xi − x̄| |xi − Md |
DM = ; DM = i=1
N N
Datos agrupados.
Pm Pm
i=1 |xi − x̄|ni |xi − Md |ni
DM = ; DM = i=1
N N
con m número de datos diferentes, y ni frecuencia de cada dato distinto. Si los datos estan en agru-
pados en intervalos entonces tenemos que la expresión anterior cambiamos xi por ci que es el punto
medio de la clase o intervalo y tenemos m intervalos

6.3.3. Varianza, S 2 .
El problema de los signos en la desviación media, es eludido tomando los valores absolutos de las
diferencias de los datos con respecto a la media aritmética. Ahora bien, la varianza obvia los signos
elevando las diferencias al cuadrado, lo cual resulta ser más elegante, aparte de que es supremamente
útil en el ajuste de modelos estadísticos que generalmente conllevan formas cuadráticas.
La varianza es uno de los parámetros más importantes en estadística paramétrica, se puede decir que,
teniendo conocimiento de la varianza de una población, se ha avanzado mucho en el conocimiento de
la población misma.
6 RESUMEN DE DATOS 54

Definición 6.9. Numéricamente definimos la varianza, como desviación cuadrática media de los
datos con respecto a la media aritmética, puede usarse también la mediana,

Para calcular la varianza.

Datos no agupados PN
2 i=1 (xi − X̄)2
S =
N
Datos agrupados Pm
2 i=1 (xi− X̄)2 ni
S =
N
donde m es el número de datos diferentes y ni la frecuencia del dato xi . Si tenemos los adtos
agrupados en intervalos, en la expresión anterior cambiamos xi por ci que es el punto medio de
la clase o intervalo y tenemos m intervalos

Definición 6.10. La desviación típica o estándar definida como la raíz cuadrada de la varianza,
denotada por S y se usa para una mejor comprensión pues esta expresada en las mismas
unidades que la variable en estudio.

Propiedades de la varianza

Si definimos yi = xi + k entonces Sy2 = Sx2 , para k ∈ <.

Si definimos yi = kxi entonces Sy2 = k 2 Sx2 , para k ∈ <

Es sensibles a la variación de cada una de las puntuaciones, es decir, si una puntuación cambia,
cambia con ella la varianza. La razón es que si miramos su definición, la varianza es función de
cada una de las puntuaciones.

La desviación típica tiene la propiedad de que en el intervalo (x̄ − 2S, x̄ + 2S) se encuentra, al
menos, el 75 % de las observaciones.

No es recomendable usarla, cuando tampoco lo sea el de la media como medida de tendencia


central.

6.3.4. Coeficiente de variación.


Generalmente interesa establecer comparaciones de la dispersión, entre diferentes muestras o pobla-
ciones que posean distintas magnitudes o unidades de medida.
Hemos visto que las medidas de centralización y dispersión nos dan información sobre una muestra.
Nos podemos preguntar si tiene sentido usar estas magnitudes para comparar dos poblaciones. Por
ejemplo, si nos piden comparar la dispersión de los pesos de las poblaciones de elefantes de dos
circos diferentes, S nos daría información útil.
¿Pero qué ocurre si lo que comparamos es la altura de unos elefantes con respecto a su peso? Tanto
la media como la desviación típica, x̄ y S, se expresan en las mismas unidades que la variable. Por
ejemplo, en la variable altura podemos usar como unidad de longitud el metro y en la variable peso,
el kilogramo. Comparar una desviación (con respecto a la media) medida en metros con otra en
6 RESUMEN DE DATOS 55

kilogramos no tiene ningún sentido. El problema no deriva sólo de que una de las medidas sea de
longitud y la otra sea de masa. El mismo problema se plantea si medimos cierta cantidad, por ejemplo
la masa, de dos poblaciones, pero con distintas unidades. Este es el caso en que comparamos el peso en
toneladas de una población de 100 elefantes con el correspondiente en miligramos de una población
de 50 hormigas. El problema no se resuelve tomando las mismas escalas para ambas poblaciones.
Por ejemplo, se nos puede ocurrir medir a las hormigas con las mismas unidades que los elefantes
(toneladas). Si la ingeriería genética no nos sorprende con alguna barbaridad, lo lógico es que la
dispersión de la variable peso de las hormigas sea practicamente nula (¡Aunque haya algunas que
sean 1,000 veces mayores que otras!)
En los dos primeros casos mencionados anteriormente, el problema viene de la dimensionalidad de
las variables, y en el tercero de la diferencia enorme entre las medias de ambas poblaciones.

Definición 6.11. El coeficiente de variación es lo que nos permite evitar estos problemas, pues elim-
ina la dimensionalidad de las variables y tiene en cuenta la proporción existente entre medias y
desviación típica. Se define como: CV = Sx̄x

Propiedades del Coeficiente de variación

Sólo se debe calcular para variables con todos los valores positivos. Todo índice de variabilidad
es esencialmente no negativo. Las observaciones pueden ser positivas o nulas, pero su variabil-
idad debe ser siempre positiva. De ahí que sólo debemos trabajar con variables positivas, para
la que tenemos con seguridad que x̄ > 0.

No es invariante ante cambios de origen. Es decir, si a los resultados de una medida le sumamos
una cantidad positiva, b > 0, para tener y = x + b, entonces CVy < CVx .

Es invariante a cambios de escala. Así por ejemplo el coeficiente de variación de una variable
medida en metros es una cantidad adimensional que no cambia si la medición se realiza en
centímetros.

6.3.5. Estadísticos de Asimetría.


Para saber si una distribución de frecuencias es simétrica, hay que precisar con respecto a qué. Un
buen candidato es la mediana, ya que para variables continuas, divide al histograma de frecuencias en
dos partes de igual área. Podemos basarnos en ella para, de forma natural, decir que una distribución
de frecuencias es simétrica si el lado derecho de la gráfica a partir de la mediana es la imagen por un
espejo del lado izquierdo.
Cuando la variable es discreta, decimos que es simétrica, si lo es con respecto a la media.
Dentro de los tipos de asimetría posible, vamos a destacar los dos fundamentales:

Asimetría positiva: Si las frecuencias más altas se encuentran en el lado izquierdo de la media,
mientras que en derecho hay frecuencias más pequeñas llamada cola.

Asimetría negativa: Si las frecuencias más altas se encuentran en el lado derecho de la media,
mientras que en izquierdo hay frecuencias más pequeñas.
6 RESUMEN DE DATOS 56

Figura 22: Distribuciones de frecuencias simétricas y asimétricas

Cuando realizamos un estudio descriptivo es altamente improbable que la distribución de fre-


cuencias sea totalmente simétrica. En la práctica diremos que la distribución de frecuencias es
simétrica si lo es de un modo aproximado. Por otro lado, aún observando cuidadosamente la
gráfica, podemos no ver claro de qué lado están las frecuencias más altas. Se definen entonces to-
da una familia de estadísticos que ayuden a interpretar la asimetría, denominados índices de asimetría.

Momento central de tercer orden


Definición 6.12. El momento central de tercer orden lo denotamos por a3 y lo definimos por:
N
1 X
a3 = (xi − x̄)3
N i=1
si los datos no estan agrupados, si estos estan agrupados tenemos:
m
1 X
a3 = (xi − x̄)3 ni
N i=1
donde m son el total de datos distintos y ni su frecuencia. Si los datos estan en agrupados en inter-
valos, cambiamos xi por ci que es el punto medio de la clase o intervalo y tenemos m intervalos
Un dato xi se puede encontrar ubicado de tal forma que xi − x̄ < 0 o xi − x̄ > 0, y puesto que los
cubos de estas cantidades mantienen las desigualdades tenemos:

Si a3 = 0 la distribución es simétrica.
Si a3 > 0 la asimetría es positiva.
Si a3 < 0 la asimetría es negativa.

Índice de simétria basado en los tres cuartiles (Yule-Bowley)


Si una distribución es simétrica, es claro que deben haber tantas observaciones entre la que deja por
debajo de sí las tres cuartas partes de la distribución y la mediana, como entre la mediana y la que deja
por encima de sí un cuarto de todas las observaciones. De forma abreviada esto es, Q2 −Q1 = Q3 −Q2 .
Si Q2 − Q1 < Q3 − Q2 la asimétria es positiva, en caso de que Q2 − Q1 > Q3 − Q2 la asimétria es
negativa.
6 RESUMEN DE DATOS 57

Figura 23: Uso de los cuartiles para medir la asimetría.

Para quitar dimensionalidad al problema, utilizamos como índice de asimetría la cantidad:

(Q3 − Q2 ) − (Q2 − Q1 )
As =
Q3 − Q1
que es invariante ante cambios de escala y de origen; además As ∈ [−1, 1], cuando As < 0 tenemos
asimetría negativa, si As > 0 la asimetría es positiva y As = 0 hay simetría.
Otro índice de asimetría, que se basa en que cuando tenemos una distribución de frecuencias simétrica
y unimodal, los valores de la media, mediana y moda coinciden, podemos definir la siguiente medida
de asimetría:

x̄ − Mo 3(x̄ − Md )
As = ∨ As =
S S
Siempre tenemos que si As < 0 asimetría negativa, As > 0 asimetría es positiva y As = 0 hay
simetría.

6.3.6. Estadístico de apuntamiento.


Definición 6.13. Se define el coeficiente de aplastamiento de Fisher o curtosis como:
m4
CC = −3
S4
donde m4 es le momento de cuarto orden es decir m4 = N1 N 4
P
i=1 (xi − x̄) , hacer las consideraciones
cuando tengamos datos agrupados.
Es éste un coeficiente adimensional, invariante ante cámbios de escala y de origen. Sirve para medir si
una distribución de frecuencias es muy apuntada o no. Para decir si la distribución es larga y estrecha,
hay que tener un patrón de referencia. El patrón de referencia es la distribución normal o gaussiana
(que se estudia más adelante) para la que se tiene: m
S4
4
= 3 ⇒ CC = 0.
De este modo, atendiendo a CC, se clasifican las distribuciones de frecuencias en:

Platicúrtica: Cuando CC < 0, o sea, si la distribución de frecuencias es menos apuntada que la


normal.

Mesocúrtica: Cuando CC = 0, es decir, cuando la distribución de frecuencias es tan apuntada


como la normal.

Leptocúrtica: Cuando CC > 0, o sea, si la distribución de frecuencias es más apuntada que la


normal.

Como se muestra en la figura 24.


6 RESUMEN DE DATOS 58

Figura 24: Apuntamiento de distribuciones de frecuencia.

6.4. Diagrama de caja.


Para describir un conjunto de datos es muy eficaz un resumen de cinco puntos.
El resumen de cinco puntos está integrado por: M in: el mínimo valor en el conjunto de datos, Q1 : el
primer cuartil, x: la media, Q3 : el tercer cuartil, M ax: el máximo valor en el conjunto de datos.
La información resumida contenida en los cuartiles se pone de relieve en la representación gráfica
llamada diagrama de caja. Un diagrama de caja presenta los tres cuartiles, el mínimo y el máximo
de los datos en una caja rectangular, alineada en forma horizontal o vertical. La caja encierra el
intervalo intercuartil con la línea izquierda en el primer cuartil y la línea derecha en el tercer cuartil. Se
dibuja una linea a través de la caja en el segundo cuartil (mediana). Una línea en cualquier extremo se
extiende hasta los valores extremos. Estas líneas, llamadas algunas veces bigotes, pueden extedendese
solo hasta los deciles 1ºy 9º, o hasta los percentiles 5 y 95 en grandes conjuntos de datos. Algunos
autores se refieren al diagrama de caja como el diagrama de caja y bigotes.
Si Q = Q3 − Q1 , Q se conoce como recorrido intercuartílico y se dice que toda observación a más
de 1.5Q del cuartil más cercano es atípico o inusual. Un valor inusual es extremo si está a más de 3Q
del cuartil más cercano y es moderado en otro caso.
El gráfico de caja nos proporciona información acerca de la localización, la dispersión, el sesgo y las
colas del conjunto de datos que se aprecia de una sola mirada. La lectura siguiente está dada para un
diagrama de caja orientado de manera vertical.

La localización está representada en la línea que corta la caja y representa la mediana ( que está
dentro de la caja), la disperción está dada por la altura de la caja, como por la distancia entre
los extremos de los bigotes.

El sesgo se observa en la desviación que exista entre la linea de la mediana con relación al
centro de la caja y también la relación entre las longitudes de los bigotes.

Las colas se pueden apreciar por la longitud de los bigotes con relación a la altura de la caja, y
también por las observaciones que se marcan explícitamente.

Por ejemplo para un conjunto de datos en el cual obtenemos los siguentes datos.

Mín Q1 Mediana Q3 Máx


30.10 31.35 33 35.80 39.50

Obtenemos el siguiente diagrama de caja.


6 RESUMEN DE DATOS 59

6.5. Otros resúmenes estadísticos.


Hemos estudiado distintas variables estadísticas mediante una serie de instrumentos que tratan de
sintetizar en un solo número toda la información disponible; pero para efectos de establecer com-
paraciones adecuadas de las mismas variables a través del tiempo, se utilizan ciertos indicadores
denominados números índices.

Definición 6.14. Un número índice es una medida estadística diseñada para mostrar los cambios en
una variable o un grupo de variables relacionadas con respecto al tiempo, situación geográfica u
otra característica.

Los números índices son un método estadístico que sirve para hacer comparaciones entre un año y
otro, una variable o un conjunto de variables, respecto a otras, etc.
Para la construcción de un número índice, se procede ante todo, a fijar el periodo de referencia o
“periodo base", teniendo presente que debe ser un periodo normal, esto es, que no se hayan presentado
situaciones fortuitas (guerras, terremotos, incendios u otro tipo de imprevisto), que incidan en el valor
de la variable para ese periodo. Además es recomendable considerar un periodo reciente que haga
comparables los diferentes valores de las variables consideradas. Generalmente se calcula así:
valor del año determinado
índice =
valor del año base
y se suele expresar en porcentaje, multiplicándolo por 100.
Dependiendo de si nos referimos a valores de una sola variable o de varias variables, tendremos:
Números índices simples: Cuando la comparación se realiza para una sola variable. Es decir, si X es
una variable estadística cuya evolución se pretende estudiar.
Llamaremos:
Periodo inicial o base, es aquel momento del tiempo sobre el que se va comparando la evolución de
la magnitud o variable estadística x0 .
Periodo de comparación, es aquel momento del tiempo en el que el valor de la variable xt se compara
con el del periodo base.
El índice de evolución de 0 a t expresado en porcentaje:
xt
I0t = · 100
x0
Observaciones:

I0t es un número adimensional que indica la variación que ha sufrido la variable entre uno y otro
periodo de tiempo.
6 RESUMEN DE DATOS 60

I0t toma el valor 100 en el periodo base.

I0t < 100 implica que xt < x0 .

I0t > 100 implica que xt > x0 .

Ejemplo 6.1. índices simples más conocidos.

1. Precio relativo. Si p0 y pn denotan los precios del bien durante el periodo base y el periodo
considerado, respectivamente, entonces, por definición
pn
Precio relativo =
p0

2. Cantidad relativa. Si qt es la cantidad producida de un bien en el periodo t y q0 es la cantidad


producida en el periodo base
qt
Cantidad relativa =
q0
3. Valor relativo. Es la razón entre el valor de un bien en el periodo t y su valor en el periodo
base.   
p t qt pt qt
Valor relativo = =
p0 q0 p0 q0

En cambio, cuando se trabaja con más de una magnitud a la vez, hablaremos de Números índices
complejos sin ponderar y Números índices complejos ponderados.

Números índices complejos sin ponderar: Estudian la evolución en el tiempo de una magnitud que
tiene varios componentes y a los cuales se asigna la misma importancia o peso relativo.
Sea X una variable formada por n magnitudes simples x1 , x2 , . . . , xn , entonces:
n n
1X t 1 X xit
I0t = Ii0 = · 100
n i=1 n i=1 xi0

en donde:
t
Ii0 Números índices simples de cada componente i en el periodo t.

I0t Número índice total en el periodo t de la variable compleja.


t
Ii0 Número índice simple del componente i en el periodo t.

xit Valor del componente i en el periodo t.

xi0 Valor del componente i en el periodo base 0.

Números índices complejos ponderados: Estudian la evolución en el tiempo de una magnitud que
tiene varios componentes y a los cuales se asigna un determinado coeficiente de ponderación wi .
6 RESUMEN DE DATOS 61

Sea X una variable formada por n magnitudes simples x1 , x2 , . . . , xn , entonces:


n n  
X
t
X xit
Ii0 wi · 100 wi n 
i=1
x
i=1 i0
X  xit w i


t
I0 = n = n =  · n  · 100
X X
i=1
 x i0 X 
wi wi wi
 
i=1 i=1 i=1

en donde:
t
Ii0 Números índices simples de cada componente i en el periodo t.

Sean w1 , w2 , . . . , wn los coeficientes de ponderación de los componentes.

I0t Número índice total en el periodo t de la variable compleja.


t
Ii0 Número índice simple del componente i en el periodo t.

xit Valor del componente i en el periodo t.

xi0 Valor del componente i en el periodo base 0.

wi Coeficiente de ponderación del componente i.

6.6. Números índices: cambio de base


Debido a la pérdida de representatividad de los números índice a medida que nos alejamos del año
base, resulta conveniente expresar los índice calculados con base en un periodo “0” en otra base h.
Como
xt xh xt I t · x0 It
I0t = e I0h = , es claro que Iht = = 0h = 0h .
x0 x0 xh I0 · x0 I0

6.7. Algunos índices demográficos


Los indicadores demográficos nos informan de las diversas variaciones que se presentan en las pobla-
ciones humanas. Antes de ver algunos índices demográficos expondremos conceptos principales.

Tiempo vivido y población media.


El tiempo vivido por un grupo de personas corresponde a la suma del tiempo vivido, en años,
de cada uno de los individuos, durante los cuales los miembros de la población en estudio,
han estado expuestos al riesgo de ser afectados por un hecho demográfico en un período dado.
Para poder determinar su valor para una población en un período dado, es necesario contar con
información individualizada para cada uno de los miembros, que resulta muy difícil a no ser
que sea una población muy pequeña. Por esta razón recurrimos a otra medida que aproxima su
valor. Bajo el supuesto que las entradas y salidas que se efectúan en la población se producen de
manera aleatoria a lo largo del período, se toma la convención de utilizar la población a mitad
6 RESUMEN DE DATOS 62

del periodo. Si este valor no se conoce, puede ser aproximado por la población media, la cual
se obtiene de promediar dicha población al inicio y al final del período en estudio.

(Población inicial) + ( Población final )


Población media =
2
La población a mitad del período o población media, un aproximado del tiempo vivido, cuando
el período de tiempo es un año. En otro caso, este valor debe ser multiplicado por la longitud,
en años, del período de tiempo.

Tiempo vivido = t · ( Población media)

donde t esta dado en años.

Tasa.
Las tasas son índices cuyo empleo se halla muy difundido en demografia y corresponde a diver-
sos conceptos, que en nuestro una tasa la obtendremos por medio de un cociente, el numerador
representa al número de personas afectadas por un hecho demográfico y el denominador repre-
senta la población expuesta al riesgo de ser afectada por ese hecho.
Número de hechos ocurridos en el período
Tasa =
Tiempo vivido por la población en el período
Como el tiempo vivido resulta prácticamente imposible de conocer utilizamos la población
a mitad del período o a la población media para aproximar su valor. Normalmente las tasas se
multiplican por algún múltiplo de 10, para dar una mejor interpretación a su valor. El más usado
es 1000, por lo que se hace referencia a frecuencia del hecho por cada mil personas.

6.7.1. Nacimientos brutos e índice de mortalidad


El denominador en la definición de tasas, es un estimado de la población total expuesta a un hecho
demográfico; esto convierte a los valores en medidas un tanto burdas pues, no toda la población está
expuesta en igual magnitud al hecho. Por esta razón se acostumbra denotarlas como tasas brutas y nos
aportan una medida global relativa a la natalidad, nupcialidad y la mortalidad. Cuando el denominador
incluye únicamente un subgrupo de la población y no la población total, estas tasas reciben el nombre
de tasas específicas. La fórmula general de la tasa bruta se compone de dos efectos a tener en cuenta:
E evento, P poblacion3 . Además denotemos por x la variable composición o de disgregación de la
población, entonces
E
Tasa bruta: T =
P
Ex
Tasa específica: Tx =
Px
3
P será la población a mitad del período o población media.
6 RESUMEN DE DATOS 63

X X
Tomando en cuenta que Ex = E, Px = P y Ex = Tx Px , tendremos que
x x
X
Tx Px
x
X Px
T = X = Tx X
Px x Px
x x

Es decir, la tasa bruta es una media ponderada de las tasas específicas del fenómeno con peso la
estructura de la variable de composición. Normalmente estas tasas brutas se calculan con alcance
anual. De este modo si B y D nos representan el número de nacimientos y defunciones en un período
dado respectivamente, entonces
B D
Tasa bruta de natalidad = ; Tasa bruta de mortalidad =
P P

6.8. Estandarización de indicadores


Hemos dicho que de acuerdo al denominador utilizado, las tasas pueden ser clasificadas en dos tipos:
tasas brutas y específicas. En las tasas brutas el denominador está compuesto por la población total
expuesta a un evento. Por ejemplo, la tasa bruta de mortalidad representa la frecuencia de lo muerte
en el total de la población expuesta en un lugar y tiempo determinado. Cuando queremos hacer una
comparación entre dos diferentes poblaciones, con relación a un suceso, podremos usar tasas brutas
sólo si las poblaciones son similares en aquellas características que pudieran afectar la ocurrencia del
suceso y, por ende, el resultado de dichas tasas. Si las poblaciones son diferentes debemos recurrir
a las tasas específicas o modificar las tasas brutas de tal manera que dicha comparación sea válida.
Ilustraremos esta situación y el método de estandarización en el ejemplo siguiente.
Ejemplo 6.2. Supongamos que se cuenta con la información de dos regiones hipotéticas, la primera
corresponde a una región en desarrollo que se denominará como Región A y la segunda una región
más desarrollada que se catalogará como Región B.
Región A Región B
Edad Población Defunciones Tasas de mortalidad Población Defunciones Tasas de mortalidad
(por 1000 ha.) (por 1000 ha.)
0-4 279.7 2570 9.2 226.2 540 2.4
5-9 280.8 155 0.6 221.6 40 0.2
10-19 500.7 336 0.7 633.3 266 0.4
20-29 333.8 466 1.4 714.7 650 0.9
30-39 208.1 397 1.9 606.1 699 1.2
40-49 150.8 542 3.6 710.2 1701 2.4
50-59 97.4 739 7.6 547.3 2813 5.1
60-69 70.1 1198 17.1 402.6 5286 13.1
70-79 34.9 1435 41.1 357.3 11350 31.8
80-89 11.2 1161 103.7 67.8 5564 82.1
90 y + 1.7 333 195.9 40.7 7735 190.0
Total 1969.3 9332 4527.8 36644

De esta información obtenemos:


9332
Tasa bruta de mortalidad de la Región A = = 4.7
1969.3
6 RESUMEN DE DATOS 64

36644
Tasa bruta de mortalidad de la Región B = = 8.1
4527.8
La tasa bruta de mortalidad en la Región B prácticamente duplica el valor obtenido en la Región
A. Pero, según nuestra información, en cada uno de los grupos, las tasas específicas de mortalidad
son menores en la Región B. Lo cual nos indica que el estado de mortalidad es mucho menor en
esta región. Luego, es evidente que este indicador no nos sirve para poder comparar ambas regiones.
Para poder comparar las regiones utilizaremos la estandarización directa o método de la población
tipo el cual nos proporciona un indicador comparativo. Se construye como una media ponderada de
las tasas específicas donde los pesos proceden de una serie de referencia llamada estándar, con la
cual se homogeneiza la estructura composicional de los distintos grupos o poblaciones a comparar.
Este método responde a la pregunta: ¿Qué comportamiento tendría tal grupo, si tuviera la misma
estructura composicional que el estándar?. Con la finalidad de homgeneizar los procedimientos de
ajuste de tasas, se suelen utilizar poblaciones de referencia convencionales. Por ejemplo, si deseamos
comparar indices entre departamentos podríamos usar la población nacional como población tipo,
para comparar países de la regón podríamos usar la población de América Latina como población
tipo. Cualquiera que sea el caso, la población debe estar categorizada por los mismos estratos de
nuestras tasas específicas. Para finalizar nuestro ejemplo usaremos como población estandar la suma
de las poblaciones de la Región A y B. Obteniendo

Tasas específicas de mortalidad Defunciones esperadas


Edad Población Región A Región B Región A Región B
estandar
0-4 505.9 0.0092 0.0024 4654 1214
5-9 502.4 0.0006 0.0002 301 100
10-19 1134 0.0007 0.0004 794 454
20-29 1048.5 0.0014 0.0009 1468 944
30-39 814.2 0.0019 0.0012 1547 977
40-49 861 0.0036 0.0024 3100 2066
50-59 644.7 0.0076 0.0051 4900 3288
60-69 472.7 0.0171 0.0131 8083 6192
70-79 392.2 0.0411 0.0318 16119 12472
80-89 79 0.1037 0.0821 8192 6486
90 y + 42.4 0.1959 0.1900 8306 8056
Total 6497 57465 42250
Tasas de mortalidad
estandarizadas 8.8 6.5

De esta manera, si la Región A presenta 8.8 defunciones por cada mil habitantes y, bajo las misma
estructura poblacional en la Región B se presentarían 6.5 defunciones por cada mil habitantes. Queda
evidenciado, que el patron de mortalidad en la Región B es menor que en la región A.

6.8.1. Índice de mortalidad estandarizado


Del punto de vista de los cálculos, la estandarización directa es sencilla:
P
(tasas específicas de los estratos × pesos estándares)
Tasa directamente estandarizada = P
(pesos estándares)
6 RESUMEN DE DATOS 65

De la definición de tasa bruta cuando conocemos las tasas específicas para la variable de composición
x X
Tx Px
x
X Px
T = X = Tx X
Px x Px
x x

Cuando tenemos dos poblaciones, para eliminar las diferencias en las estructuras de las poblaciones,
se sustituye la serie de pesos por una única serie de pesos extraída de la población tipo: Pest .
X Pest,x
Tiest = Ti,x X , i = 1, 2
x Pest,x
x

Es claro que usando esta fórmula podemos obtener el indice de nacimientos estandarizado.
Al interpretar los resultados de una estandarización directa debemos tener en cuenta los siguientes
puntos:
La tasa estandarizada no tiene valor en sí misma.
Indica qué tasa bruta del fenómeno tendría una población determinada si tuviese la composición
de la población estándar. Es decir, proporciona indicadores que son directamente comparables
y que se leen como tasas brutas.
Según el estándar escogido, el valor de la tasa estandarizada variará.
Uno de los principales problemas ligados a la estandarización directa es la gran cantidad de datos que
se necesitan, sobre todo en refencia a las tasas específicas, pués, cuando los números por estrato son
pequeños, las estimaciones de las tasas específicas son demasiado susceptibles a la fuerte influencia de
la variabilidad al azar para que el método de la estandarización directa de resultados satisfactorios. En
este caso, puede usarse un procedimiento de estandarización indirecto, para el cual solamente se debe
disponer de las tasas específicas de la población estándar. Para el cálculo del indicador comparativo
estandarizado por el método indirecto se necesitan:
1. Los eventos totales de cada una de las poblaciones que se comparan.
2. La estructura de población de cada una de las poblaciones a comparar.
3. Las tasas específicas del fenómeno en la población tipo.
Partimos de unas tasas específicas tipo: Test,x , y las aplicamos a dos estructuras de población conoci-
das: Pi,x i = 1, 2, de manera que obtendríamos unos eventos teóricos:

Eiteóricos =
X
Test,x Pi,x , i = 1, 2
x

Como tenemos los eventos observados en las poblaciones, los podemos comparar:
X
Ti,x Pi,x
Ei x
=X = Ii , i = 1, 2
E teóricos T P
i est,x i,x
x
6 RESUMEN DE DATOS 66

Este indicador nos permite situar a cada una de las poblaciones en relación a la población tipo escogi-
da. Esto es, no proporciona indicadores comparables.

Si Ii < 1 entonces el fenómeno de la población i es menor que el fenómeno de la población de


referencia.

Si Ii > 1 entonces el fenómeno de la población i es mayor que el fenómeno de la población de


referencia.

En la estandarización directa, la población de estudio provee las tasas y la población estándar provee
los pesos. En la estandarización indirecta, la población estándar provee las tasas y la población de
estudio provee los pesos.
7 PROBABILIDADES 67

7. Probabilidades
7.1. Introducción
La teoría de la probabilidad actualmente se ha convertido en una herramienta indispensable para
aquellos estudios en las que se aprecie la incertidumbre, por ejemplo, algunas expresiones que nor-
malmente se escuchan: “posiblemente nuestro equipo ganará esta noche", “ hay una alta posibilidad
que de este lote de artículos eléctricos el 90 % son fiables", sobre las apuestas a un juego de dados, a
la hora de comprar dos tipos de fármacos A y B, nos vemos en el problema de determinar cuál de el-
los es más eficaz para el tratamiento de una determinada enfermedad, también, estimar la proporción
de electores que prefieren a un determinado candidato, entonces, nos preguntamos ¿Cómo podemos
llegar a confirmar los resultados?, ¿Qué se necesita para tener una respuesta antes estos ”eventos”?;
llegamos al problema de buscar una forma de medir, es decir, de que si existe una medida del grado
de incertidumbre asociado a cada uno de estos eventos. Entonces ¿Cómo medimos la incertidumbre
asociada a eventos? La respuesta es la probabilidad.

7.2. Reseña Histórica


Una disputa entre jugadores en 1654 llevó a dos famosos matemáticos franceses, Blaise Pascal y
Pierre de Fermat, a la creación del cálculo de Probabilidades. Antoine Gombaud, caballero de Meré,
noble francés interesado en cuestiones de juegos y apuestas, llamó la atención a Pascal respecto a una
aparente contradicción en un popular juego de dados. Este y otros problemas planteados por de Meré
motivaron un intercambio de cartas entre Pascal y Fermat en las que por primera vez se formularon
los principios fundamentales de las probabilidades. Si bien unos pocos problemas sobre juegos de
azar habían sido resueltos por matemáticos italianos en los siglos XV y XV I, no existía una teoría
general antes de esa famosa solución de problemas. El científico holandés Christian Huygens, enter-
ado de esa situación publicó rápidamente en 1657 el primer libro de probabilidades; fue un tratado
de problemas relacionado con los juegos. El cálculo de probabilidades llegó a ser pronto popular por
sus alusiones a los juegos de azar, y se desarrollo rápidamente a lo largo del siglo XV III. Quienes
más contribuyeron a su desarrollo fueron James Bernoulli y Abraham de Moivre. En 1812, Pierre de
Laplace introdujo gran cantidad de ideas nuevas y técnicas matemáticas en su libro, Teoría Analíti-
ca de Probabilidades. Antes de Laplace, las probabilidades prácticamente consistían en un análisis
matemático de los juegos del azar. Laplace demostró que esa teoría podía ser aplicada a multitud de
problemas científicos y prácticos. Ejemplo de tales aplicaciones son la teoría de errores, la matemáti-
ca actuarial y la mecánica estadística que se desarrollaron en el siglo XIX. Una de las dificultades
que se presentaron al desarrollar una teoría matemática ha sido alcanzar una definiciíon de probabili-
dad lo bastante precisa para su utilización matemática. La búsqueda de una definición completamente
aceptable duro cerca de tres siglos y fue caracterizada por un gran número de controversias. El asunto
fue definitivamente resuelto en el siglo XX al tratar la teoría de la probabilidad en forma axiomática
establecida por el matemático ruso Andrei Kolmogorov, quien consideró la relación entre la frecuen-
cia relativa de un suceso y su probabilidad cuando el número de veces que se realiza el experimento
es muy grande. Antes de introducirnos al campo de la probabilidad es necesario comprender algunos
los conceptos importantes de las probabilidades, así como también, algunos conceptos de la teoría de
conjuntos.
7 PROBABILIDADES 68

7.3. Conceptos Básicos


1. Un evento aleatorio se define como un fenómeno que en la realización experimental su obser-
vación ocurre o no ocurre.

2. Experimento Aleatorio: Conjunto de pruebas realizadas bajo las mismas condiciones y cuyos
resultados son impredecibles. Los rasgos que distinguen a los experimentos aleatorios son:

a) Todos los resultados del experimento son conocidos con anterioridad a su realización.
b) No se puede predecir el resultado del experimento.
c) El experimento puede repetirse en condiciones idénticas.

3. Espacio Muestral: Es el conjunto de todos los resultados posibles de un experimento aleatorio.


Se denota por Ω aunque también suele denotarse por la letra S (la letra s viene de la primera
letra de la palabra space, espacio en inglés) y este puede ser Finito, Infinito numerable, Infinito
no numerable.

4. Llamaremos suceso elemental al constituido por un solo elemento del espacio muestral y suceso
compuesto a cualquier subconjunto constituido por más de un elemento.

5. Suceso o evento aleatorio: Es cualquier subconjunto del espacio muestral. Conjunto de posibles
resultados de un experimento aleatorio.

6. Suceso o evento seguro: Es un evento que siempre ocurre.

7. Suceso o evento imposible: Es aquel que indefectiblemente no ocurrirá, se denomina conjunto


vacío, ∅.

8. Eventos igualmente probables: Todos tienen la misma probabilidad de ocurrir (equiprobables).

9. Eventos mutuamente excluyentes: Se dice mutuamente excluyentes si los eventos A y B (ambos


conjuntos) no contienen puntos muéstrales en común.

10. Eventos dependientes: Aquellos en que la ocurrencia de uno afecta la probabilidad de ocurren-
cia de los demás.

11. Eventos independientes: La ocurrencia de uno no afecta la probabilidad de ocurrencia o no de


los demás.

Para una mejor ilustración de los eventos mutuamente excluyentes e independientes utilizaremos
un ejemplo que nos permita una mejor comprensión de ambos tipos de eventos. Pensemos en el
lanzamiento de una moneda y en los eventos A= sale cara y B = sale cruz.
¿Lleva información un resultado sobre el otro?
¿Afecta un resultado con el otro?
También nos podríamos preguntar si los eventos A y B:

a) ¿Son mutuamente excluyentes?

b) ¿Son independientes?
7 PROBABILIDADES 69

Sabemos entonces que P (A) = 21 , P (B) = 12 .


Respondiendo a), la pregunta intuitiva a formularse es ¿Se pueden dar ambos eventos a la vez?, Si la
respuesta es si, no son mutuamente excluyentes, si la respuesta es no, si son mutuamente excluyentes.
Obviamente la respuesta intuitiva es que no se pueden simultaneamente obtener a la vez cara y cruz,
por tanto son mutuamente excluyentes. Expresando formalmente lo escrito anteriomente diremos
P (A ∩ B) = 0 porqué A ∩ B = ∅, en consecuencia P (∅) = 0.

Para b), la pregunta intuitiva es ¿Si sé que se ha dado el evento A eso lleva información acerca que
se ha dado el evento B? es decir ¿si sé, que ha salido cara puedo decir algo sobre el hecho que haya
salido o no cruz?. La respuesta intuitiva, es que, si ha salido cara ya se que no ha salido cruz, es decir,
el evento A lleva información sobre el evento B, por tanto no son independientes. Formalmente hemos
encontrado que P (A ∩ B) = 0 mientras que P (A).P (B) = 12 . 12 = 14 , que es distinto de cero, como
la probabilidad de la intersección es distinta del producto de las probabilidades los eventos A y B no
son independientes. Proposición general: Si A y B son dos eventos mutuamente excluyentes tales que
P (A) 6= 0 y la P (B) 6= 0 no es cero entonces A y B no son independientes.
Proposición general: Si A y B son dos eventos mutuamente excluyentes tales que P (A) 6= 0 y la
P (B) 6= 0 entonces A y B no son independientes.
Demostración.
Lo hacemos por contradicción, asumamos que los eventos A y B son independientes y lleguemos a
una contradicción. Como A y B son independientes tenemos que P (A ∩ B) = P (A)P (B) 6= 0 por
el hecho que P (A) 6= 0 y P (B) 6= 0, pero además se tiene por el hecho que A y B son mutuamente
excluyentes lo siguiente P (A ∩ B) = P (∅) = 0 con lo que llegamos a que P (A ∩ B) = 0 y
P (A ∩ B) 6= 0 lo cual es una contradicción.

7.4. Algebra de sucesos de probabilidad


Consideremos ahora ciertas operaciones con eventos que tendrán como resultados la formación de
nuevos eventos. Tales eventos nuevos serán subconjuntos del mismo espacio muestral como los even-
tos dados.
Supóngase que se tiene dos eventos A y B que se asocian con un experimento, es decir, A y B
subconjuntos del espacio muestral S. Entonces:

1. La unión de dos sucesos A y B en un espacio S se define como:

A ∪ B = {x : x ∈ A o x ∈ B}

Gráficamente tenemos:
7 PROBABILIDADES 70

2. La intersección de dos sucesos A y B en un espacio S se define como:

A ∩ B = {x : x ∈ A y x ∈ B}

Gráficamente tenemos:

3. Las operaciones de unión e intersección gozan de las propiedades de clausura, idempotencia,


conmutativa, asociativa y se vinculan mediante la propiedad distributiva de la intersección re-
specto a la unión, es decir,

A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)

4. El complemento del suceso A en el espacio S se define como la diferencia entre el conjunto S


y el conjunto A, es decir,
AC = S − A = {x : x ∈ S y x 6∈ A} y significa que no ocurre A.

5. Leyes de De Morgan

a) (A ∩ B)C = AC ∪ B C
b) (A ∪ B)C = AC ∩ B C

Para una mejor ilustración de nuestros conceptos resolvamos el ejercicio siguiente.

Ejemplo 7.1. Los currículos de dos aspirantes masculinos por el puesto de profesor de
matemática en una facultad se colocan en el mismo archivo que los currículos de dos aspi-
rantes mujeres. Hay dos puestos disponibles y el primero, con el rango de profesor asistente, se
cubre mediante la selección al azar de 1 de los 4 aspirantes. El segundo puesto, con el rango de
profesor titular, se cubre mediante la selección aleatoria de uno de los 3 aspirantes restantes.
Utilizando una notación adecuada para denotar el evento utilizaremos la notación M1F2, que
significa que el primer puesto se cubra con el primer aspirante hombre y el segundo puesto se
cubra después de la segunda aspirante mujer:
7 PROBABILIDADES 71

a) Liste los elementos del espacio muestral S.


b) Liste los elementos de S que corresponden al evento A de que el puesto de profesor
asistente se cubra con un aspirante hombre.
c) Liste los elementos de S que corresponden al evento B de que exactamente 1 de los 2
puestos se cubra con un aspirante hombre;
d) Liste los elementos de S que corresponden al evento C de que ningún puesto se cubra con
un aspirante hombre;
e) Liste los elementos de S que corresponden al evento A ∩ B.
f) Liste los elementos de S que corresponden al evento A ∪ C.

Solución.
Para iniciar la solución, uno de los conceptos básicos a tener en cuenta es la construcción del
espacio muestral, S, el cuál consistirá en obtener de todos los posibles resultados, es decir,
quien ocupará el puesto de asistente ya sea este hombre ó mujer y del igual modo los que
ocuparían el puesto de profesor titular.
a) Como ya hemos denotado los elementos que conformaran nuestro conjunto diremos que
nuestro espacio muestral es

S = {M 1M 2, M 1F 1, M 1F 2, M 2M 1, M 2F 1, M 2F 2, F 1M 1, F 1M 2, F 2F 1, F 2M 1, F 2M 2, F 2F 1}

b) Aquí buscaremos al sexo masculino que ocuparía el puesto de asistente no importando el


segundo puesto de que sexo lo ocupará.

A = {M 1M 2, M 1F 1, M 1F 2, M 2M 1, M 2F 1, M 2F 2}

c) Analiza en el espacio muestral los elementos que cumplen con esta condición, su resultado
será:

B = {M 1F 1, M 1F 2, M 2F 1, M 2F 2, F 1M 1, F 1M 2, F 2M 1, F 2M 2}

d) Aquí buscamos aquellos elementos en las cuales los puestos los ocuparían solo mujeres,
es decir:
C = {F 1F 2, F 2F 1}
e) Este conjunto es precisamente la combinación de dos eventos simples y su enunciado se
construye generando un enunciado que combine a ambos eventos, es decir:

A ∩ B = {M 1F 1, M 1F 2, M 1F 1, M 2F 2}

f) La combinación de ambos enunciado obtendríamos “El conjunto de los elementos que


ocupen el primer puesto sea el de asistente o que ningún puesto sea ocupado por ningún
hombre", es decir

A ∪ C = {M 1M 2, M 1F 1, M 1F 2, M 2M 1, M 2F 1, M 2F 2, F 1F 2, F 2F 1}
7 PROBABILIDADES 72

La relación entre eventos y el correspondiente espacio muestral se puede ilustrar en forma gráfica
utilizando diagramas de Venn, de la forma siguiente:

1. A ∩ B = regiones 1 y 2

2. B ∩ C = regiones 1 y 3

3. A ∪ B = regiones 1, 2, 3, 4, 6, 7

4. B C ∩ A = regiones 4 y 7

5. A ∩ B ∩ C = región 1

6. (A ∪ B) ∩ C C = regiones 2, 6 y 7

Varios resultados se obtienen de las definiciones anteriores y que se pueden verificar de forma sencilla
empleando diagramas de Venn, dentro de ellos tenemos

1. A ∩ ∅ = ∅

2. A ∪ ∅ = A

3. A ∪ AC = S, donde S es el espacio muestral

4. A ∩ AC = ∅

5. S C = ∅

6. ∅C = S

7. (AC )C = A

7.5. Definición de Probabilidad. Probabilidad de un evento


La insaciable sed de los juegos al azar condujo al desarrollo de la teoría de las probabilidades.
Como resultado de este estudio inicial, la inferencia estadística, con todas sus predicciones y
generalizaciones se extiende más allá de los juegos, abarcando muchos campos que se tiene como
resultado: eventos aleatorios.
7 PROBABILIDADES 73

Definición Clásica o “a priori". Si un evento ocurre en N formas, las cuales se excluyen mutuamente
y son igualmente probables, y si m de estos eventos poseen una característica E, la probabilidad de
ocurrencia de E es igual a m/N . Es decir,

m (Número de casos favorables)


P (E) = = =p
N (Número de casos posibles)
Definición Frecuencial o “a posteriori": Si algún proceso es repetido un gran número de veces, n, y si
algún evento resultante, con la característica E ocurre m veces, la frecuencia relativa de la ocurrencia
de E viene dada por
m
P (E) = = lı́m P (E) = p
n n→∞

La proximidad de la frecuencia relativa a la probabilidad depende de las repeticiones de algún proceso


y de la posibilidad de contar el número de repeticiones, así como el número de veces que algún evento
de interés ocurre.

7.6. Nociones Básicas de Probabilidad


La definición axiomática de las probabilidades se debe al matemático ruso Andrei Kolmogorov, en
los años de 1903 a 1987. La cual se enuncia así:
Sea Ω el espacio muestral asociado a un experimento aleatorio y sean Ai ⊂ Ω para i = 1, 2, ..., n even-
tos. A cada Ai le asignaremos un número real P (Ai ), denominada probabilidad de Ai , que satisface
las propiedades siguientes:

1. 0 ≤ P (E) ≤ 1

2. P (Ω) = 1

3. Si A1 excluye a A2 entonces P (A1 ∪ A2 ) = P (A1 ) + P (A2 )

4. Si los Ai son mutuamente excluyentes, es decir, Ai ∩ Aj = ∅, para todo i = 1, 2, 3, ...., n


entonces n
X
P (∪ni=1 Ai ) = P (Ai )
i=1

7.7. Teoremas de espacios probabilísticos


Los teoremas siguientes son consecuencia directa de los cuatro axiomas.

Teorema 7.1. La probabilidad del suceso imposible, o en otras palabras del conjunto vacío es nula,
es decir, P (∅) = 0

Teorema 7.2. (Regla del complementario).Para cualquier suceso A, se verifica que P (AC ) = 1 −
P (A)

Teorema 7.3. Para cualquier suceso A se cumple 0 ≤ P (A) ≤ 1

Este teorema nos garantiza que la probabilidad de cualquier evento estará entre 0 y 1.
7 PROBABILIDADES 74

Teorema 7.4. Si A ⊆ B entonces P (A) ⊆ P (B)


Teorema 7.5. Ley de la suma de probabilidades Para dos sucesos cualesquiera A y B, se verifica
que P (A\B) = P (A) − P (A ∩ B)
Teorema 7.6. (Ley de la suma de probabilidades). Para dos sucesos cualesquiera A y B,
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Aplicando el teorema anterior dos veces, obtenemos:
Corolario 7.7. Para tres sucesos cualesquiera A, B, C, se verifica que
P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C)
Esta regla de la adición puede generalizarse a cualquier número finito de conjuntos.

7.8. Probabilidades Condicionales


Definición 7.1. La probabilidad Condicional de un evento A, ya que ocurrió un evento B, es igual a

P (A ∩ B)
P (A\B) =
P (B)

Siempre que P (B) > 0. El símbolo P (A\B) se lee “la probabilidad de A dada la ocurrencia de B"
Definición 7.2. Dos eventos A y B son independientes si

P (A ∩ B) = P (A).P (B)

Si esta no se satisface, los eventos se dice que son dependientes. Nótese que la definición es equiva-
lente a expresar que los eventos A y B son independientes si

P (A\B) = P (A) o P (B\A) = P (B)

7.9. Leyes de Probabilidad


La probabilidad de la intersección de dos eventos A y B es

P (A ∩ B) = P (A).P (B\A) = P (B).P (A\B)

Y tal como se comentó, si A y B son conjuntos independientes se satisface la definición anterior.


Dentro de estas leyes también puede contemplarse la ley de la suma de probabilidades definidas
anteriormente.

7.10. Teorema de Bayes


El procedimiento de la composición de los eventos para resolver los problemas de probabilidad se
facilita algunas veces al considerar el espacio muestral S como una unión de subconjuntos que son
mutuamente excluyentes. Es decir, se supone que

S = B1 ∪ B2 ∪ B3 ∪ . . . ∪ BK
7 PROBABILIDADES 75

Con Bi ∩ Bj = ∅, para i 6= j. Entonces, cualquier subconjunto A de A se puede escribir como

A = A ∩ S = A ∩ (B1 ∪ B2 ∪ B3 ∪ . . . ∪ BK ) = (A ∩ B1 ) ∪ (A ∩ B2 ) ∪ . . . ∪ (A ∩ Bk )

Entonces observemos que

P (A) = P (A ∩ B1 ) + P (A ∩ B2 ) + . . . + P (A ∩ Bk )

= P (B1 )P (A\B1 ) + P (B2 )P (A\B2 ) + P (B3 )P (A\B3 ) + . . . + P (Bk )P (A\Bk )


k
X
= P (Bi )P (A\Bi )
i=1

Una probabilidad condicional de la forma P (Bj \A) se puede calcular como

P (A ∩ Bj ) P (Bj )P (A\Bj )
P (Bj \A) = = Pk
P (A) i=1 P (Bi ).P (A\Bi )

Esta ecuación para la probabilidad condicional se le llama Regla de Bayes.


8 DISTRIBUCIONES DE PROBABILIDAD 76

8. Distribuciones de probabilidad
8.1. Introducción
Uno de los objetivos de la estadística es el conocimiento cuantitativo de un determinado fenómeno de
la realidad. Para ello, es necesario observarlo e intentar construir un modelo de esta realidad particular
partiendo de la premisa de que modelar lo real es siempre más complejo y multiforme que cualquier
modelo que se pueda construir. De todas formas, la formulación de modelos aceptados en el campo de
la estadística, nos permite minimizar la existencia del error o distancia entre la realidad y el modelo.
Los modelos teóricos a los que se hace referencia se reducen en muchos casos a (o incluyen en su
formulación) funciones de probabilidad.
La teoría de la probabilidad tiene su origen en el estudio de los juegos de azar, como se ha comentado
al inicio de este apartado, pero uno de los conceptos más importantes de esta teoría es el de variable
aleatoria que, intuitivamente, puede definirse como cualquier característica medible que toma difer-
entes valores con probabilidades determinadas.
Toda variable aleatoria posee una distribución de probabilidad que describe su comportamiento. Si
la variable es discreta, es decir, si toma valores aislados dentro de un intervalo, su distribución de
probabilidad específica todos los valores posibles de la variable junto con la probabilidad de que ca-
da uno ocurra. En el caso continuo, es decir, cuando la variable puede tomar cualquier valor de un
intervalo, la distribución de probabilidad permite determinar las probabilidades correspondientes con
subintervalos de valores.
Una forma usual de describir la distribución de probabilidad de una variable aleatoria continua es
mediante la denominada función de densidad.
Una de las preocupaciones de los científicos ha sido construir modelos de distribuciones de proba-
bilidad que pudieran representar el comportamiento teórico de diferentes fenómenos aleatorios que
aparecían en el mundo real. La pretensión de modelar lo observable ha constituido siempre una necesi-
dad básica para el científico empírico, dado que a través de esas construcciones teóricas, los modelos,
podía experimentar sobre aquello que la realidad no le permitía. Por otra parte, un modelo resulta
extremadamente útil, siempre que se corresponda con la realidad que pretende representar o predecir,
de manera que ponga en evidencia las propiedades más importantes del mundo que nos rodea.
En la práctica existen distribuciones de probabilidad teóricas, como son, por ejemplo, para variables
discretas, la distribución binomial, la de Poisson, entre otras. La distribución normal para variables
continuas, que sirven de modelo para representar las distribuciones empíricas más frecuentes.

8.2. Conceptos Básicos


1. Variable Aleatoria.

Definición 8.1. Una variable aleatoria de un espacio muestral Ω es una regla que asigna un
valor numérico a cada resultado de Ω, en otras palabras, una función de Ω en el conjunto R
de números reales.

Notación: Sean S y T dos conjuntos. Supongamos que para cada s ∈ S hay asignado un único
elemento de T ; la cantidad de f de tales asignaciones se llama función de S en T , y se escribe
f : S → T . Escribiremos f (s) para el elemento de T que f asigna a s ∈ S, y llamaremos f (s)
la imagen de s bajo f o el valor de f en s.
8 DISTRIBUCIONES DE PROBABILIDAD 77

La imagen f (A) de cualquier subconjunto A de S, y la preimagen f −1 (B) de cualquier sub-


conjunto B de T se define por:

f (A) = {f (s) : s ∈ A}

f −1 (B) = {s : f (s) ∈ B}
En palabras, f (A) se compone de las imágenes de puntos de A, y f −1 (B) se compone de aque-
llos puntos cuya imagen pertenece a B. En particular , el conjunto f (S) de todas la imágenes
de puntos se llama Rango ( o imagen) de la funcion f .
En lo que sigue X denota la variable aleatoria y su correspondiente letra minúscula, x para uno
de sus valores. También tómese en cuenta que P (X = x) = f (x).
Ejemplo 1
El espacio muestral que ofrece una descripción detallada de cada posible resultado, cuando se
prueban tres componentes electrónicos (D=funciona el componente electrónico y N=no fun-
ciona el componente electrónico), se escribe como

Ω = {N N N, N N D, N DN, DN N, DN N, N DD, DN D, DDN, DDD}

Observamos que la variable aleatoria X=”Número de componentes no-defectuosos” toma el


valor de 2 para todos los elementos del subconjunto

E = {DDN, DN D, N DD}

del espacio muestral Ω. Esto es, para cada valor posible de X representa un evento que es un
subconjunto del espacio muestral para el experimento dado.
Ejemplo 2
Sea X la variable definida como el tiempo de espera , en horas, entre conductores sucesivos
que exceden los límites de velocidad detectados por una unidad de radar. La variable aleatoria
X toma todos los valores de x tales que x ≥ 0.

2. Espacio muestral discreto.

Definición 8.2. Si un espacio muestral contiene un número finito de posibilidades, o una serie
interminable con tantos elementos como números existen, se llama espacio muestral discre-
to.Tal es el caso del ejemplo 1.

3. Espacio muestral continuo.

Definición 8.3. Si un espacio muestral contiene un nḿero infinito de posibilidades igual al


número de puntos de un segmento de línea, se llama espacio muestral continuo. Tal es el caso
del ejemplo 2.

4. Identifiquemos las distribuciones de probabilidad.


8 DISTRIBUCIONES DE PROBABILIDAD 78

a) Discretas. Distribuciones que están asociadas a variables que toman un número finito (o nu-
merable) de valores posibles. El conjunto de pares ordenados [(xi , f (xi )] se da normalmente
en una tabla como la siguiente:

b) En el conjunto de pares (x, f (x)) en una función de distribución de probabilidad de la vari-


able aleatoria discreta X si, para cada resultado posible x, debe cumplirse:
I) f (x) ≥ 0
P
II ) x f (x) = 1
III ) P (X = x) = f (x)

c) Continuas. Las distribuciones continuas están asociadas a variables aleatorias con valores
reales. La distribución de probabilidad de una variable aleatoria continua no se puede rep-
resentar de forma tabular, se le reconocerá por una fórmula , la cual necesariamente sera
función de los valores númericos de la variable aleatoria continua X, y se representa medi-
ante la notacion funcional f (x). Al tratar con variables aleatorias continuas, por lo general,
f (x), también se le conoce con el nombre de función de densidad de probabilidad o simple-
mente funcion de densidad de X.

5. Distribución de probabilidad acumulada.


La Función de Distribución acumulada F (x) de una variable aleatoria discreta X con distribu-
ción de probabilidad f (x) viene dada por
X
F (x) = P (X ≤ x) = f (t), para − ∞ < x < ∞
t≤x

Ilustraremos con un ejemplo este apartado de una distribución en el caso discreto ya que esta
puede elaborarse de manera similar tal como se elaboraron la distribución de frecuencias rela-
tivas.
Para el caso de la variable continua en esta oportunidad no lo abordaremos ya que se necesita de
herramientas del cálculo diferencial e integral para definir sus propiedades y otros parámetros
como la media y la varianza.
Ejemplo
Una variable aleatoria discreta tiene la siguiente función de distribución (f (x))

La función de distribución acumulada (F(x))


8 DISTRIBUCIONES DE PROBABILIDAD 79

Su respectivo gráfico

6. Valor esperado: (E(X))


E[X] = x1 .f (x1 ) + x2 .f (x2 ) + · · · + xn .f (xn ) = ni=1 xi f (xi )
P

7. Varianza: (V ar(X))
V ar(X) = (x1 − µ)2 .f (x1 ) + (x2 − µ)2 .f (x2 ) + . . . + (xn − µ)2 .f (xn ) = ni=1 (xi − µ)2 .f (xi )
P

8.3. Distribuciones de Probabilidad. Distribución de Bernoulli


1. Distribución de Bernoulli

Definición 8.4. Experimento de Bernoulli. Se denomina experimento de Bernoulli a todo ex-


perimento aleatorio en el que sólo son posibles dos resultados (uno, o éxito, y cero), con prob-
abilidades asociadas p(1) = p y p(0) = 1 − p.

La distribución de de probabilidad de una variable aleatoria de Bernoulli X viene dada por

p(x) = px (1 − p)1−x para x = 0, 1

La media y la varianza de una variable aleatoria con distribucion de Bernoulli viene dada por

µ=p y σ 2 = p(1 − p) para x = 0, 1

Por ejemplo, tirar una moneda al aire es un experimento de Bernoulli con probabilidad de
cara p = 0.5 y de cruz 1 − p = 0.5. Por otra parte, la ocurrencia o no de lluvia en una
localidad concreta también puede considerarse un experimento de Bernoulli (si no se tiene
ninguna información que permita predecir la ocurrencia de lluvia un día concreto).
8 DISTRIBUCIONES DE PROBABILIDAD 80

2. Distribución Binomial

Definición 8.5. Un experimento binomial es aquel que tiene las siguientes características:

a) El experimento consta de n pruebas idénticas.


b) Cada prueba tiene dos resultados posibles. Exito (E) y Fracaso (F).
c) La probabilidad de tener éxito en una sola prueba es igual a p, y permanece constante de
prueba en prueba. La probabilidad de un fracaso es igual (1 − p) = q
d) Las pruebas son independientes.
e) La variable aleatoria bajo estudio es X, el número de éxitos observados en las n pruebas.

Para definir si un experimento en particular es un experimento binomial se deben examinar cada una
de las características anteriores. La variable de interés es el número de éxitos en la n pruebas.
Se puede obtener la distribución de probabilidad binomial p(x) aplicando la técnica de los puntos
muestrales para encontrar la probabilidad de que el experimento tenga x éxitos. Cada punto muestral
se puede denotar como una n − ada, utilizando E y F .
Un punto muestral típico aparecería así

EEEEF F EF F EF EEEF F . . . F E
En donde la letra en la i-ésima posición (contando de izquierda a derecha) indica el resultado de la
i-ésima prueba. Entonces reagrupando tenemos EEEEEEEE . . . F F F F es la intersección de las n
pruebas independientes, x éxitos y (n − x) fracasos y por lo tanto

pppppppppp . . . pppqqqq . . . qqq = px .q n−x

Cualquier otro punto muestral aparecería como un rearreglo de las letras E y F en el punto antes
descrito y por esto contendrá x letras E y (n − x) letras F . Se observa que el número de arreglos
distintos de E y F se puede definir como
 
n n!
=
x x!(n − x)!

8.4. Distribución de probabilidad Binomial, Valor Esperado y Varianza


1. La Distribución de probabilidad Binomial viene dada por
 
n x n−x
P (X = x) = p(x) = p .q
x

También en otros textos se identifica la distribución binomial utilizando la notación b(x; n, p).

2. ¿De dónde viene el nombre binomial?


La Distribución Binomial deriva su nombre del hecho de que los n + 1 términos en la expansión
8 DISTRIBUCIONES DE PROBABILIDAD 81

binomial de (p + q)n corresponden a los diversos valores de b(x; n, p) para x = 0, 1, 2, . . . , n. Es


decir
         
n n n n 1 n−1 n 2 n−2 n 3 n−3 n n
(p + q) = q + pq + pq + pq + ... p
0 1 2 3 n

Obsérvese que
     
n n n n−1 n x n−x
q = p(0), pq = p(1) . . . y en general p(x) = p .q
0 1 x

Como p + q = 1, entonces
n  
X X n x n−x
p(x) = p .q = b(x; n, p) = (p + q)n = 1
x x=0
x

3. Valor Esperado y Varianza.


La media y la varianza de la distribución binomial b(x; n.p) viene dada por

µ = np y V ar(X) = npq

La distribución de probabilidad binomial tiene muchas aplicaciones, ya que el experimento bi-


nomial ocurre en el muestreo de productos defectuosos en un control de calidad, en el muestreo
de preferencias del consumidor o poblaciones de votantes, en la selección de medicamentos y en
muchas situaciones del mundo real.

8.5. Distribución Normal


La distribución continua de probabilidad más importante en todo el campo de la estadística es la dis-
tribución normal por la frecuencia con que se encuentra y por sus aplicaciones teóricas. Su gráfico
recibe el nombre de curva normal, que es una fígura en forma de campana, la cual describe aproxi-
madamente muchos fenómenos sociales, mediciones en una industria, experimentos metereológicos,
y otros que ocurren en nuestra naturaleza y que dada su comportamiento pueden explicarse a través de
la distribución normal. Fué descubierta y publicada por primera vez en 1733 por Abraham DeMoivre.
A la misma llegaron, de forma independiente, Laplace (1812) y Karl F. Gauss (1809), en relación a la
teoría de los errores de observación astronómica y física .

Una variable aleatoria continua X que tiene la distribución con forma de campana se denomina
8 DISTRIBUCIONES DE PROBABILIDAD 82

variable aleatoria normal. La ecuación matemática para la distribución de probabilidad de la viariable


aleatoria normal depende de los parámetros µ y σ, su media y su desviación esándar. De aquí,
denotamos los valores de X con N (x : µ, σ).

Definición 8.6. La función de densidad de la variable aleatoria normal X con media µ y varianza
σ 2 es
1 (x−µ)2
f (x) = √ e− 2σ 2
2πσ
Notación: X ∼ N (µ, σ 2 )
Una vez se conocen µ y σ la curva normal está completamente definida. En la fígura siguiente se
han trazado tres curvas normales con la misma media pero con diferentes desviaciones estándares.
Observe que las tres curvas estan centradas exactamente en la misma posición sobre el eje horizontal;
la curva con mayor desviación es más plana y su extiensíon es más amplia.

La fígura siguiente muestra el resultado de trazar tres curvas normales dos de ellas tiene diferentes
medias y diferentes desviaciones estándar. Evidentemente, estan centradas en posiciones diferentes
sobre el eje horizontal y sus formas reflejan los valores diferentes de σ.

Propiedades de la Curva normal

1. La moda, la mediana y la media es el punto en el eje horizontal en donde la curva normal alcanza
su máximo valor, ocurre en X̂ = X̃ = X̄.

2. La curva es simétrica alrededor de su eje vertical a través de la media µ.


8 DISTRIBUCIONES DE PROBABILIDAD 83

3. La curva normal tiene dos puntos de inflexion: x = µ + σ y x = µ − σ

4. La curva normal se aproxima al eje horizontal observando un comportamiento asíntotico, esto


sucede conforme nos alejamos de la media en cualquier dirección, formando una asíntota.

5. El área bajo la curva y sobre el eje horizontal es igual a 1.

6. El valor esperado de la distribución normal con su respectiva varianza viene dada por

E(X) = µ y V ar(X) = σ 2

La curva de cualquier distribución continua de probabilidad o función de densidad se construye de


manera que el área bajo la curva limitada por las dos ordenadas x = x1 y x = x2 sea igual a la de la
probabilidad de que la variable aleatoria X tome un valor entre x = x1 y x = x2 . Es decir,
1 Z x2
(x−µ)2
P (x1 < X < x2 ) = √ e− 2σ2 dx
2πσ x1
que ésta representada por el área de la región sombreada en la siguiente fígura

El área bajo la curva entre cualesquiera dos ordenadas también dependen de µ y σ. La P (x1 < X <
x2 ) donde X es la variable aleatoria que describe la distribución de A y describe la distribución B,
entonces P (x1 < X < x2 ) ésta dada por la region sombreada.
Desafortunadamente, la dificultad que se encuentra al resolver las integrales de funciones de densi-
dad normal se necesita de la tabulación de las áreas de la curva normal para obtener una inmediata
solución. Esta es una tarea titánica intentar establecer tablas separadas para los parametros µ y σ.
Pero se cuenta con herramientas matemáticas capaces de transformar todas las observaciones de una
variable aleatoria normal X a un nuevo conjunto de observaciones de una variable aleatoria normal
Z con µ = 0 y σ = 1. Esto se puede realizar mediante la transformación
X −µ
Z=
σ
Siempre que X tome un valor x, el valor correspondiente de Z estará dado por Z = (x − µ)/σ. Por
lo tanto, si X se encuentra entre los valores x = x1 y x = x2 , la variable aleatoria Z caéra entre los
8 DISTRIBUCIONES DE PROBABILIDAD 84

valores correspondientes
x1 − µ x2 − µ
Z1 = y Z2 =
σ σ
Entonces tenemos
1 Z x2 (x−µ)2
1 Z z2
− 1 2
P (x1 < X < x2 ) = √ e 2σ 2 dx = √ e− 2 z dz = P (z1 < Z < z2 )
2πσ x1 2πσ z1

donde Z ∼ N (0, 1). Ahora hemos reducido el número requerido a las tablas de áreas bajo la curva
normal a una, la de la distribución normal stándar.

8.6. Distribución Normal Estándar


Se dice que Z tiene distribución normal standar si sus parámetros son µ = 0 y σ 2 = 1, es decir
Z ∼ N (0, 1). Su función de densidad estará dada por
1
z2
f (z) = √ e− 2

Como se menciono en las propiedades de la distribución normal también la distribucion estándar
cumple ciertas propiedades: simetría, puntos de inflexión, el comportamiento asíntotico y otros.
Ilustramos lo anterior con el ejemplo siguiente

Ejemplo
Considerar los valores de coeficientes de inteligencia(CI o IQ) en seres humanos. Los CI están dis-
tribuidos normalmente con media igual a 100 y desviación estándar igual a 10.Si una persona es elegi-
da al azar, ¿Cuál es la probabilidad de que su CI esté entre 100 y 115; es decir P (100 < x < 115)?
Solución
P (100 < x115) está representada por el área sombreada en la figura siguiente

La variable x debe ser estandarizada utlizando la expresión


x−µ
Z=
σ
Los valores de z serán
Cuando x = 100, tenemos z = 100−100
10
= 0.0
Cuando x = 115, tenemos z = 115−100
10
= 1.5
La distribución de probabilidad normal asociada al valor de z se presenta en la tabla ( anexar tabla )
8 DISTRIBUCIONES DE PROBABILIDAD 85

que enlista las probabilidades asociadas a los intervalos centrados en la media para valores específicos
de z. Otras probabilidades pueden encontrarse por adición, sustracción ,etc. con base al concepto de
simetría que existe en la distribución normal y el hecho que el área total bajo la curva normales 1.0.
Representado en forma gráfica tenemos

En consecuencia P (100 < x < 115) = P (0.0 < z < 1.5) = 0.4332
9 MUESTREO 86

9. Muestreo
Una técnica más reciente en el proceso de recolección de datos, consiste en las encuestas por muestreo.
Por medio de éstas se trata de obtener la información de una pequeña porción (muestra) de la
población que debe representar a la totalidad. La mayoría de las veces los resultados de la mues-
tra no interesan por si solos, sino que son un medio para inferir o generalizar resultados hacia la
población total o a una buena parte de ella.
Para tomar una muestra de la población contamos con diferentes técnicas de muestreo. Podemos
aplicar muestreo no probabilístico y muestreo probabilístico.

Aunque el muestreo no probabilístico suele aplicarse en la vida corriente, debe aplicarse a investi-
gaciones en las que estamos seguros de la homogeneidad de la población o en investigaciones en
las cuales el equivocarse no traiga consecuensias graves y solo se necesiten estimaciones a partir de
las cuales no se tomarán decisiones importantes, de no ser en poblaciones homogeneas la ventaja
principal es que el presupuesto de la encuesta es menor que el muestreo probabilístico.
Este tipo de muestreo no nos permite predecir el tipo de distribución de los resutados producidos ni
estimar cuanto difieren estos resultados del verdadero valor que se busca. Esto también implica que
no podemos medir la confianza que podemos tener de los resultados producidos, debido a que no
se conoce la probabilidad de que una determinada unidad sea seleccionada en el muestreo. Por lo
tanto, no podemos dar la distribución de frecuencia de las estimaciones, en ausencia de información
sobre como diferirán las diferentes muestras entre sí, el error de muestreo no puede determinarse
objetivamente.

9.1. Algunas técnicas probabilísticas


Antes de describir las principales técnicas de muestreo probabilístico, veamos el leguaje que usaremos
de manera natural.
Representamos el conjunto de las N unidades que constituyen una población finita objeto de estudio
mediante U = {u1 , u2 , . . . , uN }, es usual que los métodos de muestreo comunes consideren iguales
muestras con los mismos elementos, aunque estén colocados en orden distinto, una muestra de tamaño
n de elementos de U puede considerarse como un subconjunto si = {ui1 , ui2 , . . . , uin }. El conjunto
S = {s1 , s2 , . . . , sN } de todas las muestras posibles se denomina espacio muestral. Como antes, un
procedimiento o método de muestreo es sencillamente un proceso o mecanismo mediante el cual se
seleccionan las muestras, ahora, cada una de esas muestras tiene una determinada probabilidad de ser
elegida. Por lo tanto, el método aleatorio empleado para seleccionar la muestra define en el espacio
muestral S una función de probabilidad P .
Aun cuando el muestreo se realiza con muchos propósitos, el interés se centra, con frecuencia, en
cuatro características de la población. Estas son:
1. Población total (variables cualitativas y cuantitativas),

2. media de la población (variables cuantitativas),

3. proporción de la población (características cualitativas) y

4. tasa de la población (cociente de estimaciones).


9 MUESTREO 87

9.2. Muestreo aleatorio simple


El muestreo aleatorio sin reemplazamiento de poblaciones finitas llamado también muestreo irrestric-
tamente aleatorio o, más sencillamente, muestreo aleatorio simple, consiste en la selección de n ele-
mentos entre los N que constituyen la población, de modo que todas las muestras posibles de tamaño
n tengan la misma probabilidad de ser obtenidas.
Dada la forma
 de definirse el procedimiento de selección de la muestra el espacio muestral asociado
N
tiene muestras posibles, ya que el orden de colocación de los elementos en las muestras
n
no interviene. Como el procedimiento es con probabilidades iguales, la probabilidad de una muestra
cualquiera será:
Casos favorables 1
p(u1 , . . . , un ) = = 
Casos posibles N
n
Y la probabilidad que tiene cualquier unidad de la población de pertenecer a la muestra será:
 
N −1
Número de muestras que contienen la unidad ui n−1 n
πi = P (ui ∈ s) = =   = .
Número total de muestras N N
n

Puesto que el número de muestras posibles que se pueden


 formar con los elementos de la población y
N −1
que contengan al elementos dado ui será , ya que en este caso se fija el elemento ui y las
n−1
muestras posibles resultan de las formas de seleccionar de entre los N − 1 elementos de la población
restantes n − 1 de ellos.

Una definición operacional puede ser la siguiente: a partir de una tabla de dígitos aleatorios, selec-
cionamos con igual probabilidad n números de selección diferentes, correspondiente a n de los N
números de listado de los elementos de la población. Los n números seleccionados de la lista, en la
cual cada uno de los N elementos de la población está representado separadamente por exactamente
un número, debe identificar unívocamente a n elementos diferentes. Las unidades que llevan estos n
números constituyen la muestra. Para aplicar el muestreo aleatorio simple se requiere que todas las
unidades muestrales estén enumeradas del 1 al N.
9 MUESTREO 88

9.3. Estimadores
A contiuación se presentan los estimadores lineales insesgados para el total, media, proporción y total
de clase.

Estimador Varianza de estimador Estimador de varianza


S2 Ŝ 2
X̂ = N x̄ V (X̂) = N 2 (1 − f ) V̂ (X̂) = N 2 (1 − f )
n N
2 2
ˆ = x̄
X̄ ˆ ) = (1 − f ) S
V (X̄ ˆ ) = (1 − f ) Ŝ
V̂ (X̄
n n
n
1X N 1 1
P̂ = Ai V (P̂ ) = N −1 n
(1 − f )P Q V̂ (P̂ ) = n−1
(1 − f )P̂ Q̂
n i=1

N
1 X
Donde:Ŝ =2
(Xi − x̄)2
n − 1 i=1

9.4. Muestreo estratificado


En el muestreo estratificado, la población de N unidades se divide primero en subpoblaciones de
N1 , N2 , . . . , NL unidades, respectivamente. Estas subpoblaciones, no se traslapan y en su conjunto
comprenden a toda la población, por lo tanto,

N1 + N2 + · · · + NL = N

Las subpoblaciones se denominan estratos. Dentro de cada estrato se selecciona una muestra
separada a partir de todas las unidades que componen ese estrato, las extracciones deben hacerse
independientemente en los diferentes estratos. Si además la selección en cada estrato es por muestreo
aleatorio simple, el procedimiento total se describe como un muestreo aleatorio estratificado.

Hay varias razones por las cuales utilizar muestreo estratificado, las principales son:

1. La estratificación puede dar lugar a una ganancia en la precisión de las estimaciones de carac-
terísticas de la población total. Es decir, podemos lograr disminuir las varianzas de las estima-
ciones de la muestra.

2. Se pueden formar los estratos para utilizar diferentes métodos y procedimientos dentro de ellos.

3. Los estratos pueden establecerse porque las subpoblaciones dentro de ellos también se definen
como dominios de estudio. Un dominio es una parte de la población para la que se han planeado
estimaciones separadas en el diseño de la muestras
9 MUESTREO 89

Además de procurar mediante la estratificación muestras más representativas, puede lograrse un


mejor aprovechamiento de la organización administrativa y en general de las particularidades de
diferentes grupos de elementos de la población.

Notación usual en el muestreo estratificado


El subíndice h denota el estrato, e i la unidad del estrato. Los tamaños de muestras dentro de los
estratos se denotan con n1 , n2 , . . . , nL . Todos los símbolos siguientes se refieren al estrato h.

Nh número total de unidades

nh número de unidades en la muestra

yhi valor obtenido para la i-ésima unidad

Nh
Wh = ponderación del estrato
N
nh
fh = fracción de muestreo en el estrato
Nh
PNh
i=1 yhi
Ybh = media poblacional
Nh
Pnh
i=1 yhi
yh = media de muestra
nh
PNh
i=1 (yhi − Y h )2
Sh2 = varianza poblacional
Nh − 1
9 MUESTREO 90

9.4.1. Muestreo Estratificado sin reposición: Estimadores y errores

Estimador Varianza de estimador Estimador de varianza

L L L
X X S2 X Ŝh2
X̂st = X̂h V (X̂st ) = Nh2 (1 − fh ) h V̂ (X̂st ) = Nh2 (1 − fh )
h=1 h=1
nh h=1
nh

L L L
ˆ =
X
ˆ )=
X Sh2 ˆ )=
X Ŝh2
X̄ st Wh x̄h V (X̄ st Wh2 (1 − fh ) V̂ (X̄ st Wh2 (1 − fh )
h=1 h=1
nh h=1
nh

L L L
X X Nh Ph Qh X P̂h Q̂h
Âst = Âh V (Âst ) = Nh2 (1 − fh ) V̂ (Âst ) = Nh2 (1 − fh )
h=1 h=1
Nh − 1 nh h=1
nh − 1

L L L
X X Nh Ph Qh X P̂h Q̂h
P̂st = Wh P̂h V (P̂st ) = Wh2 (1 − fh ) V̂ (P̂st ) = Wh2 (1 − fh )
h=1 h=1
Nh − 1 nh h=1
nh − 1

9.4.2. Muestreo Estratificado con reposición: Estimadores y errores

Estimador Varianza de estimador Estimador de varianza

L L L
X X σh2 X Ŝh2
X̂st = X̂h V (X̂st ) = Nh2 V̂ (X̂st ) = Nh2
h=1 h=1
nh h=1
nh

L L L
ˆ =
X
ˆ )=
X σh2 ˆ )=
X Ŝh2
X̄ st Wh x̄h V (X̄ st Wh2 V̂ (X̄ st Wh2
h=1 h=1
nh h=1
nh

L L L
X X Ph Qh X P̂h Q̂h
Âst = Âh V (Âst ) = Nh2 V̂ (Âst ) = Nh2
h=1 h=1
nh h=1
nh − 1

PL PL PL
P̂st = h=1 Wh P̂h V (P̂st ) = h=1 Wh2 PhnQh h V̂ (P̂st ) = h=1 Wh2 P̂nhhQ̂
−1
h

9.4.3. Afijación de la muestra: Tipos de afijación y errores de los estimadores para muestreo
con reposición
Se llama afijación de la muestra al reparto, del tamaño muestral n entre los diferentes estratos. Esto
es, a la determinación de los valores de nh que verifiquen n1 + n2 + . . . + nL = n. Las afijaciones
9 MUESTREO 91

mas importantes son: la afijación uniforme, la afijación proporcional, la afijación de varianza mínima
y la afijación óptima. Veamos brevemente en que consisten:

Afijación uniforme

Consiste en asignar el mismo número de unidades muestrales a cada estrato, con lo que se tomarán
todos los nh iguales a n/L. Aumentando o disminuyendo este tamaño en una unidad si n no fuese
múltiplo de L.
L
X L
X
nh = k ∀h = 1, 2, . . . , L ⇒ nh = k ⇒ n = Lk
h=1 h=1

Este tipo de afijación da la misma importancia a todos los estratos, en cuanto a tamño de la muestra,
con lo cual favorecerá a los estratos de menor tamaño y perjudicará a los grandes en cuanto a
precisión. Sólo es conveniente en poblaciones con estratos de tamaño similar.

Afijación proporcional

Consiste en asignar a cada estrato un número de unidades muestrales proporcionales a su tamaño. Las
n unidades de la muestra de distribuyen proporcionalmente a los tamaños de los estratos expresados
en número de unidades. Tenemos:
L L L
X X X n
nh = Nh k ⇒ nh = Nh k = k Nh ⇒ n = kN ⇒ k =
N
|h=1
{z } h=1
|h=1{z }
n N

nh n
La probabilidad de selección πhj = = es la misma para todos los estratos. Así, la probabilidad
Nh N
de que un individuo sea elegido para estar en la muestra, es la misma que en una muestra aleatoria
simple, pero muchas de las “malas” muestras que podrían aparecer en una muestra aleatoria simple
no puede ocurrir en una muestra estratificada con asignación proporcional.

Afijación de mínima varianza (o afijación de Neyman)

La afijación de mínima varianza o afijación de Neyman consiste en determinar los valores de nh de


forma que para un tamaño de muestra fijo igual a n la varianza de los estimadores sea mínima. Es
decir, estamos ante el problema de optimización con restricción siguiente:

minV (θ) 


XL
nh = n 



h=1

Este problema se resuelve aplicando el método de los multiplicadores de Lagrange, considerando la


9 MUESTREO 92

función lagrangiana siguiente:


L
!
X
φ(nh , λ) = V (θ) + λ nh − n
h=1

donde θ es cualquiera de los cuatro estimadores que venimos tratando.

Afijación óptima

La afijación óptima consiste en determinar los valores de nh de forma que para un coste fijo C la
varianza de los estimadores sea mínima. El coste fijo C será la suma de los costes derivados de la
selección de las unidades muestrales de los estatos, es decir, si ch es el coste por unidad de muestreo en
el estrato h, el coste total de selección de las nh unidades muestrales en ese estrato será ch nh . Sumando
los costes ch nh para los L estratos tenemos el coste total de selección de la muestra estratificada.
Estamos nuevamente ante un problema de optimización4 con restricciones:

minV (θ) 


X L
ch n h = C 



h=1

El cual se resuelve aplicando el método de los multiplicadores de Lagrange, considerando la función


lagrangiana siguente: !
X L
φ(nh , λ) = V (θ) + λ ch n h − C
h=1

Cuando los estratos son bastante grandes, en general, la varianza de la población de y st bajo la dis-
tribución proporcional es a lo más tan grande como la varianza de la población de y, al usar el mismo
número de observaciones pero reunidas en una muestra aleatoria. Esto es cierto sin importar lo ingen-
uo que sea el esquema de estratificación. En realidad, el principal objetivo del muestreo estratificado
es mejorar la precisión de las estimaciones reduciendo los errores de muestreo. Intenta minimizar la
varianza de los estimadores mediante la creación de estratos lo más homogéneos posible entre sus el-
ementos y lo más heterogéneos entre sí. Es en este sentido que vemos la conveniencia de los distintos
tipos de afijación en términos de su eficiencia medida a través del error de muestreo, o lo que es lo
mismo, a través de la varianza. Por lo tanto será más eficiente aquel tipo de afijación que presente
menos varianza. La comparación según el tipo de afijación es la siguiente:

VM AS (x) ≥ VM EP (x) ≥ VM EM V (x)

Esto es, el muestreo estratificado con afijación de mínima varianza es más preciso que el muestreo
estratificado con afijación proporcional y que el aleatorio simple, siendo además el estratificado con
afijación proporcional más preciso que el aleatorio simple.

Se podría pensar que, como el muestreo estratificado casi siempre porporciona una precisión
4
En realidad, la signación de Neyman es un caso particular de distribución óptima, utilizada cuando los costos de los
estratos son aproximadamente iguales.
9 MUESTREO 93

mayor que el muestreo aleatorio simple, no habría necesidad de estraer una muestra aleatoria simple.
Sin embargo, la estratificación agrega cierta complejidad a la encuesta. Esta complejidad adicional
puede no valer la pena para obtener una pequeña ganancia en la precisión. Además, para realizar
una muestra estratificada, necesitamos más información. Para cada estrato debemos saber cuántos y
cuáles miembros de la población pertenecen a ese estrato.
El número de estratos elegidos depende de muchos factores; por ejemplo, la dificultad para construir
un marco de muestreo con la información estratificada y el costo de la estratificación.

Dada la forma en que están definidos los cálculos de los nh para las afijaciones uniforme y propor-
cional, dichas afijaciones no van a verse afectadas por el hecho de que el muestreo sea con o sin
reposición. Sin embargo, sí variarán las varianzas de los estimadores. Las afijaciones de mínima
varianza y óptima sí van a verse afectadas por la existencia de reposición o no, ya que el cálculo de
nh depende de las varianzas en los estratos.

Afijación uniforme
Para este tipo de afijación, las varianzas de los estimadores serán:
2
V (X̂st ) =
PL 2 σh ˆ ) = PL W 2 σh2 PL 2 Ph Qh
PL 2 Ph Qh
h=1 Nh k V (X̄st h=1 h k V (Âst ) = h=1 Nh k V (P̂st ) = h=1 Wh k

Afijación proporcional
Para este tipo de afijación, las varianzas de los estimadores serán:

V (X̂st ) = 1 PL 2 ˆ )= 1 PL 2 1 PL 1 PL Ph Qh
k h=1 Nh σ V (X̄st k h=1 Wh σh V (Âst ) = k h=1 Nh Ph Qh V (P̂st ) = n h=1 Wh k

9.5. Muestreo por conglomerados


Consideramos una población finita con M unidades elementales agrupadas en N unidades mayores
llamadas conglomerados o unidades primarias, de tal forma que no existan solapamientos entre los
conglomerados y que éstos contengan en todo caso a la población en estudio. En el muestreo mo-
noetápico de conglomerados las unidades muestrales son grupos completos de unidades elementales.
Consideramos como unidad de muestreo el conglomerado y extraemos de la población una muestra
de n conglomerados a partir de la cual estimaremos los parámetros poblacionales.

El número de unidades elementales de un conglomerado se denomina tamaño del conglomerado. Los


conglomerados pueden ser de igual o de distinto tamaño5 y han de ser lo más heterogéneos posible
dentro de ellos y lo más homogéneos posibles entre ellos, de tal forma que la situalción ideal sería
que un único conglomerado pudiese representar fielmente a la población.

5
Los conglomerados son, en la mayoría de las poblaciones, de tamaño desigual; por ejemplo, las viviendas en man-
zanas, las personas en viviendas, los empleados en secciones, etc. Los conglomerados de igual tamaño se presentan raras
veces en diseño de muestreo de la naturaleza o la sociedad, pero constituyen una introducción sencilla a la teoría del
muestreo de conglomerados. Aunque suelen ser resultado de condiciones planeadas, tales como los precesos de manufac-
tura. En nuestro caso podemos suponer como conglomerados cada departamento y estratificar por el tipo de administración
del centro educativo.
9 MUESTREO 94

En el muestreo por conglomerados en una etapa, todos o ninguno de los elementos que componen un
conglomerado (unidad de muestreo primario) están en la muestra. El muestreo por conglomerados se
utiliza en muchas encuestas donde el costo de muestreo de las unidades secundarias6 es despreciable
en relación con el costo de muestreo de las unidades primarias. Para las encuestas educativas, una
unidad primaria natural es el salón de clase; con frecuencia, todos los estudiantes de un determinado
salón se incluyen como unidades secundarias, pues se requiere apenas un ligero costo adicional para
dar un cuestionario a todos los estudiantes del salón, en vez de a unos cuantos.

Es frecuente que los conglomerados estén definidos como “áreas” o partes bien delimitadas de
terreno, de modo que todas las unidades últimas correspondientes al área sean las que constituyen el
conglomerado. De aquí que esté generalizada la denominación de muestreo por áreas para designar
estos procedimientos de muestreo.

La concentración de unidades disminuye la necesidad de desplazamiento. Pero lo más importante


es que para efectuar un muestreo aleatorio simple es necesario disponer de una lista de todos los
elementos de la población, y si se trata de muestreo aleatorio estratificado son necesarias listas de
cada sub población o estrato. En la práctica no suele disponerse de tales listas, y además resultaría
muy costosa, difícil o excesivamente prolongada la confección del listado. Vamos a citar a modo de
resumen algunas de las ventajas y desventajas que presenta este tipo de muestreo.

Entre las ventajas más importantes tenemos:

No se necesita un marco muy específico.

El costo por elemento es menor, debido al costo menor de los listados o de localización, o
ambas cosas.

Se pueden utilizar como marco divisiones territoriales ya establecidas por necesidades admin-
istrativas para las cuales existe ya información. También se pueden utilizar como marco áreas
geográficas cuyas carcterísticas están ya muy delimitadas.

Entre las desventajas más importantes tenemos:

La varianza por elemento es mayor, lo que resulta de la homogeneidad de los elementos en los
conglomerados.

La eficiencia de este tipo de muestreo disminuye al aumentar el tamaño de los conglomerados,


cuando en realidad este tipo de muestreo es más util en caso de poblaciones muy numerosas en
las que se puedan construir conglomerados grandes.

Casi siempre, el muestreo por conglomerados proporciona una menor precisión para los estimadores
que en el caso de una muestra aleatoria simple con el mismo número de elementos. Debe preferirse
6
En el muestreo aleatorio simple, las unidades muestreadas son también los elementos observados. En el muestreo por
conglomerados, las unidades de muestreo son los conglomerados y los elementos observados constituyen las unidades
secundarias dentro de los cúmulos.
9 MUESTREO 95

trabajar por conglomerados en lugar de emplear una selección individual cuando el menor costo por
elemento compense con creces estas desventajas.

Para la estimación de los parámetros poblacionales que venimos tratando, el caso más sencillo se
da cuando cada conglomerado tiene el mismo número de elementos, pero como se mencionó antes,
suelen ser resultado de condiciones planeadas y pueden aparecer, por ejemplo, en muestreo agrícola
e industrial. Sin embargo, los cúmulos de personas que aparecen con mayor naturalidad no se ajustan
a este marco de referencia y es por eso que trataremos el caso de conglomerados de distinto tamaño.
En donde la notación usual es la siguiente:

N número de conglomerados de la población

n número de conglomerados seleccionados en la muestra

Mi número de elementos en el conglomerado i


n
1X
m= Mi tamaño promedio del conglomerado en la muestra
n i=1

N
X
M= Mi número de elementos de la población
i=1

M
M= tamaño promedio del conglomerado en la población
N

xij valor de la variable en la unidad j del i-ésimo conglomerado

9.6. Muestreo sistemático


Partimos de una población de tamaño N , y agrupamos sus elementos en n zonas de tamaño k (N =
nk). Podríamos representar la población como sigue:

i\j 1 2 3 ... j ... k

1 u11 u12 u13 ... u1j ... u1k


2 u21 u22 u23 ... u2j ... u2k
.. .. .. .. .. ..
. . . . . .
i ui1 ui2 ui3 ... uij ... uik
.. .. .. .. .. ..
. . . . . .
n un1 un2 un3 ... unj ... unk

A continuación se numeran los elementos de la tabla anterior de izquierda a derecha empezando por
9 MUESTREO 96

la primera unidad de la primera fila y pasando a la primera unidad de la fila siguiente cuando se agota
cualquierfila. Tendríamos la siguiente estructura:

i\j 1 2 3 ... j ... k

1 u1 u2 u3 ... u1j ... uk


2 uk+1 uk+2 uk+3 ... uk+j ... uk+k
3 u2k+1 u2k+2 u2k+3 ... u2k+j ... u2k+k
.. .. .. .. .. ..
. . . . . .
i u(i−1)k+1 u(i−1)k+2 u(i−1)k+3 ... u(i−1)k+j ... u(i−1)k+k
.. .. .. .. .. ..
. . . . . .
n u(n−1)k+1 u(n−1)k+2 u(n−1)k+3 ... u(n−1)k+j ... u(n−1)k+k

Para extraer una muestra de tamaño n, tomamos una unidad al azar entre las k primeras y luego
tomamos las subsecuentes a intervalos de k. Es decir, el intervalo k divide a la población en n zonas
de k unidades cada una7 . Por ejemplo si la unidad seleccionada para la muestra al azar en la primera
zona es la tercera, se elegirán las n − 1 unidades restantes para la muestra tomando la tercera unidad
de cada zona.

Este tipo de muestreo suele ser de fácil y rápida aplicación y además podemos tener ventajas,
con relación al muestreo aleatorio simple o aleatorio estratificado. Lo cual depende mucho de las
propiedades de la población. Esto lo podemos visualizar mejor analizando las varianzas de los esti-
madores poblacionales, para lo cual partiremos de la identidad fundamental siguiente:
n X
X k n X
X k n X
X k n X
X k
2 2 2
(xij − X) = (xij − xj + xj − X) = (xij − xj ) + (xj − X)2
i=1 j=1 i=1 j=1 i=1 j=1 i=1 j=1
| {z } | {z } | {z }
Variación total Variación dentro Variación entre
de muestras muestras

9.7. Números Aleatorios


Los números aleatrios son un conjunto de cifras entre 0 y 9 cuyo orden no obedece ninguna regla de
formación, ellas se pueden leer individualmente o en grupos y en cualquier orden, en columnas hacia
abajo, columnas hacia arriba, en fila, diagonalmente, si se desea formar números aleatorios en un
determinado rango, basta con calcular la proporción, otra forma de usarlo es sumando dos números
tomados de alguna posición o multiplicarlos.
Para ser presentadas estas cifras se agrupan en números de 4 dígitos, formando bloques de 5 filas y 10
columnas facilitando de esta forma su lectura que puede iniciarse desde cualquier parte de la tabla.
7
Si el tamaño de la población N no es un multiplo entero de k, se presenta un problema. Se puede resolver de varias
maneras, entre ellas tenemos:
a. k = Parte entera de N/n.
b. k = (Parte entera de N/n)+1.
c. Considerar la lista como si fuera circular.
9 MUESTREO 97

Una tabla de números aleatorios es útil para seleccionar al azar los individuos de una población
conocida que deben formar parte de una muestra.

9.7.1. Aleatorización
La aleatorización, que permite: (i) la validación del error experimental, (ii) evita sesgos y (iii) garan-
tiza la independendencia de los errores.
Mediante el uso de una tabla de números aleatorios es posible realizar la aleatorización como se
ilustra a continuación: Suponga que se tienen N=15 unidades experimentales (UE) homogéneas, para
un experimento bajo un DCA con t=3 tratamientos y r=5 réplicas. Inicialmente asigne los dígitos 01,
02, . . ., 15 a las UE, ubique la punta de su lapiz aleatoriamente en cualquier lugar de la tabla de
números aleatorios, por decir en la fila 26 columna 5 donde aparece el número 24878, apartir de lo
dos primeros dígitos (24) empiece a recorrer en cualquier sentido, suponga que se hace hacia abajo
de la columna donde está el número 24, registre los números de dos cífras (o de tres cífras cuando los
rótulos de las UE tengan tres cífras) que esten entre 1 y 15 inclusive. En este caso son: 04, 02, 01,
14, 10, continuando desde la parte inferior de la columna (6) hacia arriba se obtiene: 06, 13, siga a la
parte superior de la columna (7): 15, 09, 11. Se puede parar aquí ya que se asigna las primeras cinco :
04,02,01,14,10 al tratamiento 1, las siguientes cinco:06, 13,15, 09, 11 al tratamiento 2 y las restantes
al:03, 05,07,08,12 al tratamiento 3.
10 INFERENCIA ESTADÍSTICA 98

10. Inferencia estadística


La Inferencia Estadística es la parte de la estadística encargada de estudiar métodos para la obten-
ción de conclusiones generales en la población o poblaciones objeto de investigación, a partir de la
información que proporciona una muestra.
La inferencia estadística se divide en: estimación de parámetros y prueba de hipótesis.
Existen dos tipos de estimaciones para parámetros; puntuales y por intervalo.

10.1. Estimación puntual


Una estimación puntual es un único valor estadístico y se usa para estimar un parámetro. El estadístico
usado se denomina estimador.
Por tanto los estimadores puntuales son las medidas descriptivas numéricas aplicadas a las caracterís-
ticas de las unidades de la muestra. La estimación hace referencia a los valores numéricos de los
parámetros poblacionales desconocidos, a los cuales se llega mediante una muestra.
Por ejemplo, la media muestral x̄ es un estimador puntual de la media poblacional µ, la desviación
muestral s estima a la desviación poblacional σ y la proporción muestral es un estimador puntual de
la proporción poblacional P.

10.1.1. Propiedades deseables de los estimadores puntuales


La distancia entre el estimador y el parámetro a estimar puede medirse mediante el error cuadrático
medio, que se define como el valor esperado del cuadrado de la diferencia entre el estimador y el
parámetro.
2
ECM (θ̂) = E[θ − θ̂]
2
El ECM puede escribirse como: ECM (θ̂) = VAR[θ̂] + [θ − E(θ̂)] ; una es la varianza del estimador
y la otra el cuadrado del sesgo.
Insesgado
Un estimador es insesgado (o centrado) si la esperanza del estimador coincide con el parámetro a
estimar E(θ̂) = θ.
Consistencia
Se dice que un estimador es consistente si se aproxima cada vez más al valor del parámetro a medida
que se aumenta el tamaño de la muestra.

P [(θ̂ − θ) > ] → 0; si n → ∞,  → 0

Eficiencia
Un estimador será eficiente cuando su varianza sea menor, ya que se concentra más alrededor del
verdadero valor del parámetro.
Suficiencia
Se dice que un estimador es suficiente si se utiliza toda la información relevante contenida en una
muestra para la estimación del parámetro.
10 INFERENCIA ESTADÍSTICA 99

10.2. Estimación por intervalo de confianza de medias y proporciones


No siempre resulta conveniente realizar la estimación puntual, debido a que no proporciona suficiente
información acerca del parámetro de interés, ya que un solo número puede no resultar muy significa-
tivo, es decir, que no puede estimar con exactitud el valor del parámetro de la población. Sin embargo,
no se puede considerar que un estimador puntual obtenido a partir de una muestra grande, llegue a
ser exactamente igual al valor del parámetro de la población. Por esta razón resulta más conveniente
determinar un intervalo dentro del cual se esperaría que se encuentre el valor del parámetro, a este
método se le conoce como estimación por intervalo.
A los estimadores por intervalo generalmente se les llama intervalos de confianza, este contiene un
conjunto de valores posibles del parámetro a estimar obtenidos a partir de la muestra aleatoria de la
cual se determina el estadístico de interés. Para llevar a cabo la estimación por intervalo es necesario
conocer: el nivel de confianza y el error estándar.

10.2.1. Intervalo de confianza para la media poblacional, σ conocida (n ≥ 30)


Si se dispone de una población que tiene una variable aleatoria X con distribución N (µ, σ) y con
σconocida, y anteriormente se estudió que la distribución muestral de las medias corresponde a:

 
σ
X̄ ∼ N µ, √
n
Se quiere estimar la media poblacional µ a partir de la media muestral x̄, obteniendo para ello un
intervalo de forma que tenga una probabilidad alta de que la media poblacional esté en dicho intervalo.
Tipificando la expresión anterior:
X̄ − µ
Z= σ ∼ N (0, 1)

n

Si se fija una probabilidad α, se puede obtener ˘z y z que limitan un área de valor 1 − α. Despejando
µ se obtiene el intervalo de confianza para la media poblacional:

Figura 25: Intervalo de confianza para µ con σ conocido

De un total de k muestras seleccionadas de una población, se definen K medias aritméticas, que


constituyen el 100 % de medias, de las cuales con una de ellas se estima µ con un nivel de confianza
10 INFERENCIA ESTADÍSTICA 100

de (1 − α)100 % . A continuación se ilustra con un nivel de confianza del 95 % como se comportarían


los intervalos construidos por cada media muestral al estimar a µ.

Figura 26: Interpretación del nivel de confianza en un intervalo para la media de una distribución
normal

Ejemplo 10.1. Una institución gubernamental realizó una encuesta para estimar el gasto promedio
que los fumadores invierten en cigarrillos durante una semana. Un muestra de 49 fumadores reveló
que el gasto promedio es de $20.00 con una desviación de $ 5.00.

a) ¿Cuál es el estimador puntual de la media poblacional?

b) Utilizando un nivel de confianza del 95 %, determinar el intervalo de confianza para µ , interprete


el resultado.

c) Suponga que la muestra es de 64 fumadores, con base a la información del ejemplo, determine el
estimador puntual y el intervalo de confianza.

10.2.2. Intervalo de confianza para la media poblacional, σ es desconocida (n ≥ 30)


Sustituimos el valor de σ por la desviación estándar de la muestra s y los límites del intervalo de µ se
encuentran mediante la expresión:
s
x̄ ± Zα/2 √
n
Ejemplo 10.2. De un grupo de 300 estudiantes de nuevo ingreso en una Instituto Nacional, se
seleccionaron de manera aleatoria 30 calificaciones de matemática, las que a continuación se
presentan:

71 49 78 58 82 53 75 73 58 74
57 70 76 62 71 54 62 86 58 86
50 73 64 68 56 45 72 65 87 56
Construya un intervalo de confianza del 99 % para la calificación promedio de la población
10 INFERENCIA ESTADÍSTICA 101

10.2.3. Intervalo de confianza para estimar la diferencia de medias poblacionales (µx − µy )


Se puede aplicar un argumento similar en lo planteado anteriormente para desarrollar el intervalo de
2 σ2
confianza para estimar a (µx − µy ), es necesario definir la varianza V (x̄ − ȳ) = nσxx + nyy , si se conoce
las variancias poblacionales, en caso de no conocerlas se sustituyen por las desviaciones muestrales
2 s2
V (x̄ − ȳ) = nsxx + nyy .
El intervalo de confianza para la diferencia de medias se expresan como sigue:
s
s2x s2y
x̄ − ȳ ± zα/2 +
nx ny

Ejemplo 10.3. En un estudio para comparar los pesos promedio de niños y niñas de sexto grado en
una escuela primaria se seleccionó una muestra aleatoria de 20 niños y otra de 25 niñas. Se sabe
que tanto para niños como para niñas los pesos siguen una distribución normal. El promedio de los
pesos de todos los niños de sexto grado de esa escuela es de 90 libras y su desviación estándar es de
8 libras, mientras que el promedio de los pesos de todas las niñas del sexto grado de esa escuela es
de 80 libras y su desviación estándar es de 6 libras.
Encuentre el intervalo de confianza de la diferencia de los pesos promedio de los niños y niñas con
un nivel de confianza del 99 %

10.2.4. Estimación por intervalo para proporciones


Si el estadístico es la proporción de “éxitos“ en una muestra de tamaño n ≥ 30 extraída de una
población binomial en la que P es la proporción de éxito (es decir, la probabilidad de éxito), los
límites de confianza para P vienen dados por p̂ ± zα/2 σp donde p̂ es la proporción de éxitos en la
muestra de tamaño n. El intervalo de confianza del (1 − α)100 % para estimar una proporción P, se
expresa como:

p̂ − zα/2 σp < P < p̂ + zα/2 σp


Donde σp es el error estándar de la proporción, el cual mide la variabilidad en la distribución de
muestreo de la proporción muestral se representa como:
r
p̂q̂
σp =
n
Ejemplo 10.4. Un partido político pretende conocer la intención de voto de cara a las próximas
elecciones. Para ello encarga un sondeo sobre un total de 230 personas, de las que 69 contestan que
votarían.

a) Hallar un intervalo de confianza del 90 % para la verdadera proporción población.

b) Encuentre un intervalo de confianza del 99 % para la proporción poblacional.


10 INFERENCIA ESTADÍSTICA 102

10.2.5. Estimación por intervalo para diferencias de proporciones


Un intervalo de confianza para la diferencia de proporciones se obtiene aplicando la fórmula siguiente:
s
pˆx qˆx pˆy qˆy
pˆx − pˆy ± zα/2 +
nx ny
Ejemplo 10.5. Una muestra aleatoria de 400 adultos y 600 adolescentes que ven un cierto programa
de televisión. 100 adultos y 300 adolescentes dijeron que les gustaba. Hallar los límites de confianza
del 95 % y del 99 % para la diferencia de proporciones de todos los adultos y adolescentes que ven el
programa y les gusta.

10.2.6. Estimación de µ para muestas pequeñas (n < 30)


Si la muestra es pequeña (n < 30) sus valores promedios se aproximan a una distribución t-student.
Para construir intervalos de confianza para la media poblacional µ, con muestras pequeñas normal-
mente distribuidas, debe utilizarse la distribución t- student, la cual es similar a la normal, pero su
forma depende del tamaño n de muestra.
El intervalo de confianza para µ se encuentra utilizando la expresión:
s s
P {x̄ − t(α/2;n−1) √ ≤ µ ≤ x̄ + t(α/2;n−1) √ } = 1 − α
n n
Ejemplo 10.6. Los ingresos mensuales de las familias de una comunidad se encuentran distribuidos
normalmente. De esta se seleccionó una muestra de 16 familias para estimar el ingreso promedio
mensual. De la información de la muestra se obtuvo una desviación estándar de $12 y una media de
$300.
a) Encuentre un intervalo de confianza del 95 % para el ingreso promedio de las familias de la
comunidad.
b) Encuentre un intervalo de confianza del 99 % para el ingreso promedio de las familias de la
comunidad.
c) ¿Qué conclusión realiza de los resultados obtenidos en a) y b)?

10.2.7. Intervalos de confianza para diferencia de medias poblacionales (n < 30)


Los intervalos de confianza para la diferencia de medias poblacionales en muestras pequeñas normal-
mente distribuidas, utilizan la distribución t- student y se calculan aplicando la expresión siguiente:
s
s2x s2y
(x̄ − ȳ) ± t(α/2;n−1) +
nx ny
Ejemplo 10.7. Una muestra de tamaño 10 de una población de mujeres presenta una altura media
de 156 cm y una muestra de 12 hombres de otra población presenta una altura media de 160 cm.
Sabiendo que ambas poblaciones son normales con desviaciones de 5 cm y 7 cm respectivamente.
a) Determine el intervalo para diferencias de las medias poblacionales para el 90 % de confianza
b) ¿Qué conclusión realiza al respecto de las alturas de las mujeres y hombres?
10 INFERENCIA ESTADÍSTICA 103

10.2.8. Intervalos de confianza para una proporción poblacional P (n < 30)


Los intervalos de confianza para proporciones se obtienen mediante la fórmula siguiente:
r
p̂q̂
p̂ ± t(α/2;n−1)
n
Ejemplo 10.8. La oficina gubernamental de salud desea realizar una campaña a fin de disminuir
el porcentaje de funcionarios públicos que tienen el hábito de fumar en horas de trabajo, para ello
decide realizar una investigación por muestreo a 28 funcionarios, encontrando que 16 de ellos fuman.

a) Determinar el intervalo de confianza del 90 % con respecto a la proporción de funcionarios que


fuman.

b) Determinar el intervalo de confianza del 99 % con respecto a la proporción de funcionarios que


fuman.

10.3. Prueba de hipótesis estadísticas


10.3.1. Definición de pruebas de hipótesis y tipo de error
Definición 10.1. “La prueba de hipótesis es un procedimiento que se basa en la evidencia de las
muestras y en la teoría de probabilidad para determinar si la hipótesis es un enunciado razonable”8 .

TIPOS DE HIPÓTESIS ESTADÍSTICAS:

Hipótesis nula (H0 ) : Es una afirmación respecto del valor de un párametro de la población.

Hipótesis alternativa(H1 ): Es una afirmación que se acepta si los datos de la muestra proporcio-
nan evidecia suficiente de que la hipótesis nula es falsa.

TIPOS DE ERROR: En la prueba de hipótesis existen dos tipos de error:

Error tipo I(α): Es la probabilidad de rechazar la hipótesis nula, cuando esta es verdadera.

Error tipo II (β): Es la probabilidad de aceptar la hipótesis nula, cuando esta es falsa.

En la tabla (4) se observan las consecuencias al tomar decisiones con respecto a pruebas de hipótesis.

Tabla 4: Resumen de las decisiones que el investigador puede tomar en la prueba de hipótesis
DECISIÓN DEL INVESTIGADOR
Estado de la Hipótesis nula
Acepta H0 Rechaza H0
H0 es verdadera Decisión correcta Error tipo I
H0 es falsa Error tipo II Decisión correcta

8
Douglas Lind. Estadística para Administración y Economía.México D.F, Editorial Mc. Graw Hill, 2005, pág. 318.
10 INFERENCIA ESTADÍSTICA 104

10.3.2. Procedimiento para probar hipótesis estadísticas


Para probar hipótesis estadísticas se deben seguir los siguientes pasos:
Paso 1: Formular las hipótesis estadísticas
H0 : Hipótesis nula
H1 : Hipótesis alternativa
Paso2: Elección de la prueba de hipótesis con su modelo estadístico
Toda prueba de hipótesis estadística está asociada a un modelo estadístico de acuerdo al tamaño de
muestra y dependiendo del parámetro poblacional en el que se basa la prueba de hipótesis estadística.
Los modelos estadísticos que generalmente se utilizan en la prueba de hipótesis parámetricas son las
distribuciones normales, t-student y chi-cuadrado.
Paso 3: Calcular el estadístico de prueba
Es el valor que se calcula en función de los datos de la muestra y se utiliza para determinar si se va a
rechazar la hipótesis nula.
Paso 4: Seleccionar el nivel de significancia
El nivel de significancia: es la probabilidad de rechazar la hipótesis nula cuando esta es verdadera.
Al realizar la prueba de hipótesis se tiene como propósito aceptar o rechazar la hipótesis nula, para esto
debe elegirse de acuerdo a criterios específico del investigador un margen de riesgo de equivocarse al
rechazr la hipótesis nula cuando esta es verdadera.
Generalmente se eligen valores α ∈ [0.01, 0.05] este valor se utilizará para determinar la región crítica
o de rechazo de H0 .
Paso 5: Establecer la región crítica o de rechazo(formular la regla de decisión) Esta formada por
un conjunto de valores para los cuales se rechazará la hipótesis nula.
Paso 6: Toma de decisiones La decisión de aceptar o rechazar la hipótesis nula se basa en el estadís-
tico de prueba calculado a partir de los datos de la muestra.
Si el valor calculado del estadístico se localiza en la región de rechazo, se rechaza la hipótesis nula
y se acepta la hipótesis alternativa. Pero si el valor del estadístico no se encuentra en la región de
rechazo, entonces, se acepta la hipótesis nula y, es decir no se tiene suficiente evidencia para rechazar
la hipótesis nula.
Cualquier decisión que se toma está sujeta a cierto margen de incertidumbre ya que la inferencia se
realiza a partir de una muestra.

10.3.3. Prueba de hipótesis para muestras grandes


Prueba de hipótesis para µ en muestras grandes Resulta conveniente aplicar este método de prue-
ba cuando la hipótesis sobre el problema en estudio, está enfocado a realizar inferencias respecto a
la media de la población y los datos obtenidos en la investigación cumplen con las siguientes condi-
ciones:

El tamaño de la muestra es grande y proviene de una población normalmente distribuida

Desviación estándar de la población desconocida


10 INFERENCIA ESTADÍSTICA 105

Procedimiento:

1) Formulación de la hipótesis
H0 : µ = µ0 (µ0 es la constante hipotética para la media poblacional)
H1 : Puede tomar una de las hipótesis alternativas siguientes:

Unilateral derecha Unilateral izquierda Bilateral


µ > µ0 µ < µ0 µ 6= µ0
2) Calcular el estadístico de prueba
x̄−µ0
z= √s
n
3) Elegir el nivel de significancia, si no ha sido especificado
4) Encontrar la región de rechazo asociada al nivel de significancia y utilizando las tablas de la
distribución normal

La región crítica o de rechazo dependerá del tipo de hipótesis alternativa formulada para el
problema en estudio. A continuación mencionamos los diferentes hipótesis alternativas con sus
correspondientes regiones de rechazo.

Tabla 5: Prueba de hipótesis para µ


Hipótesis nula H0 Hipótesis alternativa H1 Región de rechazo de H0
µ > µ0 Z > Zα
µ = µ0 µ < µ0 Z < −Zα
µ 6= µ0 Z > Zα/2 o Z < −Zα/2

5) Tomar la decisión correspondiente basada en el estadístico de prueba y la región crítica

Ejemplo 10.9. La dirección médica de una clínica toma una muestra aleatoria de 500 mediciones
acerca del tiempo de hospitalización, resultando una media muestral de 5.4 días y una desviación
estándar de 3.1 días. La dirección médica supone que el promedio de tiempo de hospitalización es
mayor de 5 días. Apoya esta información la hipótesis con un nivel de significancia del 0.05
Prueba de hipótesis para una proporción en muestras grandes Este método de prueba se puede
aplicar cuando la hipótesis sobre el problema en estudio, está enfocado a realizar inferencias respecto
a la proporción de la población y los datos obtenidos en la investigación cumplen con las siguientes
condiciones:

El tamaño de la muestra es grande y proviene de una población normalmente distribuida.


Que la variable aleatoria tenga solamente dos posibles resultados.
Cuando el interés del investigador sea probar que una parte o proporción de la muestra tenga
un valor especifico.
10 INFERENCIA ESTADÍSTICA 106

Procedimiento:

1) Formulación de la hipótesis
H0 : P = P0 (donde P0 es la constante hipotética para la proporción poblacional)
H1 : Puede tomar una de las hipótesis alternativas siguientes:

Unilateral derecha Unilateral izquierda Bilateral


P > P0 P < P0 P 6= P0
2) Calcular el estadístico de prueba

z= qP̂ −P0
p̂(1−p̂)
n
3) Elegir el nivel de significancia, si no ha sido especificado

4) Encontrar la región de rechazo asociada al nivel de significancia y utilizando las tablas de la


distribución normal

La región crítica o de rechazo dependerá del tipo de hipótesis alternativa formulada para el
problema en estudio.

Tabla 6: Prueba de hipótesis para P


Hipótesis nula H0 Hipótesis alternativa H1 Región de rechazo de H0
P > P0 Z > Zα
P = P0 P < P0 Z < −Zα
P 6= P0 Z > Zα/2 o Z < −Zα/2

5) Tomar la decisión correspondiente basada en el estadístico de prueba y la región crítica

Ejemplo 10.10. Por estadísticas que se tienen, se ha podido establecer que más del 40 % de los
jóvenes toman regularmente Coca-Cola, cuando tienen sed. Una muestra aleatoria de 450 jóvenes
reveló que 207 de ellos solían tomar dicha bebida cuando tenían sed. ¿Cuál podría ser su conclusión
al nivel del 1 % de significancia acerca de lo que muestran las estadísticas?

10.3.4. Prueba de hipótesis para muestras pequeñas y distribución t de Student


Prueba de hipótesis para una media poblacional en muestras pequeñas Este es otro de los méto-
dos de inferencia estadística cuando se quiere probar la media de una población. Las condiciones a
considerar para utilizar este método de prueba son las siguientes:

El tamaño de la muestra es pequeña (n < 30) y proviene de una población normalmente dis-
tribuida.

Se desconoce la varianza poblacional, la cual se estima mediante la varianza muestral.


10 INFERENCIA ESTADÍSTICA 107

Procedimiento:

1) Formulación de la hipótesis
H0 : µ = µ0 (µ0 es la constante hipotética para la media poblacional)
H1 : Puede tomar una de las hipótesis alternativas siguientes:

Unilateral derecha Unilateral izquierda Bilateral


µ > µ0 µ < µ0 µ 6= µ0
2) Calcular el estadístico de prueba
x̄−µ0
t= √s
n
3) Elegir el nivel de significancia, si no ha sido especificado

4) Encontrar la región de rechazo asociada al nivel de significancia y utilizando las tablas de la


distribución t de student

La región crítica o de rechazo dependerá del tipo de hipótesis alternativa formulada para el
problema en estudio.

Tabla 7: Prueba de hipótesis para µ en muestras pequeñas


Hipótesis nula H0 Hipótesis alternativa H1 Región de rechazo de H0
µ > µ0 t > tα,n−1
µ = µ0 µ < µ0 t < −tα,n−1
µ 6= µ0 t > tα/2,n−1 o t < −tα/2,n−1

5) Tomar la decisión correspondiente basada en el estadístico de prueba y la región crítica

Ejemplo 10.11. Una distribuidora de gas ofrece a sus clientes el servicio en un máximo de espera
de 48 horas. Se toma una muestra de seis hogares que hicieron pedidos y se encontró lo siguiente:
24,20, 60, 72, 40, 30 horas de espera. ¿Se puede creer lo ofrecido por la distribuidora?

Prueba de hipótesis para una proporción en muestras pequeñas Este método de prueba se puede
utilizar bajo las siguientes condiciones:

El tamaño de la muestra es pequeña y proviene de una población normalmente distribuida.

Que la variable aleatoria tenga solamente dos posibles resultados.

Cuando el interés del investigador sea probar que una parte o proporción de la muestra tenga
un valor especifico.
10 INFERENCIA ESTADÍSTICA 108

Procedimiento:

1) Formulación de la hipótesis
H0 : P = P0 (P0 es la constante hipotética para la media poblacional)
H1 : Puede tomar una de las hipótesis alternativas siguientes:

Unilateral derecha Unilateral izquierda Bilateral


P > P0 P < P0 P 6= P0
2) Calcular el estadístico de prueba

t= qp̂−P0
p̂(1−p̂)
n
3) Elegir el nivel de significancia, si no ha sido especificado

4) Encontrar la región de rechazo asociada al nivel de significancia y utilizando las tablas de la


distribución t de student

La región crítica o de rechazo dependerá del tipo de hipótesis alternativa formulada para el
problema en estudio.

Tabla 8: Prueba de hipótesis para P en muestras pequeñas


Hipótesis nula H0 Hipótesis alternativa H1 Región de rechazo de H0
P > P0 t > tα,n−1
P = P0 P < P0 t < −tα,n−1
P 6= P0 t > tα/2,n−1 o t < −tα/2,n−1

5) Tomar la decisión correspondiente basada en el estadístico de prueba y la región crítica

Ejemplo 10.12. El Gerente de una corporación de ahorros argumenta que menos del 30 % de los
clientes poseen un saldo superior a los $50,000. Desea confirmar tal apreciación, mediante una
muestra aleatoria a 20 clientes elegidos al azar, de los cuales 8 tienen saldo superior a los $50,000.
Con un nivel de confianza del 5 % ¿se podrá decir que menos del 30 % de ahorradores tienen saldos
superiores a la afirmación hecha por el gerente?
11 DISTRIBUCIONES BIDIMENSIONALES 109

11. Distribuciones bidimensionales


Supongamos que en una población, y para un conjunto de n individuos, se miden dos caracteres X e
Y:

(x1 , y1 ), (x2 , y2 ) · · · , (xn , yn )


En este caso tenemos una variable estadística bidimensional o distribución bidimensional de frecuen-
cias, la cual representaremos por (X, Y). Cuando se cuenta con una gran cantidad de datos, un modo
de presentar la distribución bidimensional es a través de una tabla de doble entrada de la forma:

X\Y y1 y2 ... yj ... yk Total


x1 n11 n12 ... n1j ... n1k n1+
x2 n21 n22 ... n2j ... n2k n2+
.. .. .. .. ..
. . . . .
xi ni1 ni2 ... nij ... nik ni+
.. .. .. .. .. ..
. . . . . .
xl nl1 nl2 ... nlj ... nlk nl+
Total n+1 n+2 ... n+j ... n+k n

Donde los valores de X e Y pueden venir dados en intervalos, al igual que en el caso de una dimensión.
En el caso de que las dos variables sean atributos, la tabla anterior recibe el nombre de tabla de con-
tingencia. A continuación se presentan las tablas de contingencia y posteriormente las distribuciones
marginales y condicionales para variables numéricas.

11.1. Tablas de contingencia


Muy a menudo los datos de un estudio estadístico se presentan agrupados en categorías siendo el ob-
jeto comparar sus frecuencias con un cierto patrón o entre ellas, para ver si es posible concluir que la
población tiene determinadas características. En definitiva se van a realizar contrastes de independen-
cia de caracteres, en el que se juzga la independencia de dos variables observadas en los individuos
de una población.

11.1.1. Contraste de independencia de caracteres


Para realizar el contraste de independencia entre dos caracteres de los individuos de una población,
se supone que cada individuo puede clasificarse en a modalidades de un primer atributo A y en b
modalidades según otro criterio B. Los n individuos de una muestra aparecen, por tanto, clasificados
en una tabla de contingencia de la forma:

En este documento se utilizará indistintamente ni. = ni+ = kj=1 nij o n.j = n+j = li=1 nij . El
P P
interes es conocer si existe dependencia entre dos características A y B de una población, en donde
cada una de ellas presentan a y b categorías, respectivamente. Para ello se pretende contrastar la
hipótesis:
H0 : A y B son independientes H1 : A y B no son independientes.
11 DISTRIBUCIONES BIDIMENSIONALES 110

A\B 1 2 3 ... b
1 n11 n12 n13 ... n1b n1.
2 n21 n22 n23 ... n2b n2.
3 n31 n32 n33 ... n3b n3.
.. .. .. .. .. ..
. . . . . .
a ni1 ni2 ni3 ... nab na.
n.1 n.2 n.3 ... n.b n

Si designamos por pij : la probabilidad de que un elemento de la muestra presente las características
Ai y Bj , es decir, pij = P (Ai ∩ Bj ) = pi. p.j para cualquier i, j. Los estimadores máximo verosimiles
de pi. y p.j son:
ni. n.j
, i = 1, 2, ..., a,
p̂i. = p̂.j = , j = 1, 2, ..., b.
n n
El estadístico de Pearson que se utiliza para realizar este contraste es el siguiente:
a X b a b n n 2
X
2 (Oij − Eij )2 X X nij − i.n .j
χ = = ni. n.j ≈ χ2(a−1)(b−1)
i=1 j=1
E ij i=1 j=1 n

y tiene una distribución χ2 con (a − 1)(b − 1) grados de libertad. Se rechaza H0 si el estadístico de


Pearson es mayor que χ2(a−1)(b−1),1−α .

Ejemplo.
Para estudiar la dependencia entre la práctica de algún deporte y la depresión, se seleccionó una
muestra aleatoria simple de 100 jóvenes, con los siguientes resultados:

Deportista \ Depresión NO SI
SI 38 9 47
NO 31 22 53
69 31 100

Realice el contraste de hipótesis con α = 0.05.

Solución.
Las hipótesis son:

H0 : La depresión es independiente de la práctica de algún deporte.


H1 : La depresión depende de la práctica de algún deporte.
El estadístico de prueba está dado por:
2 X
2 ni. n.j 2
2
X nij − n
χ = ni. n.j
i=1 j=1 n

y toma el valor de:


11 DISTRIBUCIONES BIDIMENSIONALES 111

47∗69 2 47∗31 2 53∗69 2 53∗31 2


   
2 38 − 100
9− 100
31 − 100
22 − 100
χ = 47∗69 + 47∗31 + 53∗69 + 53∗31 = 5.823
100 100 100 100

El estadístico χ2 tiene una distribución χ21 (Chi-cuadrado con 1 grado de libertad), así que el valor
de la χ21,0.05 = 3.841 (Valor de la tabla Chi-cuadrado). Como el valor del estadístico χ2 = 5.823 es
mayor que el valor de tabla χ21,0.05 = 3.841 se rechaza la independencia, es decir, que la depresión
depende de si realizas algún tipo de deporte.

11.1.2. Distribuciones marginales y condicionales


Dada una variable estadística bidimensional, las distribuciones marginales permiten estudiar de un
modo aislado cada una de las componentes. A partir de una tabla de doble entrada, las distribuciones
de frecuencias marginales se obtienen sumando las frecuencias de la tabla por filas y por columnas.

Las distribuciones condicionadas permiten estudiar el comportamiento de una de las variables cuando
la otra permanece constante. Vienen dadas por:

Una distribución de frecuencias bidimensional es el conjunto de valores de la variable (X, Y),


junto con sus correspondientes frecuencias. Se denota por (xi , yj , nij ) o bien (xi , yj , fij ), según se
utilicen las frecuencias conjuntas absolutas o relativas.
n
La frecuencia relativa conjunta, marginales y condicionales vienen dadas por: fij = nij ; f i. = nni. o
n f n f
bien f.j = n.j
n
; y fi/j = ni/j
.j
= fij.j o bien fj/i = nj/i
i.
= fiji. , respectivamente.
Dada una distribución de frecuencias (xi , yj ; fij ), las variables X e Y son estadísticamente indepen-
dientes, si para cualesquiera i y j, se cumple: fij = fi. f.j o bien fi/j = fi. o fj/i = f.j .
11 DISTRIBUCIONES BIDIMENSIONALES 112

11.2. Correlación y predicción


Para hacer un estudio conjunto de dos variables cuantitativas X e Y, supondremos que disponemos de
una muestra de n pares de observaciones de X e Y:

(x1 , y1 ), (x2 , y2 ) · · · , (xn , yn )


Antes de hacer cualquier cálculo, conviene representar en el plano los pares de valores obtenidos. Con
esto obtenemos una nube de puntos (Diagrama de dispersión), que nos puede dar una idea visual de
las posibles relaciones existentes.

Figura 27: Diagrama de dispersión

Cuando se observa el comportamiento conjunto de dos variables, el objetivo principal es determinar si


existe o no algún tipo de variación conjunta o covariación entre ellas. La covarianza muestral, ayuda
a cuantificar la asociación entre dos variables. La covarianza muestral se define como:
n n
1X 1X
Cov(X, Y ) = Sxy = (xi − x̄) (yi − ȳ) = xi yi − x̄ȳ
n i=1 n i=1

Interpretación.

1. Si la Cov(X, Y ) > 0, existe una tendencia a que mayores observaciones de una de las variables
se correspondan con mayores observaciones de la otra variable.

2. Si Cov(X, Y ) < 0, existirá una tendencia a que mayores observaciones de una variable se
correspondan con menores observaciones de la otra variable.

3. Si Cov(X, Y ) = 0, no se puede concluir que no exista relación entra ambas variables. Pero se
puede decir que no existe relación lineal entre las variables.

Suponemos que Cov(X, Y ) 6= 0,indica que existe relación lineal entre las variables, la pregunta
que surge es ¿Cómo de grande es la relación entre X e Y y cómo cuantificarla? El coeficiente de
correlación lineal es un valor que permite estudiar el grado de dependencia lineal existente entre X e
Y. Viene definido por:
1
Pn
Cov(X, Y ) (xi − x̄) (yi − ȳ)
r= = q P i=1 n
Sx Sy 1 n 2 1 Pn 2
n i=1 (xi − x̄) n i=1 (yi − ȳ)
11 DISTRIBUCIONES BIDIMENSIONALES 113

Una propiedad importante del coeficiente de correlación es que no depende de cambios de origen y
escala, y su valor siempre está comprendido entre -1 y 1 (−1 ≤ r ≤ 1).
De modo que valores de r cercanos a 1 indican una dependencia lineal y positiva entre las dos vari-
ables, y valores de r cercanos a -1 indican dependencia lineal negativa. Cuando el valor de r está
cercano a cero, no existe dependencia lineal entre X e Y. Esto último puede ser, bien porque X e Y
son variables independientes, o bien porque la dependencia existente entre ambas variables es de otro
tipo diferente al lineal.

11.3. Modelos de regresión lineal: Línea de tendencia


En este tipo de regresión se desea caracterizar el efecto lineal de una única variable explicativa sobre
la variable respuesta. Los pasos para efectuar un análisis son los siguientes:
1. Representación gráfica de datos

2. Planteamiento del modelo

3. Estimación de la ecuación de predicción

4. Examen de la adecuación del modelo lineal


El modelo de regresión lineal simple tiene un solo regresor X (variable independiente) que tiene una
relación con una respuesta Y (variable dependiente), donde la relación es una línea recta. Este modelo
de regresión lineal poblacional es:

Y = β0 + β1 X + 
Donde la ordenada al origen β0 y la pendiente β1 son constantes desconocidas, y  es una componente
aleatorio del error. Se supone que los errores tienen promedio cero y varianza constante desconocida.
Además se suele suponer que los errores no están correlacionados. Esto quiere decir que el valor de
un error no depende del valor de cualquier otro error.

11.4. Estimación de los parámetros por mínimos cuadrados


La idea de la recta de regresión es sencilla: intentamos encontrar la recta que mejor represente a la
nube de puntos, en el sentido de minimizar la suma de los cuadrados de las distancias verticales de
los diferentes punto de la nube a la recta.
Definición. La recta de regresión de Y sobre X es la recta y = a + bx, donde a y b son los estimadores
mínimos cuadráticos de β0 y β1 , respectivamente. El criterio de mínimos cuadrados es:
n
X n
X
mı́n S(β0 , β1 ) = mı́n 2i = mı́n (yi − β0 − β1 xi )2
β0 ,β1 β0 ,β1
i=1 i=1

Derivando con respecto a β0 y β1 , e igualando a cero, se obtienen las expresiones para a y b, esto es:

Cov(x, y) Cov(x, y)
a = ȳ − x̄ b=
Sx Sx2
Por tanto, la recta de regresión de Y sobre X es:
11 DISTRIBUCIONES BIDIMENSIONALES 114

Cov(x, y) Cov(x, y)
ŷ = a + bx = ȳ − 2
x̄ + x
Sx Sx2
La diferencia entre el valor observado yi y el valor ajustado correspondiente ŷi se llama residual,
matemáticamente el i-ésimo residual es: ei = yi − ŷi = yi − (a + bxi ), i = 1, 2, · · · , n, ei tiene
un papel importante para investigar la adecuación del modelo de regresión ajustado, ya que debe
cumplir los supuestos de los errores del modelo.
SCReg SCRes
Coeficiente de determinación (r2 ). La cantidad r2 = SCT
= 1− SCT
. Se llama coeficiente de
determinación, donde:
n
X n
X n
X
SCRes = e2i = (yi − ŷi )2 ; SCT = (yi − ȳ)2
i=1 i=1 i=1
2
r : se interpreta como la proporción de la variación explicada por la variable independiente x, toma
valores entre cero y 1.

Por otra parte, la suma de cuadrados de regresión está dada por:


n
X
SCReg = (ŷi − ȳ)2
i=1

y se verifica que:
n
X n
X n
X
2 2
SCT = (yi − ȳ) = SCReg + SCRes = (ŷi − ȳ) + (yi − ŷi )2
i=1 i=1 i=1

Ejemplo. Se tienen las puntuaciones por acceso a un servicio médico (X) y el grado de salud (Y ) de
15 personas. Se supone que el grado de salud depende del acceso al servicio médico. Los datos se
presentan en la siguiente tabla:

Puntuación Puntuación Puntuación Puntuación Puntuación Puntuación


por acceso por salud por acceso por salud por acceso por salud
3 2 7 5 2 2
6 6 8 7 4 3
13 9 13 10 5 4
1 1 10 8 11 9
4 5 3 4 9 8

Realizar un diagrama de dispersión, a fin de observar la relación entre las variables X, Y .


Es evidente la relación lineal entre el grado de salud y el acceso al servicio médico. Para medir el
grado de relación lineal entre X e Y , se obtiene el coeficiente de correlación:

152.2
r=p = 0.964
(215.6)(115.73)
11 DISTRIBUCIONES BIDIMENSIONALES 115

Este valor se interpreta como, el 96.4 % de los datos están correlacionados linealmente y de manera
positiva. Ahora, se ajustar el modelo de regresión lineal (modelo de predicción), el cual está dado
por:

ŷ = a + bx = 0.8744 + 0.7059x
A partir de este modelo se obtienen las puntuaciones de salud previstas, ŷ, y con ello las siguientes
medidas:

1. Suma de cuadrados de regresión


n
X
SCReg = (ŷi − ȳ)2 = 107.4322
i=1

2. Suma de cuadrados residuales


n
X n
X
SCRes = e2i = (yi − ŷi )2 = 8.2898
i=1 i=1

3. Utilizando estos dos resultados se tiene que:


n
X
SCT = (yi − ȳ)2 = 107.4322 + 8.2898 = 115.772
i=1

Ahora, dividiendo por n − 2 la suma de cuadrados residuales y luego obtener la raíz cuadrada, se
tiene: sP sP
n n
r r
2 2
SCRes e
i=1 i i=1 (yi − ŷi ) 8.2898
= = = = 0.7985
n−2 n−2 n−2 15 − 2
este valor se interpreta como la medida del error total en la predicción de las puntuaciones de un
grupo de n sujetos, ya que este valor es pequeño, es decir, 0.7985, el modelo es aceptable para pre-
decir. Sin embargo, la medida que se utiliza para indicar la bondad del modelo es el coeficiente de
determinación, esto es:
11 DISTRIBUCIONES BIDIMENSIONALES 116

SCReg SCRes 8.2898


r2 = =1− =1− = 0.928
SCT SCT 115.772
Esto significa que aproximadamente el 93 % de la variación de las puntuaciones de salud estuvo
relacionada con las puntuaciones de acceso a servicios médicos del individuo. Por otra parte, también
significa que aproximadamente el 7 % de esta variación no se explica por el acceso a servicios
médicos y, por consiguiente, debe atribuirse a otros factores desconocidos.
12 PROBLEMAS PROPUESTOS 117

12. Problemas propuestos


12.1. Introducción a la estadística
12.1.1. Guía de Trabajo No. 1
1. El responsable del curso, deberá recortar o fotocopiar de periódicos, revistas o libros algunos
artículos estadísticos (con datos) que traten de preferencia problemas de nuestro entorno o re-
alidad. Los podrás reconocer por la presencia de gráficos de números, como promedios, por-
centajes, etcétera.

2. El responsable del curso, organizará a los alumnos en grupos de 2 o 3 integrantes.

3. El responsable del curso, distribuirá aleatoriamente (rifará) los artículos o temas entre los gru-
pos.

4. Cada grupo discutirá y analizará el artículo o tema que eligió, y contestará por escrito las sigu-
ientes preguntas:

a) ¿Cuál es el tema o problema que se estudia en el artículo?


b) ¿Cuáles son los individuos u objetos sobre los que se realiza el estudio o investigación?
c) ¿Identifique qué características comunes se estudian en los individuos u objetos?
d) ¿Cómo cree que han sido obtenidos o generados los datos que presenta el artículo?
e) ¿Cómo son presentados los datos o información?
f) ¿Considerando la información proporcionada en el artículo, qué conclusiones se plantean
sobre el problema o tema tratado?
g) ¿Qué crítica puede hacer al artículo analizado? Por ejemplo:
I) qué puede decir de la(s) característíca(s) que se estudia(n), de la población la muestra.
II ) qué puede decir del método de recolección de los datos.
III ) si el artículo contiene tablas con datos, estas tablas contienen toda la información
necesaria para su lectura e interpretación.
IV ) si el artículo contiene gráficos con datos, hay que analizar si las gráficas son en-
gañosas ya que algunas veces se toman dos escalas diferentes para graficar el fenó-
meno, una para el eje horizontal y otra para el eje vertical, y esto puede llevar a
inferencias falsas.
V) son válidas las conclusiones planteadas?

NOTA: El tiempo estimado para realizar este trabajo será de 40 minutos.

5. Cada grupo tendrá 5 o 7 minutos para exponer el trabajo realizado.


12 PROBLEMAS PROPUESTOS 118

12.1.2. Guía de Trabajo No. 2


1. De los siguientes enunciados ¿cuál probablemente usa la estadística descriptiva, y cuál la es-
tadística inferencial?

a) Un médico general estudia la relación entre el consumo de cigarrillo y las enfermedades


del corazón.
b) Un economista registra el crecimiento de la población en un área determinada.
c) Se desea establecer el promedio de bateo de un equipo determinado.
d) Un profesor de expresión oral emplea diferentes métodos con cada uno de sus 2 cursos.
Al final del curso compara las calificaciones con el fin de establecer cual método es más
efectivo.

2. Conteste V (Verdadero) ó F (Falso)

a) La estadística descriptiva es el estudio de una muestra que permite hacer proyecciones o


estimaciones acerca de la población de la cual procede.
b) Un parámetro es una medida calculada de alguna característica de una población.
c) Abrir una caja de manzanas y contar las que están en mal estado es un ejemplo de dato
numérico continuo.
d) En una muestra aleatoria simple todos los elementos tienen la misma posibilidad de ser
seleccionados.

3. Para cada una de las siguientes situaciones responda las preguntas que se plantean:

En una escuela nocturna se selecciona aleatoriamente una muestra de 54 estudiantes de


bachillerato, y se obtiene que el porcentaje de estudiantes que trabajan es 30 %.
Según una encuesta realizada a 500 adultos mayores de la ciudad de San Salvador, reveló
que en promedio realizan 6 visitas anuales al consultorio. En vista de los resultados el
ministerio de salud deberá aumentar los recursos en un 10 %.

¿Cuál es la característica que se estudia, común a la población?.


¿Cuál es la unidad de observación y la población objetivo?.
¿Cuál es la unidad de muestreo la población muestreada?.
¿Cuál es la unidad de observación y la unidad de muestreo?.
¿Cómo cree que se mide la cacterística en las unidades de la muestra?, es decir, ¿cómo se
obtuvierón los datos?.
¿cuál es el valor calculado para el parámetro y para el estadístico de la característica que
se investiga en la población?.
12 PROBLEMAS PROPUESTOS 119

4. El encargado del curso elaborará una ficha pequeña (de papel o cartulina) en la cual recogerá
los siguientes datos para cada uno de los maestros de la clase:

Sexo,
Estado civil,
Número de hermanos?.

a) El responsable del curso escribirá en la pizarra una tabla de recuento para cada una de
estas características.
b) El responsable del curso extraerá aleatoriamente una de las fichas. Previamente se de-
terminará si la ficha a extraer al azar, ¿es más probable que sea de un maestro de sexo
femenino o masculino?, ¿es más probable que sea de un maestro de soltero o casado?

5. En una caja (población) hay 3 cubos (elementos) que pesan 1, 3 y 4 kg. respectivamente, se le
pide:

a) Calcular el peso medio en esa población.


b) Suponiendo que se extraen todas las posibles muestras de 2 cubos, uno a uno con devolu-
ción (con reemplazo), realice lo siguiente:
escribir todas las muestras posibles de seleccionar,
calcular el peso medio de cada muestra,
¿es alta la posibilidad de obtener el peso medio de la población, en las muestras?.
c) Repite el mismo ejercicio ahora sin devolución (sin reemplazo). Compara los resultados.

6. Defina algunos valores que pueden tomar las siguientes variables y luego clasifíquelas en: con-
tinua, discreta, nominal, ordinal. Algunas variables pueden pertenecer a más de un tipo.

a) número de libros en un estante de una biblioteca.


b) lugar en que viven los alumnos del curso.
c) color de los ojos de tus compañeros de clase.
d) monto de pago por consumo de energía eléctrica.
e) nivel de educación.
f) sumas posibles de los números obtenidos al lanzar dos dados.
g) peso del contenido de una caja de cereal.
h) AFP a que pertenece un individuo.
i) número de litros de agua contenidos en un depósito.
j) período de duración de un automóvil.
k) número de maestros de tu Instituto.
l) nivel de atención en el Banco.
m) clasificación de la edad en: niño, joven, adulto y adulto mayor
12 PROBLEMAS PROPUESTOS 120

7. ¿En qué nivel de medición se puede expresar cada una de estas variables?. Razone su respuesta:

a) El número de horas por semana que estudia un alumno.


b) Los estudiantes califican a su profesor de estadística en una escala de: horrible, no tan
malo, bueno, magnifico, dios griego.
c) Los estudiantes de una universidad se clasifican por especialidades, como ingeniería,
matemática, economía, etc.
d) Los estudiantes se clasifican por especialidades con ayuda de los valores 1, 2, 3, 4 y 5.
e) Los periódicos vendidos cada domingo.
f) Agrupar mediciones de líquidos en pinta, cuarto y galón.
g) Grupos de estudiantes según su edad.

12.1.3. Tarea No. 1


1. Se desea conocer el número de pacientes a quienes se les tomó placas de rayos X en el Hospital
Rosales, en el primer trimestre del año de 2010.
Para recabar esta información hay varias formas que son: (12 %)

a) Preguntarle al médico de guardia.


b) Recurrir al expediente de los enfermos.
c) Recurrir al informe de los médicos.
d) Recurrir al informe del operador de la máquina de rayos X.

¿a cuál de los anteriores recurrirías?, ¿por qué?

2. ¿Qué tipo de instrumento de recolección de datos aplicarías en las siguientes situaciones?, ¿por
qué?. (18 %)

a) Para registrar el comportamiento de niños en un parque público.


b) Para supervisar la correcta ejecución de una obra en tu comunidad.
c) Para conocer los hábitos alimenticios de tus familiares y amigos en una reunión.
d) Para contratar nuevos personal para tu empresa.
e) Para solucionar un problema entre el personal que labora en una organización.
f) Para conocer la opinión del público sobre los productos que produces.

3. Defina tres o más características (variables de diferente tipo) que le interese estudiar en su
comunidad o lugar donde vive, por ejemplo: pago de energía eléctrica, número de miembros del
grupo familiar, ingreso familiar mensual, nivel de estudio de los miembros del grupo familiar.
Realice lo siguiente: (70 %)

a) Defina operacionalmente las variables a estudiar y clasifiquelas.


b) Investigue qué métodos estadísticos de análisis puede aplicar a cada una de las variables
en estudio.
12 PROBLEMAS PROPUESTOS 121

c) Formule algunos supuestos sobre las características o variables definidas.


d) Defina la población a estudiar, las unidades muestrales, y el marco muestral.
e) Seleccione una muestra aleatoria de 15 o 20 personas.
f) Elabore un breve cuestionario para medir las características en cada elemento de la mues-
tra.
g) Realice el proceso de recolección de datos (medición de las variables).

12.2. Organización y presentación de datos


Ejercicio 1. Consultar el mapa para identificar los países con mayor densidad de habitantes en los
países mostrados. Los puntos representan a los países relativamente pequeños.

Figura 28: Densidad de población por km2

Ejercicio 2. Consultar el mapa para identificar los países con mayor y menor PIB per cápita en la
región mostrada.

Figura 29: PIB nominal per cápita


12 PROBLEMAS PROPUESTOS 122

Ejercicio 3. Basado en el siguiente mapa de temperaturas promedio de Marzo, identificar las áreas
más calientes y frescas del país.

Ejercicio 4. Los programas más populares de televisión son CSI, Friends, ER y Raymond. Los datos
indican la preferencia de una muestra de 50 personas.

CSI Friends CSI CSI CSI CSI CSI Raymond ER ER Friends CSI ER Friends CSI ER ER Friends
CSI Raymond CSI Friends CSI CSI Friends ER ER ER Friends Raymond CSI Friends Friends CSI
Raymond Friends Friends Raymond Friends CSI Raymond Friends ER Friends CSI CSI ER CSI
Friends ER
a. ¿Son los datos cuantitativos o cualitativos?
b. Proveer la tabla de distribución de frecuencias, frecuencias relativas, porcentajes.
c. Añadir las distribuciones acumuladas de b)
d. Construir una gráfica de barras y una gráfica de pastel.

Ejercicio 5. Considere los siguientes datos

14 21 23 21 16 19 22 25 16 16 24 24 25 19 16 19 18 19 21 12 16 17 18 23 25 20 23 16 20 19 24 26
15 22 24 20 22 24 22 20
a. Desarrolle una table de distribución de frecuencias absolutas y relativas usando las clases 12-14,
15-17, 18-20, 21-23 y 24-26. Además añadir frecuencias absolutas y relativas acumuladas.
b. ¿Es el número de clases indicado en a) consistente con la fórmula de Sturges?
Determine las frecuencias absolutas, frecuencias relativas, frecuencias absolutas acumuladas, frecuen-
cias relativas acumuladas, rango, densidades para los siguientes conjuntos de datos.

12.3. Resumen de datos


Ejercicio 1. Según el ministerio de economía las exportaciones en millones de dólares entre el 1995
y 2009 fueron
1,652.00; 1,788.40; 2,426.10; 2,441.10; 2,510.00; 2,942.00; 2,864.00; 2,995.00; 3,128.00; 3,305.00;
3,418.20; 3,705.60; 3,984.10; 4,549.10; 3,797.30
Indicador Total: Exportaciones
Definición: Registro de las ventas totales de bienes y servicios del país hacia el Extranjero.
12 PROBLEMAS PROPUESTOS 123

Ejercicio 2. Según el ministerio de economía las importaciones en millones de dólares entre el 1995
y 2009 fueron
3,329.10; 3,221.80; 3,744.40; 3,968.20; 4,094.70; 4,947.40; 5,026.60; 5,190.20; 5,763.00; 6,330.00;
6,689.60; 7,662.70; 8,711.70; 9,754.40; 7,254.70
Indicador Total:Importaciones
Definición:Todos los bienes y servicios introducidos al país mediante el comercio internacional; todo
lo que se compra del extranjero.

Ejercicio 3. Según el ministerio de economía y el sistema de indicadores económicos y sociales, la


balanza de pagos en millones de dólares entre el 1995 y 2009 fueron
-261.5; -169 -97.7; -90.7; -239.3; -430.5; -150.3; -405.1; -702.2; -627.7; -568.8; -670.9; -1,221.30;
-1,681.90; -373.5
Indicador Total: Balanza de Pagos (Cuenta Corriente)
Definición: Saldo de las transacciones internacionales de bienes, servicios y transferencias(entradas
menos salidas).
12 PROBLEMAS PROPUESTOS 124

Ejercicio 4. La remesas por mes entre 1991 y 1993 fueron (Fuente: BANCO CENTRAL DE RESERVA
DE EL SALVADOR (BCR)):

MES\AÑO 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001
Ene 63.1 65 57.7 69.4 82.1 90.6 89.2 98.9 106.7 132.1 147.6
Feb 58.4 66 65.3 72.9 74.4 74 77.8 86.6 97.2 125.9 147.2
Mar 67.6 75.6 81 81.1 86.2 89.6 84.2 110.2 115.5 140.7 149.6
Abr 77.8 74.5 76.4 79 76.2 84.6 103.3 113.1 117.9 121.7 139.7
May 77.4 76.3 75.6 88.2 98.1 100.9 100.9 112.5 119.4 153.4 179.1
Jun 67.8 75.6 71.6 77.1 91.6 86.1 106.8 111.3 108.6 143.6 157.8
Jul 70 77.7 76 75.1 90.6 105.3 117.1 116.2 119.1 152 162.9
Ago 53.5 62 68.7 86.4 93.1 96.3 98.2 114.7 106.5 156.2 166.8
Sept 53.1 60.3 62.9 80.4 85 88.2 105.8 114.2 106.4 142.7 146.7
Oct 64 65.5 66.6 73.5 89.1 94 106.9 114.6 113.9 159.8 169.6
Nov 64.3 70.5 74.1 80.1 89.1 80 88.7 115.1 121.5 155.6 158.7
Dic 73.1 89.3 88.2 99.3 105.9 96.9 120.6 130.9 141.1 167 184.8
MES\AÑO 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011
Ene 143.4 146 171.3 189.7 237.7 270.9 270.5 248.6 228.1 250.7
Feb 146.2 149.1 170.3 199.3 249.8 269 295.9 270.9 263.2 279.6
Mar 157.8 170.1 218.4 250.4 309.4 320.2 338.4 309.3 337 335.5
Abr 174.2 177.4 213.8 245.5 274 310.3 334.4 281.8 296.3 309.2
May 180.3 186.1 220.5 272.2 330.8 338 343.6 296.3 319.2 338.6
Jun 167.9 178.1 212.6 250.8 289.8 310 332.9 286.9 294.2 299.9
Jul 162.2 175.8 210.1 240.9 284.9 324.6 328.8 275.4 286.8
Ago 160.1 172.8 224.4 272.2 293.7 312.2 299.5 285.2 287
Sept 150.5 180.4 213.5 245.2 271.4 281.6 303.1 269.4 260.5
Oct 156.5 181.1 215.9 261.5 301 323.8 303 278.1 269.8
Nov 160.9 174.8 230.6 266.1 279.5 283.5 262.7 259 262.7
Dic 175.2 213.6 246.2 323.3 348.9 351.1 329.3 326.2 326.1
Tabla 9: Remesas en millones de dólares

Ejercicio 5. Para los 5 ejercicios anteriores, elabore un histograma utilizando los archivos de datos
y las tablas de frecuencia.

Ejercicio 6. Determine la media, moda , mediana , cuartiles , deciles (1, 3, 5 , 7 , 9) en los archivos
de datos de los 5 ejercicios anteriores excluyendo al último

Ejercicio 7. Determine la media, moda , mediana , cuartiles , deciles (2 , 4 , 6) y , los percentiles (15,
25 , 90 , 95 , 98)en los archivos de datos de los 5 ejercicios anteriores excluyendo el último.
12 PROBLEMAS PROPUESTOS 125

12.4. Probabilidades
12.4.1. Conceptos básicos
Ejercicio 1. En una investigación con familias, se definen los siguientes sucesos:
H = La familia tiene hijos
R = La familia vive en sectores rurales.
M = El jefe de familia es mujer.
Escriba en forma algebraica los siguientes sucesos:

a) La familia no vive en sectores rurales.

b) La familia tiene hijos y vive en sectores rurales.

c) El jefe de familia es mujer, pero no tiene hijos.

d) La familia vive en sectores rurales o no tiene hijos.

e) La familia no tiene hijos y vive en sectores rurales.

f) El jefe de familia es mujer, dado que vive en sectores rurales.

Ejercicio 2. El almacén X desea realizar la selección de tres televisores de un pedido y desea observar
si son o no defectuosos. Lista los posibles resultados que obtendrá el gerente del almacén.

Ejercicio 3. En el experimento que consiste en extraer una carta de una baraja española (40 cartas)
consideremos el suceso A =”Salir figura”. Determínese el espacio muestral.

Ejercicio 4. Consideremos el experimento aleatorio que consiste en lanzar dos dados( no trucados)
y anotar la suma de los puntos de las caras superiores.

a) ¿Cuál es el espacio muestral?

b) Listar los puntos muéstrales en las cuales la suma de igual a 8.

c) Listar los puntos muéstrales en las cuales la suma menor o igual a 4.

d) Listar los puntos muéstrales en las cuales la suma mayor que 12.

e) Escriba la unión de estos dos sucesos, la intersección y la diferencia del 3º y el 1º

Ejercicio 5. Un estudiante responde al azar a tres preguntas de verdadero o falso. Escriba el espacio
muestral de este experimento aleatorio.

Ejercicio 6. Otro estudiante responde al azar a 6 preguntas del mismo tipo anterior.

a) Escriba el espacio muestral.

b) Escriba el suceso responder “falso” a una sola pregunta

c) Escriba el suceso responder “verdadero” al menos a 3 preguntas


12 PROBLEMAS PROPUESTOS 126

d) Escriba la unión de estos dos sucesos, la intersección y la diferencia del 2º y el 1º

Ejercicio 7. Un experimento consiste en lanzar un dado y después lanzar una moneda (se sabe que
tiene dos lados y le llamaremos cara y cruz) una vez, sí el número en el dado es par. Si el número del
dado es impar, la moneda se lanza dos veces.

a) Obtener el espacio muestral

b) Liste los elementos que corresponden al evento A de que el dado salga un numero menor que 3

c) Liste los elementos que corresponden al evento B de que ocurran dos cruces

d) Liste los elementos que corresponde al evento AC y B C , e interprete ambos eventos

e) Liste los elementos que corresponden al evento AC ∩ B, e intérprete este evento

f) Liste los elementos que corresponden al evento A ∪ B

Ejercicio 8. Sean A, B y C eventos. Hallar una expresión y dibuje el diagrama de Venn para los
sucesos siguientes:

a) Que ocurran A y B pero no C

b) Solo ocurra A

c) A o B , pero no los dos

d) Ninguno de los tres sucesos A, B y C

Ejercicio 9. Sean A, B y C eventos relativos al espacio muestral S. Con el uso de los diagramas de
Venn, sombrear las regiones que representan los siguientes eventos

a) (A ∩ B)C

b) (A ∪ B)C

c) (A ∩ B) ∪ C

Ejercicio 10. En una asignatura se ha decidido aprobar a aquellos que superen uno de los dos
parciales. Con este criterio aprobó el 80 %, sabiendo que el primer parcial lo superó el 60 % y el
segundo el 50 %, ¿Cuál hubiese sido el porcentaje de aprobados, si se hubiese exigido superar ambos
parciales?

Ejercicio 11. Se lanza un dado 6 veces. ¿Cuál es la probabilidad de que salga algún 1 en los 6
lanzamientos?

Ejercicio 12. ¿Cuál es la probabilidad de torpedear un barco, si sólo se pueden lanzar tres torpedos
y la probabilidad de impacto de cada uno se estima en un 30 %?

Ejercicio 13. ¿Cuál es la probabilidad de sacar dos bolas negras de una urna que contiene 15 bolas
blancas y 12 negras, sin reintegrar la bola extraída?
12 PROBLEMAS PROPUESTOS 127

Ejercicio 14. Una urna contiene 12 bolas blancas y 8 negras. Si se sacan dos bolas al azar. ¿Cuál es
la probabilidad de que sean del mismo color?

Ejercicio 15. En un sobre hay 20 papeletas, ocho llevan dibujado un carro las restantes son blancas.
Hallar la probabilidad de extraer al menos una papeleta con el dibujo de un carro:

a) Si se saca una papeleta

b) Si se extraen dos papeletas

c) Si se extraen tres papeletas

Ejercicio 16. Un grupo de 10 personas se sientan en un banco. ¿Cuál es la probabilidad de que dos
personas fijadas de antemano se sienten juntas?

Ejercicio 17. A un congreso asisten 80 congresistas. De ellos 70 hablan inglés y 50 francés. Se eligen
dos congresistas al azar y se desea saber:

a) ¿Cuál la probabilidad de que se entiendan sin intérprete?

b) ¿Cuál es la probabilidad de que se entiendan sólo en francés?

c) ¿Cuál es la probabilidad de que se entiendan en un solo idioma?

d) Cuál es la probabilidad de que se entiendan en los dos idiomas?

Ejercicio 18. Si de un mazo debidamente barajado de 52 naipes se extrae una carta, ¿cuál es la
Probabilidad de los siguientes eventos?

a) A = {un rey rojo}

b) B = {3, 4, 5 o 6}

c) C = {una carta negra}

d) D = {un as rojo o una reina negra}

Ejercicio 19. Sean 2 sucesos A y B de los que se sabe que la probabilidad de B es el doble que la
de A; que la probabilidad de su unión es doble que la de su intersección; y que la probabilidad de su
intersección es de 0.1. Se pide

a) Calcular la probabilidad de A

b) ¿Qué suceso es más probable que ocurra sabiendo que ya ha ocurrido el otro?

Ejercicio 20. Una rata es colocada en una caja con tres pulsadores de colores rojo, azul y blanco. Si
pulsa dos veces las palancas al azar:

a) ¿Cuál es la probabilidad de que las dos veces pulse la roja?

b) ¿Cuál es la probabilidad de que pulse la primera vez o la segunda o ambas la tecla azul?
12 PROBLEMAS PROPUESTOS 128

Ejercicio 21. En un grupo de 160 estudiantes graduados de ingeniería, 92 se inscriben en un curso


avanzado de estadística; 63 en un curso de investigación de operaciones; y 40 en ambos. Determine
la probabilidad de que un estudiante no se inscribiera en ningún curso.
Ejercicio 22. Su familia decide irse de vacaciones de verano en su “pick-up"4x4, todo terreno y sea
F el evento que sufrirán fallas mecánicas, E es el evento de que reciban una esquela de infracción de
tránsito y J es el evento de que llegarán a un lugar adecuado para acampar. Refiérase al diagrama
de Venn de la figura de abajo, y exprese con palabras los eventos representados por las regiones
siguientes:
a) región 5;
b) región 3;
c) regiones 1 y 2 juntas;
d) regiones 4 y 7 juntas;
e) regiones 3, 6, 7 y 8 juntas.
Ejercicio 23. Retomando el ejercicio anterior y al diagrama de Venn liste los números de las regiones
que representan los siguientes eventos:
a) La familia no experimentará fallas mecánicas y no cometerá infracciones de tránsito, pero encon-
trará el lugar adecuado para acampar.
b) La familia experimentará tanto fallas mecánicas como problemas para localizar un lugar
disponible para acampar, pero no recibirá multa por infracción de tránsito.
c) La familia experimentará fallas mecánicas o encontrará un lugar para acampar, pero no recibirá
una multa por cometer una infracción de tránsito.
d) La familia no llegará a un lugar adecuado para acampar.
Para los ejercicios 22 y 23 utilice los gráficos del diagrama de Venn siguiente:

Ejercicio 24. La probabilidad de que un hombre viva 20 años es 1/4 y de que la mujer viva 20 años
es 1/3. Se pide calcular la probabilidad:
12 PROBLEMAS PROPUESTOS 129

a) De que ambos vivan 20 años.

b) De que el hombre viva 20 años y su mujer no.

c) De que ambos mueran antes de los 20 años.

12.4.2. Probabilidades condicionales y teorema de bayes


Ejercicio 1. Dados P (A) = 50 %, P (B) = 30 % y P (A ∩ B) = 15 %, verifique que:
a) P (A\B) = P (A)

b) P (A\B C ) = P (A)

c) P (B\A) = P (B)

d) P (B\AC ) = P (B)
Ejercicio 2. Se lanzan dos dados normales y se anotan los pares x, y.
Sean A = {(x, y); x + y = 10} y B = {(x, y) : x > y}
a) Describa el espacio muestral

b) calcule P (A), P (B)

c) P (A ∩ B), P (A ∪ B)

d) P (A\B), P (B\A)
Ejercicio 3. Si la probabilidad de ir a la Universidad en diciembre es de 2/7 y que me vaya de
vaciones una vez terminado tal mes es 1/5.¿Cuál esla probabilidad de no ir a la universidad e irme
de vacaciones en enero?. (Sugerencia: Suponga para este caso que los eventos son independientes)
Ejercicio 4. La probabilidad de que un hombre casado vea cierto programa de televisión es 0.4 y la
probabilidad de que una mujer casada vea el programa es 0, 5. La probabilidad de que un hombre
vea el programa, dado que su esposa lo hace, es 0, 7. Encuentre la probabilidad de que:
a) Un matrimonio vea el programa

b) Una esposa vea el programa dado que su esposo lo ve

c) Al menos una persona de un matrimonio vea el programa


Ejercicio 5. Suponga que se estudia si el color del pelo está asociado al color de los ojos. Se
analizaron 300 personas seleccionadas aleatoriamente con los siguientes resultados:

a) Si se selecciona una de estas personas al azar, encuentre la probabilidad de que la persona tenga
el pelo negro, dado que tiene los ojos de color café.
12 PROBLEMAS PROPUESTOS 130

b) ¿Son los eventos tener el pelo rubio y tener los ojos azules independientes? Justifique su respuesta.

c) ¿Cuántas personas rubias de ojos azules esperaría encontrar en este grupo si los eventos fueran
independientes? Justifique su respuesta.

Ejercicio 6. Supóngase que en una oficina hay 100 máquinas calculadoras. Algunas de esas
máquinas son eléctricas (E), mientras que otras son manuales (M ). Además, algunas son nuevas
(N ) mientras las otras son usadas (U ). La tabla siguiente nos muestra el número de máquinas de
cada categoría.

Usted entra a la oficina, escoge una máquina al azar y descubre que es nueva. ¿Cuál es la probabili-
dad de que sea elćtrica?

Ejercicio 7. Se tiene tres urnas de igual aspecto. En la primera hay 3 bolas blancas y 4 negras; en la
segunda hay 5 negras y en la tercera hay 2 blancas y 3 negras. Se desea saber:

a) Si se extrae una bola de una urna elegida al azar, ¿Cuál es la probabilidad de que la bola extraída
sea negra?.

b) Se ha extraído una bola negra de una de las urnas. ¿Cuál es la probabilidad de que haya sido
extraída de la segunda urna?

Ejercicio 8. En un hospital especializado en enfermedades de tórax ingresan un 50 % de enfermos de


bronquitis, un 30 % de neumonía y un 20 % con gripe. La probabilidad de curación completa en cada
una de dichas enfermedades es, respectivamente, 0.7, 0.8 y 0.9. Un enfermo internado en el hospital
ha sido dado de alta completamente curado. Hallar la probabilidad de que el enfermo dado de alta
hubiera ingresado con bronquitis.

Ejercicio 9. Hay una epidemia de cólera. Un síntoma muy importante es la diarrea, pero ese síntoma
también se presenta en personas con intoxicación, y, aún, en personas que no tienen nada serio. La
probabilidad de tener diarrea teniendo cólera, intoxicación y no teniendo nada serio es de 0.99; 0.5
y 0.004 respectivamente. Por otra parte, se sabe que el 2 % de la población tiene cólera, el 0.5 %
intoxicación y el resto 97.5 %, nada serio. Se desea saber:

a) Elegido un individuo de la población ¿Qué probabilidad hay de que tenga diarrea?

b) Se sabe que determinado individuo tiene diarrea ¿Cuál es la probabilidad de tenga cólera?

Ejercicio 10. La probabilidad de que un artículo provenga de una fábrica A1 es 0.7, y la probabilidad
de que provenga de otra A2 es 0.3. Se sabe que la fábrica A1 produce un 4 por mil de artículos
defectuosos y la A2 un 8 por mil.

a) Se observa un artículo y se ve que está defectuoso. ¿Cuál es la probabilidad de que provenga de


la fábrica A2 ?
12 PROBLEMAS PROPUESTOS 131

b) Se pide un artículo a una de las dos fábricas, elegida al azar. ¿Cuál es la probabilidad de que esté
defectuoso?

c) Se piden 5 artículos a la fábrica A1 ¿Cuál es la probabilidad de que haya alguno defectuoso?

Ejercicio 11. En una población animal hay epidemia. El 10 % de los machos y el 18 % de las hembras
están enfermos. Se sabe además que hay doble número de hembras que de machos y se pide:

a) Elegido al azar un individuo de esa población ¿Cuál es la probabilidad de que esté enfermo?

b) Un individuo de esa población se sabe que está enfermo ¿Qué probabilidad hay de que el citado
individuo sea macho?

Ejercicio 12. En una clase mixta hay 30 alumnas, 15 estudiantes que repiten curso, de los que 10 son
alumnos, y hay 15 alumnos que no repiten curso. Se pide:

a) ¿Cuántos estudiantes hay en la clase?

b) Elegido al azar un estudiante ¿Cuál es la probabilidad de que sea alumno?

c) Elegido al azar un estudiante ¿Cuál es la probabilidad de que sea alumna y repita el curso?

d) Elegidos al azar dos estudiantes ¿Cuál es la probabilidad de que ninguno repita curso?

Ejercicio 13. A traves de ciertas investigaciones se sabe que un suero de verdad aplicado a un
“sospechoso.es 90 % confiable cuando la persona es culpable, y 99 % confiable si la persona es in-
ocente. Si se selecciona un individuo de un grupo de sospechosos, de los cuales se sabe que solo el 5 %
de ellos ha cometido un crimen, se le aplica el suero de verdad el cual implica que es culpable.¿Cuál
es la probabilidad de que el individuo sea inocente?

Ejercicio 14. En un colegio hay dos grupos de 25 alumnos de quinto curso y dos grupos de 20
alumnos de sexto curso. El 50 % de los alumnos de quinto no tienen faltas de ortografía, porcentaje
que sube a 70 % en los alumnos de sexto. En un concurso de redacción entre alumnos de quinto y
sexto se elige una redacción al azar.

a) ¿Qué probabilidad hay de que sea de un alumno de quinto?

b) Si tiene faltas de ortografía, ¿Qué probabilidad hay de que sea de un alumno de quinto?

Ejercicio 15. En un sistema de alarma, la probabilidad de que esta funcione habiendo peligro es
0.95 y la de que funcione por error sin haber peligro es 0.03. Si la probabilidad de haber peligro es
0.1:

a) Calcular el porcentaje de veces que habiendo funcionado la alarma no haya peligro.

b) Hallar la probabilidad de que haya peligro y la alarma no funcione.

c) Calcular la probabilidad de que no habiendo funcionado la alarma haya peligro.

d) ¿Cuál es la probabilidad de que la alarma funcione?


12 PROBLEMAS PROPUESTOS 132

Ejercicio 16. El profesor Pérez olvida poner su despertador 3 de cada 10 dias. Además, ha compro-
bado que uno de cada 10 días en los que pone el despertador acaba no levándandose a tiempo de
dar su primera clase, mientras que 2 de cada 10 dias en los que olvida poner el despertador, llega a
tiempo a dar su primera clase.
a) Identifica y da nombre a los sucesos que aparecen en el enunciado.
b) ¿Cuál es la probabilidad de que el profesor Pérez llegue a tiempo a dar su primera clase?
c) Si un día no ha llegado a tiempo, ¿Qué probabilidad hay de que olvidase poner el despertador la
noche anterior?
Ejercicio 17. Un banco local revisa su política de tarjetas de crédito, con el objetivo de cancelar
algunas de ellas. En el pasado, el 5 % de los clientes con tarjeta ha pasado a ser moroso, esto es
ha dejado de pagar sin que el banco pudiera recuperar la deuda. Además, el banco ha comproba-
do que la probabilidad de que un cliente normal se atrase en un pago es de 0.2. Naturalmente, la
probabilidad de que un cliente moroso se atrase en un pago es 1.
a) Identifica y da nombre a los sucesos que aparecen en el enunciado.
b) Elegido un cliente al azar, ¿qué probabilidad hay de que el cliente se atrase en un pago mensual?
c) Si un cliente se atrasa en un pago mensual, calcular la probabilidad de que el cliente acabe
convirtiendose en moroso.
d) Al banco le gustaría cancelar la línea de crédito de un cliente si la probabilidad de que éste acabe
convirtiéndose en moroso es mayor de 0.25. De acuerdo con los resultados anteriores, ¿debe
cancelar una línea si un cliente se atrasa en un pago?¿Por qué?

12.4.3. Varios
Ejercicio 1. Enumere todos los subconjuntos de cuatro elementos del conjunto A =
{a, b, c, d, e, f, g, h}. ¿Cuál es la probabilidad que en estos aparezcan los elementos a y h.
Ejercicio 2. Considere el conjunto de los primeros 9 números naturales A = {1, 2, 3, . . . , 9} . ¿Cuán-
tos subconjuntos de A poseen seis elementos? ¿Cuál es la probabilidad que en estos subconjuntos
aparecen los dígitos 4 y 5?
Ejercicio 3. De un conjunto de 20 personas, diez de ellas son mujeres y los otras diez son hombres.
¿Cuál es la probabilidad de una comisión de 8 personas estén por lo menos por lo menos tres mujeres
y cuando menos dos hombres?
Ejercicio 4. Usando los dígitos 1, 2, 3, 4, 5, 6 ¿Cuántos números con cuatro dígitos distintos se
pueden formar? ¿Cuál es la probabilidad de que sean pares? ¿Cuál es la probabilidad que sean
impares? ¿Cuál es la probabilidad que aparezca el 3?
Ejercicio 5. ¿Cuántos enteros entre 1000 y 9999 inclusive tienen sus dígitos diferentes? ¿Cuáles la
probabilidad de que sean impares?
Ejercicio 6. Si se asume el orden natural en el conjunto {1, 2, 3, 4, 5}, ¿cuál es la probabilidad de
obtener permutaciones que dejan fijos en su posición exactamente a dos de los cinco números?
12 PROBLEMAS PROPUESTOS 133

Ejercicio 7. ¿Cuál es la probabilidad que en permutaciones de 1234 el 1 este en la primera posición,


el 2 no está en la segunda posición, el 3 no está en la tercera posición, y el 4 no está en la cuarta
posición?

Ejercicio 8. ¿Cuál es la probabilidad de obtener desórdenes en conjunto {1, 2, 3, 4, 5}?

Ejercicio 9. ¿Cuál es la probabilidad de formar equipos de baloncesto de 5 jugadores cada uno que
pueden hacerse en un club de 11 jugadores, con la condición de que los jugadores A, B y C no pueden
estar simultáneamente en el mismo equipo?

Ejercicio 10. Con las cifras del número 8,752,436 ¿cuántos números distintos de tres cifras se pueden
formar no repitiendo ninguna? ¿y repitiendo? ¿Cuál es la probabilidad de esos números sean mayores
que 500 (en ambos casos)?

Ejercicio 11. Con las cifras 1, 2, 3, 4 y 5 ¿Cuál es la probabilidad de formar números distintos de
cinco cifras y que el 3 ocupe siempre la cifra de las centenas?

Ejercicio 12. Se tienen los números 5874 y 12369. ¿Cuál es la probabilidad que puedan formarse
números que contengan dos cifras no repetidas del primero y tres cifras no repetidas del segundo? La
misma cuestión pudiendo repetirse las cifras. La misma cuestión no repitiendo las cifras del primero
pero sí las del segundo.

Ejercicio 13. Averiguar cuántas guardias de cinco personas se pueden programar con 14 soldados,
¿Cuál es la probabilidad que el más antiguo de ellos participe en todas?

Ejercicio 14. Cuántas secuencias de tres letras diferentes pueden ser formadas haciendo uso de las
letras a; b; c; d; e; f ¿cuál es la probabilidad que aparezcan la letra e, o la letra f, o ambas e y f?

Ejercicio 15. Se desea elegir una directiva, hay diez candidatos (cinco mujeres y cinco hombres) para
los cargos de presidente, vicepresidente, secretario, tesorero y vocal. ¿De cuántas formas pueden
elegirse los cargos? ¿Cuál es la probabilidad de que una mujer sea la presidenta? ¿Y la probabilidad
si el tesorero está definido que será Juan?

Ejercicio 16. Se tienen nueve puntos en un plano. Cuatro de ellos están alineados y los restantes están
dispuestos de forma que no hay nunca 3 alineados. ¿Cuál es la probabilidad de formar triángulos
con sus vértices sobre esos 9 puntos?

Ejercicio 17. Dado el conjunto de dígitos {1, 3, 6, 7, 9}, determine el número de maneras de formar
números de 4 cifras, ¿Cuál es la probabilidad que tales que sean múltiplos de 3?

Ejercicio 18. Se tiene 4 médicos y 3 enfermeras y se quiere hacer una comisión de 4


a) ¿Cuál es la probabilidad que hayan 2 enfermeras y dos médicos?
b) Al menos dos enfermeras
c) Por lo menos dos médicos
d) Ninguna enfermera
e) Ningún medico

Ejercicio 19. Se tiene M elementos en un conjunto y N en otro ¿Cuál es la probabilidad de tomar


exactamente dos de uno y dos en el otro? ¿Cuál es la probabilidad si M = N ?
12 PROBLEMAS PROPUESTOS 134

Ejercicio 20. En un juego de loto, se elige 6 números entre los números enteros del 1 al 49 a) ¿Cuál
es la probabilidad de elegir los 6 números ganadores? b) Una persona juega semanalmente durante
10 años, ¿Cuál es la probabilidad de ganar al menos una vez?

Ejercicio 21. Se consideran dos urnas U1 y U2 que contienen bolas, U1 contiene n bolas blancas y 3
bolas negras (n es un numero entero superior a 1) y U2 contiene dos bolas blancas y una bola negra.
Se extrae aleatoriamente una bola de U1 y se coloca en la U2 , luego se extrae una de U2 y se coloca
en U1 . El conjunto de estas operaciones constituye una prueba
Se considera un evento A: Después de la prueba, las urnas se encuentran cada una en su configu-
ración inicial;
3(n + 2)
a. Mostrar que la probabilidad P (A) es P (A) =
4(n + 3)
b. Se considera el evento B: Después de la prueba de la urna U2 , contiene solo bolas blancas. Veri-
3
fique que la probabilidad P (B) del evento B viene dado por P (A) = .
2(n + 3)
Problemas de probabilidad completa

Ejercicio 22. Una urna contiene dos bolillas en la cual se echa una bolilla blanca, después de lo
cual se extrae de la urna al azar una bolilla, hallar la probabilidad que la bolilla extraída resulte
blanca, si son igualmente probables todas las suposiciones posibles sobre la composición inicial de
las bolillas por color.

Ejercicio 23. Una urna contiene n bolillas, se echa una bolilla blanca después de lo cual se extrae
de la urna al azar una bolilla, demuestre que la probabilidad que la bolilla extraída resulte blanca, si
son igualmente probables todas las suposiciones posibles sobre la composición inicial de las bolillas
n+2
por color es P (B) = .
2(n + 1)
Ejercicio 24. Dos ajedrecistas de igual maestría juegan al ajedrez, ¿que es más probable ganar: dos
de cuatro partidas o tres de seis partidas (No se toman en las tablas)?

Geométricos

Ejercicio 25. Halla la probabilidad de que un punto elegido al azar en la figura esté situado en la
región sombreada.

Figura 30: Áreas variadas


12 PROBLEMAS PROPUESTOS 135

12.5. Distribuciones de probabilidad


12.5.1. Conceptos básicos
Ejercicio 1. Sea W una variable aleatoria que da el número de caras menos el de cruces en tres
lanzamientos de una moneda. Indique los elementos del espacio muestral S para los tres lanzamientos
de la moneda y asigne un valor de w de la variable W a cada punto muestral.
Ejercicio 2. Determine el valor de c de tal forma que cada una de las siguientes funciones sirva
como una distribución de probabilidad de la variable aleatoria discreta X:
a) f (x) = c(x2 + 4) para todo x = 0, 1, 2, 3

b) f (x) = c x2 3−x
 3 
para todo x = 0, 1, 2
Ejercicio 3. Un encargado en una maquila tiene tres hombres y tres mujeres trabajando para él.
Desea elegir dos trabajadores para una entrega de un pedido y decide seleccionarlos al azar para
no introducir algún sesgo en la selección. Sea X el número de mujeres en su selección. Encuentre la
distribución de probabilidad para X.
Ejercicio 4. Hay una campaña en un centro médico del poblado de Apastepeque, sobre paternidad
responsable a un grupo de 4 mujeres. Una vez finalizada la charla se les entrega un papelito con una
pregunta, ¿Desearía usted ser esterilizada?. Encuentre la distribución de probabilidad, represente
graficamente f (x) y F (x).
Ejercicio 5. En la tabla adjunta, nos presenta el número de integrantes por familia con sus respectiva
probabilidad.

a) Calcule el valor que falta en la tabla, asumiendo que esta representa una distribución de proba-
bilidades.

b) Calcule la probabilidad de que una familia tenga más de 4 integrantes.

c) Calcule el número esperado de integrantes por familia.

Ejercicio 6. De una caja que contiene 4 pelotas de fútbol, y 2 de baloncesto, se seleccionan 3 de ellas
en sucesión con reemplazo. Encuentre la distribución de probabilidad para el número de pelotas de
baloncesto.
Ejercicio 7. Encuéntrese la distribución de probabilidad para el números de discos cdś de músi-
ca rancheras cuando 4 discos se seleccionan al azar de una colección que consiste de 5 discos de
rancheras, 2 de música clásica y 3 de bachata. Exprese el resultado por medio de una ecuación.
Ejercicio 8. Un embarque de 7 televisores contiene 2 aparatos que no funcionan bien. Una institución
infantil de niños huérfanos realiza una compra aleatoria de 3 de ellos. Si X es el número de unidades
defectuosas que se compran, encuéntrese la distribución de probabilidad de X. Exprese los resultados
gráficamente con un histograma de probabilidad.
12 PROBLEMAS PROPUESTOS 136

Ejercicio 9. Mario tiene un paquete de cartas (inglés), saca tres cartas en sucesión. Encuentre la
distribución de probabilidad para el número de cartas de corazones rojos.

Ejercicio 10. Encuentre la distribución de probabilidad acumulada para los ejercicios 7, 9 y 11 de


este apartado, definir y graficar cada una de ellas.

Ejercicio 11. Considérese el eperimento de lanzar dos dados y anotarla suma de las caras superiores.
Hallar

a) La función de probabilidad, f (x) y su representación.

b) La función de probabilidad, F (x) y su representación.

c) El valor esperado y la varianza de la distribución.

d) Si la varable X es la que expresa la suma de los lados superiores de las caras de los 2 dados,
hallar las siguientes probabilidades P (x ≤ 5); P (x ≥ 10); F (4); F (−2); F (19)

Ejercicio 12. Sea X una variable aleatoria cuya función de probabilidad viene dada por
1
P (x) = ; para x = 2, 3, . . . , 9
8
Encuéntrese

a) La función de probabilidad

b) La función de distribución acumulada

c) El valor esperado y su varianza

d) Las probabilidades para P (x ≥ 6); P (4 ≤ x ≤ 7); P (x ≤ −3)

12.5.2. Distribución binomial


Ejercicio 1. Un agente de seguros vende pólizas a cinco personas de la misma edad y que disfrutan
de buena salud. Según las tablas actuales, la probabilidad de que una persona en estas condiciones
viva 30 años o más es 2/3. Hállese la probabilidad de que, transcurridos 30 años, vivan:

a) Las cinco personas.

b) Al menos tres personas.

c) Exactamente dos personas.

Ejercicio 2. En unas pruebas de alcoholemia se ha observado que el 5 % de los conductores contro-


lados dan positivo en la prueba y que el 10 % de los conductores controlados no llevan aprovechado
el cinturón de seguridad. También se ha observado que las dos infracciones son independientes.
Un guardia de tráfico detiene cinco conductores al azar. Si tenemos en cuenta que el número de
conductores es suficientemente importante como para estimar que la proporción de infractores no
varía al hacer la selección.
12 PROBLEMAS PROPUESTOS 137

a) Determinar la probabilidad de que exactamente tres conductores hayan cometido alguna de las
dos infracciones.

b) Determine la probabilidad de que al menos uno de los conductores controlados haya cometido
alguna de las dos infracciones.
Ejercicio 3. Un laboratorio afirma que la aplicación de una droga causa efectos secundarios en una
proporción de 3 de cada 100 pacientes. Para contrastar esta afirmación, otro laboratorio elige al
azar a 5 pacientes a los que aplica la droga. ¿Cuál es la probabilidad de los siguientes sucesos?
a) Ningún paciente tenga efectos secundarios.

b) Al menos dos tengan efectos secundarios.

c) ¿Cuál es el número medio de pacientes que espera el laboratorio que sufran efectos secundarios
si elige 100 pacientes al azar?

d) ¿Cuál es su varianza?, ¿Cómo se interpreta este valor?. Explique.


Ejercicio 4. Un examen consta de 10 preguntas que hay que contestar. Suponiendo que a las personas
que se les aplica no saben contestar a ninguna de las preguntas y, en consecuencia, contestan al azar,
encontrar:
a) La probabilidad de tener cinco aciertos.

b) La probabilidad de tener algún acierto.

c) La probabilidad de obtener al menos cinco aciertos.


Ejercicio 5. La probabilidad de que un estudiante obtenga el Diplomado em Matemáticas es 0.3.
Hallar la probabilidad de que su grupo de trabajo que consta de 8 estudiantes matriculados
a) Ninguno de los ocho finalice el postgrado.

b) Finalicen todos

c) Al menos 3 finalicen

d) Hallar el valor esperado y la varianza del número de alumnos que finalizan la carrera.
Ejercicio 6. Suponiendo que la probabilidad de tener un hijo varón es 0,51. Hallar la probabilidad
de que una familia con seis hijos tenga:
a) Por lo menos un niño.

b) Por lo menos una niña.


Ejercicio 7. El gimnasio “El GymGuapeton" ha comprobado que el 20 % de sus alumnos se dan de
baja durante el primer mes y el 80 % restante permanecen todo el año. Supongamos que este año se
inscribieron 20 alumnos.
a) Explica con brevedad qué es una variable aleatoria. Identifica la variable aleatoria del problema
e indica qué distribución sigue.
12 PROBLEMAS PROPUESTOS 138

b) ¿Cuál es la probabilidad de que 2 o menos se den de baja?

c) ¿Cuál es la probabilidad de que exactamente se den de baja 4 alumnos?

d) ¿Cuál es la probabilidad de que se den de baja más de 3 alumnos?


Al hacer la inscripción se realiza un único pago anual de 600 euros. Cada alumno que permanece
todo el año genera un gasto anual de 150 euros.

e) ¿Cuál es el beneficio anual esperado?

f) ¿Cuántos alumnos se han dado de baja el primer mes si al final del año el gimnasio ha obtenido
el beneficio esperado?

Ejercicio 8. El gerente de un restaurante que sólo da servicio mediante reservas sabe, por experi-
encia, que el 20 % de las personas que reservan una mesa no asistirán. Si el restaurante acepta 25
reservas pero sólo dispone de 20 mesas, ¿cuál es la probabilidad de que a todas las personas que
asistan al restaurante se les asigne una mesa?

Ejercicio 9. Un avión de alto rendimiento contienen tres computadoras idénticas. Se utiliza única-
mente una para operar el avión; las dos restantes son repuestos que pueden activarse en caso de
que el sistema primario falle. Durante una hora de operación la probabilidad de que una falle en la
computadora primaria (o de cualquiera de los sistemas de repuesto activados) es 0, 005. Suponiendo
que cada hora representa un ensayo independiente,

a) ¿Cuál es la probabilidad de que las tres computadoras fallen en un vuelo de 5 horas?

b) ¿Cuál es el tiempo promedio para que fallen las tres computadoras?

Ejercicio 10. El departamento de control de calidad de una empresa que fabrica pañuelos sabe que
el 5 % de su producción tiene algún tipo de defecto .Los pañuelos se empaquetan en cajas con 15
elementos. Calcular la probabilidad de que una caja contenga:

a) 2 elementos defectuosos .

b) Menos de 3 elementos defectuosos

c) Entre 3 y 5 elementos defectuosos(ambos incluidos)

Ejercicio 11. Una prueba de inteligencia consta de diez cuestiones cada una de ellas con cinco
respuestas de las cuales una sola es verdadera .Un alumno responde al azar

a) ¿Cuál es la probabilidad de que responda al menos a dos cuestiones correctamente?

b) ¿Cuál es la probabilidad de que responda bien a seis?

c) ¿Cuál es la probabilidad de que responda bien como máximo a dos cuestiones?

d) ¿Cuál es su valor esperad y su varianza?. Interprete cada uno de estos valores.

Ejercicio 12. Determinar la probabilidad de realizar cierto tipo de experimento con éxito si se sabe
que si se repite 24 veces es igual de probable obtener 4 éxitos que 5.
12 PROBLEMAS PROPUESTOS 139

12.5.3. Distribución normal


Ejercicio 1. Sabiendo que la variable Z ,sigue una distribución Normal, Z ∼ N (0, 1), calcule el
área bajo la curva que está

a) A la izquierda de z = 1.4

b) A la derecha de z = −0.89

c) entre z = −2.16 y z = 0.65

d) entre z = −2.16 y z = 1.11

e) entre z = −0.26 y z = 1.35

f) entre z = −1.6 y z = 1.6

g) A la izquierda de z = −1.64

h) A la derecha de z = 1.82

i) A la derecha de z = 0.89

j) A la izquierda de z = 1.27

Ejercicio 2. Encuentre el valor de z si el área bajo una curva normal estándar

a) A la izquierda de z es 0.3622

b) A la izquierda de z es 0.1131

c) Entre 0 y z, con zz > 0 es 0.4838

d) Entre −z y z, con z > 0 es 0.9500

Ejercicio 3. Sabiendo que la variable Z ,sigue una distribución Normal, Z ∼ N (0, 1), calcule las
siguientes Probabilidades:
P (Z ≤ 0.93); P (Z ≤ 1.68); P (Z ≤ −2.27); P (Z ≤ −0.27);
P (Z > 0.62); P (Z > 2.05); P (Z > −1.07); P (Z > −2.39);
P (0.56 ≤ Z < 2.80); P (−2.81 < Z < −0.33); P (−0.85 < Z ≤ 072)

Ejercicio 4. Siendo Z ∼ N (0, 1), calcule los valores de la variable que verifican las siguientes
condiciones:
P (Z ≤ z) = 0.70; P (Z ≤ z) = 0.90; P (Z ≤ z) = 0.35;
P (Z ≤ z) = 0.05; P (Z > z) = 0.25; P (Z > z) = 0.05; P (Z > z) = 0.85;
P (Z > z) = 0.69; P (−z < Z ≤ z) = 0.90; P (−z < Z ≤ z) = 0.60

Ejercicio 5. Dada la variable X distribuida normalmente con media 18 y desviación estándar 2.5,
encuentre

a) P (X < 15)
12 PROBLEMAS PROPUESTOS 140

b) el valor de k tal que P (X < k) = 0.2236

c) el valor de k tal que P (X > k) = 0.1814

d) P (17 < X < 21)

Ejercicio 6. Partiendo de que X es una variable que sigue una distribución Normal de media 50 y
desviación típica 4, calcule las siguientes probabilidades:
P (X ≤ 55); P (X ≤ 59); P (X ≤ 47.5); P (X ≤ 45.6);
P (X > 60.4); P (X > 58.64); P (X > 48.2); P (X > 46.26); P (52 < X ≤ 54);
P (44, 5 < X ≤ 49); P (47.25 < X ≤ 53.48)

Ejercicio 7. Una prueba consta de 200 preguntas de verdadero o falso, para un sujeto que re-
spondiese al azar, ¿Cuál sería la probabilidad de que acertase?

a) 50 preguntas o menos.

b) Más de 50 y menos de 100.

c) Más de 120 preguntas.

Ejercicio 8. Analizadas 240 muestras de sangre, se determino que el colesterol en sangre, se dis-
tribuía normalmente con media 100 y desviación típica 20.

a) Calcule la probabilidad de que una muestra de sangre sea inferior a 94.

b) ¿Qué proporción de muestras de sangre tienen valores comprendidos entre 105 y 130 ?.

c) ¿Cuántas muestras de sangre fueron superiores a 138?.

Ejercicio 9. Las puntuaciones en un test de ansiedad-rasgo siguen, en una población de mujeres,


una distribución Normal de media 25 y desviación Típica 10. Si queremos clasificar la población en
cuatro grupos de igual tamaño, ¿Cuales serán las puntuaciones que delimiten estos grupos?

Ejercicio 10. En una distribución Binomial con n = 10 y P = 0, 8 ¿Qué error se comete al calcular
la probabilidad de que la variable sea igual a 6, mediante la aproximación Normal?

Ejercicio 11. Para la distribución normal tipificada, calcular :

a) Percentil 21

b) Cuartil 3º

c) Valores centrales entre los que quedan comprendidas la cuarta parte de las observaciones.

Ejercicio 12. Sólo 24 de los 200 alumnos de un Centro escolar miden menos de 150 cm. Sí la estatura
media de dichos alumnos es de 164 cm., ¿cuál es su varianza ?.

Ejercicio 13. El percentil 70 de una distribución normal es igual a 88, siendo 0.27 la probabilidad
de que la variable tenga un valor inferior a 60. ¿ A qué distribución normal nos estamos refiriendo?
12 PROBLEMAS PROPUESTOS 141

Ejercicio 14. La vida promedio de cierto tipo de motor pequeño es 10 años con una desviación
estándar de dos años. El fabricante reemplaza gratis todos los motores que fallen dentro del tiempo
de garantía. Si está dispuesto a reemplazar sólo 3 % de los motores que fallan, ¿De qué duración debe
ser la garantía que ofrezca?. Suponga que la duración de un motor sigue una distribución normal.

Ejercicio 15. El nivel de colesterol en una persona adulta sana sigue una distribución normal
N (192, 12). Calcular la probabilidad de que una persona adulta sana tenga un nivel de colesterol:

a) Superior a 200 unidades.

b) Entre 180 y 220 unidades.

12.6. Muestreo
Ejercicio 1. Mediante muestreo irrestricto aleatorio se obtiene una muestra de 50 trabajadores
procedente de una población de 750 empleados de una multinacional. Al medir el salario mensual X
en cientos de euros que perciben los trabajadores de la muestra se obtienen los siguientes datos:
50
X 50
X
Xi = 454 y Xi2 = 4306
i=1 i=1

De esta muestra 20 trabajadores pertenecen al sector financiero de la multinacional, y al medir los


salarios mensuales X sobre estos 20 empleados se obtienen los siguientes resultados:
20
X 20
X
Xi = 172 y Xi2 = 1536
i=1 i=1

Estimar el salario medio mensual por trabajador y el total mensual de pagos en salarios de la multi-
nacional para todos sus empleados y para los empleados del sector financiero, aŽsí como sus errores
absolutos.

Ejercicio 2. Dos dentistas A y B hicieron una encuesta para investigar el estado de los dientes de
200 niños. El doctor A seleccionó una muestra irrestricta aleatoria de 20 niños y contó el número de
dientes con caries de cada niño, con los siguientes resultados:

N de dientes con caries por niño 0 1 2 3 4 5 6 7 8 9 10

N de niños 8 4 2 2 1 1 0 0 0 1 1

El doctor B, utilizando las mismas técnicas dentales, examinó a los 200 niños y sólo registró aquellos
que no tenían caries, encontrando que 60 niños no tenían dientes dañados.

Estudiar qué doctor obtiene estimaciones más precisas del número total de dientes con caries en los
niños cuantificando la ganancia en precisión.
12 PROBLEMAS PROPUESTOS 142

Xi 2 3 5 10 20 50 100 200

ni 100 80 200 30 30 30 20 10

Ejercicio 3. Consideremos los salarios anuales (variable X) en miles de euros de 500 trabajadores
de una empresa se obtiene la siguiente distribucón de frecuencias:
Se estratifica la población en grupos homogéneos de ganancias salariales utilizando como variable
de estratificación el propio salario anual mediante el criterio dado por 2 ≤ X < 10, 10 ≤ X < 100,
100 ≤ X ≤ 200. Realizar las afijaciones de uniforme y proporcional sin y con reposición de una
muestra de tamaño 100 cuando se estima el salario anual medio. Analizar las precisiones y justificar
los resultados.

12.7. Inferencia estadística


Ejercicio 1. Una muestra aleatoria de 50 calificaciones de Estadística de un total de 200, arrojó una
media de 75 y una desviación típica de 10.

a) ¿ Cuales son los limites de confianza del 95 % para la estimación de la media de las 200 califica-
ciones?

b) ¿ Con qué grado de confianza podrá decirse que la media de las 200 calificaciones es 75 ± 1 ?
2
i −x̄)
Ejercicio 2. Demostrar que E(s2 ) = σ 2 si s2 = ni=1 (xn−1
P

Ejercicio 3. Demostrar que la media muestral es un estimador insesgado de la media poblacional

Ejercicio 4. Si θ̂ es un estimador del parámetro θ y su sesgo esta dado por b = E(θ̂) − θ. Demostrar
2
que E((θ̂ − θ) ) = V ar(θ̂) + b2 .

Ejercicio 5. Suponga que en una muestra de 100 hombres de una universidad se obtuvo la siguiente
distribución de calificaciones sobre la medida del cociente intelectual (I.Q.).

Coeficiente intelectural Frecuencia


93- 107 29
108- 122 38
123- 137 20
138- 152 10
153- 167 3

a) Trace la gráfica de la distribución de frecuencias

b) Calcule el intervalo de confianza del 95 % para el I.Q. medio de todos los hombres de la univer-
sidad

c) Construya un intervalo de confianza del 95 % para la proporción de hombres que tienen un I.Q.
superior a 137
12 PROBLEMAS PROPUESTOS 143

Ejercicio 6. En dos ciudades se llevó a cabo una encuesta sobre el costo de la vida para obtener
el gasto semanal promedio en alimentación en familias constituidas por cuatro personas. De cada
ciudad se seleccionaron aleatoriamente una muestra de 20 familias y se observaron que en la primera
ciudad se obtuvo una media de $135 y una desviación típica de $15 y en la segunda ciudad se obtuvo
una media de $122 y una desviación típica de $10.
Se consideran que los datos referidos a cada población son independientes y con distribución normal.
a) Obtener el intervalo de confianza del 95 % de la diferencia entre las ciudades
b) Se estaría inclinado a concluir que existe una diferencia real entre µ1 y µ2
Ejercicio 7. Por estadísticas que se tienen, se ha podido establecer que más del 40 % de los jóvenes
toman regularmente Coca-Cola, cuando tienen sed. Una muestra aleatoria de 450 jóvenes reveló que
162 de ellos solían tomar dicha bebida cuando tenían sed.

a) ¿Cuál podría ser su conclusión al nivel del 1 % de significancia acerca de lo que muestran las
estadísticas?
b) ¿Cuál podría ser su conclusión al nivel del 5 % de significancia acerca de lo que muestran las
estadísticas?

Ejercicio 8. En cierto instituto de enseñanza secundaria hay matriculados 800 alumnos. A una mues-
tra seleccionada aleatoriamente de un 15 % de ellos, se les preguntó si utilizaban la cafetería del in-
stituto. Contestaron negativamente un total de 24 alumnos. Halla el intervalo de confianza del 99 %
para estimar la proporción de alumnos que utilizan la cafetería del instituto.
Ejercicio 9. Se tiene que reparar una máquina en cierta fábrica si produce más del 10 % de artículos
defectuosos del gran lote de producción de un día. Una muestra aleatoria de 100 artículos de la
producción contiene 15 defectuosos y el supervisor decide que debe repararse la máquina. ¿ La
evidencia de la muestra apoya la decisión del supervisor? Utilice un nivel de significancia del 1 %.
Ejercicio 10. Una agencia de empleos, critica el hecho de que el 30 % de las personas que son
colocadas no pasan la prueba de trabajo en los tres meses. Se quieren comprobar esta crítica y del
archivo de colocación de empleados, selecciona una muestra de 25 empleados y se encuentra que 7
no pasaron la prueba. ¿ Se puede justificar esta crítica?
Ejercicio 11. La oficina de control de tránsito sostiene que el 40 % de conductores de vehículos de
servicio particular tienen pase de conducción vencida. Se lleva a cabo una muestra de 20 conduc-
tores, encontrando que 9 de ellos tienen pase vencido. ¿ Al 5 % de nivel de significancia, se puede
afirmar que el porcentaje es mayor que el señalado por la oficina?
Ejercicio 12. La media de una muestra es de 49 y el tamaño de la muestra es de 36, la desviación
estándar es 3. Utilice el nivel de significancia de 0.02 para probar las siguiente hipótesis H0 : µ = 50
y H1 : µ 6= 50
Ejercicio 13. La cadena de restaurante Campero afirma que el tiempo de espera para el servicio de
atención tiene una distribución normal, con una media de 3 minutos y una desviación 1 minuto. El
departamento de aseguramiento de calidad descubrió en una muestra de 50 clientes que el tiempo
medio de espera es de 2 minutos, en el nivel de significancia de 0.05 ¿Se puede llegar a la conclusión
de que el tiempo de espera en promedio es menos de tres minutos?
12 PROBLEMAS PROPUESTOS 144

12.8. Distribuciones bidimensionales


12.8.1. Prueba χ2 para tablas de contingencia
Ejercicio 1. En una determinada región existen 3 facultades en las que se cursan estudios de
Economía. Un programa de radio universitario pretende debatir si la dificultad de estos estudios
pudiera estar relacionada con el centro donde se cursan. Para aportar información al programa,
se propuso a los oyentes licenciados en Economía que llamaran a un teléfono gratuito donde se les
realizaría una serie de preguntas. Con la información obtenida se completó la siguiente tabla de fre-
cuencias, en las que las llamadas han sido clasificadas según el lugar donde se realizaron los estudios
y el tiempo empleado en terminarlos:

Facultad Número de años empleados para finalizar


la licenciatura en Economía
4 ó menos Entre 5 y 6 7 ó más
A 300 150 50
B 110 125 90
C 325 350 100

Suponiendo que estos datos pudieran ser considerados como procedentes de una muestra aleatoria,
¿Se podría afirmar que existe alguna relación entre el centro de estudios y el tiempo que un estudiante
tarda en terminar su carrera de Economía? Nivel de signifación del 10 %

Ejercicio 2. Las asociaciones de padres y madres de alumnos de los colegios públicos de una de-
terminada ciudad pretenden organizar de forma conjunta las actividades extraescolares del próximo
curso. Para tratar de conocer el interés de los padres en el tipo de actividades que pueden desarrollar
sus hijos, la comisión encargada decide llevar a cabo una encuesta a una muestra aleatoria de 1500
padres. Con los datos de esta encuesta, pudo construirse la siguiente tabla:

Actividades Niveles de estudio de los padres


Primarios Bachillerato Universitarios
Competiciones deportivas 150 195 175
Talleres creativos en la propia ciudad 90 100 46
Excursiones diversas 60 330 180
Otras 50 75 49

¿Cabe pensar, al 1 % de significación, que el nivel de estudios de los padres influye en el tipo de
actividad extraescolar elegida para su hijo?

12.8.2. Distribuciones marginales y condicionales


Ejercicio 1. Se supone que el consumo de medicamentos depende de la edad de las personas, para
verificar esta suposición, se eligió una muestra de 100 individuos, cuyas edades, junto con las canti-
dades, en dólares, que gastan en medicamentos durante un año, se presentan en la siguiente tabla:
12 PROBLEMAS PROPUESTOS 145

1. Obténgase la distribución de frecuencias de la variable gastos en medicina.

2. Hállese la distribución de frecuencias de la variable edad

3. ¿Cuál es la distribución de frecuencias de la edad condicionada a un nivel de gasto compren-


dido entre 30 y 90 dólares?

4. Calcúlese la distribución de frecuencias del gasto para una edad comprendida entre 60 y 100
años.

Ejercicio 2. La siguiente tabla recoge los ingresos y los gastos en alimentación semanales, en
dólares, de 12 familias.

Determínese el gasto medio por familia en alimentación de las familias con ingresos comprendidos
entre 300 y 480 dólares semanales.

Ejercicio 3. La siguiente tabla recoge la clasificación de 50 trabajadores de una empresa según el


salario anual, en miles de dólares, y el número de días de baja por enfermedad en un determinado
año:

1. ¿Cuál es el número de días de baja esperados para un trabajador cuyo salario anual es de
20,000 dólares?

2. Obténgase el número de días de baja más frecuente de los trabajados con salarios anuales
comprendido entre 15 y 25 mil dólares.
12 PROBLEMAS PROPUESTOS 146

Ejercicio 4. En una empresa de limpieza, se cuenta con 100 trabajadores, se ha realizado un estudio
sobre la relación entre el salario y el ausentismo laboral, obteniéndose, entre otros, los resultados
que aparecen en la siguientes tablas de distribuciones condicionas:

La variable Y representa el número mensual de días de ausencia al trabajo y está distribuida en los
intervalos 0− < 4, 4− < 10; la variable X representa el salario mensual, en miles de dólares, y está
distribuida en los intervalos 0.6− < 1.2, 1.2− < 1.8 y 1.8− < 2.6.

1. Hállese la distribución bidimensional correspondiente.

2. Calcúlese el número medio mensual de días de ausentismo por trabajador de los trabajadores
con salario comprendidos entre 1200 y 1800 dólares.

3. Obténgase la varianza de la distribución del salario mensual de los trabajadores que se han
ausentado del trabajo entre 4 y 10 días.

Ejercicio 5. Una constructora considera que las familias adquieren viviendas de mayor tamaño
según sus ingresos. Para confirmar este hecho se han considerado los datos correspondientes a su
última construcción de 210 viviendas, analizándose el nivel de ingresos anuales de las familias que
han adquirido una vivienda de esta construcción, X, en miles de dólares, así como el tamaño de la
vivienda comprada, Y, en metros cuadrados.

¿Confirma esta información la hipótesis de la constructora?

Ejercicio 6. Dada una distribución de frecuencias bidimensional (xi , yi , fij ), pruébese que la condi-
ción necesaria y suficiente para que las variables X e Y sean independientes es que, para cualesquiera
i y j: fi/j = fi. y fj/i = f.j

Ejercicio 7. La siguiente tabla refleja el salario mensual, X, en miles de dólares, y el gasto médico
al mes en odontólogos, Y, en dólares, de un grupo de 200 familias.
12 PROBLEMAS PROPUESTOS 147

¿Son las variables X e Y independientes?


Ejercicio 8. Sobre una población de N familias se ha realizado un estudio sobre la relación entre
el número mensual de llamadas telefónicas nacionales (urbanas e interurbanas), X, y las interna-
cionales, Y, y se han obtenido, entre otros resultados, las dos distribuciones de Y condicionadas por
valores de X, tal y como se refleja en la siguiente tabla del mes de diciembre del pasado año:

1. Suponiendo que X está distribuida en los intervalos 0− < 60 y 60− < 240, y la variable Y
en 0− < 20, 20− < 40, y 40− < 60, calcúlese el número medio por familia de llamadas
internacionales de las familias que han realizado 30 llamadas nacionales.
2. Si las variables X e Y son independientes, ¿Cuánto valen a y b?
Ejercicio 9. Sea (xi , yi , fij ) una distribución de frecuencias bidimensional. Demuéstrese que las
f
variables X e Y son independientes si, y solamente si, para cualesquiera i y l, el cociente fijlj es
constante para todo j.

12.8.3. Correlación y predicción


Ejercicio 1. Dado una distribución de frecuencias bidimensional (xi , yi , fij ), cuya covarianza es S,
obténgase la covarianza de la distribución de frecuencias (axi + b, cyi + d, fij ), S 0 , siendo a y b
número reales positivos.
Ejercicio 2. El Departamento de Marketing de un grupo financiero ha realizado un estudio sobre la
influencia de la renta de las decisiones de inversión de sus clientes. Para ello eligió una muestra de 20
clientes, cuya renta anual, junto con las cantidades invertidas en un cierto año, en miles de dólares,
aparecen recogidas en la siguiente tabla:
12 PROBLEMAS PROPUESTOS 148

1. Hállese las medias y las varianzas de las variables consideradas

2. ¿Cuál es la covarianza entre la inversión y la renta?

3. ¿Cuál será el valor de la covarianza si cada cliente aumenta su inversión en mil dólares? ¿Qué
valor tendrá la covarianza si la renta de cada cliente se incrementara en un 6 por ciento?

Ejercicio 3. A partir de la regresión lineal de Y, ahorro anual, sobre X, renta mensual de un grupo de
familias (ambas variables en miles de dólares) se ha estimado que el ahorro correspondiente a una
renta de 3 mil dólares es de 0.4 miles de dólares, mientras que, si la renta es de 2.5 miles de dólares,
el ahorro es de 0.3 miles de dólares. Con estos datos, hállese la ecuación de la recta de regresión de
Y sobre X.

Ejercicio 4. Obténgase la media y la varianza de los residuos en la regresión lineal de Y sobre X.

Ejercicio 5. Obténgase la media y la varianza de los valores teóricos en la regresión lineal de Y


sobre X.

Ejercicio 6. En la regresión lineal de Y sobre X, demuéstrese la siguiente relación denominada de-


scomposición de la varianza:

SY2 = SY2e + Se2 .

Ejercicio 7. Demuéstrese que, si existe dependencia lineal perfecta entre las variables X e Y, esto es,
si Y = a + b.X, donde a y b son números reales,b 6=, entonces,

|S| = SX SY

Ejercicio 8. En la regresión lineal de Y sobre X, demuéstrese la siguiente relación:

Se2 = SY2 (1 − r2 )

Ejercicio 9. Se considera la distribución de frecuencias:

Demuéstrese que las variables X e Y = X 2 están incorrelacionadas pero son dependientes.

Ejercicio 10. Demuéstrese que, si para cualquier j, x/Y = yj = x, entonces, las variables X e Y
están incorrelacionadas.

Ejercicio 11. Dada una distribución de frecuencias bidimensional (xi , yj , fij ), cuyo coeficiente de
correlación lineal es r, obténgase el coeficiente de correlación lineal de la distribución de frecuencias
(axi + b, cyj + d, fij ), siendo a y c números reales positivos.
12 PROBLEMAS PROPUESTOS 149

Ejercicio 12. Las puntuaciones obtenidas por un grupo de personas en un test para medir la habili-
dad verbal X y el razonamiento abstracto Y son:

1. Obtenga las tablas de las distribuciones marginales

2. La media y la desviación típica de las distribuciones marginales

3. Calcula las medias Ȳ /X = xi , ∀i, y graficar los pares y analice si estos puntos pueden ser
representados por un modelo lineal de la forma ŷ = ax + b.

Ejercicio 13. Se toma una muestra de 50 empresas, observando el número de trabajadores X y la


producción Y.

Determine la recta de regresión de Y sobre X, el coeficiente de correlación lineal y la varianza resid-


ual.

Ejercicio 14. La evolución temporal de la masa salarial de una empresa se recoge en el siguiente
cuadro:

1. Determine la recta que explica el salario en función del tiempo, calculando el coeficiente de
correlación lineal y la varianza residual.

2. Estime la masa salarial del sexto año.

Ejercicio 15. De un sector productivo formado por 7 empresas se recogen los siguientes datos:
12 PROBLEMAS PROPUESTOS 150

1. Determine la recta que explica la producción en función del número de empleados, calculando
el coeficiente de determinación y la varianza residual.

2. Realice un contraste de hipótesis para verificar la significancia de los estimadores de los coe-
ficientes de regresión.

3. Calcule la productividad marginal del sector por persona empleada.

4. Estime la producción de una empresa con 1000 empleados.

Ejercicio 16. Datos sobre la renta X de 100 contribuyentes y los impuestos Y que pagan:

1. Si el modelo impositivo es , determine el impuesto fijo C y el tipo impositivo t . ¿Es bueno el


modelo propuesto?

2. Determine la varianza explicada por la regresión y la varianza residual.

3. Si las rentas aumentan 0.1, ¿Cuál es el aumento previsto en la cantidad pagada?

Ejercicio 17. Datos sobre antigüedad X y salario Y de los trabajadores de una empresa:

1. Halle L0 , a, b y c sabiendo que SXY = −7, que las rectas de regresión se cortan en el punto
(3,9.5) y que la distribución de frecuencias relativas de Y es:

2. Si se prescinde del 15 % de los empleados con salarios más bajos y el 10 % con salarios más
altos, ¿Entre qué valores están los salarios del 75 % restante?

3. Halle la recta de regresión de Y sobre X y el coeficiente de determinación.


12 PROBLEMAS PROPUESTOS 151

Ejercicio 18. La recta de regresión X = 0.5Y + 3 expresa la relación estadística entre un número
X de unidades vendidas diariamente de un bien y el gasto mensual Y en hacerle publicidad. Se sabe
que la covarianza es 22.5 y que la distribución marginal de X es la siguiente:

1. Determine las respectivas medias de X e Y, y la varianza de Y.

2. Determine la recta de regresión de Y sobre X, su coeficiente de determinación y la varianza


residual.

Ejercicio 19. De una distribución (X, Y) se conoce la distribución marginal de X.

4
X
Si yj n.j = 3240 y la recta de regresión de Y sobre X es Ŷ = 3X + 20, determine la recta de
j=1
regresión de X sobre Y, su coeficiente de determinación y la varianza residual.
Ejercicio 20. Se sabe que la recta de regresión de Y sobre X para un conjunto de 10 datos P es Ŷ =
2
0.74X P
+ 0.84, siendo Se = 3.218 la correspondiente varianza residual. También se sabe que yj =
82.4 y xi 2 = 3340. Determine la recta de regresión de X sobre Y, y el coeficiente de determinación.
Ejercicio 21. Se conocen los siguientes datos relativos a 5 observaciones de la producción X y el
coste total Y de una industria:

5
X 5
X 5
X 5
X 5
X
2
xi = 64 yi = 247 xi yi = 3199; xi = 828; yi 2 = 12363
i=1 i=1 i=1 i=1 i=1

1. Determine la recta de regresión de Y sobre X

2. Estímese el coste si la producción es 15, valorando su bondad.


Ejercicio 22. De una distribución bidimensional de frecuencias se sabe que:
n
1X 2
Ȳ = 5; X = 200; SY2 = 5; SX = 10; SXY = 10
n i=1 i

1. Determine la regresión de Y sobre X y el coeficiente de correlación lineal.

2. Calcule la varianza residual de la anterior regresión.


12 PROBLEMAS PROPUESTOS 152

Ejercicio 23. Analice si son posibles las siguientes situaciones:

1. r = −0.5; y =x+6
2
2. SXY = 100; SX = 25; SY = 20; SŶ2 = SY2

3. ŷ = 5x + 8, ŷ = 9 + x5 , r = 0.2

4. 2ŷ = x + 8, ŷ = x − 4, x̄ = 16, ȳ = 12

Ejercicio 24. Demuestre que si Ŷ es el valor teórico obtenido mediante la recta de regresión de Y
sobre X, sucede que |rŶ Y | = |rXY |

Ejercicio 25. Analice si son posibles las siguientes situaciones:

1. ŷ = 2x + 4; ŷ = 3x + 2 r = 2/3
2
2. SX = 20; Sŷ = 30; ŷ = 2x + b

3. ŷ = 2x + 3, r=0

4. r = −0.4, ŷ = 2x + 3

Ejercicio 26. Analice lo siguiente:

1. ¿Es posible que ŷ = (2 − x)/3, x̂ = 1 − 4y?

2. ¿Si 2x − y = 1 en una recta de regresión, puede ser negativo r?

3. Si x + 2y = 1 y 3x + 5y = 2 son rectas de regresión, calcule x̄ y ȳ

4. Si entre X e Y hay correlación positiva, ¿Cómo es la correlación entre U = 3 − 2X y V =


4 + 3Y ?

5. ¿Es cierto que Se2 = Sy2 − aSXY ?

Ejercicio 27. Se sabe que la recta de regresión de Y sobre X es ŷ = ax + 4, y su coeficiente de de-


terminación es 0.8; además, SŶ2 = 16 y las rectas de regresión se cortan en el punto (1,2). Determine
las varianzas de X y de Y, y la covarianza. Estime el valor de X si Y=2.

Ejercicio 28. A partir de la regresión lineal de Y, ahorro anual, sobre X, renta mensual de un grupo
de familias (ambas variables en miles de dólares) se ha estimado que el ahorro correspondiente a una
renta de 3 mil dólares es de 0.4 miles de dólares, mientras que, si la renta es de 2.5 miles de dólares,
el ahorro es de 0.3 miles de dólares. Con estos datos, hállese la ecuación de la recta de regresión de
Y sobre X.

Ejercicio 29. Obténgase la mejor explicación de la variable Y en función de la variable X según el


modelo potencial: y = axb aplicando el criterio de los mínimos cuadrados.

Ejercicio 30. Obténgase la mejor explicación de la variable Y en función de la variable X según el


modelo exponencial y = abx aplicando el criterio de los mínimos cuadrados.
12 PROBLEMAS PROPUESTOS 153

Ejercicio 31. En una residencia hospitalaria se desea estudiar la posible relación entre la edad y
el gasto en medicamentos. Para ello se ha elegido una muestra de 10 individuos, cuyas edades, X, y
gastos mensuales en medicamentos, Y, en dólares, figuran en la siguiente tabla.

1. Represente el diagrama de dispersión de esta distribución de frecuencias.


2. Obténgase, a partir del diagrama de dispersión, la ecuación de regresión que mejor refleje la
dependencia estadística de los gastos en medicamentos de la edad de los individuos.
3. Analice la bondad del ajuste realizado.
Ejercicio 32. Cinco niñas de 2, 3, 5, 7 y 8 años de edad pesan respectivamente 14, 20, 30, 42 y 44
Kg.
1. Calcula el coeficiente de correlación relativo a las variables dadas. Interpreta.
2. Halla la ecuación de la recta de regresión de la edad sobre el peso. ¿Cuál sería el peso aprox-
imado de una niña de 6 años?. ¿Qué tan confiable es este resultado?.
Ejercicio 33. Las notas obtenidas por 10 alumnos en Matemática y en Música son:

Matemática 6 4 8 5 3.5 7 5 10 5 4
Música 6.5 4.5 7 5 4 8 7 10 6 5
1. Calcula la covarianza y el coeficiente de correlación.
2. ¿Existe correlación entre las dos variables?.
3. ¿Cuál sería la nota esperada en Música para un alumno que hubiese obtenido un 8.3 en
Matemática?.
4. ¿Qué se puede decir de la incerteza en la que se pudiese incurrir al responder en el literal
anterior?.
Ejercicio 34. Sobre un conjunto de conductores se ha realizado una encuesta para analizar su edad
(Y) y el número de accidentes que han sufrido (X). A partir de la misma se obtuvieron los siguientes
resultados:
X/Y (20,30] (30,40] (40,50] (50,60] (60,70]
0 74 82 78 72 7
1 7 6 5 6 5
2 3 2 2 1 1

A partir de estos datos, se le pide que determine para esta distribución las curvas de regresión de Y
sobre X y de X sobre Y.
12 PROBLEMAS PROPUESTOS 154

Ejercicio 35. Para la economía de un país, disponemos de los datos anuales redondeados sobre
consumo en los hogares a precios corrientes (Y) y el ingreso nacional disponible neto (X), tomados
de informes de Hacienda en base a 1995, para el período 1995-2002, ambos expresados en miles de
millones de dólares:

Año 1995 1996 1997 1998 1999 2000 2001 2002


Y 258,6 273,6 289,7 308,9 331,0 355,0 377,1 400,4
X 381,7 402,2 426,5 454,3 486,5 520,2 553,3 590,0
Considerando que el consumo se puede expresar como función lineal de la renta Y=a+bX, determine:

1. Los parámetros a y b de la recta de regresión.

2. La varianza de la variable consumo y su descomposición en varianza explicada y no explicada


por el modelo.

3. El coeficiente de determinación de dicha regresión.

4. La predicción del valor que tomará el consumo para una renta de 650 millones de dólares.

Ejercicio 36. Se supone que se puede establecer cierta relación lineal entre las exportaciones de
un país y la producción interna de dicho país. En el caso de El Salvador, tenemos los datos anuales
(expresados en millones de dólares) para tales variables correspondientes al quinquenio 1992-1996
en la siguiente tabla:

AÑOS PRODUCCIÓN EXPORTACIONES


1992 52,654 10,420
1993 53,972 11,8417
1994 57,383 14,443
1995 61,829 16,732
1996 65,381 18,760
A partir de tal información, y considerando como válida dicha relación lineal, se pide:

1. Si la producción para el año 1997 fue de 69,415 millones de dólares. ¿Cuál sería la predicción
de las exportaciones para este año?.

2. ¿Qué grado de precisión tendría dicha predicción?.

Ejercicio 37. De una distribución de dos variables se conocen los siguientes datos:
rxy = 0.9; Sx = 1.2 ; Sy = 2.1; x̄ = 5; ȳ = 10.

Obténganse las rectas de regresión mínimo cuadráticas de X sobre Y y de Y sobre X.

Ejercicio 38. Para un mismo grupo de observaciones de las variables X e Y, hemos obtenido las dos
rectas de regresión siguientes:

3x + 2y = 26 6x + 2y = 32
En función de las mismas, responda a las siguientes cuestiones:
12 PROBLEMAS PROPUESTOS 155

1. ¿Qué valores tomarían las medias de X e Y?.

2. Represente gráficamente ambas rectas de regresión.

3. Determine el valor del coeficiente de correlación lineal rxy .

4. ¿Por qué la regresión de Y sobre X y la de X sobre Y no coinciden?.

Ejercicio 39. A partir de un conjunto de valores de las variables X e Y, se ha determinado la regresión


de Y sobre X, obteniéndose la siguiente recta:

Ŷ = 10 + 0.45X;
Además se han obtenido los siguientes valores: R2 = 0.9 y x̄ = 20.
Se pide que, a partir de la definición de la anterior recta, determine los parámetros de la recta de
regresión de X sobre Y.

Ejercicio 40. Se han observado, en varios modelos de automóviles, los datos de potencia del motor
(X), en caballos, y la aceleración (Y), medida en el número de segundos necesarios para acelerar de
0 a 100 Km/h. La tabla adjunta refleja los valores obtenidos.

X 50 75 90 100 120 150


Y 15 12 10,5 10 9 8
A partir de tales datos, se ha decidido expresar la aceleración en función de la potencia mediante el
ajuste de una función lineal. Bajo esta hipótesis:

1. Determine la función de ajuste.

2. Si aumenta la potencia de un motor en un 10 por ciento, ¿en qué porcentaje repercutirá di-
cho aumento en la aceleración prevista? ¿Depende ello de la potencia que tenga el motor en
cuestión?.

Ejercicio 41. La empresa CUSCATLECA S.A. ha trabajado hasta ahora con la hipótesis de que las
ventas de un período dependen linealmente de los gastos de publicidad efectuados en el período
anterior. En este momento, le solicitan a usted la realización de un análisis que ponga de manifiesto
si la hipótesis, hasta ahora mantenida, se puede seguir sosteniendo en función de los datos que le
suministran.
AÑOS GASTOS VENTAS
1987 21 18
1988 22 19
1989 25 20
1990 26 22
1991 27 23
1992 29 24
1993 30 26
En el informe final de su análisis, deberá responder a las siguientes preguntas:
12 PROBLEMAS PROPUESTOS 156

1. ¿Se incrementarán las ventas del período siguiente al aumentar los gastos en publicidad del
período actual?
2. ¿Es adecuado suponer que el ajuste entre estas variables es efectivamente lineal teniendo en
cuenta los valores de las variables? Ajuste el modelo lineal e interprete los coeficientes del
mismo. ¿Qué porcentaje de la varianza de las ventas no son explicadas por las variaciones de
los gastos en publicidad?
3. ¿Cuál será la predicción de las ventas para 1994? ¿Qué precisión tendrá ese pronóstico?
4. Si para el año 1994 se piensa incrementar los gastos de publicidad en un 10 por ciento, ¿qué
incremento relativo cabría esperar para las ventas de 1995 con respecto a las de 1994, según
el modelo ajustado?

Ejercicio 42. Los dueños de un restaurante regalan a sus clientes una galleta por cada bebida que
es comprada en su establecimiento, pues creen que hay una relación entre la cantidad de sal en las
galletas y la cantidad de bebidas vendidas. Se sabe que las galletas no pueden tener una concen-
tración de sal superior a 3.5 gramos por cada 1000 galletas y, por ello, decide ir variando a partir
de 1 gramo la concentración de 0.5 en 0.5 gramos cada semana e ir anotando el incremento en caja
semanalmente, obteniendo la siguiente tabla:

Grs. DE SAL/1000 GALLETAS INGRESOS (Dólares)


1 14.30
1.5 15.0
2.0 16.5
2.5 17.5
3.0 20
3.4 24

A partir de tales cifras, se desea responder a las siguientes interrogantes:

1. ¿Considera justificado el planteamiento de un modelo lineal para expresar la relación entre las
variables?
2. Si el propietario desea unos ingresos de 160 dólares, ¿qué cantidad de sal debería aportar por
cada 1000 galletas?. Si aporta el máximo permitido de sal, ¿cuál sería el ingreso en caja?.
Explicar cuál de las dos predicciones le merece mayor confianza.
3. ¿Cuál sería la variación porcentual de los ingresos cuando la cantidad de sal aumenta en un
1 % sobre el último valor de la tabla? Si aumentamos en 1gr. la sal por cada 1000 galletas,
¿cuánto variarán los ingresos?

Ejercicio 43. Una compañía de seguros considera que el número de vehículos (Y) que circulan por
una determinada autopista a más de 120 km/h, puede ponerse en función del número de accidentes
(X) que ocurren en ella. Durante 5 días obtuvo los siguientes resultados:

L M Mi J V
Accidentes Xi 5 7 2 1 9
Número de vehiculos Yi 15 18 10 8 20
12 PROBLEMAS PROPUESTOS 157

1. Calcula el coeficiente de correlación lineal.

2. Si ayer se produjeron 6 accidentes, ¿cuántos vehículos podemos suponer que circulaban por la
autopista a más de 120 km/h?. ¿Es buena la predicción?

Ejercicio 44. Las calificaciones de 40 alumnos en Psicología Evolutiva y en Estadística han sido las
de la tabla adjunta.
Psicologia Xi 3 4 5 6 6 7 7 8 10
Estadística Yi 2 5 5 6 7 6 7 9 10
Número de alumnos fi 4 6 12 4 5 4 2 1 2

1. Obtener la ecuación de la recta de regresión de calificaciones de Estadística respecto de las


calificaciones de Psicología.

2. ¿Cuál será la nota esperada en Estadística para un alumno que obtuvo un 4,5 en Psicología?

Ejercicio 45. En un determinado hotel, el responsable de la piscina del mismo debe añadir per-
iódicamente un compuesto de cloro al agua para mantenerla en buenas condiciones. Dicha persona
ha observado la relación existente entre el número de días que dura el efecto del producto ( variable
X1 ) y los gramos de cloro empleado ( variable X2 ), obteniendo los siguientes resultados:

1. s21 =5.4 días-gramo y s22 =12 gramos2 .

2. El porcentaje de varianza explicada por la regresión lineal de X1 sobre X2 sería del 78.387 %.

3. A partir de la regresión lineal de X1 sobre X2 , el valor estimado para 21 gramos de cloro sería
de 4 días.

4. x̄ = 25 gramos.

A partir de esta información, determine ambas rectas de regresión y en función de ellas, calcule qué
cantidad de cloro habría que utilizar para que los efectos del producto durasen 7 días.
Ejercicio 46. La factura mensual del gasto telefónico de una pequeña empresa se ha incrementado
notablemente en los últimos meses. Los estudios realizados por el administrador de la misma argu-
mentan que el mayor uso de Internet dentro de la misma es la principal causa del mayor gasto en
teléfono, lo que ha hecho que se estudie la posibilidad de acogerse a alguno de los múltiples bonos
o tarifas especiales que ofrecen las compañías, lo que hasta la fecha todavía no se llevó a cabo. Las
últimas cifras mensuales no hacen sino confirmar esta relación:
Mes Enero Febrero Marzo Abril Mayo
Cuantía de la factura (Dólares) 55 100 118 120 142
Tiempo de conexión(en min.) 200 500 700 800 1000
De acuerdo con la información anterior, responda a las siguientes preguntas:

1. Suponiendo la existencia de una relación de tipo lineal entre tiempo de conexión y gasto tele-
fónico, ¿qué porcentaje de las variaciones en la cuantía de la factura telefónica no podrían ser
explicadas linealmente por el tiempo de conexión a Internet dentro de la compañía?
12 PROBLEMAS PROPUESTOS 158

2. ¿Cuál sería la cuantía de la factura telefónica de la compañía de acuerdo a esta relación lineal
si no se conectase a Internet en la empresa?

3. ¿Cuál sería el gasto telefónico estimado según esta relación lineal si el tiempo de conexión a
Internet fuera de 2000 minutos? ¿Le parece aceptable tal predicción? Razone su respuesta.

4. Se considera que un incremento del 20 % en el tiempo de conexión a Internet respecto al realiza-


do en el mes de mayo conllevaría a que la factura telefónica se elevase de forma extraordinaria.
¿Cuál sería el incremento relativo en la misma si ello se produjese? Razone su respuesta.

Ejercicio 47. En una muestra de familias se han analizado las variables ahorro anual (Y) y renta
anual (X), medidas ambas en miles de dólares. Los datos obtenidos han sido los siguientes:

Ahorro (X) 1.9 1.8 2.0 2.1 1.9 2.0 2.2 2.3 2.7 3.0
Renta(Y) 20.5 20.8 21.2 21.7 22.1 22.3 22.2 22.6 23.1 23.5
A partir de tales datos, se pide:
1. Obtener el modelo lineal que explica el ahorro de las familias en función de su renta.

2. ¿Qué familia aumentaría en un mayor porcentaje su ahorro si su renta se viese incrementada


en un 5 por ciento, la familia que tiene la menor renta de entre todas o la que posee la mayor
renta?

3. ¿Cuál será el incremento absoluto del ahorro cuando una familia aumente su renta anual en
500 Dls.?

4. ¿Qué porcentaje de varianza de la variable ahorro queda explicado por la variable renta a
través del modelo lineal planteado?
Ejercicio 48. Con el objetivo de estudiar la relación lineal entre el precio de los automóviles y el
número de unidades vendidas, se procedió a recoger datos sobre tales magnitudes durante el pasado
mes en una determinada región. Los resultados obtenidos fueron los siguientes:
Precio(miles de dólares) 7.5 9 10.5 12 14 16 18 20.5 23.5 27
Cantidad(unidades) 450 425 400 350 325 300 290 280 260 200
En función a los datos recabados para esa región y mes:
1. Una empresa radicada en la región tiene previsto para el mes próximo aumentar el precio de
su modelo más vendido en 500 Dls. Si suponemos como válida la relación lineal entre las dos
variables analizadas para los datos del pasado mes, ¿cómo afectaría este hecho a las ventas
de dicho modelo?

2. Si el modelo más caro de la tabla anterior se abaratase para el mes próximo un 3 por ciento,
¿cómo variarían las ventas de dicho modelo?

3. Obtenga la descomposición de la varianza total de las cantidades vendidas en varianza expli-


cada y varianza no explicada por el modelo lineal y, a partir de ella, determine el coeficiente
de determinación.
12 PROBLEMAS PROPUESTOS 159

4. Si expresamos el precio en dólares y las cantidades vendidas en miles de unidades, ¿cuál sería
el modelo lineal que explica las ventas en función del precio?. ¿Y el coeficiente de determi-
nación de tal modelo?.

Ejercicio 49. Una juguetería ha examinado la evolución reciente de las ventas de su muñeco Cocó (Y,
en millones de dólares) junto con los gastos de publicidad de ese muñeco (X, en millones de dólares),
obteniéndose los siguientes resultados:
Año 1996 1997 1998 1999 2000 2001 2002
Y 126 135 156 156 150 150 180
X 20 25 30 32.5 35 32 34

Además se sabe que : x̄ = 29, 79; ȳ = 150, 43; s2x = 25, 1327; Sy2 = 253, 1020; Sxy = 64, 3776.
A partir de esta información, responda a las siguientes cuestiones:

1. ¿Se puede afirmar que al aumentar los gastos en publicidad se incrementarán las ventas?.
Obtenga los parámetros del ajuste lineal que explique las ventas en función de los gastos.
Interprete dichos coeficientes e indique la bondad del ajuste realizado.

2. Si para el año 2003 aumentásemos los gastos de publicidad en un 1 por ciento, ¿en qué por-
centaje se espera que variasen las ventas, según el modelo lineal?

3. Suponiendo que entre X e Y existe la relación Ŷ = AX + b , calcular A y b. ¿Qué utilizaría


para medir la bondad de dicho ajuste?

4. Si para el años 2003 aumentamos los gastos de publicidad en un 1 por ciento, ¿en qué por-
centaje se espera que varíe las ventas, según el modelo del apartado c)?

Ejercicio 50. Para un conjunto de personas que están siguiendo una dieta de adelgazamiento, se
han recogido datos sobre el peso perdido desde el inicio de la misma (variable Y, en Kg.) y el tiempo
que llevan siguiendo la dieta (variable X, en semanas), los cuales se muestran en la siguiente tabla:

Y 2.4 5.4 5.6 8.4 10.6 13.5 15 15


X 3 5 6 8 11 13 15 16

A partir de esta información, responda a las siguientes cuestiones:

1. Estime el modelo lineal que explica el peso perdido en función del tiempo que se lleva siguiendo
la dieta e interprete los parámetros.

2. Para el modelo estimado en el apartado anterior, descomponga la varianza total como suma
de la explicada y la no explicada por el mismo y obtenga, a partir de tal descomposición el
coeficiente de determinación.

3. Según el modelo considerado, ¿qué peso esperaría perder una persona que siga la dieta durante
2 meses (8 semanas)?. ¿Y una persona que esté dispuesta a seguir la dieta durante dos años
(108 semanas)?

Ejercicio 51.
12 PROBLEMAS PROPUESTOS 160

Se llevó a cabo un experimento para estudiar el efecto de cierta droga en la disminución del ritmo
cardíaco en adultos. La variable independiente es la dosis de la droga en milígramos (X), y la variable
dependiente Y es la diferencia entre el ritmo más bajo registrado después de la administración de la
droga y el ritmo antes de la administración de la droga (control), es decir es la reducción del ritmo
cardíaco en látidos por minuto. Los datos se muestran a continuación.

n 1 2 3 4 5 6 7 8 9 10 11 12 13
X 0.50 0.75 1.00 1.25 1.50 1.75 2.00 2,25 2.50 2.75 3.00 3.25 3.50
Y 10 8 12 12 14 12 16 18 17 20 18 20 21
Elabore un análisis de regresión completo, es decir, haga un análisis gráfico, determine el grado de
asociación lineal que tienen las variables (coeficiente de correlación), determine la recta que mejor
se ajusta a los datos, el coeficiente de determinación y haga un análisis de los errores. En base a los
resultados obtenidos escriba sobre la relación entre las variables en cuestión.
A BIBLIOGRAFÍA 161

A. Bibliografía
[1] J. Susan Milton, y Jesse C. Arnold. Probabilidad y estadística con aplicaciones para ingeniería
y ciencias computacionales. McGraw-Hill Interamericana, México D.F, México, 2005.

[2] Grande Esteban, I.; y Abascal Fernández, E. Métodos Multivariantes para la Investigación Com-
ercial. Editorial Ariel, S.A. Barcelona, España, 1989.

[3] Freire, Paulo. La educación como práctica de la libertad. Siglo XXI Editores, México, 1988.

[4] Borsotti C. Y otros. La situación problemática. El problema de investigación. Fichas de trabajo


de la Universidad de Luján.

[5] Bunge, Mario. La Investigación Científica. Su estrategia y su filosofía. Ariel, Barcelona, España,
1986.

[6] Sirvent, Ma. Teresa. La práctica de la investigación. Taller de Metodología de la Investigación


Educativa.

[7] Arnal, J. Del Rincón y otros. Investigación Educativa. Fundamentos y metodologías. Editorial
Labor, 1994.

[8] Vara Horna, Arístides A. La Lógica de la Investigación en las Ciencias Sociales. Centro de
Investigaciones Científicas y Tecnológicas, Lima, Perú, 2006.

[9] Walpole, Ronald E., Myers, Raymond H.,Myers,Sharon L. Ye, Keying. Probabilidad y Estadís-
tica para Ingenieria y Ciencias.. Editorial Pearson. Prentice Hall. Octava edicion, Año 2007.

[10] Lipschutz, Seymour. Introducción a la Probabilidad y Estadística. Editorial McGrawHill, Año


2000.

[11] Mendenhall, William, Scheaffer, Richard L., Wackerly Dennis D. Estadística Matemática con
Aplicaciones. Editorial Grupo Editrial Iberoamerica, Año 1996.

[12] Martínez Bencardino, Ciro. Estadística Básica Aplicada. Colombia: ECOE EDICIONES, 3°
ED, Año 2006.

[13] Montgomery, Douglas; Peck, Elizabeth y Vining, Geoffrey. Introducción al análisis de regresión
lineal. Compañía Editorial Continental, Mexico, Año 2002.

[14] Montgomery, Douglas y Runger, George C. Probabilidad y Estadística. McGrawHill, Año 1996.

[15] Peralta Astudillo, María Josefa y at. Estadística: Problemas resueltos. Ediciones Pirámide, Año
2000.

[16] Isabel Castillo Manrique, Marta Guijarro. Estadistica Descriptiva y Cálculo de Probabilidades.
Pearson-Prentice Hall, Año 2005.

[17] Cesar Perez López. Estadistica: problemas resueltos y aplicaciones. Pearson-Prentice Hall, Año
2003.
162

[18] William Mendenhall,Robert J.Beaver. Barbara, M.Beaver. Estadistica: problemas resueltos y


aplicaciones. Thomson, Año 2008.

[19] César Pérez López. Muestreo Estadístico. Concepto y problemas resueltos. Pearson, Año 2005.

[20] José Miguel Casas. Ejercicios de inferencia estadística y muestreo. Ediciones Piramide, Año
1998.
163

Anexos
A. Tablas de distribuciones de probabilidad
Tabla 1: Función de Distribución Normal Estándar

0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

-3.0 0.001350 0.001306 0.001264 0.001223 0.001183 0.001144 0.001107 0.001070 0.001035 0.001001
-2.9 0.001866 0.001807 0.001750 0.001695 0.001641 0.001589 0.001538 0.001489 0.001441 0.001395
-2.8 0.002555 0.002477 0.002401 0.002327 0.002256 0.002186 0.002118 0.002052 0.001988 0.001926
-2.7 0.003467 0.003364 0.003264 0.003167 0.003072 0.002980 0.002890 0.002803 0.002718 0.002635
-2.6 0.004661 0.004527 0.004396 0.004269 0.004145 0.004025 0.003907 0.003793 0.003681 0.003573
-2.5 0.006210 0.006037 0.005868 0.005703 0.005543 0.005386 0.005234 0.005085 0.004940 0.004799
-2.4 0.008198 0.007976 0.007760 0.007549 0.007344 0.007143 0.006947 0.006756 0.006569 0.006387
-2.3 0.010724 0.010444 0.010170 0.009903 0.009642 0.009387 0.009137 0.008894 0.008656 0.008424
-2.2 0.013903 0.013553 0.013209 0.012874 0.012545 0.012224 0.011911 0.011604 0.011304 0.011011
-2.1 0.017864 0.017429 0.017003 0.016586 0.016177 0.015778 0.015386 0.015003 0.014629 0.014262
-2.0 0.022750 0.022216 0.021692 0.021178 0.020675 0.020182 0.019699 0.019226 0.018763 0.018309
-1.9 0.028717 0.028067 0.027429 0.026803 0.026190 0.025588 0.024998 0.024419 0.023852 0.023295
-1.8 0.035930 0.035148 0.034380 0.033625 0.032884 0.032157 0.031443 0.030742 0.030054 0.029379
-1.7 0.044565 0.043633 0.042716 0.041815 0.040930 0.040059 0.039204 0.038364 0.037538 0.036727
-1.6 0.054799 0.053699 0.052616 0.051551 0.050503 0.049471 0.048457 0.047460 0.046479 0.045514
-1.5 0.066807 0.065522 0.064255 0.063008 0.061780 0.060571 0.059380 0.058208 0.057053 0.055917
-1.4 0.080757 0.079270 0.077804 0.076359 0.074934 0.073529 0.072145 0.070781 0.069437 0.068112
-1.3 0.096800 0.095098 0.093418 0.091759 0.090123 0.088508 0.086915 0.085343 0.083793 0.082264
-1.2 0.115070 0.113139 0.111232 0.109349 0.107488 0.105650 0.103835 0.102042 0.100273 0.098525
-1.1 0.135666 0.133500 0.131357 0.129238 0.127143 0.125072 0.123024 0.121000 0.119000 0.117023
-1.0 0.158655 0.156248 0.153864 0.151505 0.149170 0.146859 0.144572 0.142310 0.140071 0.137857
-0.9 0.184060 0.181411 0.178786 0.176186 0.173609 0.171056 0.168528 0.166023 0.163543 0.161087
-0.8 0.211855 0.208970 0.206108 0.203269 0.200454 0.197663 0.194895 0.192150 0.189430 0.186733
-0.7 0.241964 0.238852 0.235762 0.232695 0.229650 0.226627 0.223627 0.220650 0.217695 0.214764
-0.6 0.274253 0.270931 0.267629 0.264347 0.261086 0.257846 0.254627 0.251429 0.248252 0.245097
-0.5 0.308538 0.305026 0.301532 0.298056 0.294599 0.291160 0.287740 0.284339 0.280957 0.277595
-0.4 0.344578 0.340903 0.337243 0.333598 0.329969 0.326355 0.322758 0.319178 0.315614 0.312067
-0.3 0.382089 0.378280 0.374484 0.370700 0.366928 0.363169 0.359424 0.355691 0.351973 0.348268
-0.2 0.420740 0.416834 0.412936 0.409046 0.405165 0.401294 0.397432 0.393580 0.389739 0.385908
-0.1 0.460172 0.456205 0.452242 0.448283 0.444330 0.440382 0.436441 0.432505 0.428576 0.424655
-0.0 0.500000 0.496011 0.492022 0.488034 0.484047 0.480061 0.476078 0.472097 0.468119 0.464144
0.0 0.500000 0.503989 0.507978 0.511966 0.515953 0.519939 0.523922 0.527903 0.531881 0.535856
0.1 0.539828 0.543795 0.547758 0.551717 0.555670 0.559618 0.563559 0.567495 0.571424 0.575345
0.2 0.579260 0.583166 0.587064 0.590954 0.594835 0.598706 0.602568 0.606420 0.610261 0.614092
0.3 0.617911 0.621720 0.625516 0.629300 0.633072 0.636831 0.640576 0.644309 0.648027 0.651732
0.4 0.655422 0.659097 0.662757 0.666402 0.670031 0.673645 0.677242 0.680822 0.684386 0.687933
0.5 0.691462 0.694974 0.698468 0.701944 0.705401 0.708840 0.712260 0.715661 0.719043 0.722405
0.6 0.725747 0.729069 0.732371 0.735653 0.738914 0.742154 0.745373 0.748571 0.751748 0.754903
0.7 0.758036 0.761148 0.764238 0.767305 0.770350 0.773373 0.776373 0.779350 0.782305 0.785236
0.8 0.788145 0.791030 0.793892 0.796731 0.799546 0.802337 0.805105 0.807850 0.810570 0.813267
0.9 0.815940 0.818589 0.821214 0.823814 0.826391 0.828944 0.831472 0.833977 0.836457 0.838913
1.0 0.841345 0.843752 0.846136 0.848495 0.850830 0.853141 0.855428 0.857690 0.859929 0.862143
1.1 0.864334 0.866500 0.868643 0.870762 0.872857 0.874928 0.876976 0.879000 0.881000 0.882977
1.2 0.884930 0.886861 0.888768 0.890651 0.892512 0.894350 0.896165 0.897958 0.899727 0.901475
1.3 0.903200 0.904902 0.906582 0.908241 0.909877 0.911492 0.913085 0.914657 0.916207 0.917736
1.4 0.919243 0.920730 0.922196 0.923641 0.925066 0.926471 0.927855 0.929219 0.930563 0.931888
1.5 0.933193 0.934478 0.935745 0.936992 0.938220 0.939429 0.940620 0.941792 0.942947 0.944083
1.6 0.945201 0.946301 0.947384 0.948449 0.949497 0.950529 0.951543 0.952540 0.953521 0.954486
1.7 0.955435 0.956367 0.957284 0.958185 0.959070 0.959941 0.960796 0.961636 0.962462 0.963273
1.8 0.964070 0.964852 0.965620 0.966375 0.967116 0.967843 0.968557 0.969258 0.969946 0.970621

i
0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

1.9 0.971283 0.971933 0.972571 0.973197 0.973810 0.974412 0.975002 0.975581 0.976148 0.976705
2.0 0.977250 0.977784 0.978308 0.978822 0.979325 0.979818 0.980301 0.980774 0.981237 0.981691
2.1 0.982136 0.982571 0.982997 0.983414 0.983823 0.984222 0.984614 0.984997 0.985371 0.985738
2.2 0.986097 0.986447 0.986791 0.987126 0.987455 0.987776 0.988089 0.988396 0.988696 0.988989
2.3 0.989276 0.989556 0.989830 0.990097 0.990358 0.990613 0.990863 0.991106 0.991344 0.991576
2.4 0.991802 0.992024 0.992240 0.992451 0.992656 0.992857 0.993053 0.993244 0.993431 0.993613
2.5 0.993790 0.993963 0.994132 0.994297 0.994457 0.994614 0.994766 0.994915 0.995060 0.995201
2.6 0.995339 0.995473 0.995604 0.995731 0.995855 0.995975 0.996093 0.996207 0.996319 0.996427
2.7 0.996533 0.996636 0.996736 0.996833 0.996928 0.997020 0.997110 0.997197 0.997282 0.997365
2.8 0.997445 0.997523 0.997599 0.997673 0.997744 0.997814 0.997882 0.997948 0.998012 0.998074
2.9 0.998134 0.998193 0.998250 0.998305 0.998359 0.998411 0.998462 0.998511 0.998559 0.998605
3.0 0.998650 0.998694 0.998736 0.998777 0.998817 0.998856 0.998893 0.998930 0.998965 0.998999

Ejemplos: Si X ∼ N(0,1), entonces Pr(X ≤ −1.96) = 0.024998 y Pr(X ≤ 2.00) = 0.977250.


Fuente: Tabla construida utilizando la función @cnorm de EViews® 3.1.

ii
Tabla 2: Valores Críticos de la Distribución t de Student.

FUNCION DE DISTRIBUCION

0.005 0.010 0.025 0.050 0.100 0.900 0.950 0.975 0.990 0.995

1 -63.657 -31.821 -12.706 -6.314 -3.078 3.078 6.314 12.706 31.821 63.657
2 -9.925 -6.965 -4.303 -2.920 -1.886 1.886 2.920 4.303 6.965 9.925
3 -5.841 -4.541 -3.182 -2.353 -1.638 1.638 2.353 3.182 4.541 5.841
4 -4.604 -3.747 -2.776 -2.132 -1.533 1.533 2.132 2.776 3.747 4.604
5 -4.032 -3.365 -2.571 -2.015 -1.476 1.476 2.015 2.571 3.365 4.032

6 -3.707 -3.143 -2.447 -1.943 -1.440 1.440 1.943 2.447 3.143 3.707
7 -3.499 -2.998 -2.365 -1.895 -1.415 1.415 1.895 2.365 2.998 3.499
8 -3.355 -2.896 -2.306 -1.860 -1.397 1.397 1.860 2.306 2.896 3.355
9 -3.250 -2.821 -2.262 -1.833 -1.383 1.383 1.833 2.262 2.821 3.250
10 -3.169 -2.764 -2.228 -1.812 -1.372 1.372 1.812 2.228 2.764 3.169

G 11 -3.106 -2.718 -2.201 -1.796 -1.363 1.363 1.796 2.201 2.718 3.106
R 12 -3.055 -2.681 -2.179 -1.782 -1.356 1.356 1.782 2.179 2.681 3.055
A 13 -3.012 -2.650 -2.160 -1.771 -1.350 1.350 1.771 2.160 2.650 3.012
D 14 -2.977 -2.624 -2.145 -1.761 -1.345 1.345 1.761 2.145 2.624 2.977
O 15 -2.947 -2.602 -2.131 -1.753 -1.341 1.341 1.753 2.131 2.602 2.947
S
16 -2.921 -2.583 -2.120 -1.746 -1.337 1.337 1.746 2.120 2.583 2.921
D 17 -2.898 -2.567 -2.110 -1.740 -1.333 1.333 1.740 2.110 2.567 2.898
E 18 -2.878 -2.552 -2.101 -1.734 -1.330 1.330 1.734 2.101 2.552 2.878
19 -2.861 -2.539 -2.093 -1.729 -1.328 1.328 1.729 2.093 2.539 2.861
L 20 -2.845 -2.528 -2.086 -1.725 -1.325 1.325 1.725 2.086 2.528 2.845
I
B 21 -2.831 -2.518 -2.080 -1.721 -1.323 1.323 1.721 2.080 2.518 2.831
E 22 -2.819 -2.508 -2.074 -1.717 -1.321 1.321 1.717 2.074 2.508 2.819
R 23 -2.807 -2.500 -2.069 -1.714 -1.319 1.319 1.714 2.069 2.500 2.807
T 24 -2.797 -2.492 -2.064 -1.711 -1.318 1.318 1.711 2.064 2.492 2.797
A 25 -2.787 -2.485 -2.060 -1.708 -1.316 1.316 1.708 2.060 2.485 2.787
D
26 -2.779 -2.479 -2.056 -1.706 -1.315 1.315 1.706 2.056 2.479 2.779
27 -2.771 -2.473 -2.052 -1.703 -1.314 1.314 1.703 2.052 2.473 2.771
28 -2.763 -2.467 -2.048 -1.701 -1.313 1.313 1.701 2.048 2.467 2.763
29 -2.756 -2.462 -2.045 -1.699 -1.311 1.311 1.699 2.045 2.462 2.756
30 -2.750 -2.457 -2.042 -1.697 -1.310 1.310 1.697 2.042 2.457 2.750

40 -2.704 -2.423 -2.021 -1.684 -1.303 1.303 1.684 2.021 2.423 2.704
60 -2.660 -2.390 -2.000 -1.671 -1.296 1.296 1.671 2.000 2.390 2.660
90 -2.632 -2.368 -1.987 -1.662 -1.291 1.291 1.662 1.987 2.368 2.632
120 -2.617 -2.358 -1.980 -1.658 -1.289 1.289 1.658 1.980 2.358 2.617

INF -2.576 -2.327 -1.960 -1.645 -1.282 1.282 1.645 1.960 2.327 2.576

Ejemplos: Si X ∼ t(20), entonces Pr(X ≤ −2.528) = 0.01 y Pr(X ≤ 1.725) = 0.95; si X ∼ t(n) con n suficientemente
grande, entonces Pr(X ≤ −1.960) ≈ 0.025 y Pr(X ≤ 2.327) ≈ 0.99.
Fuente: Tabla construida utilizando la función @qtdist de EViews® 3.1.

iii
Tabla 3: Valores Críticos de la Distribución Chi-Cuadrado.

FUNCION DE DISTRIBUCION

0.005 0.010 0.025 0.050 0.100 0.900 0.950 0.975 0.990 0.995

1 0.000039 0.000157 0.000982 0.003932 0.0158 2.71 3.84 5.02 6.63 7.88
2 0.0100 0.0201 0.0506 0.10 0.21 4.61 5.99 7.38 9.21 10.60
3 0.0717 0.11 0.22 0.35 0.58 6.25 7.81 9.35 11.34 12.84
4 0.21 0.30 0.48 0.71 1.06 7.78 9.49 11.14 13.28 14.86
5 0.41 0.55 0.83 1.15 1.61 9.24 11.07 12.83 15.09 16.75
6 0.68 0.87 1.24 1.64 2.20 10.64 12.59 14.45 16.81 18.55
7 0.99 1.24 1.69 2.17 2.83 12.02 14.07 16.01 18.48 20.28
G 8 1.34 1.65 2.18 2.73 3.49 13.36 15.51 17.53 20.09 21.95
R 9 1.73 2.09 2.70 3.33 4.17 14.68 16.92 19.02 21.67 23.59
A 10 2.16 2.56 3.25 3.94 4.87 15.99 18.31 20.48 23.21 25.19
D
O 11 2.60 3.05 3.82 4.57 5.58 17.28 19.68 21.92 24.72 26.76
S 12 3.07 3.57 4.40 5.23 6.30 18.55 21.03 23.34 26.22 28.30
13 3.57 4.11 5.01 5.89 7.04 19.81 22.36 24.74 27.69 29.82
D 14 4.07 4.66 5.63 6.57 7.79 21.06 23.68 26.12 29.14 31.32
E 15 4.60 5.23 6.26 7.26 8.55 22.31 25.00 27.49 30.58 32.80
16 5.14 5.81 6.91 7.96 9.31 23.54 26.30 28.85 32.00 34.27
L 17 5.70 6.41 7.56 8.67 10.09 24.77 27.59 30.19 33.41 35.72
I 18 6.26 7.01 8.23 9.39 10.86 25.99 28.87 31.53 34.81 37.16
B 19 6.84 7.63 8.91 10.12 11.65 27.20 30.14 32.85 36.19 38.58
E 20 7.43 8.26 9.59 10.85 12.44 28.41 31.41 34.17 37.57 40.00
R
T 21 8.03 8.90 10.28 11.59 13.24 29.62 32.67 35.48 38.93 41.40
A 22 8.64 9.54 10.98 12.34 14.04 30.81 33.92 36.78 40.29 42.80
D 23 9.26 10.20 11.69 13.09 14.85 32.01 35.17 38.08 41.64 44.18
24 9.89 10.86 12.40 13.85 15.66 33.20 36.42 39.36 42.98 45.56
25 10.52 11.52 13.12 14.61 16.47 34.38 37.65 40.65 44.31 46.93
26 11.16 12.20 13.84 15.38 17.29 35.56 38.89 41.92 45.64 48.29
27 11.81 12.88 14.57 16.15 18.11 36.74 40.11 43.19 46.96 49.64
28 12.46 13.56 15.31 16.93 18.94 37.92 41.34 44.46 48.28 50.99
29 13.12 14.26 16.05 17.71 19.77 39.09 42.56 45.72 49.59 52.34
30 13.79 14.95 16.79 18.49 20.60 40.26 43.77 46.98 50.89 53.67

2
Ejemplos: Si X ∼ χ (20), entonces Pr(X ≤ 9.59) = 0.025 y Pr(X ≤ 34.17) = 0.975.
Fuente: Tabla construida utilizando la función @qchisq de EViews® 3.1.

iv

También podría gustarte