Está en la página 1de 176

Facultad de Ciencias Económicas

Universidad Nacional de Misiones


Estadística I
Notas de Cátedra
Lic Hugo E F Oscherow
Índice general

1. Estadística Descriptiva 7
1.1. Introducción y conceptos fundamentales . . . . . . . . . . . . . . . . . . . . . . . . 7

1.2. Terminología estadística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.3. Muestra aleatoria simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.4. Resumen de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.4.1. Resumen de datos. Variables cualitativas . . . . . . . . . . . . . . . . . . . 12

1.4.2. Gráco de barras y diagramas circulares . . . . . . . . . . . . . . . . . . . . 13

1.4.3. Resumen de datos. Variable cuantitativa . . . . . . . . . . . . . . . . . . . . 14

1.4.4. Histogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.4.5. Polígonos de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19


P
1.5. El operador sumatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

1.6. Medidas descriptivas numéricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

1.6.1. Medidas de localización o de posición . . . . . . . . . . . . . . . . . . . . . 22

1.6.2. Medidas de variabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

1.7. Regla empírica y desigualdad de Chebyshev . . . . . . . . . . . . . . . . . . . . . . 35

1.7.1. Regla Empírica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

1.7.2. Desigualdad de Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

1.8. Medidas de asimetría o sesgo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

1.9. Distribuciones bidimensionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

1.9.1. Tablas para datos discretos. Distribución conjunta . . . . . . . . . . . . . . 39

1.9.2. Tablas para datos cualitativos. Tablas de contingencia . . . . . . . . . . . . 41

1.10. Medidas de asociación entre dos variables cuantitativas . . . . . . . . . . . . . . . . 42

1.10.1. Diagramas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

1.10.2. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

1.10.3. Coeciente de correlación lineal de Pearson . . . . . . . . . . . . . . . . . . 46

1.10.4. Interpretación del coeciente de correlación . . . . . . . . . . . . . . . . . . 47

2. Introducción a la Probabilidad 51
2.1. Conceptos fundamentales y deniciones . . . . . . . . . . . . . . . . . . . . . . . . 51

2.2. Denición de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

2.2.1. Método clásico de asignación de probabilidades . . . . . . . . . . . . . . . . 54

2.2.2. Probabilidad como frecuencia relativa . . . . . . . . . . . . . . . . . . . . . 55

2.2.3. Probabilidad subjetiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

2.3. Propiedades de la probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

2.4. Probabilidad condicional. Eventos independientes . . . . . . . . . . . . . . . . . . . 59

2.4.1. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

3
2.4.2. Eventos independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

3. Variables aleatorias. Distribución de probabilidad 63


3.1. Valor esperado y varianza de una variable aleatoria discreta . . . . . . . . . . . . . 66

3.2. Función de distribución de probabilidad acumulada . . . . . . . . . . . . . . . . . . 69

3.2.1. Propiedades de la función de probabilidad . . . . . . . . . . . . . . . . . . . 70

3.3. Modelos de distribución de probabilidad discretos . . . . . . . . . . . . . . . . . . . 70

3.3.1. Variables aleatorias discretas . . . . . . . . . . . . . . . . . . . . . . . . . . 71

3.3.2. Variables aleatorias continuas . . . . . . . . . . . . . . . . . . . . . . . . . . 79

3.4. Valor esperado y varianza de una variable aleatoria continua . . . . . . . . . . . . . 83

3.5. Funciones de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

3.6. Propiedades del valor esperado y la varianza . . . . . . . . . . . . . . . . . . . . . . 94

3.6.1. Función lineal de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . 95

4. Distribuciones muestrales. Estimación 99


4.1. Distribuciones muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

4.2. Muestras aleatorias. Estadísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

4.3. Distribución de la media muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

4.3.1. Muestreo de poblaciones nitas . . . . . . . . . . . . . . . . . . . . . . . . . 107

4.4. Estimadores y sus propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

4.5. Estimación. Intervalos de conanza . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

4.5.1. Intervalo de conanza para µ. Población normal, σ2 conocida . . . . . . . . 114

4.5.2. Distribución t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117


2
4.5.3. Intervalo de conanza para µ varianza poblacional σ desconocida . . . . . 120

4.5.4. Poblaciones nitas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

4.6. Distribución de la proporción muestral P̄ . . . . . . . . . . . . . . . . . . . . . . . 124

4.6.1. Estimación de la proporción de una población . . . . . . . . . . . . . . . . 126

4.7. Tamaño de la muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

4.7.1. Tamaño de la muestra para estimar µ . . . . . . . . . . . . . . . . . . . . . 128

4.7.2. Tamaño de la muestra para estimar p . . . . . . . . . . . . . . . . . . . . . 129


(n−1)S 2
4.8. Distribución Chi cuadrado y la distribución de
σ2 . . . . . . . . . . . . . . . 130

5. Pruebas de Hipótesis 137


5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

5.2. Prueba de una hipótesis nula . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

5.3. Hipótesis bilaterales y unilaterales . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

5.4. Procedimiento general de una prueba de hipótesis . . . . . . . . . . . . . . . . . . . 145

5.5. Prueba de hipótesis para la media de una población . . . . . . . . . . . . . . . . . 145


2
5.5.1. Población normal, varianza poblacional σ conocida . . . . . . . . . . . . . 146

5.5.2. Enfoque del valor p para las pruebas de hipótesis . . . . . . . . . . . . . . . 148

5.5.3. Relación entre las pruebas de hipótesis y los intervalos de conanza . . . . 149

5.5.4. Pruebas de hipótesis sobre la media de una población de varianza desconocida149

5.6. Prueba de hipótesis para una proporción poblacional . . . . . . . . . . . . . . . . . 153

5.7. Prueba de hipótesis para la varianza de una población . . . . . . . . . . . . . . . . 154

5.8. Prueba de hipótesis para el coeciente de correlación lineal de Pearson . . . . . . . 157

4
6. Regresión y Correlación Lineal Simple 161
6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

6.2. El modelo probabilístico de regresión lineal simple . . . . . . . . . . . . . . . . . . 161

6.3. El modelo de regresión y la ecuación de regresión . . . . . . . . . . . . . . . . . . . 162

6.3.1. La ecuación estimada de regresión . . . . . . . . . . . . . . . . . . . . . . . 163

6.4. Principio de mínimos cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

6.5. Coeciente de determinación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

6.5.1. Relación entre SCT, SCR y SCE . . . . . . . . . . . . . . . . . . . . . . . 169

6.5.2. El coeciente de correlación muestral r . . . . . . . . . . . . . . . . . . . . . 170

6.6. Supuestos o condiciones del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . 170

6.7. Pruebas de signicancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172

6.7.1. Estimación de σ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172

6.7.2. La prueba t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172

6.7.3. Intervalo de conanza para β1 . . . . . . . . . . . . . . . . . . . . . . . . . . 174

6.8. Empleo de la ecuación estimada de regresión . . . . . . . . . . . . . . . . . . . . . 175

6.8.1. Predicción de y para un valor particular de x . . . . . . . . . . . . . . . . . 175

6.8.2. Estimación de la media de una población de y para x = x0 . . . . . . . . . 176

5
Capítulo 1

Estadística Descriptiva

1.1. Introducción y conceptos fundamentales


Es indudable que la Estadística se ha convertido en una de las herramientas analíticas más impor-
tante para el profesional de las Ciencias Económicas cualquiera sea su especialidad.

Problemas derivados de los análisis de mercados, del control de calidad, de la administración de la


producción, del análisis de la micro y macro economía, etc. pueden ser abordados y eventualmente
resueltos con las herramientas que provee la Estadística.

A diario, y en la mayoría de los medios de comunicación, pueden encontrarse estadísticas sobre


producción industrial, variaciones del producto bruto interno, índice de precios al consumidor,
número de personas ocupadas o desocupadas, ventas de automóviles nuevos, etc.

Estos informes suelen ir acompañados por tablas, grácos y de alguna medida descriptiva numérica
como un promedio, una proporción, etc.

Aunque estos ejemplos reejan en parte qué es y de que se ocupa la Estadística, la misma tiene
un signicado mucho más amplio para aquellas personas que la utilizan a menudo en su actividad
profesional.

Debido a lo extenso y variado del campo cubierto por la disciplina es difícil proponer una denición
precisa de la misma.

De todas maneras, daremos una, sabiendo que será incompleta, pero que dará al lector una idea
de sus objetivos y actividades y que además servirá de introducción a los temas tratados en este
material.

Entonces diremos que:

Denición 1.1 La Estadística es la disciplina que se encarga de la recopilación, organización,


resumen, análisis, interpretación y comunicación de la información.

Cuando se diseña un trabajo estadístico es para alcanzar uno de los siguientes objetivos o ambos:

1. Describir cuantitativamente un grupo de personas, lugares o cosas

2. Dar información de la que se puedan obtener conclusiones acerca de un grupo grande de


personas, lugares o cosas por medio de la observación de una fracción del conjunto total

Las actividades estadísticas encaminadas a lograr el primer objetivo pertenecen al ámbito de la


Estadística Descriptiva, las que se diseñan para alcanzar el segundo, al ámbito de la Estadística
Inferencial.
Supongamos que el jefe de personal de una gran empresa toma una prueba de aptitud a un grupo
de empleados de la misma.

Algunas de las actividades que puede realizar para analizar las puntuaciones a partir de las herra-
mientas suministradas por la Estadística Descriptiva son las siguientes:

7
Tabular las los resultados

Describir los datos por medio de alguna medida descriptiva numérica como la media, la
proporción, etc.

Diseñar algún gráco

etc.

Las conclusiones de la prueba sólo se aplican al conjunto de empleados seleccionados. No se realizan


generalizaciones a todos los empleados de la empresa ni a los empleados de empresas similares.

Si bien es cierto la descripción de los datos recolectados es aveces un n en sí mismo, en la mayoría


de los trabajos estadísticos estamos más bien al comienzo de la tarea que al nal de la misma.

Esto es así porque el objetivo último de la actividad estadística suele ser el de extraer conclu-
siones sobre todas las observaciones posibles (población), a partir de la información recolectada
(muestra).
1

Las técnicas que permiten obtener conclusiones generales de una población a partir de la informa-
ción obtenida pertenecen a la rama de la Estadística Inferencial.

Más adelante analizaremos algunas técnicas inferenciales más utilizadas para obtener conclusiones
válidas.

1.2. Terminología estadística


Como toda disciplina, la Estadística posee cierta terminología que se necesita conocer para utilizar
sus técnicas e interpretar sus resultados correctamente.

Deniremos a continuación una serie de conceptos que se utilizarán a lo largo de este material.

La lista será lo más breve posible limitándonos a aquellos que necesitaremos de manera inmediata,
dejando para más adelante los demás, los que serán denidos a medida que los necesitemos.

Unidad observacional
En todo trabajo de investigación que utilice a la Estadística como herramienta para el análisis de
la información, el investigador ja su atención en un grupo de personas, lugares o cosas.

Cada una de ellas, tomadas de manera individual recibe el nombre de unidad observacional.
Por ejemplo, para un investigador que estudia algunas propiedades sociodemográcas de los estu-
diantes de una universidad, cada uno de los estudiantes, tomados de manera individual constituye
una unidad observacional.

Para una analista de mercados que quiera obtener alguna información acerca de las rentas mensua-
les de las familias de la ciudad, cada una de las familias, tomadas de manera individual constituye
una unidad observacional.

Por lo tanto, una unidad observacional es una persona, un lugar o una cosa de la cual puede
obtenerse información.

Variable
Es toda característica que toma diferentes valores en distintas unidades observacionales.

Por ejemplo, la altura o el peso de las personas, la renta mensual de las familias de una ciudad, el
lugar de procedencia de los estudiantes de una universidad, etc.

1 Un poco más adelante deniremos formalmente los conceptos de población y muestra

8
Variable cuantitativa
Es aquella que asume valores numéricos acompañados de una unidad de medida.

Por ejemplo, el la renta mensual de las familias en una ciudad, el peso de las persona, el tiempo
necesario para realizar una tarea, etc.

Las variables cuantitativas se clasican en discretas y continuas

Variable discreta
Es una variable que puede tomar un número nito o innito contable de valores separados entre si
por alguna unidad de medida.

Por ejemplo, el número de personas que llegan por hora a un banco a solicitar algún servicio, el
número de productos defectuosos fabricados cierto día por una fábrica, etc.

Por lo general las variables discretas se generan en los procesos de contar.

Variable continua
Es aquella que al menos en teoría puede tomar cualquier valor dentro de un intervalo real de valores
posibles.

Por ejemplo, la estatura de las personas, el tiempo requerido para nalizar una tarea, etc.

Las variables continuas se generan en los procesos de medición.

Variables cualitativas o categóricas


Los valores que asume corresponden a categorías de una clasicación como el estado civil, el lugar
de nacimiento, etc.

Las variables cualitativas se clasican a su vez en nominales y ordinales.


En una variable cualitativa nominal sus categorías no siguen ningún orden, no existen jerarquías
en su valores.

Algunos ejemplos son los siguientes:

Lugar de nacimientos (Posadas, Oberá, Eldorado, etc.)

Estado civil de una persona (soltero, casado, etc.)

Lateralidad (zurdo o derecho)

etc.

En una variable cualitativa ordinal sus categorías siguen un orden, es decir, existen jerarquía entre
sus valores.

Por ejemplo:

Condición académica de un estudiante al nalizar el cursado de una asignatura: libre, regular


o promocionado

Puesto alcanzado en una justa deportiva: primero, segundo, tercer, etc.

Categoría docente en una universidad: ayudante de primera, jefe de trabajos prácticos, pro-
fesor adjunto, profesor asociado y profesor titular

9
Población y muestra
Son dos de los conceptos más importantes en Estadística a los cuales haremos referencia constan-
temente.

En el lenguaje común el término población se utiliza para referirse a un conjunto de personas como
los habitantes de una ciudad o un país.

Sin embargo, desde el punto de vista de la Estadística este término tiene un signicado más amplio.

Para la Estadística una población puede estar constituida por:

Un grupo de personas como todos los estudiantes de una universidad

Un grupo de objetos como las lámparas de iluminación hogareñas producidas en un año por
una fábrica

Un grupo de medidas como la renta mensual de todas las familias de una ciudad

Observe que desde el punto de vista de la Estadística una población no necesariamente se reere
a un grupo de personas.

Damos en consecuencia la siguiente denición de población:

Denición 1.2 Una población es el conjunto de todos los posibles individuos, personas, objetos o
mediciones de interés estadístico para un investigador.

Es importante tener en cuenta que las poblaciones son denidas por el investigador quien determina
sus alcances y limitaciones.

Es decir, no hay nada preestablecido cuando el investigador dene su población objetivo.

En general, las conclusiones acerca de alguna propiedad poblacional se logra a partir de una muestra
tomada de la misma.

Denición 1.3 Una muestra es una parte, un subconjunto de una población seleccionada de tal
manera que resulte representativa de la misma.

¾Por qué tomar una muestra y no analizar toda la población?

Una muestra de votantes empadronados es necesaria debido al costo prohibitivo de entrevistar a los
millones de votantes registrados con el n de averiguar sus preferencias políticas para las próximas
elecciones.

Sería prácticamente imposible por razones de tiempo y costo entrevistar a todas las familias de
una ciudad con el n de estudiar algunas de sus propiedades socioeconómicas.

Parámetros y estadísticos
Las características numéricas de una población reciben el nombre de parámetros.
Por ejemplo, la renta promedio de todas las familias de una ciudad es un perímetro.

Las características numéricas de una muestra reciben el nombre de estadísticos o estadísticas.


El ingreso promedio calculado a partir de una muestra de familias de una ciudad es un estadístico.

Denición 1.4 La inferencia estadística se encarga de obtener conclusiones acerca de algún pará-
metro poblacional a partir del valor de un estadístico calculado con una muestra de esa población.

1.3. Muestra aleatoria simple


Hemos dicho que la inferencia estadística se ocupa de obtener conclusiones de una población a
partir de la información contenida en una muestra seleccionada de la misma.

10
Para que las conclusiones obtenidas a partir de la muestra sean signicativas, la muestra debe
ser representativa de la población, es decir, la información contenida en la muestra debe ser una
copia lo más exacta posible de la información existente en la población.

Obtener una muestra con estas características no es una tarea sencilla, y las técnicas de muestreo
son tantas y de tal complejidad que conforman una disciplina dentro de la Estadística.

Para obtener una muestra representativa de una población, las unidades que la conforman deben
ser seleccionadas de manera aleatoria. Es decir, debe haber algún mecanismo que garantice una
selección aleatoria de las unidades observacionales que deje de lado la subjetividad del analista.

De todas esas técnicas de selección, el muestreo aleatorio simple es una de las técnicas que puede
utilizarse para seleccionar una muestra representativa de una población.

Además esta técnica de muestreo sirve como fundamento teórico para otras técnicas más complejas
como el muestreo estraticado, muestreo por conglomerados, sistemático, etc.

Denición 1.5 Una muestra aleatoria simple de tamaño n es una muestra seleccionada de tal
manera que todas las muestras del mismo tamaño tiene la misma probabilidad de ser seleccionada.

El hecho de que todas las muestras de tamaño n tengan la misma probabilidad de ser seleccio-
nada garantiza que todas las unidades observacionales de la población tendrán también la misma
probabilidad de ser seleccionadas.

Por ejemplo, supongamos que se quiera formar un comité de 3 personas a partir de un grupo de 10.
¾Como podemos seleccionar los integrantes del comité utilizando un muestreo aleatorio simple?

Se puede proceder de la siguiente manera:

1. Numerar las personas del 1 al 10

2. Introducir en un bolillero 10 bolitas numeradas de 1 a 10

3. Seleccionar 3 bolitas del bolillero

Supongamos que en la primera selección se obtuvo la bolita que tiene el número 9. Entonces, la
persona identicada con este número es la primera selección.

No se repone la bolita con el número 9 (¾por qué) y se realiza la segunda selección.

Supongamos que se seleccionó la bolita con el número 2, entonces la persona que está identicada
con este número es nuestra segunda selección.

No se repone la bolita y se realiza la tercera selección. Supongamos que se extrae la bolita con el
número 7.

Entonces nuestro comité estará integrado por las personas identicadas con los números 9, 2 y 7.

En realidad, una muestra aleatoria simple se elije a partir de una tabla de números aleatorios o
mediante programas para computadoras.

No obstante, el principio de selección siempre es el mismo.

Por lo general, los datos que se obtienen en una investigación estadística no son susceptibles de ser
analizados e interpretados en la forma que se recogen.

Casi siempre, a la etapa de recolección le sigue otra de organización y resumen previas a la aplicación
de alguna técnica de análisis más compleja.

Presentaremos a continuación algunos procedimientos tabulares y grácos que son utilizados para
resumir las observaciones tanto de variables cualitativas como cuantitativas.

Analizando la información suministrada por estas herramientas descriptivas, se podrán visualizar


algunas de las propiedades más importantes de las observaciones.

11
1.4. Resumen de datos
1.4.1. Resumen de datos. Variables cualitativas
En primer lugar, veremos cómo es posible resumir datos provenientes de una variable cualitativa.
Una excelente herramienta para ello son las tablas de frecuencias.
Las tablas de frecuencias se suelen denominar también distribuciones de frecuencias
El objetivo de una tabla de frecuencias es el de proporcionar una perspectiva general de los datos
con el n de extraer conclusiones importantes sobre las observaciones.

Analicemos la siguiente situación hipotética. Suponga que el profesor de educación física de una
universidad toma una muestra de 50 estudiantes a los cuales les pregunta acerca de su deporte
preferido.

Suponga adicionalmente que una vez recibidas las respuestas, y para una mejor comprensión de
los resultados, decide volcar la información en una tabla de frecuencias como la Tabla (1.1).

Deporte preferido Frecuencia absoluta fi


Fútbol 19
Básquet 8
Rugby 5
Natación 13
Ninguno 5
Total 50

Tabla 1.1: Deporte preferido. Muestra de 50 estudiantes

Una tabla de frecuencias es muy fácil de construir y de interpretar.

En la primera columna se consigna en nombre de la variable (deporte preferido) y sus categorías.

En la segunda columna se registran las frecuencias absolutas que no son otra cosa que el número
observaciones en cada categoría de la variable.

Así, un total de f1 = 19 estudiantes preeren el fútbol, f2 = 8 que preeren el básquet, etc.

Analizando la Tabla puede verse que el fútbol es el deporte de mayor preferencia seguido por la
natación.

El deporte menos elegido por la muestra estudiantes es el rugby.

Evidentemente se pueden realizar otras lecturas y llegar a otras oclusiones a partir del análisis de
la tabla.

La Tabla (1.1) muestra la cantidad (frecuencia absoluta) de observaciones correspondientes a cada


una de las categorías de la variable.

En muchas situaciones prácticas interesa conocer la proporción o porcentajes de observaciones


pertenecientes a cada categoría.

Si se tiene un conjunto de n observaciones pertenecientes a una variable categórica, la frecuencia


relativa de la clase i se calcula de la siguiente manera:

fi
fri = (1.1)
n
donde fri es la frecuencia relativa de la clase i y fi su frecuencia absoluta.

La frecuencia porcentual es la igual a la frecuencia relativa multiplicada por 100.

Completamos la Tabla (1.1) con las frecuencias relativas y las porcentuales obteniendo de esta
manera la Tabla (1.2).

Analizando la Tabla (1.2) puede verse que el 38 % de los estudiantes encuestados preere el fútbol.

Además, el fútbol y la natación acaparan el 64 % de las preferencias.

Obviamente se pueden realizar otras lecturas e interpretaciones.

12
Deporte preferido Frec. Absoluta Frec. Relativa Frec. Porcentual
Fútbol 19 0,38 38
Básquet 8 0,16 16
Rugby 5 0,10 10
Natación 13 0,26 26
Ninguno 5 0,10 10
Total 50 1,00 100

Tabla 1.2: Frecuencias relativas y porcentuales

1.4.2. Gráco de barras y diagramas circulares


Un gráco de barras es una forma gráca de representar observaciones de una variable cualitativa
que han sido resumidos previamente en una tabla de frecuencias.

Para la construcción de un gráco de barras se procede de la siguiente manera:

1. Se trazan un par de ejes perpendiculares entre si (uno horizontal)

2. Sobre el eje horizontal se registran las distintas categorías de la variable

3. Sobre el eje vertical se registran las frecuencias absolutas o relativas de cada una de las
categorías de la variable (depende de qué se graca)

4. A partir de los puntos del eje horizontal que representan las categorías de la variable se
levantan barras cuyas alturas indican las frecuencias (absolutas o relativas) de cada categoría

5. Las barras se separan con el de indicar que cada clase es una categoría independiente

En la Figura 1.1 se presenta el diagrama de barras de frecuencias absolutas construido a partir de


los datos de la Tabla (1.2).

Figura 1.1: Diagrama de barras

El gráco de barras para frecuencias relativas es similar al de frecuencias absolutas solo que en el
eje vertical se registran las frecuencias relativas.

Los diagramas circulares se pueden utilizar también para representar tablas de frecuencias para
datos cualitativos.

Supongamos que se quiera representar las frecuencias relativas registradas en la Tabla (1.2).

13
Para ello se dibuja un círculo y posteriormente se lo divide en sectores o partes proporcionales a
la frecuencia relativa de cada clase.

Para determinar los sectores correspondientes a cada clase se razona de la siguiente manera: hay
360 grados en el círculo y en él se representarán el 100 % de las observaciones.

Como el fútbol tiene un 38 % de las observaciones le corresponderá un sector de 136,8 grados


aproximadamente.

El resto de los sectores se calcula de la misma manera.

El diagrama circular para los datos de la Tabla (1.2) se muestra en la Figura (1.2).

Figura 1.2: Diagrama circular. Datos de la Tabla (1.2)

Hasta el momento hemos visto algunas herramientas que se utilizan para resumir la información
proveniente de una variable categórica.
2

Presentamos a continuación algunas de las herramientas estadísticas utilizadas para organizar,


resumir y describir datos provenientes de una variable cuantitativa.

1.4.3. Resumen de datos. Variable cuantitativa


Las tablas de frecuencias pueden utilizarse tanto para variables cualitativas como cuantitativas.

Sin embargo, las tablas de frecuencias para variables cuantitativas son un poco más elaboradas.

Una tabla de frecuencias para una variable cuantitativa, en su forma más simple, es una tabla que
se construye de la siguiente manera:

En la primera columna se enumeran las clases o intervalos en los cuales se agruparan los
valores de la variable

En la segunda columna se registran las clases o intervalos de agrupación

En la tercera columna se registran las frecuencias absolutas o relativas de cada una de las
categorías

En el siguiente ejemplo presentamos una tabla de frecuencias para datos cuantitativos con el n
de mostrar cuáles son sus partes. Luego veremos cómo se las construye.

Suponga que el jefe de producción de una fábrica de barras de acero desea analizar la variación de
las longitudes de las barras producidas cierto día en la fábrica.

Como se producen diariamente una gran cantidad de barras toma una muestra aleatoria simple de
50 barras y decide resumir las longitudes observadas en una tabla de frecuencias.

2 No debe quedar la idea de que éstas son las únicas herramientas. Existe una gran variedad de ellas que no
analizamos por cuestiones de espacio y tiempo

14
En la Tabla (1.3) se presenta la tabla de frecuencias de la longitud, en pulgadas, de la muestra de
50 barras de acero.
3

Clase Longitud en pulgadas Frecuencia absoluta fi


1 53 - 55 2
2 56 - 58 5
3 59 - 61 9
4 62 - 64 15
5 65 - 67 12
6 68 - 70 5
7 71 - 73 5
Total ... 50

Tabla 1.3: Longitud en pulgadas. Muestra de 50 barras

En la primera columna de la tabla aparecen enumerados los intervalos o clases. En este ejemplo se
decidió agrupar los valores de la variable en 7 intervalos de igual amplitud.

La segunda es la columna de los intervalos de agrupamiento de los valores de la variable longitud


en pulgadas de una muestra aleatoria de 50 barras de acero.
La tercera columna nos indica el número de observaciones (frecuencia absoluta) que se registra en
cada intervalo.

Así, en el intervalo [63  65] se cuentan 2 barras, es decir, hay dos barras cuyas longitudes están
comprendidas en ese intervalo mientras que en el intervalo [62 - 64] se contabilizaron 15 barras,
etc.

Si bien es cierto, al agrupar las observaciones en una tabla de frecuencias se pierde información en
el proceso de condensación, se obtiene una mejor aproximación en la identicación de las caracte-
rísticas más sobresaliente del conjunto de observaciones.

¾Cómo se construye una tabla de frecuencias para una variable cuantitativa?

La primera cuestión que debe resolverse es la decidir cuántos intervalos (clases) se considerarán.
La cantidad de intervalos dependerá principalmente de cuantos datos tenga el analista.

El número de intervalos no puede ser muy grande (longitud de los intervalos muy pequeña). De ser
así, cada clase o intervalo tendrá muy pocos datos o incluso ninguno ocultándose de esta manera
las propiedades de las observaciones.

Un número pequeño de intervalos (longitud grande) puede ocultar también la naturaleza general
de las observaciones.

Presentamos a continuación algunas recomendaciones que pueden ayudar a construir una tabla de
frecuencias para datos cuantitativos.

Regla 1: número de intervalos

El número de intervalos debe seleccionarse de acuerdo con el número de observaciones.

Se dan a continuación algunas recomendaciones para decidir el número de intervalos cuando se


pretende construir una tabla de frecuencias para datos de una variable cuantitativa.

En la Tabla (1.4) se muestra la relación aproximada entre el número de datos y de intervalos


sugerido.

Otra manera de determinar, también de manea aproximada, el número de intervalos es por medio
de la fórmula de Sturges. Si con k representamos el número de intervalos y con n el tamaño de la
muestra, entonces la expresión

k = 1 + 3, 322 log(n) (1.2)

puede utilizarse para determinar de manera aproximada el número de intervalos necesarios para
agrupar los valores de la variable.

3 Una pulgada es aproximadamente igual a 2,5 cm

15
Tamaño de la muestra Número de intervalos
Menos de 50 5 - 7
De 50 a 100 7 - 8
De 101 a 500 8 - 10
De 501 a 1 000 10 - 11
De 1 001 a 5 000 11 - 14
Más de 5 000 14 - 20

Tabla 1.4: Relación entre el número de observaciones y el número de intervalos

Regla 2: Amplitud de los intervalos

Una vez elegido el valor de k , el siguiente paso es determinar la longitud o amplitud de los intervalos.
Esto puede hacerse, también en forma aproximada, utilizando la siguiente ecuación:

xM − xm
l= (1.3)
k
donde xM es el dato mayor y xm el dato menor del conjunto de observaciones.

El primer intervalo debe contener el menor de los datos y el último el mayor. Es recomendable que
todos los intervalos tengan la misma longitud.

Se construye una tabla en la cual, en la primera columna se identican las clases (1, 2, ..., k).
En la segunda se denen los intervalos. En la tercera columna se registran las frecuencias absolutas.

Consideremos todas estas recomendaciones para solucionar el siguiente ejemplo.

Ejemplo 1.1 Suponga que el jefe de producción de una empresa metalúrgica desea analizar como
varían las longitudes, en pulgadas, de las barras de acero producidas cierto día por la empresa.
Para ello toma una muestra aleatoria de 50 barras producidas ese día, las mide, y decide agrupar
la información en una tabla de frecuencias. Los datos recogidos se presentan en la Tabla (1.5).

65 63 65 63 69 67 53 58 60 61
64 65 64 72 68 66 55 57 60 62
64 65 64 71 68 66 56 59 61 62
63 65 63 70 67 66 57 59 61 62
64 64 63 69 67 66 58 60 61 62

Tabla 1.5: Longitud de una muestra de 50 barras de acero

En primer lugar el jefe de producción debe calcular el número aproximado de intervalos que tendrá
su tabla de frecuencias.

Suponga que decide utilizar la fórmula de Sturges. Entonces

k = 1 + 3.322 log(50) = 6.67

Puede tomar k=7 intervalos.

En el siguiente paso calcular de forma aproximada la longitud de cada clase o intervalo.

Analizando la Tabla (1.5) puede verse que xM = 72 y xm = 53, por lo tanto;

72 − 53
l= = 2, 7
7
Puede tomar l = 3.
Ahora debe decidir dónde comienza el primer intervalo.

Lo que habitualmente se hace es considerar el comienzo del primer intervalo en el dato menor, es
decir 53.

16
Como la longitud de los intervalos es 3, el primer intervalo es [53  55], el segundo será [56  58],
etc.

Una vez construidas las dos primeras columnas de la tabla, el siguiente paso es contar cuantas
observaciones (frecuencia absoluta) quedan comprendidas dentro de cada intervalo.

En el primer intervalo quedan incluidas dos longitudes, 53 y 55, por lo tanto, f1 = 2.


En el segundo intervalo quedan incluidas las longitudes 58, 57, 56, 57 y 58, por lo tanto f 2 = 5,
etc.

Por último, se coloca toda esta información en una tabla obteniéndose como resultado la Tabla
(1.3).

Observe que los intervalos considerados están separados entre sí por una unidad. Esto sugiere que
la variable longitud da saltos de una unidad de intervalo a intervalo lo cual parece no tener sentido
con la condición de continuidad de dicho la misma.

Por otro lado, ¾en que intervalo se ubicaría una longitud de x = 55, 5 pulgadas?

Con el propósito de construir una tabla que reeje la idea de continuidad de la variable, los
intervalos deben estar unidos. Para ello se procede de la siguiente manera:

52+53
1. El extremo inferior del primer intervalo se sustituye por
2 = 52, 5.
55+56
2. El extremo superior del primer intervalo se reemplaza por
2 = 55, 5. Este valor pasa a
ser el extremo superior del primer intervalo y el extremo inferior del segundo.

3. Se continúa de la misma manera con el resto de los intervalos y el resultado nal se presenta
en la Tabla (1.6).

Clase Intervalo Frecuencia absoluta fi


1 52,5  55,5 2
2 55,5  58,5 5
3 58,5  61,5 9
4 61,5  64,5 15
5 64,5  67,5 12
6 67,5  70,5 5
7 70,5  73,5 2
Total ... 50

Tabla 1.6: Tabla de frecuencias. Intervalos reales

Denidos de esta manera los intervalos quedan cerrados dando la idea de continuidad de la variable.
Cuando los intervalos se denen como en la Tabla (1.6) reciben el nombre de intervalos reales. Los
intervalos denido en la Tabla (1.3) reciben el nombre de intervalos cticios.
La tabla de frecuencias absolutas puede completarse para obtener más información de las observa-
ciones.

Para ello damos algunas deniciones adicionales.

Denición 1.6 Se denomina marca de clase del intervalo i al punto medio del intervalo de clase
correspondiente. Habitualmente se simboliza mi .

Si consideramos el primer intervalo tendremos:

52, 5 + 55, 5
m1 = = 54
2
Procediendo de la misma manera con los otros intervalos se obtiene

m2 = 57, m3 = 60, · · · , m7 = 72

17
Denición 1.7 Se llama frecuencia acumulada absoluta de la clase i al número que resulta de
sumar la frecuencia absoluta de la clase i con las frecuencias de las clases que le anteceden. Es
habitual denotarla como Fi .

Por lo tanto:

F1 = 2; F2 = 2 + 5 = 7; F3 = 9 + 7 = 16; · · · ; F7 = 50

Denición 1.8 Se llama frecuencia relativa de la clase i al cociente entre la frecuencia absoluta
de la clase y el total de datos. La simbolizaremos fri .

Es decir:

fi
fri =
n

Note que se trata de la misma denición que la utilizada para variables categóricas.
2 5
Así, para el primer intervalo, fr1 = 50 = 0, 04; para el segundo intervalo fr2 = 50 = 0, 10, etc.

Denición 1.9 Se llama frecuencia relativa acumulada de la clase i al número que resulta de
sumar la frecuencia relativa de la clase i con la frecuencia relativa de las clases que le anteceden.
La simbolizaremos Fri .

Para el primer intervalo de la tabla de frecuencias se tiene Fr1 = 0, 04, para el segundo Fr2 = 0, 14
y así sucesivamente hasta Fr7 = 1, 00.
Toda esta nueva información además da la anterior se muestran en la Tabla (1.7).

Clase Longitud MC fi Fi Fr Fri


1 52,5  55,5 54 2 2 0,04 0,04
2 55,5  58,5 57 5 7 0,10 0,14
3 58,5  61,5 60 9 16 0,18 0,32
4 61,5  64,5 63 15 31 0,30 0,62
5 64,5  67,5 66 12 43 0,24 0,86
6 67,5  70,5 69 5 48 0,10 0,96
7 70,5  73,5 72 2 50 0,04 1,00
Total ... ... 50 ... 1,00 ...

Tabla 1.7: Frecuencias absolutas y relativas

¾Cómo se interpretan las cantidades de la Tabla (1.7)?

Consideremos por ejemplo el cuarto intervalo.

Hay 15 barras de cuyas longitudes están comprendidas entre 61,5 y 64,5 pulgadas

Hay 31 barras cuyas longitudes son menores o iguales a 64,5 pulgadas

El 30 por ciento de las barras tienen una longitud comprendida entre 61,5 y 64,5 pulgadas

El 62 por ciento de las barras tiene una longitud menor o igual 64,5 pulgadas

El resto de los intervalo puede interpretarse de manera semejante.

18
1.4.4. Histogramas
Un histograma es una representación visual de los datos resumidos en una tabla de frecuencias de
una variable cuantitativa continua.

Es similar a un gráco de barras para datos de una variable cualitativa solo que ahora las barras
se colocan unidas para dar una idea de continuidad de la variable.

Un histograma se construye de la siguiente manera:

1. Se trazan un par de ejes perpendiculares, uno horizontal

2. Las bases de las barras se localizan en el eje horizontal siendo el ancho de las barras igual a
la longitud de los intervalos

3. Las alturas de las barras se registran sobre el eje vertical y corresponden a las frecuencias
(absolutas o relativas) de cada una de las clases o intervalos de la variable

4. Las áreas de las barras son proporcionales a las frecuencias de cada una de las clases

En la Figura (1.3) se presenta el histograma de frecuencias absolutas de la variable longitud en


pulgadas de una muestra de 50 barras de acero.

Figura 1.3: Histograma de frecuencias absolutas

Los intervalos están centrados en las marcas de clase para simplicar la construcción del gráco.

El histograma muestra algunas de las propiedades más sobresalientes del conjunto de observaciones.

Por ejemplo, los datos están centradas alrededor del valor x = 63.
Además, la disposición de las frecuencias respecto de x = 63 es aproximadamente simétrica.

Un poco más adelante ahondaremos estos temas y veremos como expresarlos en forma numérica.

1.4.5. Polígonos de frecuencias


Otro recurso gráco que sirve para describir un conjunto de observaciones de una variable cuanti-
tativa continua es el polígono de frecuencias.

Se construye utilizando un par de ejes perpendiculares (uno horizontal) colocando sobre cada marca
de clase un punto a una altura igual a la frecuencia asociada a dicha clase, luego se unen dichos
puntos con segmentos de recta.

Para que el polígono quede cerrado se considera, sobre el eje horizontal, un intervalo más al inicio
y otro al nal, ambos con frecuencia cero.

Puede superponerse el polígono de frecuencias con el histograma o no. En la Figura 1.4 se muestra
el polígono para los datos del ejemplo que estamos analizando.

19
Figura 1.4: Polígono de frecuencias absolutas

El polígono de frecuencias al ser construido a partir de los datos muestrales se puede considerar
como una representación aproximada del comportamiento poblacional, el cual para poblaciones
innitas o muy grandes está dada por una curva continua.
Esta curva continua recibe el nombre de curva de frecuencias. En la Figura (1.5) se muestra una
curva de frecuencias para un caso hipotético superpuesta con el histograma de la variable.

Para todos los nes prácticos la curva de frecuencia puede considerarse una representación del
histograma.

Figura 1.5: Curva de frecuencias

Los métodos tabulares y grácos tienen como función principal lograr que se aprecien de manera
rápida las principales características de los datos.

Sin embargo, las técnicas tabulares y grácas presentan limitaciones importantes.

Por ejemplo, estas técnicas no pueden ser utilizadas para realizar inferencias (n que generalmente
se persigue) aunque si pueden ser el punto de partida para algunos procesos de este tipo.

Las tablas y los grácos descriptivos casi siempre son acompañados por medidas descriptivas nu-
méricas con el n de completar el análisis y preparar el camino para la aplicación de técnicas
inferenciales.
P
Previamente deniremos el operador sumatoria ( ) y analizaremos algunas de sus propiedades
más importantes.

20
1.5. El operador sumatoria
P

El operador sumatoria es muy utilizado en Matemática y en Estadística en particular.

Algunos parámetros y estimadores incluyen en su denición la suma de varios valores de una


variable.

Por ejemplo, si se tiene una sucesión de observaciones de una variable cuantitativa x1 , x2 , ..., xn su
suma se puede representar de la siguiente manera utilizando el operador sumatoria:

n
X
x1 + x2 + ... + xn = xi
i=1

Se pueden combinar otras operaciones matemáticas con la sumatoria. Por ejemplo, si se quieren
sumar los cuadrados de cada uno de los datos, la simbología que puede utilizarse es la siguiente:

n
X
x21 + x22 + ... + x2n = x2i
i=1

Algunas propiedades de la sumatoria se presentan a continuación.

Primera propiedad
Si k es una constante, entonces:

n
X
k = nk
i=1

Demostración:

Simplemente se aplica la denición de sumatoria. Por lo tanto:

n
X
k = k + k + ... + k = nk
| {z }
i=1 n

Por ejemplo:

5
X
2 = 2 + 2 + 2 + 2 + 2 = 5 × 2 = 10
i=1

Segunda propiedad
Si k es una constante, entonces

n
X n
X
kxi = k xi
i=1 i=1

Demostración:

Aplicando la denición de sumatoria tendremos

n
X
kxi = kx1 + kx2 + ... + kxn
i=1

Sacando k como factor común de la suma obtenemos:

21
n
X n
X
kxi = k(x1 + x2 + ... + xn ) = k xi
i=1 i=1

Por denición de sumatoria.

Tercera propiedad

n
X n
X n
X
(xi + yi ) = xi + yi
i=1 i=1 i=1

Esta propiedad se cumple también si se reemplaza el signo mas por el signo menos.

Veamos como se puede probar esta propiedad.

Por denición de sumatoria:

n
X
(xi + yi ) = (x1 + y1 ) + (x2 + y2 ) + · · · + (xn + yn )
i=1

Por propiedad conmutativa y asociativa de la suma:

n
X
(xi + yi ) = (x1 + x2 + · · · + xn ) + (y1 + y2 + · · · + yn )
i=1

Por lo tanto, aplicando la denición de sumatoria obtenemos

n
X n
X n
X
(xi + yi ) = xi + yi
i=1 i=1 i=1

como se quería demostrar.

Estas propiedades de la sumatoria deberán tenerse en cuenta pues serán utilizadas para la solución
de algunas propiedades de ciertas variables denominadas variables aleatorias.

1.6. Medidas descriptivas numéricas


Presentaremos a continuación algunas de las medidas descriptivas numéricas más utilizadas en
Estadística. Generalmente acompañan a las tablas de frecuencias y grácos y se las utiliza para
describir numéricamente un conjunto de observaciones. Sueles ser también como paso previo a la
aplicación de laguna técnica inferencial.

Existen medidas descriptivas de localización o posición, dispersión, forma, apuntamiento, asocia-


ción etc.
Sin embargo, existen otras medidas descriptivas numéricas que no pertenecen a algunas de estas
categorías por lo que se las suele identicar como otras medidas descriptivas.
Cuando se calculan para las observaciones de una población reciben el nombre de parámetros.
Cuando se calculan para las observaciones de una muestra estadísticos.

1.6.1. Medidas de localización o de posición


Media o promedio
La media o promedio es quizás una de las medidas descriptivas numéricas más utilizadas cuando
se trata de resumir numéricamente datos provenientes de una variable cuantitativa.

22
Cuando se la calcula a partir de los datos de una población se la simboliza con la letra griega µ
(mu). Cuando se la calcula a partir de las observaciones de una muestra tomada de la población
se la simboliza x̄.

Denición 1.10 Sea x1 , x2 , ..., xn observaciones pertenecientes a una muestra de tamaño n. La


media de la muestra o media muestral se dene de la siguiente manera:
Pn
x1 + x2 + · · · + xn i=1 xi
x̄ = = (1.4)
n n

Ejemplo 1.2 En la Tabla (1.8) se presentan los gastos diarios en alimentos de una muestra de
10 familias de la ciudad. Calcular el gasto promedio e interpretar el resultado obtenido.
2.210 2.255 2.350 2.380 2.380 2.390 2.420 2.440 2.450 2.550

Tabla 1.8: Gastos diarios en alimentos. Muestra de 10 familias

Solución

Como se trata de una muestra de n = 10 familias

2.210 + 2.255 + · · · + 2.255


x̄ = = 2.383 $
12
Es decir, en promedio esta muestra de 10 familias gastan 2.383 $ pesos por día en la compra de
alimentos.

Cuando se calcula la media muestral se busca un número que describa o resuma de la mejor manera
el conjunto de observaciones. También se dice que se busca el centro de la distribución.

Supongamos que ahora se cambia la última observación por 10.000 $.

Luego de realizar los cálculos correspondientes se obtiene ahora x̄ = 3.128 $.


Evidentemente este valor no describe correctamente el conjunto de observaciones.

Existen 9 observaciones menores que el promedio y una sola mayor (bastante alejada) de este valor.

Un solo valor extremo, relativamente mayor que el resto, hizo que el valor del promedio se corriera
hacia arriba.

Algo similar puede ocurrir si en lugar de una observación muy grande se agrega una relativamente
pequeña. En dicho caso el valor del promedio puede correrse hacia abajo.

Es importante tener en cuenta que la sola presencia de un valor extremo en el conjunto de obser-
vaciones no necesariamente inuirá signicativamente en el valor de la media. Hay que analizar el
contexto en el cual aparecen estos casos raros.

Por ejemplo, suponga que en la Tabla (1.9) se tiene la distribución de frecuencias de una variable
genérica X.

X Frecuencia absoluta fi
2 20
3 30
4 40
5 30
6 20
100 1

Tabla 1.9: Distribución de frecuencias de X

La media de la variable X se calcula de la siguiente manera:

Pk
i=1 xi fi 2 × 20 + 3 × 30 + · · · + 100 × 1 660
x̄ = = = = 4, 68
k 141 141

23
Como puede verse, la sola presencia de la observación extrema, x = 100 no ocasionó un corrimiento
signicativo del valor del promedio hacia valores más grandes de la variable.

Este hecho tiene que ver con las frecuencias de cada uno de los valores de la variable.

Como el valor x = 4 tiene la mayor frecuencia del conjunto de observaciones, evidentemente tendrá
mayor peso cuando se calcula el promedio, mucho más que x = 100 que solo tiene una frecuencia
igual a uno.

La media de una población nita de tamaño M se dene de la siguiente manera:

Denición 1.11 Sean x1 , x2 , ..., xN las observaciones de una población. La media poblacional se
dene de la siguiente manera:
PN
i=1 xi
µ= (1.5)
N
Por lo general, la media de una población es desconocida y hay que estimarla. Más adelante
analizaremos en detalle los procesos inferenciales para estimar parámetros poblacionales.

No obstante, y dada la importancia del concepto, damos una idea de como puede estimarse la
media de una población.

Suponga que un analista de mercados quiera saber cual es la renta promedio de todas las familias
de una gran ciudad.

Entrevistar a todas y cada una de las familias de la ciudad puede resultar prohibitivo por razones
del costo y del tiempo que insumiría realizar semejante tarea.

En general se procede de la siguiente manera:

1. Se una muestra aleatoria de familias

2. Se calcula la media muestral x̄


3. Se utiliza el valor de x̄ como estimación de µ

Esta forma de proceder es el fundamento de la inferencia estadística.

Media ponderada
Suponga que una empresa comercial paga a sus vendedores como sueldo básico 6, 7 y 8 dólares por
hora.

Se puede llegar a la conclusión de que, en promedio, los vendedores ganan

6+7+8
x̄ = = 7 dólares
3
Este resultado sería correcto si hubiese el mismo número de vendedores que perciben esas sumas
por hora.

Suponga ahora que 14 vendedores ganan 6; que a 10 vendedores se les paga 7 y que solo 2 vendedores
cobran 8 dólares por hora.

Para calcular la media, 6 debe ponderarse por 14, 7 ponderarse por 10 y 7 se debe ponderar por 2.

la cantidad resultante se lo denomina media o promedio ponderado y se la simboliza x̄w . Es decir

6 × 14 + 7 × 10 + 8 × 2
x̄w = = 6, 53 $
14 + 10 + 2
Denición 1.12 Sea x1 , x2 , . . . , xn una muestra de tamaño n donde las observaciones tienen pon-
deraciones w1 ; w2 , ..., wn respectivamente. La media ponderada se dene de la siguiente manera
Pn
x1 w1 + x2 w2 + · · · + xn wn xi w i
x̄ = = Pi=1
n (1.6)
w1 + w2 + · · · + wn i=1 wi

24
En este ejemplo los valores de la variable se han ponderado por su frecuencia absoluta pero no
necesariamente siempre debe ser así.

Las observaciones puede ponderarse por algún índice de antigüedad, por la categoría del empleado,
etc.

Mediana
Si bien es cierto la media o promedio es tal vez la medida de posición central más utilizada cuando
se quiere describir numéricamente un conjunto de observaciones pertenecientes a una variable
cuantitativa, no siempre es aconsejable su uso. Por ejemplo, cuando existen valores extremos de la
variable que se sabe pueden afectar el valor del promedio.

Denimos a continuación a la mediana, otra de las medidas de posición central muy utilizada.

Denición 1.13 La mediana es el valor intermedio de las observaciones cuando previamente han
sido ordenadas de manera ascendente.

La mediana de una población o de una muestra se simbolizan indistintamente Me .


Luego de ordenar las observaciones de manera ascendente, se debe vericar si se tiene un número
par o impar de observaciones. Veamos como se procede en cada caso.

Supongamos que se busca encontrar la mediana del siguiente conjunto de observaciones: 46, 54, 42, 50, 32.
En primer lugar hay que ordenar las observaciones de manera ascendente.

Ordenado los datos obtenemos:

32 42 46 50 54

Como se trata de un número impar de datos, hay un único valor central. Este valor se le asigna a
la mediana. O sea: Me = 46
Consideremos nuevamente los datos del Ejemplo (1.2). (Gastos diarios en alimentos)

Puede verse que las observaciones ya están ordenadas de forma ascendente.

Como ahora se trata de un número par de observaciones no existe un único valor central.

En estos casos la mediana se toma como el promedio de las dos observaciones centrales.

Por lo tanto:

2.380 + 2.390
Me = = 2.385 pesos
2
Si se cambia la última observación por 10.000 la mediana seguirá siendo igual a 2.385 pesos.

Por lo tanto, la mediana no se ve afectada por valores extremos en el conjunto de observaciones.


La mediana es una medida descriptiva muy fácil de interpretar y de calcular.

No obstante, uno de sus inconvenientes es que para calcularla no se consideran todas las observa-
ciones, es decir no se considera toda la información disponible.

Moda o modo
Es otra de las medidas descriptivas numéricas más utilizadas cuando se describe un conjunto de
observaciones.

Se la dene de la siguiente manera:

Denición 1.14 La moda es el valor de la variable o la categoría de la variable que presenta


mayor frecuencia. La simbolizaremos Mo tanto para una población como para una muestra tomada
de una población.

25
La moda es una medida descriptiva numérica que puede utilizarse tanto para variables cualitativas
como cuantitativas.

Por ejemplo, si consideramos nuevamente los datos del Ejemplo (1.2), Mo = 2.380 pesos con una
frecuencia absoluta igual a dos. El resto de los valores de la variable tienen todos una frecuencia
igual a uno.

Si consideramos la variable deporte preferido cuya distribución de frecuencias se resume en la Tabla


(1.1) de la página 10, la moda es Mo = fútbol con una frecuencia absoluta igual a 19.

La moda también es una medida descriptiva fácil de calcular e interpretar. Es una excelente medida
descriptiva para variables categóricas.

Sin embargo también tiene algunos inconvenientes. No utiliza toda la información cuando se la
calcula, pueden existir datos con dos o más modas. Finalmente, puede haber conjuntos de datos
que no tengan moda. En casos como estos la moda no es una medida descriptiva muy útil.

Proporción
Denición 1.15 La proporción muestral simbolizada p̄ se dene como la fracción de las observa-
ciones de una muestra que posee cierta característica o propiedad.

Por ejemplo, si en un grupo de 80 estudiantes de una facultad, 15 pertenecen al ultimo año de su


carrera, entonces

15
p̄ = = 0, 1875
80
o el 18,75 % de los estudiantes de la muestra están cursado el ultimo año de su carrera.

Si la población estudiada es nita y de tamaño moderado, se podrá calcular la proporción poblacio-


nal efectuando el cociente entre todas las unidades observacionales que tienen la propiedad deseada
(número de éxitos) y el número total de unidades observacionales de la población. Es decir:

X
p= (1.7)
N
donde X es el número de éxitos en la población y N su tamaño.

Si la población objetivo se extrae una muestra de tamaño n y el ella se encuentran x éxitos, entonces

x
p̄ = (1.8)
n

Percentiles
Los percentiles suelen clasicarse dentro de la categoría de medidas descriptivas de posición no
centrales.
Un percentil da información acerca de cómo se distribuyen los datos sobre ciertos intervalos.

Denición 1.16 El p − simo percentil es el valor tal que por lo menos un p por ciento de las
observaciones tiene dicho valor o menos y un (1 − p) por ciento de las observaciones tiene ese
valor o más.

Para ver la utilidad práctica de los percentiles analicemos la siguiente situación hipotética. Suponga
que un estudiante ha obtenido una calicación de 8 puntos en una evaluación de Estadística.

Si el profesor quiere indagar cuál ha sido el desempeño del estudiante respecto del conjunto total,
lo ideal es calcular un percentil.

Si la calicación 8 se corresponde con el percentil 70, es decir, si P70 = 8, el profesor sabrá que
aproximadamente el 70 % de los estudiantes tuvo una calicación menor o igual que 8 puntos y
que más o menos un 30 % de los estudiantes obtuvo una nota superior a 8 puntos.

26
Para calcular el p-ésimo percentil de un conjunto de observaciones se procede de la siguiente
manera:

1. Ordenar los datos de menor a mayor

p

2. Calcular la cantidad i= 100 n donde p es el percentil de interés y n la cantidad de obser-
vaciones

a) Si i no es un número entero, se redondea su valor. El entero inmediato superior que i


indica la posición del p-ésimo percentil

b) Si i es entero, el p-ésimo percentil es el promedio de las observaciones ubicadas en las


posiciones i e i+1 de la serie de datos

Ejemplo 1.3 Utilizando los datos del Ejemplo (1.2) calcular e interpretar los percentiles 50 y 85.
Solución

Las observaciones ya se encuentran ordenadas.

Comenzamos calculando el percentil 50. Primero hallamos i:


 
50
i= 10 = 5
100
Como i es un número entero, el percentil 50 se calcula promediando las observaciones ubicadas en
quinta y sexta posición del conjunto de datos.

Por lo tanto

2.380 + 2.390
P50 = = 2.385
2
Note que el percentil 50 es igual a la mediana.

Podemos decir que más aproximadamente el 50 % de los gastos en alimentos son menores o iguales
a 2 385 pesos por día y el otro 50 % de los gastos son mayores que este valor.

Busquemos ahora el percentil 85.

 
85
i= 10 = 8, 5
100
Como i no es entero redondeamos su valor al entero inmediato superior. Por lo tanto, el percentil
85 se encuentra en la novena posición del conjunto de observaciones. Luego: P85 = 2 450 pesos.

Podemos armar que aproximadamente el 85 por ciento de los gastos en alimentos es menor o igual
a 2 450 pesos y que aproximadamente el 15 por ciento de los gastos son mayores a este valor.

Cuartiles
.

Con frecuencia, se busca dividir un conjunto de observaciones en cuatro partes, cada una con el
25 % de los datos.

A los puntos de división se los llama cuartiles y se los dene de la siguiente manera:

Q1 = Primer cuartil o percentil 25

Q2 = Segundo cuartil o percentil 50 (es igual a la mediana)

Q3 = Tercer cuartil o percentil 75

Ejemplo 1.4 Utilizando la información del Ejemplo 1.2 calcular e interpretar los cuartiles Q1 , Q2
y Q3 .

27
Solución

Como los cuartiles no son más que casos especiales de percentiles se los determina e interpreta de
la misma manera.

Primer cuartil:

 
25
i= 10 = 2.5
100
Por lo tanto

Q1 = 2 350

Podemos decir entonces que aproximadamente un 25 % de los gastos diarios en alimentos es menor
o igual a 2 385 pesos y que aproximadamente el 75 % de los gastos diarios en alimentos son mayores
que este valor.

Segundo cuartil:

El segundo cuartil se corresponde con la median y ya fue calculado. Su valor es Q2 = Me = 2 385


Tercer cuartil:

 
75
i= 10 = 7.5
100
Por lo tanto

Q3 = 2 440

Se deja como tarea interpretar este resultado.

1.6.2. Medidas de variabilidad


Ademas de las medidas de localización o posición, siempre es necesario considerar alguna medida
de dispersión o variabilidad para una completa descripción de los datos.

Analicemos el siguiente ejemplo.

Ejemplo 1.5 Dos departamentos de 10 trabajadores cada uno produjeron las siguientes cantidades
de un mismo producto cierto día de trabajo:

Departamento 1 7 8 8 9 9 9 9 10 10 11
Departamento 2 3 4 5 6 9 9 12 13 14 15

Tabla 1.10: Datos para el Ejemplo (1.5)

Analice las propiedades de la variable número de productos fabricados por los operarios de los dos
departamentos.

Solución

Puede comprobarse que la producción media en los dos departamentos es la misma e igual a 9
unidades, es decir, x̄1 = x̄2 = 9. Pero como veremos, la producción del departamento 2 está mas
dispersa respecto de su media.

Para el Departamento 1 la diferencia entre el promedio x̄ = 9 y los dos valores extremos (7 y 11)
es igual a 3 mientras que la diferencia entre la media x̄ = 9 y los dos valores extremos (3 y 15)
para el Departamento 2 es igual a 6.

Evidentemente las observaciones en el primer departamento están más concentradas respecto de


su media que en segundo.

28
Es decir, no alcanza solo la media para describir completamente los dos conjuntos de observaciones.

Algunas de las razones por las cuales es necesario considerar siempre alguna medida de variabilidad
conjuntamente con las posición son las siguientes:

Las medidas de variabilidad permiten investigar la representatividad del promedio o medida


de localización utilizada. Una dispersión de las observaciones relativamente pequeña respecto
del promedio indicará que se encuentran concentradas alrededor del mismo. En este caso,
el promedio podrá considerarse representativo del conjunto de datos. Por el contrario, una
dispersión relativamente grande respecto del promedio indicará que las observaciones se en-
cuentran no muy concentradas alrededor de su valor central. En este caso el promedio no
será una una medida representativa del conjunto de observaciones

Una medida de dispersión permite comparar la variabilidad de dos o más conjunto de obser-
vaciones.

Una medida de variabilidad es un número que indica el grado de dispersión de un conjunto de


datos. Si el número es pequeño respecto de la unidad de medida de la variable, entonces habrá
una gran homogeneidad entre los datos. Por el contrario, un valor relativamente grande indicará
que hay poca homogeneidad en las observaciones
A continuación analizaremos algunas de las medidas de dispersión más utilizadas cuando se busca
completar la descripción de un conjunto de observaciones de una variable cuantitativa.

Rango o amplitud
Denición 1.17 El rango o amplitud de un conjunto de datos es igual a la diferencia entre el
mayor valor de las observaciones y la menor.
Es decir:

XM − Xm (1.9)

donde XM es la observación más grande y Xm es la más pequeña.

Ejemplo 1.6 Las capacidades de varios recipientes metálicos 38, 20, 37, 64 y 27 litros. Hallar la
amplitud o rango del conjunto de observaciones.
Solución

Como XM = 64 y Xm = 20 entonces A = 64 − 20 = 44 litros.

El rango es fácil de calcular e interpretar y es una forma usual de describir la dispersión, especial-
mente cuando el objetivo de la investigación es determinar alcance de las variaciones extremas.

Por ejemplo, el rendimiento de una acción en la bolsa de valores se suele dar a conocer por su
amplitud, es decir por la diferencia entre su valores mayor y menor en la ronda de ese día.

También es muy utilizada en el control estadístico de calidad.

La amplitud es muy sensible a valores extremos de la variable. Además, al no tener en cuenta


ninguna medida de posición , no informa nada acerca de cómo se comportan los datos respecto del
centro.

Rango intercuartílico
El rango intercuartílico o (RIC) mide la dispersión que hay en el 50 por ciento central de los
datos. Es la diferencia entre la observación del tercer cuartil Q3 (o percentil 75) y la observación
correspondiente al primer cuartil Q1 (o percentil 25).

Por lo tanto:

RIC = Q3 − Q1 (1.10)

29
Ejemplo 1.7 Calcular el rango intercuartílico de los gastos diarios en alimentos de la muestra de
10 familias de la ciudad (Ejemplo 1.2)

Solución

De acuerdo con los resultas del Ejemplo 1.4 sabemos que Q1 = 2 350 $ y que Q3 = 2 440 $ .Por lo
tanto

RIC = 2 440 − 2 350 = 90 $

Podemos decir que en un rango de 90 $ se encuentran los gastos en alimentos del 50 % central de
las familias de la ciudad.

Desviación media
Esta medida de dispersión, a diferencia del rango, utiliza todas las observaciones disponibles para
su cálculo.

Se la suele denominar desviación promedio porque calcula el promedio de las desviaciones de las
observaciones respecto de su media.

Denición 1.18 Sean x1 , x2 , ..., xn observaciones de una muestra de tamaño n tomada de una
población. La desviación media muestral se dene de la siguiente manera:
Pn
i=1 |xi − x̄|
DM = (1.11)
n
donde x̄ es la media de la muestra.

Analizando la denición de la desviación media, cada término |xi − x̄| no es más que la distancia
de xi a la media del grupo.

Por lo tanto, la desviación media puede interpretarse como la distancia promedio de las observa-
ciones respecto de su media.

Si se tienen x1 , x2 , ..., xN observaciones pertenecientes a una población de tamaño N , la desviación


media poblacional se dene de la siguiente manera:

PN
i=1 |xi − µ|
DM = (1.12)
N
donde µ es la media de la población.

Ejemplo 1.8 Los pesos, en kilogramos, de una muestra de 5 cajas listas para embarcarse son los
siguientes: 103;97;101;106 y 103 kilogramos. Calcular e interpretar la desviación media.

Solución

Media muestral

103 + 97 + ... + 103


x̄ = = 102
5
Luego. el peso promedio de las 5 cajas es 102 kg.

Por lo tanto:

|103 − 102| + |97 − 102| + ... + |103 − 102|


DM = = 2.4
5
Podemos armar que, en promedio, los pesos de las cajas se desvían 2,4 kilogramos de la media
del grupo.

30
Una pregunta que merece la pena formularse es la de porqué utilizar la suma de los valores absolutos
Pn
de las diferencias en lugar de tomar directamente la suma de las diferencias i=1 (xi − x̄)
Pn
La respuesta es que i=1 (xi − x̄) = 0 como puede demostrarse aplicándose algunas propiedades
de la sumatoria.

Por lo tanto, denir una medida descriptiva de dispersión que siempre valga cero no tiene ninguna
utilidad.

Varianza
La varianza es una de las medidas de variabilidad más utilizada en Estadística sobre todo cuando
se la combina con otras medidas descriptivas numéricas.

La denimos de la siguiente manera:

Denición 1.19 Sean x1 , x2 , ..., xn observaciones pertenecientes a una muestra de una población.
La varianza muestral se dene de la siguiente manera:
Pn
2 − x̄)2
i=1 (xi (x1 − x̄)2 + (x2 − x̄)2 + · · · + (xn − x̄)2
s = = (1.13)
n−1 n−1

Por ejemplo, considere el siguiente conjunto de observaciones proveniente de una muestra de tamaño
n = 8, 2, 3, 3, 5, 5, 8, 10, 12.
La media o promedio de estas observaciones es:

2 + 3 + · + 12
x̄ = =6
8
Por lo tanto:

(2 − 6)2 + (3 − 5)2 + · · · + (12 − 6)2


s2 = = 13.14
8−1
Analizando la expresión de denición de la varianza puede verse que, exceptuando el hecho de que
la división es por (n − 1) y no por n, la varianza podría interpretarse como el promedio de las
desviaciones al cuadrado de las observaciones respecto de la media aritmética.

El denominador (n − 1) recibe el nombre de grados de libertad concepto que será denido e inter-
pretado más adelante.

La Fórmula (1.13) recibe el nombre de fórmula conceptual o fórmula de denición de la varianza


muestral.
A partir de la fórmula de denición se pude deducir, mediante algunas manipulaciones algebraicas,
la Ecuación 1.14 que recibe el nombre de fórmula de cálculo de la varianza muestral.
Pn Pn 2
2 n i=1 x2i − ( i=1 xi )
s = (1.14)
n(n − 1)

A modo de ejemplo utilizaremos la Fórmula (1.14) para volver a calcular la varianza de los datos
del ejemplo anterior.

En la Tabla (1.11 )se disponen algunos datos adicionales necesarios para calcular la varanza mues-
tral.

Por lo tanto

8(380) − 482
s2 = = 13.14
8×7
Valor que es exactamente igual al calculado con la fórmula de denición.

La varianza de una población de N observaciones se dene de la siguiente manera:

31
Observación x x2
1 2 4
2 3 9
3 3 9
4 5 25
5 5 25
6 8 64
7 10 100
8 12 144
Total 48 380

Tabla 1.11: Datos para el cálculo de la varianza

Denición 1.20 Sen x1 , x2 , ..., xN observaciones de una población de tamaño N . La varianza


poblacional se dene de la siguiente manera:
Pn
i=1 (xi − µ)2
σ2 = (1.15)
N
donde µ es la media de la población y σ la letra griega sigma.

Como puede observarse, el denominador de la varianza muestral es n−1 mientras que el denomi-
nador de la poblacional es N ¾A que se debe esta diferencia? La respuesta es la siguiente: en la
mayoría de los casos la varianza poblacional es desconocida y hay que estimarla. Obviamente se
buscará el mejor estimador de σ2 para su estimación.
Pn 2
Resulta que cuando se divide i=1 (xi − x̄) por n − 1 y no por n se obtiene el mejor estimador de
la varianza poblacional según algunos criterios que veremos en el Capítulo 4.

Ahora bien, si el objetivo es simplemente estudiar la variabilidad de un conjunto de observaciones


Pn
da lo mismo dividir i=1 (xi − x̄)2 por n o por n − 1.

Desviación estándar
La varianza tiene el inconveniente que por su denición se expresa en unidades al cuadrado, como
pesos al cuadrado, kilogramos al cuadrado, etc. lo que diculta su interpretación práctica.

Por éste y otros motivos que iremos analizando se dene una medida de variabilidad derivada de
la varianza denominada desviación estándar.

Denición 1.21 Para un conjunto de n observaciones pertenecientes a una muestra tomada de


una población la desviación estándar de la muestra o desviación estándar muestral, simbolizada s
se dene como la raíz cuadrada positiva de la varianza.

Es decir:


s= s2 (1.16)

La desviación estándar del conjunto de observaciones del ejemplo precedente es:

p
s= 13, 14 = 3, 62

En las secciones siguientes veremos cuál es la utilidad práctica de la desviación estándar.

La desviación estándar poblacional se dene como la raíz cuadrada positiva de la varianza, es decir:


σ= σ2 (1.17)

32
Coeciente de variación
Una comparación directa de dos o más medidas de dispersión, por ejemplo, la desviación estándar
de los sueldos mensuales de un grupo de empleados de una empresa y la desviación estándar del
número de inasistencias mensuales del mismo grupo no tiene sentido.

¾Se puede decir que la desviación estándar de $1 200 para la variable sueldos mensuales de los
empleados es mayor que la desviación estándar de 4,5 días para la variable número de inasistencias
en el mes?

Es obvio que no porque no se pueden comparar directamente pesos y días de inasistencias al trabajo.
Se trata de variables diferentes que miden distintas características de las unidades observacionales.

Con el n de realizar una comparación signicativa de la distribución de los ingresos monetarios y


del número de faltas al lugar de trabajo, es necesario convertir cada una de estas medidas en una
expresión relativa, es decir, en un porcentaje.

Analicemos esta situación. Si se comparan las desviaciones estándar de las ventas de los grandes y
pequeños comercios que venden bienes similares, casi siempre la desviación estándar de los grandes
comercios será mayor que la de los pequeños comercios, no necesariamente porque exista mayor
variabilidad en las ventas, sino por las diferencias en las escalas de medición.

Las ventas de los grandes comercios pueden medirse en millones de pesos al mes y la de los pequeños
comercios en cientos de miles, por ejemplo.

La comparación de la variabilidad de las ventas utilizando solamente la desviación estándar puede


resultar engañosa.

El coeciente de variación de Pearson es una medida de variabilidad relativa que puede utilizarse
para comparar la variabilidad de dos conjuntos de observaciones.

Es una medida de dispersión muy útil cuando:

Los datos están medidos en unidades diferentes

Los datos están en las misma unidades pero en escala muy diferente

Denición 1.22 El coeciente de variación muestral de Pearson, simbolizado CV , es una medida


de dispersión relativa que expresa la desviación estándar como porcentaje de su media (siempre
que la media sea positiva). Es decir:
s
CV = 100 (1.18)

Por ejemplo, supongamos que un conjunto de datos pertenecientes a una muestra tiene una media
x̄ = 44 y una desviación estándar s = 8. El coeciente de variación muestral es:

 
8
CV = 100 = 18, 2 %
44

Supongamos otro conjunto de datos perteneciente a otra muestra tiene una media x̄ = 2 440 y una
desviación estándar s = 165.65.
Este segundo conjunto de datos parece tener mayor variabilidad que el primero si la comparación
se hace solo a partir la desviación estándar.

Si calculamos el coeciente de variación para este segundo grupo obtenemos:

 
165.65
CV = 100 = 6.79 %
2 440

Evidentemente el segundo conjunto tiene menor variabilidad si la comparación se realiza con con
el coeciente de variación

El coeciente de variación poblacional se dene de la siguiente manera:

33
 
σ
CV = 100 (1.19)
µ

Como en general la media y la desviación estándar poblacional en general se desconocen el coe-


ciente de variación poblacional se estima por medio del coeciente de variación muestral

Valores estandarizados
Los distintos conjuntos de datos pueden estar asociados a distintas unidades de medidas ya sea
porque son de naturaleza diferente o porque al ser de la misma característica medida, sus centros
no son los mismos.

Con el propósito de reducir los datos a un mismo punto de referencia y a una escala común, se
realiza entre ellos una transformación denominada estandarización.
El proceso de estandarización de un conjunto de observaciones consiste en lo siguiente:

1. A cada observación xi se le resta la media del grupo x̄

2. Se divide esta diferencia por la desviación estándar del conjunto de observaciones

El valor estandarizado de xi se simboliza zi . O sea

xi − x̄
zi = (1.20)
s
El mismo proceso se realiza si en lugar de trabajar con una muestra se trabaja con las observaciones
de una población.

Veamos un ejemplo.

Suponga que un estudiante ha obtenido una nota igual 8 en la asignatura Estadística. Supongamos
adicionalmente que el promedio del curso en esta asignatura fue x̄1 = 7 con una desviación estándar
s1 = 2.
Este mismo estudiante obtuvo una nota nal en Economía igual a 7 puntos en un curso donde la
nota promedio en esta asignatura fue x̄2 = 6 con una desviación estándar s2 = 3 puntos.

¾En que asignatura obtuvo un puesto relativamente mejor?

Si se decide utilizar como criterio de comparación la diferencia entre la nota nal y la nota promedio
en ambas asignaturas, se debe admitir que en las dos ha obtenido la misma posición ya que la
diferencia en los dos casos es de una unidad.

Pero ¾tiene la misma particularidad una diferencia de un punto respecto del promedio en estos dos
conjuntos de datos con distintas medias y desviaciones estándar? Evidentemente la respuesta es
negativa.

Para determinar la real diferencia se pueden estandarizar las calicaciones obteniéndose los siguien-
tes resultados:

Pata la asignatura Estadística

8−7
z1 = = 0.5
5
Para la asignatura Economía

7−6
z2 = = 0.3
3
Conclusión: como la nota estandarizada en Estadística es mayor que la de Economía, el estudiante
obtuvo un puesto relativamente mejor en Estadística. REVIZAR ESTA CONCLUSIÓN

34
1.7. Regla empírica y desigualdad de Chebyshev
La Regla Empírica y la Desigualdad de Chebyshev son dos reglas muy utilizadas para describir un
conjunto de datos perteneciente a una variable cuantitativa.

Como se verá, la Regla Empírica es más precisa que la Desigualdad de Chebyshev pero de aplicación
restringida debido a las propiedades que deben tener las observaciones.

La Desigualdad de Chebyshev si bien es cierto es menos precisa que la Regla Empírica es mas
general pues se aplica a cualquier conjunto de observaciones siempre que provengan de una variable
cuantitativa.

1.7.1. Regla Empírica


En la regla empírica se combinan la media y la desviación estándar con el n de describir ciertas
propiedades de la una variable cuantitativa.

La Regla Empírica arma que:

Para un conjunto de observaciones de una variable X con una curva de frecuencias en forma de
campana, el intervalo

µ ± σ = [µ − σ ≤ X ≤ µ + σ] contiene aproximadamente el 68 % de las observaciones

µ ± 2σ = [µ − 2σ ≤ X ≤ µ + 2σ] contiene aproximadamente el 95 % de las observaciones

µ ± 3σ = [µ − 3σ ≤ X ≤ µ + 3σ] contiene aproximadamente el 99 % de las observaciones

En la Figura 1.6 se muestra grácamente las armaciones de la Regla Empírica.

Figura 1.6: Regla empírica

Si bien es cierto hemos enunciado la Regla Empírica para las observaciones de una población,
también sigue siendo válida para una muestra tomada de una población.

Ejemplo 1.9 En una línea de producción se llenan automáticamente envases de plásticos con
detergente líquido. El peso de llenado tiene una distribución con forma de campana con un peso
promedio de 16 gramos y una desviación estándar igual a 0,25 gramos. Describir la variable a
partir de lo enunciado por la regla empírica.

Solución

Como la variable X = Peso de los envases de detergente cumple con las condiciones de la regla
tendremos que el intervalo:

35
µ ± σ = 16 ± 0.25 = [15, 75 ≤ X ≤ 16.25] gramos contendrá aproximadamente el 68 % de los
pesos de los envases

µ ± 2σ = 16 ± 2(0.25) = [15.50 ≤ X ≤ 16, 50] gramos contendrá aproximadamente el 95 % de


los pesos de los envases

µ ± 3σ = 16 ± (0.25) = [15.25 ≤ X ≤ 16.75] gramos contendrá aproximadamente el 99 % de


los pesos de los envases

Podemos dar un paso más en la descripción de un conjunto de observaciones combinando la Regla


Empírica y el proceso de estandarización analizado anteriormente.

Los resultados que obtendremos son de suma importancia para los procesos inferenciales que ana-
lizaremos en capítulos posteriores.

En el enunciado de la Regla Empírica analizamos los porcentajes de observaciones contenidas en


intervalos especícos de una variable X con una curva de frecuencias con forma de campana (Figura
1.6)

¾Como se traduce esta regla si en lugar de utilizar los datos originales de la variable X utilizamos
sus valores estandarizados Z?
El valor estandarizado de la media µ se obtiene de la siguiente manera:

µ−µ
z= =0
σ
Para µ+σ su valor estandarizado es:

µ+σ−µ
z= =1
σ
El valor estandarizado de µ−σ es:

µ−σ−µ
z= = −1
σ
Procediendo de la misma manera se pueden encontrar los valores estandarizados de µ ± 2σ y de
µ ± 3σ ( se deja como tarea propuesta).

En la Figura 1.7 se muestran los intervalos originales que utilizamos para enunciar la Regla Empírica
(escala X) y sus correspondientes valores estandarizados (escala Z ).

Figura 1.7: Regla Empírica

Podemos enunciar entonces la Regla Empírica utilizando las escala Z de la siguiente manera:

El intervalo

[−1 ≤ Z ≤ 1] contiene aproximadamente el 68 % de las observaciones


[−2 ≤ Z ≤ 2] contiene aproximadamente el 95 % de las observaciones

36
[−3 ≤ Z ≤ 3] contiene aproximadamente el 99 % de las observaciones

La curva de frecuencias de Z seguirá teniendo forma de campana pues lo único que cambia es la
escala de medición de los valores de la variable original X.

1.7.2. Desigualdad de Chebyshev


La desigualdad de Chebyshev es es menos precisa que la Regla Empírica, pero es más general,
pues se puede aplicar a cualquier conjunto de observaciones siempre que provengan de una variable
cuantitativa.

Esta regla arma que:

Para todo conjunto de datos, y para toda constante k > 1 el intervalo µ ± kσ contiene al menos o
por lo menos 1 − k12 por ciento de las observaciones.
Por ejemplo, si k = 2, el intervalo µ ± 2σ = [µ − 2σ ≤ X ≤ µ + 2σ] contendrá por lo menos
1 3

1− 22 = 4 o el 75 % de las observaciones.
1 8

Si k=3 el intervalo µ ± 3σ = [µ − 3σleqX ≤ µ + 3σ] contendrá por lo menos 1− 32 = 9 o el
89 % de de los valores de la variable.

Ejemplo 1.10 Los datos que se presentan en la Tabla (1.12) representan los porcentajes renta
familiar asignados a la compra de alimentos en una muestra de 30 familias de la ciudad.
26 28 30 37 33 30
29 39 49 31 28 26
33 24 34 40 29 41
40 29 35 44 32 45
35 26 42 36 37 35

Tabla 1.12: Datos para el Ejemplo (1.10)

1. Calcular la media, la varianza y la desviación estándar de la variable porcentaje de la renta


de ls familias destinado a la compre da alimentos
2. Aplique la desigualdad de Chebyshev para k = 2 y comente los resultados obtenidos

Solución

Primer punto:

Media:

26 + 28 + · · · + 37 + 35
x̄ = = 34.10
30
Luego, en promedio, estas 30 familias gastan el 34,10 % de su renta en la compra de alimentos.

Varianza:

(26 − 34, 1)2 + (28 − 34, 1)2 + · · · + (35 − 34, 1)2


s2 = = 40, 195
3−1

Por lo tanto: s= 40, 195 = 6, 34
Segundo punto:

Hemos visto que si k=2 la regla de Chebyshev asegura que por lo menos el 75 % de las observa-
ciones de la variable estarán en el intervalo x̄ ± 2(s).
Utilizando los valores calculados de x̄ y de s tendremos:

x̄ ± s = 34, 10 ± 2(6, 34) = 34, 10 ± 12, 68

37
Por lo tanto, de acuerdo con lo enunciado por la desigualdad de Chebyshev el intervalo
[21.42 ≤ X ≤ 46, 78] contendrá por lo menos el 75 % de las observaciones de la variable.

A partir de los valores registrados en la Tabla (1.12) puede comprobarse que la única observación
que está fuera de este intervalo es x = 49.
Es decir, hay 29/30 = 0, 96 o el 96 % de las observaciones están comprendidas en el intervalo
vericándose de esta manera lo predicho por la regla.

1.8. Medidas de asimetría o sesgo


Recordemos que la Regla Empírica exige que la curva de frecuencia de la variable sea simétrica
con forma de campana.

Resulta que existen muchas otras distribuciones que no tiene esta forma presentándose distintos
tipos de sesgos o asimetrías.

En la Figura 1.8 se presenta tres formas características de curvas de frecuencias para variables
cuantitativas.

Figura 1.8: Asimetrías o sesgos

De la curva de frecuencia ubicada en el extremo izquierdo de la Figura 1.8 se dice que tiene sesgo
negativo o que es sesgada a izquierda. Note que en este tipo de curvas la media es menor que la
mediana y esta a su vez menor que la moda, es decir x̄ < Me < Mo .
La curva de frecuencia ubicada en el centro de la Figura 1.8 es simétrica, insesgada o que no tiene
sesgo. En este tipo de curvas de frecuencia la media, la mediana y la moda son iguales, es decir,
x̄ = Me = M0 .
Finalmente, de la cura de frecuencia ubicada más a la derecha de la Figura 1.8 se dice que sesgada
a derecha o que tiene sesgo positivo . En este tipo de curvas la moda es menor que la mediana y
esta a su vez menor que la media. Es decir, se da la siguiente relación: x̄ > Me > Mo .
Existen varias medidas descriptivas numéricas que son utilizadas para decidir el tipo de sesgo de
la curva de frecuencias de una variable cuantitativa.

Una de las más utilizadas es el coeciente de asimetría de Pearson que se dene de la siguiente
manera:

3(x̄ − Me )
CA = (1.21)
s
Entonces:

Si la distribución es sesgada a izquierda x̄ < Me , el coeciente de asimetría es negativo

Si la distribución es simétrica x̄ = Me y el coeciente de asimetría será igual a cero

Si la distribución es sesgada a derecha x̄ > Me entonces el coeciente de asimetría es positivo

38
El coeciente de asimetría de Pearson es un número real comprendido en el intervalo real [-3,3], es
decir −3 ≤ CA ≤ 3.
Cuanto más cerca sea su valor a algunos de los extremos del intervalo, más asimétrica (negativa o
positiva) será la distribución.

Suponga que un conjunto de observaciones perteneciesen a una muestra tomada de una población
tenga una media x̄ = 2 436, una mediana Me = 2 459 y una desviación estándar s = 76.7
Por lo tanto

3(2 436 − 2 456)


CA = = −0.91
76, 7
De acuerdo con el valor obtenido del coeciente de asimetría , la distribución es levemente sesgada
a izquierda.

El coeciente de asimetría de Pearson poblacional de dene dela siguientes manera:

3(µ − Me )
CA = (1.22)
σ
Generalmente es desconocido y se lo estima por el muestral.

1.9. Distribuciones bidimensionales


En general, cuando se seleccionan unidades observacionales para algún estudio estadístico de in-
terés, se registran los valores de varias variables con el objetivo de lograr una descripción más
completa de las unidades.

Si analista de mercados selecciona un grupo de familias con el n de realizar algún estudio socio-
económico, lo más probable es que además de recoger información sobre la renta familiar, registre
el número de personas que habitan la unidad familiar, el número de hijos que concurren a la
universidad, etc.

Existen muchas técnicas estadísticas diseñadas con el n de analizar múltiples variables registradas
sobre cada unidad observacional. Estas técnicas son muy utilizadas en la solución de problemas de
Administración y Economía. Las técnicas estadísticas diseñadas con el objetivo de analizar dos o
más variables sobre cada unidad observacional reciben el nombre técnicas multivariantes.
En esta sección analizaremos algunas de las técnicas descriptivas multivariantes diseñadas para
estudiar las propiedades de unidades observacionales en las cuales se registran los valores de dos
variables.

1.9.1. Tablas para datos discretos. Distribución conjunta


En el caso que se analicen dos variables numéricas se llamara tabla de distribución conjunta a la
tabla que muestra los valores observado de las variables y las frecuencias (absolutas o relativas)
asociadas a cada par de valores e las mismas.

Ejemplo 1.11 Suponga que se recogieron datos sobre la evolución del stock de 40 PYMES que
si bien es cierto llevan un control de inventario, tuvieron ruptura de stock dentro de un período
determinado de tiempo. Las empresas consideradas tienen características similares. En la Tabla
(1.13) se presentan las frecuencias absolutas para cada par de vertibles.

Veamos como puede analizarse la información de esta tabla.

Hay 5 empresas que producen 12 000 unidades y que han tenido una ruptura de stock

Ninguna empresa que produzca 15 000 unidades ha tenido tres rupturas

etc.

39
Producción
Ruptura 12.000 13. 000 15.000 Total
1 5 4 3 12
2 6 5 2 13
3 8 7 0 15
Total 19 16 5 40

Tabla 1.13: Datos para el Ejemplo

Los totales que aparecen en los márgenes de la Tabla (1.13) se llaman precisamente totales margi-
nales.
Los totales marginales las se pueden leer de la siguiente manera:

De las 40 empresas 12 que han tenido una ruptura de stock independientemente de las
cantidades producidas

13 han tenido 2 rupturas de stock independientemente de las cantidades producidas

etc.

Los totales marginales columnas se pueden leer de la siguiente manera:

19 empresas producen 12.000 unidades independientemente del número de rupturas

16 empresas producen 13.000 unidades independientemente del número de rupturas

etc.

Si se divide cada una de las frecuencias absolutas de las celdas por 40, se obtienen las frecuencias
relativas respecto de gran total.
La Tabla (1.14) es la tabla de las frecuencias relativas respecto del gran total.

Producción
Ruptura 12.000 13.000 15.000 Total
1 0,125 0,10 0,075 0,30
2 0,15 0,125 0,05 0,325
3 0,20 0,175 0 0,375
Total 0,475 0,40 0,125 1,00

Tabla 1.14: Frecuencias relativas respecto del gran rotal

Algunas de las lecturas que pueden hacerse a partir de la información suministrada por la Tabla
(1.14) son las siguientes:

El 12,5 por ciento de las PYMES producen 12.000 unidades y han tenido una rupturas de
stock

El 10 por ciento de las PYMES producen 13.000 unidades y han tenido una ruptura de stock

El 30 por ciento de las PYMES han tenido una ruptura de stock

El 40 por ciento de las PYMES producen 13.000 unidades

etc.

Si cada una de las las se divide por el total de su la se obtienen las frecuencias relativas respecto
de los totales las.
La Tabla (1.15) muestra los resultados.

Algunas lecturas que pueden hacerse a partir de la información suministrada por la Tabla (1.15)
son las siguientes:

40
Producción
Ruptura 12 000 13 000 15 000 Total
1 0,42 0,33 0,25 1
2 0,42 0,39 0,15 1
3 0,53 0,47 0 1
Total 0,475 0,40 0,125 1

Tabla 1.15: Frecuencias relativas respecto de los totales las

De las empresas que han tenido una rupturas de stock el 42 por ciento produce 12.000
unidades

De las empresas que han tenido una rupturas de stock el 33 por ciento produce 13.000
unidades

De las empresas que han tenido tres rupturas de stock ninguna produce 15.000 unidades

etc.

Finalmente, si cada una de las columnas de la tabla se divide por el total de la columna se obtienen
las frecuencias relativas respecto de los totales columnas.
En la Tabla (1.16) se muestran los resultados obtenidos.

Producción
Ruptura 12.000 13.000 15.000 Total
1 0,26 0,25 0,60 0,300
2 0,32 0,31 0,40 0,325
3 0,42 0,44 0 0,375
Total 1 1 1 1

Tabla 1.16: Frecuencias relativas respecto de los totales columnas

Algunas lecturas que pueden hacerse a partir de la información suministrada por la Tabla (1.16)
son las siguientes:

De las empresas que producen 12.000 unidades, el 26 por ciento tuvo una ruptura de stock

las empresas que producen 12.000 unidades, el 32 por ciento tuvo dos veces ruptura de stock

De las empresa que producen 15.000 unidades ninguna tuvo 3 rupturas de stock

etc.

1.9.2. Tablas para datos cualitativos. Tablas de contingencia


Si el análisis se realiza a partir de dos variables categóricas en forma conjunta, la presentación de
la información se realiza por medio de una tabla de contingencia en la cual en la primera la y
primera columna se anotan las categorías de las variables objeto de estudio.

En el cuerpo de la tabla se anotan las frecuencias absolutas conjuntas y en los márgenes las
frecuencias marginales que son las observaciones de una categoría en particular independientemente
de la otra variable.

Tienen el mismo tratamiento estadístico que las tablas para datos numéricos.

Por ejemplo, en la Tabla (1.17) se presenta una muestra de 40 casas de la ciudad en las cuales se
han registrado el tipo de vivienda (A, B y C) y el tipo de cochera de cada uno de los hogares.

Se deja como actividad propuesta e análisis de la Tabla (1.17).

41
Tipo de cochera
Un Dos Más de dos
Tipo de vivienda Ninguna Total
automóvil automóviles automóviles
A 1 4 4 3 12
B 2 12 3 1 18
C 4 4 2 0 10
Total 7 20 3 4 40

Tabla 1.17: Tipo de casa vs. tipo de cochera

1.10. Medidas de asociación entre dos variables cuantitativas


Con frecuencia es necesario medir el grado de asociación entre dos variables cuantitativas.

A continuación presentaremos algunas herramientas grácas y descriptivas numéricas utilizadas


para analizar y cuanticar la relación entre dos variables numéricas.

Utilizaremos los diagramas de dispersión como herramienta gráca y la covarianza y el coeciente


de correlación lineal de Pearson como medidas descriptivas numéricas.
Estas herramientas permitirán responder las siguientes preguntas:

1. Existe alguna relación entre los años de antigüedad de un empleado en una empresa y su
producción?

2. Existe alguna relación entre lo que una empresa gasta en publicidad y el importe de sus
ventas posteriores?

3. Pueden relacionarse de alguna manera las notas de un estudiante en el nivel medio con las
notas en la universidad?

4. etc.

1.10.1. Diagramas de dispersión


Supongamos que el administrador de un comercio está interesado en investigar la posible relación
que exista entre la cantidad de comerciales por TV que aparecen los nes de semana en un canal
local y las ventas del comercio durante la semana posterior a la emisión de los comerciales.

En la Tabla (1.18) se muestran las datos de un muestra de 10 semanas donde las ventas se expresan
en miles de dólares.

Semana Cantidad de comerciales (x) Volumen de ventas (y)


1 2 50
2 5 57
3 1 41
4 3 54
5 4 54
6 1 38
7 5 63
8 3 48
9 4 59
10 2 46

Tabla 1.18: Comerciales vs ventas posteriores

Un diagrama de dispersión consta de un par de ejes perpendiculares entre si (uno horizontal).

Vamos a anotar los valores de la variable x o cantidad de comerciales en el eje horizontal y en el


eje vertical los valores de la variable y o volumen de ventas.

42
Puede verse a partir de la información suministrada por la Tabla (1.18) que el primer n de semana
se pasaron 2 comerciales y las ventas posteriores fueron de 50 mil dólares.

El segundo n de semana se pasaron 5 comerciales y las ventas posteriores fueron de 57 mil dólares,
etc.

Puede verse que aún teniendo pocas observaciones (10 semanas) tratar de decidir cuál es la na-
turaleza de la relación entre las dos variables resulta una tarea casi imposible a partir de la sola
lectura de la información tabulada.

Un diagrama de dispersión puede ayudarnos a entrever la relación entre las variables.

Un diagrama de este tipo consta de un par de ejes perpendiculares entre si (uno horizontal)

Los valores de una de las variables, cantidades de comerciales x por ejemplo, se registran en el eje
horizontal y los valores de la otra variable, volumen de ventas y en el eje vertical.
En la primera semana se tiene que x=2 y y = 50. En el diagrama de dispersión se graca un
punto con estas coordenadas.

Para las siguientes nueve semanas se gracan los puntos correspondientes.

El diagrama de dispersión para el ejemplo analizado se muestra en la Figura 1.9.

Figura 1.9: Correlación positiva

El diagrama indica una relación positiva entre la cantidad de comerciales y las ventas en el sentido
de que las mayores ventas se asocian con mayores cantidades de comerciales.

La relación no es perfecta porque los puntos no se encuentran sobre la gráca de alguna función
conocida.

Sin embargo, el comportamiento general de los puntos sugieren que la relación general se puede
aproximar por medio de una línea recta de pendiente positiva.

En la Figura 1.10 puede apreciarse otro patrón de la relación entre dos variables.

Se trata de una relación negativa entre las variables pues y tiende a disminuir a medida que x
aumenta.

Se dice también que entre las variables existe una correlación negativa.

Tampoco la relación entre las variables es perfecta pues no existe ninguna función conocida que
pase exactamente por todos los puntos del diagrama de dispersión pero como se aprecia, una recta
de pendiente negativa puede utilizarse para aproximar la relación entre x e y
Ahora bien, no siempre existe una relación tan denida entre dos variables o inclusive puede ocurrir
que las variables no estén relacionada en absoluto.

En la Figura 1.11 se muestra el diagrama de dispersión de dos variables x e y que no están


relacionadas.

En dicho caso se dice que las variables son independientes

43
Figura 1.10: Correlación negativa

Figura 1.11: Variables independientes

Si bien es cierto los diagramas de dispersión son muy útiles para estudiar el tipo de relación
entre dos variables, en general se busca acompañarlos de alguna medida descriptiva numérica que
cuantique la relación entre las variables.

Presentamos a continuación dos medidas descriptivas numéricas, la covarianza y el coeciente de


correlación lineal de Pearson que se calculan para analizar la posible relación entre os variables
cuantitativas.

1.10.2. Covarianza
Para una muestra de n parejas de datos (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ) de dos variables cuantitativas
X e Y, la covarianza muestral se dene de la siguiente manera:

Pn
i=1 (xi − x̄)(yi − ȳ)
sxy = (1.23)
n−1
O bien

(x1 − x̄)(y1 − ȳ) + (x2 − x̄)(y2 − ȳ) + · · · + (xn − x̄)(yn − ȳ)


sxy = (1.24)
n−1

44
En la Ecuación 1.24 cada valor de xi está emparejado con el valor yi correspondiente.

Apliquemos la Ecuación 1.24 para calcular la covarianza entre las variables cantidad de comerciales
(x) y volumen de ventas (y).
En primer lugar calculamos las medias de estas dos variables.

Entonces:

30
x̄ = =3
10
Por otro lado:

510
ȳ = = 51
10
Por lo tanto:

(2 − 3)(50 − 51) + (5 − 3)(57 − 51) + · · · + (2 − 3)(46 − 51) 99


sxy = = = 11
9 9
Si en lugar de tener una muestra de n parejas de las variables x e y tuviésemos una población de
N parejas, la covarianza poblacional se dene de la siguiente manera

PN
i=1 (xi − µx )(yi − µy )
σxy = (1.25)
N
Donde µx y µy son las medias poblacionales de de las variables X e Y
La covarianza poblacional difícilmente se conozca y por ello se la estima por medio de sxy .
Para entender como se interpreta la covarianza muestral analicemos la Figura 1.12 que no es más
que la Figura 1.9 pero con una recta vertical trazada por x̄ = 3 y otra recta horizontal trazada por
ȳ .

Figura 1.12: Interpretación de la covarianza

Al proceder de esta manera el plano de la gura se divide en cuatro partes o cuadrantes denomi-
nados, I, II, III y IV.

Los puntos del diagrama de dispersión ubicados en el primer cuadrante (I) corresponden a valores
de xi mayores que x̄ y valores de yi mayores que ȳ .
Por otro lado, los puntos del diagrama ubicados en el tercer cuadrante (III) corresponden a valores
de xi menores que x̄ y valores de yi menores que ȳ .

45
Por lo tanto, para los puntos del diagrama de dispersión ubicados en el primer y tercer cuadrante
los valores de (xi − x̄)(yi − ȳ) deben ser positivos.

Puede deducirse de manera semejante que para los puntos ubicados en el segundo y cuarto cua-
drante, los productos (xi − x̄)(yi − ȳ) deben ser negativos.

Si el valor de sxy es positivo, los puntos que tuvieron mayor peso en la determinación de su valor
y signo estarán en el segundo y tercer cuadrante.

Por consiguiente, un valor positivo de sxy indica una relación lineal positiva entre las variables x
e y. Es decir, al aumentar los valores de una de las variables, también aumentan los valores de la
otra.

Sin embargo, si el valor de sxy es negativo, los puntos que tuvieron mayor peso en la determinación
de su valor y signo estarán en los cuadrantes II i IV.

Por lo tanto, un valor negativo de sxy indica una asociación lineal negativa entre X e Y. Esto es,
al aumentar los valores de una de las variables disminuyen los de la otra.

Por último, si los puntos del diagrama de dispersión se distribuyen uniformemente en los cuatro
cuadrantes, el valor de sxy será cercano a cero pues los valores con signo positivo se compasarán
con los de signo negativo indicando que no hay una relación lineal entre las variables x e y.
Para el ejemplo que estamos analizando, y como es de esperar, el valor de la covarianza es positivo,
es decir (sxy > 0).
De acuerdo con el razonamiento anterior, parecería que un valor positivo grande de la covarianza
indica una fuerte relación lineal positiva y que un valor negativo grande indicaría una fuerte relación
lineal negativa.

Sin embargo, un problema del uso de la covarianza como medida de la intensidad de la relación
lineal es que su valor depende de las unidades en las que se miden las variables xyy y que además,
el valor de sxy puede verse afectado por valores extremos de las variables.

Para evitar esta dicultad se usa el coeciente de correlación lineal de Pearson que sirve para
medir la fuerza de la relación lineal entre las variables.

1.10.3. Coeciente de correlación lineal de Pearson


Denición 1.23 Para los datos de una muestra de tamaño n de pares de observaciones de las
variables x e y , el coeciente de correlación lineal de Pearson se dene de la siguiente manera:
sxy
rxy = (1.26)
sx sy

Donde:

rxy es el coeciente de correlación lineal de Pearson

sxy es la covarianza entre las variables x e y

sx es la desviación estándar muestral de x

sy es la desviación estándar muestral de y

Calculamos a continuación el coeciente de correlación lineal de Pearson para los datos de las
variables cantidad de comerciales y volumen de ventas.

Es posible vericar aplicando las respectivas fórmulas de cálculo que sx = 1, 49 y que sy = 7, 93.
Por lo tanto

11
rxy = = 0.93
(1, 49)(7, 93)
La Fórmula 1.26 recibe el nombre de fórmula de denición del coeciente de correlación.

46
A partir de ella, y mediante algunas manipulaciones algebraicas puede obtenerse la siguiente ex-
presión

Pn
xi n
P
i=1 yi
Pn
i=1 xi yi −
i=1
n
rxy = r r (1.27)
Pn 2 Pn 2
Pn 2 ( i=1 xi ) Pn 2 ( i=1 yi)
i=1 xi − n i=1 yi − n

Que puede utilizarse también para calcular el coeciente de correlación lineal de Pearson.

Para poder utilizar la Ecuación 1.25 debemos realizar previamente algunos cálculos auxiliares. Los
presentamos en la Tabla (1.19).

Semana x y xy x2 y2
1 2 50 100 4 2.500
2 5 57 285 25 3.249
3 1 41 41 1 1.681
4 3 54 162 9 2.916
5 4 54 216 16 2.l916
6 1 38 38 1 1.444
7 5 63 315 25 3.969
8 3 48 144 9 2.304
9 4 59 236 16 3.481
10 2 46 92 4 2.116
Total 30 510 1.629 110 26.576

Tabla 1.19: Cálculos auxiliares para el coeciente de correlación

Por lo tanto

1.629 − (30)(510)
10
rxy = √ √ = 0, 93
110 − 90 26.576 − 26.010
El coeciente de correlación lineal de Pearson para una población se dene de la siguiente manera:

σxy
ρxy = (1.28)
σx σy
Donde

ρxy es el coeciente de correlación lineal de Pearson poblacional

σxy es la covarianza poblacional

σx y σy las desviaciones estándar poblacionales de las variables x e y respectivamente

1.10.4. Interpretación del coeciente de correlación


Con un sencillo ejemplo veremos como puede interpretarse el valor del coeciente de correlación
de Pearson.

Consideremos los siguiente valores hipotéticos de las variables x e y.


El diagrama de dispersión para este conjunto de observaciones se presenta en la Figura 1.13.

La recta que se trazó y que pasa por cada uno de los tres puntos indica que hay una relación lineal
perfecta entre las variables x e y.
Puede vericarse son dicultad que

220 − 6(90)/3
rxy = p p =1
14 − 62 /3 3.500 − 902 /3

47
x y
1 10
2 30
3 50

Tabla 1.20: Valores de x e y

Figura 1.13: Dispersión variables x e y

Vemos que el valor del coeciente de correlación muestral para este conjunto de datos es igual a 1.

En general, si todos los puntos de un conjunto de datos se encuentran ubicados sobre un misma
línea recta de pendiente positiva, el valor del coeciente de correlación lineal de Pearson será igual
a a +1.
Esto es, un coeciente de correlación muestral igual a +1 corresponde a una relación lineal positiva
perfecta entre las variables x e y.
Por otro lado, si los puntos de un conjunto de datos están en una recta que tiene pendiente negativa,
el valor del coeciente de correlación muestral será igual a −1.
Es decir, un coeciente de correlación muestral igual a −1 indica una relación lineal negativa
perfecta entre las variables x e y.
Supongamos ahora que, para cierto conjunto de datos, hay una relación lineal positiva entre x e y
pero que esta relación no es perfecta. El valor de rxy será menor que uno, lo que implica que los
puntos del diagrama de dispersión no están perfectamente alineados.

A medida que los puntos del diagrama de dispersión se desvían más y más de una relación lineal
positiva perfecta, el valor del coeciente de correlación rxy se irá haciendo más cercano a cero.

Un valor de rxy igual a cero indica que no hay relación lineal entre las variables. Los valores del
coeciente de correlación lineal cercanos a cero señalan una relación lineal débil.

Puede demostrarse que, en general, −1 ≤ rxy ≤ 1.


En la Figura 1.14 se presentan los puntos del diagrama de dispersión de los datos correspondientes
a las variables cantidad de comerciales y volumen de ventas y la recta que mejor ajusta a a los
puntos del diagrama.

Es indudable que la recta describe razonablemente bien la relación entre las variables.
4

Estamos en condiciones de enunciar el siguiente resultado que se demuestra en corzos avanzados


de Estadística.

Teorema 1.1 Si las variables x e y son independientes, entonces rxy = 0


4 En el Capítulo 6 de este material se analizará cómo se encuentre la ecuación de esta recta

48
Figura 1.14: Diagrama de dispersión y recta de mejor ajuste

Sin embargo, el enunciado recíproco no es siempre verdadero pues puede ser rxy = 0 y aun así las
variables estar relacionadas.

Recuerde que rxy mide la fuerza de la relación lineal entre dos variables. Las variables xey pueden
estar relacionadas de manera no lineal y en ese caso rxy = 0, no porque no estén relacionadas sino
porque no lo están linealmente.

49
Capítulo 2

Introducción a la Probabilidad

2.1. Conceptos fundamentales y deniciones


En el capítulo precedente nos hemos ocupado de los problemas recoger, resumir, organizar, pre-
sentar y describir un conjunto de observaciones de una variable.

Los datos generalmente se recogen y analizan para obtener alguna conclusión de la población de
la cual han sido seleccionados. Dijimos que este proceso recibe el nombre de inferencia estadística.
Sin importar que tan buena haya sido la muestra seleccionada de la población, siempre estará
presente la incertidumbre de que los resultados obtenidos a partir de ella describen correctamente
las característica de la población estudiada.

Es decir, en todo proceso inferencial nunca se podrá eliminar la incertidumbre.

La Estadística, como disciplina para toma de decisiones bajo incertidumbre, se basa en la teoría
de probabilidades, porque la probabilidad es el lenguaje y la medida de la incertidumbre y de los
riesgos asociados a ella.

Antes de estudiar los procesos inferenciales, se deben conocer y manejar algunos conceptos básicos
de la teoría de la probabilidad. En este capítulo desarrollaremos los conceptos mínimos necesarios
para poder entender y aplicar las técnicas básicas de la inferencia estadística.

Antes de denir el concepto de probabilidad y de analizar como calcular la probabilidad de ciertos


eventos, debemos denir algunos conceptos previos básicos.

Estos conceptos son los siguientes: experimento aleatorio, espacio muestral, punto muestral y even-
to.
Los denimos a continuación.

Experimento aleatorio
Los especialistas en estadística utilizan la palabra experimento para describir cualquier proceso
que genere un conjunto de datos.

Por ejemplo, arrojar repetidamente una moneda al aire y registrar el resultado obtenido en cada
intento (cara o cruz) es un experimento que generará datos. Aquí hay solo dos resultados posibles
en cada lanzamiento.

Seleccionar votantes de un padrón y registrar sus opiniones respecto de un nuevo impuesto puede
considerarse como las observaciones obtenidas de otro experimento.

En los dos casos, los resultados dependen del azar y por lo tanto no pueden pronosticarse con
certidumbre. Es por ello que a este tipo de experimentos se los denominan aleatorios o estadísticos.
Los experimentos aleatorios tienen las siguientes propiedades:

Pueden realizarse tantas veces como se quiera bajo las mismas condiciones

Se sabe cuales son los resultados posibles

51
Antes de realizar una repetición del experimento no se sabe cuales de los resultados posibles
ocurrirá

Espacio muestral
Al conjunto de todos los resultados posibles de un experimento aleatorio se lo denomina espacio
muestral. En general se lo representa con la letra S.
Por ejemplo, el espacio muestral que resultará al arrojar una moneda y registrar el resultado
obtenido es S = {C, +} donde C es el resultado obtener cara y + es el resultado obtener cruz.
Si el experimento consiste en lanzar un dado y registrar el resultado obtenido, una manera de
denir el espacio muestral es:

S1 = {1, 2, 3, 4, 5, 6}
Otra forma de denir el espacio muestral para el mismo experimento es:

S2 = {Par, Impar}

Puede verse que en algunos casos es posible denir el espacio muestral de un experimento aleatorio
de distintas maneras.

Sin embargo, S1 proporciona más información que S2 pues al armar que el resultado es par, no
podemos saber si se obtuvo 2, 4 o 6.

En general, utilizaremos el espacio muestral que proporcione más información.

Punto muestral o evento simple


A cada resultado individual de un espacio muestral lo llamaremos punto muestral o evento simple.

Por ejemplo, en el experimento que consiste en arrojar un dado, los resultados {1} o {5} son eventos
simples o puntos muestrales.

Ejemplo 2.1 Suponga que se selecciona en forma aleatoria tres artículos de un proceso de manu-
factura. Se examina cada uno de ellos y se los clasica como defectuoso (D) o no defectuoso (N ).
Determinar el espacio muestral.

Solución

En este ejemplo es un poco más complicado denir el espacio muestral del experimento. Un dia-
grama de ramas pude utilizarse para determinar los puntos muestrales.

En cualquier caso el espacio muestral de este experimento es el siguiente:

S = {DDD, DDN, DN D, N DD, DN N, N DN, N N D, N N N }


En todos los ejemplos que hemos visto hasta el momento, el espacio muestral tiene un número
nito de resultados o puntos muestrales.

Supongamos ahora que nuestro experimento consiste en seleccionar aleatoriamente artículos de un


proceso de fabricación hasta encontrar el primer defectuoso.

El espacio muestral de este experimento podría denirse de la siguiente manera:

S = {1, 2, 3, 4...}
En este ejemplo, el resultado 1 signica que se encontró un defectuoso en la primera selección. El
resultado 2 signica que hubo que hacer dos selecciones para dar con el primer defectuoso, etc.

Al menos en teoría, este espacio muestral tiene innitos puntos muestrales.

Finalmente consideremos el siguiente experimento: se toma una lámpara de luz hogareña al azar
de una línea de producción y se mide el tiempo de duración en horas antes de que falle.

52
En este caso, un enunciado o regla describe mejor el espacio muestral.

Podríamos escribir por ejemplo:

S = {t : t ≥ 0}

donde t es el tiempo de duración en horas de la lámpara.

Eventos
En muchas situación prácticas, puede resultar de interés analizar las propiedades probabilísticas
de un subconjunto de un espacio muestral.

Considerando los datos del Ejemplo 2.1, podría ser de interés calcular la probabilidad de que el
número de artículos defectuosos seleccionados sea mayor que uno. Es decir, calcular la probabilidad
de que ocurra A = {DDN, DN D, N DD, DDD} de S.

Denición 2.1 Un evento es un subconjunto del espacio muestral de un experimento aleatorio.


Volviendo al ejemplo del tiempo de duración de las lámpara de luz antes de falla, el evento A de que
el producto falle antes de las cinco horas puede denirse de la siguiente manera: A = {t : 0 ≤ t < 5}.
Un comentario importante: en la teoría de probabilidades se dice que un evento ocurre cuando al
realizar el experimento ocurre cualquiera de sus puntos muestrales.
Por ejemplo, si el experimento consiste en arrojar un dado y registrar el resultado obtenido, se
dice que el evento obtener un número par ha ocurrido cuando al realizar la experiencia se obtuvo
alguno de los resultados del conjunto A = {2, 4, 6}.
Como puede apreciarse las nociones de conjunto son muy útiles en la descripción de espacios
muestrales y eventos.

A continuación repasaremos algunas deniciones de la teoría de conjuntos que serán de utilidad


para el desarrollo de algunos conceptos posteriores.

Denición 2.2 El complemento del evento A respecto del espacio muestral S es el evento formado
por todos los puntos muestrales de S que no están en A.

Si A es un evento de un espacio muestral, su complemento se simboliza A′ o Ac .


Por ejemplo, si S = {1, 2, 3, 4, 5, 6} es el espacio muestral generado por el experimento de arrojar
un dado y A = {1, 3, 5} (obtener un número impar), entonces el evento A′ = {2, 4, 6} (obtener un
número par) es su complemento.

Denición 2.3 La intersección de los eventos A y B del espacio muestral S , es el evento de S


que tiene por resultado los puntos muestrales de A y B simultáneamente.

La intersección de los eventos A y B se simboliza A ∩ B .


Por ejemplo, si A = {1, 2, 3, 4} y B = {4, 5, 6} entonces A ∩ B = {4}.
Denimos el evento vacío como aquel que no tiene puntos muestrales. Es decir, el evento vacío es
el que no puede ocurrir cuando se realiza un experimento. Habitualmente se lo simboliza ∅
Por ejemplo, siguiendo con el experimento de arrojar un dado y registrar el resultado obtenido,
el evento A que consiste en obtener como resultado el número 7 lo podemos caracterizar como el
evento vacío pues es un resultado que nunca puede ocurrir al realizar la experiencia. En este caso
escribiremos A = ∅.
Puede ocurrir que dos eventos AyB de un espacio muestral no tengan puntos muestrales comunes,
es decir, eventos que no pueden ocurrir simultáneamente.

Denición 2.4 Dos eventos A y B son mutuamente excluyentes si A ∩ B = ∅, esto es, no tienen
resultados comunes.

53
Con frecuencia interesa la presencia de al menos uno de los dos eventos que se asocian a un
experimento aleatorio.

A = {2, 4, 5} y B = {4, 5, 6}, se podría desear que ocurra A, B o ambos.


Así, al lanzar un dado, si

Tal evento que se denomina unión de A y B sucederá si el resultado es un punto muestral de evento
{2, 4, 5, 6}.

Denición 2.5 La unión de dos eventos A y B , que se simboliza A ∪ B es el evento que contiene
los puntos muestrales de A, de B o de ambos.

Otro ejemplo, si A = {1, 3, 5} y B = {2, 4, 6} son dos eventos de S = {1, 2, 3, 4, 5, 6}, entonces
A∪B =S

2.2. Denición de probabilidad


Supongamos que se realiza un experimento aleatorio y que tenemos bien identicados el espacio
muestral S y cierto evento al que llamaremos A
A pesar de que el evento de interés está claramente identicado, nunca estaremos completamente
seguros que A ocurrirá al realizar la experiencia.

Por lo tanto, el siguiente paso en nuestro análisis es ver la forma de asignar un número a cada
evento de un espacio muestral que mida la probabilidad de que el evento ocurra cuando se realiza
el experimento.

Resulta que hay varias formas de realizar esta tarea. Pero, independientemente a la forma de
hacerlo, deben cumplirse las condiciones que se listan en la siguiente denición.

Denición 2.6 Se dice que la función Pr : S → [0, 1] denida en el espacio muestral S de un


experimento aleatorio es una función de probabilidad si satisface las siguientes condiciones:

1. 0 ≤ Pr(A) ≤ 1 siendo A un evento de S

2. Pr(S) = 1

3. Si A1 , A2 , ..., An son n eventos mutuamente excluyentes, entonces Pr(A1 ∪ A2 ∪ ... ∪ An ) =


Pr(A1 ) + Pr(A2 ) + · · · + Pr(An )

La elección de las dos primeras condiciones es fundamental para entender que se pretende cuando
se asigna una probabilidad a un evento de un espacio muestral.

Se busca una manera de asignar un número a la posibilidad de que el evento ocurra cuando se
realiza el experimento.

Si el número es cercano a cero, se concluye que casi no hay posibilidad de que el evento ocurra.
Cuanto más cercano se al el número a uno, habrá más posibilidad de que ocurra.

Tal como lo hemos dicho anteriormente, en la teoría de probabilidades se conviene que ha ocurrido
un evento cuando al realizar la experiencia se obtiene alguno de sus puntos muestrales.

Como al realizar la experiencia siempre ocurrirá el evento S, es por eso que Pr(S) = 1
La tercera condición se elige por cuestiones teóricas que analizaremos un poco más adelante.

Queda pendiente aún la respuesta a la pregunta de como denir la función de probabilidad Pr.
Nosotros analizaremos tres deniciones posibles.

2.2.1. Método clásico de asignación de probabilidades


Es una de las primeras deniciones de probabilidad. Muy ligada a los juegos de azar.

54
Denición 2.7 Si un experimento puede producir n resultados igualmente probables y mutuamente
excluyente, y si dentro de estos n resultados el evento A puede ocurrir nA veces, la probabilidad
del evento A que se escribe Pr(A) se dene de la siguiente manera:
nA
Pr(A) = (2.1)
n
Por ejemplo, supongamos que se arroja un dado de seis caras y nos interesa saber cuál es la
probabilidad de obtener un número par.

El espacio muestral del experimento es S = {1, 2, 3, 4, 5, 6}. Podemos denir el evento de interés
como A = {2, 4, 6}.
Por lo tanto, como el evento A puede ocurrir de tres formas mutuamente excluyentes, y como
además hay seis resultados posibles, entonces:

3
Pr(A) = = 0.5
6
¾Cuál sería la probabilidad de obtener un número impar en el mismo experimento?

Como B = {1, 3, 5} entonces

3
Pr(B) = = 0.5
6
Es decir, en este experimento, es igualmente probable obtener un número par que un impar.

¾Cuál sería la probabilidad de cada uno de los resultados individuales de S?


Como hay 6 resultados posibles y cada uno de ellos puede ocurrir de una sola manera, entonces

1
Pr(1) = Pr(2) = · · · = Pr(6) =
6
Observe que en estos ejemplo no fue necesario realizar los experimentos descritos para calcular las
probabilidades. Bastó con emplear un razonamiento lógico previo.

Si bien es cierto nosotros no lo haremos, es posible demostrar que esta denición de probabilidad
cumple con las tres condiciones para ser una función de probabilidad.

Una desventajas de la denición clásica de probabilidad es que se debe suponer que los resultados
individuales sean igualmente probables, suposición que en muchos de los problemas prácticos no
se cumple.

Como consecuencia de esta limitación se han propuesto otras deniciones de probabilidad.

2.2.2. Probabilidad como frecuencia relativa


En este caso, la probabilidad de ocurrencia de un evento se asigna por medio de experimentos
repetidos.

Por ejemplo, ¾ cuál es la probabilidad de obtener cara al arrojar una moneda desde el punto de la
probabilidad como frecuencia relativa?

Según esta forma de asignar probabilidades, la solución se consigue arrojando la moneda un gran
numero de veces y calculado la proporción de veces que se obtuvo cara.

Por ejemplo, si de las 100 veces que se arrojó la moneda, 45 veces se obtuvo cara, entonces la razón
45/100 se utiliza como una estimación de la probabilidad de obtener cara para esta moneda.

Este enfoque tiene la particularidad de que aun cuando la moneda esté perfectamente balanceada,
puede que no se obtenga exactamente 50 caras en 100 lanzamientos. Es decir, no esperamos que la
frecuencia relativa sea exactamente 1/2 como en el método de asignación de probabilidades clásico.

Sin embargo, si la moneda está perfectamente equilibrada, al repetir muchas veces el experimento,
el cociente entre el número de veces que ocurre el resultado cara y el número de veces que se
realizó la experiencia se acercará el valor 1/2 que predice el método clásico. Esto nos permite dar
la siguiente denición:

55
Denición 2.8 Si un experimento se ejecuta n veces en las mismas condiciones y hay x resultados
(x ≤ n) en el que ocurrió un evento, entonces una estimación de la probabilidad de ese evento es
la razón x/n. Además, el cociente x/n se acerca a la verdadera probabilidad del evento cuando el
número de repeticiones aumenta.

Es decir, para el eventos A del espacio muestral S de un experimento aleatorio, la Pr(A) se estimaría
de la siguiente manera:

x
Pr(A) = lı́m (2.2)
n→∞ n
donde lı́mn→∞ debe entenderse cuando el número de pruebas aumenta sin límites.
Como en realidad no pueden realizarse innitas repeticiones de un experimento aleatorio, lo que
en la práctica se hace es lograr una estimación de dicha probabilidad basada en n grande.
Por comodidad trataremos la estimación de Pr(A) como si en realidad fuera Pr(A) escribiendo la
denición de probabilidad como frecuencia relativa como

x
Pr(A) =
n
¾Como se entiende en los hechos este concepto? Supongamos que se quiere saber cuál es la proba-
bilidad de obtener A = {1} al arrojar un dado.

Para responder esta pregunta se debe tirar el dado un gran número de veces. De acuerdo con este
razonamiento, se espera que a largo plazo, o en promedio, cada una de las seis caras de dado caerá
1/6 de las veces.

En este sentido se dice que la probabilidad de obtener A al tirar el dado es 1/6 y lo expresamos
de la siguiente manera:

1
Pr(A) = Pr {1} =
6
También puede demostrarse que esta denición de probabilidad cumple con las tres condiciones de
la denición de una función de probabilidad.

2.2.3. Probabilidad subjetiva


Pensemos en el siguiente problema. Supongamos que un analista de mercados quiere saber cuál es
la probabilidad de que, en la ronda de mañana de la bolsa de valores, determinada acción aumente
su cotización.

Evidentemente no pueden aplicarse ninguno de los dos enfoques de asignación de probabilidades


anteriores para la solución del problema.

En primer lugar, no parece razonable asumir que la probabilidad de que la acción aumente de
cotización sea la misma que la probabilidad de que no aumente. Es decir, no suena lógico aplicar
las condiciones de la denición clásica de probabilidad.

Además, como se trata de un evento futuro, no hay manera de repetir la experiencia. Es decir, no
se puede aplicar la denición de probabilidad como frecuencia relativa.

En esto caso, la información que pueda tener el analista acerca del estado nanciero de la empresa
que emite la acción, de la situación económica global existente y la experiencia del analista pueden
servir de ayuda para hacer evaluaciones probabilísticas.

La probabilidad subjetiva puede denirse de la siguiente manera:

Denición 2.9 Dado un evento cualquiera A de un espacio muestral S . Su probabilidad se dene


por el grado de creencia de que ocurra, asignado por el analista. Las únicas exigencias son:

1. Pr(A) = 0 representa la certeza de que el evento no ocurrirá

56
2. Pr(A) = 1 representa la certeza de que el evento ocurrirá
3. 0 < Pr(A) < 1 representa el grado de certeza de que el evento ocurrirá

Esto es, la probabilidad subjetiva de la ocurrencia de un evento es un número asignado por una
persona y que representa el grado de conocimiento que tiene sobre el evento en particular.

Otra persona, con la misma o distinta información podría asignar un número distinto. De allí el
nombre de probabilidad subjetiva
Esta denición de también cumple las condiciones para ser una función de probabilidad.

2.3. Propiedades de la probabilidad


Analizamos a continuación algunas propiedades de la probabilidad que nos ayudarán a realizar
cálculos probabilísticos un poco más complejos que los que hemos realizados hasta el momento.

Teorema 2.1 La probabilidad del evento vacío ∅ (evento que no puede ocurrir cuando se realiza
un experimento) es igual a cero. Es decir Pr(∅) = 0.

Prueba

De acuerdo con las propiedades de los conjuntos en general, y de los eventos de un espacio muestral
en particular:

S∪∅=S

Como los eventos son iguales, su probabilidad también los será. Es decir

Pr(S ∪ ∅) = Pr(S)

Por la tercera condición en la denición de función de probabilidad

Pr(S ∪ ∅) = Pr(S) + Pr(∅) = Pr(S)

Por la segunda condición de la denición de función de probabilidad

Pr(S ∪ ∅) = Pr(S) + Pr(∅) = 1 + P (∅) = 1

Por lo tanto Pr(∅) = 0 como se quería demostrar.

Teorema 2.2 Si A es un evento de un espacio muestral y A′ su complemento, entonces



Pr(A) = 1 − Pr(A )

Prueba

De acuerdo con la denición de eventos complementarios:

A ∪ A′ = S

Por lo tanto:

Pr(A ∪ A′ ) = Pr(S)

Como A y su complemento son eventos mutuamente excluyentes:

Pr(A ∪ A′ ) = Pr(A) + Pr(A′ ) = Pr(S)

Por lo tanto, por la segunda condición de la Denición 2.6:

57
Pr(A ∪ A′ ) = Pr(A) + Pr(A′ ) = 1
Luego: Pr(A) = 1 − Pr(A′ ) como se quería demostrar.

Ejemplo 2.2 Suponga que en una urna hay 4 bolitas blancas y 6 bolitas rojas. Se extrae de la
urna una bolita al azar. Sea A = La bolita extraída es roja. Compruebe que Pr(A) = 1 − Pr(A′ )
Solución

Si A es el evento la bolita extraída es roja, entonces su complemento es el evento A′ la bolita extraída


es blanca.
Suponiendo que se puedan aplicar la denición clásica de probabilidad tendremos:

6
Pr(A) =
10
Por otro lado:

4 6
1 − Pr(A) = 1 − =
10 10
Por lo tanto

Pr(A) = 1 − Pr(A′ )
como lo asegura la propiedad.

El siguiente resultado que damos sin demostración se utiliza para el cálculo de probabilidades de
eventos más complejos.

Teorema 2.3 Si A y B son dos eventos cualesquiera de un espacio muestral S , entonces

Pr(A ∪ B) = Pr(A) + Pr(B) − Pr(A ∩ B) (2.3)

Observación 2.1 Si los eventos A y B son mutuamente excluyentes, es decir, si A ∩ B = ∅


entonces:

Pr(A ∪ B) = Pr(A) + Pr(B) (2.4)

Ejemplo 2.3 Una empresa recibe 25 solicitudes para una vacante en un puesto de gerente. Entre
las solicitudes, 10 son de hombres y 15 de mujeres. Además, 17 de los solicitantes acreditan título
de maestría y 8 poseen certicado de cursado del último año del posgrado. Por último, 10 de
los solicitantes poseen título de maestría y son mujeres. Se realiza una selección al azar entre
los solicitantes, ¾cuál es la probabilidad de que sea seleccionada una mujer o una persona con
certicado del último año de la maestría.
Solución

Supongamos que A1 es el evento el solicitante es hombre y A2 el evento la solicitante es mu-


jer.Además, sea B1 la persona solicitante tiene título de maestría y B2 la persona solicitante cursa
el último año de la maestría.
Con el objetivo de hacer más clara toda esta información la resumimos en la Tabla (2.1).

Se pide calcular Pr(A2 ∪ B2 ). Por lo tanto:

Pr(A2 ∪ B2 ) = Pr(A2 ) + Pr(B2 ) − Pr(A2 ∩ B2 )


Da acurdo con los datos de la Tabla 2.1

15 8 5 18
Pr(A2 ∪ B2 ) = + − = = 0, 72
25 25 25 25

58
Título
Sexo Título de maestría B1 Certicada último año B2 Total
Hombre A1 7 3 10
Mujer A2 10 5 15
Total 17 8 25

Tabla 2.1: Datos para el Ejemplo 2.3

2.4. Probabilidad condicional. Eventos independientes


En esta sección deniremos dos conceptos relacionados entre sí y que además serán de suma
importancia para el desarrollo de temas posteriores. Se trata de los conceptos de probabilidad
condicional y el de eventos independientes.

2.4.1. Probabilidad condicional


Dos eventos pueden estar relacionados de tal manera que la probabilidad de ocurrencia de uno de
ellos dependa de la ocurrencia de otro.

Veamos el siguiente ejemplo que ilustrará el concepto que queremos desarrollar.

Considere el experimento que consiste en arrojar un dado balanceado y registrar el resultado


obtenido.

El espacio muestral es, como ya se sabe S = {1, 2, 3, 4, 5, 6}.


Supongamos que nos interesa calcular la probabilidad de obtener el evento A = {2} . Como hay 6
resultados igualmente probables y uno solo favorable a A, entonces, aplicando la denición clásica
1
de probabilidad, Pr(A) = 6.
Considere ahora que se suministra la información adicional de que al lanzar el dado, se ha obtenido
un número par, es decir, ha ocurrido el evento B = {2, 4, 6}
Suponga que se nos pide evaluar la probabilidad de ocurrencia de A pero con esta nueva informa-
ción.

¾Cómo se realizaría este cálculo? Sigue habiendo un caso favorable al evento A pero ahora los casos
1
posibles son B = {2, 4, 6} . Por lo tanto, Pr(A) = 3.
La probabilidad de obtener el evento A dado que ha ocurrido el evento B recibe el nombre de
probabilidad condicional, se simboliza Pr(A \ B) y debe leerse como la probabilidad de A dado que
ocurrió B o simplemente probabilidad de A dado B.
La probabilidad de obtener A = {2} dado que ocurrió el evento B = {2, 4, 6} se puede encontrar
de otra manera

Calculemos en primer lugar la intersección de los eventos A y B.

A ∩ B = {2} ∩ {2, 4, 6} = {2}

Por lo tanto

1
Pr(A ∩ B) =
6
3
Por otro lado Pr(B) = .
6
Calculemos el cociente de estos dos resultados, es decir

Pr(A ∩ B) 1/6 1
= =
Pr(B) 3/6 3

Esta concordancia en los resultados no es casual. De hecho, el cociente

59
Pr(A ∩ B)
Pr(B)
se utiliza habitualmente como denición de probabilidad condicional.

Denición 2.10 Sean A y B dos eventos de un mismo espacio muestral S . La probabilidad de


que ocurra A dado que ocurrió B se dene de la siguiente manera:

Pr(A ∩ B)
Pr(A \ B) = (2.5)
P (B)
En general, al evento B se lo denomina condicionante y al evento A evento condicionado.

Ejemplo 2.4 Una ocina de acción social lleva a cabo un censo de todas las personas que viven
en una pequeña comunidad. Los encuestadores vuelcan a una tabla el número de visitas que una
persona hace a un centro de salud y las condiciones sanitarias de la vivienda que habita. Los
resultados se presentan en la Tabla (2.2)
¾ Cuál es la probabilidad de que una persona seleccionada al azar viva en malas condiciones sani-
tarias dado que visita dos veces o menos el centro de salud?

Condiciones sanitarias
Número de visitas Buenas Malas (A) Total
Dos o menos (B) 700 100 800
Más de 2 800 400 1.200
Total 1.500 500 2.000

Tabla 2.2: Datos para el Ejemplo (2.4)

Solución

Sea A el evento la persona seleccionada vive en malas condicionas sanitarias y B el evento la


persona seleccionada visita dos veces o menos el centro de salud.
Entonces

Pr(A ∩ B) 100/2.000 100


Pr(A \ B) = = = = 0, 125
P (B) 800/2.000 800
La probabilidad de que una persona viva en malas condiciones sanitarias sin otra información
adicional es:

500
Pr(A) = = 0.25
2.000

Ejemplo 2.5 El 50 % de los estudiantes de una facultad tiene clases por la mañana, el 30 % tiene
clases por la tarde y el 20 % tiene clases por la mañana y por la tarde. Se selecciona un estudiante
al azar. Calcular la probabilidad de que:

1. Tenga clases por la tarde dado que tiene clases por la mañana
2. Tenga clases por la mañana dado que tiene clases por la tarde

Solución

Denimos los siguientes eventos:

A = El estudiante tiene clases por la mañana


B = El estudiante tiene clases por la tarde
A ∩ B = El estudiante tiene clases por la mañana y por la tarde

60
Primer punto:

Pr(A ∩ B) 0.20
Pr(B \ A) = = = 0, 40
Pr(A) 0, 50

Segundo punto:

P (A ∩ B) 0.20
Pr(A \ B) = = = 0, 67
Pr(B) 0, 30

La denición de probabilidad condicional nos puede dar una forma de calcular la probabilidad de
la intersección de dos eventos.

Hemos denido la probabilidad condicional del evento A dado que ocurrió el evento B de la siguiente
manera:

Pr(A ∩ B)
Pr(A \ B) =
Pr(B)

siempre que Pr(B) ̸= 0.


A partir de esta expresión obtendremos:

Pr(A ∩ B) = Pr(A \ B) Pr(B) (2.6)

Esta expresión recibe el nombre de regla de la multiplicación que puede formularse de la siguiente
manera:

Denición 2.11 La probabilidad de que ocurran conjuntamente los eventos A y B es igual al


producto de Pr(A \ B) y Pr(B).

Observe que en esta denición los eventos AyB se pueden intercambiar de tal forma que el término
de la derecha de la Ecuación 2.5 se puede escribir también como Pr(B \ A)P (A).

Ejemplo 2.6 Considerando nuevamente los datos del Ejemplo (2.3) emplear la regla de la mul-
tiplicación para calcular la probabilidad de que una selección al azar de un solicitante de como
resultado una mujer y una persona con certicado de último año.

Solución

Según la regla de la multiplicación tendremos:

Pr(A2 ∩ B2 ) = Pr(A2 \ B2 ) Pr(B2 )

Por lo tanto:

  
5 8 1
Pr(A2 ∩ B2 ) = = = 0, 20
8 25 5

2.4.2. Eventos independientes


Si la probabilidad de un evento A no depende de la ocurrencia de otro evento B (o viceversa)
diremos que los eventos A y B son independientes.

Denición 2.12 Se dice que los eventos A y B de un mismo espacio muestral S son independientes
si Pr(A \ B) = Pr(A) o bien Pr(B \ A) = Pr(B). De lo contrario se dice que los eventos son
dependientes.

61
El concepto de eventos independientes es importante cuando se quiere evaluar la probabilidad
Pr(A ∩ B), es decir, la probabilidad de que ocurran A y B conjuntamente.

De la denición de probabilidad condicional sabemos que

P (A ∩ B)
Pr(A \ B) =
P (B)
Por lo tanto

Pr(A ∩ B) = Pr(A \ B) Pr(B)

Pero si los eventos A y B son independientes, entonce Pr(A \ B) = Pr(A)


Por lo tanto, para eventos independientes

Pr(A ∩ B) = Pr(A)P (B) (2.7)

Ejemplo 2.7 En cierto grupo de estudiantes formado por 60 mujeres y 40 hombres, se observa
que 24 de estos usan lentes lo mismo que 16 mujeres. Determinar si la característica usar lentes y
ser mujer son independientes.

Utiliza lentes
Sexo Si utiliza No utiliza Total
Mujer 16 44 60
Hombre 24 16 40
Total 40 60 100

Tabla 2.3: Datos para el Ejemplo (2.7)

Solución

En la Tabla (2.3) se despliegan los datos del ejemplo.

Consideremos los siguientes eventos:

A = La persona seleccionada usa lentes


B = La persona seleccionada es mujer
Su los eventos son independientes P (A ∩ B) = P (A)P (B)

De acuerdo con los datos de la tabla precedente

16
Pr(A ∩ B) =
20
Por otro lado

  
40 60
Pr(A) Pr(B) = = 0, 24
10 10
Por lo tanto, para este grupo de estudiantes los eventos A y B no son independientes.

62
Capítulo 3

Variables aleatorias. Distribución de

probabilidad

En este capítulo abordaremos dos de lo temas más importantes de la Estadística Inferencial.

Son los conceptos de variable aleatoria y el de distribución de probabilidad de una variable aleatoria
necesarios para una correcta compresión y utilización de las técnicas inferenciales que estudiaremos
en esta asignatura.

En el capítulo anterior denimos lo que entendíamos por experimento aleatorio. Decíamos entonces
que un experimento aleatorio tenía tres características que lo diferenciaban de los determinísticos:

Pueden realizarse tantas veces como se quiera bajo ls mismas condiciones

Se saben cuales son sus resultados posibles

Cuando se lo realiza no se sabe cuál de esos resultados ocurrirá

Como veremos con algunos ejemplo, todo experimento aleatorio puede generar variables algunas
de las cuales pueden ser de interés para un analista.

Supongamos el siguiente experimento aleatorio. Se arroja tres veces una moneda honesta y se
registra los resultados obtenidos.

El espacio muestral de este experimento es el siguiente:

S = {CCC, CC+, C + C, +CC, C + +, +C+, + + C, + + +}

donde C es el resultado obtener cara y + obtener cruz.


Supongamos que se está interesado el el número de caras obtenidas cuando se realiza el experimento.

Para ello denimos la siguiente variable:

X= Número de caras obtenidas al arrojar tres veces una moneda

Los valores que puede asumir esta variable son los siguientes:

1. X =0 que se corresponde con el evento A1 = {+ + +} o lo que es lo mismo se obtuvieron


tres cruces
2. X=1 que se corresponde con el evento A2 = {+ + C, +C+, C + +} o lo que es lo mismo se
obtuvo un cara
3. X=2 que se corresponde con el evento A3 = {CC+, C + C, + + C} o lo que es lo mismo se
obtuvieron dos caras

63
4. X = 3 que se corresponde con el evento A4 = {CCC} o lo que es lo mismo se obtuvieron tres
caras

Puede verse la estrecha relación que existe que los resultados de la variable X y los eventos del
espacio muestral denido por el experimento aleatorio.

Damos nuestra primera denición.

Denición 3.1 Si los valores de una variable están precedidos por una selección aleatoria de los
objetos medidos o son el resultado de algún experimento aleatorio la variable recibe el nombre de
variable aleatoria.

Por lo tanto, la variable X es una variable aleatoria pues sus posibles resultados dependen del azar.

Como se ha visto, la variable aleatoria X puede asumir los siguientes valores:

X = 0, 1, 2, 3
Las variables aleatorias usualmente se denotan con las letras X, Y, W, Z etc. y sus valores con las
respectivas minúsculas.

Las variables aleatorias pueden clasicarse en discretas y continuas. Comenzaremos estudiando las
variables aleatorias discretas dejando para más adelante el estudio de las continuas.

Denición 3.2 Una variable aleatoria discreta puede asumir un número nito o innito de valores
separados entre sí por alguna cantidad.

La variable

X= Número de caras al arrojar tres veces una moneda

es una variable aleatoria discreta.

Suponga que se realiza un experimento aleatorio que consiste en contar el número de clientes que
ingresan a un banco cada hora 3n busca de algún servicio. La variable aleatoria de interés es la
siguiente:

X= Número de clientes que ingresan al banco cada hora en busca de algún servicio

Sus valores posibles son los siguientes:

X = 0, 1, 2, ..., etc

Se trata también de una variable aleatoria discreta pero con un número innito (al menos en teoría)
de valores posibles.

Los valores de una variable aleatoria pueden considerarse como una descripción numérica de los
eventos de un espacio muestra.

Es decir, para una variable aleatoria discreta X la expresión (X = x) se relaciona con un evento
del espacio muestral.

Por lo tanto se podrá calcular Pr(X = x) basándonos en las propiedades del experimento.

Denición 3.3 La distribución de probabilidad de una variable aleatoria discreta es una tabla,
una fórmula o cualquier otro mecanismo que se utilice para especicar todos sus valores posibles
junto con sus respectivas probabilidades.

Por ejemplo. Consideremos nuevamente la variable aleatoria:

X= Número de caras en tres lanzamientos de una moneda

Asumiendo que todos los resultados son igualmente probables tendremos entonce que:

64
1
1. Pr(X = 0) = Pr(A1 ) = 8
3
2. Pr(X = 1) = Pr(A2 ) = 8
3
3. Pr(X = 2) = Pr(A3 ) = 8
1
4. Pr(X = 3) = Pr(A4 ) = 8

Los valores de la variable aleatoria X y sus respectivas probabilidades puede resumirse como en la
Tabla (3.1):

X p(x) = P (X = x)
0 1/8
1 3/8
2 6/8
3 1/8

Tabla 3.1: Distribución de probabilidad de X

La forma tabular de la distribución de probabilidad de una variable aleatoria discreta muestra en


la Tabla (3.2).

X p(x) = P (X = x)
x1 p(x1 )
x2 p(x2 )
... ...
xn p(xn )

Tabla 3.2: Distribución de probabilidad de X

Las probabilidades de la variable aleatoria número de caras al arrojar tres veces una moneda
también se pueden calcular mediante la siguiente fórmula:

 
3! 1
p(x) =
x!(3 − x)! 8
con X = 0, 1, 2, 3
La expresión x! recibe el nombre de factorial de x y se dene de la siguiente manera:

Denición 3.4 Sea x un número entero no negativo, el factorial de x simbolizado x! se dene de


la siguiente manera:

x! = x(x − 1)(x − 2) · · · (3)(2)(1)

El factorial de un número entero no negativo tiene las siguientes propiedades:

0! = 1
1! = 1

Ahora estamos en condiciones de aplicar la fórmula p(x) para calcular las probabilidades de la
variable X= de nuestro ejemplo.

   
3! 1 3! 1 1
p(0) = = =
0!(3 − 0)! 8 1 × 3! 8 8
   
3! 1 3! 1 3
p(1) = = =
1!(3 − 1)! 8 1 × 2! 8 8

65
El resto de las probabilidades pueden obtenerse de la misma manera.

La función p(x) que permite calcular la probabilidad de cada uno de los valores de una variable
aleatoria discreta X recibe el nombre de función de probabilidad
También puede utilizarse un diagrama de barras como el de la Figura (3.1) como distribución de
probabilidad de la variable X.

Figura 3.1: Distribución de probabilidad de X

En el eje horizontal se anotan los valores de la variable y en eje vertical las probabilidades.

En cualquier caso se deben cumplir las siguientes condiciones para que cualquier mecanismo (tabla,
fórmula o gráco) pueda considerarse como la distribución de probabilidad de una variable aleatoria
discreta X.
Estas condiciones son las siguientes:

1. 0 ≤ p(x) ≤ 1
P
2. x p(x) = 1

Hemos denido el concepto de distribución de probabilidad de una variable aleatoria decreta.

¾ Cómo podemos interpretarlo y relacionarlo con los conceptos previos que hemos desarrollado
hasta el momento?

Supongamos que se lanza efectivamente tres veces una moneda una gran cantidad de veces y que
se registra el número de caras observadas en cada lanzamiento.

Un histograma de frecuencias relativas para el conjunto de valores 0, 1, 2 y 3 tendría barras cuyas


alturas aproximadas sería 1/8, 3/8, 3/8 y 1/8.
De hecho, si fuera posible repetir el experimento un número muy grande de veces, la distribución
de frecuencias relativas de la variable X se vería muy parecida a el gráco de barras de la Figura
3.1.

Por lo tanto, la distribución de probabilidad de la variable aleatoria proporciona un modelo para su


distribución de frecuencias.

3.1. Valor esperado y varianza de una variable aleatoria dis-


creta
Toda variable aleatoria tiene algunos parámetros que la caracterizan. Dos de los más importantes
son su valor esperado y su varianza cantidades que denimos a continuación.

66
Denición 3.5 Sea X una variable aleatoria discreta que toma los valores x1 , x2 , ..., xn con pro-
babilidades p(x1 ), p(x2 ), ..., p(xn ) respectivamente. El valor esperado de X se denota y se dene de
la siguiente manera:
n
X
E(X) = µ = xp(x) = x1 p(x1 ) + x2 p(x2 ) + ... + xn p(xn ) (3.1)
i=1

Con algunos ejemplos veremos como interpretar el valor esperado de una variable aleatoria discreta.

Supongamos que dos jugadores A y B se enfrentan en un juego que consiste en lanzar una moneda
al aire. Si sale cara A gana un peso, pero si sale cruz A pierde un peso.

La variable aleatoria que representa la ganancia de A puede denirse de la siguiente manera:

X= Ganancia del jugador A en el juego de la moneda

Los valores que puede tomar X son los siguientes:

X = −1, +1

Supongamos que la moneda está perfectamente balanceada, por lo tanto, la probabilidad de obtener
cara 0 cruz es igual 0, 5.
Luego, la distribución de probabilidad de la variable aleatoria X se puede expresar como en la
Tabla (3.3).

X p(x) = P (X = x)
-1 0,5
+1 0,5

Tabla 3.3: Distribución de probabilidad de X

El valor esperado o ganancia esperada del jugador A es entonces:

E(X) = (−1) × 0.5 + 1 × 0, 5 = 0

Esto signica que si el jugador juega un gran número de veces a este juego, a la larga no ganará
ni perderá dinero.

Ejemplo 3.1 Sea X una variable aleatoria discreta que toma los valores x1 , x2 , ..., xn todos con la
misma probabilidad de ocurrencia. Halle la expresión del valor esperado de la variable y comente
los resultados

Solución

Como se tienen n valores de X todos con la misma probabilidad de ocurrencia, entonces:

1
Pr(x1 ) = Pr(x2 ) = · · · = Pr(xn ) =
n
Por lo tanto:

     
1 1 1 x1 + x2 + · · · + xn
E(X) = x1 + x2 + · · · + xn =
n n n n
Pero esta última expresión no es más que la media o promedio de una población de n observaciones.
Por lo tanto, la media o promedio que denimos y analizamos en el Capítulo 1 no es más que un
caso particular del valor esperado de una variable aleatoria en la cual todos sus valores tienen la
misma probabilidad.

67
Dicho de otra manera, el valor esperado de una variable aleatoria es una media ponderada por
probabilidades. Las ponderaciones indican el peso que tiene cada valor de la variable en el conjunto
de valores.

Otro de los parámetros de una variable aleatoria discreta X es su varianza que se dene de la
siguiente manera:

Denición 3.6 Se X una variable aleatoria discreta que toma los valores x1 , x2 , ..., xn con proba-
bilidades p(x1 ), p(x2 ), ..., p(xn ), la varianza de X se denota y dene de la siguiente manera:

n
X
V (X) = σ 2 = (xi − µ)2 p(xi ) = (x1 − µ)2 p(x1 ) + (x2 − µ)2 p(x2 ) + · · · + (xn − µ)2 p(x1 ) (3.2)
i=1

donde µ es la media o valor esperado de X

Consideremos nuevamente la variable aleatoria

X= Número de caras obtenidas al arrojar tres veces una moneda

El valor esperado de X es el siguiente:

3        
X 1 3 3 1 12
E(X) = xi p(xi ) = 0 +1 +2 +3 = = 1, 5
i=1
8 8 8 8 8

La varianza de X es entonces:

       
1 3 3 1
V (X) = (0 − 1.5)2 + (1 − 1.5)2 + (2 − 1.5)2 + (3 − 1.5)2 = 0, 75
8 8 8 8

Ejemplo 3.2 Considerando nuevamente los datos y las condiciones del Ejemplo 3.1 calcule la
varianza de las observaciones y comente el resultado obtenido.

Solución

De acurdo con la denición de varianza de una variable aleatoria y de las condiciones del problema
tendremos que:

     
1 2 2 1 2 1
V (X) = (x1 − µ) + (x2 − µ) + · · · + (xn − µ)
n n n

Por lo tanto

(x1 − µ)2 + (x2 − µ)2 + · · · + (xn − µ)2


V (X) =
n
La interpretación de este resultado se deja como actividad propuesta.

Denición 3.7 Sea X una variable aleatoria discreta, la desviación estándar de X se dene como
la raíz cuadrada positiva de la varianza- Se simboliza σ .
p
Es decir, si X es una variable aleatoria discreta σ= V (X)

La desviación estándar de la variable Y es entonces σ = 0, 75 = 0, 867 aproximadamente.

68
3.2. Función de distribución de probabilidad acumulada
En muchas situaciones práctica es necesario calcular la probabilidad de que una variable aleatoria
tome un valor menor o igual que cierto número real x0 .
Escribiremos la probabilidad de que la variable X tome valores menores o iguales a x0 como
F (x0 ) = Pr(X ≤ x0 ) y llamaremos a la función F , denida para todo número real con el nombre
de función de distribución de probabilidad acumulada o función de distribución.

Denición 3.8 Sea X una variable aleatoria discreta, la función


X
F (x0 ) = Pr(X ≤ x0 ) = = p(x1 ) + p(x2 ) + · · · + p(x0 ) (3.3)
xi ≤x0

con x0 perteneciente a los números reales recibe el nombre de función de distribución de probabilidad
acumulada o función de distribución de la variable X .

Consideremos nuevamente la variable X = Número de caras en tres lanzamiento de una moneda


y su distribución de probabilidad dada por la Tabla (3.1).

Por lo tanto:

1
F (0) = Pr X(≤ 0) =
8

1 3 4
F (1) = Pr(X ≤ 1) = p(0) + p(1) = + =
8 8 8

4 3 7
F (2) = Pr(X ≤ 2) = p(0) + p(1) + p(2) = + =
8 8 8

7 1 8
F (3) = Pr(X ≤ 3) = p(0) + p(1) + p(2) + p(3) = + = =1
8 8 8
Como y0 es un número real, ¾cuál sería la probabilidad de X sea menor o igual a 1, 5 por ejemplo?

Aplicando la denición de función de distribución tendremos:

1 3 4
F (1, 5) = Pr(X ≤ 1.5) = p(0) + p(1) + p(1.5) = + +0=
8 8 8
dado que X = 1.5 no es un evento posible en este experimento.

Del mismo modo, ¾cuál sería la probabilidad de que X sea menor o igual que 4 por ejemplo?

Aplicando la denición de Función de Distribución se tendrá:

F (4) = Pr(X ≤ 4) = p(0) + p(1) + p(2) + p(3) + p(4) = 1 + 0 = 1

dado que X=4 no es un valor posible de la variable.

La distribución de probabilidad y la función de distribución de probabilidad acumulada de la


variable X se presentan en la Tabla (3.4).

X p(x) F (x)
0 1/8 1/8
1 3/8 4/8
2 3/8 7/8
3 1/8 8/8

Tabla 3.4: Función de distribución de X

En la Figura (3.2) se muestra el gráco de F (x).

69
Figura 3.2: Función de distribución de X

3.2.1. Propiedades de la función de probabilidad


Las propiedades más importantes de la función de distribución de probabilidad acumulada de una
variable aleatoria discreta X se listan en el siguiente teorema que damos sin demostración.

Teorema 3.1 Sea F (x) la función de distribución de la variable aleatoria X , entonces:


1. lı́mx→−∞ F (x) = 0
2. lı́mx→x∞ F (x) = 1
3. Si x1 < x2 , entonces F (x1 ) ≤ F (x2 ) para cualquier par de números reales x1 y x2

3.3. Modelos de distribución de probabilidad discretos


Consideremos los siguiente experimentos aleatorios:

Primer experimento

Se arroja tres veces una moneda y se cuenta el número de caras obtenidas. Como ya sabemos, el
espació muestral de esta experimento es:

S1 = {CCC, CC+, C + C, +CC, C + +, +C+, + + C, + + +}

La variable aleatoria es en este caso

X= Número de caras obtenidas al arrojar tres veces una moneda.

Los valores que puede tomar X1 son los siguientes:

X1 = 0, 1, 2, 3

Segundo experimento

De una línea de producción de cierto producto se extraen 3 y se los clasican como defectuosos D
o no defectuosos N. Interesa saber el número de productos defectuosos que se pueden obtener en
una muestra de tamaño 3.

El espacio muestral para este experimento es:

70
S2 = {N N N, N N D, N DN, DN N, N DD, DN D, DDN, DDD}

La variable aleatoria de interés:

X2 = Número de productos defectuosos en una muestra de 3 productos

Los valores que puede tomar X2 son los siguientes:

X2 = 0, 1, 2, 3

Note la semejanza que existen entre los dos experimentos y los resultados obtenidos.

La teoría de probabilidades ha desarrollados modelos de distribuciones de probabilidad que se


pueden utilizar para calcular las probabilidades de los valores de variables aleatorias denidas por
experimentos con las mismas características.

Esto redundará en un signicativo ahorro de tiempo y en minimizar la posibilidad de cometer


errores u omisiones signicativas.

En este capítulo analizaremos los modelos de distribución de probabilidad más utilizados en Ad-
ministración y Economía tanto para variables aleatorias discretas como continuas.

Comenzamos con los modelos para variables aleatorias discretas.

3.3.1. Variables aleatorias discretas


Distribución Bernoulli
Varios modelos de distribución de probabilidad para variables aleatorias discretas se basan en
experimentos o procesos en los que se analizan una secuencia de pruebas llamadas de Bernoulli en
honor al matemático que las describió por primera vez.

Las características de experimento Bernoulli se describen a continuación:

1. La prueba solamente tiene dos resultados mutuamente excluyentes. Llamaremos a uno de


estos resultados éxito (E) y al otros fracaso (F )
2. Las probabilidades de éxito y fracaso se representan por Pr(E) = p y Pr(F ) = q respectiva-
mente. Debe tenerse en cuenta que p+q =1

La variable aleatoria de interés en una prueba Bernoulli es la siguiente:

X= Resultado numérico de una prueba Bernoulli

Los valores posibles de la variable X son los siguientes:

X=0 si resulta fracaso

X=1 si resulta éxito

La distribución de probabilidad de la variable X puede darse como en la Tabla (3.5).

Resultado X p(x) = Pr(X = x)


E 1 p
F 0 q

Tabla 3.5: Distribución de Bernoulli

La distribución de probabilidad de X también puede denirse por medio de la siguiente función


de probabilidad:

71
p(x) = Pr(X = x) = px q 1−x (3.4)

cono X = 0, 1
Por ejemplo, suponga que un experimento consiste en lanzar una moneda balanceada. Suponga
además que denimos el resultado obtener cara como éxito (X = 1) el resultado obtener cruz como
fracaso (X = 0)
¾Cuál es la probabilidad con la que pueden ocurrir los resultados de X?
Como la moneda está balanceada

p(0) = Pr(X = 0) = 0, 50 × 0, 51−0 = 0, 5

Por otro lado

p(1) = Pr(X = 1) = 0, 51 × 0, 51−1 = 0, 5

Es decir, las probabilidades de obtener uno u otro resultado son iguales.

Teorema 3.2 Si una variable aleatoria tiene distribución Bernoulli entonces E(X) = p y
V (X) = pq

Demostración

Como se recordará el valor esperado de una variable aleatoria discreta se dene de la siguiente
manera:

1
X
E(X) = xi p(xi )
i=0

Como X es una variable Bernoulli

1
X
E(X) = µ = xi p(xi ) = 0 × q + 1 × p ⇒ E(X) = p
i=0

La varianza de una variable aleatoria discreta se dene de la siguiente manera:

n
X
V (X) = (xi − µ)2 p(xi )
i=1

Por lo tanto:

n
X
V (X) = (xi − µ)2 p(xi ) = (0 − p)2 q + (1 − p)2 p
i=1

O sea:

V (X) = p2 q + q 2 p = pq(p + q) ⇒ V (X) = pq

que es lo que pretendía demostrar.

Distribución Binomial
La distribución Binomial es el modelo probabilístico para describir numéricamente experimentos
aleatorios con las siguientes características:

1. El experimento consiste en n pruebas Bernoulli

72
2. Cada prueba tiene solamente dos posibles resultados llamados éxito (E) y fracaso (F )

3. Las probabilidades Pr(E) = p y Pr(F ) = 1 − p = q permanecen constantes a lo largo de


todas las pruebas. Note que p+q =1

4. Las pruebas son independientes

5. La variable aleatoria de interés es:

X= Número de resultados éxitos en las n pruebas Bernoulli

Puede demostrarse que si X es una variable aleatoria con distribución Binomial su función de
probabilidad es:

 
n x n−x
p(x) = Pr(X = x) = p q (3.5)
x
o también

n!
p(x) = Pr(X = x) = px q n−x (3.6)
x!(n − x)!
con X = 0, 1, ..., n
En la Ecuación (3.5) n representa el número de ensayos, p la probabilidad de éxito y q =1−p la
probabilidad de fracaso.

Puede demostrarse que X es una variable aleatoria con distribución Binomial entonces E(X) = np
yV (X) = npq .
Los números n y p reciben el nombre de parámetros de la distribución en el sentido de que para
cada combinación de sus valores se tiene una distribución Binomial diferente.

Si una variable aleatoria X tiene distribución Binomial de parámetros n y p se escribe X ∼ B(n, p).
Por ejemplo, suponga que una variable aleatoria X tiene distribución Binomial con parámetros
n=5 y p = 0.25, es decir X ∼ B(n = 5; p = 0.25), entonces X = 0, 1, 2, 3, 4, 5.
Por lo tanto:

5!
p(0) = Pr(X = 0) = 0, 250 × 0, 755−0 = 0, 755 = 0, 237
0!(5 − 0)!

5! 5!
p(1) = Pr(X = 1) = 0, 251 × 0, 755−1 = × 0, 25 × 0, 754 = 0, 395
1!(5 − 1)! 4!

Se puede continuar de la misma manera y calcular el resto de las probabilidades. En la Tabla (3.6)
se muestran los valores de la variable X y sus respectivas probabilidades.

X p(x) = Pr(X = x)
0 0,237
1 0.395
2 0.263
3 0.087
4 0,014
5 0,001

Tabla 3.6: Distribución de probabilidad de X ∼ B(5; 0.25)

En la Figura (3.3) se presenta la distribución de probabilidad de X ∼ B(5; 0, 25) mediante un


diagrama de barras.

Puede verse que la distribución de probabilidad de X es sesgada a derecha.

73
Figura 3.3: Binomial n=5 y p = 0, 25

X p(x) = Pr(X = x)
0 0,031
1 0.156
2 0.312
3 0.315
4 0,156
5 0,031

Tabla 3.7: Distribución de probabilidad de X ∼ B(5, 0.5)

Ahora bien, si X ∼ B(n = 5; p = 0, 5), procediendo de la misma manera que en el caso anterior, la
distribución de probabilidades en forma tabular se muestra en la Tabla (3.7).

Por otro lado, para la misma variable aleatoria, su distribución de probabilidad dada por medio
de un gráco de barra se muestra en la Figura 3.7.

Figura 3.4: Binomial n= y p = 0, 5

74
Puede verse que al cambiar un solo parámetro se tiene una distribución Binomial diferente.

Además, cuando p = 0, 5 la distribución Binomial es simétrica como se muestra en la Figura (3.3).

Veamos con un ejemplo la utilidad práctica del modelo binomial.

Ejemplo 3.3 Una fábrica de lámparas eléctricas para iluminación hogareña produce un 10 % de
unidades defectuosas. Si se selecciona una muestra de 10 lámparas, ¾cuál es la probabilidad de
encontrar:

1. Ninguna lámpara defectuosa?


2. Cuatro lámparas defectuosas?
3. Como máximo dos lámparas defectuosas?

Solución

La variable aleatoria de interés para este ejemplo es:

X= Número de lámparas defectuosas en una muestra de tamaño 10

Los valores posibles de la variable son: X = 0, 1, 2, ..., 10.


Asumiendo que se cumplen las condiciones para utilizar el modelo binomial los parámetros de la
distribución son: n = 10 y p = 0, 10
Primer punto:

10!
p(0) = Pr(X = 0) = (0, 10)0 (0, 90)10−0 = 0, 378
0!(10 − 0)!

Segundo punto:

10!
p(4) = Pr(X = 4) = (0, 10)4 (0, 90)10−4 = 0, 011
4!(10 − 4)!

Tercer punto:

Aplicando sucesivamente la función de probabilidad de la distribución Binomial se obtiene:

Pr(X ≤ 2) = p(0) + p(1) + p(4) = 0, 9298

El valor esperado de X es E(X) = np = (10)(0, 10) = 1 mientras que la varianza vale


V (X) = (10)(0, 10)(0, 90) = 0, 90
Debemos advertir que el uso de la distribución Binomial debe hacerse solo si se cumplen las
condiciones de aplicabilidad que hemos nombrado en la denición del modelo.

La condición de probabilidad de éxito constante en toda la experiencia es una de las cuestiones


que debe evaluarse cuidadosamente.

En las aplicaciones prácticas puede demostrarse que la distribución Binomial se puede aplicar
cuando la muestra se extrae de una población innita o cuando el muestreo se hace con reposición
de una población nita.
Pero en la práctica es común extraer muestras sin reposición de poblaciones nitas así que se debe
tener mucho cuidado en la aplicación del modelo Binomial en estos casos.

Existe un consenso general que cuando el tamaño de la población es por lo menos 20 veces el
tamaño de la muestra, es posible utilizar la distribución Binomial aun cuando el muestreo se haga
sin reposición de una población nita porque de esta manera se mantendrá aproximadamente
constante la probabilidad de éxito.

Resumiendo:

75
Si se toman muestras sin reposición de una población nita, la distribución Binomial podrá
utilizarse siempre y cuando N ≥ 20n o equivalentemente Nn ≤ 0, 05 siendo n el tamaño de la
muestra y N el tamaño de la población
Ejemplo 3.4 En una provincia de 1 000 000 de habitantes, estudios anteriores han determina-
do que el 40 % de la población consume determinada marca de yerba. Se toma una muestra sin
reposición de 10 personas, ¾qué probabilidad hay de que 3 de ellos sean consumidores del producto.
Solución

Aun cuando el muestreo es sin reposición, podemos utilizar la distribución Binomial dado que
n
N ≤ 0, 05
Además:

X= Número de personas que consumen la marca de yerba en una muestra de 10.

Los valores posibles de la variable son: X = 0, 1, 2, ..., 10


Por lo tanto:

10!
p(3) = Pr(X = 3) = (0, 4)3 (0, 60)7 = 0, 2150
3!(10 − 3)!
Por lo tanto, la probabilidad de que tres personas seleccionadas al azar de esta población consuma
la marca de yerba es de 0, 215.

Tablas de la distribución Binomial


El cálculo de las probabilidades binomiales mediante la función de probabilidad puede resultar
muy laborioso cuando n es grande.

Afortunadamente, se han confeccionado tablas de probabilidades binomiales por lo cual en la


mayoría de las situaciones prácticas no es necesario el uso directo de la ecuación.

La tabla que acompaña este material es una tabla de este tipo.

Distribución Hipergeométrica
Este modelo probabilístico describe un fenómeno o experimento con dos resultados posibles, mu-
tuamente excluyentes en cada una de las n repeticiones que se realizan.

La diferencia fundamental con el modelo Binomial radica en que el modelo hipergeométrico describe
un proceso en el cual la probabilidad de éxito no permanece constante.
Las características que denen una variable aleatoria hipergeométrica y su distribución de proba-
bilidad se resumen a continuación.

1. El experimento consiste en extraer al azar y sin reposición n elementos de un conjunto de N


elementos, NE de los cuales son éxitos (E) y NF = N − NE son fracasos (F )
2. La probabilidad de éxito no permanece constante

3. Las pruebas no son independientes

4. La variable aleatoria hipergeométrica es X = Número de resultados éxitos en una muestra


de n elementos

La función de probabilidad de una variable aleatoria con distribución Hipergeométrica es la si-


guiente:

NE NF
 
x n−x
p(x) = Pr(X = x) = N
 (3.7)
n
con

76
X = 0, 1, ..., mínimo valor entre n y NE

Puede demostrarse que si X tiene distribución Hipergeométrica, entonces

NE
E(X) = n
N
y que

  
NE NE N −n
V (X) = n 1−
N N N −1

donde:

N es el número total de elementos de la población

NE es el número de éxitos en las N unidades observacionales

NF es el número de fracasos en las N unidades observacionales

n es el tamaño de la muestra

x es el número de éxitos en los n elementos

 
El factor
N −n
N −1 que aparece en la varianza de la variable aleatoria recibe el nombre de factor de
corrección para poblaciones nitas y será utilizado frecuentemente en algunos temas posteriores.

Puede demostrarse que el factor de corrección tiende a asumir el valor 1 si el tamaño de la población
N es muy grande respecto al tamaño de la muestra n.
 
N −n
Es decir, es posible demostrar que lı́mN 7−→∞ N −1 =1 aplicando las reglas de cálculos de los

límites de funciones reales.

Mediante el siguiente ejemplo se muestra la utilidad práctica del modelo hipergeométrico.

Ejemplo 3.5 Al auditar 87 cuentas por pagar de una compañía, se toma una muestra de 10 de
las 87 cuentas sin reposición. De las 87 cuentas, 13 tienen errores. Encuentre la probabilidad de
que en dicha muestra, 2 contengan errores. Calcule el valor esperado, la varianza y la desviación
estándar de la variable aleatoria número de cuentas con errores en una muestra de tamaño 10.

Solución

Los datos de este ejemplo son: N = 87, n = 10, NE = 13 y NF = 87 − 13 = 74


La variable aleatoria es:

X= Número de cuentas con errores en una muestra sin reposición de tamaño 10

Los valores que puede tomar la variable son los siguientes: X = 0, 1, ..., 10
Por lo tanto:

13 74
 
2 8
Pr(X = 2) = p(2) = 87
 = 0, 294
10

13
 13
 13
  87−10 
Además E(X) = 10 87 = 1, 49 y V (X) = 10 87 1− 87 87−1 = 1, 137
p √
Finalmente σ = V (X) = 1, 137 = 1, 066

77
Distribución de Poisson
La distribución de Poisson proporciona un modelo modelo probabilístico para calcular la probabi-
lidad de ocurrencia de eventos por unidad de área, volumen, tiempo, etc.

El número de personas que ingresan a un banco cada hora en búsqueda de algún servicio, el número
de accidentes laborales en una plante fabril cada mes, etc. son variables aleatorias cuya distribución
de probabilidad se pueden modelar, bajo ciertas condiciones, con el modelo de distribución de
probabilidad de Poisson.

Las características de una variable aleatoria de Poisson y su función de probabilidad se dan a


continuación.

1. El experimento consiste en contar el número X de veces que ocurre un evento particular por
unidad de medida (tiempo, área, volumen, etc.)

2. La probabilidad de que un evento ocurra por unidad de medida es la misma para todas las
unidades

3. El número de eventos que ocurren en una unidad de medida es independiente de los que
ocurren en otra unidad de medida

4. El número promedio o esperado de eventos por unidad de medida se denota con la letra
griega λ (lamda)

En general, una variable aleatoria de Poisson se dene de la siguiente manera:

X= Número de eventos por unidad de medida

La función de probabilidad de un variable de Poisson X es:

e−λ λx
p(x) = Pr(X = x) = (3.8)
x!
con X = 0, 1, 2, 3... etc.

Puede demostrarse que la media o valor esperado y la varianza de una variable de Poisson son
E(X) = λ V (X) = λ respectivamente.
y

Para cada valor de λ se tiene un distribución de Poisson diferente, es decir, λ es el único parámetro
de la distribución.

Mediante el siguiente ejemplo se muestra la utilidad práctica del modelo de distribución de Poisson.

Ejemplo 3.6 Suponga que el número promedio de llamadas telefónicas que llegan a una central
telefónica es de 0,5 llamadas por minuto. Hallar la probabilidad de que:

1. En un minuto no lleguen llamadas


2. En un minuto lleguen más de tres llamadas
3. En res minutos lleguen menos de cinco llamadas

Solución

Primer punto

La variable aleatoria objeto de estudio es:

X= Número de llamadas que ingresan a la central cada minuto

De acuerdo con los datos del problema λ = 0, 5. Por lo tanto:

e−0,5 (0, 5)0


Pr(X = 0) = p(0) = = 0, 606
0!

78
Es decir, la probabilidad de que en un minuto no ingresen llamadas es igual a 0,606.

Segundo punto

Se pide calcular Pr(X > 3). Por una propiedad de eventos complementarios tendremos que:

Pr(X > 3) + Pr(X ≤ 3) = 1 ⇒ Pr(X > 3) = 1 − Pr(X ≤ 3)

Por lo tanto

0, 50 0, 51 0, 52 0, 53
 
−0,5
Pr(X > 3) = 1 − e + + + = 1 − 0, 998 = 0, 002
0! 1! 2! 3!

Tercer punto

La variable aleatoria es ahora:

Y = Número de llamadas que ingresan a la central cada tres minutos

El número medio de llamadas cada tres minutos se calcula de la siguiente manera: si en un minuto
ingresan 0,5 llamadas, en tres minutos ingresaran

3 × 0, 5
λ1 = = 1, 5
1
Es decir, se espera que ingresen λ1 = 1, 5 llamadas cada tres minutos.

Por lo tanto:

1, 50 1, 51 1, 54
 
Pr(Y < 5) = e−1,5 + + ··· + = 0, 981
0! 1! 4!

Por lo tanto, la probabilidad de que en tres minutos entre a la central menos de cinco llamadas es
0,981.

3.3.2. Variables aleatorias continuas


En las secciones anteriores hemos denido a las variables aleatorias discretas como aquellas que
pueden asumir un número nito o innito de valores separados entre si por alguna cantidad.

También analizamos algunos de los parámetros que las caracterizan como ser su media o valor
esperado , su varianza y su desviación estándar.

Además, denimos y utilizamos algunos de los modelos de distribución de probabilidad para va-
riables aleatorias discretas más utilizados en Administración y Economía como el binomial, el
hipergeométrico y el de Poisson.

Veremos a continuación un nuevo tipo de variable, las variables aleatorias continuas de múltiples
aplicación prácticas y teóricas.

Seguiremos en general el mismo camino que el da las variables aleatorias discretas.

Comenzamos con la siguiente denición:

Denición 3.9 Una variable aleatoria X es continua si puede asumir cualquier valor dentro de
un intervalo real de valores posibles.

Por ejemplo, si selecciona una lámpara de iluminación hogareña y se mide su tiempo de duración,
la variable aleatoria

X= Tiempo de duración de la lámpara de iluminación hogareña

79
es una variable aleatoria que puede tomar cualquiera de los innitos valores comprendidos en el
intervalo [0, 200] horas, por ejemplo.

Los experimentos aleatorios que consisten en mediciones de cantidades como tiempo, peso, altura,
etc. generan variables aleatorias continuas.

Existen algunas diferencia importantes en el tratamiento de las variables aleatorias continuas al


compararlas con las discretas.

Recordemos que para una variable aleatoria discreta X se puede calcular la probabilidad de que
asuma exactamente un valor dado, es decir, no hay ninguna dicultad e calcular Pr(X = x).
Para las variables aleatorias continuas el caso es muy distinto ya que la misma puede tomar
cualquier valor dentro de un intervalo real de valores posibles.

Como cualquier intervalo real contiene una cantidad innita de valores, no es posible hablar de la
probabilidad de que la variable aleatoria tome un valor determinado.

En lugar de hablar de la probabilidad de que la variable aleatoria tome un cierto valor, debemos
pensar en términos de la probabilidad de que la variable aleatoria continua tome un valor dentro
de un intervalo dado. Es decir, probabilidades como Pr(a ≤ X ≤ b) donde a y b son dos valores
posibles de la variable.

Para describir la distribución de probabilidad de una variable aleatoria discreta presentamos el


concepto de función de probabilidad p(x).
Esta función permite calcular la probabilidad de que la variable X tome un valor especíco, es
decir, permite evaluar p(x) = Pr(X = x).
En el caso continuo, la contraparte de la función de probabilidad p(x) es la función de densidad
de probabilidad simbolizada f (x).
Para una variable aleatoria continua, f (x0 ) especica el valor de la la función de densidad en
X = x0 sin dar como resultado la probabilidad de que X tome este valor.
Es decir, si X es una variable aleatoria continua f (x0 ) ̸= Pr(X = x0 )
Sin embargo, el área de la gráca de f (x) que corresponde a un intervalo dado, determina la
probabilidad de que la variable aleatoria continua X tome algún valor dentro de dicho intervalo.

Ahora bien no toda función f (x) puede puede ser la densidad de probabilidad para una variable
aleatoria continua. Debe cumplir algunas condiciones que enumeramos en la siguiente denición:

Denición 3.10 La función f (x) es la función de densidad de probabilidad de la variable aleatoria


continua X si cumple con las siguientes condiciones:

1. f (x) ≥ 0 para todos los valores posibles de la variable


2.
R +∞
−∞
f (x)dx = 1

3. Pr(a ≤ X ≤ b) =
Rb
a
f (x)dx

En la Figura (3.5) se presentan estas tres condiciones de manera gráca.

De acuerdo a la denición de funcione de densidad de probabilidad y de las propiedades de la


integral denida, para las variables aleatorias continuas los conceptos de área y probabilidad son
equivalentes.
Rb
Es decir, si X es una variable aleatoria continua, Pr(a ≤ X ≤ b) = a
f (x)dx es igual al área
determinada por la gráca de f (x), el eje de las x y las rectas verticales x=ayx=b

Propiedades de la función de densidad de probabilidad


Es posible demostrar, de acuerdo con la denición de densidad de probabilidad y de las propiedades
de la integral denida las siguiente propiedades f (x)
Ra
Pr(a ≤ X ≤ a) = a
f (x)dx = Pr(X = a) = 0

80
Figura 3.5: Función de densidad de probabilidad

Rb
Pr(a ≤ X ≤ b) = a
f (x)dx = Pr(a < X < b)

Todos estos conceptos se aclararán con el siguiente ejemplo.

Ejemplo 3.7 Sea X una variable aleatoria continua con densidad de probabilidad
(
x2
3 −1 < x < 2
f (x) =
0 en otro caso

1. Vericar que se cumplen las dos primeras condiciones para que f (x) sea la función de den-
sidad de probabilidad para X
2. Calcular Pr(0 < X ≤ 1)

Solución

Primer punto:

En la Figura (3.6) se muestra la gráca de f (x)

Figura 3.6: Densidad de probabilidad f (x)

Puede verse, analizando la Figura (3.6), que f (x) ≥ 0 para todos los valores de X.
Además, f (x) es una función polinómica de segundo grado con ordenada al origen igual a cero.
Esto conrma que f (x) ≥ 0 para todos los valores de X
La segunda condición exige que

Z +∞
f (x)dx = 1
−∞

81
Aplicando algunas propiedades de la integral denida obtenemos:

Z +∞ Z −1 Z 2 Z +∞
1
f (x)dx = 0dx + x2 dx + 0dx
−∞ −∞ 3 −1 2

Z +∞
1  3 2 1
f (x)dx = x −1 = (8 + 1) = 1
−∞ 9 9
De esta manera se verica la segunda condición.

Segundo punto:

Z 1
1 1 2 1
Pr(0 < X < 1) = x2 dx = (1 − 03 ) =
3 0 9 9

Función de probabilidad
Puede haber situaciones prácticas en las cuales interese conocer la probabilidad de que un valor
de la variable aleatoria continua X sea menor o igual a x0 ∈ ℜ.
Damos la siguiente denición:

Denición 3.11 Si X es una variable aleatoria continua con densidad de probabilidad f (x), la
función
Z x0
F (x0 ) = Pr(X ≤ x0 ) = f (t)dt (3.9)
−∞

donde x0 ∈ ℜ y f (t) es la función de densidad de probabilidad de X parametrizada en t, se


denomina función de distribución de probabilidad acumulada de X .

La función F (x) también recibe el nombre de función de distribución de la variable aleatoria


continua X.
Si X es una variable aleatoria continua también se cumplen la siguientes propiedades:

1. lı́mx→−∞ F (x) = 0
2. lı́mx→x∞ F (x) = 1
3. Si x1 < x2 , entonces F (x1 ) ≤ F (x2 ) para cualquier par de números cualquier par de números
realesx1 y x2

Además, las variables aleatorias continuas tienen otras propiedades que se derivan de las propie-
dades de la integral denida.

Las resumimos en el siguiente teorema que enunciamos sin demostración.

Teorema 3.3 Si f (x) y F (x) son, respectivamente la función de densidad y la función de distri-
bución de una variable aleatoria continua X , entonces:

1. Pr(a ≤ X ≤ b) = f (x)dx = F (b) − F (a) para todos los números reales tales que a ≤ b
Rb
a

2. f (x) = dF (x)
dx donde esté denida la derivada

Ejemplo 3.8 Para la función de densidad del Ejemplo (3.6)


1. Hallar F (x)
2. Utilice F (x) para calcular Pr(0 < X ≤ 1).

82
Solución

Primer punto:

Supongamos que x ≤ −1. En este caso f (x) = 0, por lo tanto no se acumula ninguna probabilidad.
Luego, F (x) = 0.
Supongamos ahora que −1 < X < 2. En este caso

−1 x x
x3 + 1
Z Z 
1 1 3
2
F (x) = 0dt + t dt = t =
−∞ 3 −1 9 −1 9

Por último, si X≥2

Z −1 Z 2 Z +∞  2
1 1 3
F (x) = 0dt + t2 dt + 0dt = t =1
−∞ 3 −1 2 9 −1

Por lo tanto:


0
 x ≤ −1
1
F (x) = (x3 + 1) −1 < x < 2
9
1 x≥2

Segundo punto:

13 + 1 03 + 1 1
Pr(0 < x < 1) = F (1) − F (0) = − =
9 9 9

3.4. Valor esperado y varianza de una variable aleatoria con-


tinua
El valor esperado y la varianza de una variable aleatoria continua se dene de manera parecida a
las variables aleatorias discretas solo que las sumatorias se reemplazan por integrales.

Supongamos que X es una variable aleatoria continua con densidad de probabilidad f (x). Su media
o valor esperado de se dene de la siguiente manera:

Z +∞
E(X) = µ = xf (x)dx (3.10)
−∞

mientras que su varianza se dene así:

Z +∞
V (X) = σ 2 = (x − µ)2 f (x)dx (3.11)
−∞

Por último, la desviación


√ estándar de X se dene como igual a la raíz cuadrada positiva de la
varianza. Es decir: σ= σ2 .
Estas tres cantidades son parámetros que caracterizan toda variable aleatoria continua.

Ejemplo 3.9 Suponga que la variable aleatoria continua X tiene la siguiente densidad de proba-
bilidad:
(
0, 05 0 ≤ x ≤ 20
f (x) =
0 en cualquier otro caso

Calcular su valor medio, su varianza y su desviación estándar.

83
Solución

Comenzamos por su media o valor esperado.

Z 20 Z 20
E(X) = µ = x(0, 05)dx = 0, 05 xdx
0 0

Por lo tanto:

0, 05  2 20 0, 05
E(X) = µ = x 0 = (202 − 02 ) = 10
2 2
La varianza se calcula de la siguiente manera:

Z 20
2
V (X) = σ = (x − 10)2 (0, 05)dx
0

Por lo tanto

20 20
(x − 10)3
Z 
V (X) = σ 2 = 0, 05 (x − 10)2 dx = 0, 05 = 33, 33
0 3 0

Por último:

p
σ= 33, 33 = 5, 77

3.5. Funciones de variables aleatorias


En general, si X s una variable aleatoria, toda función de X es a su vez una variable aleatoria.

Por ejemplo, si X es una variable aleatoria continua, la función Y = 2X + 1 también sera una
variable aleatoria continua.

Como Y es una variable aleatoria, estará caracterizada por su valor esperado, su varianza y su
desviación estándar, cantidades que denimos a continuación.

Denición 3.12 Si Y = g(X) una función de la variable aleatoria discreta X , entonces


P
E(Y ) = µy = x g(x)p(x)
2
V (Y ) = σy2 =
P
x [g(x) − µy ] p(x)

Además, si Y = g(X) una función de la variable aleatoria continua X , entonces:


R +∞
E(Y ) = µy = −∞
g(x)f (x)dx
R +∞ 2
V (Y ) = σy2 = −∞
[g(x) − µy ] f (x)dx

Ejemplo 3.10 Suponga que en cierta estación de servicios, el número automóviles X que pasan
a través de una máquina lavadora en un día de trabajo es una variable aleatoria discreta con una
distribución de probabilidad denida en la Tabla (3.8).
Sea Y = g(X) = 2X − 1 la variable aleatoria que representa la cantidad de dinero que el gerente
paga al operario que atiende la máquina lavadora.
Encuentre la renta esperada del operario en una jornada de trabajo.

Solución

La renta promedio del encargado de atender la máquina lavadora se calcula de la siguiente manera:

84
X p(x) = Pr(X = x)
4 1/12
5 1/12
6 1/4
7 1/4
8 1/6
9 1/6

Tabla 3.8: Datos para el Ejemplo( 3.10)

X X
E(Y ) = µy = g(x)p(x) = (2x − 1)p(x)
x x

Por lo tanto:

           
1 1 1 1 1 1
E(Y ) = µy = 7 +9 + 11 + 13 + 15 + 17 = 12, 67 dólares
12 12 4 4 6 6

Luego, la renta esperada del encargado es de 16,67 dólares por jornada de trabajo.

Ejemplo 3.11 Sea X una variable aleatoria continua con densidad de probabilidad
(
x2
3 −1 < x < 2
f (x) =
0 en otro caso
Encontrar el valor esperado y la varianza de Y = 4X + 3

Solución

Por denición:

2 2
x2
Z Z
1
E(Y ) = (4x + 3) dx = (4x3 + 3x2 )dx
−1 3 3 −1

 Z 2 Z 2 
1
E(Y ) = 4 x3 dx + 3 x3 dx
3 −1 −1

Integrando

1 4 2
E(Y ) = x + x3 −1 = 8
3
Por lo tanto, la media o valor esperado de la variable aleatoria Y = 4x + 3 es igual a 8.

La varianza de la calculamos de la siguiente manera:

2
x2
Z  
2 2
V (X) = σ = (4x + 3 − 8) dx
−1 3
Z 2
1
V (X) = σ 2 = (4x − 5)2 x2 dx
3 −1

Luego de aplicar las reglas de cálculo de la integral denida


1 puede vericarse que V (X) = 51
=
5
10, 2.
1 Los detalles del cálculo de dejan como tarea propuesta

85
Seguidamente analizamos unas de las propiedades más utilizadas de la varianza de una variable
aleatoria discreta o continua.

La demostramos para una variable aleatoria continua pero al mismo resultado se llega para las
discretas.

Teorema 3.4 Si X es una variable aleatoria continua con densidad de probabilidad f (x), entonces
2
σ 2 = E X 2 − [E(X)]

(3.12)

Demostración

Por denición

Z +∞
2
σ = (x − µ)2 f (x)dx
−∞

Por lo tanto

Z +∞
2
σ = (x2 − 2xµ + µ2 )f (x)dx
−∞

Aplicando algunas propiedades de la integral denida obtenemos:

Z +∞ Z +∞ Z +∞
σ2 = x2 f (x)dx − 2µ xf (x)dx + µ2 f (x)dx
−∞ −∞ −∞

Finalmente:

2
σ 2 = E(X 2 ) − 2µ2 + µ2 (1) ⇒ σ 2 = E(X 2 ) − µ2 ⇒ σ 2 = E(X 2 ) − [E(X)]

como se quería demostrar.

Hemos visto hasta aquí los conceptos fundamentales de las variables aleatorias continuas.

Seguidamente estudiaremos unos de los modelos de densidad de probabilidad más utilizados en la


teoría y en la práctica estadística, la distribución normal de probabilidades.

Distribución Normal
Hemos dicho que la Distribución Normal es uno de los modelos mas importantes tanto de la
estadística aplicada como en la teoría estadística.

Teóricamente la Distribución Normal puede obtenerse a partir de la Distribución Binomial cuando


el número de ensayos se hace muy grande.

Sin embargo, la importancia de la distribución normal va mucho más allá de proporcionar aproxi-
maciones a la Distribución Binomial.

La Distribución Normal se utiliza como modelo de muchas variables aleatorias que aparecen en
problemas de Administración y Economía.

Comenzamos con la siguiente denición:

Denición 3.13 Se dice que una variable aleatoria continua X tiene distribución normal de pro-
babilidad si su función de densidad es la siguiente:

1 (x−µ)2
f (x) = √ e− 2σ 2 (3.13)
2πσ 2

donde x ∈ ℜ; µ ∈ ℜ y σ 2 > 0

86
Puede demostrarse que si X es una variable aleatoria con Distribución Normal, entonces E(X) = µ
y V (X) = σ 2 .
Estas cantidades son los parámetros de la Distribución Normal en el sentido de que para cada
combinación de estos valores se tendrá una Distribución Normal diferente.

Más precisamente, µ recibe el nombre de parámetro de posición porque ja la posición de la


distribución y σ2 recibe el nombre de parámetro de forma pues indica la dispersión de los valores
de la variable respecto del la media µ.
La complejidad matemática de la Fórmula (3.13) no permite apreciar cuales son las propiedades
más importantes de la Distribución Normal.

No obstante, enunciaremos las propiedades más importantes, las que utilizaremos a lo largo de este
material.

La gráca de la función de densidad de probabilidad Normal es la una curva simétrica con


forma de campana. El valor de µ está en el centro de la distribución mientras que σ da la
dispersión de los valores de la variable respectos de µ
En la Figura (3.7) se muestra la gráca de una Distribución Normal tipo.

Figura 3.7: Distribución Normal

f (x) > 0. Es decir, el gráco de una variable aleatoria con Distribución Normal siempre se
encuentra por encima del eje de las x

El área bajo la curva de f (x) en el intervalo −∞ < x < +∞ es igual a uno como en toda
R +∞
densidad de probabilidad. Es decir
−∞
f (x)dx = 1.

El valor máximo de la función de densidad Normal f (x) ocurre cuando x=µ y su valor es
√ 1
2πσ 2
Rb
Pr(a ≤ X ≤ b) = a
f (x)dx como en toda densidad de probabilidad

Como la gráca de la función de densidad Normal es simétrica y con forma de campana

entonces:

ˆ El intervalo (µ − σ, µ + σ) contiene aproximadamente el 68 % de los datos

ˆ El intervalo (µ − 2σ, µ + 2σ) contiene aproximadamente el 95 % de los datos

ˆ El intervalo (µ − 3σ, µ + 3σ) contiene aproximadamente el 99 % de los datos

Para cualquier variable aleatoria que tenga Distribución Normal

ˆ Pr(µ − σ ≤ X ≤ µ + σ) = 0.68

87
ˆ Pr(µ − 2σ ≤ X ≤ µ + 2σ) = 0.95
ˆ Pr(µ − 3σ ≤ X ≤ µ + 3σ) = 0.99

Si una variable aleatoria X tiene Distribución Normal de media µ y varianza σ2 se escribe


2
X ∼ N (µ; σ )

De acuerdo con la regla empírica, casi el 100 % de las observaciones de una variable aleatoria con
Distribución Normal estarán en el intervalo (µ − 3σ, µ + 3σ).
A la cantidad 6σ , que es la amplitud de este intervalo, se la conoce con el nombre de ancho de
la distribución normal. Por lo tanto, el área (probabilidad) que está fuera de este intervalo resulta
muy pequeña.

Hemos dicho que para cada par de valores de µ y σ2 existe una curva normal diferente. En la
Figura (3.8) se muestran algunas curvas de distribuciones normales para distintas combinaciones
de su parámetros µ y σ

Figura 3.8: Distribuciones Normales para distintas combinaciones de sus parámetros

Note que a medida que aumenta el valor del parámetro σ2 la curva se hace más plana.

Una vez que hemos denido la distribución Normal y analizado sus principales propiedades, el
siguiente paso que daremos es ver como se calculan las probabilidades de una variable aleatoria
normal.

En teoría, si X ∼ N (µ, σ 2 ) y es necesario calcular Pr(a ≤ X ≤ b) deberíamos hacerlo resolviendo


la siguiente integral denida:

Z b
Pr(a ≤ X ≤ b) = f (x)dx
a

El problema que se presenta con el cálculo de esta integral es que la función f (x) no tiene primitiva,
por lo tanto, no se pueden aplicar los métodos estándar de integración, por lo tanto deberían
utilizarse métodos más avanzados de integración.

Afortunadamente esto no es necesario pues las probabilidades para variables aleatorias cuya den-
sidad de probabilidad es la Distribución Normal pueden calcularse a partir de tablas .

Antes de ver cómo se utilizan estas tablas debemos desarrollar algunos conceptos previos.

Distribución Normal Estándar


Hemos dicho que la distribución Normal es realmente una familia de distribuciones en la que un
miembro se distingue de otro según los valores de µ y σ.

88
El miembro más importante de esta familia es la Distribución Normal Estándar llamada así por-
que tiene una media igual a caro y una desviación estándar igual a 1. También se la denomina
Distribución Normal Unitaria.

La expresión matemática de la distribución Normal Estándar se puede obtener a partir de la


expresión

1 (x−µ)2
f (x) = √ e− 2σ 2
2πσ 2
x−u
haciendo z= σ .
A partir de este cambio de escala de la variable X se obtiene Fórmula (3.14) como expresión de la
función de densidad de probabilidad de una variable con distribución Normal Estándar.

1 2
f (z) = √ e−z /2 (3.14)

con Z ∈ ℜ.
Si una variable aleatoria tiene Distribución Normal Estándar se escribe Z ∼ N (0, 1).
Para calcular la probabilidad de que Z tome un valor entre dos valores posibles cualesquiera z0 y
z1 , es decir, para calcular Pr(z0 ≤ Z ≤ z1 ) se debe calcular el área delimitada La gráca de f (z),
ele eje de los valores de Z y las rectas z = z0 y z = z1 .
Tal como se mencionó anteriormente, las áreas bajo la curva de la función de densidad de proba-
bilidad de una variable aleatoria continua se calculan integrando la función entre los valores de la
variable.

Entonces, para calcular Pr(z0 ≤ Z ≤ z1 ) en principio se debería calcular la integral denida de


f (z) entre z0 y z1 .
Es decir, se debería calcular:

Z z1
1 2
Pr(z0 ≤ Z ≤ z1 ) = √ e−z /2 dz
z0 2π
Por fortuna,no es necesario calcular esta integral porque existen tablas disponibles que proporcio-
nan los resultados de todas las integraciones en las que se pueda estar interesados.

La tabla que acompaña este material es una de esas tablas. En la Figura (3.9) mostramos un símil
de la tabla.

Figura 3.9: Probabilidad de que Z sea menor o igual a 0, 54

En esta tabla están calculadas las áreas bajo la curva de densidad desde −∞ y z0 .
Es decir, en la tabla se registran los valores de

89
Z z0
F (z0 ) = Pr(Z ≤ z0 ) = f (z)dz
−∞

Se reconocerá a F (z0 ) como la función de distribución de probabilidad acumulada de la variable


Z.
Por ejemplo,supongamos que se quiera calcular la probabilidad de que Z sea menor o igual a
z0 = 0, 54. Se debe proceder de la siguiente manera:

1. Se busca en la primera columna de la tabla el valor más cercano a z0 = 0, 54 que en este caso
es 0, 5
2. En la primera la de la tabla se busca el valor tal que 0, 5 + z = 0, 54 que en este caso es
z = 0, 05
3. En la intersección de la la rotulada con el valor 0, 5 y la columna rotulada con el valor 0, 04
se obtiene la probabilidad correspondiente que en este caso es 0, 7054

Se concluye que

Pr(Z ≤ 0, 54) = 0, 7054

Ejemplo 3.12 Calcular a las siguientes probabilidades:


1. Pr(Z ≤ 2)
2. Pr(−2, 74 ≤ Z ≤ 1, 53)
3. Pr(Z ≥ 0, 5)

Solución

Primer punto:

De acuerdo con la equivalencia de área y probabilidad para las variables aleatorias continuas
debemos calcular el área bajo la gráca de f (z) desde −∞ hasta z0 = 2.
El área buscada se muestra en la Figura (3.10).

Figura 3.10: Probabilidad de que Z≤2

¾Como se procede? En la primera columna de nuestra tabla se busca el valor z = 2. Como no hay
que agregar nada a este valor, la probabilidad (área) buscada esta en la intersección de la la de
z=2 y la columna 0.00. Entonces Pr(Z ≤ 2) = F (2) = 0, 9772
Segundo punto:

90
Figura 3.11: Probabilidad de que −2, 74 ≤ Z ≤ 1, 53

El área buscada se muestra el la Figura (3.11).

Se procede de la siguiente manera:

Pr(−2, 74 ≤ Z ≤ 1, 53) = Pr(Z ≤ 1, 53) − Pr(Z ≤ −2, 74) = F (1, 53) − F (−2, 74)

Los valores de estas probabilidades se buscan en la tabla. Por lo tanto:

F (1, 53) − F (−2, 74) = 0, 9370 − 0, 003 = 0, 9339

Tercer punto

En la Figura (3.12) se muestra la probabilidad buscada.

Figura 3.12: Probabilidad de que Z ≥ 0, 5

En este caso se procede de la siguiente manera Por propiedad de eventos complementarios

Pr(Z ≥ 0, 5) + Pr(Z < 0, 5) = 1

O sea

Pr(Z ≥ 0, 5) = 1 − Pr(Z < 0, 5) = 1 − F (0, 5)

Por lo tanto

Pr(Z ≥ 0, 5) = 1 − F (0, 5) = 1 − 0, 6915 = 0, 3085

91
Aplicaciones de la Distribución Normal
Aunque su importancia en el campo de la Estadística es indiscutible, no existe ninguna variable
aleatoria que en la práctica tenga exactamente Distribución Normal de probabilidades.

Sin embargo,es verdad de que muchas de las variables que ocurren en Administración y Economía
pueden tener una distribución aproximadamente Normal.

En consecuencia, aún cuando no existe en la práctica ninguna variable aleatoria con Distribu-
ción Normal, este modelo se puede utilizar para describir muchas variables aleatorias que tienen
aproximadamente esta distribución de probabilidad.

Al utilizar la distribución normal como modelo es posible establecer armaciones probabilísticas


muy útiles.

En los casos en que una variable aleatoria tenga distribución aproximadamente Normal, o en
aquellos casos en que la falta da datos completos hacen razonable considerar esta suposición, la
Distribución Normal puede resultar de gran ayuda para el analista en sus esfuerzo por resolver
problemas prácticos relativos a esta variable.

Hay varias razones más por las cuales esta distribución es muy importante tanto en la Estadística
teórica como práctica. Algunas de esas razones las iremos viendo a lo largo de este material.

Hemos visto hasta el momento como se calculan probabilidades para una variable aleatoria Normal
Estándar.

Entonces, ¾como calcular probabilidades para una variable aleatoria con una distribución normal
cualquiera?

Para calcular probabilidades para una variables aleatorias X con una distribución normal cual-
quiera se debe transformar la variable X ∼ (µ, σ 2 ) en la variable Z ∼ N (0, 1).
Esta transformación se realiza mediante la siguiente expresión:

X −µ
Z= (3.15)
σ
donde µ y σ son la media y la desviación aleatoria de la variable aleatoria X.
Es decir, si a cada valor de la variable X que tenga Distribución Normal se le resta su media y
el resultado se lo divide por su desviación estándar se obtiene una nueva variable aleatoria con
Distribución Normal Estándar.

A este proceso se lo denomina estandarización o tipicación de la variable X .


Este proceso se muestra grácamente en la Figura (3.13).

Figura 3.13: Estandarización o tipicación de una variable

Los pasos que se siguen en el proceso de estandarización son los que se enumeran a continuación:

92
1. Al realizar la diferencia X−µ obtenemos una nueva variable aleatoria normal con media
caro ( se cambia el origen)

2. Al dividir esta diferencia por σ se cambia la escala obteniéndose una variable Z ∼ N (0, 1)

Ejemplo 3.13 Supongamos contar con una variable aleatoria que tenga Distribución Normal de
media µ = 10 y varianza σ 2 = 6, 25, es decir X ∼ N (10; 6, 25). Calcular Pr(X ≤ 11).

Solución

Efectuando las transformación de X = 11 a su valor en la distribución normal estándar se obtiene:

11 − 10
z= √ = 0, 4
6, 25
Por lo tanto:

Pr(X ≤ 11) = Pr(Z ≤ 0, 4) = 0, 6554

Ejemplo 3.14 Los ingresos anuales de los gerentes de una empresa siguen aproximadamente una
distribución normal con media 18.600 dólares y desviación estándar 2.700 dólares. Encuentra la
probabilidad de que un gerente seleccionado al azar tenga:

1. Un ingreso anual inferior a 15.000 dólares


2. Un ingreso anual superior a 21.000 dólares

Solución

Los datos para este ejemplo son los siguientes:

X= Ingresos anuales de los gerentes de la empresa

Además, X ∼ N (µ = 18.600; σ = 2.700)


Primer punto:

Se pide que calculemos Pr(≤ 15.000)


El valor estandarizado de 15.000 es

15.000 − 18.600
z= = −1, 33
2.700
Por lo tanto:

Pr(X ≤ 15.000) = Pr(Z ≤ −1, 33) = 0, 0918

Segundo punto:

Se pide que calculemos Pr(X ≥ 21.000)


Por una propiedad de los eventos complementarios:

Pr(X ≥ 21.000) = 1 − Pr(X ≤ 21.000)

Por otro lado:

21.000 − 18.600
z= = 0, 89
2.700

Pr(X ≥ 21.000) = Pr(Z ≥ 0, 89) = 1 − Pr(Z < 0, 89) = 1 − 0, 8133 = 0, 1867

93
Ejemplo 3.15 Sea X una variable aleatoria con media µ y varianza σ2 . Demostrar que la variable
X −µ
aleatoria Z = tiene media cero y varianza 1.
σ

Solución

Se deja como actividad propuesta.

Existen otros modelos de distribución de probabilidad para variables aleatorias continuas que
sirven para la solución de múltiples problemas de la Estadística como la distribución t de Student,
la distribución χ2 (chi cuadrado), distribución F de Fisher y otras más las que serán estudiadas y
aplicadas oportunamente.

3.6. Propiedades del valor esperado y la varianza


En esta sección analizaremos algunas propiedades para el valor esperado y la varianza de variables
aleatorias.

Estas propiedades serán utilizadas más adelante.

Comenzamos con las propiedades del valor esperado. Se cumplen para variables aleatorias discretas
como continuas.

Sea X una variable aleatoria continua con densidad de probabilidad f (x), entonces:

1. Si k es una constante, E(k) = k

2. E(kX) = kE(X)

3. E(X + k) = E(X) + k

4. Si X1 y X2 son dos variables aleatorias, entonces E(X1 + X2 ) = E(X1 ) + E(X2 )

Comenzamos con la primera propiedad.

Por denición de valor esperado, de densidad de probabilidad y utilizando propiedades de las


integrales denidas:

Z +∞ Z +∞
E(k) = kf (x)dx = k f (x)dx = k(1) = k
−∞ −∞

Probamos la segunda.

Aplicando la denición de función de variable aleatoria, propiedades de la integral denida y la


denición de valor esperado se tiene que:

Z +∞ Z +∞
E(kX) = kxf (x)dx = k xf (x)dx = kE(X) = kµ
−∞ −∞

Probamos la última propiedad.

Como la suma de dos o más variables aleatorias es a su vez una variable aleatoria se tiene que:

Z +∞ Z +∞ Z +∞
E(X1 + X2 ) = (x1 + x2 )xf (x) = x1 xf (x)dx + x2 xf (x)dx
−∞ −∞ −∞

Aplicando la denición de valor esperado se obtiene nalmente

E(X1 + X2 ) = E(X1 ) + E(X2 ) = µ1 + µ2

y la propiedad queda demostrada.

Esta última propiedad puede aplicarse para la suma de n variables aleatorias.

94
Es decir, puede probarse que si X1 , X2 , ..., Xn son n variables aleatorias discretas o continuas,
entonces:

E(X1 + X2 + · · · + Xn ) = E(X1 + E(X2 ) + · · · + E(Xn )


O sea: el valor esperado de una suma de variables aleatorias es igual a la suma de sus valores
esperados.

Seguimos ahora con algunas propiedades inherentes a la varianza de una variable aleatoria.

Sea X una variable aleatoria con densidad de probabilidad f (x), entonces:

1. V (X) ≥ 0
2. Si k es una constante V (k) = 0
2
3. V (X) = E(X 2 ) − [E(X)] ya demostrada

4. V (kX) = k 2 V (X)
5. V (X + k) = V (X)

La primera propiedad se cumple por denición de la varianza de una variable aleatoria. Como se
recordará, la varianza de una variable aleatoria continua se dene de la siguiente manera:

Z +∞
V (X) = (x − µ)2 f (x)dx
−∞

Como el producto (x − µ)2 f (x)0 siempre es mayor o igual a cero, la varianza de una variable
aleatoria siempre es un número real no negativo.

La segunda propiedad se demuestra directamente.

Z +∞
V (k) = (k − k)2 f (x)dx = 0
−∞

Para nalizar se demuestra la tercera propiedad.

Partimos de la denición de varianza de una función de una variable aleatoria y de la propiedad


del valor esperado que arma que E(kX) = kE(x). Por lo tanto:

Z +∞ Z +∞
2
V (kX) = (kx − kµ)2 f (x)dx = [k (x − µ)] f (x)dx
−∞ −∞

Luegp:

Z +∞ Z +∞
V (kX) = k 2 (x − µ)2 f (x)dx = k 2 (x − µ)2 f (x)dx = k 2 V (X)
−∞ −∞

y la propiedad queda demostrada.

3.6.1. Función lineal de variables aleatorias


Denimos a continuación otro de los conceptos más importantes de las variables aleatorias, el
concepto de función lineal o de combinación lineal de variables aleatorias.

Denición 3.14 Sean X1 , X2 , ..., Xn un conjunto de n variables aleatorias y k1 , k2 , ....kn igual


número de constantes, la variable aleatoria

Y = k1 X1 + k2 X2 + · · · + kn Xn (3.16)

recibe el nombre de función lineal o combinación lineal de las variables Xj .

95
Por ejemplo, si X1 , X2 y X3 son tres variables aleatorias y si k1 = 2, k2 = −3 y k3 = 1, entonces

Y = 2X1 − 3x2 + X3

es también una variable aleatoria.

Analicemos otro ejemplo.


1
Sean X1 , X2 , ..., Xn un conjunto de n variables aleatorias y k1 = k2 = · · · = kn = n , entonces, la
variable aleatoria

     
1 1 1
X̄ = k1 X1 + k2 X2 + · · · + kn Xn = X1 + X2 + · · · + Xn
n n n
O equivalentemente:

X1 + X2 + · · · + Xn
X̄ = (3.17)
n
recibe el nombre de variable aleatoria media muestra .

La variable aleatoria media muestral X̄ será muy utilizada en los proceso inferenciales que anali-
zaremos más adelante.

Terminamos este capítulo enunciando sin demostración algunas propiedad en las cuales se com-
binan los conceptos de función lineal de una variable aleatoria y el de la Distribución Normal de
probabilidad.

Teorema 3.5 Sean X1 , X2 , ..., Xn variables aleatorias con medias o valores esperados µ1 , µ2 , ..., µn
y varianzas σ12 , σ22 , ..., σn2

1. Si las variables Xj son o no independientes entonces

E(k1 X1 + k2 X2 + ... + kn Xn ) = k1 E(X1 ) + k2 E(X2 ) + · · · + kn E(Xn )

2. Si X1 , X2 , ..., Xn son independientes, entonces

V (k1 X1 + k2 X2 + · · · + kn Xn ) = k12 V (X1 ) + k22 V (X2 ) + · · · + kn2 V (Xn )

o bien:

V (k1 X1 + k2 X2 + · · · + kn Xn ) = k12 σ12 + k22 σ22 + · · · + kn2 σn2

Vamos con los siguientes ejemplos la utilidad práctica de estas propiedades.

Ejemplo 3.16 Una estación de servicios vende tras clases de combustibles, común, extra y super
todas sin plomo a 1, 20; 1, 35 y 1, 50 dólares por litro respectivamente. Representamos con X1 , X2
y X3 las cantidades de combustible vendidas (en litros) en un día particular. Supongamos que las
Xi son independientes con µ1 = 1.000; µ2 = 500 y µ3 = 300 litros y σ1 = 100, σ2 = 80 y σ3 = 50.
Hallar el ingreso esperado por las ventas de combustible en un día cualquiera. Calcular la varianza
de la variable Y = Ingresos diarias de combustible en la estación de servicios.

Solución

El ingreso por las ventas de combustibles está dado por la función lineal

Y = 1.20X1 + 1.35X2 + 1.50X3

Por lo tanto, el ingreso esperado es:

96
E(Y ) = 1.20µ1 + 1.30µ2 + 1.5µ3 = 1.20(1 000) + 1.35(500) + 1.50(300) = $2 350

La varianza de Y es:

V (Y ) = 1.202 × 1002 + 1, 352 × 802 + 1.502 × 502 = 31 689


p
Por lo tanto: σ = V (Y ) = 178, 01

Teorema 3.6 Si X1 , X2 , ..., Xn son n variables aleatorias independientes con distribución normal
(posiblemente con medias y/o varianzas diferentes), entonces, cualquier función lineal de las Xj
también tiene distribución normal.

Ejemplo 3.17 Tenga en cuenta los resultados del Ejemplo (3.16). suponga que las variables Xi
tienen distribución Normal. Calcular la probabilidad de que el ingreso diario sea mayor a $2.500

Solución

Sabemos que µ = $2.325 y que σ = 178, 01


Hay que calcular Pr(Y ≥ 2.500) = 1 − Pr(Y < 2.500)
Por lo tanto

Pr(Y ≥ 2.500) = 1 − Pr(Y < 2.500)

Para calcular esta probabilidad se debe estandarizar Y = 2.500.


Procedemos de la siguiente manera:

2.500 − 2.325
z= = 0, 983
178, 01
Por lo tanto:

Pr(Z ≥ 0, 983) = 1 − Pr(Z < 0, 983) = 1 − 0, 8372 = 0, 1628

97
Capítulo 4

Distribuciones muestrales.

Estimación

4.1. Distribuciones muestrales


A partir de una misma población se pueden tomar muchas muestras distintas de un mismo tamaño.

En el ejemplo que sigue se verá como se obtienen las propiedades de una nueva variable aleatoria,
la variable aleatoria media muestral cuyos valores se encuentran a partir de distintas muestras
tomadas de una misma población.

Se verá como calcular probabilidades para los valores de la media muestral con lo que obtendremos
su distribución de probabilidad que en este caso particular recibirá el nombre de distribución de
muestreo de la variable aleatoria media muestral.
Partimos del siguiente ejemplo:

Suponga que una variable aleatoria X pueda tomar los valores 2, 4, 6 y 8, es decir:

X = 2, 4, 6, 8
Suponga adicionalmente que la variable X toma cada uno de sus valores con la misma probabilidad.

Con esta información calculamos el valor esperado, la varianza y la desviación estándar de X.


Valor esperado

       
X 1 1 1 1
E(X) = µ = xi p(xi ) = 2 +4 +6 +8
x
4 4 4 4

O sea:

2+4+6+8
µ= =5
4
Varianza

       
X 1 1 1 1
V (X) = (xi − µ)2 p(xi ) = (2 − 5)2 + (4 − 5)2 + (6 − 5)2 + (8 − 5)2
x
4 4 4 4
i

Por lo tanto:

(2 − 5)2 + (4 − 5)2 + (6 − 5)2 + (8 − 5)2


V (X) = =5
4

Finalmente: σ= 5 = 2, 23 aproximadamente.

99
En la Figura (4.1) se muestra la distribución de probabilidad de X mediante un diagrama de
barras.

Note que todas las barras tienen la misma altura. Este modelo de distribución de probabilidad
recibe el nombre de distribución de probabilidad Uniforme.

Figura 4.1: Distribución de probabilidad de X

Suponga ahora que a partir de los valores de X se toman muestras aleatorias con reposición de
tamaño n = 2.
Para ello se pueden escribir los números 2, 4, 6 y 8 en cuatro bolillas, ponerlas en una bolsa e ir
seleccionado dos bolitas por vez registrando los números obtenidos.

Una muestra puede estar formada por los números 2 y 8, otra muestra formada por 8 y 6 etc.

¾Cuántas muestras diferentes de tamaño n=2 se pueden tomar procediendo de esta manera?

Puede demostrarse que en total se pueden tomar 16 muestras con reposición distintas de tamaño
2 de una población de N =4 observaciones.

X1 el resultado de la primera
En la Tabla (4.1) se muestran las 16 muestras posibles. Se designa con
X2 el resultado de la segunda bolilla.
bolilla y con

Note que X1 y X2 pueden considerarse, y de hecho lo son, variables aleatorias.¾Por qué?


En la última columna de la Tabla (4.1) se presentan los valores de la variable aleatoria media
muestral. calculadas para muestras de tamaño n =2.1
X1 +X2
La variable aleatoria media muestral X̄ = 2 toma los siguientes valores:

X̄ = 2, 3, 4, 5, 6, 7, 8

La Figura (4.2) es una representación gráca del experimento aleatorio que hemos realizado ima-
ginariamente para obtener los valores de X̄ .
Como puede apreciarse a partir de la Tabla (4.1), de las 16 muestras posibles una tiene media
igual a 2, dos tiene media igual a 3, tres media 4, cuatro media 5, tres media 6, dos media 7 y una
solamente media 8.

Con esta nueva información podemos construir la Tabla (4.2) en la que se muestran todos los
valores de X̄ y sus probabilidades, es decir se trata de la distribución de probabilidad de la variable
aleatoria media muestral calculada para maestras de tamaño n=2 tomadas con reposición de la
población X = 2, 4, 6, 8.
1 Ver sección 3.8.1 del capítulo anterior

100
Muestra X1 X2 Media muestral X̄
1 2 2 2
2 2 4 3
3 2 6 4
4 2 8 5
5 4 2 3
6 4 4 4
7 4 6 5
8 4 8 6
9 6 2 4
10 6 4 5
11 6 6 6
12 6 8 7
13 8 2 5
14 8 4 6
15 8 6 7
16 8 8 8

Tabla 4.1: Valores de la media muestral X̄ . Muestras con reposición

Figura 4.2: Determinación de los valores de la media muestral X̄

En la Figura 4.3 se presenta la distribución de probabilidad de la media muestral por medio de un


gráco de barra.

Puede verse que si bien es cierto la distribución de probabilidad de la variable X es uniforme (todos
los valores de la variable tienen la misma probabilidad), la distribución de probabilidad de X̄ tiene
forma de campana.
2

Construir la distribución de probabilidad de la media muestral por medio de la enumeración de


todas las muestras posibles es un procedimiento poco efectivo y en algunos casos imposible.

Desarrollaremos a continuación los conceptos que nos permitirán establecer la distribución de


probabilidad de la media muestral y de otras variables aleatorias sin necesidad de extraer muestras
para calcular posteriormente las frecuencias relativas.

2 Todas estas propiedades serán desarrolladas y ampliadas más adelante

101
X̄ Frecuencia absoluta Probabilidad p(x)
2 1 1/16
3 2 2/16
4 3 3/16
5 4 4/16
6 3 3/16
7 2 2/16
8 1 1/16

Tabla 4.2: Distribución de probabilidad de la media muestral

Figura 4.3: Distribución de la media muestral. muestras con reposición

4.2. Muestras aleatorias. Estadísticos


Supongamos que contamos con una población la cual pretendemos estudiar a partir de cierta
variable X.
Como toda variable, X estará caracterizada por su media o valor esperado, por su varianza y por
algún modelo de distribución de probabilidad (Uniforme, Binomial, Normal, etc).

Supongamos adicionalmente que para llevar adelante el estudio de la población vamos a hacer
n observaciones de la variable X seleccionándolas aleatoriamente a partir de todos sus valores
posibles.

Estas observaciones serán datos concretos una vez que hayamos llevado a cabo el acto físico de
tomarlas, antes, solo podemos considerar valores posibles de acuerdo a la distribución de X, o sea,
la respuesta es aleatoria.
Por esto, a cada una de esas observaciones que posteriormente se materializarán la denotaremos
X1 , X2 , ..., Xn y se consideran n representaciones de la variable X .
Si además las variables X1 , X2 , ..., Xn son independientes tendremos lo que en Estadística se de-
nomina habitualmente una muestra aleatoria.

Denición 4.1 Una muestra aleatoria de los valores de la variable X es una sucesión X1 , X2 , ..., Xn
de variables aleatorias independientes con la misma distribución de probabilidad que X .

Como consecuencia de esta denición, las variables X1 , X2 , ..., Xn tendrán el mismo valor esperado
y la misma varianza y la misma distribución que X.

102
Dada la muestra aleatoria X1 , X2 , ..., Xn , podemos realizar con ella operaciones aritméticas para
obtener nuevas variables aleatorias como las que se muestran seguidamente:

Pn
i=1 Xi
1.
n
Pn
i=1 Xi2
2.
n
Pn 2
i=1 (Xi −X̄)
3.
n−1
Pn 2
i=1 (Xi −µ)
4.
n

Estas fórmulas pueden ser tales que solo sean desconocidos los valores de X1 , X2 , ..., Xn , esto es,
expresiones que no contengan parámetros desconocidos.

A este tipo de expresiones se las denomina estadísticos o estadísticas.

Denición 4.2 Un estadístico o estadística es una fórmula que relaciona las variables de una
muestra aleatoria X1 , X2 , ..., Xn y que no incluyen parámetros desconocidos

Por ejemplo, la primera, la segunda y la tercer expresión de la lista anterior son estadísticos mientra
que la curta no lo es pues incluye en su denición el parámetro µ.
Los procesos inferenciales se llevan a cabo utilizando estadísticos (variables aleatorias) como un
medio para tal n.

Algunos estadísticos de mayor uso en los procesos inferenciales son los siguientes:

Pn
i=1 Xi X1 + X2 + · · · Xn
X̄ = = (4.1)
n n
la varianza muestral

Pn
− X̄)2
i=1 (Xi
S= (4.2)
n−1
la proporción muestral

Pn
i=1 Xi X1 + X2 + ..., Nn
P̄ = = (4.3)
n n
donde las Xj son variables aleatorias tales que Xj = 1 si se tiene un éxito o Xj = 0 si se obtiene
un fracaso .
3

Como los estadísticos son variables aleatorias estarán caracterizados por su distribución de proba-
bilidad.

Denición 4.3 La distribución de probabilidad del estadístico θ̄ recibe el nombre de distribución


de muestreo o distribución muestral del estadístico.

4.3. Distribución de la media muestral


En esta sección estudiaremos las principales propiedades de la variable aleatoria media muestral
X̄ . Esto nos permitirá realizar inferencias conables sobre µ, la media de una población.

A partir de la información suministrada por la Tabla 4.2 podemos calcular la media o valor esperado
de la variable X̄ .
Por denición del valor esperado de una variable aleatoria tendremos:

3 Más adelante volveremos a analizar las propiedades de estos estadísticos

103
n
X
E(X̄) = µx̄ = x̄i p(x̄i )
i=1

Por lo tanto:

     
1 2 1
E(X̄) = µx̄ = 2 +3 + ··· + 8 =5
16 16 16
Hemos visto más arriba que para la variable aleatoria X = 2, 4, 6, 8 su valor medio o espartado µ
también es igual a 5.

Este resultado no es casual. Por el contrario es una de las propiedades que caracteriza a media
muestral X̄ y que la estudiamos a partir del siguiente teorema.

Teorema 4.1 Sea X1 , X2 , ..., Xn una muestra aleatoria tomada de una población de media µ y
varianza σ 2 , entonces E(X̄) = µ. Es decir, la media o valor esperado de la media muestral es igual
a la media de población.

Prueba

Como ya sabemos, la media muestral se dene de la siguiente manera:

X1 + X2 + · · · + Xn
X̄ =
n
Esta expresión puede reescribirse de la siguiente manera:

1
X̄ = (X1 + X2 + · · · + Xn )
n
Luego

1
E(X̄) = E(X1 + X2 + · · · + Xn )
n
Como el valor esperado de una suma de variables aleatorias es igual a la suma de los valores
esperados, y por denición de muestra aleatoria:

   
1 1
E(X̄) = E(X1 ) + E(X2 ) + · · · + E(Xn ) = µ + µ + · · · + µ
n | {z } n | {z }
n n

Por lo tanto:

1
E(X̄) = nµ = µ
n
como se quería demostrar.

Caractericemos ahora la varianza de X̄ cuál es su relación con la varianza de la variable X.


Recordemos que la denición de varianza para una variable aleatoria discreta es:

n
X
V (X) = σ 2 = (xi − µ)2 p(xi )
i=1

Por lo tanto, para la variable X̄ tendremos:

n
X
V (X̄) = σx̄2 = (x̄i − µ)2 p(x̄i )
i=1

104
Por lo tanto, para los datos de nuestro ejemplo:

     
1 2 1
V (X̄) = σx̄2 = (2 − 5) 2
+ (3 − 5) 2
+ · · · + (8 − 5) 2
= 2, 5
16 16 16
Hemos calculado que la varianza d la población es σ 2 = 5.
Evidentemente σx̄2 ̸= σ 2 . Pero pero es posible vericar que:

σ2 5
σx̄2 = = = 2, 5
n 2
siendo 2 tamaño de la muestra.

Este resultado no es casualidad y lo demostramos con el siguiente teorema.

Teorema 4.2 Si X1 , X2 , ..., Xn es una muestra aleatoria tomada de una población con media µ y
varianza σ 2 , y si X̄ es la media muestral, entonces σx̄2 = σn siendo n el tamaño de la muestra.
2

Prueba

Aplicando algunas deniciones y propiedades de la varianza y del valor esperado tendremos que:

 Pn   
i=1 Xi 1 1
V (X̄) = V =V (X1 + X2 + · · · + Xn ) = 2 V (X1 + X2 + · · · + Xn )
n n n
Como las Xj son independientes:

   
1  1
V (X̄) = 2 V (X1 ) + V (X2 ) + · · · + V (Xn ) = 2 σ 2 + σ 2 + · · · + σ 2 
n | {z } n | {z }
n n

Por lo tanto:

1 σ2
V (X̄) = σx̄2 = 2
nσ 2 ⇒ σx̄2 =
n n
qu es lo que se quería demostrar.

A partir de de la varianza de la variable aleatoria X̄ se puede obtener su desviación estándar


denida de la siguiente manera:

σ
σx̄ = √ (4.4)
n
donde σ es la desviación estándar de la variable X.
La desviación estándar de la variable aleatoria media muestral, y en general de cualquier estadístico
recibe el nombre de error estándar.
Como puede apreciarse, el error estándar de X̄ es directamente proporcional a σ e inversamente
proporcional a la raíz cuadrada del tamaño de la muestra.

Por lo tanto, para un valor jo de σ se puede controlar el valor de σx̄ controlando el tamaño de la
muestra.

Por ejemplo, si n = 1, entonces σx̄ = σ . Pero si n = 100, el error estándar de x̄ será igual a la
décima parte de la desviación estándar de la población.

Por lo tanto, si n s muy grande, σX̄ tendería a cero lo que implicaría que la media muestral tendería
a ser igual a la media de la población.

Es decir, en este caso extremos, X̄ = µ. En general, cuanto mayor sea el tamaño de la muestra n,
es más probable que el valor de X̄ se aproxime cada vez más a la media de la población µ.
Hasta este momento, hemos caracterizado la media y la varianza de la variable aleatoria media
muestral X̄ . Queda por determinar cual es su distribución de probabilidad.

La respuesta se da en el siguiente teorema que analizamos sin demostración.

105
Teorema 4.3 Si X1 , X2 , ..., Xn es una muestra aleatoria proveniente de una población con distri-
bución normal, media µ y varianza σ 2 , entonces la variable aleatoria media muestral X̄ también
tiene distribución normal con media igual a µ y varianza σn .
2

Como una consecuencia de esta propiedad también puede demostrarse que si se dan la conclusiones
del Teorema 4.3, la variable aleatoria
X̄ − µ
Z= √ (4.5)
σ/ n
tiene distribución normal estándar.

En el siguiente ejemplo se muestra la utilidad práctica de esta propiedad

Ejemplo 4.1 Se sabe que el tiempo que tardan los técnicos de una fábrica en ensamblar cierto
producto es una variable aleatoria que tiene distribución normal con media µ = 10 minutos y
desviación estándar de σ = 3 minutos. ¾Cuál es la probabilidad de que una muestra aleatoria de
16 técnicos arroje un promedio de ensamble mayor o igual a 11 minutos?

Solución

Los datos para este ejemplo son los siguientes:

X= Tiempo de ensamble del producto

Además, X ∼ N (µ = 10; σ = 3)
Por otro lado, como X tiene distribución normal, entonces X̄ también tiene distribución normal
2 σ2 9
con media µx̄ = 10 y varianza σx̄ =
n = 16 .
Se pide que calculemos Pr(X̄ ≥ 11). Por lo tanto:

Pr(X̄ ≥ 11) = 1 − Pr(X̄ < 11)

Para poder calcular esta probabilidad debemos estandarizar el valor x̄ = 11.


Por lo tanto

x̄ − µ 11 − 10 4(11 − 10)
z= √ = = = 1, 33
σ/ n 3/4 3
Finalmente:

Pr(X̄ ≥ 11) = Pr(Z ≥ 1, 33) = 1 − Pr(Z < 1, 33) = 1 − 0, 9082 = 0, 0918

Hemos visto que si la variable X de la cual se toman las muestras aleatorias tiene distribución
Normal, entonces la variable aleatoria media muestral X̄ también tiene distribución Normal.

Una consecuencia de esta propiedad es que la variable aleatoria

X̄ − µ
Z= √
σ/ n
tiene distribución normal estándar.

Este resultado es aproximadamente correcto aún en poblaciones sin Distribución Normal como se
establece en el siguiente teorema denominado Teorema del Límite Central .

Lo presentamos y analizamos sin demostración.

Teorema 4.4 Si X es una variable aleatoria con media µ y varianza σ 2 , la distribución de pro-
babilidad de la variable aleatoria media muestral X̄ , denida para muestras de tamaño n tendrá
distribución aproximadamente normal con media µ y varianza σ 2 /n si n es lo sucientemente
grande.

106
Por lo tanto, la variable aleatoria

X̄ − µ
Z= √
σ/ n

también tendrá aproximadamente distribución normal estándar.

¾A partir de qué valor de n puede considerase que la muestra es lo sucientemente? Todo depende
de cuan alejada de la normalidad esté la variable.

Pero, para la mayoría de las aplicaciones prácticas se considera que n ≥ 30 es lo sucientemente


grande.

Regresemos al ejemplo de principio de capítulo el cual consistía en tomar muestras con reposición
de tamaño n = 2 de la población X = 2, 4, 6, 8 y para cada una de las muestras calcular la media
muestral X̄ = X1 +X
2
2
.

Hemos visto que la distribución de X es uniforme (Figura 4.1), sin embargo, la distribución de
la variable aleatoria media muestral para muestras de tamaño n = 2 se parece a una campana
(Figura 4.3) .

En la Figura (4.4) se presenta la idea del Teorema del Límite Central.

Figura 4.4: Teorema del Límite Central

4.3.1. Muestreo de poblaciones nitas


Hemos estudiado hasta aquí las propiedades de la variable aleatoria media muestral X̄ generada a
partir de muestras de tamaño n seleccionadas con reposición de una población nita.

Vimos que la media o valor esperado de X̄ es igual a la media de la población y que su varianza
es igual a la varianza de la población dividida por tamaño de la muestra.

Pero si se realiza un muestreo sin reposición de una población nita, ¾se cumplirán las mismas
relaciones?

Para responder esta pregunta consideremos nuevamente la variable aleatoria X = 2, 4, 6, 8 y vamos


a tomar ahora muestras de tamaño n = 2 sin reposición.
Todas las muestras diferentes posibles de tamaño igual a 2 se muestran en la Tabla (4.3).

A partir de la información suministrada por la Tabla (4.3) podemos caracterizar la distribución de


probabilidad de la variable media muestral X̄ para muestras aleatorias sin reposición de tamaño
igual a 2.

La distribución de probabilidad de X̄ se presenta en la Tabla (4.4).

Para calcular la media o valor esperado de X̄ utilizamos la siguiente expresión:

107
Muestra X1 X2 Media muestral X̄
1 2 4 3
2 2 6 4
3 2 8 5
4 4 2 3
5 4 6 5
6 4 8 6
7 6 2 4
8 6 4 5
9 6 8 7
10 8 2 5
11 8 4 6
12 8 6 7

Tabla 4.3: Valores de la media muestral X̄ . Muestras sin reposición

X̄ Frecuencia absoluta Probabilidad p(x)


3 2 2/12 = 1/6
4 2 2/12 = 1/6
5 4 4/12 = 2/6
6 2 2/12 = 1/6
7 2 2/12 = 1/6

Tabla 4.4: Distribución de la media muestral. Muestras sin reposición

X
E(X̄) = µx̄ = x̄i p(x̄i )
x̄i

Por lo tanto

         
1 1 1 1 1
E(X̄) = µx̄ = 3 +4 +5 +6 +7 =5
6 6 6 6 6
Este resultado no es casualidad. Es decir, aún cuando la muestra se tome sin reposición de una
población nita, el valor esperado de la media muestral es igual a la media de la población.

Para calcular la varianza de la media muestral utilizamos la siguiente expresión:

2
V (X̄) = σx̄2 = E X̄ 2 − E(X̄)
 

Comenzamos calculando E(X̄ 2 ). Para ello utilizamos la denición de valor esperado de una función
de una variable aleatoria.

Por lo tanto:

         
1 1 1 1 1 160 80
E(X̄ 2 ) = 32 + 42 + 52 + 62 + 72 = =
6 6 6 6 6 6 3
Finalmente:

80 5
V (X̄) = σx̄2 = − 55 =
3 3
Evidentemente no se cumple la misma relación que la obtenida en el muestreo con reposición.

En aquella oportunidad vimos que la varianza de la media muestral era igual al cociente entre la
varianza de la población y el tamaño de la muestra.

Es decir:

108
σ2
V (X̄) = σx̄2 =
n
Cuando el muestreo se hace sin reposición de una población nita, puede demostrarse que:

σ2
 
N −n
V (X̄) = σx̄2 = (4.6)
n N −1
donde n es el tamaño de la muestra y N es el tamaño de la población.

Comprobemos este resultado con los datos del ejemplo que estamos analizando.

σ2
      
N −n 5 4−2 5 2 5
σx̄2 = = = =
n N −1 2 4−1 2 3 3
Podemos resumir estos resultados en el siguiente teorema que se demuestra en curso más avanzados
de Estadística.

Teorema 4.5 Sea X una variable aleatoria con media µ y varianza σ2 , la distribución de probabi-
lidad de la variable aleatoria media muestral X̄ , denida para todas las muestras sin reposición de
tamaño n tomadas de la población
 nita de tamaño N , tiene una media o valor esperado igual a
µ y varianza igual a σn N . Además, si la población de las cuales se toman las muestras tiene
2
−n
N −1
Distribución Normal, o se dan las condiciones para aplicar el Teorema Límite Central, la variable
media muestral X̄ también tendrá Distribución Normal.

Como consecuencia de lo enunciado por el Teorema (4.5), es posible demostrar que la variable
aleatoria

X̄ − µ
Z=
σx̄
siendo

s
σ2
 
N −n
σx̄ = (4.7)
n N −1

tiene distribución normal estándar.


 
N −n
Recuerde el lector que es el factor de corrección para poblaciones nitas. En los problemas
N −1
prácticos puede no tenerse en cuenta cuando N ≥ 20n o, equivalentemente cuando la fracción de
n
muestreo
N ≤ 0, 05.

Ejemplo 4.2 Una empresa emplea 1.500 personas. La cantidad promedio gastada durante un año
en servicio médicos personales fue de 25, 75 dólares y la desviación estándar fue 5, 25. ¾Cual es la
probabilidad de que una muestra aleatoria sin reposición de 100 empleados de una media compren-
dida entre 25 y 27 dólares respectivamente.

Solución

Para la solución de este problema contamos con la siguiente información:

X= Gastos anuales en servicios médicos durante el año

Además, µ = 25, 85 y σ = 5, 25 dólares anuales.

No hay información acerca de la distribución de probabilidad de la Variable X pero como n = 100


se dan las condiciones para aplicar el Teorema del Límite Central.

Por lo tanto, la media muestral X̄ , determinada a partir de todas las muestras sin reposición de
tamaño n = 100 que se tomen a partir de los valores de la variable, tendrá distribución aproxima-
damente normal con media o valor esperado µx̄ = 25, 75.

109
100
La fracción de muestreo es
1.500 = 0, 07. Por lo tanto se debe utilizar el factor de corrección para
poblaciones nitas para calcular la varianza de X̄ .

O sea:

5, 252
 
1.500 − 100
σx̄2 = = 0, 257
100 1.500 − 1

Se pide que calculemos Pr(25 ≤ X̄ ≤ 27).


Estandarizando los valores extremos del intervalo tendremos:

25 − 25, 75
z1 = √ = −1, 48
0, 257
de la misma manera:

27 − 25, 75
z2 = √ = 2, 46
0, 257
Por lo tanto:

Pr(25 ≤ X̄ ≤ 27) = Pr(−1, 48 ≤ Z ≤ 2, 46) =

= Pr(Z ≤ 2, 46) − Pr(Z ≤ 1, 48) = 0, 9931 − 0, 0694 = 0, 9237

4.4. Estimadores y sus propiedades


Hemos visto hasta aquí los conceptos más importantes de la teoría de probabilidad, de distribu-
ción de probabilidad de variables aleatorias discretas y continuas y analizado las propiedades mas
importantes de distribución de probabilidad del estadístico media muestral X̄
Estamos en condiciones de abordar el estudio de las técnicas inferenciales más utilizadas en Esta-
dística.

Las técnicas inferenciales pueden clasicarse de la siguiente manera:

Estimación (puntual o por medio de intervalos de conanza)

Pruebas de hipótesis

Cuando se lleva a cabo alguna técnica inferencia para obtener conclusiones acerca de un parámetro
poblacional, hay dos conceptos que deben ser siempre tenidos en cuenta en el proceso. Son los de
estimador y el deestimación, muy ligados entre si pero conceptualmente diferentes.
Un estimador es regla o fórmula que se utiliza para estimar algún parámetro.
Por ejemplo, la media muestral X̄ es un estimador de la media poblacional µ. Un valor particular
de X̄ constituye una estimación puntual de la media poblacional.

Hemos visto que un estimador es una variable aleatoria y como tal tendrá una distribución de
probabilidad. La distribución de probabilidad de un estadístico recibe el nombre de distribución
de muestreo del estadístico.
Es decir, una estimación es un valor particular del estimador calculado a partir de una muestra
aleatoria tomada de la población respectiva.

Si a partir de las observaciones de una muestra aleatoria se calcula un solo valor de un estadístico
como estimación de algún parámetro desconocido, tal procedimiento recibe el nombre de estima-
ción puntual ya que se utiliza como estimación un solo valor del conjunto de valores posibles del
estimador.

Supongamos que se quiera estimar la renta media mensual de las familias de alguna ciudad. Sea

110
X= Renta mensual en dólares de las familias de la ciudad

Supongamos que se toma una muestra aleatoria de n familias y se denota con x̄ el ingreso medio
de la muestra.

Si al tomar, por ejemplo, una muestra aleatoria de n = 150 familias de la ciudad se obtiene una
renta promedio de 1 200 dólares mensuales, es decir x̄ = 1 200 esta cantidad se puede considerar
una estimación puntual de la renta promedio de todas las familias de la ciudad.

Como en el proceso de estimación de algún parámetro utilizamos algún estimador del parámetro,
es obvio que se elegirá al el mejor estimador para realizar la estimación.

Veremos a continuación cuales son las propiedades deseables de los estimadores que se utilizan en
los proceso de estimación.

Denición 4.4 Un estimador θ̂ de un parámetro θ es cualquier estadístico que nos permita, a


partir de los datos de una muestra aleatoria, obtener valores aproximados del parámetro.

Por ejemplo

Pn
i=1 Xi X1 + X2 + · · · + Xn
X̄ = =
n n
es un estimador de la media poblacional µ.
La proporción muestral

Pn
i=1 Xi X1 + X2 + · · · + Xn
P̄ = =
n n
donde Xi = 1 si se obtiene un éxito y Xi = 0 si se tiene un fracaso es un estimador de la proporción
poblacional.

La varianza muestral

Pn
i=1 (X1 − X̄)2 (X1 − X̄)2 + (X2 − X̄)2 + · · · (Xn − X̄)2
S2 = =
n−1 n−1
es un estimador de la varianza poblacional σ2 .
Para poder utilizar la información de una muestra aleatoria de la mejor manera posible para realizar
una estimación, es necesario identicar aquellos estadísticos que sen buenos estimadores desde el
punto de vista de la Estadística.

Hay cuatro criterios que se aplican para determinar si un estadístico es o no un buen estimador
del parámetro que se busca estimar.

Estos criterios son los siguientes: insesgamiento, eciencia, consistencia y suciencia. Analizamos
brevemente cada una de estas propiedades.

Denición 4.5 Se dice que un estimador θ̂ es un estimador insesgado del parámetro θ si se cumple
que E(θ̂) = θ

De acurdo con esta denición, X̄ es un estimador insesgado de la media poblacional µ pues como
hemos demostrado E(X̄) = µ
En cambio

Pn
i=1 Xi
T =
n−1

no es un estimador insesgado de µ pues, como puede demostrarse, E(T ) = n+1 .
Primera recomendación:

111
Si se tienen dos estimadores θ̂1 y θ̂2 de un mismo parámetro θ̂ y uno de ellos es insesgado, elija
el insesgado

Puede ocurrir que un parámetro θ tenga dos estimadores que sean insesgados. Por ejemplo, cuando
una variable X tiene una distribución de probabilidad simétrica (como normal por ejemplo), la
media y la mediana muestral son estimadores insesgados de la media poblacional µ.
σ2
Como ya sabemos, V (X̄) = n .
σ2 4

Por otro lado, puede demostrarse que la varianza de la mediana muestral es V (Me ) = n π
siendo σ2 la varianza de la población. Obviamente V (Me ) > V (X̄).

Denición 4.6 De dos estimadores insesgados θ̂1 y θ̂2 de un mismo parámetro θ se dice que θ̂1
es más eciente que θ̂2 si V (θ̂1 ) < V (θ̂2 ).

Segunda recomendación:

Si se tiene dos estimadores θ̂1 y θ̂2 de un parámetro θ y ambos son insesgados, elija el de meno
varianza.

Estas dos propiedades de los estimadores las más importantes, nos referiremos brevemente a las
dos restantes.

Puede ocurrir que un parámetro no tenga un estimador insesgado. En este caso, se busca que por
lo menos el estimador sea consistente.
Un estimador consistente es aquel que a medida que aumenta el tamaño de la muestra, la probabi-
lidad de que sus valores se acerquen al valor del parámetros desconocido es mayor.
Como última característica de los buenos estimadores se considera la suciencia.

Un estimador θ̂ de un parámetro θ se dice que es suciente cuando es capaz de extraer de la muestra


toda la información que contenga respecto del parámetro.
Por ejemplo, un estimador suciente de la media poblacional es aquel que tiene la capacidad de
extraer de la muestra, todo la información que la muestra tenga acerca de la media de la población.

Supongamos que se quiera estimar la media µ de cierta población. Hemos visto que tanto la media
muestral y la mediana muestral son estimadores insesgados de este parámetro.

Pero por lo que sabemos de estos dos estimadores, la media utiliza mejor la información de la
muestra que la mediana que a lo sumo se utilizan dos observaciones de la muestra para calcularla.

4.5. Estimación. Intervalos de conanza


En las secciones precedentes se establecieron las bases para avanzar en el estudio de unas de las
técnicas de inferencia que analizaremos en este material, la estimación de los parámetros de una
población.

Hemos dicho también que cuando el objetivo de la inferencia es la estimación de algún parámetro
poblacional hay dos maneras de hacerlo: mediante una estimación puntual o mediante un intervalo
de conanza.
Para realizar una estimación puntual de cierto parámetro θ se procede en general, de la siguiente
manera:

1. Se selecciona una muestra aleatoria de tamaño n de la población de interés

2. Se elije un estimador adecuado θ̂


3. Se realiza la estimación utilizando el estimador seleccionado en el punto anterior

Por ejemplo, si el objetivo es estimar puntualmente la media µ de una población se debería proceder
de la siguiente manera:

112
1. Seleccionar una muestra aleatoria de tamaño n de la población

2. Seleccionar la media muestral X̄ como estimador

3. Realizar la estimación

Hay un problema obvio relacionado con la estimación puntual de un parámetro poblacional: aun-
que solo se estima un parámetro, el número de estimaciones disponibles generalmente
es muy alto.

Cada muestra que se puedan tomar de la población arrojará una estimación diferente.

Por el estudio de las distribuciones muestrales de los estimadores se sabe que algunas estimaciones
estarán cerca del valor del parámetro estimado y otra no tanto.

Sin embargo, una vez que se realizó el procedimiento inferencial, no se sabe que tan cerca estará
la estimación del valor desconocido del parámetro.

En una situación real podemos considerar poco probable que la estimación puntual sea igual al
valor del parámetro.

Sin embargo no se estará en condiciones de decir en cuanto nos hemos equivocado. Es decir, en
toda estimación puntual existe cierto grado de incertidumbre que es imposible eliminar.
Para tratar de acotar esta incertidumbre (no de eliminarla por completo) se puede estimar el
parámetro desconocido por medio de un intervalo de conanza que consiste en determinar dos
números entre los cuales se hallaría el parámetro con cierto grado de conanza o certeza.
La expresión típica de un intervalo de conanza para estimar el parámetro θ es el siguiente:

C(LIC ≤ θ ≤ LSC) = 1 − α (4.8)

donde:

LIC recibe el nombre de límite inferior de conanza

LSC recibe el nombre de límite superior de conanza

1−α es el nivel de conanza

El nivel de conanza 1−α es un número real mayor a cero y menor a uno, es decir 0 < 1 − α < 1.
Cuanto más cercano a uno esté el valor de 1−α es más probable que el valor desconocido del
parámetro sea un valor comprendido entre los límites de conanza.

Cuanto más cercano a cero sea el valor de 1 − α será menos probable que el parámetro desconocido
sea un valor comprendido entre los límites de conanza.

Naturalmente, los intervalos se construyen de manera de que el valor de 1−α sea lo más alto
posible.

Analizaremos a continuación cómo se puede construir intervalos de conanza para la media µ de


una población en tres situaciones diferentes:

1. Cuando la población tiene distribución Normal y se conoce su varianza varianza σ2 conocida

2. Cuando la población tiene distribución Normal y no se conoce su varianza σ2

3. Cuando se desconozca la distribución de probabilidad de la población y además se desconozca


su varianza

En general, los procedimientos para la estimación de un parámetro por medio de un intervalo de


conanza requiere la identicación del parámetro, del estimador apropiado y de distribución de
probabilidad del estimador.

113
4.5.1. Intervalo de conanza para µ. Población normal, σ2 conocida
Veamos ahora como estimar la media µ de una población por medio de un intervalo de conanza
de una población con distribución Normal y varianza σ2 conocida.

Aunque generalmente se desconoce la varianza de la población, supondremos que la conocemos con


el n de facilitar el análisis.

Luego veremos como se procede en los casos en los cuales no se conoce este parámetro.

Por lo que sabemos de las distribuciones muestrales, cuando se toman muestras de tamaño n de
una población con distribución Normal con media µ y varianza σ2 , la variable aleatoria

X̄ − µ
Z= √
σ/ n
tiene distribución Normal Estándar.

De la distribución normal estándar Z seleccionemos los valores −z y z dispuestos simétricamente


alrededor de z=0 de tal forma que el área comprendida entre la gráca de f (z) y los segmentos
verticales trazados por los puntos ±z sea igual a 1 − α. (Figura 4.5)

Figura 4.5: Área entre f (z) entre −z y z

De acuerdo con la equivalencia entre áreas y probabilidades para las variables aleatorias continuas
podemos escribir e interpretar el siguiente enunciado de probabilidad:

 
X̄ − µ
Pr −z ≤ √ ≤z =1−α (4.9)
σ/ n
Los valores de −z y z quedan determinados por el valor de 1 − α. Por lo que sabemos de la
distribución Normal

Si 1 − α = 0, 90 entonces z = ±1, 645 aproximadamente

Si 1 − α = 0, 95 entonces z = ±1, 960 aproximadamente

Si 1 − α = 0, 99 entonces z = ±2, 580 aproximadamente

Quitando el denominador de la expresión entre paréntesis de la Fórmula (4.9) obtendremos:

 
σ σ
Pr −z √ ≤ X̄ − µ ≤ z √ =1−α
n n

Restando miembro a miembro X̄ se obtiene

114
 
σ σ
Pr −X̄ − z √ ≤ −µ ≤ z √ − X̄ = 1 − α
n n
Multiplicando el paréntesis por −1
 
σ σ
Pr X̄ + z √ ≥ µ ≥ X̄ − z √ =1−α
n n
Expresión que puede reescribirse de la siguiente manera:

 
σ σ
Pr X̄ − z √ ≤ µ ≤ X̄ + z √ =1−α (4.10)
n n
¾Cómo se interpreta este enunciado de probabilidad?. Supongamos que 1 − α = 0.95.
Diremos entonces que si de una población con distribución Normal, varianza σ 2 y media µ desco-
nocida se toman muestras de tamaño n, la probabilidad de que la media desconocida µ sea algún
valor comprendido entre X̄ − z √σn y X̄ + z √σn es 0, 95.
También podría decirse, a partir de la denición de probabilidad de un evento como frecuencia
relativa, que si se toman muestras repetidas de tamaño n de una población de varianza σ 2 y media
µ desconocida, en el 95 por ciento de las muestras la media µ tomará algún valor entre X̄ − z √σn
y X̄ + z √σn es 0, 95.
El intervalo

 
σ σ
X̄ − z √ ; X̄ + z √ (4.11)
n n

recibe el nombre de intervalo aleatorio de (1 − α)100 % de conanza para la media poblacional µ


En la práctica, cuando se estima la media de una población por medio de un intervalo de conanza
no se toman muchas muestras para realizar la estimación. En realidad se toma una sola muestra.

Suponga que tomamos una muestra de tamaño n y con ella calculamos el valor de X̄ correspon-
diente. Llamemos x̄0 a este valor.

Si reemplazamos este valor en la Fórmula (4.11) obtenemos

 
σ σ
x̄o − z √ ; x̄0 + z √ (4.12)
n n

Se trata pues de uno de los intervalos de los cuales el (1 − α)100 % contiene la media poblacional
desconocida µ
El intervalo 4.11 habitualmente se escriba de la siguiente manera:

 
σ σ
C x̄0 − z √ ≤ µ ≤ x̄o + z √ =1−α (4.13)
n n
Observe que hemos el símbolo Pr por C. Esto se debe a que x0 no es una variable aleatoria y solo
se pueden calcular probabilidades para este tipo de variables.

En forma abreviada, un intervalo 1−α de conanza puede escribirse de la siguiente manera:

σ
x̄0 ± z √ (4.14)
n
Cuando efectuamos la resta obtendremos el límite inferior de conanza, cuando consideramos el
signo más se obtiene el límite superior de conanza.

Ejemplo 4.3 Una muestra de 36 estudiantes del último año de la carrera de licenciatura dio como
resultado un promedio en sus calicaciones de x̄ = 6.9 puntos. Si bien es cierto este puntaje puede

115
cambiar de muestra en muestra, se sabe que la desviación estándar poblacional se mantiene más o
menos constante en el valor σ = 0.3 puntos.
Estime la calicación promedio de todos los estudiantes de la carrera de contador:

1. Puntualmente
2. Por medio de un intervalo de 95 por ciento de conanza
3. Por medio de un intervalo de 99 por ciento de conanza
4. Comente los resultados

Solución

La variable objetos de estudio es:

X= Calicaciones de los estudiantes del último año de la carrera de licenciatura

La desviación estándar deX es igual a 0, 3


No se sabe cuál es la distribución de probabilidad de X pero como n = 36 se se tiene un tamaño
de muestra como para poder aplicar el Teorema del Límite Central.

Primer punto:

Con la muestra de n = 36 estudiantes se calculó x̄0 = 6, 9 puntos.

Como se trata de una estimación puntual no información acerca de la precisión de esta estimación.

Segundo punto:

Como 1 − α = 0, 95 tendremos que z1 = −1, 96 y z2 = 1, 96.


Por lo tanto

 
0, 3 0, 3
C 6, 9 − 1, 96 √ ≤ µ ≤ 6, 9 + 1, 96 √ = 0, 95
36 36
Por lo tanto:

C(6, 8 ≤ µ ≤ 6, 99) = 0, 95

Esta resultado puede interpretarse de la siguiente manera:no se sabe exactamente cuál es el pun-
taje promedio de todos los estudiantes del último año de la carrera de licenciatura pero estamos
razonablemente conados de que el verdadero promedio es algún valor comprendido entre 6,8 y 6,9
puntos.
Tercer punto

Para hallar un intervalo de 99 por ciento de conanza (1 − α = 0, 99) debemos encontrar los valores
de −z y z.
Consultando la tabla de probabilidades normal estándar se puede vericar que z = ±2, 58.
Por lo tanto, el intervalo de conanza para estimar el puntaje medio de todos los estudiantes del
último año de la carrera de licenciatura se construye de la siguiente manera:

 
0, 3 0, 3
C 6, 9 − 2, 58 √ ≤ µ ≤ 6, 9 + 2, 58 √ = 0, 95
36 36
Realizando las operaciones correspondientes se obtiene:

C(6, 77 ≤ µ ≤ 7, 03) = 0, 99

De nuevo, no se sabe cuál es el verdadero puntaje promedio de los estudiantes del último año de
la licenciatura pero se estima que es algún valor comprendido entre 6,77 y 7,03 puntos con una
conanza del 99 %.

116
Si consideramos el intervalo de 95 % de conanza se puede vericar fácilmente que su amplitud es
A1 = 6, 99 − 6, 8 = 0, 19.
La amplitud del intervalo de 99 % de conanza es A2 = 7, 03 − 6, 77 = 0, 26
Conclusión: Al aumentar el nivel de conanza en la construcción de un intervalo se pierde precisión
en la estimación.
Es decir, estaremos más seguro que el intervalo contendrá al parámetro estimado pero perdemos
precisión en la estimación.

En todos los resultados obtenidos hasta el momento, se ha supuesto que la varianza de la población
σ2 era conocida.

Hemos visto también que cuando las muestras se toman de una población con distribución normal
la variable aleatoria

X̄ − µ
Z= √
σ/ n
tiene distribución normal estándar.

Además sabemos también que aún cuando el muestreo se haga de una población sin distribución
Normal, este resultado sigue siendo aproximadamente válido siempre y cuando las muestras son lo
sucientemente grades (Teorema del límite central).

Lo cierto es que en la práctica, la varianza poblacional casi siempre es desconocida.

Esto nos lleva a preguntarnos si es posible realizar inferencias acerca de la media µ al no conoce
σ2 .
La respuesta es afortunadamente que si se puede reemplazando, S por σ en la expresión anterior
obteniéndose de esta manera una nueva variable aleatoria

X̄ − µ
T = √ (4.15)
S/ n
de la cual se dice que tiene distribución t de Student con n−1 grados de libertad.

Analizando el enunciado anterior vemos que aparecen dos conceptos nuevos:

Una nueva distribución de probabilidad, la distribución t de Student


El concepto de grados de libertad

En las secciones siguientes estudiaremos estos dos conceptos nuevos y veremos como se los puede
utilizar en la estimación de la media de una población.

Comenzamos deniendo y analizando las propiedades de la distribución t de Student.

4.5.2. Distribución t de Student


En el año 1 908 el estadístico W:S Gosset, quien publicaba sus trabajos con el seudónimo de Student
describió la distribución de probabilidad de la variable

X̄ − µ
T = √
S/ n
cuando el muestreo se realiza de una población con distribución Normal.
Este modelo de distribución de probabilidad que se conoce con el nombre de distribución t sirve
para realizar inferencias acerca de la media de una población cuando no se conoce su varianza y
se utiliza la varianza muestral S2 como su estimador.

Analizaremos a continuación las principales propiedades de la distribución . t


Comenzamos con una denición.

117
Denición 4.7 Se dice que una variable aleatoria T tiene distribución t de Student si su función
de densidad de probabilidad es

− n+1
Γ n+1
 
n t2 2

f (t) = √ n
 1 + (4.16)
nπΓ 2 n

La complejidad matemática de la fórmula que dene la densidad de probabilidad t no permite ver


cuales son sus propiedades.

Algunas de de las más importantes son las siguientes:

Si una variable aleatoria continua tiene distribución t de Student, entonces −∞ < t < ∞, es
decir, la variable puede tomar cualquier número real

f (t) > 0

La gráca de f (t) tiene forma de campana tal como se muestra en la Figura (4.6).

Figura 4.6: Distribución t de Student

Si una variable aleatoria T t


tiene distribución , entonces E(T ) = 0 que V (T ) = n
n−2

La gráca de f (t) es simétrica alrededor de su valor central

R +∞
Como en toda densidad de probabilidad
−∞
f (t)dt = 1. Es decir, el área bajo la curva de
f (t) y el eje de los valores posibles de la variable es igual a uno

Hay una distribución t de Student para cada k =n−1 grados de libertad


4 que se usa para
2
calcular la varianza muestral S

En la Figura (4.7) se muestran distintas grácas de la distribución t para varios grados de


libertad

A medida que los grados de libertad aumenta, la distribución t tiende al la distribución


Normal Estándar. Es decir:

lı́m f (t) → f (z)


k→∞

siendo f (z) la función de densidad de probabilidad de la distribución Normal Estándar

4 Enseguida damos una idea del concepto de grados de libertad

118
Figura 4.7: Distribuciones t para distintos grados de libertad

Existen tablas que se pueden utilizar en las aplicaciones que requieren el uso de la distribución t
para el cálculo de probabilidades.

Una de esas tablas el la Tabla que acompaña este material. Veamos cómo se la puede utilizar.

La columna que está más a la izquierda de la tabla es la columna de los grados de libertad.
Los encabezamientos de las columnas indican qué proporción de área total bajo la curva de la
distribución se encuentra a la izquierda del valor T = t0 .
Por ejemplo, si se está interesado en la distribución t con diez grados de libertad, se puede ver en
la tabla. que el 0, 975 del área bajo la curva se encuentra la izquierda de t = 2.2281.
La proporción de área que se encuentra a la derecha de 2.2281 es igual a 1 − 0.975 = 0, 025.

Utilizando el símbolo T10 para indicar que nos estamos reriendo a una variable aleatoria con
distribución t de Student con k = 10 grados de libertad, podemos expresar las ideas anteriores
escribiendo:

Pr(T10 ≤ 2, 2281) = 0, 975

Por oro lado:

Pr(T10 ≥ 2, 2281) = 0, 025

Es importante siempre tener en cuenta que la variable aleatoria

X̄ − µ
T = √
S/ n
tendrá aproximadamente distribución normal estándar cuando el tamaño de la muestra es grande.

En consecuencia, muchos investigadores preeren utilizar la variable aleatoria Z y no la T cuando


el tamaño de la muestra es grande aún cuando no se conozca la varianza de la población y se la
estime por medio de la varianza muestral.

Esta práctica puede justicarse en parte por el hecho de que cuando el tamaño de la muestra es
grande, S2 constituye una buena estimación de σ2 .
Por último nos queda analizar el concepto de grados de libertad muy utilizado en la inferencia
estadística.

Lo haremos con un ejemplo, supongamos que se va a calcular la varianza muestral S2 como esti-
2
mación de la varianza poblacional σ .

Como

119
Pn
− X̄)2
i=1 (Xi
S2 =
n−1
Antes de calcular la varianza muestral S2 es necesario calcular X̄ que como se sabe es un estimador
de la media poblacional µ.
Deniremos como grados de libertad de S 2 a la diferencia entre el tamaño de la muestra n y el
número de parámetros que hay que estimar para calcular S2.
Como para calcular S2 hay que estimar un solo parámetro, los grados de libertad de S2 son
k = n − 1.
2
Pn
Los estadísticos matemáticos coinciden en que al dividir i=1 (Xi − X̄) por sus grados de libertad
2
n−1 se obtiene ek mejor estimador de la varianza poblacional σ .

Por ejemplo, es posible demostrar que E(S 2 ) = σ 2 . Es decir, S2 es un estimador insesgado de σ2 .


En general los grados de libertad de un estadístico se denen como la diferencia entre el tamaño
de la muestra y el número de parámetros que hay que estimar para calcularlo.

4.5.3. Intervalo de conanza para µ varianza poblacional σ2 desconocida


Con frecuencia se intenta estimar la media de una población cuando se desconoce su varianza σ2 .
Hemos visto que cuando se toman muestras aleatorias de una población distribuida normalmente,
la variable aleatoria

X̄ − µ
T = √
S/ n
tiene distribución t de Student con k =n−1 grados de libertad.

Cuando σ2 es desconocida se puede utilizar la variable aleatoria T para estimar la media µ por
medio de de un intervalo de conanza.

Entonces, teniendo en cuenta que la variable T tiene distribución t de Student podemos escribir
en interpretar el siguiente enunciado de probabilidad:

 
X̄ − µ
Pr −t ≤ √ ≤t =1−α (4.17)
S/ n
En la Figura 4.8 se muestra grácamente este enunciado.

Figura 4.8: Área entre f (t) y ±t

Luego de trabajar algebraicamente la expresión entre paréntesis se obtiene

120
 
S S
Pr X̄ − t √ ≤ µ ≤ X̄ + t √ =1−α
n n
El intervalo

 
S S
X̄ − t √ , X̄ + t √ (4.18)
n n

recibe el nombre de intervalo aleatorio de (1 − α)100 % de conanza para la media poblacional µ.


Hemos visto que en la práctica, cuando se estima la media de una población no se toman muchas
muestras con el n de realizar la estimación.

Suponga que tomamos una muestra de tamaño n y calculamos un valor de la media muestral.
Llamemos x̄0 a este valor.

Si reemplazamos este valor en la Fórmula 4.18 obtendremos

 
s s
x̄0 − t √ , x̄0 + t √ (4.19)
n n
Expresión que habitualmente se escribe de la siguiente manera

 
s s
C x̄0 − t √ ≤ µ ≤ x̄0 + t √ =1−α (4.20)
n n
O, de forma abreviada

s
x̄0 ± t √ (4.21)
n
Las Fórmulas (4.20) y (4.21) reciben el nombre de intervalos de (1 − α) porciento de conanza para
la media poblacional µ.
Hemos analizado como construir intervalos de conanza para estimar la media poblacional µ en
los casos en los cuales se conoce la varianza poblacional σ2 como cuando no se la conoce.

En el caso de que la varianza poblacional σ2 sea conocida se obtienen los mismos resultados si la
población tiene distribución Normal o si es posible aplicar el Teorema del Límite Central.

En el caso de que se desconozca la varianza poblacional se utiliza la distribución t de Student


para estimar la media poblacional siempre y cuando la muestra se tome de una población con
distribución Normal.

En realidad, es muy difícil que una población tenga exactamente distribución Normal.

Sin embargo, mientras la población tenga aproximadamente esta distribución y no se conozca la


varianza poblacional se esperan buenos resultados utilizando las Fórmulas (4.20) o (4.21).

Los especialistas en Estadística recomiendan que incluso cuando la población no tenga distribución
Normal y se desconoce σ2 pero n ≥ 30 se puede reemplazar sigma y por s y utilizar la expresión

s
x̄0 ± z √
n
para estimar la media poblacional µ.
La justicación de este razonamiento descansa en el supuesto de que para muestras tan grandes
como 30, la desviación estándar muestral s tomará un valor muy próximo a σ y además sigue
siendo aplicable el Teorema del Límite Central.

Ejemplo 4.4 Los siguientes son los registros de las mediciones del tiempo, en minutos, que tarda-
ron una muestra de 15 operarios en familiarizarse con una máquina recientemente adquirida por
una empresa.
Suponga que la variable X = Tiempo hasta completar la tarea tiene distribución Normal.

121
3,4 2,8 4,4 2,5 3,3 4,0 4,8 2,9 5,6 5,2 3,7 3,0 3,6 2,8 4,8

1. Determine e interprete un intervalo de 95 % de conanza para el verdadero tiempo promedio


2. El instructor considera que el verdadero tiempo promedio requerido por todo los trabajadores
de la empresa para familiarizarse con la nueva máquina está por encima de los 5 minutos.
Utilice el resultado del primer punto para raticar o recticar la armación del instructor.

Solución

Primer punto

A partir de la muestra de n = 15 se obtienen los siguientes valores de la media y varianza muestral:


P15
i=1 xi 3, 4 + 2, 8 + · · · + 4, 8
x̄0 = = = 3, 79
15 15
Este valor de la media muestral es una estimación puntual de µ.
Por otro lado:

P15
− x̄0 )2
i=1 (xi (3, 4 − 3, 79)2 + (2, 8 − 3, 79)2 + · · · + (4, 8 − 3, 79)2
s20 = = = 0, 9409
15 − 1 15 − 1

Por lo tanto, s0 = 0, 9409 = 0., 97
Los valores de t en la distribución de Student para k = 14 grados de libertada y que dejan el 95 %
del área comprendida entre ellos son −2, 1448 y t = 2, 1448.

Por lo tanto, la estimación de µ mediante un intervalo de 95 % de conanza se construye de la


siguiente manera:

 
0, 97 0, 97
C 3, 79 − 2, 1448 √ ≤ µ ≤ 3, 79 + 2, 1448 √ = 0, 95
15 15
Por lo tanto:

C(3, 25 ≤ µ ≤ 4, 32) = 0, 95

No se sabe exactamente cuál es el valor de el tiempo promedio poblacional pero se tiene una con-
anza del 95 % que se trate de un valor comprendido entre 3,25 y 4,32 minutos aproximadamente.

Segundo punto

De acuerdo con el intervalo de conanza hallado en el punto anterior no parece correcta la apre-
ciación del instructor puesto que el promedio 5 minutos está fuera del intervalo hallado.

Parece ser, de acuerdo con los resultados obtenidos que el promedio es menor.

4.5.4. Poblaciones nitas


Los resultados anteriores para estimar la media µ de una población por medio de un intervalo de
conanza son correctos si la muestra se toma de una población innita o cuando siendo nita el
muestreo es con reposición.

Ahora veremos como estimar µ cuando la muestra se toma sin reposición de una población nita.

Cuando la población es nita y el muestreo es sin reposición habrá que agregar el factor de correc-
ción para poblaciones nitas la expresión de la desviación estándar de X̄ .
Pueden presentarse los siguientes casos particulares:

Si la población tiene distribución Normal y se conoce su varianza

122
r r !
σ N −n σ N −n
C x̄0 − z √ ≤ µ ≤ x̄0 + z √ =1−α (4.22)
n N −1 n N −1

De manera abreviada:

r
σ N −N
x̄0 ± z √ (4.23)
n N −1

Si la población de la cual se toma la muestra tiene distribución Normal y su varianza σ2 es


desconocida:

r r !
s N −n s N −n
C x̄0 − t √ ≤ µ ≤ x̄0 + t √ =1−α (4.24)
n N −1 n N −1

De manera abreviada:

r
s N −N
x̄0 ± t √ (4.25)
n N −1

Si la población de la cuál se toma la muestra no tiene distribución Normal y no se conoce su


varianza, pero la muestra es grande, digamos n ≥ 30, una estimación de la media poblacional
por medio de un intervalo de conanza se construye de la siguiente manera:

r r !
s N −n s N −n
C x̄0 − z √ ≤ µ ≤ x̄0 + z √ =1−α (4.26)
n N −1 n N −1

De manera equivalente:

r
s N −N
x̄0 ± z √ (4.27)
n N −1

Ejemplo 4.5 El gerente de personal de una gran empresa quiere estimar el puntaje promedio que
obtendrían en una prueba de aptitud sus 5.500 empleados. Para ello toma una muestra aleatoria sin
reposición de 250 empleados y con esta obtiene una media de 65 puntos y una desviación estándar de
15 puntos. Estime el puntaje promedio que obtendrían todos los empleados de la empresa mediante
un intervalo de 95 % de conanza.

Solución

Los datos con los que se cuenta son los siguientes: tamaño de la población N = 5.500, tamaño de
la muestra n = 250, media muestral x̄0 = 65 puntos y desviación estándar muestral s = 15 puntos.
La muestra se toma sin reposición de una población nita. La variable objeto de estudio es la
siguiente:

X= Calicación obtenida en la prueba de aptitud por los empleados de la empresa

No se tiene información acerca de la distribución de X pero esto no resulta un problema pues la


muestra es holgadamente mayor a 30 con lo cual se puede aplicar el Teorema de Límite Central y
utilizar s como estimación de de σ.
Por lo tanto, la expresión que utilizaríamos para estimar µ por medio de un intervalo de conanza
es la siguiente:

r
s N −n
x̄0 ± z √
n N −1

123
Reemplazado los datos ene esta expresión obtenemos:

r
15 5.500 − 250
65 ± 1, 96 √
250 5.500 − 1
Luego de realizar los cálculos correspondientes se obtiene:

C(63 ≤ µ ≤ 67) = 0, 95
250
La fracción de muestreo es en este caso
5 500 = 0, 045. Por lo tanto podría no utilizarse el factor
de corrección para poblaciones nita.

Ejemplo 4.6 Utilizando los datos del Ejemplo (4.5) estime el puntaje promedio µ sin tener en
cuenta el factor de corrección para poblaciones nitas. Compare los resultados obtenidos

Solución

Se deja como actividad propuesta.

4.6. Distribución de la proporción muestral P̄


En la práctica puede ser necesario realizar inferencias acerca de la proporción p de éxitos de una
población dicotómica.

Por ejemplo, un investigador de mercados contratado por una empresa puede estar interesado en
conocer la proporción de familias de una ciudad que consumen algún producto elaborado por la
empresa.

Un candidato político puede estar interesado en saber la proporción de votantes que votarían por
él en las próximas elecciones.

Para realizar inferencias acerca de la proporción p de éxitos se debe estudiar las propiedades de
su estimador, el estadístico P̄ o proporción muestral que fuera denido en la Sección 4.4 de este
material.

En esa oportunidad dijimos que si X1 , X2 , · · · Xn es una muestra aleatoria tomada de una población
dicotómica, es decir, en una población donde Xi = 0 si se tiene un fracaso y Xi = 1 si se tiene un
éxito, la variable aleatoria

Pn
i=1 Xi X1 + X2 + · · · + Xn
P̄ = = (4.28)
n n
recibe el nombre de proporción muestral y se la utiliza para realiza estimaciones acerca de la
proporción poblacional.

Note que la denición de la variable aleatoria proporción muestral es similar a la de la media


muestral.

La diferencia está que en el caso de la media muestral las variables aleatorias Xi pueden asumir
cualquier número real mientras que en la denición de la proporción muestral solo puedan asumir
dos valores: 0 y 1.
¾Cómo se puede obtener las propiedades de la distribución de probabilidad de la proporción mues-
tral P̄ ?
Empíricamente se podría proceder de la siguiente manera:

1. De la población estudiada tomar todas las muestras aleatorias de tamaño n


xi
2. Para cada muestra obtenida calcular p̄i = donde xi es igual al número de éxitos en la
n
muestra de tamaño n
3. Todos los valores p̄i junto con sus frecuencias relativas de ocurrencia constituyen una esti-
mación de la distribución de probabilidades de la variable P̄

124
En realidad,las propiedades de la distribución de P̄ se obtienen mediante el siguiente resultado:

Teorema 4.6 La distribución de P̄ o proporción muestral, denida a partir de muestras aleatorias


de tamaño n obtenidas de una población en la que la proporción es p tiene las siguientes propiedades:

Media o valor esperado: E(P̄ = µp̄ = p


h ih i
Varianza: σp̄2 = p(1−p)
n
N −n
N −1

Si np y n(1 − p) = nq son ambos mayores o iguales a 5, entonces P̄ tiene distribución


aproximadamente Normal

El coeciente de corrección para poblaciones nitas puede omitirse en el calculo de σp̄ si N ≥ 20n
Si las muestras se toman con reposición de una población nita, la media y la varianza de la
pq
variable aleatoria proporción muestral son E(P̄ ) = µp̄ = p y σp̄2 = n siendo q =1−p .

También, en este caso, si np y nq son mayores o iguales a 5, P̄ tendrá distribución aproximadamente


Normal.

Como una consecuencia de Teorema 4.6 es posible demostrar que la variable aleatoria

P̄ − p
Z= (4.29)
σp̄

donde el valor de σp̄2 depende del tipo de muestreo que se realice, tiene aproximadamente distribu-
ción Normal Estándar.

Ejemplo 4.7 Se sabe que el 60 % de las amas de casa de la ciudad asisten regularmente a un
supermercado radicado en la misma. Si se toma una muestra aleatoria de 150 amas de casa de
la ciudad ¾cuál es la probabilidad de que la proporción muestral calculada con esta muestra esté
comprendida entre 0, 5 y 0, 7. Suponga que N ≥ 20n

Solución

Como np = 150 × 0, 60 = 90 y n × p = 150 × 0, 40 = 60 entonces P̄ tiene distribución aproximada-


mente normal.

Hay que calcular Pr(0, 5 ≤ P̄ ≤ 0, 7) .

En primer lugar se procede a estandarizar los valores p̄1 = 0, 5 y p̄2 = 0, 7.


Por lo tanto

0.5 − 0, 6
z1 = p = −2, 5
0, 6 × 0, 40/150

Además

0, 7 − 0.6
z1 = p = 2, 5
0, 6 × 0, 40/150

O sea:

Pr(0, 5 ≤ P̄ ≤ 0, 7) = Pr(P̄ ≤ 0, 7) − Pr(P̄ ≤ 0, 5)

Pr(0.5 ≤ P̄ ≤ 0.7) = Pr(Z ≤ 2.5) − Pr(Z ≤ −2.5) = 0.99379 − 0, 0062 = 0.9876

125
4.6.1. Estimación de la proporción de una población
Como en el caso de la media, si el objetivo es estimar la proporción de éxitos en una población
dicotómica, podemos proceder a estimarla:

Puntualmente

Por medio de un intervalo de conanza

a su vez, para estimar la proporción de éxitos en una población dicotómica se puede proceder de
la siguiente manera:

1. De la población de interés tomar una muestra aleatoria de n observaciones

x
2. Calcular p̄ = n siendo x el número de éxitos y n el tamaño de la muestra.

3. Tomar este valor como una estimación de p

Por ejemplo, supongamos que se quiera estimar la proporción de familias de una ciudad que tiene
algún familiar en la universidad.

Como en número de familias en la ciudad es muy grande, por cuestiones de costos y tiempo, se
selecciona una muestra de n = 1 000 y familias y que se verica que en la muestra el número de
familias con un familiar (éxitos) en la universidad es x = 200.
200
Por lo tanto, p̄ = = 0, 20 es la proporción estimada de familias de la ciudad con algún familiar
1.000
en la universidad.

También puede decirse que el 20 % de las familias de la ciudad tienen algún familiar en la univer-
sidad.

Al estimar puntualmente la proporción p de una población tendremos los mismo problemas de


incertidumbre acerca de la precisión de la estimación que mencionamos al estimar puntualmente
la media de una población.

Con el n de acotar la incertidumbre que genera estimar puntualmente la proporción p de una


población, podemos estimarla por medio de un intervalo de conanza tal como lo hicimos con la
media µ poblacional.

Sabemos que si np y nq son ambos mayores que cinco, la variable aleatoria

P̄ − p
Z=p
pq/n
tiene distribución Normal Estándar.

Por lo tanto, y tal cual lo hicimos en el caso de la media µ podemos plantear e interpretar el
siguiente enunciado de probabilidad:

!
P̄ − p
Pr −z ≤ p ≤z =1−α
pq/n

Luego de trabajar algebraicamente la expresión entre paréntesis se llega a la siguiente expresión


probabilística:

 r r 
pq pq
Pr P̄ − z ≤ p ≤ P̄ + z =1−α
n n
Puede demostrarse entonces que un intervalo del (1 − α)100 % de conanza para p está dado por
la siguiente expresión:

r r !
p̄0 q̄0 p̄0 q̄0
C p̄0 − z ≤ p ≤ p̄0 + z =1−α (4.30)
n n

126
Cuando la muestra se toma sin reposición de una población nita de tamaño N, cosa que se hace
habitualmente, resulta adecuado el factor de corrección para poblaciones nitas en el cálculo de
sp̄ . Por lo tanto, un intervalo de conanza de (1 − α)100 % para la proporción p de éxitos de una
población dicotómica tiene la siguiente expresión:

r r r r !
p̄0 q̄0 N −n p̄0 q̄0 N −n
C p̄0 − z ≤ p ≤ p̄0 + z =1−α (4.31)
n N −1 n n−1

n
N es menor a 0.05 el valor del factor de corrección estará lo
Si resulta que la fracción de muestreo
sucientemente cercano a uno como para justicar su omisión.

Ejemplo 4.8 Una cadena de supermercados cuenta con 10.000 poseedores de tarjetas de crédito a
quienes se les factura los gastos de cada mes. El administrador de dichas tarjetas quiere estimar la
proporción de personas que poseen la tarjeta y que comprarían en los supermercados si estuvieran
abiertos los días domingo. Para ello toma una muestra aleatoria de 100 poseedores de la tarjeta y
encuentra que 60 indicaron que comprarían los días domingo. El administrador quiere obtener una
estimación por intervalo con el 99 % de conanza de la proporción real de poseedores de la tarjeta
que comprarían los días domingo.

Solución

Los datos para este problema son los siguientes: N = 10.000; n = 100 y p̄ = 0, 60, por lo tanto
q̄ = 1 − 0, 60 = 0, 40
Además, como np̄ = 100(0, 60) = 60 y nq̄ = 100(0, 40) = 40, entonces P̄ tiene distribución
aproximadamente Normal.

Estimamos la desviación estándar de P̄ de la siguiente manera:

r r
(0, 60)(0, 40) 10.000 − 100
sp̄ = = 0, 0486
100 10.000 − 1

Como 1 − α = 0, 99, entonces z = ±2, 58 aproximadamente. Por lo tanto, el intervalo de conanza


para p es el siguiente:

C [0, 60 − (2, 58)(0., 0486) ≤ p ≤ 0, 60 + (2, 58)(0, 0486)] = 0, 99

Finalmente:

C(0, 474 ≤ p ≤ 0, 725) = 0, 99

Por lo tanto, la proporción p de poseedores de la tarjeta de crédito que estarían dispuestos a


comparar los días domingo es algún valor comprendido 0, 474 y 0, 725 con una conanza de 99 %

4.7. Tamaño de la muestra


En cualquier investigación que tenga como objetivo la inferencia estadística, surge en algún mo-
mento del proceso la pregunta de cual debe ser el tamaño de la muestra para lograr los objetivos
propuestos.

En realidad, la determinación del tamaño de la muestra debería ser la primera actividad en el


proceso de inferencia-

El tamaño de la muestra debe ser el adecuado pues si su tamaño es muy grande se perderá tiempo
y dinero, pero si la muestra es muy pequeña no se obtendrán resultados conables.

127
4.7.1. Tamaño de la muestra para estimar µ
Cuando el objetivo inferencial es estimar la media µ de una población, una vez tomada la muestra
y realizado los cálculos pertinentes, el intervalo de conanza para la media poblacional se construye
de la siguiente manera:

x̄0 ± (factor de conabilidad)(error estándar del estimador)

Si la muestra se tomará de una población normal con varianza


  σ2 conocida, la cantidad que se va

a sumar y restar al estimador x̄0 es z √σ . Esta cantidad contiene el tamaño de la muestra n y


n
nos ayudará a calcularlo.

Recordemos que una de las formas de expresar un intervalo de conanza para la media poblacional
µ es la siguiente:

 
σ σ
C x̄0 − z √ ≤ µ ≤ x̄o + z √ =1−α
n n

La amplitud del intervalo es

 
σ
A = 2z √
n

por lo que la semiamplitud será

 
σ
d=z √ (4.32)
n

Al determinar la amplitud deseada de un intervalo de conanza, estamos determinando que tan


cerca nos gustaría que estuviera nuestra estimación de la media verdadera.

Por ejemplo, si se quiere estimar la media µ de alguna población, y deseamos que el intervalo sea
 
de 10 unidades de amplitud, con esto queremos decir que deseamos que z √σ sea igual a 5.
n
Esto es lo mismo que decir que nos gustaría que nuestra estimación estuviera a una distancia de a
lo sumo 5 unidades de la media verdadera.

Supongamos que en una situación dada se pueda determinar que tan cerca queremos que se en-
cuentre nuestra estimación de la media verdadera, es decir, precisamos el valor de d. Supongamos
que la desviación estándar de la población σ es conocida y que se ja de antemano la conanza
que deseamos en la estimación.

Con esta información se puede establecer la Fórmula (4.32) donde d es la semiamplitud del intervalo
de conanza.

Resolviendo esta ecuación para n obtendremos

z2 σ2
n= (4.33)
d2
Esta expresión puede utilizarse para calcular el tamaño de la muestra necesaria para realizar una
estimación con (1 − α)100 % de la media de una población cuya varianza es σ2 .
En la mayoría de los casos prácticos la varianza de la población no se conoce. Por lo tanto se deberá
realizar una estimación de la misma.

Algunas de las posibles maneras de estimar la varianza poblacional para utilizarla en la Fórmula
(4.33) son las siguientes:

Muestra piloto. Se toma una muestra previa o piloto de la población objetivo par calcular la
varianza muestral S2 y utilizarla como estimación σ2

128
Estimaciones previas. Estudios con temas y objetivos similares a la investigación que se piensa
realizar pueden haberse realizados anteriormente. En este caso es posible utilizar la varianza
muestral de estos estudios para estimar σ2

Observe el efecto que tiene sobre n los valores de z; σ y d cuando varía alguno de ellos mientras el
resto permanece constante.

Cuanto mayor sea la varianza de la población, mayor será el tamaño de la muestra para z y d
jas. O sea, cuando el muestreo se realiza de poblaciones altamente variables, se necesitarán
muestras más grandes

Cuanto mayor sea la conanza con la cuál se hará la estimación, mayor será la muestra
necesaria.

Intervalos estrechos de conanza (valores más pequeños de d) requerirán muestras más gran-
des.

Ejemplo 4.9 Un investigador quiere estimar la media de cierta población. Desea que su estima-
ción se encuentre a no más de 0,10 unidades de la media verdadera con una conanza del 95 %.
Estudios anteriores indican que la población estudiada tiene distribución Normal con una varianza
σ 2 = 0, 09. ¾Qué tamaño de la muestra debe tener el investigador para cumplir con su objetivo?

Solución

Los datos para este ejemplo son los siguientes: 1 − α = 0, 95, por lo tanto, z = 1, 96. Además
σ 2 = 0, 09.
Luego:

1, 962 × 0, 09
n= = 34, 57
0, 102
Por lo tanto, el investigador deberá tomar una muestra de tamaño 35 para el logro de sus objetivos.

En el análisis precedente hemos supuesto que la muestra se tomará, con o sin reposición de una
población innita.

Si se ha de tomar una muestra sin reposición de una población nita de tamaño N se debe incor-
porar el factor de corrección para poblaciones nitas.

La semiamplitud del intervalo es ahora

 r
σ N −n
d=z √
n N −1

Resolviendo esta ecuación para n se obtiene:

N z2 σ2
n= (4.34)
z 2 σ 2 + d2 (N − 1)

4.7.2. Tamaño de la muestra para estimar p


Para determinar el tamaño de la muestra que se utilizará para estimar la proporción poblacional
mediante un intervalo de conanza, se sigue el mismo razonamiento que se describió para determinar
el tamaño de la muestra que se necesita para estimar la media de una población.

Se debe indicar que tan cerca deseamos que esté nuestra estimación del valor real del parámetro
estimado e indicar el nivel de conanza deseado.

Existen dos fórmulas para determinar el tamaño de la muestra. Esto depende si se tiene o no en
cuanta el coeciente de corrección para poblaciones nitas.

129
Si el muestreo se realizar de una población innita o de una población nita pero ´la muestra se
tomará con reposición, no se necesitará el factor de corrección y la fórmula para calcular el tamaño
de la muestra es:

z 2 pq
 
n= (4.35)
d2
donde z es el valor de la variable Z de la distribución Normal Estándar correspondiente al nivel
de conanza elegido.

En la práctica, hay que realizar estimaciones de p y q. Esto puede lograrse, como en el caso del
cálculo del tamaño de la muestra para estimar µ, de dos maneras:

Muestra piloto

Estudios similares en los cuales se estimaron los valores de p y q

Cuando no se puede proceder de esta manera, se obtiene el valor máximo de n haciendo p = 0, 5.


Aunque el tamaño de la muestra así obtenido es sucientemente para los objetivos propuestos,
puede resultar muy grande y debido a esto generar costos muy elevados.

Cuando el muestreo se va a realizar sin reemplazo en una población nita de tamaño N , es necesario
considerar el factor de corrección para poblaciones nitas.

La expresión para el cálculo de n es en este caso:

N pqz 2
n= (4.36)
z 2 pq + d2 (N − 1)

Ejemplo 4.10 Un especialista en mercadotecnia desea calcular el tamaño de la muestra de hogares


que deberá seleccionar en cierta comunidad para determinar en qué proporción, por lo menos uno
de los miembros ve cierto programa de televisión. En esta comunidad hay un total de 500 hogares.
El analista desea que su estimación esté a lo sumo a 0,04 de la proporción verdadera con un 90 %
de conanza. En una muestra piloto de 15 hogares, el 35 % de los entrevistados indicaron que
alguien de su casa veía regularmente dicho programa. Calcule el tamaño de muestra necesario para
los propósitos por el investigador.

Solución

Los datos para este ejemplo son los siguientes: N = 500, 1 − α = 0, 90, por lo tanto z = 1, 648.
Además, p̂ = 0, 35.
Por lo tanto

500 × 0, 35 × 0, 65 × 1, 6452
n= = 217, 68
1, 6452 × ×0, 35 × 0, 65 + 499 × 0, 042
Luego, el tamaño de la muestra requerido será n = 218. Pero como ya se han entrevistados en la
muestra piloto 15 hogares, solamente se necesitarán agregar 203 hogares para completar la muestra.

4.8. Distribución Chi cuadrado y la distribución de (n−1)S 2

σ 2

En muchas situaciones prácticas, además de estimar la media µ de una población puede que resulte
necesario estimar también su varianza σ2 .
Hemos visto que, en general, la variabilidad de un conjunto de observaciones pertenecientes a una
población se puede hallar por medio de la varianza población denida de la siguiente manera:

Pn
i=1 (xi − µ)2
σ2 =
N

130
Como en general la media µ de la población se desconoce, entonces σ2 también se desconoce y
debe ser estimada.

El estadístico empleado para estimar la varianza poblacional es la varianza muestral que la hemos
denido de la siguiente manera:

Pn
2 − X̄)2
i=1 (Xi
S = (4.37)
n−1
Para poder realizar inferencias acerca del valor de la varianza poblacional debemos realizar algunas
consideraciones previas.

En secciones anteriores hemos analizado las principales propiedades de las variables aleatorias
media muestral X̄ y proporción muestral P̄ como paso previo para la realización de inferencias
acerca de los valores de la media y proporción poblacional.

Se podría pensar que para realizar inferencias acerca de la varianza poblacional, se debería estudiar
las propiedades de la variable aleatoria varianza muestral S2.
En realidad, la distribución de probabilidad de la varianza muestral no tiene mayor interés para la
estadística aplicada.

Sin embargo, si las muestras se toman de una población con distribución Normal, la distribución
(n−1)S 2
de probabilidad de la variable aleatoria χ2 = σ2 resulta de enorme interés.

Se podría obtener empíricamente una aproximación a la distribución de probabilidad de la varia-


(n−1)S 2
ble aleatoria χ2 = σ2 obteniendo de una población con distribución Normal de la siguiente
manera:

1. De una población con distribución Normal y varianza σ2 tomar todas las muestras aleatorias
posibles de tamaño n
(n−1)S 2
2. Para cada una de las muestras calcular el valor de χ2 = σ2

3. La distribución de frecuencias relativas de la variable χ2 se puede tomar como una aproxi-


mación empírica de su distribución de probabilidad

Si bien es cierto este procedimiento resulta correcto desde el punto de vista práctico, no resulta
aplicable debido al tiempo que insumiría aún en poblaciones de tamaño moderado.
(n−1)S 2
Las propiedades de la distribución de probabilidad de la variable aleatoria χ2 = σ2 estudian
en el ámbito de la Estadística Matemática.

En el siguiente resultado, que damos sin demostración, se sintetizan las principales propiedades de
(n−1)S 2
la variable aleatoria χ2 = σ2 .

Teorema 4.7 Si S 2 =
Pn
es la variable aleatoria varianza muestral denida a partir de
i=1 (Xi −X̄)
n−1
muestras aleatorias de tamaño n seleccionadas de una población normal con varianza σ 2 , entonces
2
la variable aleatoria χ2 = (n−1)S
σ2 tiene distribución Chi cuadrado con k = n − 1 grados de libertad.

En Teorema (4.7) se menciona por primara vez un nuevo modelo de distribución de probabilidad,
la distribución Chi cuadrado.
En lo que sigue denimos la distribución Chi cuadrado y analizamos sus principales propiedades.

Comenzamos con la siguiente denición.

Denición 4.8 Se dice que la variable aleatoria X tiene distribución de probabilidad Chi cuadrado
con k grados de libertada si su función de densidad es
k
( 12 ) 2 ( k −1) − x
f (x) = x 2 e 2 (4.38)
Γ k2
donde Γ es la función gamma.

131
La complejidad matemática de la función f (x) no deja apreciar las propiedades de este modelo de
densidad de probabilidad.

Pero, de la misma manera que lo hemos hecho con las distribuciones Normal y t de Student,
podemos listar sus principales propiedades sn recurrir a la expresión (4.38).

En la siguiente lista se presentan las principales propiedades de la distribución de probabilidad Chi


cuadrado.

1. Si una variable aleatoria X tiene distribución Chi cuadrado entonces f (x) ≥ 0


2. X≥0
3. La gráca de una variable aleatoria con distribución de probabilidad Chi cuadrado es en
general sesgada a derecha. En la Figura (4.9) se muestra la gráca de una variable aleatoria
con densidad de probabilidad Chi cuadrado.

Figura 4.9: Distribución Chi cuadrado

Chi cuadrado
R +∞
4. Si la variable aleatoria X tiene distribución entonces
0
f (x)dx = 1
Rb
5. Pr(a ≤ X ≤ b) = a
f (x)dx
6. Existe una distribución Chi cuadrado para cada grado de libertad k que pueda considerarse.

7. Si X es una variable aleatoria con distribución Chi cuadrado entonces E(X) = k y V (X) = 2k
siendo k sus grados de libertad

8. Si una variable aleatoria X tiene distribución Chi cuadrado con k grados de libertad se escribe
X ∼ χ2 (k)

Al igual que las distribuciones Normal Estándar y t de Student existen tablas para el cálculo de
probabilidades para una variable aleatoria con distribución Chi cuadrado.
Parte de una de esas tablas es la que se presenta en la Figura (4.10). Es muy parecida en cuanto
a su uso a la tabla de la distribución t de Stedent.
En la primera columna de la tabla se registran los grados de libertad k y el encabezamiento de las
columnas indica la proporción de área (probabilidad) que queda a la izquierda de los valores de la
variable que se muestra en el cuerpo de la tabla.

Supongamos que se quiera saber, para una variable aleatoria que tiene distribución Chi cuadrado
con 10 grados de libertad, cual es el valor que deja a su izquierda el 95 % del área bajo la curva.

Se debe procede de la siguiente manera:

Ubicamos en la primera columna de la tabla 10 grados de libertad

Ubicamos la columna cuyo encabezamiento sea 0,95

132
Figura 4.10: Tabla de probabilidades Chi cuadrado

En la intersección de la la y la columna se encuentra la probabilidad buscada cuyo valor es


18,307

Como es habitual se escribe Pr(X ≤ 18, 307) = 0.95


Una vez que hemos presentado las principales características de la distribución Chi cuadrado es-
tamos en condiciones de ver como utilizarla para estimar la varianza σ2 de una población.

Como en el caso de los parámetros anteriores, si se necesita estimar la varianza de una población
hay dos maneras de hacerlo: Mediante una estimación puntual o por medio de u intervalo de
conanza.

Para estimar σ2 puntualmente se procede de la siguiente manera:

1. Se toma una muestra aleatoria de tamaño n de la población


Pn 2
i=1 (xi −x̄)
2. Se calcula s2 = n−1 y su valor se toma como estimación de σ2

Las estimaciones puntuales de la varianza de una población adolece de los mismos problemas de
la falta de precisión que describimos cuando estimamos puntualmente la media µ y la proporción
poblacional p.
Hay un solo parámetro para estimar y en general muchas estimaciones posibles, una para cada
muestra de tamaño n que puedan tomarse de la población.

Esta falta de precisión puede acotarse mediante un estimación de σ2 por medio de un intervalo de
conanza.

Como hemos visto, si se toman muestras aleatorias de tamaño n de una población con distribución
(n−1)S 2
Normal con varianza σ2 , la variable aleatoria χ2 = σ2 tiene distribución Chi cuadrado con
n−1 grados de libertad.

Seleccionemos dos valores de esta variable, χ21 y χ22 tales que el área comprendida entre la gráca
2 2
de la función f (χ ) el eje χ y los segmentos verticales trazados por los puntos sea el (1 − α) por
ciento del área total bajo la curva. (Figura 4.11)

A partir de la Figura (4.11) podemos escribir:

(n − 1)S 2
 
Pr χ21 ≤ ≤ χ 2
2 =1−α
σ2

Luego de trabajar algebraicamente la expresión entre llaves se llaga a la siguiente expresión:

(n − 1)S 2 (n − 1)S 2
 
2
Pr ≤σ ≤ =1−α (4.39)
χ22 χ21

La interpretación probabilística de este enunciado es la misma que hemos hecho para los intervalos
aleatorios de la media y la proporción muestral.

133
Figura 4.11: Área comprendida entre χ21 y χ22

Cuando efectivamente se toma una muestra de la población, se calcula el valor de s20 y se lo


reemplaza en la Fórmula (4.39) se obtiene:

(n − 1)s20 (n − 1)s20
 
2
C ≤ σ ≤ =1−α (4.40)
χ22 χ21
como expresión para estimar σ2 mediante un intervalo de (1 − α)100 % de conanza.
Un intervalo de (1 − α) % de conanza para la desviación estándar σ e una población se obtiene
calculando la raíz cuadrada de los límites de conanza de la expresión (4.40)

Ejemplo 4.11 Un fabricante de baterías para automóviles asegura que sus productos tienen una
vida media útil de 2 años con una desviación estándar de 0,5 años. Con el n de indagar si lo
expresado por el fabricante es correcto, se toma una muestra aleatoria de 5 baterías y se registran
los siguientes tiempos de vida útil: 1, 5; 2, 5; 2, 9; 3, 2 y 4, 0 años.Construya un intervalo de 95 % de
conanza para σ 2 e indique si es válida la armación del gerente.
Suponga que la variable aleatoria tiempo de vida útil de las baterías tiene distribución Normal.

Solución

Los datos para este ejemplos son los siguientes:

X= Tiempo de vida útil de las baterías para automóviles

Además, X ∼ N (µ = 2, σ 2 = 0, 25) si lo armado por el fabricante es correcto.

Realizando los cálculos correspondientes se puede vericar que: x̄0 = 2, 82 y ques20 = 0, 847
Con el n de vericar lo armado por el fabricante, estimamos la varianza de la variable X por
medio de un intervalo de 95 % de conanza.

Con n = 5, 1 − α = 0, 95 y con 4 grados de libertad, se puede vericar que χ21 = 0, 484 y que
χ22 = 11, 143 a partir de la tabla de probabilidades correspondiente.

Por lo tanto:

 
4(0, 847) 2 4(0, 847)
C ≤σ ≤ = 0, 95
11, 114 0, 484
Finalmente:

C 0, 30 ≤ σ 2 ≤ 7, 00 = 0, 95


134
Conclusión: como el intervalo de conanza no contiene el valor σ 2 = 0, 25 podemos decir que lo
armado por el fabricante no es correcto.

Es más, a la luz de los resultados obtenidos, la varianza poblacional parece ser mayor qu el valor
predicho por el fabricante.

135
Capítulo 5

Pruebas de Hipótesis

5.1. Introducción
En el capítulo anterior hemos analizado como estimar un parámetro poblacional partir de los datos
contenidos en una muestra tomada de la población.

Puede encontrarse un solo número (estimación puntual) o un intervalo de valores posibles (intervalo
de conanza).

Sin embargo, muchos problemas de Administración o Economía requieren que se tome una decisión
entre acepar o rechazar un proposición sobre algún parámetro.

Esta proposición recibe el nombre de hipótesis y el procedimiento mediante el cual se toma una
decisión acerca de aceptar o rechazar una hipótesis recibe el nombre de prueba de hipótesis.
Este es uno de los aspectos más útiles de la inferencia estadística puesto que como se dijo, muchos
de los problemas de toma de decisiones en el mundo de la Administración y la Economía pueden
formularse como problemas de pruebas de hipótesis.

Denición 5.1 Una hipótesis estadística es una proposición sobre algún parámetro de una pobla-
ción

Por ejemplo, suponga que se tiene interés en la cantidad de dinero gastado en alimentos cada
semana por las familias de una ciudad.

La cantidad de dinero gastada en alimentos puede considerarse como una variable aleatoria la que
puede ser descrita por su distribución de probabilidad.

De manera especíca, supongamos el interés de los investigadores es decidir si a cantidad promedio


gastada en alimentos es igual a 50 dólares por semana o es distinta a esta suma.

Estas hipótesis de investigación pueden plantearse formalmente de la siguiente manera:

H0 : µ = 50
̸ 50
Ha : µ =

La proposición H0 : µ = 50 de la expresión precedente recibe el nombre hipótesis nula mientras


que la proposición Ha : µ ̸= 50 recibe el nombre de hipótesis alterna.
Puesto que la hipótesis alterna especica valores de µ que pueden ser menores o mayores que 50
dólares también se la conoce con el nombre de hipótesis alterna bilateral.
En algunos casos lo que se desea es plantear hipótesis alternativas unilaterales como por ejemplo:

H0 : µ ≥ 50
Ha : µ < 50

En este caso la hipótesis alternativa recibe el nombre de unilateral izquierda.

137
Otra posibilidad es la siguiente:

H0 : µ ≤ 50
Ha : µ > 50

unilateral derecha.
En este caso la hipótesis alterna recibe el nombre de

Es importante tener en cuenta el hecho de que las hipótesis siempre son proposiciones o arma-
ciones algún parámetro poblacional y no proposiciones sobre algún estadístico.

Denición 5.2 El procedimiento estadístico que conduce a alguna decisión sobre la hipótesis nula
(aceptarla o rechazarla) recibe el nombre de prueba de hipótesis.

Los procedimientos de las pruebas de hipótesis dependen de la información contenida en una


muestra aleatoria seleccionada de la población de interés.

Si la información es consistente con lo que se arma en la hipótesis nula, se concluye que no hay
razón para pensar que es falsa y no se la rechaza.

Sin embargo si esta información es inconsistente con lo que se arma en la hipótesis nula, se la
rechaza.

Debe tenerse en cuanta que la verdad o falsedad de la hipótesis nula nunca puede conocerse a
menos que se pueda examinarse a todas las unidades observacionales de la población.

En la mayoría de las situaciones prácticas esto es imposible por razones de tiempo y costos.

Por lo tanto todos los procedimientos de pruebas de hipótesis deben desarrollarse teniendo en cuenta
que existe la probabilidad de llegar a una conclusión equivocada.
La estructura de los problemas de pruebas de hipótesis es idéntica en todas las aplicaciones que se
analizan en este material.

La hipótesis nula es la que se desea probar

El rechazo de la hipótesis nula conduce a la aceptación de la hipótesis alterna

La hipótesis nula se plantea de modo que en ella siempre aparezca el signo igual

Procedimiento

Una prueba de hipótesis consiste en tomar una muestra aleatoria de la población, el cálculo de un
estadístico que recibe el nombre de estadístico de prueba y a partir de su valor tomar la decisión
de rechazar o no rechazar la hipótesis nula.

5.2. Prueba de una hipótesis nula


Para ilustrar los conceptos de la sección anterior consideremos nuevamente el problema del gasto
promedio semanal en alimentos por las familias de la ciudad.

La hipótesis nula es que el gasto promedio semanal es de 50 dólares semanales por familia mientras
que la hipótesis alternativa es que el gasto promedio es distinto de 50 dólares.

Estas hipótesis pueden presentarse de la siguiente manera:

H0 : µ = 50
̸ 50
Ha : µ =

Supongamos que se toma una muestra aleatoria de n = 10 familias de la ciudad y se calcula el


gasto promedio muestral x̄.
Como sabemos, la media muestral es un estimador de la media poblacional µ. Por lo tanto, un valor
de la media muestral x̄ que esté próximo al valor hipotético µ = 50 puede resultar una evidencia
de que el verdadero valor de la media poblacional es µ = 50 dólares.

138
Por otra parte, un valor de la media muestral muy diferente de 50 puede constituir una evidencia
para no apoyar a la hipótesis nula y que en realidad el gasto semanal promedio es distinto de 50
dólares, es decir apoyaría Ha .
Por lo tanto la media muestral X̄ será el estadístico de prueba para llevar adelante el proceso de
toma de decisiones.

Como sabemos, la media muestral X̄ puede tomar muchos valores, uno para cada muestra que se
tome de la población.

Suponga que si 48, 5 ≤ x̄ ≤ 51, 5 no se rechaza H0 : µ = 50 y que si x̄ < 48, 5 o x̄ > 51, 5 entonces
se rechaza la hipótesis nula.
1

Esta situación se muestra en la Figura (5.1).

Figura 5.1: Regiones de rechazo y de no rechazo de H0

Los valores de X̄ que son menores a 48,5 o mayores a 51,5 constituye la región de rechazo de la
hipótesis nula. Si el valor calculado de la media muestral X̄ es un valor menor a 48,5 o mayor a
51,5 lo consideraremos tan distinto de µ = 50 que rechazaremos la hipótesis nula.

Los valores de la media muestral comprendidos en el intervalo 48, 5 ≤ X̄ ≤ 51, 5 constituyen la


región de no rechazo de la hipótesis nula. Si el valor calculado de la media muestral es un valor
comprendido en este intervalo se lo considera cercano al valor µ = 50 que no rechazaremos la
hipótesis nula.

Los valores x̄ = 48, 5 y x̄ = 51, 5 reciben el nombre de valores críticos del estadístico de prueba y
separan las regiones de rechazo y de no rechaza de la hipótesis nula.

Todo procedimiento de prueba de hipótesis puede conducir a dos decisiones erróneas.

Puede ocurrir, por ejemplo, que el verdadero valor de µ sea igual a 50 pero que con la muestra
que hemos tomado de la población obtengamos un valor de la media muestral X̄ comprendido en
la región de rechazo de la hipótesis nula. En este caso rechazaríamos la hipótesis nula en favor de
la alterna cuando H0 es verdadera.
Este tipo de conclusiones equivocadas se las denomina error tipo I.

Denición 5.3 El error tipo I se dene como el error que se comete al rechazar H0 cuando en
realidad es verdadera.

Supongamos ahora que el verdadero valor de µ es diferente de 50 y que al calcular X̄ con la muestra
tomada de la población obtengamos un valor comprendido en la región de no rechazo de la hipótesis
nula.

En este caso no se rechaza H0 cuando en realidad es falsa. Este tipo de conclusión errónea recibe
el nombre de error tipo II.

Denición 5.4 El error tipo II se dene como el que se comente al no rechazar la hipótesis nula
H0 cuando en realidad es falsa.

Por lo tanto, al probar cualquier hipótesis estadística existen cuatro situaciones que determinan si
la decisión nal es correcta o incorrecta. Se las resume en la Tabla (5.1).

Cuando se lleva a cabo el proceso de una prueba de hipótesis y se toma alguna conclusión, nunca
se sabe si se cometió un error pues el valor de µ es desconocido.

Lo que sí se puede es calcular las probabilidades de cometer estos errores.

1 Un poco más adelante veremos cómo se jan estos valores de X̄

139
Decisión H0 es verdadera H0 es falsa
No rechazar H0 No se comete un error Error tipo II
Se rechaza H0 Error tipo I No se comete un error

Tabla 5.1: Errores en una prueba de hipótesis

A la probabilidad de cometer un error de tipo I se denota con la letra griega α, es decir


α = Pr(Error tipo I). Esto es:

α = Pr(Error tipo I)=Pr(RechazarH0 \ H0 es verdadera)

Algunas veces α recibe el nombre de nivel de signicación de la prueba.


En nuestro ejemplo se cometerá un error tipo I cuando siendo µ = 50 se obtenga X̄ < 48, 5 o
X̄ > 48, 5.
Siguiendo con el ejemplo suponga que la variable aleatoria:

X= Gastos semanales en alimentos

tiene Distribución Normal con una desviación estándar σ = 2, 5 dólares.

Por lo tanto, X̄ también también tendrá Distribución Normal con media µ = 50 (hasta que se
2,5
pruebe lo contrario) y desviación estándar σx̄ = √
10
= 0, 79.
La probabilidad de cometer un error de tipo I o nivel de signicación de la prueba es igual a la
suma de las áreas sombreadas en las dos colas de la distribución de probabilidad del estadístico X̄
tal como se muestra en la Figura (5.2).

Figura 5.2: Regiones de rechazo y no rechazo de H0

Esta probabilidad se puede calcular de la siguiente manera:

α = Pr(X̄ < 48, 5 o X̄ > 51, 5) = Pr(X̄ < 48, 5)+Pr(X̄ > 51, 5) =

 
= Pr(X̄ < 48, 5) + Pr(X̄ > 51, 5) = Pr(X̄ < 48, 5) − 1 − Pr(X̄ ≤ 51, 5)

Estandarizando los valores de X̄ se obtiene:

48, 5 − 50
z1 = = −1, 90
0, 79

140
Así mismo

51, 5 − 50
z1 = = 1, 90
0, 79
Por lo tanto:

α = Pr(Z < −1, 90) + [1 − Pr(Z ≤ 1, 90)] = 0, 0288 + (1 − 0, 9713) = 0, 0576.

Esto implica que aproximadamente el 5,76 % de todas las muestras aleatorias conducirán al rechazo
de H0 : µ = 50 cuando en realidad no debería haberse rechazado.

Como se muestra en la Figura (5.2) la probabilidad de cometer un error tipo I se reparte en partes
iguales en las dos colas de la distribución del estadístico de prueba X̄ .
Al analizar la Figura (5.2) puede verse que es posible reducir el valor de α al aumentar la región
de no rechazo de la hipótesis nula.

Por ejemplo, si se toman como valores críticos x̄1 = 48 y X̄2 = 52 el valor de α es:

 
α = Pr(X̄ < 48) + Pr(X̄ > 52) = Pr(X̄ < 48) + 1 − Pr(X̄ ≤ 52)

Estandarizando los valores críticos del estadístico de prueba obtenemos:

48 − 50
z1 = = −2, 53
0, 79
y

52 − 50
z2 = = 2, 53
0, 79
Por lo tanto

α = Pr(Z < −2, 53) + [1 − Pr(Z ≤ 2, 53]

α = 0, 0057 + (1 − 0, 9943) = 0, 0114

Supongamos que ahora tomamos una muestra de tamaño n = 16 familias manteniendo el resto de
las cantidades en los mismos valores.

√σ 2,5
Si ahora n = 16 resulta que σx̄ = n
= √
16
= 0, 625
Supongamos como hemos dicho, que se mantiene los mismos punto críticos.

Por lo tanto

 
Pr(X̄ < 48, 5) + Pr(X̄ > 51, 5) = Pr(X̄ < 48, 5) − 1 − Pr(X̄ ≤ 51, 5)

Estandarizando los puntos críticos obtenemos:

48.5 − 50
z1 = = −2, 4
0, 625
y

51, 5 − 50
z1 = = 2, 4
0, 625
Por lo tanto:

α = Pr(Z < −2, 4) + [1 − Pr(Z ≤ 2, 4)]

141
α = 0, 0082 + (1 − 0, 9918) = 0, 0164

Al evaluar un procedimiento de prueba de hipótesis también es importante examinar la probabilidad


de cometer un error de tipo II el cual se dene como β. Es decir:

β = Pr(Error tipo II) = Pr(No rechazarH0 \ H0 es falsa)

Para calcular β se debe tener un valor especíco de la media poblacional µ.


Suponga que, como hasta ahora H0 : µ = 50 paro resulta que el verdadero valor de la media
poblacional es µ = 52.
La Figura (5.3) puede servir de gran ayuda para el cálculo de β

Figura 5.3: Cálculo de β para µ = 52

Luego, cometeremos un erro del tipo II cuando el calor calculado del estadístico de prueba caiga
en el intervalo 48, 5 ≤ X̄ ≤ 51, 5 cuando µ = 52.
Por lo tanto:

β = Pr(48, 5 ≤ X̄ ≤ 51, 5 \ µ = 52)

β = Pr(48, 5 ≤ X̄ ≤ 51, 5 \ µ = 52)

Estandarizando los valores críticos del estadístico de prueba X̄ obtenemos:

48, 5 − 52
z1 = = −4, 43
0, 79
y

51, 5 − 52
z2 = = −0, 63
0, 79
Finalmente:

β = Pr(Z ≤ −0, 63) − Pr(Z ≤ −4, 43) = 0, 2643 − 0 ⇒ β = 0, 2643

Por lo tanto, si se repitiera un gran número de veces la prueba, aproximadamente en el 26,4 % de


los casos, no rechazaríamos la hipótesis nula cuando en realidad debería haberse rechazado.

Puede vericarse que la probabilidad de cometer un error de tipo II aumenta rápidamente a medida
que el valor verdadero de µ tiende al valor dado en la hipótesis nula.

142
Por ejemplo, si H0 : µ = 50 pero resulta que el verdadero valor de la media poblacional es µ = 50, 5
puede vericarse procediendo como en el punto anterior que β = 0, 8923.
La probabilidad de cometer un error tipo II también depende del tamaño de la muestra, disminu-
yendo cuando n aumenta.

Supongamos que la H0 : µ = 50 y que el valor verdadero de µ es 52 pero que el tamaño de la


muestra aumenta de n = 10 a n = 16.
Como vimos anteriormente la desviación estándar del estadístico de prueba X̄ es ahora
√σ = √2,5
σx̄ = n 16
= 0, 625.
Entonces

β = Pr(48, 5 ≤ X̄ ≤ 51, 5 \ µ = 52)

β = Pr(48, 5 ≤ X̄ ≤ 51, 5 \ µ = 52)

Estandarizado los valores críticos de X̄ obtenemos:

48, 5 − 52
z1 = = −4, 43
0, 79
y

51, 5 − 52
z2 = = −0, 80
0, 79

Por lo tanto:

β = Pr(−5, 60 ≤ Z ≤ −0, 80) = Pr(Z ≤ −0, 80) − Pr(Z ≤ −5, 60)

β = 0, 2119 − 0 ⇒ β = 0, 2119

El análisis realizado hasta el momento revela cuatro puntos importantes:

1. El tamaño de la región de rechazo de la hipótesis nula y, en consecuencia, la probabilidad de


cometer un erro de tipo I siempre puede reducirse mediante una selección apropiada de los
valores críticos

2. Los errores tipo I y II están relacionados. Una disminución de la probabilidad de cometer un


tipo de error da como resultado un aumento de la probabilidad de cometer el otro, siempre
y cuando el tamaño de la muestra no cambie
3. En general, un aumento en el tamaño de la muestra reduce tanto de α como β, siempre y
cuando no se modiquen los valores de los puntos críticos

4. Cuando H0 es falsa, β aumenta a medida que el verdadero valor de parámetro tiende al valor
hipotético propuesto en H0 . El valor de β disminuye a medida qu aumenta la diferencia entre
el valor verdadero de µ y el propuesto

Un concepto importante en la técnica inferencial de las pruebas de hipótesis es el de potencia de


la prueba estadística.

Denición 5.5 La potencia de una prueba estadística se dene como la probabilidad de rechazar
H0 cuando es falsa.

143
Numéricamente, valor de la potencia de una prueba estadística se calcula de la siguiente manera:
1 − β.
A menudo, las pruebas estadísticas se comparan cotejando su potencia es de decir, a partir de su
capacidad de rechazar una hipótesis nula falsa.

En general preferimos aquellas pruebas de hipótesis con mayor potencia.

Por ejemplo, consideremos nuevamente la prueba en el cual H0 : µ = 50 versus Ha : µ ̸= 50.


Supongamos que en realidad µ = 52. Cuando n = 10 el valor de la probabilidad de cometer un
error tipo II es β = 0, 2643.
Por lo tanto, la potencia de la prueba es 1 − β = 1 − 0, 2643 = 0, 7357 cuando µ = 52.
Esto quiere decir que si el valor verdadero de la media poblacional es µ = 52, la prueba rechazará
de manera correcta la hipótesis nula el 73,37 % de veces la hipótesis H1 : µ = 50.

5.3. Hipótesis bilaterales y unilaterales


Una prueba de hipótesis como

H0 : µ = µ0
̸ µ0
Ha : µ =

recibe el nombre de prueba bilateral pues la región de rechazo de H0 se divide en dos partes en la
distribución del estadístico de prueba con la misma probabilidad de ocurrencia.

Muchos problemas de pruebas de hipótesis involucran hipótesis alternativas unilaterales como

H0 : µ = µ0
Ha : µ > µ 0
o

H0 : µ = µ0
Ha : µ < µ 0

Si la hipótesis alternativa es H0 : µ > µ0 la región de rechazo debe estar en la cola superior de la


distribución de probabilidad del estadístico de prueba pues valores grandes del estadístico estarán
más de acuerdo con Ha que con la hipótesis nula.

Este tipo de hipótesis reciben el nombre de prueba unilateral derecha pues la región de rechazo de
H0 se encuentra a la derecha de la distribución de probabilidad del estadístico de prueba.

Si la hipótesis alternativa es Ha : µ < µ0 , la región de rechazo debe encontrarse en la cola inferior de


la distribución de probabilidad del estadístico de prueba pues valores pequeños del mismo estarán
más de acuerdo con Ha que con H0 .
Este tipo de hipótesis reciben el nombre de unilateral izquierda pues la región de rechazo de H0 se
encuentra a la izquierda de la distribución de probabilidad del estadístico de prueba.

Hemos visto entonces que las hipótesis alternativas pueden ser bilaterales o unilaterales dependien-
do de la conclusión que ha de obtenerse si se rechaza la hipótesis nula.

Así, por ejemplo, si el objetivo es probar armaciones donde aparezcan proposiciones tales como
mayor que, menor que, excede a y otras similares, entonces la alternativa unilateral es la que resulta
más apropiada.

Si la armación no implica ninguna dirección o si es del tipo no es igual, entonces debe utilizarse
la alternativa bilateral.

Llegados a este punto, es bueno precisar que el razonamiento que se hace cuando se realiza una
prueba de hipótesis es similar al que se sigue en un procedimiento judicial.

Al acusar a alguien de un crimen, cuando se llega al juicio se presumen que el acusado es inocente,
es decir, no culpable hasta que se demuestre lo contrario.

144
La parte acusadora recoge y presenta pruebas al intentar descartar la presunción de no culpabilidad,
presunción que, si no se descarta en vista de todas las pruebas disponibles, permite que el acusado
sea declarado inocente y por lo tanto no vaya a la cárcel.

Por otra parte, si se demuestra su culpabilidad mediante las pruebas disponibles, habrá condena y
se descarta la presunción de no culpabilidad.

En las pruebas de hipótesis La presunción de inocencia es la hipótesis nula y la de culpabilidad


es la hipótesis alterna.

En el ejemplo introductorio, la hipótesis nula es que el gasto promedio es 50 dolares por familia y
por semana, lo que implica que la no culpabilidad es µ = 50.
El investigador, en este caso el acusador recoge y presenta todas las pruebas posibles a partir de
la muestra. Si existen suciente evidencia para apoyar la hipótesis alterna que implica culpabilidad
demostrada con presunción rme, la decisión será rechazar la hipótesis nula y se concluirá el gasto
promedio en alimentos es distinto de 50 dolares.

En caso contrario, no se descarta la hipótesis nula y se considerará que el gasto promedio en


alimentos es igual a 50 dolares, lo cual es una decisión de no culpabilidad.

5.4. Procedimiento general de una prueba de hipótesis


En esta unidad se desarrollan procedimientos de pruebas de hipótesis para muchos problemas
prácticos.

Se recomienda utilizar los siguientes pasos para aplicar la metodología aquí desarrollada:

1. Del contexto del problema, identicar el parámetro de interés

2. Analizar las propiedades de la población

3. Establecer a hipótesis nula y especicar una apropiada hipótesis alternativa

4. Seleccionar un nivel de signicancia. Esto determina el o los puntos críticos


5. Establecer región de rechazo de la hipótesis nula

6. Calcular todas las cantidades muestrales necesarias, sustituirlas en la ecuación para el esta-
dístico de prueba y calcular el valor correspondiente

7. Decidir si debe o no rechazarse H0 y noticar esto en el contexto del problema.

5.5. Prueba de hipótesis para la media de una población


Si se tratar de probar alguna hipótesis referente a algún parámetro poblacional, una de las primeras
cuestiones que hay que tener en cuenta es la distribución de la población objetivo de la cual se
tomará la muestra para desarrollar el procedimiento.

Esto decidirá cuál es el estadístico de prueba que utilizaremos y cuál es su distribución de proba-
bilidad.

Al igual que en la estimación de la media de una población por medio de un intervalo de conanza,
pueden presentarse los siguientes casos a la hora de probar alguna hipótesis acerca de µ:

1. Que la población objetivo tenga distribución Normal y que además se conozca su varianza
σ2
2. Que la población tenga distribución Normal pero que no se conozca su varianza σ2
3. Que la población no tenga distribución Normal y que además su varianza σ2 sea desconocida

Además debe tenerse en cuenta si la muestra se tomará con o sin reposición de una población
nita. El tamaño de la muestra es otro factor que debe ser tenido en cuenta.

145
5.5.1. Población normal, varianza poblacional σ2 conocida
Analizamos a continuación cómo probar alguna hipótesis acerca de la media µ de una población
normal. Adicionalmente supondremos que la varianza de la población, σ2 es conocida.

Se trata de una situación poco frecuente pues la varianza poblacional es en general desconocida.
Sin embargo analizar este caso servirá como introducción de la técnica a casos más generales.

Desarrollo del procedimiento de la prueba


Supongamos que se quieran contrastar el siguiente par de hipótesis:

H0 : µ = µ0
̸ µ0
Ha : µ =

donde µ0 es una constante especíca. Además se tiene la información adicional de que la población
tiene distribución Normal y que se conoce su varianza σ2 .
Bajo estas condiciones el estadístico de prueba es la media muestral X̄ .
Bajo estas condiciones las distribuciones de muestreo que el estadístico de prueba Ep = X̄ también
distribución Normal con media µ0 (hasta que se demuestre lo contrario) y desviación estándar
σx̄ = √σ .
n
Podemos determinar las regiones de rechazo y no rechazo de la hipótesis nula utilizando estas
propiedades del estadístico de prueba.

Usualmente , aunque no necesariamente, se utiliza el valor estandarizado del estadístico de prueba.

Esto es, el procedimiento se utiliza como estadístico se prueba la variable aleatoria

X̄ − µ0
Z= √ (5.1)
σ/ n

En este caso, las regiones de rechazo y de no rechazo de H0 se determinan tal como se muestra en
la Figura (5.4).

Figura 5.4: Regiones de rechazo y de no rechazo de H0 . Prueba bilateral

La probabilidad de que un valor del estadístico de prueba Z caiga en la región de rechazo de la


α α
hipótesis nula es
2 + 2 = α mientras que la probabilidad de que un valor del estadístico de prueba
caiga en la región de no rechazo es igual a 1 − α.

Supongamos que se ja el nivel de signicación de la prueba en el valor α = 0, 05. Por lo tanto,
α
2 = 0, 025.

146
Evidentemente, una muestra que produce un valor del estadístico de prueba que caiga en algunas
de las colas de la distribución de Z será inusual (poco probable) si H0 : µ = µ0 .
Por lo tanto, de ocurrir esta situación, este resultado puede ser un indicador de que la hipótesis
nula es falsa.

Entonces, si z < −1., 96 o z > 1, 96 se rechaza la hipótesis nula. Por el contrario, si −1, 96 ≤ z ≤
1, 96 no se la rechaza pues es altamente probable que el valor del estadístico de prueba sea un valor
comprendido en esta región siendo la hipótesis nula verdadera.

Las regiones de rechazo y no rechazo de H0 puede escribirse en términos de los valores del estadístico
de prueba media muestral X̄ .
Entonces, se rechaza H0 si X̄ < x̄1 o si X̄ > x̄2 donde

√ 
x̄1 = µ0 − z σ/ n

√ 
x̄2 = µ0 + z σ/ n

En caso de que x̄1 ≤ X̄ ≤ x̄2 no se rechaza la hipótesis nula.

Ejemplo 5.1 Suponga que el jefe de producción de una fábrica de tejidos industriales necesita
determinar si una máquina recién adquirida produce cierto tipo de telas con las especicaciones
del fabricante de la máquina que arma que las telas fabricadas tienen una resistencia media a la
ruptura de 70 kilogramos y una desviación estándar de 3,5 kilogramos.
Una muestra aleatoria de 49 piezas revela una media muestral de 69,1 kilogramos.

1. Establezca las hipótesis nula y alternativa


2. ¾Existe evidencia estadística de que la máquina no cumple con las especicaciones del fabri-
cante respecto de la resistencia de la tela? Utilice un nivel de signicación igual a 0, 05

Solución

Primer punto

El jefe de producción quiere determinar si la máquina produce tales con una resistencia promedio
de ruptura de 70 kilogramos. Por lo tanto:

H0 : µ = 70
̸ 70
Ha : µ =

Tome α = 0, 05
Segundo punto

Podemos denir la variable objeto de estudio sde la siguiente manera:

X= Resistencia a la ruptura de las telas fabricadas por la nueva máquina

No se tiene información acerca de la distribución de X.


Para contratar las hipótesis nulas y alternas se toma una muestra de n = 49 piezas de tela y se
obtiene x̄ = 69, 10 kilogramos. Se sabe además que σ = 3, 5 kilogramos.
Como n > 30 entonces X̄ tiene distribución aproximadamente normal con media µ = 70 kilogramos
3,5
(hasta que se demuestre lo contrario) y una desviación estándar σx̄ = √ = 0, 5 si la hipótesis
49
nula es verdadera.

Consideremos com estadístico de prueba al valor estandarizado de X̄ , es decir, a la variable aleatoria

X̄ − µ0
Z= √
σ/ n

147
Como la probabilidad de cometer un error tipo I es α = 0, 05, los valores críticos del estadístico de
prueba son z1 = −1, 96 y z2 = 1, 96.
Toda es información se muestra el la Figura (5.5).

Figura 5.5: Regiones de rechazo y no rechazo para el Ejemplo (5.1)

De acuerdo con los datos del problema:

68, 10 − 70
z= = −1, 80
0, 5
Como el valor calculado del estadístico de prueba z = −1, 8 es un valor comprendido en el intervalo
real −1, 96 ≤ Z ≤ 1, 96 no se rechaza la hipótesis nula.

5.5.2. Enfoque del valor p para las pruebas de hipótesis


El enfoque o metodología que hemos visto para probar una hipótesis recibe el nombre de enfoque
del estadístico de prueba pues se utiliza un valor de un estadístico de prueba para rechazar o no
rechazar H0 .
Con el advenimiento de los paquetes estadísticos para computadoras, el concepto del valor p es un
nuevo enfoque para las pruebas de hipótesis que tiene una aceptación creciente.

Denición 5.6 El valor p en una prueba de hipótesis es la probabilidad de obtener un valor del
estadístico de prueba tan extremo o más que el obtenido a partir de los resultados muestrales, dado
que la hipótesis nula es verdadera.

La regla de decisión para rechazar H0 con el enfoque del valor p es:

Si el valor de p es mayor o igual que α, la hipótesis nula no se rechaza

Si el valor de p es menor que α la hipótesis nula se rechaza

Al determinar un valor p en una prueba de hipótesis se debe tener en cuenta si la prueba es


unilateral o bilateral.

Si la prueba es bilateral, los valores de p serán dos veces más grande de lo que serían en una prueba
unilateral puesto que habrá que tener en cuenta la posibilidad de obtener un valor extremo del
estadístico de prueba en cualquier dirección.

Veamos como obtener el valor p en el Ejemplo 5.1.

Recuerde que se quería probar la hipótesis H0 : µ = 70.


El valor calculado del estadístico de prueba fue z = −1, 8, valor que se encuentra en el intervalo
−1, 96 ≤ Z ≤ 1, 96. Como consecuencia de ello no rechazamos la hipótesis nula.

148
Ahora analizaremos el mismo problema, pero a partir del enfoque del valor p. Como la prueba es
bilateral, se quiere encontrar la probabilidad de hallar un valor del estadístico de prueba Z igual
o más extremo que ˘1, 8. Es decir, hay que calcular la probabilidad (área) de obtener un valor de
Z menor que ˘1, 8 más la probabilidad de obtener un valor de Z mayor a 1, 8.
Procediendo como sabemos:

Pr(Z ≤ −1, 8) = 0, 0359


Por otro lado

Pr(Z ≥ 1, 8) = 1 − Pr(Z < 1, 8) = 1 − 0, 9641 = 0, 0359


Así, el valor p para la prueba bilateral es 0, 0359 + 0, 0359 = 0, 0718. Como este valor es mayor que
0, 05, la hipótesis nula no se rechaza.

5.5.3. Relación entre las pruebas de hipótesis y los intervalos de con-


anza
Existe una relación muy estrecha entre las pruebas de hipótesis y los intervalos de conanza que
pueden determinarse para estimar un parámetro poblacional.

Si [LIC ≤ θ ≤ LSC] es un intervalo de conanza del (1 − α)100 % para el parámetro θ, entonces


la prueba

H0 : θ = θ0
̸ θ0
Ha : θ =
con un nivel de signicación α conduce al rechazo de la hipótesis nula si y solo si θ0 no está en el
intervalo de conanza [LIC; LSC].
Volvamos a los datos del Ejemplo 5.1

De acuerdo con los resultados de este ejemplo no se rechaza H0 : µ = 70 utilizando un nivel de


signicación α = 0, 05.
El intervalo de conanza bilateral del 95 % para µ con los datos del problema se construye de la
siguiente manera:

√ 
x̄0 ± 1, 96 σ/ n
O sea:

69, 10 ± 1, 96(0, 5)
Finalmente:

C(68, 12 ≤ µ ≤ 70, 08) = 0, 95


Puesto que µ = 70 está incluido en el intervalo, entonces no se puede rechazar la hipótesis nula.

Observación 5.1 Este razonamiento se aplica solamente a pruebas de hipótesis bilaterales.

5.5.4. Pruebas de hipótesis sobre la media de una población de varianza


desconocida
Al desarrollar las ideas acerca de las pruebas de hipótesis para la media de una población, hemos
supuesto que la varianza poblacional era conocida.

Resulta que en la mayoría de las situaciones prácticas, la varianza poblacional σ2 es desconocida


y habrá que estimarla. Generalmente se la estima por medio de la varianza muestral S2

149
Cuando la varianza poblacional es desconocida pueden presentarse las siguientes situaciones:

Que la muestra tomada de la población sea grande (n ≥ 30)

Que no se pueda tomar una muestra grande de la población

En general, cuando la muestra que se toma de la población es grande, entonces la varianza muestral
S2 tomará un valor muy próximo al de la varianza poblacional desconocida σ2 .
Por lo tanto, es posible sustituir el valor de S por σ en los procedimientos de pruebas de hipótesis
con muy pocos resultados adversos.

En casos como estos, puede utilizarse como estadístico de prueba al estadístico

X̄ − µ0
Z= √
S/ n

que, como ya sabemos, tendrá distribución aproximadamente Normal para muestras grandes.

El estudio de las pruebas de hipótesis en las cuales la varianza poblacional σ2 es desconocida y la


muestra n es pequeña implica el uso de la distribución t de Student como veremos a continuación.

Cuando la varianza de la población objetivo es desconocida y no se puede tomar muestras grandes,


es necesario suponer adicionalmente de que la población tiene distribución Normal.

Desarrollo del procedimiento de la prueba


Suponga que cierta población de interés tiene distribución Normal con media µ y varianza σ2
desconocidas.

Se desea probar la hipótesis nula H0 : µ = µ0 .


Suponga que se toma una muestra aleatoria de tamaño n de la población. Sean X̄ y S2 la media
y la varianza muestrales respectivamente.

Se quiere probar la hipótesis bilateral

H0 : µ = µ0
̸ µ0
Ha : µ =

el procedimiento de la prueba se basa en el estadístico

X̄ − µ0
T = √ (5.2)
S n

Puede demostrarse que si la muestra se toma de una población Normal, el estadístico T tiene
distribución t de Student con k =n−1 grados de libertad.

Para probar H0 : µ = µ0 se calcula el valor del estadístico de prueba con la Fórmula (5.2) y se
rechaza H0 T < −t o si T > t donde las cantidades ±t son valores de la variable aleatoria T
si
ubicados simétricamente alrededor de E(T ) = 0 para los grados de libertad correspondientes.

Por el contrario, si −t ≤ T ≤ no se rechaza la hipótesis nula.

Para la hipótesis alternativa unilateral derecha

H0 : µ ≤ µ0
Ha : µ > µ 0

toda la probabilidad de cometer un error del tipo I o nivel de signicación de la prueba α se ubica
en la cola superior de la distribución de probabilidad del estadístico de prueba tal como se muestra
en la Figura (5.6). Se rechaza la hipótesis nula si T > t.

150
Figura 5.6: Prueba de hipótesis unilateral derecha

Para la hipótesis alternativa unilateral izquierda

H0 : µ ≥ µ0
Ha : µ < µ

toda la probabilidad de cometer un error del tipo I o nivel de signicación de la prueba α se ubica
en la cola inferior de la distribución de probabilidad del estadístico de prueba tal como se muestra
en la Figura (5.7).

Figura 5.7: Prueba de hipótesis unilateral izquierda

Ejemplo 5.2 En el mes de febrero del año pasado el costo promedio de un viaje en avión a cierta
ciudad era de 258 dólares. En una muestra de 15 boletos de distintas compañías se obtuvieron los
siguientes costos actuales:

310 260 265 255 300 310 230 250


265 280 290 240 285 250 260

Tabla 5.2: Datos para el Ejemplo 5.2

Usando α = 0, 05 determine si el costo promedio de un viaje en avión ha aumentado al día de la


fecha.
Suponga que la variable aleatoria X = Costo de un pasaje en avión ida y vuelta a aumentado tiene
distribución Normal.

151
Solución

Las hipótesis a contrastar son las siguientes:

H0 : µ = 258
Ha : µ > 258
Como la población tiene distribución Normal, se desconoce su varianza y n < 30 el estadístico de
prueba es:

X̄ − µ0
T = √
S/ n
Como la población de la cual se toma la muestra tiene distribución normal, la variable aleatoria T
tendrá distribución t de Student con k = 14 grados de libertad.

Utilizando los datos muestrales tendremos:

P15
i=1 xi 310 + 260 + · · · + 250 + 260
x̄ = = = 270
15 15
Por otro lado

P15
− x̄)2
i=1 (xi (310 − 270)2 + (260 − 270)2 + · · · + (260 − 270)2
s2 = = = 612, 56
15 − 1 14

Por lo tanto, s = 612, 56 = 24, 78
De acuerdo con las hipótesis planteadas se trata de una prueba unilateral derecha con región de
rechazo en la cola superior de la distribución de T.
El valor crítico del estadístico de prueba se lo busca en la tabla de la distribución t con 14 grados
de libertad siendo este valor el que acumula el 95 por ciento del área bajo la curva a su izquierda.

Esta información se muestra en la Figura (5.8)

Figura 5.8: Datos para el Ejemplo 5.2

El valor crítico del estadístico de prueba es t = 1, 7613


El valor calculado del estadístico de prueba es

270 − 258
t= √ = 1, 875
24, 78/ 15
Como el valor calculado del estadístico de prueba es mayor que su valor crítico se rechaza la
hipótesis nula y concluimos que el costo promedio del pasaje en avión a aumentado.

152
5.6. Prueba de hipótesis para una proporción poblacional
En muchas situaciones de la práctica será necesario tomar una decisión acerca del valor de la
proporción de una población.

En el capítulo anterior de este material vimos como puede estimarse p puntualmente o por medio
de un intervalo de conanza.

En este capítulo veremos el procedimiento de prueba de hipótesis que puede realizarse para tomar
alguna decisión sobre cierta hipótesis estadística realizada sobre la proporción de una población.

Cuando se trata de muestras grandes se puede utilizar la distribución Normal y la metodología


es similar a la utilizada para probar hipótesis sobre medias poblacionales en poblaciones normales
con varianza conocida.

Como en el caso de las pruebas de hipótesis para la media de una población existen para p pruebas
bilaterales y unilaterales.

Por ejemplo, el siguiente par de hipótesis

H0 : p = p0
̸ p0
Ha : p =

generan un procedimiento de prueba bilateral con regiones de rechazo de H0 en las colas inferior
y superior de la distribución de probabilidad del estadístico de prueba.

Por otro lado, el par de hipótesis

H0 : p ≤ p0
Ha : p > p0

generan un procedimiento de prueba de hipótesis unilateral derecha con región de rechazo de la


hipótesis nula en la cola superior de la distribución de probabilidad del estadístico de prueba.

Finalmente, el par de hipótesis

H0 : p ≥ p0
Ha : p < p0

generan un procedimiento de prueba de hipótesis unilateral izquierda con región de rechazo en la


cola inferior de la distribución de probabilidad del estadístico de prueba.

En todos los casos el estadístico de prueba es:

P̄ − p0
Z=p (5.3)
p0 q0 /n
donde p0 es el valor de la proporción poblacional propuesta en la hipótesis nula y q0 = 1 − p0 .
Puede demostrarse que si los productos np0 y nq0 son ambos mayores que 5 el estadístico de prueba
tendrá distribución aproximadamente normal estándar.

Ejemplo 5.3 Se cree que al menos el 60 % de los habitantes de una ciudad están a favor del
adelante de la hora local en 60 minutos. Se tomó una muestra de 200 habitantes de la ciudad y
se encontró que 110 estuvieron de acuerdo con el adelanto. ¾Qué puede decirse, según estos datos,
acerca del porcentaje real de los ciudadanos que están de acuerdo con el adelanto de la hora. Tome
α = 0, 05

Solución

Los datos para este ejemplo son los siguientes:

Tamaño de la muestra n = 200. Número de éxitos en la muestra x = 110. Por lo tanto:

110
p̄ = = 0, 55
200

153
Las hipótesis correspondientes son las siguientes:

H0 : p ≥ 0, 60
Ha : p < 0.60

El nivel de signicación de la prueba es α = 0, 05.


Como los productos np0 = 200(0, 60) = 120 y nq0 = 200(0, 40) = 80 son ambos mayores a 5, el
estadístico de prueba

P̄ − p0
Z=p
p0 q0 /n
tiene distribución aproximadamente Normal Estándar.

Se trata de una prueba unilateral izquierda con región de rechazo de la hipótesis nula en la cola
inferior de la distribución de probabilidad del estadístico de prueba. El valor crítico del estadístico
de prueba es z = −1.65 aproximadamente.

Por lo tanto se rechazará la hipótesis nula si el valor calculado del estadístico de prueba es menor
que su valor crítico. En caso contrario no se rechazará la hipótesis nula.

El valor calculado del estadístico de prueba es:

0, 55 − 0, 60
z=p = −1, 44
(0, 60)(0, 40)/200
Como este valor es mayor que su valor crítico no se rechaza la hipótesis nula.

5.7. Prueba de hipótesis para la varianza de una población


A continuación se presenta un procedimiento para probar hipótesis acerca de la varianza σ2 de una
población que tiene distribución normal.

Suponga de que se quiera probar la hipótesis de que la varianza de un población con distribución
Normal es igual a cierto valor especíco, por ejemplo σ02 . Sea X1 , X2 , ..., Xn una muestra aleatoria
de n observaciones tomadas de la población.

Para contrastar las hipótesis

H0 : σ 2 = σ02
Ha : σ 2 =
̸ σ02
(n−1)S 2
se utiliza como estadístico de prueba la variable aleatoria χ20 = σ02
donde S2 es la varianza

muestral.

Como se sabe, si la población de la cual se toma la muestra tiene distribución Normal la aleatoria
χ2 tiene distribución Chi cuadrado con k =n−1 grados de libertad.

En este caso se trata de una prueba de hipótesis bilateral con regiones de rechazo en las colas
inferior y superior de la distribución de probabilidad del estadístico de prueba tal como se muestra
en la Figura (5.9).

O sea, no se rechaza la hipótesis nula si χ21 ≤ χ20 ≤ χ22 . Por el contrario, si χ20 ≤ χ21 o χ20 ≥ χ22 se
la rechaza.

Los valores crítico del estadístico se determinan de acuerdo con el nivel de signicación α de la
prueba y los grados de libertad correspondientes.

El mismo estadístico de prueba se utiliza para hipótesis alternativas unilaterales.

Para la prueba de hipótesis unilateral derecha

H0 : σ 2 ≤ σ02
Ha : σ 2 > σ02

154
Figura 5.9: Regiones de rechazo y no rechazo de H0

se rechaza la hipótesis nula si χ20 > χ2c donde χ2c es el valor crítico del estadístico de prueba que
acumula el (1−α)100 % del área total bajo la curva a su izquierda tal como se muestra en la Figura
(5.10).

Figura 5.10: Prueba unilateral derecha

Para la prueba de hipótesis unilateral izquierda

H0 : σ 2 ≥ σ02
Ha : σ 2 < σ02

se rechaza la hipótesis nula si χ20 < χ2c donde χ2c es el valor crítico del estadístico de prueba que
acumula el α% del área bajo la curva a su derecha tal como se muestra en la Figura (5.11).

155
Figura 5.11: Prueba unilateral izquierda

Ejemplo 5.4 La desviación estándar de cierto proceso de producción debe ser de 4 pulgadas o
menos.2 Para probar esta armación se toma una muestra de nueva partes producidas en el proceso
y sus medidas fueron 5, 7, 2, 4, 8, 9, 8, 6 y 5 pulgadas respectivamente. Pruebe la hipótesis de que el
proceso cumple con los estándares requeridos. Sea α = 0, 01

Solución

De acuerdo con el enunciado las hipótesis nula y alterna son las siguientes:

H0 : σ 2 ≤ 16
Ha : σ 2 > 16

El estadístico de prueba es

(n − 1)S 2
Ep =
σ02

Si la muestra se toma de una oblación con distribución Normal, el estadístico de prueba tiene
distribución Chi cuadrado con 9−1=8 grados de libertad.

Se trata de de una prueba unilateral derecha con región de rechazo en la cola superior de la
distribución de probabilidad de Ep tal como se muestra en la Figura (5.10).

Con los datos de la muestra podemos calcular s2 de la siguiente manera:

Primero calculamos la media x̄:

5 + 7 + 2 + ··· + 5
x̄ = =6
9

Por lo tanto

(5 − 6)2 + (7 − 6)2 + · · · + (5 − 6)2


s2 = =5
9−1

Por lo tanto, el valor del estadístico de prueba es:


8×5
Ep = 16 = 2, 5
Como el valor calculado del estadístico de prueba es menor que su valor crítico no se rechaza la
hipótesis nula. Es decir no se rechaza H0 : σ 2 ≤ 16.
2 Una pulgadas es igual a 2,5 cm aproximadamente

156
Figura 5.12: Datos para el Ejemplo 5.4

5.8. Prueba de hipótesis para el coeciente de correlación


lineal de Pearson
En el primer capítulo de este material se denió e interpretó el coeciente de correlación lineal de
Pearson ρ.
Recordemos que ρ X e Y.
mide la fuerza de la relación lineal entre dos variables cuantitativas

También vimos que ρ es un parámetros poblacional en general desconocido que puede estimarse por
medio de r, el coeciente de correlación muestral que se calcula a partir de pares de observaciones
(x, y) tomadas de las variables X e Y.
A partir del valor de r se pueden realizar inferencias sobre el valor del parámetro ρ como lo hicimos
con la media, la proporción y la varianza poblacional.

En este material solo se analiza como se prueban hipótesis acerca de la correlación entre las variables
X e Y.
Las pruebas de hipótesis sobre el coeciente de correlación pueden ser unilaterales y bilaterales.

Por ejemplo, una prueba puede ser la siguiente:

H0 : ρ = 0
̸ 0
Ha : ρ =

En este caso se trata de probar si hay una correlación signicativamente distinta de cero entre las
variables.

Pueden realizarse pruebas unilaterales como las siguientes:

H0 : ρ ≤ 0
Ha : ρ > 0

En este caso tendremos una prueba unilateral derecha.

Finalmente se pueden contrastar el siguiente par de hipótesis:

H0 : ρ ≥ 0
Ha : ρ < 0

Se trata en este caso de una prueba unilateral derecha.

157
En todos los casos, el estadístico de prueba es:


r n−2
Ep = √ (5.4)
1 − r2
Puede demostrarse que si las variable X e Y tiene ambas distribución Normal, el estadístico de
prueba Ep tiene distribución t con n − 2 grados de libertad, siendo n el número de pares ordenados
que integran la muestra.

Si α es el nivel de signicación de la prueba, entonces H0 : ρ = 0 se rechaza si el valor calculado


del estadístico de prueba es menor que −t t donde los valores ±t se ubican simétri-
o mayor que
camente respecto de E(T ) = 0 y quedan determinados por el valor de α y los grados de libertad
correspondientes.

La hipótesis nula H0 : ρ ≥ 0 se rechaza si el valor calculado del estadístico de prueba es menor que
el valor de −t ubicado en la cola inferior de la distribución del estadístico de prueba determinado
por el valor de α y los grados de libertad correspondientes.

La hipótesis nula H0 : ρ ≤ 0 se rechaza si el valor calculado de estadístico de prueba es mayor que


el valor t ubicado en la cola superior de la distribución del estadístico de prueba determinado por
el valor de α y los grados de libertad correspondientes.

Analicemos el siguiente ejemplo.

Ejemplo 5.5 Un grupo de inversionistas interesados en la adquisición de un comercio examinaron


los volúmenes de ventas trimestrales y los gastos en publicidad durante los últimos 12 trimestres
del comercio en cuestión. Los datos obtenidos se muestran en la Tabla (5.3). Las cantidades están
medidas en dólares.

1. Utilice los datos de la Tabla (5.3) para calcular el coeciente de correlación muestral r
2. Realice una prueba unilateral apropiada para ρ con un nivel de signicación igual a 0.05

Trimestre Publicidad X Ventas Y


1 10 50
2 12 71
3 14 80
4 15 90
5 12 62
6 13 68
7 14 92
8 16 106
9 1 65
10 15 76
11 17 85
12 19 12

Tabla 5.3: Datos para el Ejemplo 5.5

Solución

En la Figura (5.13) se presenta el diagrama de dispersión de las variables gastos en publicidad X


y ventas posteriores Y. Las dos cantidades expresadas en miles de dólares.

A partir de la Figura (5.13) puede verse que existe una fuerte relación positiva entre las variables
Publicidad y Ventas.

Primer punto

En el Capítulo 1 vimos que una de las formas de calcular el coeciente de correlación lineal muestral
es a partir de la Ecuación (5.5).

158
Figura 5.13: Publicidad vs Ventas

Pn Pn
i=1 xi i=1 yi
Pn
i=1 xi yi −
r= r r (5.5)
Pn 2 Pn 2
2 − ( i=1 xi ) 2 − ( i=1 yi )
Pn Pn
x
i=1 i n y
i=1 i n

En la Tabla (5.4) se presentan los cálculos auxiliares necesarios para determinar el valor de r.

Trimestre x y x2 y2 xy
1 10 50 100 2.500 500
2 12 70 144 4.900 840
3 14 80 196 6.400 1.120
4 15 90 225 8.100 1.350
5 12 62 144 3.844 744
6 13 68 169 4.624 884
7 14 92 196 8.464 1.288
8 16 106 256 11.236 1.696
9 14 65 196 4.225 910
10 15 76 225 5.776 1.140
1 17 85 289 7.225 1.445
12 19 110 361 12.100 2.090
Total 171 954 2.501 79.394 14.007

Tabla 5.4: Datos para el Ejemplo (5.5)

A partir de la información suministrada por la Tabla (5.4) podemos calcular las siguientes canti-
dades:
P12 P12 P12 P12
i=1 xi = 171; i=1 yi = 954, i=1 x2i = 2.501; i=1 yi2 = 79.394; nalmente
P2
i=1 xi yi = 14.007.
Por lo tanto:

14.007 − (171)(954)
r= q q 12 = 0, 863
1712 9542
2.501 − 12 79.397 − 12

159
Segundo punto

Las hipótesis correspondientes aon las siguientes:

H0 : ρ ≤ 0
Ha : ρ > 0

Asumiendo que las variables X e Y tienen ambas distribución normal el estadístico de prueba es


r n−2
Ep = √
1 − r2
Como las variable X e Y tienen distribución Normal, entonces Ep tiene distribución t de Student
con k =n−2 grados de libertad.

Además como el nivel de signicación de la prueba es α = 0, 05 se rechazará la hipótesis nula si


Ep > 1, 8125.
De acuerdo con los datos y los cálculos realizados


0, 863 12 − 2
Ep = p = 5, 40
1 − 0, 8632
Como el valor calculado del estadístico de prueba es mayor que su valor crítico rechazamos H0 :
ρ≤0 con α = 0, 05.

160
Capítulo 6

Regresión y Correlación Lineal

Simple

6.1. Introducción
En muchas situaciones prácticas, el encargado de tomar decisiones dentro de una empresa o insti-
tución puede estar interesado en cuanticar la relación entre dos variables.

Por ejemplo, luego de estudiar la relación entre los gastos mensuales en publicidad y las ventas
posteriores, el administrador de una empresa podría tratar de encontrar una expresión matemática
que pueda utilizarse para predecir las ventas en función de los gastos en publicidad.

En otro caso, el gerente de una empresa distribuidora de electricidad puede estar interesado en
estudiar la relación entre la temperatura en los días de verano y el consumo de uido eléctrico
diario con el objetivo de poder predecir el consumo en función de la temperatura.

Algunas veces estas predicciones se basan en la intuición o experiencia del pronosticador. Sin
embargo, si es posible obtener datos, se puede emplear un procedimiento llamado análisis de
regresión con el n de encontrar una ecuación que exprese como se relacionan dos variables entre
sí. Esto permitirá realizar estimaciones más conables.

En este modelo, la variable cuyos valores se quiere predecir o pronosticar recibe el nombre de
variable dependiente. La o las variables que se utilizan para predecir los valores de la variable
dependiente se denominan variables independientes, explicativas o predictoras.
En el primer ejemplo, la variable dependiente podría llamarse Ventas y la variable independiente
gastos mensuales en publicidad .

En el segundo ejemplo, la variable dependiente podría denominarse consumo diario de electri-


cidad y la variable independiente temperatura.

Es usual denominar y a la variable dependiente y x a la independiente.

En esta unidad estudiaremos el modelo más sencillos de regresión en el cuál intervienen una variable
independiente y una dependiente y la relación entre ellas se aproxima mediante una línea recta.

Este modelo recibe el nombre de modelo de regresión lineal simple. En modelo en el cual intervienen
dos o más variables independientes recibe el nombre de modelo de regresión lineal múltiple y no
será abordado en este material.

6.2. El modelo probabilístico de regresión lineal simple


Con el n de introducir los principales conceptos del modelo de regresión lineal simple consideremos
la siguiente situación hipotética:

El administrador de un comercio dedicado a las ventas de productos deportivos desea poder predecir
las ventas mensuales en miles de dólares en función de la inversión realizada en publicidad.

161
Como variable independiente o predictora utilizará los gastos mensuales en publicidad.
El análisis tiene como objetivo investigar si existe alguna relación entre lo gastado en publicidad
y las ventas posteriores. Además, de existir esta relación, encontrar una ecuación que permita
predecir las ventas(y) en función de lo gastado en publicidad (x).
Los datos de la Tabla (6.1) muestra una lista de los gastos en publicidad y los volúmenes de ventas
posteriores durante los 10 meses en los cuales se realizó la campaña publicitaria.

Mes Publicidad Ventas


1 1,2 101
2 0,8 92
3 1,0 110
4 1,3 120
5 0,7 90
6 0,8 82
7 1,0 93
8 0,6 75
9 0,9 91
10 1,1 105

Tabla 6.1: Publicidad vs Ventas en miles de dólares

El primer análisis que se recomienda realizar este tipo de problemas consiste en representar el
conjunto de datos en un diagrama de dispersión.

En el eje horizontal se registran los valores de la variable independiente, y en el eje vertical los
valores de la variable dependiente.

En la Figura (6.1) se muestra el diagrama de dispersión correspondiente a las variables utilizadas


en el ejemplo.

Figura 6.1: Gastos en publicidad y ventas posteriores

En la Figura (6.1) puede observarse que hay una relación positiva entre las variables estudiadas
de manera que valores bajos de la variable independiente están relacionados con valores bajo de la
dependiente y que valores altos de la variable independiente se relacionan con valores altos de la
dependiente.

6.3. El modelo de regresión y la ecuación de regresión


Hemos visto en la sección anterior que el diagrama de dispersión para las variables publicidad y
ventas muestra una relación positiva entre los dos factores.

162
Además, una línea recta de pendiente positiva parece describir la relación entre las mismas.

Mucho nos gustaría describir la relación entre x e y mediante la ecuación y = β0 +β1 x . Sin embargo,
este modelo no es correcto pues los puntos del diagrama de dispersión no están perfectamente
alineados.

En situaciones como estas, es más correcto considerar el modelo

y = β0 + β1 x + ε (6.1)

para describir la relación entre las variables publicidad y ventas.

En este modelo, y es una función lineal de x (la parte β0 + β1 x) más la variable aleatoria ε.
Las constantes β0 y β1 son los parámetros del modelo y ε es una variable aleatoria llamada término
del error que recoge la variabilidad en y que no puede ser explicada con la relación lineal entre x
e y.
Si ε = 0 para todos los valores de x, los puntos en el diagrama de dispersión estarían ubicados
sobre una misma línea recta.

Un poco más adelante analizaremos los supuestos o condiciones bajo las cuales se puede aplicar el
modelo de regresión lineal simple.

Una de esas condiciones es que E(ε) = 0, es decir, la media o valor esperado del término del error
es igual a cero. ¾Que consecuencias tiene esta condición en el modelo?

Si se analiza la expresión que dene el modelo de regresión lineal simple y = β0 + β1 x + ε . Tanto


β0 como β1 son parámetros del modelo y en general constantes desconocidas. Además los valores
de x son jados por el investigador, es decir, tampoco es una variable aleatoria.

En consecuencia, la variable dependiente y es función de la variable aleatoria ε. Por lo tanto, y


también es una variable aleatoria.
1

Por lo tanto:

E(y) = E(β0 + β1 x + ε) = E(β0 ) + E(β1 x) + E(ε)

Entonces, si E(ε) = 0 resulta que:

E(y) = β0 + β1 x (6.2)

Hemos demostrado de esta manera que el valor medio de la variable dependiente y es una función
lineal de la variable independiente x.
La Ecuación 6.2 recibe el nombre de ecuación de regresión lineal simple. Se trata de la ecuación
de una línea recta en la cual β0 es la ordenada al origen y β1 su pendiente.

La Ecuación (6.2) indica cómo se relacionan los valores medios de y para cada uno de los valores
de la variable independiente x.

6.3.1. La ecuación estimada de regresión


Si se conocieran los valares de los parámetros β0 y β1 se podría utilizar la ecuaciónE(y) = β0 +β1 x
para calcular el valor medio de y para valores predeterminados de x. En nuestro ejemplo, se podría
calcular las ventas medias para cada monto de inversión publicitaria.

En la práctica, los valores de β0 y β1 se desconocen y debe ser estimados a partir de una muestra
de pares de observaciones (xi , yi ). Las estimaciones de los parámetros β0 y β1 se simbolizan βˆ0 y
βˆ1 respectivamente.

Al reemplazar estos valores en la Ecuación 6.2 se obtiene la ecuación

ŷ = βˆ0 + βˆ1 x (6.3)

1 Recuerde que una función de una variable aleatoria es a su vez una variable aleatoria

163
La Ecuación (6.3) recibe el nombre de ecuación estimada de regresión o modelo estimado.
En la sección siguiente se muestra como se la determina.

6.4. Principio de mínimos cuadrados


El principio de mínimos cuadrados se utiliza para encontrar la recta que mejor se ajuste al conjunto
de observaciones en un problema de regresión lineal simple.

El procedimiento es una formalización del criterio que se utilizaría si se quiere realizar el ajuste
utilizando una regla. Si se trata de ajustar visualmente los puntos del diagrama de dispersión con
una regla, se la moverá hasta que se piense que se ha logrado minimizar las desviaciones verticales
de los puntos del diagrama de dispersión a la recta. Grácamente este concepto se muestra en la
Figura 6.2.

Figura 6.2: Búsqueda de la recte de mejor ajuste

La diferencia entre el valor observado de y y su valor estimado sobre la recta ŷi recibe el nombre
de i ésimo residual y se lo expresa de la siguiente manera:

yi − ŷi (6.4)

donde ŷi = βˆ0 + βˆ1 xi .


Existen varias maneras objetivas de encontrar la ecuación de esta recta. El criterio que utilizaremos
es razonable y objetivo y que bajo ciertas condiciones dará buenas predicciones de y para valores
determinados de x.
Para encontrar la recta de mejor ajuste utilizaremos el principio de mínimos cuadrados que se
establece de la siguiente manera:

Elija como recta de mejor ajuste a la que minimice la suma de los cuadrados de las desviaciones
entre los valores observados yi y los valores estimados ŷi de la variable dependiente

Matemáticamente el criterio de mínimos cuadrados se establece de la siguiente manera:

Hallar la recta de mejor ajuste minimizando la suma de cuadrado de los errores SCE donde

n
X
SCE = (yi − ŷi )2 (6.5)
i=1

164
Como ŷi = βˆ0 + βˆ1 xi podemos reescribir la Ecuación 6.5 de la siguiente manera:

n h
X i2
SCE = yi − (β̂0 + β̂1 xi ) (6.6)
i=1

Para hallar los valores de βˆ0 y βˆ1 que minimicen la suma de cuadrados del error se utilizan las
técnicas de optimización del Análisis Matemático.

Las soluciones obtenidas son las siguientes:

SCxy
β̂1 = (6.7)
SCx
y

βˆ0 = ȳ − βˆ1 x̄ (6.8)

Donde:

n n Pn Pn
X X ( i=1 xi ) ( i=1 yi )
SCxy = (xi − x̄)(yi − ȳ) = xi yi − (6.9)
i=1 i=1
n

n n Pn 2
X
2
X ( xi )
SCx = (xi − x̄) = x2i − i=1
(6.10)
i=1 i=1
n

Una vez que se hayan calculado βˆ0 y βˆ1 se determina la recta de mínimos cuadrados ŷ = βˆ0 + βˆ1 x
o modelo estimado.

En la Tabla (6.2) se muestran los cálculos auxiliares necesarios para hallar los valores de βˆ0 y βˆ1 .

Mes xi yi xi y x2i yi2


1 1,2 101 121,2 1,44 10.201
2 0,8 92 73,6 0,64 8.464
3 1,0 110 110 1,00 12.100
4 1,3 120 156 1,69 14.400
5 0,7 90 63,0 0,49 8.100
6 0,8 82 65,6 0,64 6.724
7 1,0 93 93,0 1,00 8.649
8 0,6 75 45,0 0,36 5.625
9 0,9 91 81,9 0,81 8.281
10 1,1 105 115,5 1,21 11.025
Total 9,4 959 924,8 9,28 93.569

Tabla 6.2: Cálculos auxiliares

Por lo tanto:

n Pn Pn
X ( i=1 xi ) ( i=1 yi ) (9, 4)(959)
SCxy = xi yi − = 924, 8 − = 23, 34
i=1
n 10

n Pn 2
X ( xi ) 9, 42
SCx = x2i − i=1
= 9, 28 − = 0, 444
i=1
n 10
Pn
i=1 xi 9, 4
x̄ = = = 0, 94
n 10

165
Pn
i=1 yi 959
ȳ = = = 95, 9
n 10
Luego:

23, 34
β̂1 = = 52, 57
0, 444
Finalmente:

β̂0 = 0, 94 − (52, 57)(0, 94) = 46, 49


De acuerdo con el principio de mínimos cuadrados, la línea recta de mejor ajuste que relaciona los
gastos en publicidad y las ventas posteriores es la siguiente:

ŷ = 46, 49 + 52, 57x (6.11)

El diagrama de dispersión original y la recta de mejor ajuste bajo el criterio de mínimos cuadrados
se muestra en la Figura (6.3)

Figura 6.3: Recta de mejor ajuste. Publicidad Vs Ventas

Analizando la información suministrada en la Tabla (6.2) puede verse que cuando los gastos en
publicidad se jaron en x4 = 1 300 dólares (cuarto renglón de la tabla) las ventas posteriores fueron
y4 = 120 000 dólares. Este último es valor observado de la variable dependiente correspondiente a
x4
Utilicemos ahora la ecuación de la recta ŷ para predecir el valor de y cuando x4 = 1 300 dólares.

En este caso:

ŷ4 = 46, 49 + 52, 57(1, 3) = 114, 831


Es decir ŷ = 114 831 dólares.
La diferencia 120 000 − 114 831 = 5 169 dólares. Esta diferencia es el cuarto residuo.

Está claro que no vamos a estimar un valor de la variable dependiente que gure como dato. Los
cálculos realizados tiene por objetivo mostrar cómo se utiliza la recta de regresión estimada y de
paso aclarar el concepto de residuo.

Por otro lado debe tenerse siempre el cuidado de utilizar la recta de mejor ajuste ŷ para predecir
valores de la variable dependiente y en el rango de los valores de x que guran como datos. En
nuestro ejemplo es el intervalo [0, 6 ≤ x ≤ 1, 3].

166
Se pone esta restricción pues en este intervalo la relación entre las variables gastos en publicidad y
ventas posteriores tiene una relación lineal.

Más allá del intervalo [0, 6 ≤ x ≤ 1, 3] no sabemos cuál es la relación entre las variables y resulta
riesgos, sin información adicional, extrapolar los resultados.

6.5. Coeciente de determinación


En el ejemplo que estamos analizando dedujimos la ecuación de regresión estimada ŷ = 46, 49 +
52, 57x para aproximar la relación lineal entre los gastos mensuales en publicidad y el volumen de
ventas.

El siguiente paso es el de determinar la idoneidad del modelo estimado, es decir, averiguar lo bien
que se ajusta esta recta a las observaciones.

Deniremos e interpretaremos seguidamente el el coeciente de determinación como una media de


bondad de ajuste para la ecuación de regresión estimada ŷ
Hemos visto que para la i - ésima observación de la muestra utilizad para estimar los parámetros
β0 y β1 , la desviación entre el valor observado de la variable dependiente yi y el valor estimado ŷi
recibe el nombre de i - ésimo residual. Representa el error que se comete al utilizar ŷi para estimar
yi .
La suma de cuadrados de estos residuales o errores es la cantidad que se minimiza con el método
de mínimos cuadrados.

Esta cantidad recibe el nombre de suma de cuadrado del error y que denimos de la siguiente
manera:

n
X
SCE = (yi − ŷi )2
i=1

Su valor es una medida del error que se comete al usar la ecuación de regresión estimada para
predecir los los valores de la variable dependiente.

A partir de una transformación algebraica es posible demostrar que:

SCE = SCy − β̂1 SCxy (6.12)

donde

n n Pn 2
X X ( i=1 yi )
SCy = (yi − ȳ)2 = yi2 − (6.13)
i=1 i=1
n

Para nuestro ejemplo

9592
SCy = 93.567 − = 1.600, 9
10
Como SCxy = 23, 34, entonces

SCE = 1.600, 9 − (52, 57)(23, 34) = 373, 92

Supongamos que se quieran estimar las ventas sin tener en cuenta los gastos en publicidad.

Sin conocer los gastos en publicidad, puede utilizarse la media muestral de la variable ventas
mensuales como estimación de las ventas, desconociendo los gastos mensuales en publicidad.

Por lo tanto:

P10
i=1 yi 959
ȳ = = = 95, 9
10 10

167
Es decir, si no se conociera la variable gastos en publicidad estimaríamos una venta mensual
promedio de unos 95 900 dólares mensuales.

Para la i - ésima observación, la diferencia yi − ȳ suministra una media del error que se comete al
utilizar solamente ȳ para estimar las ventas.

A la suma de los cuadros de estas diferencias se se la denomina suma total de cuadrados y se al


simboliza ST C . Es decir:

n
X
ST C = (yi − ȳ)2 (6.14)
i=1

Pn 2
Pn 2 ( i=1 yi )
Puede demostrarse que ST C = i=1 yi − n . Su valor ya fue calculado con anterioridad.
Es así que ST C = 1.006, 9.
La Figura (6.4) puede ayudar a comprender que se mide con cada una de estas sumas de cuadrados.

Figura 6.4: Sumas de cuadrados

Podemos decir entonces que ST C es una media de la dispersión de los valores de la variable
ventas mensuales ȳ mientras que SCE es una medida de la dispersión de las
respecto de la media
observaciones respecto de la recta ŷ .
De acuerdo con nuestros cálculos SCE = 373, 92 y ST C = 1.600, 9. Por lo tanto se comete menos
error al utilizar la recta ŷ = βˆ0 + βˆ1 x que la media ȳ para estimar los valores de la variable
dependiente.
Dicho de otra manera, los valores de la variable dependiente y se encuentran más agrupados en
torno de la recta ŷ que de la recta ȳ .
Para cuanticar cuánto se desvían los valores de y medidos sobre la línea de regresión de la recta
ȳ se calcula otra suma de cuadrados denominada suma d cuadrados debida a la regresión que se
simboliza SCR y que se calcula de la siguiente manera:

n
X (SCxy )2
SCR = (ŷi − ȳ)2 = (6.15)
i=1
SCx

Para nuestro ejemplo:

168
(23, 34)2
SCR = = 1.226, 927
0, 444

6.5.1. Relación entre SCT, SCR y SCE


A partir de los resultados obtenidos en la sección precedente es posible demostrar una de las
relaciones más importantes del modelo de regresión lineal simple la cual expresa que:

SCT = SCR + SCE (6.16)

En nuestro ejemplo se verica que:

1.600, 9 = 1.226, 927 + 373, 92

Veamos como se pueden utilizar estas sumas de cuadrados para denir una media de la bondad
del ajuste de la reta ŷ = βˆ0 + βˆ1 x al conjunto de observaciones.

Denición 6.1 En el modelo de regresión lineal simple se dene el coeciente de determinación


de la siguiente manera:

SCR
r= (6.17)
SCE

Veamos cómo se lo interpreta utilizando los datos de nuestro ejemplo.

La recta ŷ tendrá un ajuste perfecto si cada uno de los puntos en el diagrama de dispersión se
encuentran ubicados sobre la recta estimada. En este caso yi −ŷi = 0 para cada par de observaciones.
Bajo esta hipótesis SCE = 0, luego SCT = SCR y

SCR
r2 = =1
SCT
Los ajustes menos perfectos darán valores mayores de la SCE .
Como SCE = SCT − SCR se deduce que tendremos en máximo valor de la suma de cuadrado del
error cuandoSCR = 0.
En este caso:

SCR
r2 = =0
SCt
Por o tanto, el coeciente de determinación SCR/SCT que puede tomar cualquier valor entre 0 y 1
habitualmente se utiliza para evaluar la bondad de ajuste de la recta ŷ al conjunto de observaciones.
Para nuestro ejemplo:

1.226, 927
r2 = = 0, 766
1.600, 9

¾Cómo interpretaremos este resultado? Si al valor del coeciente de determinación r2 lo expresamos


como porcentaje diremos que aproximadamente el 77 % en la variación de los volúmenes de ventas
se deben a inversión en publicidad.

También se puede interpretar como que aproximadamente el 77 % de la variación de la ventas


se pueden explicar con la relación lineal ŷ = 46, 49 + 52, 57x entre las ventas y la inversión en
publicidad.

Por lo tanto 1 − r2 = 1 − 0, 766 = 0, 234 o el 23,4 % de la variación en los volúmenes de las ventas
mensuales se deben a otras variables que no han sido incluidas en el modelo.

169
6.5.2. El coeciente de correlación muestral r
En la primer capítulo de este material denimos el coeciente de correlación lineal de Pearson r
como una medida descriptiva de la intensidad de la asociación lineal entre las variables X e Y.
Habíamos visto en aquella oportunidad que −1 ≤ r ≤ 1. Un valor de r igual a 1 indica que las
variables X e Y tienen una relación positiva lineal perfecta, esto es, todos los puntos del diagrama
de dispersión se encuentran ubicados sobre una recta de pendiente positiva.

Un valor de r igual a −1 indica que las variables tienen una relación lineal negativa perfecta, es
decir, todos los puntos del diagrama de dispersión se encuentran situados sobre una línea recta de
pendiente negativa.

Los valores de r cercanos a 0 indican que las variables no tiene relación lineal.
También presentamos algunas fórmulas que pueden utilizarse para el cálculo de r.
Si se ha realizado un análisis de regresión, y se ha calculado el coeciente de determinación r2 , el
coeciente de correlación lineal de Pearson puede calcularse de la siguiente manera:


r = (signoβˆ1 ) r2 ) (6.18)

Esto es, si βˆ1 > 0, entonces r tendrá signo positivo y si βˆ1 < 0 el coeciente de correlación tendrá
signo negativo.

En el ejemplo que estamos desarrollando como βˆ1 = 52, 57 y r2 = 0, 766 tendremos:

p
r = (+) 0, 766 = 0, 875

Podemos concluir que hay una fuerte relación lineal entre las variables inversión en publicidad y
ventas posteriores.

Aunque el coeciente de correlación se restringe a una relación lineal entre las variables, el coe-
ciente de determinación se puede emplear en relaciones no lineales y en relaciones que tengan más
de dos variables. Es decir, r2 tiene una aplicabilidad más amplia.

6.6. Supuestos o condiciones del modelo


Cuando se aplica el modelo de regresión lineal simple se comienza proponiendo una hipótesis acerca
de la relación entre las variables dependiente e independiente.

Para este modelo, que se asume que la relación entre publicidad y ventas es la siguiente:

y = β0 + β1 x + ε

Luego se aplica el principio de mínimos cuadrados para determinar βˆ0 y βˆ1 que son las estimaciones
de los parámetros β0 y β1 respectivamente.

La ecuación estimada de regresión resulta la siguiente:

ŷ = βˆ0 + βˆ1 x

Hemos dicho también que el coeciente de determinación r2 es una medida de la bondad de ajuste
de ŷ al conjunto de observaciones de la muestra.

Sin embargo, aún con un valor grande del coeciente de determinación no se debería usar la
ecuación de regresión estimada sin antes efectuar un análisis de adecuación del modelo.

Las pruebas de signicancia o de adecuación en el análisis de regresión lineal simple se basan en


los siguientes supuestos acerca del término del error ε.

1. El término del error ε es una variable aleatoria con media o valor esperado igual a cero, es
decir E(ε) = 0

170
Consecuencia: Como β0 y β1 son constantes, entonces y es una variable aleatoria con media
o valor esperado E(y) = β0 + β1 x.
2. La varianza de ε representada por σ2 es la misma para todos los valores de x, es decir,
2
V (ε) = σ
Consecuencia: La varianza de y es igual a σ2 , es decir V (y) = σ 2 .
3. Los valores de ε son independientes

Consecuencia: los valores de y son independientes

4. La variable ε tiene distribución normal

Consecuencia: y tiene distribución normal

La Figura (6.5) puede ayudar a comprender estos supuestos.

Figura 6.5: Supuestos del modelo de regresión linal simple

Explicamos brevemente este gráco.

Los valores que toma la variable independientes son: x1 = 10; x2 = 20 y x3 = 30


Puede verse que para cada valor de x hay una población posibles de valores de y
Cada una de estas poblaciones tienen distribución Normal con la misma varianza (todas las
distribuciones normales tienen la misma forma )

La recta E(y) pasa por cada una de las medias de las poblaciones de y

La segunda condición puede justicarse a partir de algunas propiedades de la varianza de una


variable aleatoria.

El modelo de regresión lineal simple expresa que

y = β0 + β1 x + ε
Por lo tanto

V (y) = V (β0 + β1 x + ε) = V (β0 ) + V (β1 x) + V (ε)


Finalmente

V (y) = V (ε) = σ 2
como se quería demostrar.

171
6.7. Pruebas de signicancia
La ecuación de regresión lineal simple indica que el valor medio de cada población de y es una
función lineal de x, esto es E(y) = β0 + β1 x.
Entonces, si β1 = 0 resultará que E(y) = β0 . En este caso el valor medio de y no depende de x, en
consecuencia concluimos que las variables x e y no tienen relación lineal.

Por otro lado, si β1 ̸= 0, se concluye que las variables se relacionan y podría utilizarse la variable
x para predecir los valores de y .
Así, para indagar si el modelo de regresión lineal simple es el adecuado para describir la relación
entre las variables x e y se debe efectuar una prueba de hipótesis para determinar si el valor de β1
es o no igual a cero.

Para poder realizar esta prueba, y otras que veremos más adelante, primero debemos estimar σ2 ,
la varianza de ε en el modelo de regresión lineal simple.

6.7.1. Estimación de σ2
A partir de los supuestos del modelo de regresión lineal simple se puede concluir que σ 2 , la varianza
de ε, es también la varianza de los valores de y respecto de la línea de regresión.

Recordemos que las desviaciones de los valores de y respecto de la línea de regresión estimada se
llaman residuales.
Hemos visto también que SCE o Suma de Cuadrados del Error es una medida de la variabilidad
de las observaciones reales respecto de la línea de regresión.

El Cuadrado Medio del Error, que se dene como el cociente de SCE dividido sus grados de libertad
es una estimación de σ2 .
Luego

Pn
SCE − ŷ)2
i=1 (yi
CM E = s2 = = (6.19)
n−2 n−2
Utilizando la fórmula de cálculo para SCE obtenemos la siguiente expresión equivalente:

SCy − β̂1 SCxy


s2 = CM E = (6.20)
n−2
Para los datos del ejemplo que desarrollamos tendremos que

373, 92
s2 = = 46, 47
8

El error estándar estimado de la variable
√ ε se dene como s= s2 que en el caso analizado vale
s= 46, 47 = 6, 83

6.7.2. La prueba t
El modelo de regresión lineal simple establece que y = β0 + β 1 x + ε . Si las variables x e y tiene
una relación lineal debe suceder que β1 ̸= 0.
El objetivo de la prueba t es vericar si se puede sostener la hipótesis de que β1 ̸= 0. En este caso
las variables x e y tendrán una relación lineal.

Si no se puede rechazar H0 las variables no estarán relacionadas.

Si no se puede rechazar la hipótesis nula se deberá obtener más información o modicar el modelo
propuesto.

Entonces, se utilizarán los resultados de la muestra para contrastar las siguientes hipótesis

172
H0 : β 1 = 0
Ha β 1 = ̸ 0

Si se rechaza la hipótesis nula la conclusión será que β1 ̸= 0 y habrá una relación estadísticamente
signicativa entre las variables.

En caso contrario, si no se rechaza la hipótesis nula, no se tendrá evidencia estadística suciente


para armar que existe una relación signicativa entre x e y.
Veamos el procedimiento.

Para la muestra aleatoria de 10 meses de publicidad y ventas de la Tabla (6.1), se ha obtenido el


valor βˆ1 = 52, 57 como estimación puntual de β1 .
Está claro que si se toma otra muestra aleatoria de 10 meses es altamente probable que se obtenga
otro valor de β̂1 -
Es decir,para cada muestra aleatoria de n = 10 observaciones se tendrá un valor de βˆ1 , o sea βˆ1
es una variable aleatoria.
Las propiedades distribucionales de la variable aleatoria βˆ1 son las siguientes: puede demostrarse
que E(βˆ1 ) = β1 y que σβ̂1 = √σ .
SCx

Además, si se cumplen las condiciones del modelo, βˆ1 tiene distribución Normal.

Por lo tanto, la variable aleatoria

β̂1 − β1
Z= √ (6.21)
σ/ SCx

tiene distribución Normal Estándar.

Si se conociera el valor de σ podría utilizarse la Ecuación 6.21 como estadístico de prueba para
probar H0 : β1 = 0.
Hemos dicho que σ , el error estándar de ε es un parámetro desconocido que debe ser estimado.

En la Sección (6.7.1) hemos visto como se estima σ. El valor encontrado fue s = 6.83.
Si se reemplaza s por σ en la Ecuación 6.21 se obtiene la variable aleatoria

β̂1 − β1
T = √ (6.22)
s/ SCx

Puede demostrarse que T tiene distribución t de Student con n−2 grados de libertad.

La Ecuación (6.22) se utiliza como estadístico de prueba para probar H0 : β1 = 0.


Resumimos los pasos para realizar la prueba t son los siguientes:

Hipótesis:

H0 : β 1 = 0
Ha β 1 = ̸ 0

Estadístico de prueba:

β̂1 − β1
T = √ ∼ t(n − 2) grados de libertad
s/ SCx

Se trata de una prueba de hipótesis bilateral con regiones de rechazo en la cola inferior y superior
de la distribución de probabilidad del estadístico de prueba.

Supongamos que con los datos de la Tabla (6.1) llevamos adelante la prueba t. Sea α = 0.05.
Como la hipótesis nula se considera verdadera hasta que se pruebe lo contrario, el estadístico de
prueba es:

173
β̂
T = √1
s/ SCx

s 6.83
√ =√ = 10, 25
SCx 0, 444

Por lo tanto

52, 57
Ep = = 5.128
10, 25

El estadístico de prueba tiene k = 10 − 2 = 8 grados de libertad.

Como además se trata de una prueba bilateral y α = 0, 05, lo valores críticos del estadístico de
prueba son t = −2, 306 y t = 2, 306
Como Ep > 2, 306 rechazamos la hipótesis nula.

Existe evidencia estadística para concluir que hay una relación lineal estadísticamente signicativa
entre los gastos en publicidad y las ventas posteriores.

6.7.3. Intervalo de conanza para β1


Como hay evidencias que permiten sostener que β1 ̸= 0, es posible examinar con mayor detalle la
relación entre las variables x e y.
Por ejemplo, si x aumenta una unidad, ¾cómo se modicará el valor de y?
Esta pregunta puede responderse de dos maneras. La ecuación estimada de regresión es, como ya
demostramos, ŷ = 46, 49 + 52, 57x donde βˆ1 = 52, 57 es la pendiente de la recta.

Podemos decir entonces que si la inversión en publicidad aumenta 1.000 dólares, se estima que, en
promedio, las ventas se incrementarán en 52.570 dólares por mes.

Recuerde que βˆ1 = 52, 57 es una estimación puntual de la pendiente de la recta E(y) = β0 + β1 x.
Paro como todo parámetro, la pendiente de la recta poblacional β1 también puede estimarse por
medio de un intervalo de conanza.

Puede demostrarse que si se cumplen las condiciones del modelo, un intervalo de (1 − α)100 % de
conanza para β1 se construye de la siguiente manera:

 
s s
C β̂1 − t √ ≤ β1 ≤ β̂1 + t √ =1−α (6.23)
SCx SCx

donde el valor de t debe buscarse en la tabla de la distribución t de Student con n−2 grados de
libertad.

Continuando con los datos del ejemplo que estamos desarrollando, seguidamente estimamos β1
mediante un intervalo de 95 % de conanza.

Por lo tanto:

C [52, 57 − 2, 306(10, 25) ≤ β1 ≤ 52, 57 + 2, 306(10, 25)] = 0, 95

Finalmente:

C(28, 93 ≤ β1 ≤ 76, 20) = 0, 95

Podemos interpretar este resultado diciendo que si se aumentan los gastos en publicidad en 1.000
dolares se estima que la media de las ventas se incrementarán entre 28.930 y 76.200 dolares con
una conanza del 95 %.

174
6.8. Empleo de la ecuación estimada de regresión
Suponga que siguiendo los procedimientos de la prueba t hemos rechazado la hipótesis nula H0 :
β1 = 0. Es posible emplear la ecuación de regresión estimada con los siguientes objetivos:

1. Predecir el valor de y para un valor particular de x

2. Estimar la media de una las poblaciones de de y para un valor particular de x

Cuando se pueden sostener las suposiciones del modelo de regresión lineal simple se pueden cons-
truir intervalos de conanza para valores individuales de y correspondientes a un valor de x e
intervalos de conanza para la media de y para un determinados de x.

6.8.1. Predicción de y para un valor particular de x


Siguiendo con los datos dl ejemplo que estamos desarrollando, luego de conrmar la utilidad de la
ecuación de regresión mediante los procedimientos inferenciales analizados en secciones anteriores,
es posible estimar las ventas mensuales que se obtendrían en función de determinado gasto de
publicidad.

Para ser más precisos, suponga que se realizará un gasto de x0 = 500 dólares en publicidad y se
quiere estimar cuál será el volumen de ventas posteriores.

Utilizando la ecuación de regresión estimada obtendremos

ŷ0 = 46, 49 + 52, 57(0, 5) = 72, 77

Es decir, se pronostican ventas por 72.770 dólares.

Cuando se cumplen las condiciones del modelo y cuando σ es desconocida, un intervalo de predicción
del 1−α por ciento de conanza se calcula de la siguiente manera:

 s s 
1 (x 0 − x̄) 1 (x 0 − x̄)
C ŷ0 − t(s) 1 + + ≤ y ≤ ŷ0 + t(s) 1 + + =1−α (6.24)
n SCx n SCx

La Formula (6.24) puede expresarse de forma abreviada de la siguiente manera:

s
1 (x0 − x̄)2
ŷ0 ± t(s) 1 + + (6.25)
n SCx

donde ŷ0 es la predicción puntual de y cundo x = x0 y t se encuentra en la tabla de la distribución


de Student con n−2 grados de libertad.

Para el ejemplo que venimos desarrollando vimos que cuando x0 = 500 las ventas pronosticadas
fueron ŷ0 = 72.770 dólares.

Si queremos realizar una estimación de las ventas obtenidas cuando la inversión en publicidad es
x0 = 500 por medio de un intervalo de 95 % de conanza, procedemos de la siguiente manera:

s
1 (0, 5 − 0, 94)2
72, 77 ± 2, 306(6, 83) 1+ +
10 0, 444

Luego de realizar las operaciones indicadas se obtiene

C(54, 86 ≤ y0 ≤ 90, 67) = 0, 95

O sea, si la inversión en publicidad 500 dólares se estima que las ventas estarán entre 5.486 y 9.067
dólares mensuales con una conanza del 95 %.

175
6.8.2. Estimación de la media de una población de y para x = x0
Estimar el valor medio de y para un valor dado de la variable x, esto es, estimar E(y) cuando
x = x0 puede resultar de utilidad al momento de utilizar la ecuación estimada de regresión.

Por ejemplo, si la compañía invierte 500 dólares en publicidad ¾cuánto valdrá E(y)?
El valor medio de y para determinado valor de x se puede estimar puntualmente o por medio de
un intervalo de conanza.

Si queremos estimar puntualmente el valor medio de y para cierto valor x0 de la independiente no


tenemos más que reemplazar x0 el la ecuación estimada de regresión ŷ = βˆ0 + βˆ1 x
Resulta entonces que la estimación puntual de E(y) es la misma que la estimación puntual de un
valor individual de y.
Sin embargo, cuando se cumplen las condiciones del modelo, y cuando σ2 es desconocida, un
intervalo de conanza de (1 − α)100 % para E(Y ), la media de la población de valores de la
variable y cuando x = x0 , se calcula de la siguiente manera:

 s s 
1 (x0 − x̄)2 1 (x0 − x̄)2 
C ŷ0 − t(s) + ≤ E(y) ≤ ŷ0 + t(s) + =1−α (6.26)
n SCx n SCx

De forma abreviada:

s
1 (x0 − x̄)2
ŷ0 ± t(s) + (6.27)
n SCx

En nuestro ejemplo, si x0 = 500 la estimación por medio de un intervalo de 95 % de conanza del


valor medio de y correspondiente se construye de la siguiente manera:

s
1 (0, 5 − 0, 94)2
72, 77 ± 2, 306(6, 83) +
10 0, 444

Una vez que se realizan las operaciones correspondientes se obtiene:

C [61, 24 ≤ E(y) ≤ 84, 30] = 0, 95

Es decir, toda vez que se invierta 500 dolares en publicidad, las ventas medias estimadas oscilaran
entre 6.124 y 8.430 dólares con una conanza del 95 %.

176

También podría gustarte