Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. Estadística Descriptiva 7
1.1. Introducción y conceptos fundamentales . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4.4. Histogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.10.2. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2. Introducción a la Probabilidad 51
2.1. Conceptos fundamentales y deniciones . . . . . . . . . . . . . . . . . . . . . . . . 51
3
2.4.2. Eventos independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.5.3. Relación entre las pruebas de hipótesis y los intervalos de conanza . . . . 149
4
6. Regresión y Correlación Lineal Simple 161
6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
5
Capítulo 1
Estadística Descriptiva
Estos informes suelen ir acompañados por tablas, grácos y de alguna medida descriptiva numérica
como un promedio, una proporción, etc.
Aunque estos ejemplos reejan en parte qué es y de que se ocupa la Estadística, la misma tiene
un signicado mucho más amplio para aquellas personas que la utilizan a menudo en su actividad
profesional.
Debido a lo extenso y variado del campo cubierto por la disciplina es difícil proponer una denición
precisa de la misma.
De todas maneras, daremos una, sabiendo que será incompleta, pero que dará al lector una idea
de sus objetivos y actividades y que además servirá de introducción a los temas tratados en este
material.
Cuando se diseña un trabajo estadístico es para alcanzar uno de los siguientes objetivos o ambos:
Algunas de las actividades que puede realizar para analizar las puntuaciones a partir de las herra-
mientas suministradas por la Estadística Descriptiva son las siguientes:
7
Tabular las los resultados
Describir los datos por medio de alguna medida descriptiva numérica como la media, la
proporción, etc.
etc.
Esto es así porque el objetivo último de la actividad estadística suele ser el de extraer conclu-
siones sobre todas las observaciones posibles (población), a partir de la información recolectada
(muestra).
1
Las técnicas que permiten obtener conclusiones generales de una población a partir de la informa-
ción obtenida pertenecen a la rama de la Estadística Inferencial.
Más adelante analizaremos algunas técnicas inferenciales más utilizadas para obtener conclusiones
válidas.
Deniremos a continuación una serie de conceptos que se utilizarán a lo largo de este material.
La lista será lo más breve posible limitándonos a aquellos que necesitaremos de manera inmediata,
dejando para más adelante los demás, los que serán denidos a medida que los necesitemos.
Unidad observacional
En todo trabajo de investigación que utilice a la Estadística como herramienta para el análisis de
la información, el investigador ja su atención en un grupo de personas, lugares o cosas.
Cada una de ellas, tomadas de manera individual recibe el nombre de unidad observacional.
Por ejemplo, para un investigador que estudia algunas propiedades sociodemográcas de los estu-
diantes de una universidad, cada uno de los estudiantes, tomados de manera individual constituye
una unidad observacional.
Para una analista de mercados que quiera obtener alguna información acerca de las rentas mensua-
les de las familias de la ciudad, cada una de las familias, tomadas de manera individual constituye
una unidad observacional.
Por lo tanto, una unidad observacional es una persona, un lugar o una cosa de la cual puede
obtenerse información.
Variable
Es toda característica que toma diferentes valores en distintas unidades observacionales.
Por ejemplo, la altura o el peso de las personas, la renta mensual de las familias de una ciudad, el
lugar de procedencia de los estudiantes de una universidad, etc.
8
Variable cuantitativa
Es aquella que asume valores numéricos acompañados de una unidad de medida.
Por ejemplo, el la renta mensual de las familias en una ciudad, el peso de las persona, el tiempo
necesario para realizar una tarea, etc.
Variable discreta
Es una variable que puede tomar un número nito o innito contable de valores separados entre si
por alguna unidad de medida.
Por ejemplo, el número de personas que llegan por hora a un banco a solicitar algún servicio, el
número de productos defectuosos fabricados cierto día por una fábrica, etc.
Variable continua
Es aquella que al menos en teoría puede tomar cualquier valor dentro de un intervalo real de valores
posibles.
Por ejemplo, la estatura de las personas, el tiempo requerido para nalizar una tarea, etc.
etc.
En una variable cualitativa ordinal sus categorías siguen un orden, es decir, existen jerarquía entre
sus valores.
Por ejemplo:
Categoría docente en una universidad: ayudante de primera, jefe de trabajos prácticos, pro-
fesor adjunto, profesor asociado y profesor titular
9
Población y muestra
Son dos de los conceptos más importantes en Estadística a los cuales haremos referencia constan-
temente.
En el lenguaje común el término población se utiliza para referirse a un conjunto de personas como
los habitantes de una ciudad o un país.
Sin embargo, desde el punto de vista de la Estadística este término tiene un signicado más amplio.
Un grupo de objetos como las lámparas de iluminación hogareñas producidas en un año por
una fábrica
Un grupo de medidas como la renta mensual de todas las familias de una ciudad
Observe que desde el punto de vista de la Estadística una población no necesariamente se reere
a un grupo de personas.
Denición 1.2 Una población es el conjunto de todos los posibles individuos, personas, objetos o
mediciones de interés estadístico para un investigador.
Es importante tener en cuenta que las poblaciones son denidas por el investigador quien determina
sus alcances y limitaciones.
En general, las conclusiones acerca de alguna propiedad poblacional se logra a partir de una muestra
tomada de la misma.
Denición 1.3 Una muestra es una parte, un subconjunto de una población seleccionada de tal
manera que resulte representativa de la misma.
Una muestra de votantes empadronados es necesaria debido al costo prohibitivo de entrevistar a los
millones de votantes registrados con el n de averiguar sus preferencias políticas para las próximas
elecciones.
Sería prácticamente imposible por razones de tiempo y costo entrevistar a todas las familias de
una ciudad con el n de estudiar algunas de sus propiedades socioeconómicas.
Parámetros y estadísticos
Las características numéricas de una población reciben el nombre de parámetros.
Por ejemplo, la renta promedio de todas las familias de una ciudad es un perímetro.
Denición 1.4 La inferencia estadística se encarga de obtener conclusiones acerca de algún pará-
metro poblacional a partir del valor de un estadístico calculado con una muestra de esa población.
10
Para que las conclusiones obtenidas a partir de la muestra sean signicativas, la muestra debe
ser representativa de la población, es decir, la información contenida en la muestra debe ser una
copia lo más exacta posible de la información existente en la población.
Obtener una muestra con estas características no es una tarea sencilla, y las técnicas de muestreo
son tantas y de tal complejidad que conforman una disciplina dentro de la Estadística.
Para obtener una muestra representativa de una población, las unidades que la conforman deben
ser seleccionadas de manera aleatoria. Es decir, debe haber algún mecanismo que garantice una
selección aleatoria de las unidades observacionales que deje de lado la subjetividad del analista.
De todas esas técnicas de selección, el muestreo aleatorio simple es una de las técnicas que puede
utilizarse para seleccionar una muestra representativa de una población.
Además esta técnica de muestreo sirve como fundamento teórico para otras técnicas más complejas
como el muestreo estraticado, muestreo por conglomerados, sistemático, etc.
Denición 1.5 Una muestra aleatoria simple de tamaño n es una muestra seleccionada de tal
manera que todas las muestras del mismo tamaño tiene la misma probabilidad de ser seleccionada.
El hecho de que todas las muestras de tamaño n tengan la misma probabilidad de ser seleccio-
nada garantiza que todas las unidades observacionales de la población tendrán también la misma
probabilidad de ser seleccionadas.
Por ejemplo, supongamos que se quiera formar un comité de 3 personas a partir de un grupo de 10.
¾Como podemos seleccionar los integrantes del comité utilizando un muestreo aleatorio simple?
Supongamos que en la primera selección se obtuvo la bolita que tiene el número 9. Entonces, la
persona identicada con este número es la primera selección.
Supongamos que se seleccionó la bolita con el número 2, entonces la persona que está identicada
con este número es nuestra segunda selección.
No se repone la bolita y se realiza la tercera selección. Supongamos que se extrae la bolita con el
número 7.
Entonces nuestro comité estará integrado por las personas identicadas con los números 9, 2 y 7.
En realidad, una muestra aleatoria simple se elije a partir de una tabla de números aleatorios o
mediante programas para computadoras.
Por lo general, los datos que se obtienen en una investigación estadística no son susceptibles de ser
analizados e interpretados en la forma que se recogen.
Casi siempre, a la etapa de recolección le sigue otra de organización y resumen previas a la aplicación
de alguna técnica de análisis más compleja.
Presentaremos a continuación algunos procedimientos tabulares y grácos que son utilizados para
resumir las observaciones tanto de variables cualitativas como cuantitativas.
11
1.4. Resumen de datos
1.4.1. Resumen de datos. Variables cualitativas
En primer lugar, veremos cómo es posible resumir datos provenientes de una variable cualitativa.
Una excelente herramienta para ello son las tablas de frecuencias.
Las tablas de frecuencias se suelen denominar también distribuciones de frecuencias
El objetivo de una tabla de frecuencias es el de proporcionar una perspectiva general de los datos
con el n de extraer conclusiones importantes sobre las observaciones.
Analicemos la siguiente situación hipotética. Suponga que el profesor de educación física de una
universidad toma una muestra de 50 estudiantes a los cuales les pregunta acerca de su deporte
preferido.
Suponga adicionalmente que una vez recibidas las respuestas, y para una mejor comprensión de
los resultados, decide volcar la información en una tabla de frecuencias como la Tabla (1.1).
En la segunda columna se registran las frecuencias absolutas que no son otra cosa que el número
observaciones en cada categoría de la variable.
Analizando la Tabla puede verse que el fútbol es el deporte de mayor preferencia seguido por la
natación.
Evidentemente se pueden realizar otras lecturas y llegar a otras oclusiones a partir del análisis de
la tabla.
fi
fri = (1.1)
n
donde fri es la frecuencia relativa de la clase i y fi su frecuencia absoluta.
Completamos la Tabla (1.1) con las frecuencias relativas y las porcentuales obteniendo de esta
manera la Tabla (1.2).
Analizando la Tabla (1.2) puede verse que el 38 % de los estudiantes encuestados preere el fútbol.
12
Deporte preferido Frec. Absoluta Frec. Relativa Frec. Porcentual
Fútbol 19 0,38 38
Básquet 8 0,16 16
Rugby 5 0,10 10
Natación 13 0,26 26
Ninguno 5 0,10 10
Total 50 1,00 100
3. Sobre el eje vertical se registran las frecuencias absolutas o relativas de cada una de las
categorías de la variable (depende de qué se graca)
4. A partir de los puntos del eje horizontal que representan las categorías de la variable se
levantan barras cuyas alturas indican las frecuencias (absolutas o relativas) de cada categoría
5. Las barras se separan con el de indicar que cada clase es una categoría independiente
El gráco de barras para frecuencias relativas es similar al de frecuencias absolutas solo que en el
eje vertical se registran las frecuencias relativas.
Los diagramas circulares se pueden utilizar también para representar tablas de frecuencias para
datos cualitativos.
Supongamos que se quiera representar las frecuencias relativas registradas en la Tabla (1.2).
13
Para ello se dibuja un círculo y posteriormente se lo divide en sectores o partes proporcionales a
la frecuencia relativa de cada clase.
Para determinar los sectores correspondientes a cada clase se razona de la siguiente manera: hay
360 grados en el círculo y en él se representarán el 100 % de las observaciones.
El diagrama circular para los datos de la Tabla (1.2) se muestra en la Figura (1.2).
Hasta el momento hemos visto algunas herramientas que se utilizan para resumir la información
proveniente de una variable categórica.
2
Sin embargo, las tablas de frecuencias para variables cuantitativas son un poco más elaboradas.
Una tabla de frecuencias para una variable cuantitativa, en su forma más simple, es una tabla que
se construye de la siguiente manera:
En la primera columna se enumeran las clases o intervalos en los cuales se agruparan los
valores de la variable
En la tercera columna se registran las frecuencias absolutas o relativas de cada una de las
categorías
En el siguiente ejemplo presentamos una tabla de frecuencias para datos cuantitativos con el n
de mostrar cuáles son sus partes. Luego veremos cómo se las construye.
Suponga que el jefe de producción de una fábrica de barras de acero desea analizar la variación de
las longitudes de las barras producidas cierto día en la fábrica.
Como se producen diariamente una gran cantidad de barras toma una muestra aleatoria simple de
50 barras y decide resumir las longitudes observadas en una tabla de frecuencias.
2 No debe quedar la idea de que éstas son las únicas herramientas. Existe una gran variedad de ellas que no
analizamos por cuestiones de espacio y tiempo
14
En la Tabla (1.3) se presenta la tabla de frecuencias de la longitud, en pulgadas, de la muestra de
50 barras de acero.
3
En la primera columna de la tabla aparecen enumerados los intervalos o clases. En este ejemplo se
decidió agrupar los valores de la variable en 7 intervalos de igual amplitud.
Así, en el intervalo [63 65] se cuentan 2 barras, es decir, hay dos barras cuyas longitudes están
comprendidas en ese intervalo mientras que en el intervalo [62 - 64] se contabilizaron 15 barras,
etc.
Si bien es cierto, al agrupar las observaciones en una tabla de frecuencias se pierde información en
el proceso de condensación, se obtiene una mejor aproximación en la identicación de las caracte-
rísticas más sobresaliente del conjunto de observaciones.
La primera cuestión que debe resolverse es la decidir cuántos intervalos (clases) se considerarán.
La cantidad de intervalos dependerá principalmente de cuantos datos tenga el analista.
El número de intervalos no puede ser muy grande (longitud de los intervalos muy pequeña). De ser
así, cada clase o intervalo tendrá muy pocos datos o incluso ninguno ocultándose de esta manera
las propiedades de las observaciones.
Un número pequeño de intervalos (longitud grande) puede ocultar también la naturaleza general
de las observaciones.
Presentamos a continuación algunas recomendaciones que pueden ayudar a construir una tabla de
frecuencias para datos cuantitativos.
Otra manera de determinar, también de manea aproximada, el número de intervalos es por medio
de la fórmula de Sturges. Si con k representamos el número de intervalos y con n el tamaño de la
muestra, entonces la expresión
puede utilizarse para determinar de manera aproximada el número de intervalos necesarios para
agrupar los valores de la variable.
15
Tamaño de la muestra Número de intervalos
Menos de 50 5 - 7
De 50 a 100 7 - 8
De 101 a 500 8 - 10
De 501 a 1 000 10 - 11
De 1 001 a 5 000 11 - 14
Más de 5 000 14 - 20
Una vez elegido el valor de k , el siguiente paso es determinar la longitud o amplitud de los intervalos.
Esto puede hacerse, también en forma aproximada, utilizando la siguiente ecuación:
xM − xm
l= (1.3)
k
donde xM es el dato mayor y xm el dato menor del conjunto de observaciones.
El primer intervalo debe contener el menor de los datos y el último el mayor. Es recomendable que
todos los intervalos tengan la misma longitud.
Se construye una tabla en la cual, en la primera columna se identican las clases (1, 2, ..., k).
En la segunda se denen los intervalos. En la tercera columna se registran las frecuencias absolutas.
Ejemplo 1.1 Suponga que el jefe de producción de una empresa metalúrgica desea analizar como
varían las longitudes, en pulgadas, de las barras de acero producidas cierto día por la empresa.
Para ello toma una muestra aleatoria de 50 barras producidas ese día, las mide, y decide agrupar
la información en una tabla de frecuencias. Los datos recogidos se presentan en la Tabla (1.5).
65 63 65 63 69 67 53 58 60 61
64 65 64 72 68 66 55 57 60 62
64 65 64 71 68 66 56 59 61 62
63 65 63 70 67 66 57 59 61 62
64 64 63 69 67 66 58 60 61 62
En primer lugar el jefe de producción debe calcular el número aproximado de intervalos que tendrá
su tabla de frecuencias.
72 − 53
l= = 2, 7
7
Puede tomar l = 3.
Ahora debe decidir dónde comienza el primer intervalo.
Lo que habitualmente se hace es considerar el comienzo del primer intervalo en el dato menor, es
decir 53.
16
Como la longitud de los intervalos es 3, el primer intervalo es [53 55], el segundo será [56 58],
etc.
Una vez construidas las dos primeras columnas de la tabla, el siguiente paso es contar cuantas
observaciones (frecuencia absoluta) quedan comprendidas dentro de cada intervalo.
Por último, se coloca toda esta información en una tabla obteniéndose como resultado la Tabla
(1.3).
Observe que los intervalos considerados están separados entre sí por una unidad. Esto sugiere que
la variable longitud da saltos de una unidad de intervalo a intervalo lo cual parece no tener sentido
con la condición de continuidad de dicho la misma.
Por otro lado, ¾en que intervalo se ubicaría una longitud de x = 55, 5 pulgadas?
Con el propósito de construir una tabla que reeje la idea de continuidad de la variable, los
intervalos deben estar unidos. Para ello se procede de la siguiente manera:
52+53
1. El extremo inferior del primer intervalo se sustituye por
2 = 52, 5.
55+56
2. El extremo superior del primer intervalo se reemplaza por
2 = 55, 5. Este valor pasa a
ser el extremo superior del primer intervalo y el extremo inferior del segundo.
3. Se continúa de la misma manera con el resto de los intervalos y el resultado nal se presenta
en la Tabla (1.6).
Denidos de esta manera los intervalos quedan cerrados dando la idea de continuidad de la variable.
Cuando los intervalos se denen como en la Tabla (1.6) reciben el nombre de intervalos reales. Los
intervalos denido en la Tabla (1.3) reciben el nombre de intervalos cticios.
La tabla de frecuencias absolutas puede completarse para obtener más información de las observa-
ciones.
Denición 1.6 Se denomina marca de clase del intervalo i al punto medio del intervalo de clase
correspondiente. Habitualmente se simboliza mi .
52, 5 + 55, 5
m1 = = 54
2
Procediendo de la misma manera con los otros intervalos se obtiene
m2 = 57, m3 = 60, · · · , m7 = 72
17
Denición 1.7 Se llama frecuencia acumulada absoluta de la clase i al número que resulta de
sumar la frecuencia absoluta de la clase i con las frecuencias de las clases que le anteceden. Es
habitual denotarla como Fi .
Por lo tanto:
F1 = 2; F2 = 2 + 5 = 7; F3 = 9 + 7 = 16; · · · ; F7 = 50
Denición 1.8 Se llama frecuencia relativa de la clase i al cociente entre la frecuencia absoluta
de la clase y el total de datos. La simbolizaremos fri .
Es decir:
fi
fri =
n
Note que se trata de la misma denición que la utilizada para variables categóricas.
2 5
Así, para el primer intervalo, fr1 = 50 = 0, 04; para el segundo intervalo fr2 = 50 = 0, 10, etc.
Denición 1.9 Se llama frecuencia relativa acumulada de la clase i al número que resulta de
sumar la frecuencia relativa de la clase i con la frecuencia relativa de las clases que le anteceden.
La simbolizaremos Fri .
Para el primer intervalo de la tabla de frecuencias se tiene Fr1 = 0, 04, para el segundo Fr2 = 0, 14
y así sucesivamente hasta Fr7 = 1, 00.
Toda esta nueva información además da la anterior se muestran en la Tabla (1.7).
Hay 15 barras de cuyas longitudes están comprendidas entre 61,5 y 64,5 pulgadas
El 30 por ciento de las barras tienen una longitud comprendida entre 61,5 y 64,5 pulgadas
El 62 por ciento de las barras tiene una longitud menor o igual 64,5 pulgadas
18
1.4.4. Histogramas
Un histograma es una representación visual de los datos resumidos en una tabla de frecuencias de
una variable cuantitativa continua.
Es similar a un gráco de barras para datos de una variable cualitativa solo que ahora las barras
se colocan unidas para dar una idea de continuidad de la variable.
2. Las bases de las barras se localizan en el eje horizontal siendo el ancho de las barras igual a
la longitud de los intervalos
3. Las alturas de las barras se registran sobre el eje vertical y corresponden a las frecuencias
(absolutas o relativas) de cada una de las clases o intervalos de la variable
4. Las áreas de las barras son proporcionales a las frecuencias de cada una de las clases
Los intervalos están centrados en las marcas de clase para simplicar la construcción del gráco.
El histograma muestra algunas de las propiedades más sobresalientes del conjunto de observaciones.
Por ejemplo, los datos están centradas alrededor del valor x = 63.
Además, la disposición de las frecuencias respecto de x = 63 es aproximadamente simétrica.
Un poco más adelante ahondaremos estos temas y veremos como expresarlos en forma numérica.
Se construye utilizando un par de ejes perpendiculares (uno horizontal) colocando sobre cada marca
de clase un punto a una altura igual a la frecuencia asociada a dicha clase, luego se unen dichos
puntos con segmentos de recta.
Para que el polígono quede cerrado se considera, sobre el eje horizontal, un intervalo más al inicio
y otro al nal, ambos con frecuencia cero.
Puede superponerse el polígono de frecuencias con el histograma o no. En la Figura 1.4 se muestra
el polígono para los datos del ejemplo que estamos analizando.
19
Figura 1.4: Polígono de frecuencias absolutas
El polígono de frecuencias al ser construido a partir de los datos muestrales se puede considerar
como una representación aproximada del comportamiento poblacional, el cual para poblaciones
innitas o muy grandes está dada por una curva continua.
Esta curva continua recibe el nombre de curva de frecuencias. En la Figura (1.5) se muestra una
curva de frecuencias para un caso hipotético superpuesta con el histograma de la variable.
Para todos los nes prácticos la curva de frecuencia puede considerarse una representación del
histograma.
Los métodos tabulares y grácos tienen como función principal lograr que se aprecien de manera
rápida las principales características de los datos.
Por ejemplo, estas técnicas no pueden ser utilizadas para realizar inferencias (n que generalmente
se persigue) aunque si pueden ser el punto de partida para algunos procesos de este tipo.
Las tablas y los grácos descriptivos casi siempre son acompañados por medidas descriptivas nu-
méricas con el n de completar el análisis y preparar el camino para la aplicación de técnicas
inferenciales.
P
Previamente deniremos el operador sumatoria ( ) y analizaremos algunas de sus propiedades
más importantes.
20
1.5. El operador sumatoria
P
Por ejemplo, si se tiene una sucesión de observaciones de una variable cuantitativa x1 , x2 , ..., xn su
suma se puede representar de la siguiente manera utilizando el operador sumatoria:
n
X
x1 + x2 + ... + xn = xi
i=1
Se pueden combinar otras operaciones matemáticas con la sumatoria. Por ejemplo, si se quieren
sumar los cuadrados de cada uno de los datos, la simbología que puede utilizarse es la siguiente:
n
X
x21 + x22 + ... + x2n = x2i
i=1
Primera propiedad
Si k es una constante, entonces:
n
X
k = nk
i=1
Demostración:
n
X
k = k + k + ... + k = nk
| {z }
i=1 n
Por ejemplo:
5
X
2 = 2 + 2 + 2 + 2 + 2 = 5 × 2 = 10
i=1
Segunda propiedad
Si k es una constante, entonces
n
X n
X
kxi = k xi
i=1 i=1
Demostración:
n
X
kxi = kx1 + kx2 + ... + kxn
i=1
21
n
X n
X
kxi = k(x1 + x2 + ... + xn ) = k xi
i=1 i=1
Tercera propiedad
n
X n
X n
X
(xi + yi ) = xi + yi
i=1 i=1 i=1
Esta propiedad se cumple también si se reemplaza el signo mas por el signo menos.
n
X
(xi + yi ) = (x1 + y1 ) + (x2 + y2 ) + · · · + (xn + yn )
i=1
n
X
(xi + yi ) = (x1 + x2 + · · · + xn ) + (y1 + y2 + · · · + yn )
i=1
n
X n
X n
X
(xi + yi ) = xi + yi
i=1 i=1 i=1
Estas propiedades de la sumatoria deberán tenerse en cuenta pues serán utilizadas para la solución
de algunas propiedades de ciertas variables denominadas variables aleatorias.
22
Cuando se la calcula a partir de los datos de una población se la simboliza con la letra griega µ
(mu). Cuando se la calcula a partir de las observaciones de una muestra tomada de la población
se la simboliza x̄.
Ejemplo 1.2 En la Tabla (1.8) se presentan los gastos diarios en alimentos de una muestra de
10 familias de la ciudad. Calcular el gasto promedio e interpretar el resultado obtenido.
2.210 2.255 2.350 2.380 2.380 2.390 2.420 2.440 2.450 2.550
Solución
Cuando se calcula la media muestral se busca un número que describa o resuma de la mejor manera
el conjunto de observaciones. También se dice que se busca el centro de la distribución.
Existen 9 observaciones menores que el promedio y una sola mayor (bastante alejada) de este valor.
Un solo valor extremo, relativamente mayor que el resto, hizo que el valor del promedio se corriera
hacia arriba.
Algo similar puede ocurrir si en lugar de una observación muy grande se agrega una relativamente
pequeña. En dicho caso el valor del promedio puede correrse hacia abajo.
Es importante tener en cuenta que la sola presencia de un valor extremo en el conjunto de obser-
vaciones no necesariamente inuirá signicativamente en el valor de la media. Hay que analizar el
contexto en el cual aparecen estos casos raros.
Por ejemplo, suponga que en la Tabla (1.9) se tiene la distribución de frecuencias de una variable
genérica X.
X Frecuencia absoluta fi
2 20
3 30
4 40
5 30
6 20
100 1
Pk
i=1 xi fi 2 × 20 + 3 × 30 + · · · + 100 × 1 660
x̄ = = = = 4, 68
k 141 141
23
Como puede verse, la sola presencia de la observación extrema, x = 100 no ocasionó un corrimiento
signicativo del valor del promedio hacia valores más grandes de la variable.
Este hecho tiene que ver con las frecuencias de cada uno de los valores de la variable.
Como el valor x = 4 tiene la mayor frecuencia del conjunto de observaciones, evidentemente tendrá
mayor peso cuando se calcula el promedio, mucho más que x = 100 que solo tiene una frecuencia
igual a uno.
Denición 1.11 Sean x1 , x2 , ..., xN las observaciones de una población. La media poblacional se
dene de la siguiente manera:
PN
i=1 xi
µ= (1.5)
N
Por lo general, la media de una población es desconocida y hay que estimarla. Más adelante
analizaremos en detalle los procesos inferenciales para estimar parámetros poblacionales.
No obstante, y dada la importancia del concepto, damos una idea de como puede estimarse la
media de una población.
Suponga que un analista de mercados quiera saber cual es la renta promedio de todas las familias
de una gran ciudad.
Entrevistar a todas y cada una de las familias de la ciudad puede resultar prohibitivo por razones
del costo y del tiempo que insumiría realizar semejante tarea.
Media ponderada
Suponga que una empresa comercial paga a sus vendedores como sueldo básico 6, 7 y 8 dólares por
hora.
6+7+8
x̄ = = 7 dólares
3
Este resultado sería correcto si hubiese el mismo número de vendedores que perciben esas sumas
por hora.
Suponga ahora que 14 vendedores ganan 6; que a 10 vendedores se les paga 7 y que solo 2 vendedores
cobran 8 dólares por hora.
Para calcular la media, 6 debe ponderarse por 14, 7 ponderarse por 10 y 7 se debe ponderar por 2.
6 × 14 + 7 × 10 + 8 × 2
x̄w = = 6, 53 $
14 + 10 + 2
Denición 1.12 Sea x1 , x2 , . . . , xn una muestra de tamaño n donde las observaciones tienen pon-
deraciones w1 ; w2 , ..., wn respectivamente. La media ponderada se dene de la siguiente manera
Pn
x1 w1 + x2 w2 + · · · + xn wn xi w i
x̄ = = Pi=1
n (1.6)
w1 + w2 + · · · + wn i=1 wi
24
En este ejemplo los valores de la variable se han ponderado por su frecuencia absoluta pero no
necesariamente siempre debe ser así.
Las observaciones puede ponderarse por algún índice de antigüedad, por la categoría del empleado,
etc.
Mediana
Si bien es cierto la media o promedio es tal vez la medida de posición central más utilizada cuando
se quiere describir numéricamente un conjunto de observaciones pertenecientes a una variable
cuantitativa, no siempre es aconsejable su uso. Por ejemplo, cuando existen valores extremos de la
variable que se sabe pueden afectar el valor del promedio.
Denimos a continuación a la mediana, otra de las medidas de posición central muy utilizada.
Denición 1.13 La mediana es el valor intermedio de las observaciones cuando previamente han
sido ordenadas de manera ascendente.
Supongamos que se busca encontrar la mediana del siguiente conjunto de observaciones: 46, 54, 42, 50, 32.
En primer lugar hay que ordenar las observaciones de manera ascendente.
32 42 46 50 54
Como se trata de un número impar de datos, hay un único valor central. Este valor se le asigna a
la mediana. O sea: Me = 46
Consideremos nuevamente los datos del Ejemplo (1.2). (Gastos diarios en alimentos)
Como ahora se trata de un número par de observaciones no existe un único valor central.
En estos casos la mediana se toma como el promedio de las dos observaciones centrales.
Por lo tanto:
2.380 + 2.390
Me = = 2.385 pesos
2
Si se cambia la última observación por 10.000 la mediana seguirá siendo igual a 2.385 pesos.
No obstante, uno de sus inconvenientes es que para calcularla no se consideran todas las observa-
ciones, es decir no se considera toda la información disponible.
Moda o modo
Es otra de las medidas descriptivas numéricas más utilizadas cuando se describe un conjunto de
observaciones.
25
La moda es una medida descriptiva numérica que puede utilizarse tanto para variables cualitativas
como cuantitativas.
Por ejemplo, si consideramos nuevamente los datos del Ejemplo (1.2), Mo = 2.380 pesos con una
frecuencia absoluta igual a dos. El resto de los valores de la variable tienen todos una frecuencia
igual a uno.
La moda también es una medida descriptiva fácil de calcular e interpretar. Es una excelente medida
descriptiva para variables categóricas.
Sin embargo también tiene algunos inconvenientes. No utiliza toda la información cuando se la
calcula, pueden existir datos con dos o más modas. Finalmente, puede haber conjuntos de datos
que no tengan moda. En casos como estos la moda no es una medida descriptiva muy útil.
Proporción
Denición 1.15 La proporción muestral simbolizada p̄ se dene como la fracción de las observa-
ciones de una muestra que posee cierta característica o propiedad.
15
p̄ = = 0, 1875
80
o el 18,75 % de los estudiantes de la muestra están cursado el ultimo año de su carrera.
X
p= (1.7)
N
donde X es el número de éxitos en la población y N su tamaño.
Si la población objetivo se extrae una muestra de tamaño n y el ella se encuentran x éxitos, entonces
x
p̄ = (1.8)
n
Percentiles
Los percentiles suelen clasicarse dentro de la categoría de medidas descriptivas de posición no
centrales.
Un percentil da información acerca de cómo se distribuyen los datos sobre ciertos intervalos.
Denición 1.16 El p − simo percentil es el valor tal que por lo menos un p por ciento de las
observaciones tiene dicho valor o menos y un (1 − p) por ciento de las observaciones tiene ese
valor o más.
Para ver la utilidad práctica de los percentiles analicemos la siguiente situación hipotética. Suponga
que un estudiante ha obtenido una calicación de 8 puntos en una evaluación de Estadística.
Si el profesor quiere indagar cuál ha sido el desempeño del estudiante respecto del conjunto total,
lo ideal es calcular un percentil.
Si la calicación 8 se corresponde con el percentil 70, es decir, si P70 = 8, el profesor sabrá que
aproximadamente el 70 % de los estudiantes tuvo una calicación menor o igual que 8 puntos y
que más o menos un 30 % de los estudiantes obtuvo una nota superior a 8 puntos.
26
Para calcular el p-ésimo percentil de un conjunto de observaciones se procede de la siguiente
manera:
p
2. Calcular la cantidad i= 100 n donde p es el percentil de interés y n la cantidad de obser-
vaciones
Ejemplo 1.3 Utilizando los datos del Ejemplo (1.2) calcular e interpretar los percentiles 50 y 85.
Solución
Por lo tanto
2.380 + 2.390
P50 = = 2.385
2
Note que el percentil 50 es igual a la mediana.
Podemos decir que más aproximadamente el 50 % de los gastos en alimentos son menores o iguales
a 2 385 pesos por día y el otro 50 % de los gastos son mayores que este valor.
85
i= 10 = 8, 5
100
Como i no es entero redondeamos su valor al entero inmediato superior. Por lo tanto, el percentil
85 se encuentra en la novena posición del conjunto de observaciones. Luego: P85 = 2 450 pesos.
Podemos armar que aproximadamente el 85 por ciento de los gastos en alimentos es menor o igual
a 2 450 pesos y que aproximadamente el 15 por ciento de los gastos son mayores a este valor.
Cuartiles
.
Con frecuencia, se busca dividir un conjunto de observaciones en cuatro partes, cada una con el
25 % de los datos.
A los puntos de división se los llama cuartiles y se los dene de la siguiente manera:
Ejemplo 1.4 Utilizando la información del Ejemplo 1.2 calcular e interpretar los cuartiles Q1 , Q2
y Q3 .
27
Solución
Como los cuartiles no son más que casos especiales de percentiles se los determina e interpreta de
la misma manera.
Primer cuartil:
25
i= 10 = 2.5
100
Por lo tanto
Q1 = 2 350
Podemos decir entonces que aproximadamente un 25 % de los gastos diarios en alimentos es menor
o igual a 2 385 pesos y que aproximadamente el 75 % de los gastos diarios en alimentos son mayores
que este valor.
Segundo cuartil:
75
i= 10 = 7.5
100
Por lo tanto
Q3 = 2 440
Ejemplo 1.5 Dos departamentos de 10 trabajadores cada uno produjeron las siguientes cantidades
de un mismo producto cierto día de trabajo:
Departamento 1 7 8 8 9 9 9 9 10 10 11
Departamento 2 3 4 5 6 9 9 12 13 14 15
Analice las propiedades de la variable número de productos fabricados por los operarios de los dos
departamentos.
Solución
Puede comprobarse que la producción media en los dos departamentos es la misma e igual a 9
unidades, es decir, x̄1 = x̄2 = 9. Pero como veremos, la producción del departamento 2 está mas
dispersa respecto de su media.
Para el Departamento 1 la diferencia entre el promedio x̄ = 9 y los dos valores extremos (7 y 11)
es igual a 3 mientras que la diferencia entre la media x̄ = 9 y los dos valores extremos (3 y 15)
para el Departamento 2 es igual a 6.
28
Es decir, no alcanza solo la media para describir completamente los dos conjuntos de observaciones.
Algunas de las razones por las cuales es necesario considerar siempre alguna medida de variabilidad
conjuntamente con las posición son las siguientes:
Una medida de dispersión permite comparar la variabilidad de dos o más conjunto de obser-
vaciones.
Rango o amplitud
Denición 1.17 El rango o amplitud de un conjunto de datos es igual a la diferencia entre el
mayor valor de las observaciones y la menor.
Es decir:
XM − Xm (1.9)
Ejemplo 1.6 Las capacidades de varios recipientes metálicos 38, 20, 37, 64 y 27 litros. Hallar la
amplitud o rango del conjunto de observaciones.
Solución
El rango es fácil de calcular e interpretar y es una forma usual de describir la dispersión, especial-
mente cuando el objetivo de la investigación es determinar alcance de las variaciones extremas.
Por ejemplo, el rendimiento de una acción en la bolsa de valores se suele dar a conocer por su
amplitud, es decir por la diferencia entre su valores mayor y menor en la ronda de ese día.
Rango intercuartílico
El rango intercuartílico o (RIC) mide la dispersión que hay en el 50 por ciento central de los
datos. Es la diferencia entre la observación del tercer cuartil Q3 (o percentil 75) y la observación
correspondiente al primer cuartil Q1 (o percentil 25).
Por lo tanto:
RIC = Q3 − Q1 (1.10)
29
Ejemplo 1.7 Calcular el rango intercuartílico de los gastos diarios en alimentos de la muestra de
10 familias de la ciudad (Ejemplo 1.2)
Solución
De acuerdo con los resultas del Ejemplo 1.4 sabemos que Q1 = 2 350 $ y que Q3 = 2 440 $ .Por lo
tanto
Podemos decir que en un rango de 90 $ se encuentran los gastos en alimentos del 50 % central de
las familias de la ciudad.
Desviación media
Esta medida de dispersión, a diferencia del rango, utiliza todas las observaciones disponibles para
su cálculo.
Se la suele denominar desviación promedio porque calcula el promedio de las desviaciones de las
observaciones respecto de su media.
Denición 1.18 Sean x1 , x2 , ..., xn observaciones de una muestra de tamaño n tomada de una
población. La desviación media muestral se dene de la siguiente manera:
Pn
i=1 |xi − x̄|
DM = (1.11)
n
donde x̄ es la media de la muestra.
Analizando la denición de la desviación media, cada término |xi − x̄| no es más que la distancia
de xi a la media del grupo.
Por lo tanto, la desviación media puede interpretarse como la distancia promedio de las observa-
ciones respecto de su media.
PN
i=1 |xi − µ|
DM = (1.12)
N
donde µ es la media de la población.
Ejemplo 1.8 Los pesos, en kilogramos, de una muestra de 5 cajas listas para embarcarse son los
siguientes: 103;97;101;106 y 103 kilogramos. Calcular e interpretar la desviación media.
Solución
Media muestral
Por lo tanto:
30
Una pregunta que merece la pena formularse es la de porqué utilizar la suma de los valores absolutos
Pn
de las diferencias en lugar de tomar directamente la suma de las diferencias i=1 (xi − x̄)
Pn
La respuesta es que i=1 (xi − x̄) = 0 como puede demostrarse aplicándose algunas propiedades
de la sumatoria.
Por lo tanto, denir una medida descriptiva de dispersión que siempre valga cero no tiene ninguna
utilidad.
Varianza
La varianza es una de las medidas de variabilidad más utilizada en Estadística sobre todo cuando
se la combina con otras medidas descriptivas numéricas.
Denición 1.19 Sean x1 , x2 , ..., xn observaciones pertenecientes a una muestra de una población.
La varianza muestral se dene de la siguiente manera:
Pn
2 − x̄)2
i=1 (xi (x1 − x̄)2 + (x2 − x̄)2 + · · · + (xn − x̄)2
s = = (1.13)
n−1 n−1
Por ejemplo, considere el siguiente conjunto de observaciones proveniente de una muestra de tamaño
n = 8, 2, 3, 3, 5, 5, 8, 10, 12.
La media o promedio de estas observaciones es:
2 + 3 + · + 12
x̄ = =6
8
Por lo tanto:
El denominador (n − 1) recibe el nombre de grados de libertad concepto que será denido e inter-
pretado más adelante.
A modo de ejemplo utilizaremos la Fórmula (1.14) para volver a calcular la varianza de los datos
del ejemplo anterior.
En la Tabla (1.11 )se disponen algunos datos adicionales necesarios para calcular la varanza mues-
tral.
Por lo tanto
8(380) − 482
s2 = = 13.14
8×7
Valor que es exactamente igual al calculado con la fórmula de denición.
31
Observación x x2
1 2 4
2 3 9
3 3 9
4 5 25
5 5 25
6 8 64
7 10 100
8 12 144
Total 48 380
Como puede observarse, el denominador de la varianza muestral es n−1 mientras que el denomi-
nador de la poblacional es N ¾A que se debe esta diferencia? La respuesta es la siguiente: en la
mayoría de los casos la varianza poblacional es desconocida y hay que estimarla. Obviamente se
buscará el mejor estimador de σ2 para su estimación.
Pn 2
Resulta que cuando se divide i=1 (xi − x̄) por n − 1 y no por n se obtiene el mejor estimador de
la varianza poblacional según algunos criterios que veremos en el Capítulo 4.
Desviación estándar
La varianza tiene el inconveniente que por su denición se expresa en unidades al cuadrado, como
pesos al cuadrado, kilogramos al cuadrado, etc. lo que diculta su interpretación práctica.
Por éste y otros motivos que iremos analizando se dene una medida de variabilidad derivada de
la varianza denominada desviación estándar.
Es decir:
√
s= s2 (1.16)
p
s= 13, 14 = 3, 62
La desviación estándar poblacional se dene como la raíz cuadrada positiva de la varianza, es decir:
√
σ= σ2 (1.17)
32
Coeciente de variación
Una comparación directa de dos o más medidas de dispersión, por ejemplo, la desviación estándar
de los sueldos mensuales de un grupo de empleados de una empresa y la desviación estándar del
número de inasistencias mensuales del mismo grupo no tiene sentido.
¾Se puede decir que la desviación estándar de $1 200 para la variable sueldos mensuales de los
empleados es mayor que la desviación estándar de 4,5 días para la variable número de inasistencias
en el mes?
Es obvio que no porque no se pueden comparar directamente pesos y días de inasistencias al trabajo.
Se trata de variables diferentes que miden distintas características de las unidades observacionales.
Analicemos esta situación. Si se comparan las desviaciones estándar de las ventas de los grandes y
pequeños comercios que venden bienes similares, casi siempre la desviación estándar de los grandes
comercios será mayor que la de los pequeños comercios, no necesariamente porque exista mayor
variabilidad en las ventas, sino por las diferencias en las escalas de medición.
Las ventas de los grandes comercios pueden medirse en millones de pesos al mes y la de los pequeños
comercios en cientos de miles, por ejemplo.
El coeciente de variación de Pearson es una medida de variabilidad relativa que puede utilizarse
para comparar la variabilidad de dos conjuntos de observaciones.
Los datos están en las misma unidades pero en escala muy diferente
Por ejemplo, supongamos que un conjunto de datos pertenecientes a una muestra tiene una media
x̄ = 44 y una desviación estándar s = 8. El coeciente de variación muestral es:
8
CV = 100 = 18, 2 %
44
Supongamos otro conjunto de datos perteneciente a otra muestra tiene una media x̄ = 2 440 y una
desviación estándar s = 165.65.
Este segundo conjunto de datos parece tener mayor variabilidad que el primero si la comparación
se hace solo a partir la desviación estándar.
165.65
CV = 100 = 6.79 %
2 440
Evidentemente el segundo conjunto tiene menor variabilidad si la comparación se realiza con con
el coeciente de variación
33
σ
CV = 100 (1.19)
µ
Valores estandarizados
Los distintos conjuntos de datos pueden estar asociados a distintas unidades de medidas ya sea
porque son de naturaleza diferente o porque al ser de la misma característica medida, sus centros
no son los mismos.
Con el propósito de reducir los datos a un mismo punto de referencia y a una escala común, se
realiza entre ellos una transformación denominada estandarización.
El proceso de estandarización de un conjunto de observaciones consiste en lo siguiente:
xi − x̄
zi = (1.20)
s
El mismo proceso se realiza si en lugar de trabajar con una muestra se trabaja con las observaciones
de una población.
Veamos un ejemplo.
Suponga que un estudiante ha obtenido una nota igual 8 en la asignatura Estadística. Supongamos
adicionalmente que el promedio del curso en esta asignatura fue x̄1 = 7 con una desviación estándar
s1 = 2.
Este mismo estudiante obtuvo una nota nal en Economía igual a 7 puntos en un curso donde la
nota promedio en esta asignatura fue x̄2 = 6 con una desviación estándar s2 = 3 puntos.
Si se decide utilizar como criterio de comparación la diferencia entre la nota nal y la nota promedio
en ambas asignaturas, se debe admitir que en las dos ha obtenido la misma posición ya que la
diferencia en los dos casos es de una unidad.
Pero ¾tiene la misma particularidad una diferencia de un punto respecto del promedio en estos dos
conjuntos de datos con distintas medias y desviaciones estándar? Evidentemente la respuesta es
negativa.
Para determinar la real diferencia se pueden estandarizar las calicaciones obteniéndose los siguien-
tes resultados:
8−7
z1 = = 0.5
5
Para la asignatura Economía
7−6
z2 = = 0.3
3
Conclusión: como la nota estandarizada en Estadística es mayor que la de Economía, el estudiante
obtuvo un puesto relativamente mejor en Estadística. REVIZAR ESTA CONCLUSIÓN
34
1.7. Regla empírica y desigualdad de Chebyshev
La Regla Empírica y la Desigualdad de Chebyshev son dos reglas muy utilizadas para describir un
conjunto de datos perteneciente a una variable cuantitativa.
Como se verá, la Regla Empírica es más precisa que la Desigualdad de Chebyshev pero de aplicación
restringida debido a las propiedades que deben tener las observaciones.
La Desigualdad de Chebyshev si bien es cierto es menos precisa que la Regla Empírica es mas
general pues se aplica a cualquier conjunto de observaciones siempre que provengan de una variable
cuantitativa.
Para un conjunto de observaciones de una variable X con una curva de frecuencias en forma de
campana, el intervalo
Si bien es cierto hemos enunciado la Regla Empírica para las observaciones de una población,
también sigue siendo válida para una muestra tomada de una población.
Ejemplo 1.9 En una línea de producción se llenan automáticamente envases de plásticos con
detergente líquido. El peso de llenado tiene una distribución con forma de campana con un peso
promedio de 16 gramos y una desviación estándar igual a 0,25 gramos. Describir la variable a
partir de lo enunciado por la regla empírica.
Solución
Como la variable X = Peso de los envases de detergente cumple con las condiciones de la regla
tendremos que el intervalo:
35
µ ± σ = 16 ± 0.25 = [15, 75 ≤ X ≤ 16.25] gramos contendrá aproximadamente el 68 % de los
pesos de los envases
Los resultados que obtendremos son de suma importancia para los procesos inferenciales que ana-
lizaremos en capítulos posteriores.
¾Como se traduce esta regla si en lugar de utilizar los datos originales de la variable X utilizamos
sus valores estandarizados Z?
El valor estandarizado de la media µ se obtiene de la siguiente manera:
µ−µ
z= =0
σ
Para µ+σ su valor estandarizado es:
µ+σ−µ
z= =1
σ
El valor estandarizado de µ−σ es:
µ−σ−µ
z= = −1
σ
Procediendo de la misma manera se pueden encontrar los valores estandarizados de µ ± 2σ y de
µ ± 3σ ( se deja como tarea propuesta).
En la Figura 1.7 se muestran los intervalos originales que utilizamos para enunciar la Regla Empírica
(escala X) y sus correspondientes valores estandarizados (escala Z ).
Podemos enunciar entonces la Regla Empírica utilizando las escala Z de la siguiente manera:
El intervalo
36
[−3 ≤ Z ≤ 3] contiene aproximadamente el 99 % de las observaciones
La curva de frecuencias de Z seguirá teniendo forma de campana pues lo único que cambia es la
escala de medición de los valores de la variable original X.
Para todo conjunto de datos, y para toda constante k > 1 el intervalo µ ± kσ contiene al menos o
por lo menos 1 − k12 por ciento de las observaciones.
Por ejemplo, si k = 2, el intervalo µ ± 2σ = [µ − 2σ ≤ X ≤ µ + 2σ] contendrá por lo menos
1 3
1− 22 = 4 o el 75 % de las observaciones.
1 8
Si k=3 el intervalo µ ± 3σ = [µ − 3σleqX ≤ µ + 3σ] contendrá por lo menos 1− 32 = 9 o el
89 % de de los valores de la variable.
Ejemplo 1.10 Los datos que se presentan en la Tabla (1.12) representan los porcentajes renta
familiar asignados a la compra de alimentos en una muestra de 30 familias de la ciudad.
26 28 30 37 33 30
29 39 49 31 28 26
33 24 34 40 29 41
40 29 35 44 32 45
35 26 42 36 37 35
Solución
Primer punto:
Media:
26 + 28 + · · · + 37 + 35
x̄ = = 34.10
30
Luego, en promedio, estas 30 familias gastan el 34,10 % de su renta en la compra de alimentos.
Varianza:
Hemos visto que si k=2 la regla de Chebyshev asegura que por lo menos el 75 % de las observa-
ciones de la variable estarán en el intervalo x̄ ± 2(s).
Utilizando los valores calculados de x̄ y de s tendremos:
37
Por lo tanto, de acuerdo con lo enunciado por la desigualdad de Chebyshev el intervalo
[21.42 ≤ X ≤ 46, 78] contendrá por lo menos el 75 % de las observaciones de la variable.
A partir de los valores registrados en la Tabla (1.12) puede comprobarse que la única observación
que está fuera de este intervalo es x = 49.
Es decir, hay 29/30 = 0, 96 o el 96 % de las observaciones están comprendidas en el intervalo
vericándose de esta manera lo predicho por la regla.
Resulta que existen muchas otras distribuciones que no tiene esta forma presentándose distintos
tipos de sesgos o asimetrías.
En la Figura 1.8 se presenta tres formas características de curvas de frecuencias para variables
cuantitativas.
De la curva de frecuencia ubicada en el extremo izquierdo de la Figura 1.8 se dice que tiene sesgo
negativo o que es sesgada a izquierda. Note que en este tipo de curvas la media es menor que la
mediana y esta a su vez menor que la moda, es decir x̄ < Me < Mo .
La curva de frecuencia ubicada en el centro de la Figura 1.8 es simétrica, insesgada o que no tiene
sesgo. En este tipo de curvas de frecuencia la media, la mediana y la moda son iguales, es decir,
x̄ = Me = M0 .
Finalmente, de la cura de frecuencia ubicada más a la derecha de la Figura 1.8 se dice que sesgada
a derecha o que tiene sesgo positivo . En este tipo de curvas la moda es menor que la mediana y
esta a su vez menor que la media. Es decir, se da la siguiente relación: x̄ > Me > Mo .
Existen varias medidas descriptivas numéricas que son utilizadas para decidir el tipo de sesgo de
la curva de frecuencias de una variable cuantitativa.
Una de las más utilizadas es el coeciente de asimetría de Pearson que se dene de la siguiente
manera:
3(x̄ − Me )
CA = (1.21)
s
Entonces:
38
El coeciente de asimetría de Pearson es un número real comprendido en el intervalo real [-3,3], es
decir −3 ≤ CA ≤ 3.
Cuanto más cerca sea su valor a algunos de los extremos del intervalo, más asimétrica (negativa o
positiva) será la distribución.
Suponga que un conjunto de observaciones perteneciesen a una muestra tomada de una población
tenga una media x̄ = 2 436, una mediana Me = 2 459 y una desviación estándar s = 76.7
Por lo tanto
3(µ − Me )
CA = (1.22)
σ
Generalmente es desconocido y se lo estima por el muestral.
Si analista de mercados selecciona un grupo de familias con el n de realizar algún estudio socio-
económico, lo más probable es que además de recoger información sobre la renta familiar, registre
el número de personas que habitan la unidad familiar, el número de hijos que concurren a la
universidad, etc.
Existen muchas técnicas estadísticas diseñadas con el n de analizar múltiples variables registradas
sobre cada unidad observacional. Estas técnicas son muy utilizadas en la solución de problemas de
Administración y Economía. Las técnicas estadísticas diseñadas con el objetivo de analizar dos o
más variables sobre cada unidad observacional reciben el nombre técnicas multivariantes.
En esta sección analizaremos algunas de las técnicas descriptivas multivariantes diseñadas para
estudiar las propiedades de unidades observacionales en las cuales se registran los valores de dos
variables.
Ejemplo 1.11 Suponga que se recogieron datos sobre la evolución del stock de 40 PYMES que
si bien es cierto llevan un control de inventario, tuvieron ruptura de stock dentro de un período
determinado de tiempo. Las empresas consideradas tienen características similares. En la Tabla
(1.13) se presentan las frecuencias absolutas para cada par de vertibles.
Hay 5 empresas que producen 12 000 unidades y que han tenido una ruptura de stock
etc.
39
Producción
Ruptura 12.000 13. 000 15.000 Total
1 5 4 3 12
2 6 5 2 13
3 8 7 0 15
Total 19 16 5 40
Los totales que aparecen en los márgenes de la Tabla (1.13) se llaman precisamente totales margi-
nales.
Los totales marginales las se pueden leer de la siguiente manera:
De las 40 empresas 12 que han tenido una ruptura de stock independientemente de las
cantidades producidas
etc.
etc.
Si se divide cada una de las frecuencias absolutas de las celdas por 40, se obtienen las frecuencias
relativas respecto de gran total.
La Tabla (1.14) es la tabla de las frecuencias relativas respecto del gran total.
Producción
Ruptura 12.000 13.000 15.000 Total
1 0,125 0,10 0,075 0,30
2 0,15 0,125 0,05 0,325
3 0,20 0,175 0 0,375
Total 0,475 0,40 0,125 1,00
Algunas de las lecturas que pueden hacerse a partir de la información suministrada por la Tabla
(1.14) son las siguientes:
El 12,5 por ciento de las PYMES producen 12.000 unidades y han tenido una rupturas de
stock
El 10 por ciento de las PYMES producen 13.000 unidades y han tenido una ruptura de stock
etc.
Si cada una de las las se divide por el total de su la se obtienen las frecuencias relativas respecto
de los totales las.
La Tabla (1.15) muestra los resultados.
Algunas lecturas que pueden hacerse a partir de la información suministrada por la Tabla (1.15)
son las siguientes:
40
Producción
Ruptura 12 000 13 000 15 000 Total
1 0,42 0,33 0,25 1
2 0,42 0,39 0,15 1
3 0,53 0,47 0 1
Total 0,475 0,40 0,125 1
De las empresas que han tenido una rupturas de stock el 42 por ciento produce 12.000
unidades
De las empresas que han tenido una rupturas de stock el 33 por ciento produce 13.000
unidades
De las empresas que han tenido tres rupturas de stock ninguna produce 15.000 unidades
etc.
Finalmente, si cada una de las columnas de la tabla se divide por el total de la columna se obtienen
las frecuencias relativas respecto de los totales columnas.
En la Tabla (1.16) se muestran los resultados obtenidos.
Producción
Ruptura 12.000 13.000 15.000 Total
1 0,26 0,25 0,60 0,300
2 0,32 0,31 0,40 0,325
3 0,42 0,44 0 0,375
Total 1 1 1 1
Algunas lecturas que pueden hacerse a partir de la información suministrada por la Tabla (1.16)
son las siguientes:
De las empresas que producen 12.000 unidades, el 26 por ciento tuvo una ruptura de stock
las empresas que producen 12.000 unidades, el 32 por ciento tuvo dos veces ruptura de stock
De las empresa que producen 15.000 unidades ninguna tuvo 3 rupturas de stock
etc.
En el cuerpo de la tabla se anotan las frecuencias absolutas conjuntas y en los márgenes las
frecuencias marginales que son las observaciones de una categoría en particular independientemente
de la otra variable.
Tienen el mismo tratamiento estadístico que las tablas para datos numéricos.
Por ejemplo, en la Tabla (1.17) se presenta una muestra de 40 casas de la ciudad en las cuales se
han registrado el tipo de vivienda (A, B y C) y el tipo de cochera de cada uno de los hogares.
41
Tipo de cochera
Un Dos Más de dos
Tipo de vivienda Ninguna Total
automóvil automóviles automóviles
A 1 4 4 3 12
B 2 12 3 1 18
C 4 4 2 0 10
Total 7 20 3 4 40
1. Existe alguna relación entre los años de antigüedad de un empleado en una empresa y su
producción?
2. Existe alguna relación entre lo que una empresa gasta en publicidad y el importe de sus
ventas posteriores?
3. Pueden relacionarse de alguna manera las notas de un estudiante en el nivel medio con las
notas en la universidad?
4. etc.
En la Tabla (1.18) se muestran las datos de un muestra de 10 semanas donde las ventas se expresan
en miles de dólares.
42
Puede verse a partir de la información suministrada por la Tabla (1.18) que el primer n de semana
se pasaron 2 comerciales y las ventas posteriores fueron de 50 mil dólares.
El segundo n de semana se pasaron 5 comerciales y las ventas posteriores fueron de 57 mil dólares,
etc.
Puede verse que aún teniendo pocas observaciones (10 semanas) tratar de decidir cuál es la na-
turaleza de la relación entre las dos variables resulta una tarea casi imposible a partir de la sola
lectura de la información tabulada.
Un diagrama de este tipo consta de un par de ejes perpendiculares entre si (uno horizontal)
Los valores de una de las variables, cantidades de comerciales x por ejemplo, se registran en el eje
horizontal y los valores de la otra variable, volumen de ventas y en el eje vertical.
En la primera semana se tiene que x=2 y y = 50. En el diagrama de dispersión se graca un
punto con estas coordenadas.
El diagrama indica una relación positiva entre la cantidad de comerciales y las ventas en el sentido
de que las mayores ventas se asocian con mayores cantidades de comerciales.
La relación no es perfecta porque los puntos no se encuentran sobre la gráca de alguna función
conocida.
Sin embargo, el comportamiento general de los puntos sugieren que la relación general se puede
aproximar por medio de una línea recta de pendiente positiva.
En la Figura 1.10 puede apreciarse otro patrón de la relación entre dos variables.
Se trata de una relación negativa entre las variables pues y tiende a disminuir a medida que x
aumenta.
Se dice también que entre las variables existe una correlación negativa.
Tampoco la relación entre las variables es perfecta pues no existe ninguna función conocida que
pase exactamente por todos los puntos del diagrama de dispersión pero como se aprecia, una recta
de pendiente negativa puede utilizarse para aproximar la relación entre x e y
Ahora bien, no siempre existe una relación tan denida entre dos variables o inclusive puede ocurrir
que las variables no estén relacionada en absoluto.
43
Figura 1.10: Correlación negativa
Si bien es cierto los diagramas de dispersión son muy útiles para estudiar el tipo de relación
entre dos variables, en general se busca acompañarlos de alguna medida descriptiva numérica que
cuantique la relación entre las variables.
1.10.2. Covarianza
Para una muestra de n parejas de datos (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ) de dos variables cuantitativas
X e Y, la covarianza muestral se dene de la siguiente manera:
Pn
i=1 (xi − x̄)(yi − ȳ)
sxy = (1.23)
n−1
O bien
44
En la Ecuación 1.24 cada valor de xi está emparejado con el valor yi correspondiente.
Apliquemos la Ecuación 1.24 para calcular la covarianza entre las variables cantidad de comerciales
(x) y volumen de ventas (y).
En primer lugar calculamos las medias de estas dos variables.
Entonces:
30
x̄ = =3
10
Por otro lado:
510
ȳ = = 51
10
Por lo tanto:
PN
i=1 (xi − µx )(yi − µy )
σxy = (1.25)
N
Donde µx y µy son las medias poblacionales de de las variables X e Y
La covarianza poblacional difícilmente se conozca y por ello se la estima por medio de sxy .
Para entender como se interpreta la covarianza muestral analicemos la Figura 1.12 que no es más
que la Figura 1.9 pero con una recta vertical trazada por x̄ = 3 y otra recta horizontal trazada por
ȳ .
Al proceder de esta manera el plano de la gura se divide en cuatro partes o cuadrantes denomi-
nados, I, II, III y IV.
Los puntos del diagrama de dispersión ubicados en el primer cuadrante (I) corresponden a valores
de xi mayores que x̄ y valores de yi mayores que ȳ .
Por otro lado, los puntos del diagrama ubicados en el tercer cuadrante (III) corresponden a valores
de xi menores que x̄ y valores de yi menores que ȳ .
45
Por lo tanto, para los puntos del diagrama de dispersión ubicados en el primer y tercer cuadrante
los valores de (xi − x̄)(yi − ȳ) deben ser positivos.
Puede deducirse de manera semejante que para los puntos ubicados en el segundo y cuarto cua-
drante, los productos (xi − x̄)(yi − ȳ) deben ser negativos.
Si el valor de sxy es positivo, los puntos que tuvieron mayor peso en la determinación de su valor
y signo estarán en el segundo y tercer cuadrante.
Por consiguiente, un valor positivo de sxy indica una relación lineal positiva entre las variables x
e y. Es decir, al aumentar los valores de una de las variables, también aumentan los valores de la
otra.
Sin embargo, si el valor de sxy es negativo, los puntos que tuvieron mayor peso en la determinación
de su valor y signo estarán en los cuadrantes II i IV.
Por lo tanto, un valor negativo de sxy indica una asociación lineal negativa entre X e Y. Esto es,
al aumentar los valores de una de las variables disminuyen los de la otra.
Por último, si los puntos del diagrama de dispersión se distribuyen uniformemente en los cuatro
cuadrantes, el valor de sxy será cercano a cero pues los valores con signo positivo se compasarán
con los de signo negativo indicando que no hay una relación lineal entre las variables x e y.
Para el ejemplo que estamos analizando, y como es de esperar, el valor de la covarianza es positivo,
es decir (sxy > 0).
De acuerdo con el razonamiento anterior, parecería que un valor positivo grande de la covarianza
indica una fuerte relación lineal positiva y que un valor negativo grande indicaría una fuerte relación
lineal negativa.
Sin embargo, un problema del uso de la covarianza como medida de la intensidad de la relación
lineal es que su valor depende de las unidades en las que se miden las variables xyy y que además,
el valor de sxy puede verse afectado por valores extremos de las variables.
Para evitar esta dicultad se usa el coeciente de correlación lineal de Pearson que sirve para
medir la fuerza de la relación lineal entre las variables.
Donde:
Calculamos a continuación el coeciente de correlación lineal de Pearson para los datos de las
variables cantidad de comerciales y volumen de ventas.
Es posible vericar aplicando las respectivas fórmulas de cálculo que sx = 1, 49 y que sy = 7, 93.
Por lo tanto
11
rxy = = 0.93
(1, 49)(7, 93)
La Fórmula 1.26 recibe el nombre de fórmula de denición del coeciente de correlación.
46
A partir de ella, y mediante algunas manipulaciones algebraicas puede obtenerse la siguiente ex-
presión
Pn
xi n
P
i=1 yi
Pn
i=1 xi yi −
i=1
n
rxy = r r (1.27)
Pn 2 Pn 2
Pn 2 ( i=1 xi ) Pn 2 ( i=1 yi)
i=1 xi − n i=1 yi − n
Que puede utilizarse también para calcular el coeciente de correlación lineal de Pearson.
Para poder utilizar la Ecuación 1.25 debemos realizar previamente algunos cálculos auxiliares. Los
presentamos en la Tabla (1.19).
Semana x y xy x2 y2
1 2 50 100 4 2.500
2 5 57 285 25 3.249
3 1 41 41 1 1.681
4 3 54 162 9 2.916
5 4 54 216 16 2.l916
6 1 38 38 1 1.444
7 5 63 315 25 3.969
8 3 48 144 9 2.304
9 4 59 236 16 3.481
10 2 46 92 4 2.116
Total 30 510 1.629 110 26.576
Por lo tanto
1.629 − (30)(510)
10
rxy = √ √ = 0, 93
110 − 90 26.576 − 26.010
El coeciente de correlación lineal de Pearson para una población se dene de la siguiente manera:
σxy
ρxy = (1.28)
σx σy
Donde
La recta que se trazó y que pasa por cada uno de los tres puntos indica que hay una relación lineal
perfecta entre las variables x e y.
Puede vericarse son dicultad que
220 − 6(90)/3
rxy = p p =1
14 − 62 /3 3.500 − 902 /3
47
x y
1 10
2 30
3 50
Vemos que el valor del coeciente de correlación muestral para este conjunto de datos es igual a 1.
En general, si todos los puntos de un conjunto de datos se encuentran ubicados sobre un misma
línea recta de pendiente positiva, el valor del coeciente de correlación lineal de Pearson será igual
a a +1.
Esto es, un coeciente de correlación muestral igual a +1 corresponde a una relación lineal positiva
perfecta entre las variables x e y.
Por otro lado, si los puntos de un conjunto de datos están en una recta que tiene pendiente negativa,
el valor del coeciente de correlación muestral será igual a −1.
Es decir, un coeciente de correlación muestral igual a −1 indica una relación lineal negativa
perfecta entre las variables x e y.
Supongamos ahora que, para cierto conjunto de datos, hay una relación lineal positiva entre x e y
pero que esta relación no es perfecta. El valor de rxy será menor que uno, lo que implica que los
puntos del diagrama de dispersión no están perfectamente alineados.
A medida que los puntos del diagrama de dispersión se desvían más y más de una relación lineal
positiva perfecta, el valor del coeciente de correlación rxy se irá haciendo más cercano a cero.
Un valor de rxy igual a cero indica que no hay relación lineal entre las variables. Los valores del
coeciente de correlación lineal cercanos a cero señalan una relación lineal débil.
Es indudable que la recta describe razonablemente bien la relación entre las variables.
4
48
Figura 1.14: Diagrama de dispersión y recta de mejor ajuste
Sin embargo, el enunciado recíproco no es siempre verdadero pues puede ser rxy = 0 y aun así las
variables estar relacionadas.
Recuerde que rxy mide la fuerza de la relación lineal entre dos variables. Las variables xey pueden
estar relacionadas de manera no lineal y en ese caso rxy = 0, no porque no estén relacionadas sino
porque no lo están linealmente.
49
Capítulo 2
Introducción a la Probabilidad
Los datos generalmente se recogen y analizan para obtener alguna conclusión de la población de
la cual han sido seleccionados. Dijimos que este proceso recibe el nombre de inferencia estadística.
Sin importar que tan buena haya sido la muestra seleccionada de la población, siempre estará
presente la incertidumbre de que los resultados obtenidos a partir de ella describen correctamente
las característica de la población estudiada.
La Estadística, como disciplina para toma de decisiones bajo incertidumbre, se basa en la teoría
de probabilidades, porque la probabilidad es el lenguaje y la medida de la incertidumbre y de los
riesgos asociados a ella.
Antes de estudiar los procesos inferenciales, se deben conocer y manejar algunos conceptos básicos
de la teoría de la probabilidad. En este capítulo desarrollaremos los conceptos mínimos necesarios
para poder entender y aplicar las técnicas básicas de la inferencia estadística.
Estos conceptos son los siguientes: experimento aleatorio, espacio muestral, punto muestral y even-
to.
Los denimos a continuación.
Experimento aleatorio
Los especialistas en estadística utilizan la palabra experimento para describir cualquier proceso
que genere un conjunto de datos.
Por ejemplo, arrojar repetidamente una moneda al aire y registrar el resultado obtenido en cada
intento (cara o cruz) es un experimento que generará datos. Aquí hay solo dos resultados posibles
en cada lanzamiento.
Seleccionar votantes de un padrón y registrar sus opiniones respecto de un nuevo impuesto puede
considerarse como las observaciones obtenidas de otro experimento.
En los dos casos, los resultados dependen del azar y por lo tanto no pueden pronosticarse con
certidumbre. Es por ello que a este tipo de experimentos se los denominan aleatorios o estadísticos.
Los experimentos aleatorios tienen las siguientes propiedades:
Pueden realizarse tantas veces como se quiera bajo las mismas condiciones
51
Antes de realizar una repetición del experimento no se sabe cuales de los resultados posibles
ocurrirá
Espacio muestral
Al conjunto de todos los resultados posibles de un experimento aleatorio se lo denomina espacio
muestral. En general se lo representa con la letra S.
Por ejemplo, el espacio muestral que resultará al arrojar una moneda y registrar el resultado
obtenido es S = {C, +} donde C es el resultado obtener cara y + es el resultado obtener cruz.
Si el experimento consiste en lanzar un dado y registrar el resultado obtenido, una manera de
denir el espacio muestral es:
S1 = {1, 2, 3, 4, 5, 6}
Otra forma de denir el espacio muestral para el mismo experimento es:
S2 = {Par, Impar}
Puede verse que en algunos casos es posible denir el espacio muestral de un experimento aleatorio
de distintas maneras.
Sin embargo, S1 proporciona más información que S2 pues al armar que el resultado es par, no
podemos saber si se obtuvo 2, 4 o 6.
Por ejemplo, en el experimento que consiste en arrojar un dado, los resultados {1} o {5} son eventos
simples o puntos muestrales.
Ejemplo 2.1 Suponga que se selecciona en forma aleatoria tres artículos de un proceso de manu-
factura. Se examina cada uno de ellos y se los clasica como defectuoso (D) o no defectuoso (N ).
Determinar el espacio muestral.
Solución
En este ejemplo es un poco más complicado denir el espacio muestral del experimento. Un dia-
grama de ramas pude utilizarse para determinar los puntos muestrales.
S = {1, 2, 3, 4...}
En este ejemplo, el resultado 1 signica que se encontró un defectuoso en la primera selección. El
resultado 2 signica que hubo que hacer dos selecciones para dar con el primer defectuoso, etc.
Finalmente consideremos el siguiente experimento: se toma una lámpara de luz hogareña al azar
de una línea de producción y se mide el tiempo de duración en horas antes de que falle.
52
En este caso, un enunciado o regla describe mejor el espacio muestral.
S = {t : t ≥ 0}
Eventos
En muchas situación prácticas, puede resultar de interés analizar las propiedades probabilísticas
de un subconjunto de un espacio muestral.
Considerando los datos del Ejemplo 2.1, podría ser de interés calcular la probabilidad de que el
número de artículos defectuosos seleccionados sea mayor que uno. Es decir, calcular la probabilidad
de que ocurra A = {DDN, DN D, N DD, DDD} de S.
Denición 2.2 El complemento del evento A respecto del espacio muestral S es el evento formado
por todos los puntos muestrales de S que no están en A.
Denición 2.4 Dos eventos A y B son mutuamente excluyentes si A ∩ B = ∅, esto es, no tienen
resultados comunes.
53
Con frecuencia interesa la presencia de al menos uno de los dos eventos que se asocian a un
experimento aleatorio.
Tal evento que se denomina unión de A y B sucederá si el resultado es un punto muestral de evento
{2, 4, 5, 6}.
Denición 2.5 La unión de dos eventos A y B , que se simboliza A ∪ B es el evento que contiene
los puntos muestrales de A, de B o de ambos.
Otro ejemplo, si A = {1, 3, 5} y B = {2, 4, 6} son dos eventos de S = {1, 2, 3, 4, 5, 6}, entonces
A∪B =S
Por lo tanto, el siguiente paso en nuestro análisis es ver la forma de asignar un número a cada
evento de un espacio muestral que mida la probabilidad de que el evento ocurra cuando se realiza
el experimento.
Resulta que hay varias formas de realizar esta tarea. Pero, independientemente a la forma de
hacerlo, deben cumplirse las condiciones que se listan en la siguiente denición.
2. Pr(S) = 1
La elección de las dos primeras condiciones es fundamental para entender que se pretende cuando
se asigna una probabilidad a un evento de un espacio muestral.
Se busca una manera de asignar un número a la posibilidad de que el evento ocurra cuando se
realiza el experimento.
Si el número es cercano a cero, se concluye que casi no hay posibilidad de que el evento ocurra.
Cuanto más cercano se al el número a uno, habrá más posibilidad de que ocurra.
Tal como lo hemos dicho anteriormente, en la teoría de probabilidades se conviene que ha ocurrido
un evento cuando al realizar la experiencia se obtiene alguno de sus puntos muestrales.
Como al realizar la experiencia siempre ocurrirá el evento S, es por eso que Pr(S) = 1
La tercera condición se elige por cuestiones teóricas que analizaremos un poco más adelante.
Queda pendiente aún la respuesta a la pregunta de como denir la función de probabilidad Pr.
Nosotros analizaremos tres deniciones posibles.
54
Denición 2.7 Si un experimento puede producir n resultados igualmente probables y mutuamente
excluyente, y si dentro de estos n resultados el evento A puede ocurrir nA veces, la probabilidad
del evento A que se escribe Pr(A) se dene de la siguiente manera:
nA
Pr(A) = (2.1)
n
Por ejemplo, supongamos que se arroja un dado de seis caras y nos interesa saber cuál es la
probabilidad de obtener un número par.
El espacio muestral del experimento es S = {1, 2, 3, 4, 5, 6}. Podemos denir el evento de interés
como A = {2, 4, 6}.
Por lo tanto, como el evento A puede ocurrir de tres formas mutuamente excluyentes, y como
además hay seis resultados posibles, entonces:
3
Pr(A) = = 0.5
6
¾Cuál sería la probabilidad de obtener un número impar en el mismo experimento?
3
Pr(B) = = 0.5
6
Es decir, en este experimento, es igualmente probable obtener un número par que un impar.
1
Pr(1) = Pr(2) = · · · = Pr(6) =
6
Observe que en estos ejemplo no fue necesario realizar los experimentos descritos para calcular las
probabilidades. Bastó con emplear un razonamiento lógico previo.
Si bien es cierto nosotros no lo haremos, es posible demostrar que esta denición de probabilidad
cumple con las tres condiciones para ser una función de probabilidad.
Una desventajas de la denición clásica de probabilidad es que se debe suponer que los resultados
individuales sean igualmente probables, suposición que en muchos de los problemas prácticos no
se cumple.
Por ejemplo, ¾ cuál es la probabilidad de obtener cara al arrojar una moneda desde el punto de la
probabilidad como frecuencia relativa?
Según esta forma de asignar probabilidades, la solución se consigue arrojando la moneda un gran
numero de veces y calculado la proporción de veces que se obtuvo cara.
Por ejemplo, si de las 100 veces que se arrojó la moneda, 45 veces se obtuvo cara, entonces la razón
45/100 se utiliza como una estimación de la probabilidad de obtener cara para esta moneda.
Este enfoque tiene la particularidad de que aun cuando la moneda esté perfectamente balanceada,
puede que no se obtenga exactamente 50 caras en 100 lanzamientos. Es decir, no esperamos que la
frecuencia relativa sea exactamente 1/2 como en el método de asignación de probabilidades clásico.
Sin embargo, si la moneda está perfectamente equilibrada, al repetir muchas veces el experimento,
el cociente entre el número de veces que ocurre el resultado cara y el número de veces que se
realizó la experiencia se acercará el valor 1/2 que predice el método clásico. Esto nos permite dar
la siguiente denición:
55
Denición 2.8 Si un experimento se ejecuta n veces en las mismas condiciones y hay x resultados
(x ≤ n) en el que ocurrió un evento, entonces una estimación de la probabilidad de ese evento es
la razón x/n. Además, el cociente x/n se acerca a la verdadera probabilidad del evento cuando el
número de repeticiones aumenta.
Es decir, para el eventos A del espacio muestral S de un experimento aleatorio, la Pr(A) se estimaría
de la siguiente manera:
x
Pr(A) = lı́m (2.2)
n→∞ n
donde lı́mn→∞ debe entenderse cuando el número de pruebas aumenta sin límites.
Como en realidad no pueden realizarse innitas repeticiones de un experimento aleatorio, lo que
en la práctica se hace es lograr una estimación de dicha probabilidad basada en n grande.
Por comodidad trataremos la estimación de Pr(A) como si en realidad fuera Pr(A) escribiendo la
denición de probabilidad como frecuencia relativa como
x
Pr(A) =
n
¾Como se entiende en los hechos este concepto? Supongamos que se quiere saber cuál es la proba-
bilidad de obtener A = {1} al arrojar un dado.
Para responder esta pregunta se debe tirar el dado un gran número de veces. De acuerdo con este
razonamiento, se espera que a largo plazo, o en promedio, cada una de las seis caras de dado caerá
1/6 de las veces.
En este sentido se dice que la probabilidad de obtener A al tirar el dado es 1/6 y lo expresamos
de la siguiente manera:
1
Pr(A) = Pr {1} =
6
También puede demostrarse que esta denición de probabilidad cumple con las tres condiciones de
la denición de una función de probabilidad.
En primer lugar, no parece razonable asumir que la probabilidad de que la acción aumente de
cotización sea la misma que la probabilidad de que no aumente. Es decir, no suena lógico aplicar
las condiciones de la denición clásica de probabilidad.
Además, como se trata de un evento futuro, no hay manera de repetir la experiencia. Es decir, no
se puede aplicar la denición de probabilidad como frecuencia relativa.
En esto caso, la información que pueda tener el analista acerca del estado nanciero de la empresa
que emite la acción, de la situación económica global existente y la experiencia del analista pueden
servir de ayuda para hacer evaluaciones probabilísticas.
56
2. Pr(A) = 1 representa la certeza de que el evento ocurrirá
3. 0 < Pr(A) < 1 representa el grado de certeza de que el evento ocurrirá
Esto es, la probabilidad subjetiva de la ocurrencia de un evento es un número asignado por una
persona y que representa el grado de conocimiento que tiene sobre el evento en particular.
Otra persona, con la misma o distinta información podría asignar un número distinto. De allí el
nombre de probabilidad subjetiva
Esta denición de también cumple las condiciones para ser una función de probabilidad.
Teorema 2.1 La probabilidad del evento vacío ∅ (evento que no puede ocurrir cuando se realiza
un experimento) es igual a cero. Es decir Pr(∅) = 0.
Prueba
De acuerdo con las propiedades de los conjuntos en general, y de los eventos de un espacio muestral
en particular:
S∪∅=S
Como los eventos son iguales, su probabilidad también los será. Es decir
Pr(S ∪ ∅) = Pr(S)
Prueba
A ∪ A′ = S
Por lo tanto:
Pr(A ∪ A′ ) = Pr(S)
57
Pr(A ∪ A′ ) = Pr(A) + Pr(A′ ) = 1
Luego: Pr(A) = 1 − Pr(A′ ) como se quería demostrar.
Ejemplo 2.2 Suponga que en una urna hay 4 bolitas blancas y 6 bolitas rojas. Se extrae de la
urna una bolita al azar. Sea A = La bolita extraída es roja. Compruebe que Pr(A) = 1 − Pr(A′ )
Solución
6
Pr(A) =
10
Por otro lado:
4 6
1 − Pr(A) = 1 − =
10 10
Por lo tanto
Pr(A) = 1 − Pr(A′ )
como lo asegura la propiedad.
El siguiente resultado que damos sin demostración se utiliza para el cálculo de probabilidades de
eventos más complejos.
Ejemplo 2.3 Una empresa recibe 25 solicitudes para una vacante en un puesto de gerente. Entre
las solicitudes, 10 son de hombres y 15 de mujeres. Además, 17 de los solicitantes acreditan título
de maestría y 8 poseen certicado de cursado del último año del posgrado. Por último, 10 de
los solicitantes poseen título de maestría y son mujeres. Se realiza una selección al azar entre
los solicitantes, ¾cuál es la probabilidad de que sea seleccionada una mujer o una persona con
certicado del último año de la maestría.
Solución
15 8 5 18
Pr(A2 ∪ B2 ) = + − = = 0, 72
25 25 25 25
58
Título
Sexo Título de maestría B1 Certicada último año B2 Total
Hombre A1 7 3 10
Mujer A2 10 5 15
Total 17 8 25
¾Cómo se realizaría este cálculo? Sigue habiendo un caso favorable al evento A pero ahora los casos
1
posibles son B = {2, 4, 6} . Por lo tanto, Pr(A) = 3.
La probabilidad de obtener el evento A dado que ha ocurrido el evento B recibe el nombre de
probabilidad condicional, se simboliza Pr(A \ B) y debe leerse como la probabilidad de A dado que
ocurrió B o simplemente probabilidad de A dado B.
La probabilidad de obtener A = {2} dado que ocurrió el evento B = {2, 4, 6} se puede encontrar
de otra manera
Por lo tanto
1
Pr(A ∩ B) =
6
3
Por otro lado Pr(B) = .
6
Calculemos el cociente de estos dos resultados, es decir
Pr(A ∩ B) 1/6 1
= =
Pr(B) 3/6 3
59
Pr(A ∩ B)
Pr(B)
se utiliza habitualmente como denición de probabilidad condicional.
Pr(A ∩ B)
Pr(A \ B) = (2.5)
P (B)
En general, al evento B se lo denomina condicionante y al evento A evento condicionado.
Ejemplo 2.4 Una ocina de acción social lleva a cabo un censo de todas las personas que viven
en una pequeña comunidad. Los encuestadores vuelcan a una tabla el número de visitas que una
persona hace a un centro de salud y las condiciones sanitarias de la vivienda que habita. Los
resultados se presentan en la Tabla (2.2)
¾ Cuál es la probabilidad de que una persona seleccionada al azar viva en malas condiciones sani-
tarias dado que visita dos veces o menos el centro de salud?
Condiciones sanitarias
Número de visitas Buenas Malas (A) Total
Dos o menos (B) 700 100 800
Más de 2 800 400 1.200
Total 1.500 500 2.000
Solución
500
Pr(A) = = 0.25
2.000
Ejemplo 2.5 El 50 % de los estudiantes de una facultad tiene clases por la mañana, el 30 % tiene
clases por la tarde y el 20 % tiene clases por la mañana y por la tarde. Se selecciona un estudiante
al azar. Calcular la probabilidad de que:
1. Tenga clases por la tarde dado que tiene clases por la mañana
2. Tenga clases por la mañana dado que tiene clases por la tarde
Solución
60
Primer punto:
Pr(A ∩ B) 0.20
Pr(B \ A) = = = 0, 40
Pr(A) 0, 50
Segundo punto:
P (A ∩ B) 0.20
Pr(A \ B) = = = 0, 67
Pr(B) 0, 30
La denición de probabilidad condicional nos puede dar una forma de calcular la probabilidad de
la intersección de dos eventos.
Hemos denido la probabilidad condicional del evento A dado que ocurrió el evento B de la siguiente
manera:
Pr(A ∩ B)
Pr(A \ B) =
Pr(B)
Esta expresión recibe el nombre de regla de la multiplicación que puede formularse de la siguiente
manera:
Observe que en esta denición los eventos AyB se pueden intercambiar de tal forma que el término
de la derecha de la Ecuación 2.5 se puede escribir también como Pr(B \ A)P (A).
Ejemplo 2.6 Considerando nuevamente los datos del Ejemplo (2.3) emplear la regla de la mul-
tiplicación para calcular la probabilidad de que una selección al azar de un solicitante de como
resultado una mujer y una persona con certicado de último año.
Solución
Por lo tanto:
5 8 1
Pr(A2 ∩ B2 ) = = = 0, 20
8 25 5
Denición 2.12 Se dice que los eventos A y B de un mismo espacio muestral S son independientes
si Pr(A \ B) = Pr(A) o bien Pr(B \ A) = Pr(B). De lo contrario se dice que los eventos son
dependientes.
61
El concepto de eventos independientes es importante cuando se quiere evaluar la probabilidad
Pr(A ∩ B), es decir, la probabilidad de que ocurran A y B conjuntamente.
P (A ∩ B)
Pr(A \ B) =
P (B)
Por lo tanto
Ejemplo 2.7 En cierto grupo de estudiantes formado por 60 mujeres y 40 hombres, se observa
que 24 de estos usan lentes lo mismo que 16 mujeres. Determinar si la característica usar lentes y
ser mujer son independientes.
Utiliza lentes
Sexo Si utiliza No utiliza Total
Mujer 16 44 60
Hombre 24 16 40
Total 40 60 100
Solución
16
Pr(A ∩ B) =
20
Por otro lado
40 60
Pr(A) Pr(B) = = 0, 24
10 10
Por lo tanto, para este grupo de estudiantes los eventos A y B no son independientes.
62
Capítulo 3
probabilidad
Son los conceptos de variable aleatoria y el de distribución de probabilidad de una variable aleatoria
necesarios para una correcta compresión y utilización de las técnicas inferenciales que estudiaremos
en esta asignatura.
En el capítulo anterior denimos lo que entendíamos por experimento aleatorio. Decíamos entonces
que un experimento aleatorio tenía tres características que lo diferenciaban de los determinísticos:
Como veremos con algunos ejemplo, todo experimento aleatorio puede generar variables algunas
de las cuales pueden ser de interés para un analista.
Supongamos el siguiente experimento aleatorio. Se arroja tres veces una moneda honesta y se
registra los resultados obtenidos.
Los valores que puede asumir esta variable son los siguientes:
63
4. X = 3 que se corresponde con el evento A4 = {CCC} o lo que es lo mismo se obtuvieron tres
caras
Puede verse la estrecha relación que existe que los resultados de la variable X y los eventos del
espacio muestral denido por el experimento aleatorio.
Denición 3.1 Si los valores de una variable están precedidos por una selección aleatoria de los
objetos medidos o son el resultado de algún experimento aleatorio la variable recibe el nombre de
variable aleatoria.
Por lo tanto, la variable X es una variable aleatoria pues sus posibles resultados dependen del azar.
X = 0, 1, 2, 3
Las variables aleatorias usualmente se denotan con las letras X, Y, W, Z etc. y sus valores con las
respectivas minúsculas.
Las variables aleatorias pueden clasicarse en discretas y continuas. Comenzaremos estudiando las
variables aleatorias discretas dejando para más adelante el estudio de las continuas.
Denición 3.2 Una variable aleatoria discreta puede asumir un número nito o innito de valores
separados entre sí por alguna cantidad.
La variable
Suponga que se realiza un experimento aleatorio que consiste en contar el número de clientes que
ingresan a un banco cada hora 3n busca de algún servicio. La variable aleatoria de interés es la
siguiente:
X= Número de clientes que ingresan al banco cada hora en busca de algún servicio
X = 0, 1, 2, ..., etc
Se trata también de una variable aleatoria discreta pero con un número innito (al menos en teoría)
de valores posibles.
Los valores de una variable aleatoria pueden considerarse como una descripción numérica de los
eventos de un espacio muestra.
Es decir, para una variable aleatoria discreta X la expresión (X = x) se relaciona con un evento
del espacio muestral.
Por lo tanto se podrá calcular Pr(X = x) basándonos en las propiedades del experimento.
Denición 3.3 La distribución de probabilidad de una variable aleatoria discreta es una tabla,
una fórmula o cualquier otro mecanismo que se utilice para especicar todos sus valores posibles
junto con sus respectivas probabilidades.
Asumiendo que todos los resultados son igualmente probables tendremos entonce que:
64
1
1. Pr(X = 0) = Pr(A1 ) = 8
3
2. Pr(X = 1) = Pr(A2 ) = 8
3
3. Pr(X = 2) = Pr(A3 ) = 8
1
4. Pr(X = 3) = Pr(A4 ) = 8
Los valores de la variable aleatoria X y sus respectivas probabilidades puede resumirse como en la
Tabla (3.1):
X p(x) = P (X = x)
0 1/8
1 3/8
2 6/8
3 1/8
X p(x) = P (X = x)
x1 p(x1 )
x2 p(x2 )
... ...
xn p(xn )
Las probabilidades de la variable aleatoria número de caras al arrojar tres veces una moneda
también se pueden calcular mediante la siguiente fórmula:
3! 1
p(x) =
x!(3 − x)! 8
con X = 0, 1, 2, 3
La expresión x! recibe el nombre de factorial de x y se dene de la siguiente manera:
0! = 1
1! = 1
Ahora estamos en condiciones de aplicar la fórmula p(x) para calcular las probabilidades de la
variable X= de nuestro ejemplo.
3! 1 3! 1 1
p(0) = = =
0!(3 − 0)! 8 1 × 3! 8 8
3! 1 3! 1 3
p(1) = = =
1!(3 − 1)! 8 1 × 2! 8 8
65
El resto de las probabilidades pueden obtenerse de la misma manera.
La función p(x) que permite calcular la probabilidad de cada uno de los valores de una variable
aleatoria discreta X recibe el nombre de función de probabilidad
También puede utilizarse un diagrama de barras como el de la Figura (3.1) como distribución de
probabilidad de la variable X.
En el eje horizontal se anotan los valores de la variable y en eje vertical las probabilidades.
En cualquier caso se deben cumplir las siguientes condiciones para que cualquier mecanismo (tabla,
fórmula o gráco) pueda considerarse como la distribución de probabilidad de una variable aleatoria
discreta X.
Estas condiciones son las siguientes:
1. 0 ≤ p(x) ≤ 1
P
2. x p(x) = 1
¾ Cómo podemos interpretarlo y relacionarlo con los conceptos previos que hemos desarrollado
hasta el momento?
Supongamos que se lanza efectivamente tres veces una moneda una gran cantidad de veces y que
se registra el número de caras observadas en cada lanzamiento.
66
Denición 3.5 Sea X una variable aleatoria discreta que toma los valores x1 , x2 , ..., xn con pro-
babilidades p(x1 ), p(x2 ), ..., p(xn ) respectivamente. El valor esperado de X se denota y se dene de
la siguiente manera:
n
X
E(X) = µ = xp(x) = x1 p(x1 ) + x2 p(x2 ) + ... + xn p(xn ) (3.1)
i=1
Con algunos ejemplos veremos como interpretar el valor esperado de una variable aleatoria discreta.
Supongamos que dos jugadores A y B se enfrentan en un juego que consiste en lanzar una moneda
al aire. Si sale cara A gana un peso, pero si sale cruz A pierde un peso.
X = −1, +1
Supongamos que la moneda está perfectamente balanceada, por lo tanto, la probabilidad de obtener
cara 0 cruz es igual 0, 5.
Luego, la distribución de probabilidad de la variable aleatoria X se puede expresar como en la
Tabla (3.3).
X p(x) = P (X = x)
-1 0,5
+1 0,5
Esto signica que si el jugador juega un gran número de veces a este juego, a la larga no ganará
ni perderá dinero.
Ejemplo 3.1 Sea X una variable aleatoria discreta que toma los valores x1 , x2 , ..., xn todos con la
misma probabilidad de ocurrencia. Halle la expresión del valor esperado de la variable y comente
los resultados
Solución
1
Pr(x1 ) = Pr(x2 ) = · · · = Pr(xn ) =
n
Por lo tanto:
1 1 1 x1 + x2 + · · · + xn
E(X) = x1 + x2 + · · · + xn =
n n n n
Pero esta última expresión no es más que la media o promedio de una población de n observaciones.
Por lo tanto, la media o promedio que denimos y analizamos en el Capítulo 1 no es más que un
caso particular del valor esperado de una variable aleatoria en la cual todos sus valores tienen la
misma probabilidad.
67
Dicho de otra manera, el valor esperado de una variable aleatoria es una media ponderada por
probabilidades. Las ponderaciones indican el peso que tiene cada valor de la variable en el conjunto
de valores.
Otro de los parámetros de una variable aleatoria discreta X es su varianza que se dene de la
siguiente manera:
Denición 3.6 Se X una variable aleatoria discreta que toma los valores x1 , x2 , ..., xn con proba-
bilidades p(x1 ), p(x2 ), ..., p(xn ), la varianza de X se denota y dene de la siguiente manera:
n
X
V (X) = σ 2 = (xi − µ)2 p(xi ) = (x1 − µ)2 p(x1 ) + (x2 − µ)2 p(x2 ) + · · · + (xn − µ)2 p(x1 ) (3.2)
i=1
3
X 1 3 3 1 12
E(X) = xi p(xi ) = 0 +1 +2 +3 = = 1, 5
i=1
8 8 8 8 8
La varianza de X es entonces:
1 3 3 1
V (X) = (0 − 1.5)2 + (1 − 1.5)2 + (2 − 1.5)2 + (3 − 1.5)2 = 0, 75
8 8 8 8
Ejemplo 3.2 Considerando nuevamente los datos y las condiciones del Ejemplo 3.1 calcule la
varianza de las observaciones y comente el resultado obtenido.
Solución
De acurdo con la denición de varianza de una variable aleatoria y de las condiciones del problema
tendremos que:
1 2 2 1 2 1
V (X) = (x1 − µ) + (x2 − µ) + · · · + (xn − µ)
n n n
Por lo tanto
Denición 3.7 Sea X una variable aleatoria discreta, la desviación estándar de X se dene como
la raíz cuadrada positiva de la varianza- Se simboliza σ .
p
Es decir, si X es una variable aleatoria discreta σ= V (X)
√
La desviación estándar de la variable Y es entonces σ = 0, 75 = 0, 867 aproximadamente.
68
3.2. Función de distribución de probabilidad acumulada
En muchas situaciones práctica es necesario calcular la probabilidad de que una variable aleatoria
tome un valor menor o igual que cierto número real x0 .
Escribiremos la probabilidad de que la variable X tome valores menores o iguales a x0 como
F (x0 ) = Pr(X ≤ x0 ) y llamaremos a la función F , denida para todo número real con el nombre
de función de distribución de probabilidad acumulada o función de distribución.
con x0 perteneciente a los números reales recibe el nombre de función de distribución de probabilidad
acumulada o función de distribución de la variable X .
Por lo tanto:
1
F (0) = Pr X(≤ 0) =
8
1 3 4
F (1) = Pr(X ≤ 1) = p(0) + p(1) = + =
8 8 8
4 3 7
F (2) = Pr(X ≤ 2) = p(0) + p(1) + p(2) = + =
8 8 8
7 1 8
F (3) = Pr(X ≤ 3) = p(0) + p(1) + p(2) + p(3) = + = =1
8 8 8
Como y0 es un número real, ¾cuál sería la probabilidad de X sea menor o igual a 1, 5 por ejemplo?
1 3 4
F (1, 5) = Pr(X ≤ 1.5) = p(0) + p(1) + p(1.5) = + +0=
8 8 8
dado que X = 1.5 no es un evento posible en este experimento.
Del mismo modo, ¾cuál sería la probabilidad de que X sea menor o igual que 4 por ejemplo?
X p(x) F (x)
0 1/8 1/8
1 3/8 4/8
2 3/8 7/8
3 1/8 8/8
69
Figura 3.2: Función de distribución de X
Primer experimento
Se arroja tres veces una moneda y se cuenta el número de caras obtenidas. Como ya sabemos, el
espació muestral de esta experimento es:
X1 = 0, 1, 2, 3
Segundo experimento
De una línea de producción de cierto producto se extraen 3 y se los clasican como defectuosos D
o no defectuosos N. Interesa saber el número de productos defectuosos que se pueden obtener en
una muestra de tamaño 3.
70
S2 = {N N N, N N D, N DN, DN N, N DD, DN D, DDN, DDD}
X2 = 0, 1, 2, 3
Note la semejanza que existen entre los dos experimentos y los resultados obtenidos.
En este capítulo analizaremos los modelos de distribución de probabilidad más utilizados en Ad-
ministración y Economía tanto para variables aleatorias discretas como continuas.
71
p(x) = Pr(X = x) = px q 1−x (3.4)
cono X = 0, 1
Por ejemplo, suponga que un experimento consiste en lanzar una moneda balanceada. Suponga
además que denimos el resultado obtener cara como éxito (X = 1) el resultado obtener cruz como
fracaso (X = 0)
¾Cuál es la probabilidad con la que pueden ocurrir los resultados de X?
Como la moneda está balanceada
Teorema 3.2 Si una variable aleatoria tiene distribución Bernoulli entonces E(X) = p y
V (X) = pq
Demostración
Como se recordará el valor esperado de una variable aleatoria discreta se dene de la siguiente
manera:
1
X
E(X) = xi p(xi )
i=0
1
X
E(X) = µ = xi p(xi ) = 0 × q + 1 × p ⇒ E(X) = p
i=0
n
X
V (X) = (xi − µ)2 p(xi )
i=1
Por lo tanto:
n
X
V (X) = (xi − µ)2 p(xi ) = (0 − p)2 q + (1 − p)2 p
i=1
O sea:
Distribución Binomial
La distribución Binomial es el modelo probabilístico para describir numéricamente experimentos
aleatorios con las siguientes características:
72
2. Cada prueba tiene solamente dos posibles resultados llamados éxito (E) y fracaso (F )
Puede demostrarse que si X es una variable aleatoria con distribución Binomial su función de
probabilidad es:
n x n−x
p(x) = Pr(X = x) = p q (3.5)
x
o también
n!
p(x) = Pr(X = x) = px q n−x (3.6)
x!(n − x)!
con X = 0, 1, ..., n
En la Ecuación (3.5) n representa el número de ensayos, p la probabilidad de éxito y q =1−p la
probabilidad de fracaso.
Puede demostrarse que X es una variable aleatoria con distribución Binomial entonces E(X) = np
yV (X) = npq .
Los números n y p reciben el nombre de parámetros de la distribución en el sentido de que para
cada combinación de sus valores se tiene una distribución Binomial diferente.
Si una variable aleatoria X tiene distribución Binomial de parámetros n y p se escribe X ∼ B(n, p).
Por ejemplo, suponga que una variable aleatoria X tiene distribución Binomial con parámetros
n=5 y p = 0.25, es decir X ∼ B(n = 5; p = 0.25), entonces X = 0, 1, 2, 3, 4, 5.
Por lo tanto:
5!
p(0) = Pr(X = 0) = 0, 250 × 0, 755−0 = 0, 755 = 0, 237
0!(5 − 0)!
5! 5!
p(1) = Pr(X = 1) = 0, 251 × 0, 755−1 = × 0, 25 × 0, 754 = 0, 395
1!(5 − 1)! 4!
Se puede continuar de la misma manera y calcular el resto de las probabilidades. En la Tabla (3.6)
se muestran los valores de la variable X y sus respectivas probabilidades.
X p(x) = Pr(X = x)
0 0,237
1 0.395
2 0.263
3 0.087
4 0,014
5 0,001
73
Figura 3.3: Binomial n=5 y p = 0, 25
X p(x) = Pr(X = x)
0 0,031
1 0.156
2 0.312
3 0.315
4 0,156
5 0,031
Ahora bien, si X ∼ B(n = 5; p = 0, 5), procediendo de la misma manera que en el caso anterior, la
distribución de probabilidades en forma tabular se muestra en la Tabla (3.7).
Por otro lado, para la misma variable aleatoria, su distribución de probabilidad dada por medio
de un gráco de barra se muestra en la Figura 3.7.
74
Puede verse que al cambiar un solo parámetro se tiene una distribución Binomial diferente.
Ejemplo 3.3 Una fábrica de lámparas eléctricas para iluminación hogareña produce un 10 % de
unidades defectuosas. Si se selecciona una muestra de 10 lámparas, ¾cuál es la probabilidad de
encontrar:
Solución
10!
p(0) = Pr(X = 0) = (0, 10)0 (0, 90)10−0 = 0, 378
0!(10 − 0)!
Segundo punto:
10!
p(4) = Pr(X = 4) = (0, 10)4 (0, 90)10−4 = 0, 011
4!(10 − 4)!
Tercer punto:
En las aplicaciones prácticas puede demostrarse que la distribución Binomial se puede aplicar
cuando la muestra se extrae de una población innita o cuando el muestreo se hace con reposición
de una población nita.
Pero en la práctica es común extraer muestras sin reposición de poblaciones nitas así que se debe
tener mucho cuidado en la aplicación del modelo Binomial en estos casos.
Existe un consenso general que cuando el tamaño de la población es por lo menos 20 veces el
tamaño de la muestra, es posible utilizar la distribución Binomial aun cuando el muestreo se haga
sin reposición de una población nita porque de esta manera se mantendrá aproximadamente
constante la probabilidad de éxito.
Resumiendo:
75
Si se toman muestras sin reposición de una población nita, la distribución Binomial podrá
utilizarse siempre y cuando N ≥ 20n o equivalentemente Nn ≤ 0, 05 siendo n el tamaño de la
muestra y N el tamaño de la población
Ejemplo 3.4 En una provincia de 1 000 000 de habitantes, estudios anteriores han determina-
do que el 40 % de la población consume determinada marca de yerba. Se toma una muestra sin
reposición de 10 personas, ¾qué probabilidad hay de que 3 de ellos sean consumidores del producto.
Solución
Aun cuando el muestreo es sin reposición, podemos utilizar la distribución Binomial dado que
n
N ≤ 0, 05
Además:
10!
p(3) = Pr(X = 3) = (0, 4)3 (0, 60)7 = 0, 2150
3!(10 − 3)!
Por lo tanto, la probabilidad de que tres personas seleccionadas al azar de esta población consuma
la marca de yerba es de 0, 215.
Distribución Hipergeométrica
Este modelo probabilístico describe un fenómeno o experimento con dos resultados posibles, mu-
tuamente excluyentes en cada una de las n repeticiones que se realizan.
La diferencia fundamental con el modelo Binomial radica en que el modelo hipergeométrico describe
un proceso en el cual la probabilidad de éxito no permanece constante.
Las características que denen una variable aleatoria hipergeométrica y su distribución de proba-
bilidad se resumen a continuación.
NE NF
x n−x
p(x) = Pr(X = x) = N
(3.7)
n
con
76
X = 0, 1, ..., mínimo valor entre n y NE
NE
E(X) = n
N
y que
NE NE N −n
V (X) = n 1−
N N N −1
donde:
n es el tamaño de la muestra
El factor
N −n
N −1 que aparece en la varianza de la variable aleatoria recibe el nombre de factor de
corrección para poblaciones nitas y será utilizado frecuentemente en algunos temas posteriores.
Puede demostrarse que el factor de corrección tiende a asumir el valor 1 si el tamaño de la población
N es muy grande respecto al tamaño de la muestra n.
N −n
Es decir, es posible demostrar que lı́mN 7−→∞ N −1 =1 aplicando las reglas de cálculos de los
Ejemplo 3.5 Al auditar 87 cuentas por pagar de una compañía, se toma una muestra de 10 de
las 87 cuentas sin reposición. De las 87 cuentas, 13 tienen errores. Encuentre la probabilidad de
que en dicha muestra, 2 contengan errores. Calcule el valor esperado, la varianza y la desviación
estándar de la variable aleatoria número de cuentas con errores en una muestra de tamaño 10.
Solución
Los valores que puede tomar la variable son los siguientes: X = 0, 1, ..., 10
Por lo tanto:
13 74
2 8
Pr(X = 2) = p(2) = 87
= 0, 294
10
13
13
13
87−10
Además E(X) = 10 87 = 1, 49 y V (X) = 10 87 1− 87 87−1 = 1, 137
p √
Finalmente σ = V (X) = 1, 137 = 1, 066
77
Distribución de Poisson
La distribución de Poisson proporciona un modelo modelo probabilístico para calcular la probabi-
lidad de ocurrencia de eventos por unidad de área, volumen, tiempo, etc.
El número de personas que ingresan a un banco cada hora en búsqueda de algún servicio, el número
de accidentes laborales en una plante fabril cada mes, etc. son variables aleatorias cuya distribución
de probabilidad se pueden modelar, bajo ciertas condiciones, con el modelo de distribución de
probabilidad de Poisson.
1. El experimento consiste en contar el número X de veces que ocurre un evento particular por
unidad de medida (tiempo, área, volumen, etc.)
2. La probabilidad de que un evento ocurra por unidad de medida es la misma para todas las
unidades
3. El número de eventos que ocurren en una unidad de medida es independiente de los que
ocurren en otra unidad de medida
4. El número promedio o esperado de eventos por unidad de medida se denota con la letra
griega λ (lamda)
e−λ λx
p(x) = Pr(X = x) = (3.8)
x!
con X = 0, 1, 2, 3... etc.
Puede demostrarse que la media o valor esperado y la varianza de una variable de Poisson son
E(X) = λ V (X) = λ respectivamente.
y
Para cada valor de λ se tiene un distribución de Poisson diferente, es decir, λ es el único parámetro
de la distribución.
Mediante el siguiente ejemplo se muestra la utilidad práctica del modelo de distribución de Poisson.
Ejemplo 3.6 Suponga que el número promedio de llamadas telefónicas que llegan a una central
telefónica es de 0,5 llamadas por minuto. Hallar la probabilidad de que:
Solución
Primer punto
78
Es decir, la probabilidad de que en un minuto no ingresen llamadas es igual a 0,606.
Segundo punto
Se pide calcular Pr(X > 3). Por una propiedad de eventos complementarios tendremos que:
Por lo tanto
0, 50 0, 51 0, 52 0, 53
−0,5
Pr(X > 3) = 1 − e + + + = 1 − 0, 998 = 0, 002
0! 1! 2! 3!
Tercer punto
El número medio de llamadas cada tres minutos se calcula de la siguiente manera: si en un minuto
ingresan 0,5 llamadas, en tres minutos ingresaran
3 × 0, 5
λ1 = = 1, 5
1
Es decir, se espera que ingresen λ1 = 1, 5 llamadas cada tres minutos.
Por lo tanto:
1, 50 1, 51 1, 54
Pr(Y < 5) = e−1,5 + + ··· + = 0, 981
0! 1! 4!
Por lo tanto, la probabilidad de que en tres minutos entre a la central menos de cinco llamadas es
0,981.
También analizamos algunos de los parámetros que las caracterizan como ser su media o valor
esperado , su varianza y su desviación estándar.
Además, denimos y utilizamos algunos de los modelos de distribución de probabilidad para va-
riables aleatorias discretas más utilizados en Administración y Economía como el binomial, el
hipergeométrico y el de Poisson.
Veremos a continuación un nuevo tipo de variable, las variables aleatorias continuas de múltiples
aplicación prácticas y teóricas.
Denición 3.9 Una variable aleatoria X es continua si puede asumir cualquier valor dentro de
un intervalo real de valores posibles.
Por ejemplo, si selecciona una lámpara de iluminación hogareña y se mide su tiempo de duración,
la variable aleatoria
79
es una variable aleatoria que puede tomar cualquiera de los innitos valores comprendidos en el
intervalo [0, 200] horas, por ejemplo.
Los experimentos aleatorios que consisten en mediciones de cantidades como tiempo, peso, altura,
etc. generan variables aleatorias continuas.
Recordemos que para una variable aleatoria discreta X se puede calcular la probabilidad de que
asuma exactamente un valor dado, es decir, no hay ninguna dicultad e calcular Pr(X = x).
Para las variables aleatorias continuas el caso es muy distinto ya que la misma puede tomar
cualquier valor dentro de un intervalo real de valores posibles.
Como cualquier intervalo real contiene una cantidad innita de valores, no es posible hablar de la
probabilidad de que la variable aleatoria tome un valor determinado.
En lugar de hablar de la probabilidad de que la variable aleatoria tome un cierto valor, debemos
pensar en términos de la probabilidad de que la variable aleatoria continua tome un valor dentro
de un intervalo dado. Es decir, probabilidades como Pr(a ≤ X ≤ b) donde a y b son dos valores
posibles de la variable.
Ahora bien no toda función f (x) puede puede ser la densidad de probabilidad para una variable
aleatoria continua. Debe cumplir algunas condiciones que enumeramos en la siguiente denición:
3. Pr(a ≤ X ≤ b) =
Rb
a
f (x)dx
80
Figura 3.5: Función de densidad de probabilidad
Rb
Pr(a ≤ X ≤ b) = a
f (x)dx = Pr(a < X < b)
Ejemplo 3.7 Sea X una variable aleatoria continua con densidad de probabilidad
(
x2
3 −1 < x < 2
f (x) =
0 en otro caso
1. Vericar que se cumplen las dos primeras condiciones para que f (x) sea la función de den-
sidad de probabilidad para X
2. Calcular Pr(0 < X ≤ 1)
Solución
Primer punto:
Puede verse, analizando la Figura (3.6), que f (x) ≥ 0 para todos los valores de X.
Además, f (x) es una función polinómica de segundo grado con ordenada al origen igual a cero.
Esto conrma que f (x) ≥ 0 para todos los valores de X
La segunda condición exige que
Z +∞
f (x)dx = 1
−∞
81
Aplicando algunas propiedades de la integral denida obtenemos:
Z +∞ Z −1 Z 2 Z +∞
1
f (x)dx = 0dx + x2 dx + 0dx
−∞ −∞ 3 −1 2
Z +∞
1 3 2 1
f (x)dx = x −1 = (8 + 1) = 1
−∞ 9 9
De esta manera se verica la segunda condición.
Segundo punto:
Z 1
1 1 2 1
Pr(0 < X < 1) = x2 dx = (1 − 03 ) =
3 0 9 9
Función de probabilidad
Puede haber situaciones prácticas en las cuales interese conocer la probabilidad de que un valor
de la variable aleatoria continua X sea menor o igual a x0 ∈ ℜ.
Damos la siguiente denición:
Denición 3.11 Si X es una variable aleatoria continua con densidad de probabilidad f (x), la
función
Z x0
F (x0 ) = Pr(X ≤ x0 ) = f (t)dt (3.9)
−∞
1. lı́mx→−∞ F (x) = 0
2. lı́mx→x∞ F (x) = 1
3. Si x1 < x2 , entonces F (x1 ) ≤ F (x2 ) para cualquier par de números cualquier par de números
realesx1 y x2
Además, las variables aleatorias continuas tienen otras propiedades que se derivan de las propie-
dades de la integral denida.
Teorema 3.3 Si f (x) y F (x) son, respectivamente la función de densidad y la función de distri-
bución de una variable aleatoria continua X , entonces:
1. Pr(a ≤ X ≤ b) = f (x)dx = F (b) − F (a) para todos los números reales tales que a ≤ b
Rb
a
2. f (x) = dF (x)
dx donde esté denida la derivada
82
Solución
Primer punto:
Supongamos que x ≤ −1. En este caso f (x) = 0, por lo tanto no se acumula ninguna probabilidad.
Luego, F (x) = 0.
Supongamos ahora que −1 < X < 2. En este caso
−1 x x
x3 + 1
Z Z
1 1 3
2
F (x) = 0dt + t dt = t =
−∞ 3 −1 9 −1 9
Z −1 Z 2 Z +∞ 2
1 1 3
F (x) = 0dt + t2 dt + 0dt = t =1
−∞ 3 −1 2 9 −1
Por lo tanto:
0
x ≤ −1
1
F (x) = (x3 + 1) −1 < x < 2
9
1 x≥2
Segundo punto:
13 + 1 03 + 1 1
Pr(0 < x < 1) = F (1) − F (0) = − =
9 9 9
Supongamos que X es una variable aleatoria continua con densidad de probabilidad f (x). Su media
o valor esperado de se dene de la siguiente manera:
Z +∞
E(X) = µ = xf (x)dx (3.10)
−∞
Z +∞
V (X) = σ 2 = (x − µ)2 f (x)dx (3.11)
−∞
Ejemplo 3.9 Suponga que la variable aleatoria continua X tiene la siguiente densidad de proba-
bilidad:
(
0, 05 0 ≤ x ≤ 20
f (x) =
0 en cualquier otro caso
83
Solución
Z 20 Z 20
E(X) = µ = x(0, 05)dx = 0, 05 xdx
0 0
Por lo tanto:
0, 05 2 20 0, 05
E(X) = µ = x 0 = (202 − 02 ) = 10
2 2
La varianza se calcula de la siguiente manera:
Z 20
2
V (X) = σ = (x − 10)2 (0, 05)dx
0
Por lo tanto
20 20
(x − 10)3
Z
V (X) = σ 2 = 0, 05 (x − 10)2 dx = 0, 05 = 33, 33
0 3 0
Por último:
p
σ= 33, 33 = 5, 77
Por ejemplo, si X es una variable aleatoria continua, la función Y = 2X + 1 también sera una
variable aleatoria continua.
Como Y es una variable aleatoria, estará caracterizada por su valor esperado, su varianza y su
desviación estándar, cantidades que denimos a continuación.
Ejemplo 3.10 Suponga que en cierta estación de servicios, el número automóviles X que pasan
a través de una máquina lavadora en un día de trabajo es una variable aleatoria discreta con una
distribución de probabilidad denida en la Tabla (3.8).
Sea Y = g(X) = 2X − 1 la variable aleatoria que representa la cantidad de dinero que el gerente
paga al operario que atiende la máquina lavadora.
Encuentre la renta esperada del operario en una jornada de trabajo.
Solución
La renta promedio del encargado de atender la máquina lavadora se calcula de la siguiente manera:
84
X p(x) = Pr(X = x)
4 1/12
5 1/12
6 1/4
7 1/4
8 1/6
9 1/6
X X
E(Y ) = µy = g(x)p(x) = (2x − 1)p(x)
x x
Por lo tanto:
1 1 1 1 1 1
E(Y ) = µy = 7 +9 + 11 + 13 + 15 + 17 = 12, 67 dólares
12 12 4 4 6 6
Luego, la renta esperada del encargado es de 16,67 dólares por jornada de trabajo.
Ejemplo 3.11 Sea X una variable aleatoria continua con densidad de probabilidad
(
x2
3 −1 < x < 2
f (x) =
0 en otro caso
Encontrar el valor esperado y la varianza de Y = 4X + 3
Solución
Por denición:
2 2
x2
Z Z
1
E(Y ) = (4x + 3) dx = (4x3 + 3x2 )dx
−1 3 3 −1
Z 2 Z 2
1
E(Y ) = 4 x3 dx + 3 x3 dx
3 −1 −1
Integrando
1 4 2
E(Y ) = x + x3 −1 = 8
3
Por lo tanto, la media o valor esperado de la variable aleatoria Y = 4x + 3 es igual a 8.
2
x2
Z
2 2
V (X) = σ = (4x + 3 − 8) dx
−1 3
Z 2
1
V (X) = σ 2 = (4x − 5)2 x2 dx
3 −1
85
Seguidamente analizamos unas de las propiedades más utilizadas de la varianza de una variable
aleatoria discreta o continua.
La demostramos para una variable aleatoria continua pero al mismo resultado se llega para las
discretas.
Teorema 3.4 Si X es una variable aleatoria continua con densidad de probabilidad f (x), entonces
2
σ 2 = E X 2 − [E(X)]
(3.12)
Demostración
Por denición
Z +∞
2
σ = (x − µ)2 f (x)dx
−∞
Por lo tanto
Z +∞
2
σ = (x2 − 2xµ + µ2 )f (x)dx
−∞
Z +∞ Z +∞ Z +∞
σ2 = x2 f (x)dx − 2µ xf (x)dx + µ2 f (x)dx
−∞ −∞ −∞
Finalmente:
2
σ 2 = E(X 2 ) − 2µ2 + µ2 (1) ⇒ σ 2 = E(X 2 ) − µ2 ⇒ σ 2 = E(X 2 ) − [E(X)]
Hemos visto hasta aquí los conceptos fundamentales de las variables aleatorias continuas.
Distribución Normal
Hemos dicho que la Distribución Normal es uno de los modelos mas importantes tanto de la
estadística aplicada como en la teoría estadística.
Sin embargo, la importancia de la distribución normal va mucho más allá de proporcionar aproxi-
maciones a la Distribución Binomial.
La Distribución Normal se utiliza como modelo de muchas variables aleatorias que aparecen en
problemas de Administración y Economía.
Denición 3.13 Se dice que una variable aleatoria continua X tiene distribución normal de pro-
babilidad si su función de densidad es la siguiente:
1 (x−µ)2
f (x) = √ e− 2σ 2 (3.13)
2πσ 2
donde x ∈ ℜ; µ ∈ ℜ y σ 2 > 0
86
Puede demostrarse que si X es una variable aleatoria con Distribución Normal, entonces E(X) = µ
y V (X) = σ 2 .
Estas cantidades son los parámetros de la Distribución Normal en el sentido de que para cada
combinación de estos valores se tendrá una Distribución Normal diferente.
No obstante, enunciaremos las propiedades más importantes, las que utilizaremos a lo largo de este
material.
f (x) > 0. Es decir, el gráco de una variable aleatoria con Distribución Normal siempre se
encuentra por encima del eje de las x
El área bajo la curva de f (x) en el intervalo −∞ < x < +∞ es igual a uno como en toda
R +∞
densidad de probabilidad. Es decir
−∞
f (x)dx = 1.
El valor máximo de la función de densidad Normal f (x) ocurre cuando x=µ y su valor es
√ 1
2πσ 2
Rb
Pr(a ≤ X ≤ b) = a
f (x)dx como en toda densidad de probabilidad
entonces:
Pr(µ − σ ≤ X ≤ µ + σ) = 0.68
87
Pr(µ − 2σ ≤ X ≤ µ + 2σ) = 0.95
Pr(µ − 3σ ≤ X ≤ µ + 3σ) = 0.99
De acuerdo con la regla empírica, casi el 100 % de las observaciones de una variable aleatoria con
Distribución Normal estarán en el intervalo (µ − 3σ, µ + 3σ).
A la cantidad 6σ , que es la amplitud de este intervalo, se la conoce con el nombre de ancho de
la distribución normal. Por lo tanto, el área (probabilidad) que está fuera de este intervalo resulta
muy pequeña.
Hemos dicho que para cada par de valores de µ y σ2 existe una curva normal diferente. En la
Figura (3.8) se muestran algunas curvas de distribuciones normales para distintas combinaciones
de su parámetros µ y σ
Note que a medida que aumenta el valor del parámetro σ2 la curva se hace más plana.
Una vez que hemos denido la distribución Normal y analizado sus principales propiedades, el
siguiente paso que daremos es ver como se calculan las probabilidades de una variable aleatoria
normal.
Z b
Pr(a ≤ X ≤ b) = f (x)dx
a
El problema que se presenta con el cálculo de esta integral es que la función f (x) no tiene primitiva,
por lo tanto, no se pueden aplicar los métodos estándar de integración, por lo tanto deberían
utilizarse métodos más avanzados de integración.
Afortunadamente esto no es necesario pues las probabilidades para variables aleatorias cuya den-
sidad de probabilidad es la Distribución Normal pueden calcularse a partir de tablas .
Antes de ver cómo se utilizan estas tablas debemos desarrollar algunos conceptos previos.
88
El miembro más importante de esta familia es la Distribución Normal Estándar llamada así por-
que tiene una media igual a caro y una desviación estándar igual a 1. También se la denomina
Distribución Normal Unitaria.
1 (x−µ)2
f (x) = √ e− 2σ 2
2πσ 2
x−u
haciendo z= σ .
A partir de este cambio de escala de la variable X se obtiene Fórmula (3.14) como expresión de la
función de densidad de probabilidad de una variable con distribución Normal Estándar.
1 2
f (z) = √ e−z /2 (3.14)
2π
con Z ∈ ℜ.
Si una variable aleatoria tiene Distribución Normal Estándar se escribe Z ∼ N (0, 1).
Para calcular la probabilidad de que Z tome un valor entre dos valores posibles cualesquiera z0 y
z1 , es decir, para calcular Pr(z0 ≤ Z ≤ z1 ) se debe calcular el área delimitada La gráca de f (z),
ele eje de los valores de Z y las rectas z = z0 y z = z1 .
Tal como se mencionó anteriormente, las áreas bajo la curva de la función de densidad de proba-
bilidad de una variable aleatoria continua se calculan integrando la función entre los valores de la
variable.
Z z1
1 2
Pr(z0 ≤ Z ≤ z1 ) = √ e−z /2 dz
z0 2π
Por fortuna,no es necesario calcular esta integral porque existen tablas disponibles que proporcio-
nan los resultados de todas las integraciones en las que se pueda estar interesados.
La tabla que acompaña este material es una de esas tablas. En la Figura (3.9) mostramos un símil
de la tabla.
En esta tabla están calculadas las áreas bajo la curva de densidad desde −∞ y z0 .
Es decir, en la tabla se registran los valores de
89
Z z0
F (z0 ) = Pr(Z ≤ z0 ) = f (z)dz
−∞
1. Se busca en la primera columna de la tabla el valor más cercano a z0 = 0, 54 que en este caso
es 0, 5
2. En la primera la de la tabla se busca el valor tal que 0, 5 + z = 0, 54 que en este caso es
z = 0, 05
3. En la intersección de la la rotulada con el valor 0, 5 y la columna rotulada con el valor 0, 04
se obtiene la probabilidad correspondiente que en este caso es 0, 7054
Se concluye que
Solución
Primer punto:
De acuerdo con la equivalencia de área y probabilidad para las variables aleatorias continuas
debemos calcular el área bajo la gráca de f (z) desde −∞ hasta z0 = 2.
El área buscada se muestra en la Figura (3.10).
¾Como se procede? En la primera columna de nuestra tabla se busca el valor z = 2. Como no hay
que agregar nada a este valor, la probabilidad (área) buscada esta en la intersección de la la de
z=2 y la columna 0.00. Entonces Pr(Z ≤ 2) = F (2) = 0, 9772
Segundo punto:
90
Figura 3.11: Probabilidad de que −2, 74 ≤ Z ≤ 1, 53
Pr(−2, 74 ≤ Z ≤ 1, 53) = Pr(Z ≤ 1, 53) − Pr(Z ≤ −2, 74) = F (1, 53) − F (−2, 74)
Tercer punto
O sea
Por lo tanto
91
Aplicaciones de la Distribución Normal
Aunque su importancia en el campo de la Estadística es indiscutible, no existe ninguna variable
aleatoria que en la práctica tenga exactamente Distribución Normal de probabilidades.
Sin embargo,es verdad de que muchas de las variables que ocurren en Administración y Economía
pueden tener una distribución aproximadamente Normal.
En consecuencia, aún cuando no existe en la práctica ninguna variable aleatoria con Distribu-
ción Normal, este modelo se puede utilizar para describir muchas variables aleatorias que tienen
aproximadamente esta distribución de probabilidad.
En los casos en que una variable aleatoria tenga distribución aproximadamente Normal, o en
aquellos casos en que la falta da datos completos hacen razonable considerar esta suposición, la
Distribución Normal puede resultar de gran ayuda para el analista en sus esfuerzo por resolver
problemas prácticos relativos a esta variable.
Hay varias razones más por las cuales esta distribución es muy importante tanto en la Estadística
teórica como práctica. Algunas de esas razones las iremos viendo a lo largo de este material.
Hemos visto hasta el momento como se calculan probabilidades para una variable aleatoria Normal
Estándar.
Entonces, ¾como calcular probabilidades para una variable aleatoria con una distribución normal
cualquiera?
Para calcular probabilidades para una variables aleatorias X con una distribución normal cual-
quiera se debe transformar la variable X ∼ (µ, σ 2 ) en la variable Z ∼ N (0, 1).
Esta transformación se realiza mediante la siguiente expresión:
X −µ
Z= (3.15)
σ
donde µ y σ son la media y la desviación aleatoria de la variable aleatoria X.
Es decir, si a cada valor de la variable X que tenga Distribución Normal se le resta su media y
el resultado se lo divide por su desviación estándar se obtiene una nueva variable aleatoria con
Distribución Normal Estándar.
Los pasos que se siguen en el proceso de estandarización son los que se enumeran a continuación:
92
1. Al realizar la diferencia X−µ obtenemos una nueva variable aleatoria normal con media
caro ( se cambia el origen)
2. Al dividir esta diferencia por σ se cambia la escala obteniéndose una variable Z ∼ N (0, 1)
Ejemplo 3.13 Supongamos contar con una variable aleatoria que tenga Distribución Normal de
media µ = 10 y varianza σ 2 = 6, 25, es decir X ∼ N (10; 6, 25). Calcular Pr(X ≤ 11).
Solución
11 − 10
z= √ = 0, 4
6, 25
Por lo tanto:
Ejemplo 3.14 Los ingresos anuales de los gerentes de una empresa siguen aproximadamente una
distribución normal con media 18.600 dólares y desviación estándar 2.700 dólares. Encuentra la
probabilidad de que un gerente seleccionado al azar tenga:
Solución
15.000 − 18.600
z= = −1, 33
2.700
Por lo tanto:
Segundo punto:
21.000 − 18.600
z= = 0, 89
2.700
93
Ejemplo 3.15 Sea X una variable aleatoria con media µ y varianza σ2 . Demostrar que la variable
X −µ
aleatoria Z = tiene media cero y varianza 1.
σ
Solución
Existen otros modelos de distribución de probabilidad para variables aleatorias continuas que
sirven para la solución de múltiples problemas de la Estadística como la distribución t de Student,
la distribución χ2 (chi cuadrado), distribución F de Fisher y otras más las que serán estudiadas y
aplicadas oportunamente.
Comenzamos con las propiedades del valor esperado. Se cumplen para variables aleatorias discretas
como continuas.
Sea X una variable aleatoria continua con densidad de probabilidad f (x), entonces:
2. E(kX) = kE(X)
3. E(X + k) = E(X) + k
Z +∞ Z +∞
E(k) = kf (x)dx = k f (x)dx = k(1) = k
−∞ −∞
Probamos la segunda.
Z +∞ Z +∞
E(kX) = kxf (x)dx = k xf (x)dx = kE(X) = kµ
−∞ −∞
Como la suma de dos o más variables aleatorias es a su vez una variable aleatoria se tiene que:
Z +∞ Z +∞ Z +∞
E(X1 + X2 ) = (x1 + x2 )xf (x) = x1 xf (x)dx + x2 xf (x)dx
−∞ −∞ −∞
94
Es decir, puede probarse que si X1 , X2 , ..., Xn son n variables aleatorias discretas o continuas,
entonces:
Seguimos ahora con algunas propiedades inherentes a la varianza de una variable aleatoria.
1. V (X) ≥ 0
2. Si k es una constante V (k) = 0
2
3. V (X) = E(X 2 ) − [E(X)] ya demostrada
4. V (kX) = k 2 V (X)
5. V (X + k) = V (X)
La primera propiedad se cumple por denición de la varianza de una variable aleatoria. Como se
recordará, la varianza de una variable aleatoria continua se dene de la siguiente manera:
Z +∞
V (X) = (x − µ)2 f (x)dx
−∞
Como el producto (x − µ)2 f (x)0 siempre es mayor o igual a cero, la varianza de una variable
aleatoria siempre es un número real no negativo.
Z +∞
V (k) = (k − k)2 f (x)dx = 0
−∞
Z +∞ Z +∞
2
V (kX) = (kx − kµ)2 f (x)dx = [k (x − µ)] f (x)dx
−∞ −∞
Luegp:
Z +∞ Z +∞
V (kX) = k 2 (x − µ)2 f (x)dx = k 2 (x − µ)2 f (x)dx = k 2 V (X)
−∞ −∞
Y = k1 X1 + k2 X2 + · · · + kn Xn (3.16)
95
Por ejemplo, si X1 , X2 y X3 son tres variables aleatorias y si k1 = 2, k2 = −3 y k3 = 1, entonces
Y = 2X1 − 3x2 + X3
1 1 1
X̄ = k1 X1 + k2 X2 + · · · + kn Xn = X1 + X2 + · · · + Xn
n n n
O equivalentemente:
X1 + X2 + · · · + Xn
X̄ = (3.17)
n
recibe el nombre de variable aleatoria media muestra .
La variable aleatoria media muestral X̄ será muy utilizada en los proceso inferenciales que anali-
zaremos más adelante.
Terminamos este capítulo enunciando sin demostración algunas propiedad en las cuales se com-
binan los conceptos de función lineal de una variable aleatoria y el de la Distribución Normal de
probabilidad.
Teorema 3.5 Sean X1 , X2 , ..., Xn variables aleatorias con medias o valores esperados µ1 , µ2 , ..., µn
y varianzas σ12 , σ22 , ..., σn2
o bien:
Ejemplo 3.16 Una estación de servicios vende tras clases de combustibles, común, extra y super
todas sin plomo a 1, 20; 1, 35 y 1, 50 dólares por litro respectivamente. Representamos con X1 , X2
y X3 las cantidades de combustible vendidas (en litros) en un día particular. Supongamos que las
Xi son independientes con µ1 = 1.000; µ2 = 500 y µ3 = 300 litros y σ1 = 100, σ2 = 80 y σ3 = 50.
Hallar el ingreso esperado por las ventas de combustible en un día cualquiera. Calcular la varianza
de la variable Y = Ingresos diarias de combustible en la estación de servicios.
Solución
El ingreso por las ventas de combustibles está dado por la función lineal
96
E(Y ) = 1.20µ1 + 1.30µ2 + 1.5µ3 = 1.20(1 000) + 1.35(500) + 1.50(300) = $2 350
La varianza de Y es:
Teorema 3.6 Si X1 , X2 , ..., Xn son n variables aleatorias independientes con distribución normal
(posiblemente con medias y/o varianzas diferentes), entonces, cualquier función lineal de las Xj
también tiene distribución normal.
Ejemplo 3.17 Tenga en cuenta los resultados del Ejemplo (3.16). suponga que las variables Xi
tienen distribución Normal. Calcular la probabilidad de que el ingreso diario sea mayor a $2.500
Solución
2.500 − 2.325
z= = 0, 983
178, 01
Por lo tanto:
97
Capítulo 4
Distribuciones muestrales.
Estimación
En el ejemplo que sigue se verá como se obtienen las propiedades de una nueva variable aleatoria,
la variable aleatoria media muestral cuyos valores se encuentran a partir de distintas muestras
tomadas de una misma población.
Se verá como calcular probabilidades para los valores de la media muestral con lo que obtendremos
su distribución de probabilidad que en este caso particular recibirá el nombre de distribución de
muestreo de la variable aleatoria media muestral.
Partimos del siguiente ejemplo:
Suponga que una variable aleatoria X pueda tomar los valores 2, 4, 6 y 8, es decir:
X = 2, 4, 6, 8
Suponga adicionalmente que la variable X toma cada uno de sus valores con la misma probabilidad.
X 1 1 1 1
E(X) = µ = xi p(xi ) = 2 +4 +6 +8
x
4 4 4 4
O sea:
2+4+6+8
µ= =5
4
Varianza
X 1 1 1 1
V (X) = (xi − µ)2 p(xi ) = (2 − 5)2 + (4 − 5)2 + (6 − 5)2 + (8 − 5)2
x
4 4 4 4
i
Por lo tanto:
99
En la Figura (4.1) se muestra la distribución de probabilidad de X mediante un diagrama de
barras.
Note que todas las barras tienen la misma altura. Este modelo de distribución de probabilidad
recibe el nombre de distribución de probabilidad Uniforme.
Suponga ahora que a partir de los valores de X se toman muestras aleatorias con reposición de
tamaño n = 2.
Para ello se pueden escribir los números 2, 4, 6 y 8 en cuatro bolillas, ponerlas en una bolsa e ir
seleccionado dos bolitas por vez registrando los números obtenidos.
Una muestra puede estar formada por los números 2 y 8, otra muestra formada por 8 y 6 etc.
¾Cuántas muestras diferentes de tamaño n=2 se pueden tomar procediendo de esta manera?
Puede demostrarse que en total se pueden tomar 16 muestras con reposición distintas de tamaño
2 de una población de N =4 observaciones.
X1 el resultado de la primera
En la Tabla (4.1) se muestran las 16 muestras posibles. Se designa con
X2 el resultado de la segunda bolilla.
bolilla y con
X̄ = 2, 3, 4, 5, 6, 7, 8
La Figura (4.2) es una representación gráca del experimento aleatorio que hemos realizado ima-
ginariamente para obtener los valores de X̄ .
Como puede apreciarse a partir de la Tabla (4.1), de las 16 muestras posibles una tiene media
igual a 2, dos tiene media igual a 3, tres media 4, cuatro media 5, tres media 6, dos media 7 y una
solamente media 8.
Con esta nueva información podemos construir la Tabla (4.2) en la que se muestran todos los
valores de X̄ y sus probabilidades, es decir se trata de la distribución de probabilidad de la variable
aleatoria media muestral calculada para maestras de tamaño n=2 tomadas con reposición de la
población X = 2, 4, 6, 8.
1 Ver sección 3.8.1 del capítulo anterior
100
Muestra X1 X2 Media muestral X̄
1 2 2 2
2 2 4 3
3 2 6 4
4 2 8 5
5 4 2 3
6 4 4 4
7 4 6 5
8 4 8 6
9 6 2 4
10 6 4 5
11 6 6 6
12 6 8 7
13 8 2 5
14 8 4 6
15 8 6 7
16 8 8 8
Puede verse que si bien es cierto la distribución de probabilidad de la variable X es uniforme (todos
los valores de la variable tienen la misma probabilidad), la distribución de probabilidad de X̄ tiene
forma de campana.
2
101
X̄ Frecuencia absoluta Probabilidad p(x)
2 1 1/16
3 2 2/16
4 3 3/16
5 4 4/16
6 3 3/16
7 2 2/16
8 1 1/16
Supongamos adicionalmente que para llevar adelante el estudio de la población vamos a hacer
n observaciones de la variable X seleccionándolas aleatoriamente a partir de todos sus valores
posibles.
Estas observaciones serán datos concretos una vez que hayamos llevado a cabo el acto físico de
tomarlas, antes, solo podemos considerar valores posibles de acuerdo a la distribución de X, o sea,
la respuesta es aleatoria.
Por esto, a cada una de esas observaciones que posteriormente se materializarán la denotaremos
X1 , X2 , ..., Xn y se consideran n representaciones de la variable X .
Si además las variables X1 , X2 , ..., Xn son independientes tendremos lo que en Estadística se de-
nomina habitualmente una muestra aleatoria.
Denición 4.1 Una muestra aleatoria de los valores de la variable X es una sucesión X1 , X2 , ..., Xn
de variables aleatorias independientes con la misma distribución de probabilidad que X .
Como consecuencia de esta denición, las variables X1 , X2 , ..., Xn tendrán el mismo valor esperado
y la misma varianza y la misma distribución que X.
102
Dada la muestra aleatoria X1 , X2 , ..., Xn , podemos realizar con ella operaciones aritméticas para
obtener nuevas variables aleatorias como las que se muestran seguidamente:
Pn
i=1 Xi
1.
n
Pn
i=1 Xi2
2.
n
Pn 2
i=1 (Xi −X̄)
3.
n−1
Pn 2
i=1 (Xi −µ)
4.
n
Estas fórmulas pueden ser tales que solo sean desconocidos los valores de X1 , X2 , ..., Xn , esto es,
expresiones que no contengan parámetros desconocidos.
Denición 4.2 Un estadístico o estadística es una fórmula que relaciona las variables de una
muestra aleatoria X1 , X2 , ..., Xn y que no incluyen parámetros desconocidos
Por ejemplo, la primera, la segunda y la tercer expresión de la lista anterior son estadísticos mientra
que la curta no lo es pues incluye en su denición el parámetro µ.
Los procesos inferenciales se llevan a cabo utilizando estadísticos (variables aleatorias) como un
medio para tal n.
Algunos estadísticos de mayor uso en los procesos inferenciales son los siguientes:
Pn
i=1 Xi X1 + X2 + · · · Xn
X̄ = = (4.1)
n n
la varianza muestral
Pn
− X̄)2
i=1 (Xi
S= (4.2)
n−1
la proporción muestral
Pn
i=1 Xi X1 + X2 + ..., Nn
P̄ = = (4.3)
n n
donde las Xj son variables aleatorias tales que Xj = 1 si se tiene un éxito o Xj = 0 si se obtiene
un fracaso .
3
Como los estadísticos son variables aleatorias estarán caracterizados por su distribución de proba-
bilidad.
A partir de la información suministrada por la Tabla 4.2 podemos calcular la media o valor esperado
de la variable X̄ .
Por denición del valor esperado de una variable aleatoria tendremos:
103
n
X
E(X̄) = µx̄ = x̄i p(x̄i )
i=1
Por lo tanto:
1 2 1
E(X̄) = µx̄ = 2 +3 + ··· + 8 =5
16 16 16
Hemos visto más arriba que para la variable aleatoria X = 2, 4, 6, 8 su valor medio o espartado µ
también es igual a 5.
Este resultado no es casual. Por el contrario es una de las propiedades que caracteriza a media
muestral X̄ y que la estudiamos a partir del siguiente teorema.
Teorema 4.1 Sea X1 , X2 , ..., Xn una muestra aleatoria tomada de una población de media µ y
varianza σ 2 , entonces E(X̄) = µ. Es decir, la media o valor esperado de la media muestral es igual
a la media de población.
Prueba
X1 + X2 + · · · + Xn
X̄ =
n
Esta expresión puede reescribirse de la siguiente manera:
1
X̄ = (X1 + X2 + · · · + Xn )
n
Luego
1
E(X̄) = E(X1 + X2 + · · · + Xn )
n
Como el valor esperado de una suma de variables aleatorias es igual a la suma de los valores
esperados, y por denición de muestra aleatoria:
1 1
E(X̄) = E(X1 ) + E(X2 ) + · · · + E(Xn ) = µ + µ + · · · + µ
n | {z } n | {z }
n n
Por lo tanto:
1
E(X̄) = nµ = µ
n
como se quería demostrar.
n
X
V (X) = σ 2 = (xi − µ)2 p(xi )
i=1
n
X
V (X̄) = σx̄2 = (x̄i − µ)2 p(x̄i )
i=1
104
Por lo tanto, para los datos de nuestro ejemplo:
1 2 1
V (X̄) = σx̄2 = (2 − 5) 2
+ (3 − 5) 2
+ · · · + (8 − 5) 2
= 2, 5
16 16 16
Hemos calculado que la varianza d la población es σ 2 = 5.
Evidentemente σx̄2 ̸= σ 2 . Pero pero es posible vericar que:
σ2 5
σx̄2 = = = 2, 5
n 2
siendo 2 tamaño de la muestra.
Teorema 4.2 Si X1 , X2 , ..., Xn es una muestra aleatoria tomada de una población con media µ y
varianza σ 2 , y si X̄ es la media muestral, entonces σx̄2 = σn siendo n el tamaño de la muestra.
2
Prueba
Aplicando algunas deniciones y propiedades de la varianza y del valor esperado tendremos que:
Pn
i=1 Xi 1 1
V (X̄) = V =V (X1 + X2 + · · · + Xn ) = 2 V (X1 + X2 + · · · + Xn )
n n n
Como las Xj son independientes:
1 1
V (X̄) = 2 V (X1 ) + V (X2 ) + · · · + V (Xn ) = 2 σ 2 + σ 2 + · · · + σ 2
n | {z } n | {z }
n n
Por lo tanto:
1 σ2
V (X̄) = σx̄2 = 2
nσ 2 ⇒ σx̄2 =
n n
qu es lo que se quería demostrar.
σ
σx̄ = √ (4.4)
n
donde σ es la desviación estándar de la variable X.
La desviación estándar de la variable aleatoria media muestral, y en general de cualquier estadístico
recibe el nombre de error estándar.
Como puede apreciarse, el error estándar de X̄ es directamente proporcional a σ e inversamente
proporcional a la raíz cuadrada del tamaño de la muestra.
Por lo tanto, para un valor jo de σ se puede controlar el valor de σx̄ controlando el tamaño de la
muestra.
Por ejemplo, si n = 1, entonces σx̄ = σ . Pero si n = 100, el error estándar de x̄ será igual a la
décima parte de la desviación estándar de la población.
Por lo tanto, si n s muy grande, σX̄ tendería a cero lo que implicaría que la media muestral tendería
a ser igual a la media de la población.
Es decir, en este caso extremos, X̄ = µ. En general, cuanto mayor sea el tamaño de la muestra n,
es más probable que el valor de X̄ se aproxime cada vez más a la media de la población µ.
Hasta este momento, hemos caracterizado la media y la varianza de la variable aleatoria media
muestral X̄ . Queda por determinar cual es su distribución de probabilidad.
105
Teorema 4.3 Si X1 , X2 , ..., Xn es una muestra aleatoria proveniente de una población con distri-
bución normal, media µ y varianza σ 2 , entonces la variable aleatoria media muestral X̄ también
tiene distribución normal con media igual a µ y varianza σn .
2
Como una consecuencia de esta propiedad también puede demostrarse que si se dan la conclusiones
del Teorema 4.3, la variable aleatoria
X̄ − µ
Z= √ (4.5)
σ/ n
tiene distribución normal estándar.
Ejemplo 4.1 Se sabe que el tiempo que tardan los técnicos de una fábrica en ensamblar cierto
producto es una variable aleatoria que tiene distribución normal con media µ = 10 minutos y
desviación estándar de σ = 3 minutos. ¾Cuál es la probabilidad de que una muestra aleatoria de
16 técnicos arroje un promedio de ensamble mayor o igual a 11 minutos?
Solución
Además, X ∼ N (µ = 10; σ = 3)
Por otro lado, como X tiene distribución normal, entonces X̄ también tiene distribución normal
2 σ2 9
con media µx̄ = 10 y varianza σx̄ =
n = 16 .
Se pide que calculemos Pr(X̄ ≥ 11). Por lo tanto:
x̄ − µ 11 − 10 4(11 − 10)
z= √ = = = 1, 33
σ/ n 3/4 3
Finalmente:
Hemos visto que si la variable X de la cual se toman las muestras aleatorias tiene distribución
Normal, entonces la variable aleatoria media muestral X̄ también tiene distribución Normal.
X̄ − µ
Z= √
σ/ n
tiene distribución normal estándar.
Este resultado es aproximadamente correcto aún en poblaciones sin Distribución Normal como se
establece en el siguiente teorema denominado Teorema del Límite Central .
Teorema 4.4 Si X es una variable aleatoria con media µ y varianza σ 2 , la distribución de pro-
babilidad de la variable aleatoria media muestral X̄ , denida para muestras de tamaño n tendrá
distribución aproximadamente normal con media µ y varianza σ 2 /n si n es lo sucientemente
grande.
106
Por lo tanto, la variable aleatoria
X̄ − µ
Z= √
σ/ n
¾A partir de qué valor de n puede considerase que la muestra es lo sucientemente? Todo depende
de cuan alejada de la normalidad esté la variable.
Regresemos al ejemplo de principio de capítulo el cual consistía en tomar muestras con reposición
de tamaño n = 2 de la población X = 2, 4, 6, 8 y para cada una de las muestras calcular la media
muestral X̄ = X1 +X
2
2
.
Hemos visto que la distribución de X es uniforme (Figura 4.1), sin embargo, la distribución de
la variable aleatoria media muestral para muestras de tamaño n = 2 se parece a una campana
(Figura 4.3) .
Vimos que la media o valor esperado de X̄ es igual a la media de la población y que su varianza
es igual a la varianza de la población dividida por tamaño de la muestra.
Pero si se realiza un muestreo sin reposición de una población nita, ¾se cumplirán las mismas
relaciones?
107
Muestra X1 X2 Media muestral X̄
1 2 4 3
2 2 6 4
3 2 8 5
4 4 2 3
5 4 6 5
6 4 8 6
7 6 2 4
8 6 4 5
9 6 8 7
10 8 2 5
11 8 4 6
12 8 6 7
X
E(X̄) = µx̄ = x̄i p(x̄i )
x̄i
Por lo tanto
1 1 1 1 1
E(X̄) = µx̄ = 3 +4 +5 +6 +7 =5
6 6 6 6 6
Este resultado no es casualidad. Es decir, aún cuando la muestra se tome sin reposición de una
población nita, el valor esperado de la media muestral es igual a la media de la población.
2
V (X̄) = σx̄2 = E X̄ 2 − E(X̄)
Comenzamos calculando E(X̄ 2 ). Para ello utilizamos la denición de valor esperado de una función
de una variable aleatoria.
Por lo tanto:
1 1 1 1 1 160 80
E(X̄ 2 ) = 32 + 42 + 52 + 62 + 72 = =
6 6 6 6 6 6 3
Finalmente:
80 5
V (X̄) = σx̄2 = − 55 =
3 3
Evidentemente no se cumple la misma relación que la obtenida en el muestreo con reposición.
En aquella oportunidad vimos que la varianza de la media muestral era igual al cociente entre la
varianza de la población y el tamaño de la muestra.
Es decir:
108
σ2
V (X̄) = σx̄2 =
n
Cuando el muestreo se hace sin reposición de una población nita, puede demostrarse que:
σ2
N −n
V (X̄) = σx̄2 = (4.6)
n N −1
donde n es el tamaño de la muestra y N es el tamaño de la población.
Comprobemos este resultado con los datos del ejemplo que estamos analizando.
σ2
N −n 5 4−2 5 2 5
σx̄2 = = = =
n N −1 2 4−1 2 3 3
Podemos resumir estos resultados en el siguiente teorema que se demuestra en curso más avanzados
de Estadística.
Teorema 4.5 Sea X una variable aleatoria con media µ y varianza σ2 , la distribución de probabi-
lidad de la variable aleatoria media muestral X̄ , denida para todas las muestras sin reposición de
tamaño n tomadas de la población
nita de tamaño N , tiene una media o valor esperado igual a
µ y varianza igual a σn N . Además, si la población de las cuales se toman las muestras tiene
2
−n
N −1
Distribución Normal, o se dan las condiciones para aplicar el Teorema Límite Central, la variable
media muestral X̄ también tendrá Distribución Normal.
Como consecuencia de lo enunciado por el Teorema (4.5), es posible demostrar que la variable
aleatoria
X̄ − µ
Z=
σx̄
siendo
s
σ2
N −n
σx̄ = (4.7)
n N −1
Ejemplo 4.2 Una empresa emplea 1.500 personas. La cantidad promedio gastada durante un año
en servicio médicos personales fue de 25, 75 dólares y la desviación estándar fue 5, 25. ¾Cual es la
probabilidad de que una muestra aleatoria sin reposición de 100 empleados de una media compren-
dida entre 25 y 27 dólares respectivamente.
Solución
Por lo tanto, la media muestral X̄ , determinada a partir de todas las muestras sin reposición de
tamaño n = 100 que se tomen a partir de los valores de la variable, tendrá distribución aproxima-
damente normal con media o valor esperado µx̄ = 25, 75.
109
100
La fracción de muestreo es
1.500 = 0, 07. Por lo tanto se debe utilizar el factor de corrección para
poblaciones nitas para calcular la varianza de X̄ .
O sea:
5, 252
1.500 − 100
σx̄2 = = 0, 257
100 1.500 − 1
25 − 25, 75
z1 = √ = −1, 48
0, 257
de la misma manera:
27 − 25, 75
z2 = √ = 2, 46
0, 257
Por lo tanto:
Pruebas de hipótesis
Cuando se lleva a cabo alguna técnica inferencia para obtener conclusiones acerca de un parámetro
poblacional, hay dos conceptos que deben ser siempre tenidos en cuenta en el proceso. Son los de
estimador y el deestimación, muy ligados entre si pero conceptualmente diferentes.
Un estimador es regla o fórmula que se utiliza para estimar algún parámetro.
Por ejemplo, la media muestral X̄ es un estimador de la media poblacional µ. Un valor particular
de X̄ constituye una estimación puntual de la media poblacional.
Hemos visto que un estimador es una variable aleatoria y como tal tendrá una distribución de
probabilidad. La distribución de probabilidad de un estadístico recibe el nombre de distribución
de muestreo del estadístico.
Es decir, una estimación es un valor particular del estimador calculado a partir de una muestra
aleatoria tomada de la población respectiva.
Si a partir de las observaciones de una muestra aleatoria se calcula un solo valor de un estadístico
como estimación de algún parámetro desconocido, tal procedimiento recibe el nombre de estima-
ción puntual ya que se utiliza como estimación un solo valor del conjunto de valores posibles del
estimador.
Supongamos que se quiera estimar la renta media mensual de las familias de alguna ciudad. Sea
110
X= Renta mensual en dólares de las familias de la ciudad
Supongamos que se toma una muestra aleatoria de n familias y se denota con x̄ el ingreso medio
de la muestra.
Si al tomar, por ejemplo, una muestra aleatoria de n = 150 familias de la ciudad se obtiene una
renta promedio de 1 200 dólares mensuales, es decir x̄ = 1 200 esta cantidad se puede considerar
una estimación puntual de la renta promedio de todas las familias de la ciudad.
Como en el proceso de estimación de algún parámetro utilizamos algún estimador del parámetro,
es obvio que se elegirá al el mejor estimador para realizar la estimación.
Veremos a continuación cuales son las propiedades deseables de los estimadores que se utilizan en
los proceso de estimación.
Por ejemplo
Pn
i=1 Xi X1 + X2 + · · · + Xn
X̄ = =
n n
es un estimador de la media poblacional µ.
La proporción muestral
Pn
i=1 Xi X1 + X2 + · · · + Xn
P̄ = =
n n
donde Xi = 1 si se obtiene un éxito y Xi = 0 si se tiene un fracaso es un estimador de la proporción
poblacional.
La varianza muestral
Pn
i=1 (X1 − X̄)2 (X1 − X̄)2 + (X2 − X̄)2 + · · · (Xn − X̄)2
S2 = =
n−1 n−1
es un estimador de la varianza poblacional σ2 .
Para poder utilizar la información de una muestra aleatoria de la mejor manera posible para realizar
una estimación, es necesario identicar aquellos estadísticos que sen buenos estimadores desde el
punto de vista de la Estadística.
Hay cuatro criterios que se aplican para determinar si un estadístico es o no un buen estimador
del parámetro que se busca estimar.
Estos criterios son los siguientes: insesgamiento, eciencia, consistencia y suciencia. Analizamos
brevemente cada una de estas propiedades.
Denición 4.5 Se dice que un estimador θ̂ es un estimador insesgado del parámetro θ si se cumple
que E(θ̂) = θ
De acurdo con esta denición, X̄ es un estimador insesgado de la media poblacional µ pues como
hemos demostrado E(X̄) = µ
En cambio
Pn
i=1 Xi
T =
n−1
nµ
no es un estimador insesgado de µ pues, como puede demostrarse, E(T ) = n+1 .
Primera recomendación:
111
Si se tienen dos estimadores θ̂1 y θ̂2 de un mismo parámetro θ̂ y uno de ellos es insesgado, elija
el insesgado
Puede ocurrir que un parámetro θ tenga dos estimadores que sean insesgados. Por ejemplo, cuando
una variable X tiene una distribución de probabilidad simétrica (como normal por ejemplo), la
media y la mediana muestral son estimadores insesgados de la media poblacional µ.
σ2
Como ya sabemos, V (X̄) = n .
σ2 4
Por otro lado, puede demostrarse que la varianza de la mediana muestral es V (Me ) = n π
siendo σ2 la varianza de la población. Obviamente V (Me ) > V (X̄).
Denición 4.6 De dos estimadores insesgados θ̂1 y θ̂2 de un mismo parámetro θ se dice que θ̂1
es más eciente que θ̂2 si V (θ̂1 ) < V (θ̂2 ).
Segunda recomendación:
Si se tiene dos estimadores θ̂1 y θ̂2 de un parámetro θ y ambos son insesgados, elija el de meno
varianza.
Estas dos propiedades de los estimadores las más importantes, nos referiremos brevemente a las
dos restantes.
Puede ocurrir que un parámetro no tenga un estimador insesgado. En este caso, se busca que por
lo menos el estimador sea consistente.
Un estimador consistente es aquel que a medida que aumenta el tamaño de la muestra, la probabi-
lidad de que sus valores se acerquen al valor del parámetros desconocido es mayor.
Como última característica de los buenos estimadores se considera la suciencia.
Supongamos que se quiera estimar la media µ de cierta población. Hemos visto que tanto la media
muestral y la mediana muestral son estimadores insesgados de este parámetro.
Pero por lo que sabemos de estos dos estimadores, la media utiliza mejor la información de la
muestra que la mediana que a lo sumo se utilizan dos observaciones de la muestra para calcularla.
Hemos dicho también que cuando el objetivo de la inferencia es la estimación de algún parámetro
poblacional hay dos maneras de hacerlo: mediante una estimación puntual o mediante un intervalo
de conanza.
Para realizar una estimación puntual de cierto parámetro θ se procede en general, de la siguiente
manera:
Por ejemplo, si el objetivo es estimar puntualmente la media µ de una población se debería proceder
de la siguiente manera:
112
1. Seleccionar una muestra aleatoria de tamaño n de la población
3. Realizar la estimación
Hay un problema obvio relacionado con la estimación puntual de un parámetro poblacional: aun-
que solo se estima un parámetro, el número de estimaciones disponibles generalmente
es muy alto.
Cada muestra que se puedan tomar de la población arrojará una estimación diferente.
Por el estudio de las distribuciones muestrales de los estimadores se sabe que algunas estimaciones
estarán cerca del valor del parámetro estimado y otra no tanto.
Sin embargo, una vez que se realizó el procedimiento inferencial, no se sabe que tan cerca estará
la estimación del valor desconocido del parámetro.
En una situación real podemos considerar poco probable que la estimación puntual sea igual al
valor del parámetro.
Sin embargo no se estará en condiciones de decir en cuanto nos hemos equivocado. Es decir, en
toda estimación puntual existe cierto grado de incertidumbre que es imposible eliminar.
Para tratar de acotar esta incertidumbre (no de eliminarla por completo) se puede estimar el
parámetro desconocido por medio de un intervalo de conanza que consiste en determinar dos
números entre los cuales se hallaría el parámetro con cierto grado de conanza o certeza.
La expresión típica de un intervalo de conanza para estimar el parámetro θ es el siguiente:
donde:
El nivel de conanza 1−α es un número real mayor a cero y menor a uno, es decir 0 < 1 − α < 1.
Cuanto más cercano a uno esté el valor de 1−α es más probable que el valor desconocido del
parámetro sea un valor comprendido entre los límites de conanza.
Cuanto más cercano a cero sea el valor de 1 − α será menos probable que el parámetro desconocido
sea un valor comprendido entre los límites de conanza.
Naturalmente, los intervalos se construyen de manera de que el valor de 1−α sea lo más alto
posible.
113
4.5.1. Intervalo de conanza para µ. Población normal, σ2 conocida
Veamos ahora como estimar la media µ de una población por medio de un intervalo de conanza
de una población con distribución Normal y varianza σ2 conocida.
Luego veremos como se procede en los casos en los cuales no se conoce este parámetro.
Por lo que sabemos de las distribuciones muestrales, cuando se toman muestras de tamaño n de
una población con distribución Normal con media µ y varianza σ2 , la variable aleatoria
X̄ − µ
Z= √
σ/ n
tiene distribución Normal Estándar.
De acuerdo con la equivalencia entre áreas y probabilidades para las variables aleatorias continuas
podemos escribir e interpretar el siguiente enunciado de probabilidad:
X̄ − µ
Pr −z ≤ √ ≤z =1−α (4.9)
σ/ n
Los valores de −z y z quedan determinados por el valor de 1 − α. Por lo que sabemos de la
distribución Normal
σ σ
Pr −z √ ≤ X̄ − µ ≤ z √ =1−α
n n
114
σ σ
Pr −X̄ − z √ ≤ −µ ≤ z √ − X̄ = 1 − α
n n
Multiplicando el paréntesis por −1
σ σ
Pr X̄ + z √ ≥ µ ≥ X̄ − z √ =1−α
n n
Expresión que puede reescribirse de la siguiente manera:
σ σ
Pr X̄ − z √ ≤ µ ≤ X̄ + z √ =1−α (4.10)
n n
¾Cómo se interpreta este enunciado de probabilidad?. Supongamos que 1 − α = 0.95.
Diremos entonces que si de una población con distribución Normal, varianza σ 2 y media µ desco-
nocida se toman muestras de tamaño n, la probabilidad de que la media desconocida µ sea algún
valor comprendido entre X̄ − z √σn y X̄ + z √σn es 0, 95.
También podría decirse, a partir de la denición de probabilidad de un evento como frecuencia
relativa, que si se toman muestras repetidas de tamaño n de una población de varianza σ 2 y media
µ desconocida, en el 95 por ciento de las muestras la media µ tomará algún valor entre X̄ − z √σn
y X̄ + z √σn es 0, 95.
El intervalo
σ σ
X̄ − z √ ; X̄ + z √ (4.11)
n n
Suponga que tomamos una muestra de tamaño n y con ella calculamos el valor de X̄ correspon-
diente. Llamemos x̄0 a este valor.
σ σ
x̄o − z √ ; x̄0 + z √ (4.12)
n n
Se trata pues de uno de los intervalos de los cuales el (1 − α)100 % contiene la media poblacional
desconocida µ
El intervalo 4.11 habitualmente se escriba de la siguiente manera:
σ σ
C x̄0 − z √ ≤ µ ≤ x̄o + z √ =1−α (4.13)
n n
Observe que hemos el símbolo Pr por C. Esto se debe a que x0 no es una variable aleatoria y solo
se pueden calcular probabilidades para este tipo de variables.
σ
x̄0 ± z √ (4.14)
n
Cuando efectuamos la resta obtendremos el límite inferior de conanza, cuando consideramos el
signo más se obtiene el límite superior de conanza.
Ejemplo 4.3 Una muestra de 36 estudiantes del último año de la carrera de licenciatura dio como
resultado un promedio en sus calicaciones de x̄ = 6.9 puntos. Si bien es cierto este puntaje puede
115
cambiar de muestra en muestra, se sabe que la desviación estándar poblacional se mantiene más o
menos constante en el valor σ = 0.3 puntos.
Estime la calicación promedio de todos los estudiantes de la carrera de contador:
1. Puntualmente
2. Por medio de un intervalo de 95 por ciento de conanza
3. Por medio de un intervalo de 99 por ciento de conanza
4. Comente los resultados
Solución
Primer punto:
Como se trata de una estimación puntual no información acerca de la precisión de esta estimación.
Segundo punto:
0, 3 0, 3
C 6, 9 − 1, 96 √ ≤ µ ≤ 6, 9 + 1, 96 √ = 0, 95
36 36
Por lo tanto:
C(6, 8 ≤ µ ≤ 6, 99) = 0, 95
Esta resultado puede interpretarse de la siguiente manera:no se sabe exactamente cuál es el pun-
taje promedio de todos los estudiantes del último año de la carrera de licenciatura pero estamos
razonablemente conados de que el verdadero promedio es algún valor comprendido entre 6,8 y 6,9
puntos.
Tercer punto
Para hallar un intervalo de 99 por ciento de conanza (1 − α = 0, 99) debemos encontrar los valores
de −z y z.
Consultando la tabla de probabilidades normal estándar se puede vericar que z = ±2, 58.
Por lo tanto, el intervalo de conanza para estimar el puntaje medio de todos los estudiantes del
último año de la carrera de licenciatura se construye de la siguiente manera:
0, 3 0, 3
C 6, 9 − 2, 58 √ ≤ µ ≤ 6, 9 + 2, 58 √ = 0, 95
36 36
Realizando las operaciones correspondientes se obtiene:
C(6, 77 ≤ µ ≤ 7, 03) = 0, 99
De nuevo, no se sabe cuál es el verdadero puntaje promedio de los estudiantes del último año de
la licenciatura pero se estima que es algún valor comprendido entre 6,77 y 7,03 puntos con una
conanza del 99 %.
116
Si consideramos el intervalo de 95 % de conanza se puede vericar fácilmente que su amplitud es
A1 = 6, 99 − 6, 8 = 0, 19.
La amplitud del intervalo de 99 % de conanza es A2 = 7, 03 − 6, 77 = 0, 26
Conclusión: Al aumentar el nivel de conanza en la construcción de un intervalo se pierde precisión
en la estimación.
Es decir, estaremos más seguro que el intervalo contendrá al parámetro estimado pero perdemos
precisión en la estimación.
En todos los resultados obtenidos hasta el momento, se ha supuesto que la varianza de la población
σ2 era conocida.
Hemos visto también que cuando las muestras se toman de una población con distribución normal
la variable aleatoria
X̄ − µ
Z= √
σ/ n
tiene distribución normal estándar.
Además sabemos también que aún cuando el muestreo se haga de una población sin distribución
Normal, este resultado sigue siendo aproximadamente válido siempre y cuando las muestras son lo
sucientemente grades (Teorema del límite central).
Esto nos lleva a preguntarnos si es posible realizar inferencias acerca de la media µ al no conoce
σ2 .
La respuesta es afortunadamente que si se puede reemplazando, S por σ en la expresión anterior
obteniéndose de esta manera una nueva variable aleatoria
X̄ − µ
T = √ (4.15)
S/ n
de la cual se dice que tiene distribución t de Student con n−1 grados de libertad.
En las secciones siguientes estudiaremos estos dos conceptos nuevos y veremos como se los puede
utilizar en la estimación de la media de una población.
X̄ − µ
T = √
S/ n
cuando el muestreo se realiza de una población con distribución Normal.
Este modelo de distribución de probabilidad que se conoce con el nombre de distribución t sirve
para realizar inferencias acerca de la media de una población cuando no se conoce su varianza y
se utiliza la varianza muestral S2 como su estimador.
117
Denición 4.7 Se dice que una variable aleatoria T tiene distribución t de Student si su función
de densidad de probabilidad es
− n+1
Γ n+1
n t2 2
f (t) = √ n
1 + (4.16)
nπΓ 2 n
Si una variable aleatoria continua tiene distribución t de Student, entonces −∞ < t < ∞, es
decir, la variable puede tomar cualquier número real
f (t) > 0
La gráca de f (t) tiene forma de campana tal como se muestra en la Figura (4.6).
R +∞
Como en toda densidad de probabilidad
−∞
f (t)dt = 1. Es decir, el área bajo la curva de
f (t) y el eje de los valores posibles de la variable es igual a uno
118
Figura 4.7: Distribuciones t para distintos grados de libertad
Existen tablas que se pueden utilizar en las aplicaciones que requieren el uso de la distribución t
para el cálculo de probabilidades.
Una de esas tablas el la Tabla que acompaña este material. Veamos cómo se la puede utilizar.
La columna que está más a la izquierda de la tabla es la columna de los grados de libertad.
Los encabezamientos de las columnas indican qué proporción de área total bajo la curva de la
distribución se encuentra a la izquierda del valor T = t0 .
Por ejemplo, si se está interesado en la distribución t con diez grados de libertad, se puede ver en
la tabla. que el 0, 975 del área bajo la curva se encuentra la izquierda de t = 2.2281.
La proporción de área que se encuentra a la derecha de 2.2281 es igual a 1 − 0.975 = 0, 025.
Utilizando el símbolo T10 para indicar que nos estamos reriendo a una variable aleatoria con
distribución t de Student con k = 10 grados de libertad, podemos expresar las ideas anteriores
escribiendo:
X̄ − µ
T = √
S/ n
tendrá aproximadamente distribución normal estándar cuando el tamaño de la muestra es grande.
Esta práctica puede justicarse en parte por el hecho de que cuando el tamaño de la muestra es
grande, S2 constituye una buena estimación de σ2 .
Por último nos queda analizar el concepto de grados de libertad muy utilizado en la inferencia
estadística.
Lo haremos con un ejemplo, supongamos que se va a calcular la varianza muestral S2 como esti-
2
mación de la varianza poblacional σ .
Como
119
Pn
− X̄)2
i=1 (Xi
S2 =
n−1
Antes de calcular la varianza muestral S2 es necesario calcular X̄ que como se sabe es un estimador
de la media poblacional µ.
Deniremos como grados de libertad de S 2 a la diferencia entre el tamaño de la muestra n y el
número de parámetros que hay que estimar para calcular S2.
Como para calcular S2 hay que estimar un solo parámetro, los grados de libertad de S2 son
k = n − 1.
2
Pn
Los estadísticos matemáticos coinciden en que al dividir i=1 (Xi − X̄) por sus grados de libertad
2
n−1 se obtiene ek mejor estimador de la varianza poblacional σ .
X̄ − µ
T = √
S/ n
tiene distribución t de Student con k =n−1 grados de libertad.
Cuando σ2 es desconocida se puede utilizar la variable aleatoria T para estimar la media µ por
medio de de un intervalo de conanza.
Entonces, teniendo en cuenta que la variable T tiene distribución t de Student podemos escribir
en interpretar el siguiente enunciado de probabilidad:
X̄ − µ
Pr −t ≤ √ ≤t =1−α (4.17)
S/ n
En la Figura 4.8 se muestra grácamente este enunciado.
120
S S
Pr X̄ − t √ ≤ µ ≤ X̄ + t √ =1−α
n n
El intervalo
S S
X̄ − t √ , X̄ + t √ (4.18)
n n
Suponga que tomamos una muestra de tamaño n y calculamos un valor de la media muestral.
Llamemos x̄0 a este valor.
s s
x̄0 − t √ , x̄0 + t √ (4.19)
n n
Expresión que habitualmente se escribe de la siguiente manera
s s
C x̄0 − t √ ≤ µ ≤ x̄0 + t √ =1−α (4.20)
n n
O, de forma abreviada
s
x̄0 ± t √ (4.21)
n
Las Fórmulas (4.20) y (4.21) reciben el nombre de intervalos de (1 − α) porciento de conanza para
la media poblacional µ.
Hemos analizado como construir intervalos de conanza para estimar la media poblacional µ en
los casos en los cuales se conoce la varianza poblacional σ2 como cuando no se la conoce.
En el caso de que la varianza poblacional σ2 sea conocida se obtienen los mismos resultados si la
población tiene distribución Normal o si es posible aplicar el Teorema del Límite Central.
En realidad, es muy difícil que una población tenga exactamente distribución Normal.
Los especialistas en Estadística recomiendan que incluso cuando la población no tenga distribución
Normal y se desconoce σ2 pero n ≥ 30 se puede reemplazar sigma y por s y utilizar la expresión
s
x̄0 ± z √
n
para estimar la media poblacional µ.
La justicación de este razonamiento descansa en el supuesto de que para muestras tan grandes
como 30, la desviación estándar muestral s tomará un valor muy próximo a σ y además sigue
siendo aplicable el Teorema del Límite Central.
Ejemplo 4.4 Los siguientes son los registros de las mediciones del tiempo, en minutos, que tarda-
ron una muestra de 15 operarios en familiarizarse con una máquina recientemente adquirida por
una empresa.
Suponga que la variable X = Tiempo hasta completar la tarea tiene distribución Normal.
121
3,4 2,8 4,4 2,5 3,3 4,0 4,8 2,9 5,6 5,2 3,7 3,0 3,6 2,8 4,8
Solución
Primer punto
P15
− x̄0 )2
i=1 (xi (3, 4 − 3, 79)2 + (2, 8 − 3, 79)2 + · · · + (4, 8 − 3, 79)2
s20 = = = 0, 9409
15 − 1 15 − 1
√
Por lo tanto, s0 = 0, 9409 = 0., 97
Los valores de t en la distribución de Student para k = 14 grados de libertada y que dejan el 95 %
del área comprendida entre ellos son −2, 1448 y t = 2, 1448.
0, 97 0, 97
C 3, 79 − 2, 1448 √ ≤ µ ≤ 3, 79 + 2, 1448 √ = 0, 95
15 15
Por lo tanto:
C(3, 25 ≤ µ ≤ 4, 32) = 0, 95
No se sabe exactamente cuál es el valor de el tiempo promedio poblacional pero se tiene una con-
anza del 95 % que se trate de un valor comprendido entre 3,25 y 4,32 minutos aproximadamente.
Segundo punto
De acuerdo con el intervalo de conanza hallado en el punto anterior no parece correcta la apre-
ciación del instructor puesto que el promedio 5 minutos está fuera del intervalo hallado.
Parece ser, de acuerdo con los resultados obtenidos que el promedio es menor.
Ahora veremos como estimar µ cuando la muestra se toma sin reposición de una población nita.
Cuando la población es nita y el muestreo es sin reposición habrá que agregar el factor de correc-
ción para poblaciones nitas la expresión de la desviación estándar de X̄ .
Pueden presentarse los siguientes casos particulares:
122
r r !
σ N −n σ N −n
C x̄0 − z √ ≤ µ ≤ x̄0 + z √ =1−α (4.22)
n N −1 n N −1
De manera abreviada:
r
σ N −N
x̄0 ± z √ (4.23)
n N −1
r r !
s N −n s N −n
C x̄0 − t √ ≤ µ ≤ x̄0 + t √ =1−α (4.24)
n N −1 n N −1
De manera abreviada:
r
s N −N
x̄0 ± t √ (4.25)
n N −1
r r !
s N −n s N −n
C x̄0 − z √ ≤ µ ≤ x̄0 + z √ =1−α (4.26)
n N −1 n N −1
De manera equivalente:
r
s N −N
x̄0 ± z √ (4.27)
n N −1
Ejemplo 4.5 El gerente de personal de una gran empresa quiere estimar el puntaje promedio que
obtendrían en una prueba de aptitud sus 5.500 empleados. Para ello toma una muestra aleatoria sin
reposición de 250 empleados y con esta obtiene una media de 65 puntos y una desviación estándar de
15 puntos. Estime el puntaje promedio que obtendrían todos los empleados de la empresa mediante
un intervalo de 95 % de conanza.
Solución
Los datos con los que se cuenta son los siguientes: tamaño de la población N = 5.500, tamaño de
la muestra n = 250, media muestral x̄0 = 65 puntos y desviación estándar muestral s = 15 puntos.
La muestra se toma sin reposición de una población nita. La variable objeto de estudio es la
siguiente:
r
s N −n
x̄0 ± z √
n N −1
123
Reemplazado los datos ene esta expresión obtenemos:
r
15 5.500 − 250
65 ± 1, 96 √
250 5.500 − 1
Luego de realizar los cálculos correspondientes se obtiene:
C(63 ≤ µ ≤ 67) = 0, 95
250
La fracción de muestreo es en este caso
5 500 = 0, 045. Por lo tanto podría no utilizarse el factor
de corrección para poblaciones nita.
Ejemplo 4.6 Utilizando los datos del Ejemplo (4.5) estime el puntaje promedio µ sin tener en
cuenta el factor de corrección para poblaciones nitas. Compare los resultados obtenidos
Solución
Por ejemplo, un investigador de mercados contratado por una empresa puede estar interesado en
conocer la proporción de familias de una ciudad que consumen algún producto elaborado por la
empresa.
Un candidato político puede estar interesado en saber la proporción de votantes que votarían por
él en las próximas elecciones.
Para realizar inferencias acerca de la proporción p de éxitos se debe estudiar las propiedades de
su estimador, el estadístico P̄ o proporción muestral que fuera denido en la Sección 4.4 de este
material.
En esa oportunidad dijimos que si X1 , X2 , · · · Xn es una muestra aleatoria tomada de una población
dicotómica, es decir, en una población donde Xi = 0 si se tiene un fracaso y Xi = 1 si se tiene un
éxito, la variable aleatoria
Pn
i=1 Xi X1 + X2 + · · · + Xn
P̄ = = (4.28)
n n
recibe el nombre de proporción muestral y se la utiliza para realiza estimaciones acerca de la
proporción poblacional.
La diferencia está que en el caso de la media muestral las variables aleatorias Xi pueden asumir
cualquier número real mientras que en la denición de la proporción muestral solo puedan asumir
dos valores: 0 y 1.
¾Cómo se puede obtener las propiedades de la distribución de probabilidad de la proporción mues-
tral P̄ ?
Empíricamente se podría proceder de la siguiente manera:
124
En realidad,las propiedades de la distribución de P̄ se obtienen mediante el siguiente resultado:
El coeciente de corrección para poblaciones nitas puede omitirse en el calculo de σp̄ si N ≥ 20n
Si las muestras se toman con reposición de una población nita, la media y la varianza de la
pq
variable aleatoria proporción muestral son E(P̄ ) = µp̄ = p y σp̄2 = n siendo q =1−p .
Como una consecuencia de Teorema 4.6 es posible demostrar que la variable aleatoria
P̄ − p
Z= (4.29)
σp̄
donde el valor de σp̄2 depende del tipo de muestreo que se realice, tiene aproximadamente distribu-
ción Normal Estándar.
Ejemplo 4.7 Se sabe que el 60 % de las amas de casa de la ciudad asisten regularmente a un
supermercado radicado en la misma. Si se toma una muestra aleatoria de 150 amas de casa de
la ciudad ¾cuál es la probabilidad de que la proporción muestral calculada con esta muestra esté
comprendida entre 0, 5 y 0, 7. Suponga que N ≥ 20n
Solución
0.5 − 0, 6
z1 = p = −2, 5
0, 6 × 0, 40/150
Además
0, 7 − 0.6
z1 = p = 2, 5
0, 6 × 0, 40/150
O sea:
125
4.6.1. Estimación de la proporción de una población
Como en el caso de la media, si el objetivo es estimar la proporción de éxitos en una población
dicotómica, podemos proceder a estimarla:
Puntualmente
a su vez, para estimar la proporción de éxitos en una población dicotómica se puede proceder de
la siguiente manera:
x
2. Calcular p̄ = n siendo x el número de éxitos y n el tamaño de la muestra.
Por ejemplo, supongamos que se quiera estimar la proporción de familias de una ciudad que tiene
algún familiar en la universidad.
Como en número de familias en la ciudad es muy grande, por cuestiones de costos y tiempo, se
selecciona una muestra de n = 1 000 y familias y que se verica que en la muestra el número de
familias con un familiar (éxitos) en la universidad es x = 200.
200
Por lo tanto, p̄ = = 0, 20 es la proporción estimada de familias de la ciudad con algún familiar
1.000
en la universidad.
También puede decirse que el 20 % de las familias de la ciudad tienen algún familiar en la univer-
sidad.
P̄ − p
Z=p
pq/n
tiene distribución Normal Estándar.
Por lo tanto, y tal cual lo hicimos en el caso de la media µ podemos plantear e interpretar el
siguiente enunciado de probabilidad:
!
P̄ − p
Pr −z ≤ p ≤z =1−α
pq/n
r r
pq pq
Pr P̄ − z ≤ p ≤ P̄ + z =1−α
n n
Puede demostrarse entonces que un intervalo del (1 − α)100 % de conanza para p está dado por
la siguiente expresión:
r r !
p̄0 q̄0 p̄0 q̄0
C p̄0 − z ≤ p ≤ p̄0 + z =1−α (4.30)
n n
126
Cuando la muestra se toma sin reposición de una población nita de tamaño N, cosa que se hace
habitualmente, resulta adecuado el factor de corrección para poblaciones nitas en el cálculo de
sp̄ . Por lo tanto, un intervalo de conanza de (1 − α)100 % para la proporción p de éxitos de una
población dicotómica tiene la siguiente expresión:
r r r r !
p̄0 q̄0 N −n p̄0 q̄0 N −n
C p̄0 − z ≤ p ≤ p̄0 + z =1−α (4.31)
n N −1 n n−1
n
N es menor a 0.05 el valor del factor de corrección estará lo
Si resulta que la fracción de muestreo
sucientemente cercano a uno como para justicar su omisión.
Ejemplo 4.8 Una cadena de supermercados cuenta con 10.000 poseedores de tarjetas de crédito a
quienes se les factura los gastos de cada mes. El administrador de dichas tarjetas quiere estimar la
proporción de personas que poseen la tarjeta y que comprarían en los supermercados si estuvieran
abiertos los días domingo. Para ello toma una muestra aleatoria de 100 poseedores de la tarjeta y
encuentra que 60 indicaron que comprarían los días domingo. El administrador quiere obtener una
estimación por intervalo con el 99 % de conanza de la proporción real de poseedores de la tarjeta
que comprarían los días domingo.
Solución
Los datos para este problema son los siguientes: N = 10.000; n = 100 y p̄ = 0, 60, por lo tanto
q̄ = 1 − 0, 60 = 0, 40
Además, como np̄ = 100(0, 60) = 60 y nq̄ = 100(0, 40) = 40, entonces P̄ tiene distribución
aproximadamente Normal.
r r
(0, 60)(0, 40) 10.000 − 100
sp̄ = = 0, 0486
100 10.000 − 1
Finalmente:
El tamaño de la muestra debe ser el adecuado pues si su tamaño es muy grande se perderá tiempo
y dinero, pero si la muestra es muy pequeña no se obtendrán resultados conables.
127
4.7.1. Tamaño de la muestra para estimar µ
Cuando el objetivo inferencial es estimar la media µ de una población, una vez tomada la muestra
y realizado los cálculos pertinentes, el intervalo de conanza para la media poblacional se construye
de la siguiente manera:
Recordemos que una de las formas de expresar un intervalo de conanza para la media poblacional
µ es la siguiente:
σ σ
C x̄0 − z √ ≤ µ ≤ x̄o + z √ =1−α
n n
σ
A = 2z √
n
σ
d=z √ (4.32)
n
Por ejemplo, si se quiere estimar la media µ de alguna población, y deseamos que el intervalo sea
de 10 unidades de amplitud, con esto queremos decir que deseamos que z √σ sea igual a 5.
n
Esto es lo mismo que decir que nos gustaría que nuestra estimación estuviera a una distancia de a
lo sumo 5 unidades de la media verdadera.
Supongamos que en una situación dada se pueda determinar que tan cerca queremos que se en-
cuentre nuestra estimación de la media verdadera, es decir, precisamos el valor de d. Supongamos
que la desviación estándar de la población σ es conocida y que se ja de antemano la conanza
que deseamos en la estimación.
Con esta información se puede establecer la Fórmula (4.32) donde d es la semiamplitud del intervalo
de conanza.
z2 σ2
n= (4.33)
d2
Esta expresión puede utilizarse para calcular el tamaño de la muestra necesaria para realizar una
estimación con (1 − α)100 % de la media de una población cuya varianza es σ2 .
En la mayoría de los casos prácticos la varianza de la población no se conoce. Por lo tanto se deberá
realizar una estimación de la misma.
Algunas de las posibles maneras de estimar la varianza poblacional para utilizarla en la Fórmula
(4.33) son las siguientes:
Muestra piloto. Se toma una muestra previa o piloto de la población objetivo par calcular la
varianza muestral S2 y utilizarla como estimación σ2
128
Estimaciones previas. Estudios con temas y objetivos similares a la investigación que se piensa
realizar pueden haberse realizados anteriormente. En este caso es posible utilizar la varianza
muestral de estos estudios para estimar σ2
Observe el efecto que tiene sobre n los valores de z; σ y d cuando varía alguno de ellos mientras el
resto permanece constante.
Cuanto mayor sea la varianza de la población, mayor será el tamaño de la muestra para z y d
jas. O sea, cuando el muestreo se realiza de poblaciones altamente variables, se necesitarán
muestras más grandes
Cuanto mayor sea la conanza con la cuál se hará la estimación, mayor será la muestra
necesaria.
Intervalos estrechos de conanza (valores más pequeños de d) requerirán muestras más gran-
des.
Ejemplo 4.9 Un investigador quiere estimar la media de cierta población. Desea que su estima-
ción se encuentre a no más de 0,10 unidades de la media verdadera con una conanza del 95 %.
Estudios anteriores indican que la población estudiada tiene distribución Normal con una varianza
σ 2 = 0, 09. ¾Qué tamaño de la muestra debe tener el investigador para cumplir con su objetivo?
Solución
Los datos para este ejemplo son los siguientes: 1 − α = 0, 95, por lo tanto, z = 1, 96. Además
σ 2 = 0, 09.
Luego:
1, 962 × 0, 09
n= = 34, 57
0, 102
Por lo tanto, el investigador deberá tomar una muestra de tamaño 35 para el logro de sus objetivos.
En el análisis precedente hemos supuesto que la muestra se tomará, con o sin reposición de una
población innita.
Si se ha de tomar una muestra sin reposición de una población nita de tamaño N se debe incor-
porar el factor de corrección para poblaciones nitas.
r
σ N −n
d=z √
n N −1
N z2 σ2
n= (4.34)
z 2 σ 2 + d2 (N − 1)
Se debe indicar que tan cerca deseamos que esté nuestra estimación del valor real del parámetro
estimado e indicar el nivel de conanza deseado.
Existen dos fórmulas para determinar el tamaño de la muestra. Esto depende si se tiene o no en
cuanta el coeciente de corrección para poblaciones nitas.
129
Si el muestreo se realizar de una población innita o de una población nita pero ´la muestra se
tomará con reposición, no se necesitará el factor de corrección y la fórmula para calcular el tamaño
de la muestra es:
z 2 pq
n= (4.35)
d2
donde z es el valor de la variable Z de la distribución Normal Estándar correspondiente al nivel
de conanza elegido.
En la práctica, hay que realizar estimaciones de p y q. Esto puede lograrse, como en el caso del
cálculo del tamaño de la muestra para estimar µ, de dos maneras:
Muestra piloto
Cuando el muestreo se va a realizar sin reemplazo en una población nita de tamaño N , es necesario
considerar el factor de corrección para poblaciones nitas.
N pqz 2
n= (4.36)
z 2 pq + d2 (N − 1)
Solución
Los datos para este ejemplo son los siguientes: N = 500, 1 − α = 0, 90, por lo tanto z = 1, 648.
Además, p̂ = 0, 35.
Por lo tanto
500 × 0, 35 × 0, 65 × 1, 6452
n= = 217, 68
1, 6452 × ×0, 35 × 0, 65 + 499 × 0, 042
Luego, el tamaño de la muestra requerido será n = 218. Pero como ya se han entrevistados en la
muestra piloto 15 hogares, solamente se necesitarán agregar 203 hogares para completar la muestra.
σ 2
En muchas situaciones prácticas, además de estimar la media µ de una población puede que resulte
necesario estimar también su varianza σ2 .
Hemos visto que, en general, la variabilidad de un conjunto de observaciones pertenecientes a una
población se puede hallar por medio de la varianza población denida de la siguiente manera:
Pn
i=1 (xi − µ)2
σ2 =
N
130
Como en general la media µ de la población se desconoce, entonces σ2 también se desconoce y
debe ser estimada.
El estadístico empleado para estimar la varianza poblacional es la varianza muestral que la hemos
denido de la siguiente manera:
Pn
2 − X̄)2
i=1 (Xi
S = (4.37)
n−1
Para poder realizar inferencias acerca del valor de la varianza poblacional debemos realizar algunas
consideraciones previas.
En secciones anteriores hemos analizado las principales propiedades de las variables aleatorias
media muestral X̄ y proporción muestral P̄ como paso previo para la realización de inferencias
acerca de los valores de la media y proporción poblacional.
Se podría pensar que para realizar inferencias acerca de la varianza poblacional, se debería estudiar
las propiedades de la variable aleatoria varianza muestral S2.
En realidad, la distribución de probabilidad de la varianza muestral no tiene mayor interés para la
estadística aplicada.
Sin embargo, si las muestras se toman de una población con distribución Normal, la distribución
(n−1)S 2
de probabilidad de la variable aleatoria χ2 = σ2 resulta de enorme interés.
1. De una población con distribución Normal y varianza σ2 tomar todas las muestras aleatorias
posibles de tamaño n
(n−1)S 2
2. Para cada una de las muestras calcular el valor de χ2 = σ2
Si bien es cierto este procedimiento resulta correcto desde el punto de vista práctico, no resulta
aplicable debido al tiempo que insumiría aún en poblaciones de tamaño moderado.
(n−1)S 2
Las propiedades de la distribución de probabilidad de la variable aleatoria χ2 = σ2 estudian
en el ámbito de la Estadística Matemática.
En el siguiente resultado, que damos sin demostración, se sintetizan las principales propiedades de
(n−1)S 2
la variable aleatoria χ2 = σ2 .
Teorema 4.7 Si S 2 =
Pn
es la variable aleatoria varianza muestral denida a partir de
i=1 (Xi −X̄)
n−1
muestras aleatorias de tamaño n seleccionadas de una población normal con varianza σ 2 , entonces
2
la variable aleatoria χ2 = (n−1)S
σ2 tiene distribución Chi cuadrado con k = n − 1 grados de libertad.
En Teorema (4.7) se menciona por primara vez un nuevo modelo de distribución de probabilidad,
la distribución Chi cuadrado.
En lo que sigue denimos la distribución Chi cuadrado y analizamos sus principales propiedades.
Denición 4.8 Se dice que la variable aleatoria X tiene distribución de probabilidad Chi cuadrado
con k grados de libertada si su función de densidad es
k
( 12 ) 2 ( k −1) − x
f (x) = x 2 e 2 (4.38)
Γ k2
donde Γ es la función gamma.
131
La complejidad matemática de la función f (x) no deja apreciar las propiedades de este modelo de
densidad de probabilidad.
Pero, de la misma manera que lo hemos hecho con las distribuciones Normal y t de Student,
podemos listar sus principales propiedades sn recurrir a la expresión (4.38).
Chi cuadrado
R +∞
4. Si la variable aleatoria X tiene distribución entonces
0
f (x)dx = 1
Rb
5. Pr(a ≤ X ≤ b) = a
f (x)dx
6. Existe una distribución Chi cuadrado para cada grado de libertad k que pueda considerarse.
7. Si X es una variable aleatoria con distribución Chi cuadrado entonces E(X) = k y V (X) = 2k
siendo k sus grados de libertad
8. Si una variable aleatoria X tiene distribución Chi cuadrado con k grados de libertad se escribe
X ∼ χ2 (k)
Al igual que las distribuciones Normal Estándar y t de Student existen tablas para el cálculo de
probabilidades para una variable aleatoria con distribución Chi cuadrado.
Parte de una de esas tablas es la que se presenta en la Figura (4.10). Es muy parecida en cuanto
a su uso a la tabla de la distribución t de Stedent.
En la primera columna de la tabla se registran los grados de libertad k y el encabezamiento de las
columnas indica la proporción de área (probabilidad) que queda a la izquierda de los valores de la
variable que se muestra en el cuerpo de la tabla.
Supongamos que se quiera saber, para una variable aleatoria que tiene distribución Chi cuadrado
con 10 grados de libertad, cual es el valor que deja a su izquierda el 95 % del área bajo la curva.
132
Figura 4.10: Tabla de probabilidades Chi cuadrado
Como en el caso de los parámetros anteriores, si se necesita estimar la varianza de una población
hay dos maneras de hacerlo: Mediante una estimación puntual o por medio de u intervalo de
conanza.
Las estimaciones puntuales de la varianza de una población adolece de los mismos problemas de
la falta de precisión que describimos cuando estimamos puntualmente la media µ y la proporción
poblacional p.
Hay un solo parámetro para estimar y en general muchas estimaciones posibles, una para cada
muestra de tamaño n que puedan tomarse de la población.
Esta falta de precisión puede acotarse mediante un estimación de σ2 por medio de un intervalo de
conanza.
Como hemos visto, si se toman muestras aleatorias de tamaño n de una población con distribución
(n−1)S 2
Normal con varianza σ2 , la variable aleatoria χ2 = σ2 tiene distribución Chi cuadrado con
n−1 grados de libertad.
Seleccionemos dos valores de esta variable, χ21 y χ22 tales que el área comprendida entre la gráca
2 2
de la función f (χ ) el eje χ y los segmentos verticales trazados por los puntos sea el (1 − α) por
ciento del área total bajo la curva. (Figura 4.11)
(n − 1)S 2
Pr χ21 ≤ ≤ χ 2
2 =1−α
σ2
(n − 1)S 2 (n − 1)S 2
2
Pr ≤σ ≤ =1−α (4.39)
χ22 χ21
La interpretación probabilística de este enunciado es la misma que hemos hecho para los intervalos
aleatorios de la media y la proporción muestral.
133
Figura 4.11: Área comprendida entre χ21 y χ22
(n − 1)s20 (n − 1)s20
2
C ≤ σ ≤ =1−α (4.40)
χ22 χ21
como expresión para estimar σ2 mediante un intervalo de (1 − α)100 % de conanza.
Un intervalo de (1 − α) % de conanza para la desviación estándar σ e una población se obtiene
calculando la raíz cuadrada de los límites de conanza de la expresión (4.40)
Ejemplo 4.11 Un fabricante de baterías para automóviles asegura que sus productos tienen una
vida media útil de 2 años con una desviación estándar de 0,5 años. Con el n de indagar si lo
expresado por el fabricante es correcto, se toma una muestra aleatoria de 5 baterías y se registran
los siguientes tiempos de vida útil: 1, 5; 2, 5; 2, 9; 3, 2 y 4, 0 años.Construya un intervalo de 95 % de
conanza para σ 2 e indique si es válida la armación del gerente.
Suponga que la variable aleatoria tiempo de vida útil de las baterías tiene distribución Normal.
Solución
Realizando los cálculos correspondientes se puede vericar que: x̄0 = 2, 82 y ques20 = 0, 847
Con el n de vericar lo armado por el fabricante, estimamos la varianza de la variable X por
medio de un intervalo de 95 % de conanza.
Con n = 5, 1 − α = 0, 95 y con 4 grados de libertad, se puede vericar que χ21 = 0, 484 y que
χ22 = 11, 143 a partir de la tabla de probabilidades correspondiente.
Por lo tanto:
4(0, 847) 2 4(0, 847)
C ≤σ ≤ = 0, 95
11, 114 0, 484
Finalmente:
C 0, 30 ≤ σ 2 ≤ 7, 00 = 0, 95
134
Conclusión: como el intervalo de conanza no contiene el valor σ 2 = 0, 25 podemos decir que lo
armado por el fabricante no es correcto.
Es más, a la luz de los resultados obtenidos, la varianza poblacional parece ser mayor qu el valor
predicho por el fabricante.
135
Capítulo 5
Pruebas de Hipótesis
5.1. Introducción
En el capítulo anterior hemos analizado como estimar un parámetro poblacional partir de los datos
contenidos en una muestra tomada de la población.
Puede encontrarse un solo número (estimación puntual) o un intervalo de valores posibles (intervalo
de conanza).
Sin embargo, muchos problemas de Administración o Economía requieren que se tome una decisión
entre acepar o rechazar un proposición sobre algún parámetro.
Esta proposición recibe el nombre de hipótesis y el procedimiento mediante el cual se toma una
decisión acerca de aceptar o rechazar una hipótesis recibe el nombre de prueba de hipótesis.
Este es uno de los aspectos más útiles de la inferencia estadística puesto que como se dijo, muchos
de los problemas de toma de decisiones en el mundo de la Administración y la Economía pueden
formularse como problemas de pruebas de hipótesis.
Denición 5.1 Una hipótesis estadística es una proposición sobre algún parámetro de una pobla-
ción
Por ejemplo, suponga que se tiene interés en la cantidad de dinero gastado en alimentos cada
semana por las familias de una ciudad.
La cantidad de dinero gastada en alimentos puede considerarse como una variable aleatoria la que
puede ser descrita por su distribución de probabilidad.
H0 : µ = 50
̸ 50
Ha : µ =
H0 : µ ≥ 50
Ha : µ < 50
137
Otra posibilidad es la siguiente:
H0 : µ ≤ 50
Ha : µ > 50
unilateral derecha.
En este caso la hipótesis alterna recibe el nombre de
Es importante tener en cuenta el hecho de que las hipótesis siempre son proposiciones o arma-
ciones algún parámetro poblacional y no proposiciones sobre algún estadístico.
Denición 5.2 El procedimiento estadístico que conduce a alguna decisión sobre la hipótesis nula
(aceptarla o rechazarla) recibe el nombre de prueba de hipótesis.
Si la información es consistente con lo que se arma en la hipótesis nula, se concluye que no hay
razón para pensar que es falsa y no se la rechaza.
Sin embargo si esta información es inconsistente con lo que se arma en la hipótesis nula, se la
rechaza.
Debe tenerse en cuanta que la verdad o falsedad de la hipótesis nula nunca puede conocerse a
menos que se pueda examinarse a todas las unidades observacionales de la población.
En la mayoría de las situaciones prácticas esto es imposible por razones de tiempo y costos.
Por lo tanto todos los procedimientos de pruebas de hipótesis deben desarrollarse teniendo en cuenta
que existe la probabilidad de llegar a una conclusión equivocada.
La estructura de los problemas de pruebas de hipótesis es idéntica en todas las aplicaciones que se
analizan en este material.
La hipótesis nula se plantea de modo que en ella siempre aparezca el signo igual
Procedimiento
Una prueba de hipótesis consiste en tomar una muestra aleatoria de la población, el cálculo de un
estadístico que recibe el nombre de estadístico de prueba y a partir de su valor tomar la decisión
de rechazar o no rechazar la hipótesis nula.
La hipótesis nula es que el gasto promedio semanal es de 50 dólares semanales por familia mientras
que la hipótesis alternativa es que el gasto promedio es distinto de 50 dólares.
H0 : µ = 50
̸ 50
Ha : µ =
138
Por otra parte, un valor de la media muestral muy diferente de 50 puede constituir una evidencia
para no apoyar a la hipótesis nula y que en realidad el gasto semanal promedio es distinto de 50
dólares, es decir apoyaría Ha .
Por lo tanto la media muestral X̄ será el estadístico de prueba para llevar adelante el proceso de
toma de decisiones.
Como sabemos, la media muestral X̄ puede tomar muchos valores, uno para cada muestra que se
tome de la población.
Suponga que si 48, 5 ≤ x̄ ≤ 51, 5 no se rechaza H0 : µ = 50 y que si x̄ < 48, 5 o x̄ > 51, 5 entonces
se rechaza la hipótesis nula.
1
Los valores de X̄ que son menores a 48,5 o mayores a 51,5 constituye la región de rechazo de la
hipótesis nula. Si el valor calculado de la media muestral X̄ es un valor menor a 48,5 o mayor a
51,5 lo consideraremos tan distinto de µ = 50 que rechazaremos la hipótesis nula.
Los valores x̄ = 48, 5 y x̄ = 51, 5 reciben el nombre de valores críticos del estadístico de prueba y
separan las regiones de rechazo y de no rechaza de la hipótesis nula.
Puede ocurrir, por ejemplo, que el verdadero valor de µ sea igual a 50 pero que con la muestra
que hemos tomado de la población obtengamos un valor de la media muestral X̄ comprendido en
la región de rechazo de la hipótesis nula. En este caso rechazaríamos la hipótesis nula en favor de
la alterna cuando H0 es verdadera.
Este tipo de conclusiones equivocadas se las denomina error tipo I.
Denición 5.3 El error tipo I se dene como el error que se comete al rechazar H0 cuando en
realidad es verdadera.
Supongamos ahora que el verdadero valor de µ es diferente de 50 y que al calcular X̄ con la muestra
tomada de la población obtengamos un valor comprendido en la región de no rechazo de la hipótesis
nula.
En este caso no se rechaza H0 cuando en realidad es falsa. Este tipo de conclusión errónea recibe
el nombre de error tipo II.
Denición 5.4 El error tipo II se dene como el que se comente al no rechazar la hipótesis nula
H0 cuando en realidad es falsa.
Por lo tanto, al probar cualquier hipótesis estadística existen cuatro situaciones que determinan si
la decisión nal es correcta o incorrecta. Se las resume en la Tabla (5.1).
Cuando se lleva a cabo el proceso de una prueba de hipótesis y se toma alguna conclusión, nunca
se sabe si se cometió un error pues el valor de µ es desconocido.
139
Decisión H0 es verdadera H0 es falsa
No rechazar H0 No se comete un error Error tipo II
Se rechaza H0 Error tipo I No se comete un error
Por lo tanto, X̄ también también tendrá Distribución Normal con media µ = 50 (hasta que se
2,5
pruebe lo contrario) y desviación estándar σx̄ = √
10
= 0, 79.
La probabilidad de cometer un error de tipo I o nivel de signicación de la prueba es igual a la
suma de las áreas sombreadas en las dos colas de la distribución de probabilidad del estadístico X̄
tal como se muestra en la Figura (5.2).
α = Pr(X̄ < 48, 5 o X̄ > 51, 5) = Pr(X̄ < 48, 5)+Pr(X̄ > 51, 5) =
= Pr(X̄ < 48, 5) + Pr(X̄ > 51, 5) = Pr(X̄ < 48, 5) − 1 − Pr(X̄ ≤ 51, 5)
48, 5 − 50
z1 = = −1, 90
0, 79
140
Así mismo
51, 5 − 50
z1 = = 1, 90
0, 79
Por lo tanto:
Esto implica que aproximadamente el 5,76 % de todas las muestras aleatorias conducirán al rechazo
de H0 : µ = 50 cuando en realidad no debería haberse rechazado.
Como se muestra en la Figura (5.2) la probabilidad de cometer un error tipo I se reparte en partes
iguales en las dos colas de la distribución del estadístico de prueba X̄ .
Al analizar la Figura (5.2) puede verse que es posible reducir el valor de α al aumentar la región
de no rechazo de la hipótesis nula.
Por ejemplo, si se toman como valores críticos x̄1 = 48 y X̄2 = 52 el valor de α es:
α = Pr(X̄ < 48) + Pr(X̄ > 52) = Pr(X̄ < 48) + 1 − Pr(X̄ ≤ 52)
48 − 50
z1 = = −2, 53
0, 79
y
52 − 50
z2 = = 2, 53
0, 79
Por lo tanto
Supongamos que ahora tomamos una muestra de tamaño n = 16 familias manteniendo el resto de
las cantidades en los mismos valores.
√σ 2,5
Si ahora n = 16 resulta que σx̄ = n
= √
16
= 0, 625
Supongamos como hemos dicho, que se mantiene los mismos punto críticos.
Por lo tanto
Pr(X̄ < 48, 5) + Pr(X̄ > 51, 5) = Pr(X̄ < 48, 5) − 1 − Pr(X̄ ≤ 51, 5)
48.5 − 50
z1 = = −2, 4
0, 625
y
51, 5 − 50
z1 = = 2, 4
0, 625
Por lo tanto:
141
α = 0, 0082 + (1 − 0, 9918) = 0, 0164
Luego, cometeremos un erro del tipo II cuando el calor calculado del estadístico de prueba caiga
en el intervalo 48, 5 ≤ X̄ ≤ 51, 5 cuando µ = 52.
Por lo tanto:
48, 5 − 52
z1 = = −4, 43
0, 79
y
51, 5 − 52
z2 = = −0, 63
0, 79
Finalmente:
Puede vericarse que la probabilidad de cometer un error de tipo II aumenta rápidamente a medida
que el valor verdadero de µ tiende al valor dado en la hipótesis nula.
142
Por ejemplo, si H0 : µ = 50 pero resulta que el verdadero valor de la media poblacional es µ = 50, 5
puede vericarse procediendo como en el punto anterior que β = 0, 8923.
La probabilidad de cometer un error tipo II también depende del tamaño de la muestra, disminu-
yendo cuando n aumenta.
48, 5 − 52
z1 = = −4, 43
0, 79
y
51, 5 − 52
z2 = = −0, 80
0, 79
Por lo tanto:
β = 0, 2119 − 0 ⇒ β = 0, 2119
4. Cuando H0 es falsa, β aumenta a medida que el verdadero valor de parámetro tiende al valor
hipotético propuesto en H0 . El valor de β disminuye a medida qu aumenta la diferencia entre
el valor verdadero de µ y el propuesto
Denición 5.5 La potencia de una prueba estadística se dene como la probabilidad de rechazar
H0 cuando es falsa.
143
Numéricamente, valor de la potencia de una prueba estadística se calcula de la siguiente manera:
1 − β.
A menudo, las pruebas estadísticas se comparan cotejando su potencia es de decir, a partir de su
capacidad de rechazar una hipótesis nula falsa.
H0 : µ = µ0
̸ µ0
Ha : µ =
recibe el nombre de prueba bilateral pues la región de rechazo de H0 se divide en dos partes en la
distribución del estadístico de prueba con la misma probabilidad de ocurrencia.
H0 : µ = µ0
Ha : µ > µ 0
o
H0 : µ = µ0
Ha : µ < µ 0
Este tipo de hipótesis reciben el nombre de prueba unilateral derecha pues la región de rechazo de
H0 se encuentra a la derecha de la distribución de probabilidad del estadístico de prueba.
Hemos visto entonces que las hipótesis alternativas pueden ser bilaterales o unilaterales dependien-
do de la conclusión que ha de obtenerse si se rechaza la hipótesis nula.
Así, por ejemplo, si el objetivo es probar armaciones donde aparezcan proposiciones tales como
mayor que, menor que, excede a y otras similares, entonces la alternativa unilateral es la que resulta
más apropiada.
Si la armación no implica ninguna dirección o si es del tipo no es igual, entonces debe utilizarse
la alternativa bilateral.
Llegados a este punto, es bueno precisar que el razonamiento que se hace cuando se realiza una
prueba de hipótesis es similar al que se sigue en un procedimiento judicial.
Al acusar a alguien de un crimen, cuando se llega al juicio se presumen que el acusado es inocente,
es decir, no culpable hasta que se demuestre lo contrario.
144
La parte acusadora recoge y presenta pruebas al intentar descartar la presunción de no culpabilidad,
presunción que, si no se descarta en vista de todas las pruebas disponibles, permite que el acusado
sea declarado inocente y por lo tanto no vaya a la cárcel.
Por otra parte, si se demuestra su culpabilidad mediante las pruebas disponibles, habrá condena y
se descarta la presunción de no culpabilidad.
En el ejemplo introductorio, la hipótesis nula es que el gasto promedio es 50 dolares por familia y
por semana, lo que implica que la no culpabilidad es µ = 50.
El investigador, en este caso el acusador recoge y presenta todas las pruebas posibles a partir de
la muestra. Si existen suciente evidencia para apoyar la hipótesis alterna que implica culpabilidad
demostrada con presunción rme, la decisión será rechazar la hipótesis nula y se concluirá el gasto
promedio en alimentos es distinto de 50 dolares.
Se recomienda utilizar los siguientes pasos para aplicar la metodología aquí desarrollada:
6. Calcular todas las cantidades muestrales necesarias, sustituirlas en la ecuación para el esta-
dístico de prueba y calcular el valor correspondiente
Esto decidirá cuál es el estadístico de prueba que utilizaremos y cuál es su distribución de proba-
bilidad.
Al igual que en la estimación de la media de una población por medio de un intervalo de conanza,
pueden presentarse los siguientes casos a la hora de probar alguna hipótesis acerca de µ:
1. Que la población objetivo tenga distribución Normal y que además se conozca su varianza
σ2
2. Que la población tenga distribución Normal pero que no se conozca su varianza σ2
3. Que la población no tenga distribución Normal y que además su varianza σ2 sea desconocida
Además debe tenerse en cuenta si la muestra se tomará con o sin reposición de una población
nita. El tamaño de la muestra es otro factor que debe ser tenido en cuenta.
145
5.5.1. Población normal, varianza poblacional σ2 conocida
Analizamos a continuación cómo probar alguna hipótesis acerca de la media µ de una población
normal. Adicionalmente supondremos que la varianza de la población, σ2 es conocida.
Se trata de una situación poco frecuente pues la varianza poblacional es en general desconocida.
Sin embargo analizar este caso servirá como introducción de la técnica a casos más generales.
H0 : µ = µ0
̸ µ0
Ha : µ =
donde µ0 es una constante especíca. Además se tiene la información adicional de que la población
tiene distribución Normal y que se conoce su varianza σ2 .
Bajo estas condiciones el estadístico de prueba es la media muestral X̄ .
Bajo estas condiciones las distribuciones de muestreo que el estadístico de prueba Ep = X̄ también
distribución Normal con media µ0 (hasta que se demuestre lo contrario) y desviación estándar
σx̄ = √σ .
n
Podemos determinar las regiones de rechazo y no rechazo de la hipótesis nula utilizando estas
propiedades del estadístico de prueba.
X̄ − µ0
Z= √ (5.1)
σ/ n
En este caso, las regiones de rechazo y de no rechazo de H0 se determinan tal como se muestra en
la Figura (5.4).
Supongamos que se ja el nivel de signicación de la prueba en el valor α = 0, 05. Por lo tanto,
α
2 = 0, 025.
146
Evidentemente, una muestra que produce un valor del estadístico de prueba que caiga en algunas
de las colas de la distribución de Z será inusual (poco probable) si H0 : µ = µ0 .
Por lo tanto, de ocurrir esta situación, este resultado puede ser un indicador de que la hipótesis
nula es falsa.
Entonces, si z < −1., 96 o z > 1, 96 se rechaza la hipótesis nula. Por el contrario, si −1, 96 ≤ z ≤
1, 96 no se la rechaza pues es altamente probable que el valor del estadístico de prueba sea un valor
comprendido en esta región siendo la hipótesis nula verdadera.
Las regiones de rechazo y no rechazo de H0 puede escribirse en términos de los valores del estadístico
de prueba media muestral X̄ .
Entonces, se rechaza H0 si X̄ < x̄1 o si X̄ > x̄2 donde
√
x̄1 = µ0 − z σ/ n
√
x̄2 = µ0 + z σ/ n
Ejemplo 5.1 Suponga que el jefe de producción de una fábrica de tejidos industriales necesita
determinar si una máquina recién adquirida produce cierto tipo de telas con las especicaciones
del fabricante de la máquina que arma que las telas fabricadas tienen una resistencia media a la
ruptura de 70 kilogramos y una desviación estándar de 3,5 kilogramos.
Una muestra aleatoria de 49 piezas revela una media muestral de 69,1 kilogramos.
Solución
Primer punto
El jefe de producción quiere determinar si la máquina produce tales con una resistencia promedio
de ruptura de 70 kilogramos. Por lo tanto:
H0 : µ = 70
̸ 70
Ha : µ =
Tome α = 0, 05
Segundo punto
X̄ − µ0
Z= √
σ/ n
147
Como la probabilidad de cometer un error tipo I es α = 0, 05, los valores críticos del estadístico de
prueba son z1 = −1, 96 y z2 = 1, 96.
Toda es información se muestra el la Figura (5.5).
68, 10 − 70
z= = −1, 80
0, 5
Como el valor calculado del estadístico de prueba z = −1, 8 es un valor comprendido en el intervalo
real −1, 96 ≤ Z ≤ 1, 96 no se rechaza la hipótesis nula.
Denición 5.6 El valor p en una prueba de hipótesis es la probabilidad de obtener un valor del
estadístico de prueba tan extremo o más que el obtenido a partir de los resultados muestrales, dado
que la hipótesis nula es verdadera.
Si la prueba es bilateral, los valores de p serán dos veces más grande de lo que serían en una prueba
unilateral puesto que habrá que tener en cuenta la posibilidad de obtener un valor extremo del
estadístico de prueba en cualquier dirección.
148
Ahora analizaremos el mismo problema, pero a partir del enfoque del valor p. Como la prueba es
bilateral, se quiere encontrar la probabilidad de hallar un valor del estadístico de prueba Z igual
o más extremo que ˘1, 8. Es decir, hay que calcular la probabilidad (área) de obtener un valor de
Z menor que ˘1, 8 más la probabilidad de obtener un valor de Z mayor a 1, 8.
Procediendo como sabemos:
H0 : θ = θ0
̸ θ0
Ha : θ =
con un nivel de signicación α conduce al rechazo de la hipótesis nula si y solo si θ0 no está en el
intervalo de conanza [LIC; LSC].
Volvamos a los datos del Ejemplo 5.1
√
x̄0 ± 1, 96 σ/ n
O sea:
69, 10 ± 1, 96(0, 5)
Finalmente:
149
Cuando la varianza poblacional es desconocida pueden presentarse las siguientes situaciones:
En general, cuando la muestra que se toma de la población es grande, entonces la varianza muestral
S2 tomará un valor muy próximo al de la varianza poblacional desconocida σ2 .
Por lo tanto, es posible sustituir el valor de S por σ en los procedimientos de pruebas de hipótesis
con muy pocos resultados adversos.
X̄ − µ0
Z= √
S/ n
que, como ya sabemos, tendrá distribución aproximadamente Normal para muestras grandes.
H0 : µ = µ0
̸ µ0
Ha : µ =
X̄ − µ0
T = √ (5.2)
S n
Puede demostrarse que si la muestra se toma de una población Normal, el estadístico T tiene
distribución t de Student con k =n−1 grados de libertad.
Para probar H0 : µ = µ0 se calcula el valor del estadístico de prueba con la Fórmula (5.2) y se
rechaza H0 T < −t o si T > t donde las cantidades ±t son valores de la variable aleatoria T
si
ubicados simétricamente alrededor de E(T ) = 0 para los grados de libertad correspondientes.
H0 : µ ≤ µ0
Ha : µ > µ 0
toda la probabilidad de cometer un error del tipo I o nivel de signicación de la prueba α se ubica
en la cola superior de la distribución de probabilidad del estadístico de prueba tal como se muestra
en la Figura (5.6). Se rechaza la hipótesis nula si T > t.
150
Figura 5.6: Prueba de hipótesis unilateral derecha
H0 : µ ≥ µ0
Ha : µ < µ
toda la probabilidad de cometer un error del tipo I o nivel de signicación de la prueba α se ubica
en la cola inferior de la distribución de probabilidad del estadístico de prueba tal como se muestra
en la Figura (5.7).
Ejemplo 5.2 En el mes de febrero del año pasado el costo promedio de un viaje en avión a cierta
ciudad era de 258 dólares. En una muestra de 15 boletos de distintas compañías se obtuvieron los
siguientes costos actuales:
151
Solución
H0 : µ = 258
Ha : µ > 258
Como la población tiene distribución Normal, se desconoce su varianza y n < 30 el estadístico de
prueba es:
X̄ − µ0
T = √
S/ n
Como la población de la cual se toma la muestra tiene distribución normal, la variable aleatoria T
tendrá distribución t de Student con k = 14 grados de libertad.
P15
i=1 xi 310 + 260 + · · · + 250 + 260
x̄ = = = 270
15 15
Por otro lado
P15
− x̄)2
i=1 (xi (310 − 270)2 + (260 − 270)2 + · · · + (260 − 270)2
s2 = = = 612, 56
15 − 1 14
√
Por lo tanto, s = 612, 56 = 24, 78
De acuerdo con las hipótesis planteadas se trata de una prueba unilateral derecha con región de
rechazo en la cola superior de la distribución de T.
El valor crítico del estadístico de prueba se lo busca en la tabla de la distribución t con 14 grados
de libertad siendo este valor el que acumula el 95 por ciento del área bajo la curva a su izquierda.
270 − 258
t= √ = 1, 875
24, 78/ 15
Como el valor calculado del estadístico de prueba es mayor que su valor crítico se rechaza la
hipótesis nula y concluimos que el costo promedio del pasaje en avión a aumentado.
152
5.6. Prueba de hipótesis para una proporción poblacional
En muchas situaciones de la práctica será necesario tomar una decisión acerca del valor de la
proporción de una población.
En el capítulo anterior de este material vimos como puede estimarse p puntualmente o por medio
de un intervalo de conanza.
En este capítulo veremos el procedimiento de prueba de hipótesis que puede realizarse para tomar
alguna decisión sobre cierta hipótesis estadística realizada sobre la proporción de una población.
Como en el caso de las pruebas de hipótesis para la media de una población existen para p pruebas
bilaterales y unilaterales.
H0 : p = p0
̸ p0
Ha : p =
generan un procedimiento de prueba bilateral con regiones de rechazo de H0 en las colas inferior
y superior de la distribución de probabilidad del estadístico de prueba.
H0 : p ≤ p0
Ha : p > p0
H0 : p ≥ p0
Ha : p < p0
P̄ − p0
Z=p (5.3)
p0 q0 /n
donde p0 es el valor de la proporción poblacional propuesta en la hipótesis nula y q0 = 1 − p0 .
Puede demostrarse que si los productos np0 y nq0 son ambos mayores que 5 el estadístico de prueba
tendrá distribución aproximadamente normal estándar.
Ejemplo 5.3 Se cree que al menos el 60 % de los habitantes de una ciudad están a favor del
adelante de la hora local en 60 minutos. Se tomó una muestra de 200 habitantes de la ciudad y
se encontró que 110 estuvieron de acuerdo con el adelanto. ¾Qué puede decirse, según estos datos,
acerca del porcentaje real de los ciudadanos que están de acuerdo con el adelanto de la hora. Tome
α = 0, 05
Solución
110
p̄ = = 0, 55
200
153
Las hipótesis correspondientes son las siguientes:
H0 : p ≥ 0, 60
Ha : p < 0.60
P̄ − p0
Z=p
p0 q0 /n
tiene distribución aproximadamente Normal Estándar.
Se trata de una prueba unilateral izquierda con región de rechazo de la hipótesis nula en la cola
inferior de la distribución de probabilidad del estadístico de prueba. El valor crítico del estadístico
de prueba es z = −1.65 aproximadamente.
Por lo tanto se rechazará la hipótesis nula si el valor calculado del estadístico de prueba es menor
que su valor crítico. En caso contrario no se rechazará la hipótesis nula.
0, 55 − 0, 60
z=p = −1, 44
(0, 60)(0, 40)/200
Como este valor es mayor que su valor crítico no se rechaza la hipótesis nula.
Suponga de que se quiera probar la hipótesis de que la varianza de un población con distribución
Normal es igual a cierto valor especíco, por ejemplo σ02 . Sea X1 , X2 , ..., Xn una muestra aleatoria
de n observaciones tomadas de la población.
H0 : σ 2 = σ02
Ha : σ 2 =
̸ σ02
(n−1)S 2
se utiliza como estadístico de prueba la variable aleatoria χ20 = σ02
donde S2 es la varianza
muestral.
Como se sabe, si la población de la cual se toma la muestra tiene distribución Normal la aleatoria
χ2 tiene distribución Chi cuadrado con k =n−1 grados de libertad.
En este caso se trata de una prueba de hipótesis bilateral con regiones de rechazo en las colas
inferior y superior de la distribución de probabilidad del estadístico de prueba tal como se muestra
en la Figura (5.9).
O sea, no se rechaza la hipótesis nula si χ21 ≤ χ20 ≤ χ22 . Por el contrario, si χ20 ≤ χ21 o χ20 ≥ χ22 se
la rechaza.
Los valores crítico del estadístico se determinan de acuerdo con el nivel de signicación α de la
prueba y los grados de libertad correspondientes.
H0 : σ 2 ≤ σ02
Ha : σ 2 > σ02
154
Figura 5.9: Regiones de rechazo y no rechazo de H0
se rechaza la hipótesis nula si χ20 > χ2c donde χ2c es el valor crítico del estadístico de prueba que
acumula el (1−α)100 % del área total bajo la curva a su izquierda tal como se muestra en la Figura
(5.10).
H0 : σ 2 ≥ σ02
Ha : σ 2 < σ02
se rechaza la hipótesis nula si χ20 < χ2c donde χ2c es el valor crítico del estadístico de prueba que
acumula el α% del área bajo la curva a su derecha tal como se muestra en la Figura (5.11).
155
Figura 5.11: Prueba unilateral izquierda
Ejemplo 5.4 La desviación estándar de cierto proceso de producción debe ser de 4 pulgadas o
menos.2 Para probar esta armación se toma una muestra de nueva partes producidas en el proceso
y sus medidas fueron 5, 7, 2, 4, 8, 9, 8, 6 y 5 pulgadas respectivamente. Pruebe la hipótesis de que el
proceso cumple con los estándares requeridos. Sea α = 0, 01
Solución
De acuerdo con el enunciado las hipótesis nula y alterna son las siguientes:
H0 : σ 2 ≤ 16
Ha : σ 2 > 16
El estadístico de prueba es
(n − 1)S 2
Ep =
σ02
Si la muestra se toma de una oblación con distribución Normal, el estadístico de prueba tiene
distribución Chi cuadrado con 9−1=8 grados de libertad.
Se trata de de una prueba unilateral derecha con región de rechazo en la cola superior de la
distribución de probabilidad de Ep tal como se muestra en la Figura (5.10).
5 + 7 + 2 + ··· + 5
x̄ = =6
9
Por lo tanto
156
Figura 5.12: Datos para el Ejemplo 5.4
También vimos que ρ es un parámetros poblacional en general desconocido que puede estimarse por
medio de r, el coeciente de correlación muestral que se calcula a partir de pares de observaciones
(x, y) tomadas de las variables X e Y.
A partir del valor de r se pueden realizar inferencias sobre el valor del parámetro ρ como lo hicimos
con la media, la proporción y la varianza poblacional.
En este material solo se analiza como se prueban hipótesis acerca de la correlación entre las variables
X e Y.
Las pruebas de hipótesis sobre el coeciente de correlación pueden ser unilaterales y bilaterales.
H0 : ρ = 0
̸ 0
Ha : ρ =
En este caso se trata de probar si hay una correlación signicativamente distinta de cero entre las
variables.
H0 : ρ ≤ 0
Ha : ρ > 0
H0 : ρ ≥ 0
Ha : ρ < 0
157
En todos los casos, el estadístico de prueba es:
√
r n−2
Ep = √ (5.4)
1 − r2
Puede demostrarse que si las variable X e Y tiene ambas distribución Normal, el estadístico de
prueba Ep tiene distribución t con n − 2 grados de libertad, siendo n el número de pares ordenados
que integran la muestra.
La hipótesis nula H0 : ρ ≥ 0 se rechaza si el valor calculado del estadístico de prueba es menor que
el valor de −t ubicado en la cola inferior de la distribución del estadístico de prueba determinado
por el valor de α y los grados de libertad correspondientes.
1. Utilice los datos de la Tabla (5.3) para calcular el coeciente de correlación muestral r
2. Realice una prueba unilateral apropiada para ρ con un nivel de signicación igual a 0.05
Solución
A partir de la Figura (5.13) puede verse que existe una fuerte relación positiva entre las variables
Publicidad y Ventas.
Primer punto
En el Capítulo 1 vimos que una de las formas de calcular el coeciente de correlación lineal muestral
es a partir de la Ecuación (5.5).
158
Figura 5.13: Publicidad vs Ventas
Pn Pn
i=1 xi i=1 yi
Pn
i=1 xi yi −
r= r r (5.5)
Pn 2 Pn 2
2 − ( i=1 xi ) 2 − ( i=1 yi )
Pn Pn
x
i=1 i n y
i=1 i n
En la Tabla (5.4) se presentan los cálculos auxiliares necesarios para determinar el valor de r.
Trimestre x y x2 y2 xy
1 10 50 100 2.500 500
2 12 70 144 4.900 840
3 14 80 196 6.400 1.120
4 15 90 225 8.100 1.350
5 12 62 144 3.844 744
6 13 68 169 4.624 884
7 14 92 196 8.464 1.288
8 16 106 256 11.236 1.696
9 14 65 196 4.225 910
10 15 76 225 5.776 1.140
1 17 85 289 7.225 1.445
12 19 110 361 12.100 2.090
Total 171 954 2.501 79.394 14.007
A partir de la información suministrada por la Tabla (5.4) podemos calcular las siguientes canti-
dades:
P12 P12 P12 P12
i=1 xi = 171; i=1 yi = 954, i=1 x2i = 2.501; i=1 yi2 = 79.394; nalmente
P2
i=1 xi yi = 14.007.
Por lo tanto:
14.007 − (171)(954)
r= q q 12 = 0, 863
1712 9542
2.501 − 12 79.397 − 12
159
Segundo punto
H0 : ρ ≤ 0
Ha : ρ > 0
Asumiendo que las variables X e Y tienen ambas distribución normal el estadístico de prueba es
√
r n−2
Ep = √
1 − r2
Como las variable X e Y tienen distribución Normal, entonces Ep tiene distribución t de Student
con k =n−2 grados de libertad.
√
0, 863 12 − 2
Ep = p = 5, 40
1 − 0, 8632
Como el valor calculado del estadístico de prueba es mayor que su valor crítico rechazamos H0 :
ρ≤0 con α = 0, 05.
160
Capítulo 6
Simple
6.1. Introducción
En muchas situaciones prácticas, el encargado de tomar decisiones dentro de una empresa o insti-
tución puede estar interesado en cuanticar la relación entre dos variables.
Por ejemplo, luego de estudiar la relación entre los gastos mensuales en publicidad y las ventas
posteriores, el administrador de una empresa podría tratar de encontrar una expresión matemática
que pueda utilizarse para predecir las ventas en función de los gastos en publicidad.
En otro caso, el gerente de una empresa distribuidora de electricidad puede estar interesado en
estudiar la relación entre la temperatura en los días de verano y el consumo de uido eléctrico
diario con el objetivo de poder predecir el consumo en función de la temperatura.
Algunas veces estas predicciones se basan en la intuición o experiencia del pronosticador. Sin
embargo, si es posible obtener datos, se puede emplear un procedimiento llamado análisis de
regresión con el n de encontrar una ecuación que exprese como se relacionan dos variables entre
sí. Esto permitirá realizar estimaciones más conables.
En este modelo, la variable cuyos valores se quiere predecir o pronosticar recibe el nombre de
variable dependiente. La o las variables que se utilizan para predecir los valores de la variable
dependiente se denominan variables independientes, explicativas o predictoras.
En el primer ejemplo, la variable dependiente podría llamarse Ventas y la variable independiente
gastos mensuales en publicidad .
En esta unidad estudiaremos el modelo más sencillos de regresión en el cuál intervienen una variable
independiente y una dependiente y la relación entre ellas se aproxima mediante una línea recta.
Este modelo recibe el nombre de modelo de regresión lineal simple. En modelo en el cual intervienen
dos o más variables independientes recibe el nombre de modelo de regresión lineal múltiple y no
será abordado en este material.
El administrador de un comercio dedicado a las ventas de productos deportivos desea poder predecir
las ventas mensuales en miles de dólares en función de la inversión realizada en publicidad.
161
Como variable independiente o predictora utilizará los gastos mensuales en publicidad.
El análisis tiene como objetivo investigar si existe alguna relación entre lo gastado en publicidad
y las ventas posteriores. Además, de existir esta relación, encontrar una ecuación que permita
predecir las ventas(y) en función de lo gastado en publicidad (x).
Los datos de la Tabla (6.1) muestra una lista de los gastos en publicidad y los volúmenes de ventas
posteriores durante los 10 meses en los cuales se realizó la campaña publicitaria.
El primer análisis que se recomienda realizar este tipo de problemas consiste en representar el
conjunto de datos en un diagrama de dispersión.
En el eje horizontal se registran los valores de la variable independiente, y en el eje vertical los
valores de la variable dependiente.
En la Figura (6.1) puede observarse que hay una relación positiva entre las variables estudiadas
de manera que valores bajos de la variable independiente están relacionados con valores bajo de la
dependiente y que valores altos de la variable independiente se relacionan con valores altos de la
dependiente.
162
Además, una línea recta de pendiente positiva parece describir la relación entre las mismas.
Mucho nos gustaría describir la relación entre x e y mediante la ecuación y = β0 +β1 x . Sin embargo,
este modelo no es correcto pues los puntos del diagrama de dispersión no están perfectamente
alineados.
y = β0 + β1 x + ε (6.1)
En este modelo, y es una función lineal de x (la parte β0 + β1 x) más la variable aleatoria ε.
Las constantes β0 y β1 son los parámetros del modelo y ε es una variable aleatoria llamada término
del error que recoge la variabilidad en y que no puede ser explicada con la relación lineal entre x
e y.
Si ε = 0 para todos los valores de x, los puntos en el diagrama de dispersión estarían ubicados
sobre una misma línea recta.
Un poco más adelante analizaremos los supuestos o condiciones bajo las cuales se puede aplicar el
modelo de regresión lineal simple.
Una de esas condiciones es que E(ε) = 0, es decir, la media o valor esperado del término del error
es igual a cero. ¾Que consecuencias tiene esta condición en el modelo?
Por lo tanto:
E(y) = β0 + β1 x (6.2)
Hemos demostrado de esta manera que el valor medio de la variable dependiente y es una función
lineal de la variable independiente x.
La Ecuación 6.2 recibe el nombre de ecuación de regresión lineal simple. Se trata de la ecuación
de una línea recta en la cual β0 es la ordenada al origen y β1 su pendiente.
La Ecuación (6.2) indica cómo se relacionan los valores medios de y para cada uno de los valores
de la variable independiente x.
En la práctica, los valores de β0 y β1 se desconocen y debe ser estimados a partir de una muestra
de pares de observaciones (xi , yi ). Las estimaciones de los parámetros β0 y β1 se simbolizan βˆ0 y
βˆ1 respectivamente.
1 Recuerde que una función de una variable aleatoria es a su vez una variable aleatoria
163
La Ecuación (6.3) recibe el nombre de ecuación estimada de regresión o modelo estimado.
En la sección siguiente se muestra como se la determina.
El procedimiento es una formalización del criterio que se utilizaría si se quiere realizar el ajuste
utilizando una regla. Si se trata de ajustar visualmente los puntos del diagrama de dispersión con
una regla, se la moverá hasta que se piense que se ha logrado minimizar las desviaciones verticales
de los puntos del diagrama de dispersión a la recta. Grácamente este concepto se muestra en la
Figura 6.2.
La diferencia entre el valor observado de y y su valor estimado sobre la recta ŷi recibe el nombre
de i ésimo residual y se lo expresa de la siguiente manera:
yi − ŷi (6.4)
Elija como recta de mejor ajuste a la que minimice la suma de los cuadrados de las desviaciones
entre los valores observados yi y los valores estimados ŷi de la variable dependiente
Hallar la recta de mejor ajuste minimizando la suma de cuadrado de los errores SCE donde
n
X
SCE = (yi − ŷi )2 (6.5)
i=1
164
Como ŷi = βˆ0 + βˆ1 xi podemos reescribir la Ecuación 6.5 de la siguiente manera:
n h
X i2
SCE = yi − (β̂0 + β̂1 xi ) (6.6)
i=1
Para hallar los valores de βˆ0 y βˆ1 que minimicen la suma de cuadrados del error se utilizan las
técnicas de optimización del Análisis Matemático.
SCxy
β̂1 = (6.7)
SCx
y
Donde:
n n Pn Pn
X X ( i=1 xi ) ( i=1 yi )
SCxy = (xi − x̄)(yi − ȳ) = xi yi − (6.9)
i=1 i=1
n
n n Pn 2
X
2
X ( xi )
SCx = (xi − x̄) = x2i − i=1
(6.10)
i=1 i=1
n
Una vez que se hayan calculado βˆ0 y βˆ1 se determina la recta de mínimos cuadrados ŷ = βˆ0 + βˆ1 x
o modelo estimado.
En la Tabla (6.2) se muestran los cálculos auxiliares necesarios para hallar los valores de βˆ0 y βˆ1 .
Por lo tanto:
n Pn Pn
X ( i=1 xi ) ( i=1 yi ) (9, 4)(959)
SCxy = xi yi − = 924, 8 − = 23, 34
i=1
n 10
n Pn 2
X ( xi ) 9, 42
SCx = x2i − i=1
= 9, 28 − = 0, 444
i=1
n 10
Pn
i=1 xi 9, 4
x̄ = = = 0, 94
n 10
165
Pn
i=1 yi 959
ȳ = = = 95, 9
n 10
Luego:
23, 34
β̂1 = = 52, 57
0, 444
Finalmente:
El diagrama de dispersión original y la recta de mejor ajuste bajo el criterio de mínimos cuadrados
se muestra en la Figura (6.3)
Analizando la información suministrada en la Tabla (6.2) puede verse que cuando los gastos en
publicidad se jaron en x4 = 1 300 dólares (cuarto renglón de la tabla) las ventas posteriores fueron
y4 = 120 000 dólares. Este último es valor observado de la variable dependiente correspondiente a
x4
Utilicemos ahora la ecuación de la recta ŷ para predecir el valor de y cuando x4 = 1 300 dólares.
En este caso:
Está claro que no vamos a estimar un valor de la variable dependiente que gure como dato. Los
cálculos realizados tiene por objetivo mostrar cómo se utiliza la recta de regresión estimada y de
paso aclarar el concepto de residuo.
Por otro lado debe tenerse siempre el cuidado de utilizar la recta de mejor ajuste ŷ para predecir
valores de la variable dependiente y en el rango de los valores de x que guran como datos. En
nuestro ejemplo es el intervalo [0, 6 ≤ x ≤ 1, 3].
166
Se pone esta restricción pues en este intervalo la relación entre las variables gastos en publicidad y
ventas posteriores tiene una relación lineal.
Más allá del intervalo [0, 6 ≤ x ≤ 1, 3] no sabemos cuál es la relación entre las variables y resulta
riesgos, sin información adicional, extrapolar los resultados.
El siguiente paso es el de determinar la idoneidad del modelo estimado, es decir, averiguar lo bien
que se ajusta esta recta a las observaciones.
Esta cantidad recibe el nombre de suma de cuadrado del error y que denimos de la siguiente
manera:
n
X
SCE = (yi − ŷi )2
i=1
Su valor es una medida del error que se comete al usar la ecuación de regresión estimada para
predecir los los valores de la variable dependiente.
donde
n n Pn 2
X X ( i=1 yi )
SCy = (yi − ȳ)2 = yi2 − (6.13)
i=1 i=1
n
9592
SCy = 93.567 − = 1.600, 9
10
Como SCxy = 23, 34, entonces
Supongamos que se quieran estimar las ventas sin tener en cuenta los gastos en publicidad.
Sin conocer los gastos en publicidad, puede utilizarse la media muestral de la variable ventas
mensuales como estimación de las ventas, desconociendo los gastos mensuales en publicidad.
Por lo tanto:
P10
i=1 yi 959
ȳ = = = 95, 9
10 10
167
Es decir, si no se conociera la variable gastos en publicidad estimaríamos una venta mensual
promedio de unos 95 900 dólares mensuales.
Para la i - ésima observación, la diferencia yi − ȳ suministra una media del error que se comete al
utilizar solamente ȳ para estimar las ventas.
n
X
ST C = (yi − ȳ)2 (6.14)
i=1
Pn 2
Pn 2 ( i=1 yi )
Puede demostrarse que ST C = i=1 yi − n . Su valor ya fue calculado con anterioridad.
Es así que ST C = 1.006, 9.
La Figura (6.4) puede ayudar a comprender que se mide con cada una de estas sumas de cuadrados.
Podemos decir entonces que ST C es una media de la dispersión de los valores de la variable
ventas mensuales ȳ mientras que SCE es una medida de la dispersión de las
respecto de la media
observaciones respecto de la recta ŷ .
De acuerdo con nuestros cálculos SCE = 373, 92 y ST C = 1.600, 9. Por lo tanto se comete menos
error al utilizar la recta ŷ = βˆ0 + βˆ1 x que la media ȳ para estimar los valores de la variable
dependiente.
Dicho de otra manera, los valores de la variable dependiente y se encuentran más agrupados en
torno de la recta ŷ que de la recta ȳ .
Para cuanticar cuánto se desvían los valores de y medidos sobre la línea de regresión de la recta
ȳ se calcula otra suma de cuadrados denominada suma d cuadrados debida a la regresión que se
simboliza SCR y que se calcula de la siguiente manera:
n
X (SCxy )2
SCR = (ŷi − ȳ)2 = (6.15)
i=1
SCx
168
(23, 34)2
SCR = = 1.226, 927
0, 444
Veamos como se pueden utilizar estas sumas de cuadrados para denir una media de la bondad
del ajuste de la reta ŷ = βˆ0 + βˆ1 x al conjunto de observaciones.
SCR
r= (6.17)
SCE
La recta ŷ tendrá un ajuste perfecto si cada uno de los puntos en el diagrama de dispersión se
encuentran ubicados sobre la recta estimada. En este caso yi −ŷi = 0 para cada par de observaciones.
Bajo esta hipótesis SCE = 0, luego SCT = SCR y
SCR
r2 = =1
SCT
Los ajustes menos perfectos darán valores mayores de la SCE .
Como SCE = SCT − SCR se deduce que tendremos en máximo valor de la suma de cuadrado del
error cuandoSCR = 0.
En este caso:
SCR
r2 = =0
SCt
Por o tanto, el coeciente de determinación SCR/SCT que puede tomar cualquier valor entre 0 y 1
habitualmente se utiliza para evaluar la bondad de ajuste de la recta ŷ al conjunto de observaciones.
Para nuestro ejemplo:
1.226, 927
r2 = = 0, 766
1.600, 9
Por lo tanto 1 − r2 = 1 − 0, 766 = 0, 234 o el 23,4 % de la variación en los volúmenes de las ventas
mensuales se deben a otras variables que no han sido incluidas en el modelo.
169
6.5.2. El coeciente de correlación muestral r
En la primer capítulo de este material denimos el coeciente de correlación lineal de Pearson r
como una medida descriptiva de la intensidad de la asociación lineal entre las variables X e Y.
Habíamos visto en aquella oportunidad que −1 ≤ r ≤ 1. Un valor de r igual a 1 indica que las
variables X e Y tienen una relación positiva lineal perfecta, esto es, todos los puntos del diagrama
de dispersión se encuentran ubicados sobre una recta de pendiente positiva.
Un valor de r igual a −1 indica que las variables tienen una relación lineal negativa perfecta, es
decir, todos los puntos del diagrama de dispersión se encuentran situados sobre una línea recta de
pendiente negativa.
Los valores de r cercanos a 0 indican que las variables no tiene relación lineal.
También presentamos algunas fórmulas que pueden utilizarse para el cálculo de r.
Si se ha realizado un análisis de regresión, y se ha calculado el coeciente de determinación r2 , el
coeciente de correlación lineal de Pearson puede calcularse de la siguiente manera:
√
r = (signoβˆ1 ) r2 ) (6.18)
Esto es, si βˆ1 > 0, entonces r tendrá signo positivo y si βˆ1 < 0 el coeciente de correlación tendrá
signo negativo.
p
r = (+) 0, 766 = 0, 875
Podemos concluir que hay una fuerte relación lineal entre las variables inversión en publicidad y
ventas posteriores.
Aunque el coeciente de correlación se restringe a una relación lineal entre las variables, el coe-
ciente de determinación se puede emplear en relaciones no lineales y en relaciones que tengan más
de dos variables. Es decir, r2 tiene una aplicabilidad más amplia.
Para este modelo, que se asume que la relación entre publicidad y ventas es la siguiente:
y = β0 + β1 x + ε
Luego se aplica el principio de mínimos cuadrados para determinar βˆ0 y βˆ1 que son las estimaciones
de los parámetros β0 y β1 respectivamente.
ŷ = βˆ0 + βˆ1 x
Hemos dicho también que el coeciente de determinación r2 es una medida de la bondad de ajuste
de ŷ al conjunto de observaciones de la muestra.
Sin embargo, aún con un valor grande del coeciente de determinación no se debería usar la
ecuación de regresión estimada sin antes efectuar un análisis de adecuación del modelo.
1. El término del error ε es una variable aleatoria con media o valor esperado igual a cero, es
decir E(ε) = 0
170
Consecuencia: Como β0 y β1 son constantes, entonces y es una variable aleatoria con media
o valor esperado E(y) = β0 + β1 x.
2. La varianza de ε representada por σ2 es la misma para todos los valores de x, es decir,
2
V (ε) = σ
Consecuencia: La varianza de y es igual a σ2 , es decir V (y) = σ 2 .
3. Los valores de ε son independientes
La recta E(y) pasa por cada una de las medias de las poblaciones de y
y = β0 + β1 x + ε
Por lo tanto
V (y) = V (ε) = σ 2
como se quería demostrar.
171
6.7. Pruebas de signicancia
La ecuación de regresión lineal simple indica que el valor medio de cada población de y es una
función lineal de x, esto es E(y) = β0 + β1 x.
Entonces, si β1 = 0 resultará que E(y) = β0 . En este caso el valor medio de y no depende de x, en
consecuencia concluimos que las variables x e y no tienen relación lineal.
Por otro lado, si β1 ̸= 0, se concluye que las variables se relacionan y podría utilizarse la variable
x para predecir los valores de y .
Así, para indagar si el modelo de regresión lineal simple es el adecuado para describir la relación
entre las variables x e y se debe efectuar una prueba de hipótesis para determinar si el valor de β1
es o no igual a cero.
Para poder realizar esta prueba, y otras que veremos más adelante, primero debemos estimar σ2 ,
la varianza de ε en el modelo de regresión lineal simple.
6.7.1. Estimación de σ2
A partir de los supuestos del modelo de regresión lineal simple se puede concluir que σ 2 , la varianza
de ε, es también la varianza de los valores de y respecto de la línea de regresión.
Recordemos que las desviaciones de los valores de y respecto de la línea de regresión estimada se
llaman residuales.
Hemos visto también que SCE o Suma de Cuadrados del Error es una medida de la variabilidad
de las observaciones reales respecto de la línea de regresión.
El Cuadrado Medio del Error, que se dene como el cociente de SCE dividido sus grados de libertad
es una estimación de σ2 .
Luego
Pn
SCE − ŷ)2
i=1 (yi
CM E = s2 = = (6.19)
n−2 n−2
Utilizando la fórmula de cálculo para SCE obtenemos la siguiente expresión equivalente:
373, 92
s2 = = 46, 47
8
√
El error estándar estimado de la variable
√ ε se dene como s= s2 que en el caso analizado vale
s= 46, 47 = 6, 83
6.7.2. La prueba t
El modelo de regresión lineal simple establece que y = β0 + β 1 x + ε . Si las variables x e y tiene
una relación lineal debe suceder que β1 ̸= 0.
El objetivo de la prueba t es vericar si se puede sostener la hipótesis de que β1 ̸= 0. En este caso
las variables x e y tendrán una relación lineal.
Si no se puede rechazar la hipótesis nula se deberá obtener más información o modicar el modelo
propuesto.
Entonces, se utilizarán los resultados de la muestra para contrastar las siguientes hipótesis
172
H0 : β 1 = 0
Ha β 1 = ̸ 0
Si se rechaza la hipótesis nula la conclusión será que β1 ̸= 0 y habrá una relación estadísticamente
signicativa entre las variables.
Además, si se cumplen las condiciones del modelo, βˆ1 tiene distribución Normal.
β̂1 − β1
Z= √ (6.21)
σ/ SCx
Si se conociera el valor de σ podría utilizarse la Ecuación 6.21 como estadístico de prueba para
probar H0 : β1 = 0.
Hemos dicho que σ , el error estándar de ε es un parámetro desconocido que debe ser estimado.
En la Sección (6.7.1) hemos visto como se estima σ. El valor encontrado fue s = 6.83.
Si se reemplaza s por σ en la Ecuación 6.21 se obtiene la variable aleatoria
β̂1 − β1
T = √ (6.22)
s/ SCx
Puede demostrarse que T tiene distribución t de Student con n−2 grados de libertad.
Hipótesis:
H0 : β 1 = 0
Ha β 1 = ̸ 0
Estadístico de prueba:
β̂1 − β1
T = √ ∼ t(n − 2) grados de libertad
s/ SCx
Se trata de una prueba de hipótesis bilateral con regiones de rechazo en la cola inferior y superior
de la distribución de probabilidad del estadístico de prueba.
Supongamos que con los datos de la Tabla (6.1) llevamos adelante la prueba t. Sea α = 0.05.
Como la hipótesis nula se considera verdadera hasta que se pruebe lo contrario, el estadístico de
prueba es:
173
β̂
T = √1
s/ SCx
s 6.83
√ =√ = 10, 25
SCx 0, 444
Por lo tanto
52, 57
Ep = = 5.128
10, 25
Como además se trata de una prueba bilateral y α = 0, 05, lo valores críticos del estadístico de
prueba son t = −2, 306 y t = 2, 306
Como Ep > 2, 306 rechazamos la hipótesis nula.
Existe evidencia estadística para concluir que hay una relación lineal estadísticamente signicativa
entre los gastos en publicidad y las ventas posteriores.
Podemos decir entonces que si la inversión en publicidad aumenta 1.000 dólares, se estima que, en
promedio, las ventas se incrementarán en 52.570 dólares por mes.
Recuerde que βˆ1 = 52, 57 es una estimación puntual de la pendiente de la recta E(y) = β0 + β1 x.
Paro como todo parámetro, la pendiente de la recta poblacional β1 también puede estimarse por
medio de un intervalo de conanza.
Puede demostrarse que si se cumplen las condiciones del modelo, un intervalo de (1 − α)100 % de
conanza para β1 se construye de la siguiente manera:
s s
C β̂1 − t √ ≤ β1 ≤ β̂1 + t √ =1−α (6.23)
SCx SCx
donde el valor de t debe buscarse en la tabla de la distribución t de Student con n−2 grados de
libertad.
Continuando con los datos del ejemplo que estamos desarrollando, seguidamente estimamos β1
mediante un intervalo de 95 % de conanza.
Por lo tanto:
Finalmente:
Podemos interpretar este resultado diciendo que si se aumentan los gastos en publicidad en 1.000
dolares se estima que la media de las ventas se incrementarán entre 28.930 y 76.200 dolares con
una conanza del 95 %.
174
6.8. Empleo de la ecuación estimada de regresión
Suponga que siguiendo los procedimientos de la prueba t hemos rechazado la hipótesis nula H0 :
β1 = 0. Es posible emplear la ecuación de regresión estimada con los siguientes objetivos:
Cuando se pueden sostener las suposiciones del modelo de regresión lineal simple se pueden cons-
truir intervalos de conanza para valores individuales de y correspondientes a un valor de x e
intervalos de conanza para la media de y para un determinados de x.
Para ser más precisos, suponga que se realizará un gasto de x0 = 500 dólares en publicidad y se
quiere estimar cuál será el volumen de ventas posteriores.
Cuando se cumplen las condiciones del modelo y cuando σ es desconocida, un intervalo de predicción
del 1−α por ciento de conanza se calcula de la siguiente manera:
s s
1 (x 0 − x̄) 1 (x 0 − x̄)
C ŷ0 − t(s) 1 + + ≤ y ≤ ŷ0 + t(s) 1 + + =1−α (6.24)
n SCx n SCx
s
1 (x0 − x̄)2
ŷ0 ± t(s) 1 + + (6.25)
n SCx
Para el ejemplo que venimos desarrollando vimos que cuando x0 = 500 las ventas pronosticadas
fueron ŷ0 = 72.770 dólares.
Si queremos realizar una estimación de las ventas obtenidas cuando la inversión en publicidad es
x0 = 500 por medio de un intervalo de 95 % de conanza, procedemos de la siguiente manera:
s
1 (0, 5 − 0, 94)2
72, 77 ± 2, 306(6, 83) 1+ +
10 0, 444
O sea, si la inversión en publicidad 500 dólares se estima que las ventas estarán entre 5.486 y 9.067
dólares mensuales con una conanza del 95 %.
175
6.8.2. Estimación de la media de una población de y para x = x0
Estimar el valor medio de y para un valor dado de la variable x, esto es, estimar E(y) cuando
x = x0 puede resultar de utilidad al momento de utilizar la ecuación estimada de regresión.
Por ejemplo, si la compañía invierte 500 dólares en publicidad ¾cuánto valdrá E(y)?
El valor medio de y para determinado valor de x se puede estimar puntualmente o por medio de
un intervalo de conanza.
s s
1 (x0 − x̄)2 1 (x0 − x̄)2
C ŷ0 − t(s) + ≤ E(y) ≤ ŷ0 + t(s) + =1−α (6.26)
n SCx n SCx
De forma abreviada:
s
1 (x0 − x̄)2
ŷ0 ± t(s) + (6.27)
n SCx
s
1 (0, 5 − 0, 94)2
72, 77 ± 2, 306(6, 83) +
10 0, 444
Es decir, toda vez que se invierta 500 dolares en publicidad, las ventas medias estimadas oscilaran
entre 6.124 y 8.430 dólares con una conanza del 95 %.
176