Está en la página 1de 165

Probabilidad y estadstica

Tema 1. Conceptos de probabilidad


1.1 Conceptos bsicos de probabilidad

La probabilidad se define como un nmero decimal entre 0


y 1 inclusive, que mide la creencia que se tiene de que
llegue a ocurrir un evento especfico resultado de
unexperimento.

Algunos ejemplos de experimentos son:

Preguntar a un grupo de estudiantes su preferencia en marcas de computadoras porttiles.


Medir el dimetro exterior de anillos de pistn para determinar el nmero probable de
defectos encontrados.
Contar el nmero de reclusos mayores a 60 aos.

Un evento se define como un resultado posible para un experimento, por ejemplo:

Experimento: Tirar un dado


Evento: Obtener un 1
Obtener un 2
Obtener un 3
Obtener un 4
Obtener un 5
Obtener un 6

Cuanto ms se acerca la probabilidad a 0, es ms improbable que suceda el evento al que se


asocia. Cuanto ms se acerca la probabilidad a 1,
estaremos ms seguros de que suceder.

Espacio muestral

Al conjunto de eventos que componen un experimento, se le


denomina espacio muestral.

Ejemplo:

El espacio muestral de tirar un dado est representado por el siguiente conjunto:

De igual forma, el espacio muestral de tirar un par de datos, est dado por el siguiente conjunto:
En probabilidad, es importante conocer el espacio muestral de un experimento para determinar las
caractersticas de independencia de los eventos, o determinar si los eventos son mutuamente
excluyentes.

1.2 Enfoques de la probabilidad

La teora de probabilidad tiene dos enfoques: La probabilidad objetiva y la probabilidad subjetiva:

Probabilidad objetiva

El enfoque de la probabilidad objetiva se divide a su vez en probabilidad clsica o a priori y, el


concepto de frecuencia relativa o probabilidad a posteriori.

La probabilidad clsica se basa en la consideracin de que los resultados de un experimento


son igualmente posibles. Empleando el punto de vista clsico, la probabilidad de que ocurra un
evento se calcula dividiendo el nmero de resultados favorables entre el total de resultados
posibles:

Ejemplo:

Si consideramos el experimento del dado, podemos hacernos las siguientes preguntas:

Cul es la probabilidad de obtener un 1?

Observando los eventos posibles del experimento, el espacio muestral del experimento
est dado por S = {1, 2, 3, 4, 5, 6}, donde slo uno ellos cumple con la condicin. En este

caso la probabilidad ser , o bien, 0.1667, lo que significa que existe un 16.67% de
probabilidades de que se obtenga el nmero 1 al lanzar un dado.

Cul es la probabilidad de obtener un par?

Observando los eventos posibles del experimento, considerando el espacio muestral S


= {1, 2, 3, 4, 5, 6}, tres de ellos cumple con la condicin: el 2, el 4 y el 6. En este caso la

probabilidad ser , o bien, 0.5000, lo que significa que existe un 50% de probabilidades
de que se obtenga un nmero par al lanzar un dado.

Cul es la probabilidad de obtener un 7?

En este caso el resultado ser 0 porque no existe un evento asociado al experimento pues
ninguna cara del dado tiene el nmero 7.

En este ejemplo, observamos dos caractersticas:

1. Al tirar un dado, solamente un evento es posible. Si cae un dos, no puede caer al mismo
tiempo un 5. A esta caracterstica se le llama eventos mutuamente excluyentes.

2. El experimento del dado tiene un total de 6 resultados posibles. Dichos eventos son el total
del experimento. A esta caracterstica se le denomina colectivamente exhaustivo.

El concepto de frecuencia relativa, define que la probabilidad de que un evento ocurra en el


tiempo se determina observando el nmero de veces que ocurri en el pasado. En trminos de una
frmula, tenemos que:

Ejemplo:

En un estudio realizado, 751 graduados de Administracin, revel que 453 de los 751 no estaban
trabajando en su principal rea de estudio. Cul es la probabilidad de que un graduado en
especfico est trabajando en un rea distinta a su principal rea de estudio?

Segn la frmula, tenemos que:

Por tanto:

El resultado muestra que existe un 60.31% de probabilidades de que al seleccionar un graduado


de la universidad al azar, est trabajando en un rea distinta a su principal rea de estudio.

Probabilidad subjetiva

Si existe poca o ninguna informacin o experiencia en la que se pueda basar una probabilidad, la
probabilidad subjetiva puede darnos una solucin. Fundamentalmente significa evaluar las
opiniones disponibles y otra informacin para despus llegar a la probabilidad.

Algunos ejemplos de la probabilidad subjetiva son:

Estimar la posibilidad de que el equipo local obtenga un triunfo en su prximo juego de


visita.
Estimar la posibilidad de que apruebes el curso de Probabilidad y Estadstica con una
calificacin superior a 90.
1.3 Teoremas de probabilidad

Una vez definidos los conceptos y los diferentes enfoques de


la probabilidad, definiremos algunas reglas y propiedades
bsicas de la probabilidad.

Probabilidad nula

La probabilidad de un evento es cero si el evento es nulo o


vacio. Por ejemplo, al tirar un dado, la probabilidad de que
caiga un 7 es cero pues es un evento nulo, es decir, no existe,
pues no existe una cara del dado que tenga siete puntos.
Matemticamente, la probabilidad nula se representa como:

Probabilidad del complemento

La probabilidad del evento complemento es igual a la resta de 1 menos la probabilidad del evento.
Matemticamente:

Ejemplo:

Considerando el ejemplo del dado, cul es la probabilidad de no obtener un 1?

Evento A: Obtener 1.
Evento A: No obtener un 1.

Aplicando la frmula tenemos que:

Reglas de adicin

1. Regla especial de adicin: Para aplicar la regla especial de adicin, los eventos deben ser
mutuamente excluyentes, como por ejemplo, al tirar un dado.
Ejemplo:

Considerando el ejemplo del dado, cul es la probabilidad de obtener un 1 o un nmero par?

Evento A: Obtener 1.
Evento B: Obtener un nmero par.

Aplicando la frmula tenemos que:

2. Regla general de adicin: Cuando los eventos de un experimento no sean mutuamente


excluyentes, se utiliza la frmula de la regla general de adicin:

Ejemplo:

Una encuesta del departamento de turismo de Nuevo Len, revel que 120 turistas visitaron el
nuevo Andador Santa Luca y 100 turistas visitaron la cascada conocida como Cola de Caballo.
Tambin se sabe que 60 de los turistas visitaron ambos lugares. Cul es la probabilidad de que
un turista haya visitado el Andador Santa Luca o la Cola de Caballo?

Utilizando la regla general de adicin, obtenemos:

Evento A: Visitar Andador Santa Luca.


Evento B: Visitar Cola de Caballo.

Aplicando la frmula tenemos que:


Esto es irreal pues la probabilidad debe ser de 0 a 1, inclusive. Si revisamos nuevamente el
ejemplo, los eventos no son mutuamente excluyentes y hay una cantidad de turistas que visitaron
ambos lugares. En este caso, aplicamos la regla general de adicin.

Cuando dos eventos se traslapan, como en el caso de los turistas de Nuevo Len, se dice que
existe una Probabilidad Conjunta.

Reglas de multiplicacin

1. Regla especial de multiplicacin: Para aplicar la regla especial de adicin, los eventos
deben ser independientes, como el caso de tirar dos dados, pues el evento obtenido en el
primer dado no afecta al evento obtenido en el segundo dado.

Ejemplo:

Considerando el ejemplo de dos dados, cul es la probabilidad de obtener un 5 en un dado y otro


5 en el otro dado?

Evento A: Obtener 5 en el dado 1.


Evento B: Obtener 5 en el dado 2.
Aplicando la frmula tenemos que:

2. Regla general de multiplicacin: Se utiliza para determinar la probabilidad conjunta de que


ocurran dos eventos dependientes, por ejemplo, el sacar de una urna de pelotas de
diferentes colores, dos pelotas de forma consecutiva.

Ejemplo:

En una urna contiene 5 pelotas rojas y 5 pelotas azules. Cul es la probabilidad de obtener una
pelota roja en un primer evento y una segunda pelota en un segundo evento?

Utilizando la regla general de multiplicacin, obtenemos:

Evento A: Obtener una pelota roja en un primer intento.


Evento B: Obtener una pelota roja en un segundo intento.

Aplicando la frmula tenemos que:


En el primer evento, se tienen en total 10 pelotas, 5 de las cuales son rojas. Por tanto, la

probabilidad de obtener una pelota roja es de . En el segundo evento, quedan nicamente 9


pelotas, 4 de ellas rojas. Esto muestra que la probabilidad de sacar una segunda pelota roja dado

que ya sacamos una roja, es de .

Glosario

Experimento: Se refiere a una actividad que se observa o se mide, es algo que se planea hacer y
cuyo resultado no lo conocemos con certeza.

Eventos mutuamente excluyentes: Si slo uno de varios eventos pueden ocurrir en un


experimento.

Evento independiente: Se dice que dos eventos son independientes, si la probabilidad de que
ocurra uno no tiene ninguna relacin en la probabilidad de que ocurra el otro.

Evento simple: Se dice que un evento es simple si consiste de exactamente un resultado.

Evento compuesto: Se dice que un evento es compuesto si consta de ms de un resultado.

Experimento colectivamente exhaustivo: Se le denomina al experimento que tiene un conjunto


de eventos que incluye todos los resultados posibles.

Probabilidad conjunta: Probabilidad que mide la posibilidad de que dos o ms eventos ocurran en
forma simultnea.
Probabilidad y estadstica
Tema 2. Probabilidad Condicional e Independencia
2.1 Probabilidad Condicional
La probabilidad condicional puede definirse como:

1. Devore, J. (2008). Probabilidad y estadstica para ingeniera y ciencias. (7a. Ed.). Mxico:
Cengage Learning. Captulo: 2.

Coloquialmente se dice que la probabilidad condicional es la probabilidad de que ocurra el evento


A dado que el evento B ocurri.

Ejemplo

Consideremos el siguiente experimento: Una muestra al azar de 100 diferentes tipos de animales,
arroja los siguientes resultados:

15 animales son aves que vuelan y nadan.


45 animales son aves que nadan.
20 animales son aves que vuelan.
55 animales son aves.
25 animales vuelan y nadan.
70 animales nadan.
50 animales vuelan.

Podemos poner esta informacin en un diagrama de Venn, como se ilustra en la figura 2.1

Fig. 2.1. Diagrama de Venn resultante

Con esta informacin agrupada en un diagrama, podemos fcilmente calcular probabilidades como
por ejemplo:

Cul es la probabilidad de que un animal seleccionado al azar sea un ave?

Cul es la probabilidad de que un animal seleccionado al azar sea un animal que nade?

Volviendo al planteamiento original, ahora podemos calcular probabilidades condicionales, por


ejemplo:

Cul es la probabilidad de que un ave seleccionada al azar nade?

Ahora ya sabemos que el evento de que el animal seleccionado es un ave, lo que nos falta es
determinar la probabilidad de que esa ave seleccionada nade. Aplicando la frmula de probabilidad
condicional tenemos:

Reemplazando las variables de acuerdo a nuestro planteamiento:

De los primeros ejemplos, tenemos que la probabilidad de que un animal seleccionado sea un ave
es de 55 de cada 100. Si observamos el diagrama de Venn, observamos que la proporcin de aves
que vuelan es de 45 de cada 100.

Con esta informacin podemos obtener la probabilidad de que un ave seleccionada al azar nade:

Diagramas de rbol

Una tcnica muy til para representar eventos condicionales es un diagrama de rbol.
Supongamos el siguiente ejemplo: Se hace un estudio para determinar el tiempo en aos en que
fallan ciertas partes electrnicas de una marca de televisores. El resultado es el siguiente con una
muestra de 200 televisores seleccionados se redujo a dos tipos de fallas generales:
El diagrama de rbol resultante del planteamiento se refleja en la figura 2.2

Fig. 2.2. Diagrama de rbol resultante

Con el rbol resultante podemos determinar por ejemplo, cul es la probabilidad de que un
televisor con falla en el monitor haya fallado en un periodo de 1 a 5 aos? Aplicando la frmula
tenemos
Nota:

En el diagrama de rbol podemos observar, adems de la probabilidad condicional, la probabilidad


conjunta en el lado derecho del diagrama de la figura 2.3.

Fig. 2.3. Diagrama de rbol resultante considerando la probabilidad condicional

2.2 Independencia de eventos


La probabilidad condicional nos ayuda a determinar la probabilidad de ocurrencia de un evento A,
dado que ya sabemos con certeza que ya ocurri un evento B. Sin embargo, hay situaciones en
donde la probabilidad de ocurrencia de un evento A no se ve afectada por la ocurrencia de un
evento B.

La independencia de eventos puede definirse como:

Ejemplo:

Se lanzan dos monedas al aire, cul es la probabilidad de que ambas caigan guila? La
probabilidad de que una moneda caiga guila es de 0.5 al ser lanzada. Podemos deducir que el
lanzar una segunda moneda no tiene relevancia con el lanzamiento de una primer moneda, por
ende, son eventos independientes.

P(A) = Lanzar una primer moneda y que caiga guila.


P(B) = Lanzar una segunda moneda y que caiga guila.

Entonces
Existe un 25% de probabilidades de que caigan dos guilas seguidas. Podemos comprobarlo
utilizando un diagrama de rbol como la figura 2.4

Fig. 2.4 Diagrama de rbol resultante de lanzar dos monedas al aire

2. Devore, J. (2008). Probabilidad y estadstica para ingeniera y ciencias. (7a. Ed.). Mxico:
Cengage Learning. Captulo: 2, pgina 86

2.3 Teorema de Bayes

En el siglo XVIII, el reverendo Thomas Bayes, ministro presbiteriano ingls, intent demostrar la
existencia de Dios desarrollando una frmula que evaluaba la posibilidad de su existencia con base
en la evidencia existente en la tierra.

Laplace afin el trabajo de Bayes y le dio el nombre de Teorema de Bayes y lo defini como el
resultado obtenido por la distribucin de probabilidad condicional de un evento A, dado que ocurri
B, en trminos de la probabilidad condicional del evento B dado que ocurri A y la distribucin de
probabilidad el evento A.
Ejemplo:

Se han colocado dos embarques cada uno con 20 computadoras porttiles de reciente modelo. Se
sabe que en el embarque 1 existen 5 computadoras descompuestas y en el embarque 2 existe una
computadora descompuesta.

Se eligi aleatoriamente un embarque y posteriormente, se eligi una computadora, la cual estaba


descompuesta. Cul es la probabilidad de que la computadora descompuesta al azar haya sido
seleccionada del embarque 1?

Presentaremos la solucin primero en un diagrama de rbol:

Fig. 2.3. Diagrama de rbol para el embarque de computadoras

De acuerdo al teorema de Bayes:

En donde:

Probabilidad de que se seleccion el embarque 1 dado que la computadora estaba


: : descompuesta.
Probabilidad de seleccionar aleatoriamente el embarque 1.
: :
Probabilidad de seleccionar aleatoriamente el embarque 2.
: :
Probabilidad de seleccionar una computadora descompuesta dado que se
: : seleccion el embarque 1.
Probabilidad de seleccionar una computadora descompuesta dado que se
: : seleccion el embarque 2.

Sustituyendo los valores en la frmula, tenemos que:

La solucin tiene la siguiente interpretacin: Dado que en el embarque 1 tiene ms computadoras


defectuosas que el embarque 2, existe un 83.33% de probabilidad de que la computadora haya
sido tomada del embarque 1.

Glosario

Probabilidad conjunta: Probabilidad que mide la posibilidad de que dos o ms eventos ocurran en
forma simultnea.
Probabilidad y estadstica
Tema 3. Tcnicas de Conteo
3.1 Diagrama de rbol

Una forma grfica para obtener el total de eventos resultado de un experimento es a travs de un
diagrama de rbol. La mejor manera de verlo es a travs de un ejemplo.

Ejemplo:
En el mundial de futbol del 2010, la Seleccin Mexicana deber enfrentar a tres rivales en la
primera fase y obtener la mayor cantidad de puntos posibles para acceder a la siguiente fase.
Considerando nicamente la primera fase, cuntas posibles combinaciones de resultados puede
obtener la Seleccin Mexicana?

Considerando nicamente los tres juegos en donde se puede perder, empatar o ganar, la lista de
resultados posibles est dada por el siguiente diagrama:
Fig. 3.1 Posibles eventos del experimento jugar la primera fase de un mundial

De acuerdo a la figura 3.1, la lista de posibles resultados es:

Un diagrama de rbol es de gran utilidad para entender la naturaleza de un experimento y el


comportamiento de los eventos entre s.

Sin embargo, puede resultar poco prctico llevarlo a cabo pues la cantidad de resultados puede ser
muy grande, de manera tal que podra ser complicado construirlo y de poca utilidad para visualizar
las ramas que cumplen con el requerimiento deseado.

Existen tcnicas matemticas que permiten obtener el total de elementos en un espacio muestral
para un experimento dado, entre las que se encuentran:
Principio multiplicativo
Principio aditivo
Permutaciones
Combinaciones

3.2 Principio multiplicativo

Si el nmero de eventos posibles en un experimento es relativamente pequeo, resulta sencillo


enlistarlos. Regresemos al ejemplo del tirar un dado balanceado: Un dado tiene 6 eventos posibles:

Fig. 3.2 Posibles eventos del experimento de tirar un dado balanceado

Sin embargo existen experimentos en los que describir eventos posibles resultara tedioso, el
enlistar y contar todas las formas posibles de obtener los eventos, pues la cantidad de posibles
combinaciones puede llegar a ser enorme; como podra ser seleccionar un conjunto de seis
nmeros de cincuenta y uno posibles para participar en el sorteo Melate.

Frmula de la multiplicacin

El principio multiplicativo establece que si hay m formas de hacer una cosa y n formas de hacer
otra, existen m x n formas de realizar ambas.

Ejemplo:
Un hombre de negocios busca determinar cul combinacin traje, camisa y corbata debe elegir
para concretar una importante negociacin. En su guardarropa, el hombre encuentra:

Cuatro trajes.
Siete camisas de vestir.
Cinco corbatas.

Suponiendo que los trajes, las camisas y las corbatas son combinables, de cuntas maneras
puede ir vestido este hombre de negocios?

Aplicando la frmula, tenemos que:

Donde

3.3 Principio aditivo

Adicional a los experimentos donde la cantidad de eventos se establece multiplicando la cantidad


de formas de hacer o seleccionar las cosas; existen otro tipo de experimentos con restricciones de
orden, jerarqua o prioridad, como por ejemplo cuando una primera decisin excluye por completo
una o varias decisiones, y por tanto, la posibilidad de que ocurran otros eventos.
Frmula de la adicin

El principio aditivo establece que si existen dos actividades en donde la primera tiene M formas de
ser realizada y la segunda Nformas de ser realizadas, entonces el conjunto de actividades puede
ser llevado a cabo de M + N formas.

Ejemplo:

Una persona requiere la siguiente lista de muebles de oficina:

Un escritorio.
Un archivero.
Un librero.

Al llegar a la mueblera se da cuenta que existen escritorios de madera y metlicos, cada uno en
cuatro colores diferentes, tambin encuentra archiveros de uno, dos y tres cajones en tres colores
diferentes y libreros de dos, tres, cuatro y cinco estantes en tamao chico, mediano y grande. De
cuntas maneras puede seleccionar un mueble de cada tipo?

Sea:

A = Evento de seleccionar un escritorio.


B = Evento de seleccionar un archivero.
C = Evento de seleccionar un librero.

Sabemos que de los escritorios existen dos tipos de materiales en cuatro colores distintos,
entonces aplicamos la frmula de la multiplicacin:

Donde

Tambin sabemos que tienen archiveros de dos, tres y cuatro cajones en tres colores diferentes,
entonces aplicamos la frmula de la multiplicacin:

Donde

Posteriormente, sabemos que tienen en existencia libreros de dos, tres, cuatro y cinco estantes en
tres tamaos diferentes, entonces aplicamos la frmula de la multiplicacin:

Donde

Finalmente, para determinar de cuntas formas pueden seleccionar los muebles de oficina,
aplicamos la frmula de la adicin:
Donde

3.4 Permutaciones

Como se pudo observar, la frmula de la multiplicacin nos ayuda a determinar la cantidad de


arreglos posibles en dos o ms grupos. Sin embargo, existen experimentos en los que slo se
tiene un grupo para seleccionar una serie de elementos y queremos determinar el nmero de
arreglos posibles en la seleccin. Un claro ejemplo es el caso del sorteo Melate.

La permutacin nos ayuda a determinar el nmero posible de arreglos cuando slo hay un grupo
de elementos.

1. Mason, R., Lind, D. (1995). Estadstica para administracin y economa. (7a. Ed.). Mxico:
Alfaomega Grupo Editor. Captulo: 5.

La frmula de la permutacin supone que primero se obtiene un elemento, despus el segundo y


as sucesivamente hasta obtener el total de objetos requeridos del grupo en cuestin, en donde
cada elemento es distinguible y no se puede repetir la seleccin de un objeto.

Ejemplo:
En un evento de caridad, existe una urna con 10 pelotas diferentes e identificables entre s.
Suponga que el presidente de la institucin de caridad desea obtener tres pelotas que definirn a
los ganadores de una rifa del primero, segundo y tercer premio respectivamente. Cul es la
cantidad de permutaciones posibles al seleccionar tres ganadores de un total de 10?

El evento consiste en obtener tres pelotas sin repeticin, dado que una persona no puede ganar
dos premios, y deseamos saber el total de permutaciones.

Aplicando la frmula tenemos:

Donde

Entonces:

Se tienen 720 diferentes formas de obtener tres ganadores seleccionando 3 pelotas en una urna
de 10.

Permutaciones con repeticin

En el planteamiento original, la permutacin obtiene r elementos de un conjunto de n, en el que no


se puede volver a seleccionar ms de una vez un elemento dado. Cuando en un experimento
pueden existir repeticiones, la frmula de las permutaciones es:

Ejemplo:
Supongamos que en el alfabeto solo existen 5 letras, cuntas palabras de tres letras podran
formarse con 5 letras?

En este caso, las letras pudieran repetirse al ir formando palabras, por tanto, se aplica la frmula
de la permutacin con repeticiones:

Donde

Entonces:

3.5 Combinaciones

En el caso de las permutaciones, otro aspecto importante adems de la repeticin, es que importa
el orden en que se obtienen los objetos del conjunto. En el ejemplo de obtener dos pelotas de una
urna de 10, no es lo mismo obtener primero la pelota A y en segundo lugar la pelota B que obtener
primero la pelota B y en segundo lugar la pelota A, pues en este caso, la permutacin contara dos
veces el obtener la pelota A y B.
Ejemplo:

Supongamos que en la rifa efectuada en el evento de caridad, los tres ganadores obtendrn el
mismo premio, es decir, el premio para cada uno de los tres elegidos es el mismo sin importar
quin salga en primero, quin en segundo y quin en tercero. Cul es la cantidad de
combinaciones posibles al seleccionar tres pelotas de un total de 10?

El evento consiste en obtener tres pelotas sin repeticin, dado que una persona no puede ganar
dos premios, y deseamos saber el total de combinaciones, pues no importa el orden en que se
obtengan las tres pelotas. Aplicando la frmula tenemos

Donde

Entonces:

Se tienen 120 diferentes formas de obtener tres pelotas en una urna de 10 pelotas sin importar el
orden en que se seleccionen.

Glosario

Principio multiplicativo: Establece que si hay m formas de hacer una cosa y n formas de hacer otra,
existen m x n formas de realizar ambas.

Principio aditivo: Establece que si existen dos actividades en donde la primera tiene M formas de
ser realizada y la segunda Nformas de ser realizadas, entonces el conjunto de actividades puede
ser llevado a cabo de M + N formas.

Permutacin: Disposicin en orden de un conjunto de objetos en el que hay un primero, un


segundo, un tercero, etc., hasta n.

Combinacin: Tipo de conteo donde se selecciona un nmero de objetos de un conjunto y, los


arreglos obtenidos son iguales no importando el orden en que se seleccionaron.
Probabilidad y estadstica
Tema 4. Variables aleatorias

4.1 Distribuciones de probabilidad

Una distribucin de probabilidad es un resumen grfico o tabular que nos muestra los resultados
esperados de un experimento, as como la probabilidad asociada con cada uno de los resultados
esperados.

Ejemplo:

Supongamos que estamos interesados en determinar la suma de los puntos al lanzar dos dados
balanceados. El espacio muestral para este experimento es:

Hay 11 posibles resultados, dados de la siguiente manera. En el primer dado se obtiene 1 y en el


segundo dado se obtiene 1; en el primer dado se obtiene 1 y en el segundo dado se obtiene 2; en
el primer dado se obtiene 1 y en el segundo dado se obtiene 3; as sucesivamente hasta obtener
todos los posibles resultados de la suma de los dos dados. El resumen de los resultados se ve en
la siguiente tabla:

Dado 1 Dado 2 Suma Dado 1 Dado 2 Suma Dado 1 Dado 2 Suma


1 1 2 3 1 4 5 1 6
1 2 3 3 2 5 5 2 7
1 3 4 3 3 6 5 3 8
1 4 5 3 4 7 5 4 9
1 5 6 3 5 8 5 5 10
1 6 7 3 6 9 5 6 11
2 1 3 4 1 5 6 1 7
2 2 4 4 2 6 6 2 8
2 3 5 4 3 7 6 3 9
2 4 6 4 4 8 6 4 10
2 5 7 4 5 9 6 5 11
2 6 8 4 6 10 6 6 12

Tabla 4.1 Resultados probables de tirar dos dados

De la tabla podemos concluir el nmero de ocurrencias para cada resultado, es decir, el nmero de
resultados del experimento donde se obtiene una suma de 2 es 1, mientras que el nmero de
resultados donde se obtiene una suma de 7 es 6. Veamos el resumen una tabla, en donde tambin
se incluye la probabilidad de que ocurra el resultado:

Resultado Nmero de Probabilidad del


Esperado ocasiones resultado

2 1

3 2

4 3

5 4

6 5

7 6

8 5

9 4

10 3

11 2

12 1

Tabla 4.2 Resumen de datos y probabilidad del resultado

Grficamente, podemos observar la distribucin de probabilidad de la suma de los puntos de dos


dados balanceados. Utilizaremos la herramienta Excel para construir la grfica de la distribucin de
probabilidad.

En una hoja de Excel se captura la informacin de la tabla de probabilidades 4.2:


Fig. 4.1. Captura de distribucin de probabilidad en Excel

Selecciona las columnas e inserta una grfica de columnas, tal como se ve en la siguiente imagen:
Fig. 4.2. Seleccin del tipo de grfica a insertar

Ajustamos los datos del cuadro de dilogo de acuerdo a la siguiente figura:

Fig. 4.3 Seleccin de series a graficar


Finalmente, obtenemos una grfica similar a la que se muestra en la grfica 4.1

Grfica 4.1 Distribucin de probabilidad de la suma de puntos de dos dados

4.2 Variables Aleatorias

Vemos unos ejemplos de variables aleatorias:

El nmero de empleados ausentes los lunes, que puede tomar el valor de 0, 1, 2, 3


El peso de una barra de acero, que puede tomar el valor de 2500, 2500.1, 2500.13, etc.,
dependiendo de la exactitud de la bscula.
El nmero de caras al lanzar dos monedas, que puede tomar el valor de 0, 1 o 2.
La suma de los puntos al tirar dos dados, que puede tomar el valor de 2, 3, 4, 5, 6, 7, 8, 9,
10, 11 o 12.

Existen dos tipos de variables aleatorias:

1. Variables aleatorias discretas.


Una variable aleatoria discreta es vlida para cierto nmero de valores definidos y distantes, en
otras palabras, es una variable que slo puede tomar ciertos valores claramente separados y que
es resultado de contar algn elemento de inters.

Un claro ejemplo de una variable aleatoria discreta es la suma de los puntos de dos dados
balanceados.

Es importante notar que no necesariamente son valores enteros, tambin puedes ser valores
fraccionarios o decimales con cierta distancia entre ellos, como pueden ser puntuaciones
otorgadas por los jueces a los gimnastas en los juegos olmpicos, como la de los clavadistas en
donde los resultados podran ser datos como los siguientes:

Juez 1 Juez 2 Juez 3 Juez 4 Juez 5 Total


5.9 5.7 6.0 5.3 5.2 28.1

2. Variables aleatorias continuas.

Una variable aleatoria continua es vlida para un nmero infinito de valores dentro de un rango, en
otras palabras, es una variable que puede tomar cualquier valor de una cantidad infinitamente
grande de valores y que es resultado de medir algn elemento de inters.

Algunos ejemplos de variables aleatorias continuas pueden ser:

La estatura de una alumno de primero de primaria, puede ir de 1 metro a 1.20


metros, considerando precisiones de varios decimales: 1.05, 1.13, 1.12

La distancia en kilmetros entre las poblaciones mexicanas, pueden tomar desde


pocos kilmetros hasta miles de kilmetros: 14.5 Km, 170.33 Km, etc.

Las distribuciones de probabilidad establecen el comportamiento de una variable aleatoria, como el


ejemplo de la suma de los puntos de dados balanceados.

4.3 Valor esperado y varianza de una variable aleatoria

El valor esperado de una variable aleatoria es una medida de tendencia central que representa a
una distribucin probabilstica. Tambin es el valor promedio a largo plazo de la variable aleatoria,
representado por E(X)

En otras palabras, el valor esperado de una variable aleatoria se calcula sumando las
multiplicaciones individuales de cada valor de X por su probabilidad de ocurrencia.
En otras palabras, la varianza de una variable aleatoria se obtiene como la suma de las
diferencias entre la media y cada valor individual, multiplicado por su probabilidad de ocurrencia.

Ejemplo:

Una tienda de electrodomsticos que vende televisores, ha establecido la siguiente distribucin de


probabilidad para el nmero de televisores que espera vender en un sbado en particular.

Nmero de televisores
Probabilidad
vendidos
P(X)
X
0 0.10
1 0.20
2 0.30
3 0.30
4 0.10
Total 1.00

Sea X la variable aleatoria discreta para el nmero de televisores vendidos en un sbado en


particular, para calcular el valor esperado, aplicamos la siguiente frmula:

El valor esperado obtenido muestra que en promedio se venden 2.1 televisores en un sbado en
particular

Visto en una tabla, tenemos que:

Nmero de
televisores Probabilidad
X * P(X)
vendidos P(X)
X
0 0.10 0
1 0.20 0.2
2 0.30 0.6
3 0.30 0.9
4 0.10 0.4
Total 1.00 E(X) = 2.1

Para calcular la varianza, podemos utilizar nuevamente una tabla:

Nmero de
televisores Probabilidad
vendidos P(X)
X
0 0.10 0 2.1 4.41 0.441
1 0.20 1 2.1 1.21 0.242
2 0.30 2 2.1 0.01 0.003
3 0.30 3 2.1 0.81 0.243
4 0.10 4 2.1 3.61 0.361
Total 1.00

Como corolario, podemos definir la desviacin estndar como la raz cuadrada de la varianza, que
para este caso es de 1.136 televisores. Recuerda que la desviacin estndar es una medida de
dispersin que nos indica la distancia en promedio que existe entre los valores mximo y mnimo,
con respecto a la media.

Lo anterior significa que en un sbado en particular, la tienda de electrodomsticos puede vender


entre 0.964 y 3.236.

Glosario

Promedio: Valor que representa un conjunto de datos. Seala un centro de los valores.

Media: Medida de tendencia central (promedio) que representa el valor central de un conjunto de
datos.

Media poblacional: Medida de tendencia central para una poblacin

Donde:
X = Un valor especfico
N = Total de valores de la poblacin

Media muestral: Medida de tendencia central para una muestra de una poblacin
Donde:
X = Un valor especfico
n = Total de valores de la muestra

Varianza: Media aritmtica de las desviaciones cuadrticas con respecto a la media.

Varianza poblacional: Media aritmtica de las desviaciones cuadrticas con respecto a la media
para una poblacin.

Varianza muestral: Media aritmtica de las desviaciones cuadrticas con respecto a la media para
la muestra de una poblacin.

Desviacin estndar: Media aritmtica de los valores absolutos de las desviaciones con respecto a
la media. Se define como la raz cuadrada de la varianza.
Probabilidad y estadstica
Tema 5. Distribuciones de probabilidad discretas
5.1 Distribucin de probabilidad de Bernoulli

Como recordars, una distribucin de probabilidad discreta se


representa mediante un resumen tabular que nos muestra los
resultados esperados de un experimento, as como la
probabilidad asociada con cada uno de los resultados
esperados.

Una de las distribuciones de probabilidad ms conocidas es


la distribucin de probabilidad de Bernoulli, creada por el
matemtico y cientfico suizo Jakob Bernoulli. La distribucin
de probabilidad de Bernoulli es una distribucin de
probabilidad que asigna un valor de 1 al xito en un
experimento y un valor de 0 al fracaso. Expresado matemticamente, se dira:

Si X es una variable aleatoria que determina el nmero de xitos y se realiza un slo experimento
con nicamente dos posibles resultados, entonces la variable aleatoria X tiene una distribucin de
probabilidad de Bernoulli. En resumen, las caractersticas principales de una distribucin de
Bernoulli son:
La frmula para calcular una probabilidad con la distribucin de Bernoulli es:

En donde el valor esperado y la varianza de un experimento con distribucin de probabilidad de


Bernoulli est dado por:

Ejemplo:

Implcitamente hemos trabajado con la distribucin de probabilidad de Bernoulli, algunos de los


experimentos que hemos visto durante el curso, tienen las caractersticas propias de esta
distribucin: lanzar una moneda o tirar un dado balanceado.

Repasemos una vez ms el ejemplo de tirar un dado balanceado, considerando la distribucin de


probabilidad de Bernoulli:

Cul es la probabilidad de obtener un 6?

Sea:

Entonces, el xito del experimento se representa cmo:


El fracaso del experimento como:

Aplicando la frmula:

Donde:

Entonces

Esto significa que existe el 16.67% de probabilidades de que se obtenga un 6 al tirar un dado
balanceado.

5.2 Distribucin de probabilidad Binomial


La distribucin de probabilidad binomial, es una distribucin de probabilidad discreta y es una
extensin de la distribucin de probabilidad de Bernoulli. Si una de las caractersticas de la
distribucin de probabilidad Bernoulli es que se realiza una sola vez el experimento, en la
distribucin de probabilidad binomial, el experimento puede realizarse un sinnmero de veces.

La distribucin de probabilidad binomial puede describirse mediante la siguiente frmula:

Ejemplo:

En una lnea de ensamble se encuentra que 1 de cada 5 partes producidas tiene un milmetro ms
de lo deseado. Cul es la probabilidad de que en las siguientes 7 partes producidas se
encuentren dos cuya longitud es un milmetro mayor de la esperada?
Consideremos el experimento de encontrar una pieza con un milmetro mayor al deseado, donde:

Aplicando la frmula:

Esto significa que un 27.52% de las veces se encontrarn 2 partes con un milmetro de ms.

5.3 Representacin grfica de la distribucin de probabilidad binomial

Como todo experimento en donde hay dos resultados posibles, la probabilidad de ocurrencia de los
eventos en un experimento con las caractersticas de la distribucin de probabilidad binomial, se
puede representar tanto en una tabla de resultados como en una grfica de barras.

Ejemplo:

Continuando con el ejemplo de la lnea de ensamble, en donde se desea saber la cantidad de


partes producidas cuya longitud es un milmetro mayor de lo esperado en las siguientes 7 partes,
tenemos el siguiente espacio muestral:

Utilizaremos la herramienta Excel para construir la tabla de resultados y la grfica de la distribucin


de probabilidad.
Fig. 5.1. Captura de distribucin de probabilidad en Excel

Para generar la grfica, selecciona las columnas e inserta una grfica de columnas, tal como se ve
en la siguiente imagen:
Fig. 5.2. Seleccin del tipo de grfica a insertar

Ajustamos los datos del cuadro de dilogo de acuerdo a la siguiente figura:

Grfica 5.3 Distribucin de probabilidad para las partes con longitud mayor en un milmetro

5.4 Distribucin de probabilidad binomial acumulada

El clculo de la probabilidad de un evento en especfico, es una de las posibles preguntas que nos
hacemos en un experimento; en ocasiones puede ser conveniente determinar la probabilidad
acumulada de ciertos eventos. Continuemos con el ejemplo de la lnea de ensamble: En una lnea
de ensamble se encuentra que uno de cada 5 partes producidas tiene un milmetro ms de lo
deseado.

Cul es la probabilidad de que en las siguientes 7 partes producidas se encuentren tres o


menos partes cuya longitud es un milmetro mayor de la esperada?
Cul es la probabilidad de que en las siguientes 7 partes producidas se encuentren dos o
ms partes cuya longitud es un milmetro mayor de la esperada?

Para el primer caso, en donde se requiere saber la probabilidad de que tres o menos partes tengan
una longitud mayor a cero, debemos calcular la probabilidad de que se encuentren 0 partes, ms la
probabilidad de que se encuentre 1 parte, ms la probabilidad de que se encuentren dos partes y
la probabilidad de que se encuentren 3 partes con una longitud mayor en un milmetro.

Para calcular las probabilidades individuales, tenemos:


Finalmente, para calcular la probabilidad de que en las siguientes 7 partes producidas, se
encuentren tres o menos partes cuya longitud es un milmetro mayor, tenemos:

Esto indica que existe un 96.67% de probabilidades de encontrar tres o menos partes con un
milmetro de ms.

Para la siguiente pregunta, sobre cul es la probabilidad de que en las siguientes 7 partes
producidas se encuentren dos o ms partes cuya longitud es un milmetro ms de lo esperado, se
sigue un procedimiento similar:

Realizando los clculos individuales y realizando la suma, tenemos que:

Esto indica que existe un 42.33% de probabilidades de encontrar dos o ms partes con un
milmetro de ms.

Para ayudar a responder preguntas del tipo mayor que, menor que, cuando mucho, al menos
y otras similares, es conveniente realizar una tabla con la probabilidad de ocurrencia acumulada.

Nmero de partes
Probabilidades Probabilidades
con un mm. de ms P(r)
menores de mayores de
(r)
0 0.2097 0.2097 1.0000
1 0.3670 0.5767 0.7903
2 0.2753 0.8520 0.4233
Se suma Se suma
3 0.1147 hacia 0.9667 hacia 0.1480
abajo arriba
4 0.0287 0.9953 0.0333
5 0.0043 0.9996 0.0047
6 0.0004 1.0000 0.0004
7 0.0000 1.0000 0.0000

Tabla 5.1 Probabilidades acumuladas para n = 7

Tablas de distribucin binomial

Una distribucin de probabilidad binomial, es una distribucin que puede generarse


matemticamente. Sin embargo, los clculos con tamaos de muestra n grandes, pueden ser muy
tediosos. Como auxiliar para determinar probabilidades de 0,1, 2, 3, xitos para diferentes
valores de n y p, se han formado tablas similares a la siguiente:

Probabilidades binomiales para n = 6


r 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.95
0 0.735 0.531 0.262 0.118 0.047 0.016 0.004 0.001 0.000 0.000 0.000
1 0.232 0.354 0.393 0.303 0.187 0.094 0.037 0.010 0.002 0.000 0.000
2 0.031 0.098 0.246 0.324 0.311 0.234 0.138 0.060 0.015 0.001 0.000
3 0.002 0.015 0.082 0.185 0.276 0.313 0.276 0.185 0.082 0.015 0.002
4 0.000 0.001 0.015 0.060 0.138 0.234 0.311 0.324 0.246 0.098 0.031
5 0.000 0.000 0.002 0.010 0.037 0.094 0.187 0.303 0.393 0.354 0.232
6 0.000 0.000 0.000 0.001 0.004 0.016 0.047 0.118 0.262 0.531 0.735

Considerando esta tabla, podemos calcular las probabilidades sin realizar los clculos
involucrados. Por ejemplo. Supongamos que en la lnea de ensamble de nuestro ejemplo, se
obtiene una muestra de 6 piezas y deseamos obtener:

Probabilidad de que se encuentren 2 piezas con un milmetro de ms.

Sabemos que la probabilidad de encontrar una pieza con ms de un milmetro es del 20%.
Observando la tabla, podemos obtener directamente esta probabilidad:

r 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.95
0 0.735 0.531 0.262 0.118 0.047 0.016 0.004 0.001 0.000 0.000 0.000
1 0.232 0.354 0.393 0.303 0.187 0.094 0.037 0.010 0.002 0.000 0.000
2 0.031 0.098 0.246 0.324 0.311 0.234 0.138 0.060 0.015 0.001 0.000
3 0.002 0.015 0.082 0.185 0.276 0.313 0.276 0.185 0.082 0.015 0.002
4 0.000 0.001 0.015 0.060 0.138 0.234 0.311 0.324 0.246 0.098 0.031
5 0.000 0.000 0.002 0.010 0.037 0.094 0.187 0.303 0.393 0.354 0.232
6 0.000 0.000 0.000 0.001 0.004 0.016 0.047 0.118 0.262 0.531 0.735

En este caso, la probabilidad de encontrar dos piezas con un milmetro de ms, en una muestra de
seis piezas es del 24.6%.

Probabilidad de que se encuentren cuando mucho 3 piezas con un milmetro de ms.

Para encontrar la probabilidad de que se encuentren cuando mucho 3 piezas, es decir, 3 o


menos piezas, con un milmetro de ms, podemos obtener sumando las probabilidades de
0, 1, 2 y 3 piezas, como se ve en la tabla de probabilidades binomiales:

r 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.95
0 0.735 0.531 0.262 0.118 0.047 0.016 0.004 0.001 0.000 0.000 0.000
1 0.232 0.354 0.393 0.303 0.187 0.094 0.037 0.010 0.002 0.000 0.000
2 0.031 0.098 0.246 0.324 0.311 0.234 0.138 0.060 0.015 0.001 0.000
3 0.002 0.015 0.082 0.185 0.276 0.313 0.276 0.185 0.082 0.015 0.002
4 0.000 0.001 0.015 0.060 0.138 0.234 0.311 0.324 0.246 0.098 0.031
5 0.000 0.000 0.002 0.010 0.037 0.094 0.187 0.303 0.393 0.354 0.232
6 0.000 0.000 0.000 0.001 0.004 0.016 0.047 0.118 0.262 0.531 0.735

En este caso, la probabilidad de encontrar cuando mucho tres piezas con un milmetro de ms, en
una muestra de seis piezas es del 98.3%.

Probabilidad de que se encuentren al menos dos piezas con un milmetro de ms.

Similar al punto anterior, para encontrar la probabilidad de que se encuentren al menos 2


piezas, es decir, 2 o ms piezas, con un milmetro de ms, podemos obtener sumando las
probabilidades de 2, 3, 4, 5 y 6 piezas, como se ve en la tabla de probabilidades
binomiales:

r 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.95
0 0.735 0.531 0.262 0.118 0.047 0.016 0.004 0.001 0.000 0.000 0.000
1 0.232 0.354 0.393 0.303 0.187 0.094 0.037 0.010 0.002 0.000 0.000
2 0.031 0.098 0.246 0.324 0.311 0.234 0.138 0.060 0.015 0.001 0.000
3 0.002 0.015 0.082 0.185 0.276 0.313 0.276 0.185 0.082 0.015 0.002
4 0.000 0.001 0.015 0.060 0.138 0.234 0.311 0.324 0.246 0.098 0.031
5 0.000 0.000 0.002 0.010 0.037 0.094 0.187 0.303 0.393 0.354 0.232
6 0.000 0.000 0.000 0.001 0.004 0.016 0.047 0.118 0.262 0.531 0.735

La probabilidad de encontrar al menos dos piezas con un milmetro de ms en una muestra de seis
piezas es del 34.5%.

5.5 Distribucin de Poisson


El lmite de la distribucin binomial cuando la probabilidad de xito es muy pequea y el nmero
de observaciones es muy grande se le denomina distribucin de probabilidad de Poisson, en
honor de Simeon Poisson quien la estudi y la dio a conocer en 1937. A la distribucin de Poisson
tambin se le conoce como Ley de Eventos Improbables, debido a que la probabilidad de que un
evento suceda es bastante pequea.

La distribucin de Poisson puede describirse matemticamente como:


Ejemplo:

Los empleados de facturacin rara vez cometen errores en la captura de los datos de facturas.
Muchas de las facturas no tienen errores, algunas tienen uno, unas cuantas tienen dos, rara vez
una factura tiene tres errores. Una muestra aleatoria de 100 facturas revel 30 errores, cul es la
probabilidad de que en una factura seleccionada al azar no se encuentren dos errores?

Considerando el experimento, tenemos que en 100 facturas se encontraron 30 errores, una media
de 0.3 errores por factura, entonces:

Aplicando la frmula de la distribucin de Poisson, tenemos:

Exista un 3.33% de probabilidades de encontrar 2 errores en una factura seleccionada al azar.

Veamos otro ejemplo:

La Sra. Garca est encargada de los prstamos de un banco. Con base en sus aos de
experiencia, estima que la probabilidad de que un solicitante no sea capaz de pagar
oportunamente su prstamo es de 2%. El mes pasado, la Sra. Garca realiz 400 prstamos. Cul
es la probabilidad de que 5 prstamos no se paguen a tiempo?

El valor , se obtiene de multiplicar el nmero de prstamos realizados por la probabilidad de que


el solicitante no pague su prstamo oportunamente.

Considerando el experimento y el dato de , tenemos:


Aplicando la frmula de la distribucin de Poisson, tenemos:

Existe un 9.16% de probabilidades de que 5 de que los 400 los solicitantes no paguen su prstamo
oportunamente.

5.6 Representacin grfica de la distribucin de probabilidad Poisson

La distribucin de probabilidad Poisson se puede representar en una tabla de resultados, y en una


grfica que describa la distribucin de probabilidad. Continuando con el ejemplo de los prstamos
otorgados de la Sra. Garca, utilizaremos la herramienta Excel para construir la tabla de resultados
y la grfica de la distribucin de probabilidad.
Fig. 5.4. Captura de distribucin de probabilidad en Excel

Para generar la grfica, selecciona las columnas e inserta una grfica de columnas, tal como se ve
en la siguiente imagen:
Fig. 5.5. Seleccin del tipo de grfica a insertar

Ajustamos los datos del cuadro de dilogo de acuerdo a la siguiente figura:

Grfica 5.6 Distribucin de probabilidad para los solicitantes que no pagan a tiempo

5.7 Distribucin de probabilidad Poisson acumulada

Al igual que en la distribucin de probabilidad binomial, en ocasiones puede ser conveniente


determinar la probabilidad acumulada de ciertos eventos. Continuemos con el ejemplo de la Sra.
Garca: Con base en sus aos de experiencia, estima que la probabilidad de que un solicitante no
sea capaz de pagar oportunamente su prstamo es de 2%. El mes pasado, la Sra. Garca realiz
400 prstamos.

Cul es la probabilidad de que a lo mucho 3 prstamos no se liquiden a tiempo?

Para este caso, en donde se requiere saber la probabilidad de mximo tres prstamos no se
liquiden a tiempo, debemos calcular la probabilidad de que no se liquiden a tiempo 0 prstamos,
ms la probabilidad de que no se liquiden a tiempo 1 prstamo, ms la probabilidad de que no se
liquiden a tiempo 2 prstamos y la probabilidad de que no se liquiden a tiempo 0 prstamos.

Para calcular las probabilidades individuales, tenemos:

Finalmente, para calcular la probabilidad de que mximo 3 prstamos no se liquiden


oportunamente, tenemos:

Esto indica que existe un 4.24% de probabilidades de encontrar tres o menos solicitantes que no
paguen su prstamo oportunamente.

Para ayudar a responder preguntas del tipo mayor que, menor que, cuando mucho, al menos
y otras similares, es conveniente realizar una tabla con la probabilidad de ocurrencia acumulada.

Prstamos no
Probabilidades Probabilidades
pagados a tiempo P(x)
menores de mayores de
(x)
0 0.0003 0.0003 1.0000
1 0.0027 0.0030 0.9996
2 0.0107 0.0138 0.9970
3 0.0286 Se suma 0.0424 Se suma 0.9862
hacia hacia
4 0.0573 abajo 0.0996 arriba 0.9576
5 0.0916 0.1912 0.9003
6 0.1221 0.3134 0.8087
7 0.1396 0.4530 0.6866
8 0.1396 0.5926 0.5470
9 0.1241 0.7166 0.4074
10 0.0993 0.8159 0.2833
11 0.0722 0.8881 0.1841
12 0.0481 0.9362 0.1119
13 0.0296 0.9658 0.0638
14 0.0169 0.9827 0.0341
15 0.0090 0.9918 0.0172
16 0.0045 0.9963 0.0082
17 0.0021 0.9984 0.0037
18 0.0009 0.9994 0.0016
19 0.0004 0.9998 0.0006
20 0.0002 0.9999 0.0002
21 0.0001 1.0000 0.0001

Tabla 5.2 Probabilidades acumuladas para =8

Tablas de distribucin binomial

Una distribucin de probabilidad de Poisson, es una distribucin que puede generarse


matemticamente. Sin embargo, los clculos para diferentes valores de , pueden ser muy
tediosos. Como auxiliar para determinar probabilidades diferentes valores de , se han formado
tablas similares a la siguiente:

Probabilidades de exactamente x ocurrencias


x 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0 0.9048 0.8187 0.7408 0.6703 0.6065 0.5488 0.4966 0.4493 0.4066 0.3679
1 0.0905 0.1637 0.2222 0.2681 0.3033 0.3293 0.3476 0.3595 0.3659 0.3679
2 0.0045 0.0164 0.0333 0.0536 0.0758 0.0988 0.1217 0.1438 0.1647 0.1839
3 0.0002 0.0011 0.0333 0.0072 0.0126 0.0198 0.0284 0.0383 0.0494 0.0613
4 0.0001 0.0003 0.0007 0.0016 0.0030 0.0050 0.0077 0.0111 0.0153
5 0.0002 0.0004 0.0007 0.0012 0.0020 0.0031
6 0.0001 0.0002 0.0003 0.0005
7 0.0001

Considerando esta tabla, podemos calcular las probabilidades sin realizar los clculos
involucrados. Por ejemplo: supongamos que en el ejemplo de la Sra. Garca, se tiene un valor
de = 1.0 deseamos obtener la probabilidad de que dos o ms solicitantes no paguen
oportunamente su prstamo.

Para encontrar la probabilidad de que dos o ms solicitantes no paguen oportunamente su


prstamo, podemos obtenerla sumando las probabilidades de 2, 3, 4, 5, 6 y 7 solicitantes, como se
ve en la tabla de probabilidades Poisson:

Probabilidades de exactamente x ocurrencias


x 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0 0.9048 0.8187 0.7408 0.6703 0.6065 0.5488 0.4966 0.4493 0.4066 0.3679
1 0.0905 0.1637 0.2222 0.2681 0.3033 0.3293 0.3476 0.3595 0.3659 0.3679
2 0.0045 0.0164 0.0333 0.0536 0.0758 0.0988 0.1217 0.1438 0.1647 0.1839
3 0.0002 0.0011 0.0333 0.0072 0.0126 0.0198 0.0284 0.0383 0.0494 0.0613
4 0.0001 0.0003 0.0007 0.0016 0.0030 0.0050 0.0077 0.0111 0.0153
5 0.0002 0.0004 0.0007 0.0012 0.0020 0.0031
6 0.0001 0.0002 0.0003 0.0005
7 0.0001

En este caso, la probabilidad de que dos o ms solicitantes no paguen oportunamente su prstamo


es del 26.42%.

5.8 Aproximacin de Poisson a Binomial

La distribucin de probabilidad binomial es buena para determinar probabilidades en dnde la


probabilidad de xito es superior a 0.05 y el nmero de observaciones n es relativamente pequeo
(menores a 20). Al intentar calcular probabilidades con probabilidad de xito menor a 0.05
y n mayor a 20, la distribucin de probabilidades se vuelve cada vez ms sesgada.

Dada las caractersticas anteriores, podemos decir que:


Por ejemplo, si la probabilidad de que sea devuelto un cheque girado es de 0.0003 y se cambian
en promedio 10,000 cheques al mes, el nmero medio de cheques devueltos es:

Ejemplo:

Apliquemos la distribucin binomial con el ejemplo visto de los empleados de facturacin, en


donde:

Se sabe que la cantidad de errores promedio es de 0.3 errores por factura. Para obtener la
probabilidad de encontrar un error, despejamos la frmula del valor esperado para la distribucin
binomial:

Despejando para p

Entonces, para aplicar la distribucin binomial, tenemos:


Aplicando la frmula:

Existe un 3.33% de probabilidades de encontrar 2 errores en una factura seleccionada al azar. Al


comparar los resultados de las probabilidades calculadas por la distribucin de Poisson y la
distribucin binomial, observamos que la diferencia entre un clculo y otro es de tan slo
0.000149427, por lo que podemos concluir que la aproximacin de Poisson tambin es una buena
opcin para calcular probabilidades binomiales.

Glosario

Distribucin de Bernoulli: Distribucin de probabilidad de experimentos con un solo ensayo con dos
posibles resultados.

Distribucin Binomial: Extensin de la distribucin de Bernoulli, en el que se realizan mltiples


ensayos en un experimento que tiene dos posibles resultados.

Distribucin de Poisson: Distribucin que mide la probabilidad de xito o fracaso en un intervalo


definido. Es el lmite de la distribucin binomial cuando y o bien,
cuando .
Probabilidad y estadstica
Tema 6. Casos especiales de la distribucin Binomial
6.1 Distribucin de probabilidad binomial negativa
La distribucin de probabilidad binomial negativa es un caso especial de la distribucin binomial.
En el cual al realizar un experimento con dos resultados posibles, xito o fracaso, interesa obtener
un nmero r de exitosos, y en donde el ltimo de dichos eventos exitosos, ocurra en el intento
nmero k.

Para comprender mejor, supongamos lo siguiente: Se realiza un experimento en donde se tira una
moneda en cinco ocasiones y se busca obtener la probabilidad de que se obtengan dos guilas,
considerando que la segunda guila es obtenida en el ltimo intento.

Si consideramos el espacio muestral del experimento, tenemos:

Podemos obtener aquellos eventos en donde se tienen dos guilas y en la ltima de ellas es un
guila. Los casos que cumplen esta condicin son:

De los 32 resultados posibles, solo 4 cumplen la condicin de contar con un resultado con dos
guilas, siendo uno de esos resultados el ltimo evento. De lo anterior, podemos concluir que la
probabilidad de que se obtengan dos guilas, considerando que la segunda guila es obtenida en
el ltimo intento es de 0.125

Matemticamente, la frmula de la distribucin de probabilidad binomial negativa es:


Ejemplo:

Se realiza un experimento en el cual se tira una moneda en cinco ocasiones y, se busca obtener la
probabilidad de que se obtengan dos guilas, considerando que la segunda guila es obtenida en
el ltimo intento.

Consideremos el experimento de encontrar una pieza con un milmetro mayor al deseado, donde:

Aplicando la frmula:

Esto significa que el 12.5% de las veces se obtendrn dos guilas, considerando que la segunda
guila es obtenida en el ltimo intento, lo que concuerda con el anlisis realizado mediante el
espacio muestral del experimento.

6.2 Distribucin de probabilidad geomtrica


La distribucin de probabilidad geomtrica es otro caso especial de la distribucin binomial, en
donde al realizar un experimento con dos resultados posibles, xito o fracaso, interesa obtener la
probabilidad de obtener un nico xito en el ltimo intento.

Supongamos lo siguiente: Se realiza un experimento en donde se tira una moneda en cinco


ocasiones y se busca obtener la probabilidad de que se obtenga un guila en el ltimo intento.

Si consideramos el espacio muestral del experimento, tenemos:

Podemos obtener aquellos eventos en donde se obtiene un guila en el ltimo intento:

De los 32 resultados posibles, solo 1 cumple la condicin de contar con un resultado de un guila
en el ltimo evento. De lo anterior, podemos concluir que la probabilidad de que se obtengan un
guila, considerando que es obtenida en el ltimo intento es de 0.03125

La frmula de la probabilidad de distribucin geomtrica es:


Ejemplo:

Se realiza un experimento en donde se tira una moneda en cinco ocasiones y se busca obtener la
probabilidad de que se obtenga un guila en el ltimo intento.

Consideremos el experimento de obtener un guila en el ltimo intento, donde:

Aplicando la frmula:

Matemticamente, la probabilidad de que se obtenga un guila en el ltimo intento es de 3.125%,


lo que concuerda con el anlisis realizado mediante el espacio muestral del experimento.

6.3 Distribucin de probabilidad hipergeomtrica

La distribucin de probabilidad hipergeomtrica es otro caso de la distribucin de probabilidad


binomial en donde no existe reposicin de los elementos. Supongamos lo siguiente: en un distrito
electoral se van a seleccionar 27 votantes y se sabe que el 40% de la poblacin simpatiza por el
candidato oficial, mientras que el 60% restante al candidato opositor.
Al seleccionar el primer votante, la probabilidad de que el seleccionado sea simpatizante del
candidato oficial es de 0.40. Al seleccionar el segundo votante, dado que ya eliminamos a uno, la
probabilidad de que el segundo seleccionado sea simpatizante del candidato oficial se reduce,
pues ya quitamos un individuo de la seleccin original.

Matemticamente, la frmula de la distribucin de probabilidad hipergeomtrica es:


Ejemplo:

Durante la semana se fabricaron 50 televisores en donde 40 de ellos operaron sin ningn problema
y 10 tuvieron al menos un defecto. Se selecciona al azar una muestra de 5 televisores y se desea
saber cul es la probabilidad de que cuatro de los 5 seleccionados funcionen sin problemas.

Considerando la informacin, tenemos que:

Aplicando la frmula:

La probabilidad de que 4 televisores de los 5 seleccionados funcionen sin problema es del 43.13%.
Probabilidad y estadstica
Tema 7. Distribuciones de probabilidad continuas
7.1 Distribucin de probabilidad Uniforme
La distribucin de probabilidad uniforme es aquella que puede tomar cualquier valor dentro de un
intervalo, todos ellos con la misma probabilidad. Es una distribucin continua porque puede tomar
cualquier valor y no nicamente un nmero determinado.

Matemticamente, la distribucin de probabilidad uniforme puede definirse como:

En esta funcin de densidad, la probabilidad de que al hacer un experimento aleatorio, el valor de


X este comprendido en cierto subintervalo de [a,b], depende nicamente de la longitud del
intervalo, no de su posicin.

La distribucin de probabilidad uniforme o rectangular, se puede ver en la figura 7.1


Fig. 7.1 Grfica de la distribucin de probabilidad uniforme

Para la distribucin uniforme, podemos definir su funcin de distribucin de probabilidad como:

Grficamente, la probabilidad de ocurrencia de un evento est dada por la lnea en el rango donde
la distribucin es vlida, como podemos observar en la siguiente figura:
Fig. 7.2 Probabilidad de ocurrencia para que en el evento se obtiene un valor entre a y c

El valor esperado y la varianza en una distribucin uniforme est dada por:

Ejemplo:

El volumen de precipitaciones estimado para el prximo ao en la ciudad va a oscilar entre 400 y


500 litros por metro cuadrado. Calcular la funcin de distribucin, la precipitacin media esperada y
la varianza.

En este caso, la probabilidad de que la precipitacin estimada sea cualquier valor entre 400 y 500
litros, est dada por:

Grficamente:
Fig. 7.3 Probabilidad de que la precipitacin estimada este entre 400 y 500 litros

Calculando el valor esperado y la varianza, tenemos que:

Los resultados anteriores significan que la probabilidad de que caigan 400 litros, 401, litros, 402
litros, y as sucesivamente, es de 1%. Se espera, en promedio, que lluevan 450 litros de agua para
el prximo ao, con una desviacin estndar de 28.86 litros, es decir, se espera en promedio que
llueva entre 421.14 y 478.86 litros de agua el prximo ao.

Sabiendo que la probabilidad de que lluevan una cantidad especfica de litros de agua es de 1%
entre el rango de 400 y 500 litros:

Cul es la probabilidad de que lluevan menos de 430 litros de agua?

En este caso, la probabilidad de que lluevan menos de 430 litros de agua est dada por la
probabilidad de que lluevan 400 litros, ms la probabilidad de 401, etc. Matemticamente:

Integrando la funcin de densidad y evaluando en x = 430 y x = 400, tenemos que:


La probabilidad de que llueva menos de 430 litros es del 30%. Grficamente:

Fig. 7.4. Probabilidad de que lluevan menos de 430 litros de agua

Cul es la probabilidad de que lluevan ms de 490 litros de agua?

Similarmente, la probabilidad de que lluevan ms de 490 litros de agua est dada por la
probabilidad de que lluevan 490 litros, ms la probabilidad de 491, etc. Matemticamente
se expresa de la siguiente forma:

La probabilidad de que llueva ms de 490 litros es del 10%. Grficamente:


Fig. 7.5. Probabilidad de que lluevan ms de 490 litros de agua

Cul es la probabilidad de que lluevan entre 420 y 480 litros de agua?

La probabilidad de que lluevan entre 420 y 480 litros de agua est dada por la probabilidad
de que lluevan 420 litros, ms la probabilidad de 421, etc., hasta la probabilidad de que
lluevan 480 litros de agua. Matemticamente, se expresa:

La probabilidad de que llueva entre 420 y 480 litros de agua es del 60%. Grficamente:

Fig. 7.6. Probabilidad de que lluevan entre 420 y 480 litros de agua

7.2 Distribucin de probabilidad exponencial


La distribucin exponencial es el equivalente continuo, de la distribucin geomtrica discreta. Esta
ley de distribucin describe procesos en los que nos interesa saber el tiempo hasta que ocurre
determinado evento, sabiendo que el tiempo que pueda transcurrir desde cualquier instante dado t,
hasta que ello ocurra en un instante , y es independiente del tiempo transcurrido anteriormente en
el que no ha pasado nada.

Matemticamente, la distribucin de probabilidad uniforme puede definirse como:

La distribucin de probabilidad exponencial, se puede ver en la figura 7.2.


Fig. 7.7 Grfica de la distribucin de probabilidad exponencial

Para la distribucin exponencial, la funcin de distribucin de probabilidad es:

Grficamente, la probabilidad de ocurrencia de un evento est dada por el rea bajo la curva, como
podemos observar en la siguiente figura:
Fig. 7.8 Probabilidad de ocurrencia o rea bajo la curva para la distribucin exponencial

El valor esperado y la varianza en una distribucin exponencial est dada por:

Ejemplo:

Se ha comprobado que el tiempo de vida de cierto tipo de marcapasos sigue una distribucin
exponencial con media de 8 aos. Cul es la probabilidad de que a una persona a la que se le ha
implantado este marcapasos se le deba reimplantar otro antes de 10 aos?

Sea X la variable aleatoria que mide la duracin de un marcapasos en una persona, entonces, si el
valor esperado est dado por:

Entonces, despejando para , tenemos:

La probabilidad de que el marcapasos dure menos de 10 aos, est dada por la funcin de
distribucin de probabilidad:

Utilizando la frmula para cuando X sea mayor a 0, entonces:

El resultado indica que existe una probabilidad del 71.35% de que el marcapasos deba ser
cambiado antes de 10 aos de uso.

Considerando el ejemplo del marcapasos, cul sera la probabilidad de que un marcapasos en


particular tuviera que ser cambiado entre los 7 y los 9 aos de uso?

Matemticamente, se expresa:
Integrando la funcin de densidad y evaluando en x = 9 y x = 7, tenemos que:

El resultado indica que existe una probabilidad del 9.22% de que el marcapasos deba ser
cambiado cuando haya sido usado entre 7 y 9 aos.

Glosario

Funcin de Densidad: La funcin de densidad de una variable aleatoria continua representada


como f(x), se utiliza con el propsito de conocer cmo se distribuyen las probabilidades de un
suceso o evento, en relacin al resultado del suceso.

Funcin de Distribucin de Probabilidad: La funcin de distribucin asocia a cada valor de la


variable aleatoria la probabilidad acumulada hasta ese valor.

Para el caso discreto:

Para el caso continuo:

Probabilidad y estadstica
Tema 8. Distribucin normal estndar y distribuciones relacionadas

8.1 Distribucin de probabilidad normal


Fig. 8.1 Caractersticas de una distribucin normal

En una poblacin normal, la relacin entre la media aritmtica y la desviacin estndar presenta
tiene la siguiente estructura:

68.25 % de los puntos estn a una distancia de +-1 desviacin estndar de la media.
95.45 % de los puntos estn a una distancia de +-2 desviaciones estndar de la media.
99.73 % de los puntos estn a una distancia de +-3 desviaciones estndar de la media.
99.99966 % de los puntos estn a una distancia de +-6 desviaciones estndar de la media,
que representa el estndar de calidad para Seis Sigma.

Grficamente, la relacin entre la media y la desviacin estndar en una distribucin de


probabilidad se representa de la siguiente forma:

Fig. 8.2 Relacin entre la media y la desviacin estndar

Lo anterior significa que si tomamos un elemento de la poblacin cuyo comportamiento sea normal,
tenemos 68.25% de posibilidades de que sea un elemento que est en promedio entre ms y
menos una desviacin estndar con respecto a la media.

Ejemplo:

Una prueba de duracin realizada a un gran nmero de pilas alcalinas revel que la duracin
media para un uso especfico antes de que falle es de 19 horas. La distribucin de las duraciones
aproxima a una distribucin normal con una desviacin estndar de 1.2 horas.

De lo anterior, podemos afirmar:

Aproximadamente el 68.25% de las bateras fall entre 17.8 horas y 20.2 horas (ms
menos una desviacin estndar).
Aproximadamente el 95.45% de las bateras fall entre 16.6 horas y 21.4 horas (ms
menos dos desviaciones estndar).
Aproximadamente el 99.73% de las bateras fall entre 15.5 horas y 22.6 horas (ms
menos tres desviaciones estndar).

Distribucin probabilstica normal estndar

Cada distribucin normal estndar tiene una media y una desviacin estndar diferente. Por tanto,
el nmero de distribuciones normales es ilimitado y resultara fsicamente imposible proporcionar
una tabla de probabilidades para cada combinacin de media y desviacin estndar.

Podemos utilizar un elemento de la familia de distribuciones normales para todos los casos donde
la distribucin normal resulte aplicable, tiene una media igual a 0 y una desviacin estndar igual a
1.

Para utilizar la distribucin normal estndar en un problema con una poblacin que se distribuye
normalmente, primero se convierte la distribucin en estudio a una distribucin normal estndar, es
decir, se le aplica una estandarizacin, utilizando el Valor Z.

Una vez estandarizada, podemos buscar la probabilidad del valor Z en la tabla del rea bajo la
curva normal. La tabla considera que el valor de Z empieza en 0 y contina hacia la derecha.
Debido a que la mayora de las observaciones est a 3 desviaciones estndar, los valores de
probabilidad de Z que podemos encontrar estn en el rango de 0 al 3.09.

Veamos el siguiente ejemplo: Si obtenemos un valor de Z = 1.96, el rea bajo la curva a obtener, y
por tanto la probabilidad del valor la probabilidad, buscaremos un valor de acuerdo a la grfica 8.2:
Fig. 8.3 rea bajo la curva para un valor de Z = 1.96

El valor de Z se obtiene de la tabla de distribucin normal estndar, que tiene la siguiente


estructura:

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359
0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0754
0.2 0.0793 0.0832 0.0871 0.091 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141
0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.148 0.1517
0.4 0.1554 0.1591 0.1628 0.1664 0.17 0.1736 0.1772 0.1808 0.1844 0.1879

0.5 0.1915 0.195 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224
0.6 0.2258 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2518 0.2549
0.7 0.2580 0.2612 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852
0.8 0.2881 0.2910 0.2939 0.2967 0.2996 0.3023 0.3051 0.3079 0.3106 0.3133
0.9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.334 0.3365 0.3389

1.0 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621
1.1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830
1.2 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.398 0.3997 0.4015
1.3 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177
1.4 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319

1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.443 0.4441
1.6 0.4452 0.4463 0.4474 0.4485 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545
1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633
1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4700 0.4706
1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4762 0.4767

2.0 0.4773 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817
2.1 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.485 0.4854 0.4857
2.2 0.4861 0.4865 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890
2.3 0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916
2.4 0.4918 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936

2.5 0.4938 0.494 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952
2.6 0.4953 0.4955 0.4956 0.4957 0.4959 0.496 0.4961 0.4962 0.4963 0.4964
2.7 0.4965 0.4966 0.4967 0.4968 0.4969 0.497 0.4971 0.4972 0.4973 0.4974
2.8 0.4974 0.4975 0.4976 0.4977 0.4977 0.4978 0.4979 0.4980 0.4980 0.4981
2.9 0.4981 0.4982 0.4983 0.4983 0.4984 0.4984 0.4985 0.4985 0.4986 0.4986

3.0 0.4987 0.4987 0.4987 0.4988 0.4988 0.4989 0.4989 0.4989 0.4990 0.4990

Para encontrar el valor de probabilidad para una Z = 1.96, buscamos primero en la columna Z,
donde localizamos el valor 1.9. Recorremos por la fila 1.9 entre las columnas hasta encontrar el
0.06, pues 1.9 ms 0.06 da el valor 1.96 que estamos buscando.

En la unin de la fila 1.9 y la columna 0.06, encontramos el valor 0.4750, que representa el rea
bajo la curva desde 0 hasta 1.96 en la distribucin de probabilidad.

Ejemplo:

En una empresa de consultora se est evaluando el esquema de compensaciones de los


programadores. El estudio revela la siguiente informacin:

El sueldo promedio de un programador es de 1,000 pesos diarios.


La desviacin estndar es de 100 pesos diarios.

Se desea conocer:

a. Cul es la probabilidad un programador seleccionado al azar obtenga un sueldo entre 790


y 1000 pesos diarios?
b. Qu porcentaje de los ejecutivos tienen ingresos de 1245 o ms?
c. Cul es el sueldo por debajo del que se encuentra el 30% de los programadores?

a. Para el primer caso, calculamos el valor de Z para 790.

Dado que la curva es simtrica, podemos obtener el valor de Z = 2.10 de la tabla de la distribucin
normal estndar, cuyo valor es de 0.4821. Como se muestra en la figura 8.4, el rea bajo la curva
est dado por:
Fig. 8.4 rea bajo la curva para un valor de Z = 2.1

Lo anterior nos dice que existe una probabilidad del 48.21% de que un programador seleccionado
al azar obtenga un sueldo entre 790 y 1000 pesos diarios.

Para la segunda pregunta, determinar el porcentaje de los ejecutivos tienen ingresos de 1245 o
ms, es necesario determinar el rea entre la media de 1000 y una X de 1245.

Observando la grfica, determinamos el rea de inters:

Fig. 8.5, rea bajo la curva para los sueldos mayores de 1245

Consultando la tabla para Z = 2.45 en la tabla de distribucin normal, observamos:


z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07
2.0 0.4773 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808
2.1 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.485
2.2 0.4861 0.4865 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884
2.3 0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911
2.4 0.4918 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932

Dado que buscamos mayores a 1245, entonces al valor encontrado lo restamos de 0.5, lo que nos
da un valor de 0.0071. Esto quiere decir que el 0.71% de los programadores ganan arriba de los
1245 pesos diarios.

Para el ltimo punto, en donde se desea saber el sueldo diarios por debajo del que se encuentra el
30% de los programadores, veremos primero en la grfica dnde se encuentra el 30% ms a la
izquierda de la curva normal estndar:

Fig. 8.6, rea bajo la curva para el 30% con menor sueldo

Dado que la grfica es simtrica, obtenemos el punto en donde la probabilidad es el 0.2000 para la
tabla de la distribucin de probabilidad normal.

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06


0.0 0.000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239
0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636
0.2 0.0793 0.0832 0.0871 0.091 0.0948 0.0987 0.1026
0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406
0.4 0.1554 0.1591 0.1628 0.1664 0.17 0.1736 0.1772

0.5 0.1915 0.195 0.1985 0.2019 0.2054 0.2088 0.2123


0.6 0.2258 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454

En la tabla no existe una Z donde el valor exacto sea 0.2000. Se seleccionan los dos puntos ms
cercanos al valor buscado y determinamos nuestro valor de Z como 0.525. Como nos interesa el
lado izquierdo de la curva, entonces el valor de Z es de -0.525:

Despejando para X:

Resolviendo la ecuacin:

Lo anterior significa que el 30% de los programadores ganan menos de 947.5 pesos diarios.

8.2 Aproximacin de Normal a Binomial

En la distribucin de probabilidad binomial pueden construirse tablas de distribucin parecidas a la


tabla de distribucin normal. Sin embargo, mientras el tamao de la muestra va en aumento, el
generar una distribucin de probabilidades tomara mucho tiempo.

Una caracterstica hasta ahora no mencionada, es que en una distribucin binomial, al aumentar el
tamao de la muestra, se acerca a una distribucin de probabilidad normal.

Ejemplo:

En una pizzera se realiz un estudio en donde se descubri que el 70% de sus clientes nuevos
vuelven una segunda ocasin. En una semana en la que 80 clientes nuevos cenaron en el
establecimiento, cul es la probabilidad de que regresen 60 o ms en otra ocasin?

Debido a que estamos aproximando una distribucin discreta a una distribucin continua, es
necesario hacer un ajuste llamado factor de correccin de continuidad. Esto obliga a restar 0.5 al
valor que estamos buscando, es decir, 60 0.5 = 59.5.

Consideremos lo siguiente:

Obtenemos el valor de Z para 60 clientes:


Obtenemos el valor del rea bajo la curva para Z = 0.85:

Fig. 8.7 rea bajo la curva para un valor de Z = 0.85

Debido a que buscamos la probabilidad de que regresen 60 o ms clientes, lo que nos interesa es
el valor de la probabilidad del z = 0.85 en adelante. Tambin sabemos que el rea bajo la curva de
cada mitad es de 0.5, entonces:

El resultado indica que existe un 19.77% de probabilidades de regresen 60 o ms clientes de los


80 clientes nuevos que visitaron la pizzera.

8.3 Distribuciones relacionadas a la distribucin normal

Distribucin de probabilidad de Weibull

La distribucin de Weibull se aplica en los anlisis de fiabilidad para establecer, por ejemplo, el
periodo de vida de un componente hasta que presenta una falla. La distribucin de Weibull es til
por su habilidad para simular un amplio rango de distribuciones como la distribucin de
probabilidad normal y la distribucin de probabilidad exponencial.

La funcin de distribucin de probabilidad de Weibull est dada por:


Grficamente, la distribucin de Weibull tiene la siguiente forma:

Fig. 8.8 Grfica de la distribucin Weibull

Ejemplo:

Una cermica diseada tiene un mdulo de Weibull = 9. La resistencia a la flexin estndar es de


269.4 MPa y se desea saber cul es la probabilidad de que la resistencia de la cermica falle a los
250?

Consideremos lo siguiente:

Aplicando la frmula, tenemos que:


Esto significa, que existe una probabilidad del 40% de que la cermica falle con una presin de
250MPa.

Distribucin de probabilidad Lognormal

La distribucin lognormal tiene dos parmetros:


La funcin de distribucin de probabilidad Lognormal est dada por:

Grficamente, la distribucin de LogNormal tiene la siguiente forma:


Fig. 8.8 Grfica de la distribucin Log Normal

Ejemplo:

En un estudio realizado en maquinaria pesada, se encontr en promedio las mquinas fallan a los
2.32 aos de uso continuo, con una desviacin estndar de 0.45. Suponiendo que sigue una
distribucin Lognormal, cul es la probabilidad de que una mquina en especfico dure 8 aos o
menos?

Considerando:

Aplicando la frmula:

Grficamente, tenemos:
Fig. 8.9 rea bajo la curva para fallas en 8 aos o menos

Buscamos el valor de 0.5345 en la tabla de Z y lo restamos a 0.5, pues es la cola derecha la que
estamos buscando y que es igual a la cola izquierda del valor original.

z 0.00 0.01 0.02 0.03 0.04 0.05


0.0 0.000 0.0040 0.0080 0.0120 0.0160 0.0199
0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596
0.2 0.0793 0.0832 0.0871 0.091 0.0948 0.0987
0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368
0.4 0.1554 0.1591 0.1628 0.1664 0.17 0.1736

0.5 0.1915 0.195 0.1985 0.2019 0.2054 0.2088

Debido a que el valor de Z es de 0.5345, tomamos el promedio entre las probabilidades 0.53 y
0.54, lo que da como resultado un valor de 0.20365. Al 0.5 le restamos 0.20365 y obtendremos la
probabilidad deseada, que es de 0.29635.

Esto nos dice que la probabilidad de que falle una maquinaria antes de los 8 aos en una
distribucin lognormal es de 29.63%.

Distribucin de probabilidad Beta

La distribucin de probabilidad beta es una funcin de densidad con dos parmetros definida en el
intervalo cerrado . Se utiliza frecuentemente como modelo para fracciones, como por
ejemplo: la proporcin de impurezas en un producto qumico o la fraccin de tiempo que una
maquina est en reparacin.

La funcin de distribucin de probabilidad Beta est dada por:


Un caso especial de la distribucin Beta con a = 1 y b = 1 es la distribucin de probabilidad
uniforme. Grficamente, la distribucin Beta tiene la siguiente forma:

Fig. 8.10 Grfica de la distribucin Beta

Ejemplo:

En el presupuesto familiar, la proporcin que se dedica a salud sigue una distribucin Beta con
parmetros a = 2 y b = 2. Cul es la probabilidad de que se gaste ms del 25% del presupuesto
familiar en salud?

Utilizaremos Excel para obtener la probabilidad con la funcin de distribucin Beta. Conociendo los
parmetros a y b, adems del valor de X = 25, aplicamos la frmula en Excel:

Donde:

Aplicando la frmula en Excel, tenemos:


Fig. 8.11. Aplicacin de la distribucin Beta en Excel

La frmula en Excel nos da la probabilidad acumulada menor al valor de X, en nuestro caso, solo
hay que buscar la probabilidad complemento, la cul es de 0.84375. Este resultado nos dice que
existe una probabilidad del 84.37% de que se gaste ms del 25% del presupuesto familiar en
salud,

Glosario

Factor de correccin de continuidad: El valor de 0.5 se suma o se resta a un valor seleccionado,


dependiendo del problema. Cuando una distribucin probabilstica binomial se est
aproximando por medio de una distribucin de probabilidad continua, en este caso a la distribucin
normal.
Probabilidad y estadstica
Tema 9. Experimentacin y presentacin de datos
9.1 Conceptos bsicos
Si uno revisa los diarios o escucha un juego de futbol por la televisin, se ver sometido a una gran
cantidad de cifras a las que comnmente se les denomina estadstica. Sin embargo, el estudio de
las estadsticas tiene un significado mucho ms amplio que la simple recopilacin y publicacin de
hechos y datos numricos.

La primera parte de la definicin de Estadstica se refiere a la organizacin, presentacin y anlisis


de datos numricos. A este aspecto de la estadstica se le llama Estadstica Descriptiva.

Formalmente, podemos considerar una definicin de Estadstica Descriptiva como los


procedimientos empleados para organizar y resumir conjuntos de datos numricos.

Niveles de medicin.

Existe una clasificacin que nos permite distinguir la forma en que se presentan las estadsticas,
debido principalmente a las caractersticas de los datos que se tienen o que se van a reunir.

1. Nivel nominal.

Representa el nivel ms primitivo o el ms bajo de medicin, se refiere a datos que slo


pueden clasificarse en categoras, no intervienen mediciones ni escalas, solo hay conteos
globales. La siguiente tabla es un ejemplo del nivel de medicin nominal:

Religin indicada por la poblacin por personas


con edades de 14 aos o mayores
Religin Total
Protestante 78,952,000
Catlica 30,669,000
Juda 3,868,000
Otra religin 1,545,000
Ninguna religin 3,195,000
Religin no indicada 1,104,000
Total 119,333,000

En el nivel nominal no existe un orden particular entre los grupos, puesto que se pudo haber
ordenado por el nmero de personas que practican una religin. Otra caracterstica que podemos
obtener de la tabla, es que las categoras se consideran mutuamente excluyentes, lo que significa
que una persona no podra ser protestante y al mismo tiempo no tener ninguna religin, es
decir, cada persona, objeto o medicin se incluye solamente en una categora.

Finalmente, tambin podemos observar que las categoras son exhaustivas, lo que significa que
cada individuo, objeto o medicin debe aparecer en una categora.

2. Nivel ordinal.
En el nivel ordinal, las categoras se distinguen unas de otras por tener un orden
relacionado con mejor, superior, mayor, en donde una clasificacin tiene una mejor
posicin dentro del objeto de medicin. Veamos un ejemplo:

Calificaciones de estudiantes, semestre de otoo


Calificaciones Nmero de calificaciones
Excelente 6
Muy bien 18
Bien 15
Suficiente 7
Deficiente 0

En este ejemplo, podemos ver que una calificacin Excelente es mejor que una calificacin Muy
bien.

Al igual que el nivel nominal, las categoras son mutuamente excluyentes y exhaustivas. La
principal diferencia con el nivel nominal es la relacin mayor que entre las categoras.

3. Nivel de intervalo.

La escala de medicin de intervalo incluye todas las categoras del nivel ordinal, pero adems la
distancia entre valores de la categora es constante. La siguiente tabla muestra un ejemplo de ello.

Calificaciones de examen para ingresar a una


escuela
Puntuaciones Nmero de solicitantes
90-99 42
80-89 19
70-79 7
60-69 4
Menos de 60 3

Las puntuaciones del examen se clasifican por categoras y tiene una relacin de mayor que
entre ellas. Sin embargo, tambin se puede determinar la diferencia entre estas puntuaciones
(categoras) y tales diferencias son de un tamao constante y conocido: La puntuacin 95 est 10
puntos por encima de una de 85, una puntuacin de 85 est 10 puntos por encima de una de 75 y
as sucesivamente.

4. Nivel de razn o de cociente.

Es el nivel de medicin ms alto. Tiene todas las caractersticas del nivel de intervalo: las
distancias son de un tamao conocido y constante, las categoras son mutuamente
excluyentes y exhaustivas. Existen dos diferencias entre el nivel de razn o cociente y el
nivel de intervalo:

o Los datos de nivel de razn tienen un punto cero significativo.


o La razn o cociente entre dos nmeros es significativa.

El dinero es un buen ejemplo del nivel de razn: el tener 0 pesos tiene significado: no se tiene
ningn dinero! Asimismo, si una persona gana $40,000 pesos al mes y otra persona gana $10,000
pesos al mes, la primera persona gana 4 veces ms que la segunda.

Otros ejemplos de niveles de razn, son el peso de una persona, el nmero de aos dedicados a la
enseanza y el nmero de automviles vendidos el ltimo mes.

9.2 Clasificacin y organizacin de los datos

Una distribucin de frecuencias es un mtodo estadstico til


para organizar un conjunto de observaciones en forma
significativa, basado en un agrupamiento de datos en
categoras que muestran el nmero de observaciones de cada
categora.

Ejemplo:

La gerencia de ventas de una gran empresa de construccin y


renta especializada en condominios vacacionales realiza un estudio para determinar las ofertas en
las rentas mensuales a los prximos vacacionistas. Se seleccion una muestra de 120 ofertas de
arrendamiento:

Rentas mensuales de condominios


1170 1207 1581 1277 1305 1472 1077 1319 1537 1849
1332 1418 1949 1403 1744 1532 1219 896 1500 1671
1471 1399 1041 1379 821 1558 1118 1533 1510 1760
1826 1309 1426 1288 1394 1545 1032 1289 695 803
1440 1421 1329 1407 718 1457 1449 1455 2051 1677
1119 1020 1400 1442 1593 1962 1263 1788 1501 1668
1352 1340 1459 1823 1451 1138 1592 982 1981 1091
1428 1603 1699 1237 1325 1590 1142 1425 1550 913
1470 1783 1618 1431 1557 896 1662 1591 1551 1612
1249 1419 2162 1373 1542 1631 1567 1221 1972 1714
949 1539 1634 1637 1649 1607 1640 1739 1540 2187
1752 1648 1978 640 1736 1222 1790 1188 2091 1829

De la informacin sin procesar, podemos obtener un primer par de datos de inters: El valor menor
y mayor, marcados en la tabla. Resulta tedioso en este mundo de informacin obtener informacin,
incluso el valor ms grande o el ms bajo. Una forma de resolverlo es ordenando la tabla de mayor
a menor, pero lo nico que facilitara ser precisamente encontrar los valores menor y mayor de la
tabla.

Una mejor forma de resumir las rentas mensuales de condominios es organizarlas en una
distribucin de frecuencias.
1. El primer paso es establecer un conjunto de agrupamientos denominados clases. Una
clase puede contener todas las rentas desde 600 hasta 799, inclusive. La siguiente clase
podra ser desde 800 hasta 899 inclusive, as sucesivamente.

Cada clase tiene dos lmites: un lmite inferior declarado y un lmite superior declarado. Es prctica
comn que el lmite inferior de la primera clase sea uno ligeramente menor que la primera o ms
baja observacin.

Utilizando 200 una distancia entres los lmites inferiores de las clases, stas quedaran como sigue:

Clases para la renta mensual de condominios


600 799
800 999
1000 1199
200 es la distancia entre 1200 1399
los lmites de clase inferiores
declarados 1400 1599
1600 1799
1800 1999
2000 2199

De la tabla anterior podemos definir los siguientes conceptos:

Un intervalo de clase se determina restando el lmite inferior declarado de la clase del lmite
inferior declarado de la siguiente clase. En el caso de la renta de condominios, el intervalo de
clases de 200.

El punto medio de una clase, denominado marca de clase, se determina localizando la mitad entre
los lmites declarados. Se determina sumando los lmites inferior y superior y dividiendo el total
entre dos:

Clase Marca de clase


600 799 699.5
800 999 899.5
1000 1199 1099.5
1200 1399 1299.5
1400 1599 1499.5
1600 1799 1699.5
1800 1999 1899.5
2000 2199 2099.5

Una forma prctica para obtener el intervalo de clase es utilizar la siguiente frmula:
De acuerdo a nuestro ejemplo, se decidieron formar 8 clases para clasificar la renta mensual de
condominios, entonces, el intervalo de clase est dado por:

Dado que es incmodo trabajar con un intervalo de 193.375, resulta prctico redondear el intervalo
de clase para la distribucin de frecuencias.

Recomendacin: Si no se est seguro del nmero de clases que se deban utilizar, podemos utilizar
la siguiente frmula:

Para el caso de las rentas, la aplicacin de la frmula sera:

2. El siguiente paso es llevar la cuenta de los valores de las clases y determinar cuntos
valores pertenecen a cada clase:

Clase Nmero de unidades


600 799 3
800 999 7
1000 1199 11
1200 1399 22
1400 1599 40
1600 1799 24
1800 1999 9
2000 2199 4
Total 120

Ahora podemos obtener informacin como:

La menor renta es aproximadamente 600.


La mayor se aproxima a 2200.
La mayor concentracin est entre 1400 y 1600.

Forzar las rentas a una distribucin de frecuencias ha originado prdida de informacin, pues al
organizar los datos en clases, ya no es posible sealar con exactitud valores como 692 o 1218.
Sin embargo, las ventajas de resumir en forma comprensible compensan en alto grado la
desventaja.

Puede resultar conveniente convertir las frecuencias a frecuencias de clase relativas para mostrar
el porcentaje del nmero total de observaciones en cada clase:

Clase Nmero de Frecuencia relativa


unidades
600 799 3 0.025
800 999 7 0.058
1000 1199 11 0.092
1200 1399 22 0.183
1400 1599 40 0.334
1600 1799 24 0.200
1800 1999 9 0.075
2000 2199 4 0.033
Total 120 1.00

La frecuencia relativa se obtiene dividiendo el nmero de unidades de cada clase entre el total de
observaciones:

9.3 Anlisis descriptivo de los datos

A menudo los datos sobre ingresos, edades, etc., se agrupan y presenta en forma de una
distribucin de frecuencias, por lo general resulta imposible obtener los datos originales. Si nos
interesa un valor representativo para los datos, es necesario estimarlo con base en la distribucin
de frecuencias.

Media aritmtica

Para evaluar la media aritmtica de datos agrupados, las observaciones de cada clase se
representan con la marca de clase. La media de una muestra de datos organizados en una
distribucin de frecuencias se calcula con:

Ejemplo:

Nmero de Marca de
Clase
unidades clase
600 799 3 699.5 2,098.50
800 999 7 899.5 6,296.50
1000 1199 11 1099.5 12,094.50
1200 1399 22 1299.5 28,589.00
1400 1599 40 1499.5 59,980.00
1600 1799 24 1699.5 40,788.00
1800 1999 9 1899.5 17,095.50
2000 2199 4 2099.5 8,398.00

Realizando la suma de los y dividiendo entre el total de observaciones, tenemos:

El valor de la media aritmtica obtenido a travs de datos agrupados, puede ser diferente a la
media aritmtica de la que se puede obtener de los datos originales, debido principalmente a la
prdida de informacin. De esta forma, la media aritmtica de datos agrupados slo puede
considerarse una estimacin de la media aritmtica de los datos no agrupados.

Desviacin estndar

La desviacin estndar para datos agrupados tambin es una aproximacin de la desviacin


estndar que se puede obtener de los datos originales. Por tanto, tambin en este caso estamos
hablando de una estimacin de la desviacin estndar de los datos no agrupados.

La frmula para calcular la desviacin estndar de datos agrupados, es la siguiente:

Ejemplo:

Nmero de Marca de
Clase
unidades clase
600 799 3 699.5 2,098.50 1,467,900.8
800 999 7 899.5 6,296.50 5,663,701.8
1000 1199 11 1099.5 12,094.50 13,297,902.8
1200 1399 22 1299.5 28,589.00 37,151,405.5
1400 1599 40 1499.5 59,980.00 89,940,010.0
1600 1799 24 1699.5 40,788.00 69,319,206.0
1800 1999 9 1899.5 17,095.50 32,472,902.3
2000 2199 4 2099.5 8,398.00 17,631,601.0

Realizando la sumatorias correspondientes, dividiendo entre el total de observaciones menos uno y


obteniendo la raz cuadrada, tenemos:

9.4 Representacin grfica de los datos


Los gerentes de ventas y otros ejecutivos con frecuencia necesitan tener una visin rpida de la
tendencia en ventas, precios, acciones, costos, etc. Estas tendencias pueden mostrarse utilizando
diagramas o grficas. Tres diagramas que representan de manera adecuada una distribucin de
frecuencias son el histograma, el polgono de frecuencias y el polgono de frecuencias
acumuladas.

Histograma

El histograma es uno de los medios grficos de ms fcil interpretacin. Su elaboracin se ilustra


con el ejemplo de las rentas mensuales de condominios, utilizaremos la herramienta Excel para
construir el histograma.

Primeramente capturamos la distribucin de frecuencias en Excel.

Fig. 9.1 Distribucin de frecuencias en Excel

Para generar el histograma, selecciona las columnas e inserta una grfica de columnas, tal como
se ve en la siguiente imagen:

Fig. 9.2 Insercin de histograma en Excel

Finalmente, Excel generar el histograma para la distribucin de frecuencias, como se ve en la


figura 9.3

Fig. 9.3 Histograma para la distribucin de frecuencias de la renta de condominios

La informacin obtenida a partir del histograma es evidente: la renta mensual ms baja es


aproximadamente 600, la ms elevada es aproximadamente 2200 y la mayora de las rentas est
entre 1200 y 1800. El histograma proporciona una nocin visual de fcil interpretacin.

Si se hubiera graficado las frecuencias relativas en vez de las frecuencias de clase, la forma
general de la distribucin sera muy parecida.

Polgono de frecuencias

Para la elaboracin del polgono de frecuencias, utilizaremos nuevamente la renta mensual de


condominios. A diferencia del histograma, el polgono de frecuencia necesita los puntos medios de
clase y las frecuencias de clase.

Nuevamente haremos el procedimiento en Excel. Primeramente calculamos la marca de clase para


la distribucin de frecuencias.

Fig. 9.4 Distribucin de frecuencias en Excel considerando la marca de clase

Para generar el polgono de frecuencias, selecciona las columnas e inserta una grfica de
columnas, tal como se ve en la siguiente imagen:

Fig. 9.5 Insercin de polgono de frecuencia en Excel

Finalmente, Excel generar el histograma para la distribucin de frecuencias, como se ve en la


figura 9.6
Fig. 9.6 Polgono de frecuencias para la distribucin de frecuencias de la renta de condominios.

Tanto el polgono de frecuencias como el histograma permiten obtener una imagen rpida de las
principales caractersticas de los datos: mximos, mnimos, concentracin, etc. El polgono de
frecuencias es muy til cuando se quieren comparar dos o ms distribuciones de frecuencias

Polgono de frecuencias acumuladas

Regresemos al ejemplo de los condominios. Cuntos se rentan en ms de 950 mensuales?, qu


porcentaje se renta en menos de 1500? Las respuestas a estas preguntas pueden aproximarse
desarrollando una distribucin de frecuencias acumuladas y trazando un polgono de frecuencias
acumuladas, a veces denominado ojiva. Existen dos formas:

1. Polgono de frecuencias acumuladas menor que.

Para elaborar un polgono de frecuencias acumuladas del tipo menor que, se realiza
sumando de la primera clase hasta la ltima acumulando el nmero de observaciones por
clase:

Nmero de Frecuencia
Clase
unidades acumulada
Menos de 599 0 0
Menos de 799 3 3
Menos de 999 7 10
Menos de 1199 11 21
Se suma
Menos de 1399 22 hacia 43
abajo
Menos de 1599 40 83
Menos de 1799 24 107
Menos de 1999 9 116
Menos de 2199 4 120

2. Polgono de frecuencias acumuladas mayor que.

Para elaborar un polgono de frecuencias acumuladas del tipo mayor que, se realiza
sumando desde la ltima clase hasta la primera acumulando el nmero de observaciones
por clase:

Nmero de Frecuencia
Clase
unidades acumulada
Ms de 599 3 120
Ms de 799 7 117
Ms de 999 11 110
Ms de 1199 22 99
Se suma
Ms de 1399 40 hacia 77
arriba
Ms de 1599 24 37
Ms de 1799 9 13
Ms de 1999 4 4
Ms de 2199 0 0

Realizaremos el procedimiento en Excel para el polgono de frecuencias acumuladas del tipo


menor que. Un procedimiento similar se usa para el polgono de frecuencias acumuladas del tipo
mayor que.

Fig. 9.7 Distribucin de frecuencias acumuladas menor que

Para generar el polgono de frecuencias acumuladas, selecciona las columnas e inserta una
grfica de columnas, tal como se ve en la siguiente imagen:
Fig. 9.8 Insercin de polgono de frecuencia en Excel

Finalmente, Excel generar el histograma para la distribucin de frecuencias, como se ve en la


figura 9.9

Fig. 9.9 Polgono de frecuencias menor que para la renta de condominios.

Con un procedimiento similar para un polgono de frecuencias acumuladas del tipo mayor que, se
obtendra la siguiente grfica:
Fig. 9.10 Polgono de frecuencias mayor que para la renta de condominios

Glosario

Estadstica Descriptiva: Procedimientos empleados para organizar y resumir conjuntos de datos


numricos.

Distribucin de frecuencias: Mtodo estadstico til para organizar un conjunto de observaciones


en forma significativa, basado en un agrupamiento de datos en categoras que muestran el nmero
de observaciones de cada categora

Clase: Conjunto de agrupamientos en una distribucin de frecuencias divididos por lmites


inferiores y lmites superiores.

Intervalo de clase: Diferencia entre el lmite inferior de la clase y el lmite inferior de la siguiente
clase.

Marca de clase: Punto medio de un clase.

Polgono de frecuencias acumuladas: Se utiliza cuando se desea determinar cuntas


observaciones se encuentran por encima o por debajo de ciertos valores.
Probabilidad y estadstica
Tema 10. Estadsticos muestrales y sus aplicaciones
10.1 Conceptos bsicos

Comencemos con una pregunta: Por qu muestrear la poblacin?


Algunas de las razones para ello pudieran ser:

La naturaleza de ciertas pruebas destructivas, como los


catadores de vino, las pruebas de estrs en las plantas
productivas de los nuevos, modelos, la resistencia al impacto
de un nuevo modelo de automvil.
La imposibilidad fsica de revisar todos los integrantes de una
poblacin, como una evaluacin del tamao de los peces en
todos los mares.
El costo de estudiar a toda la poblacin a menudo pudiera ser
prohibitivo o bien, el tiempo que se requiere para completar al estudio es limitado.

Para garantizar que un estudio de una poblacin basado en una muestra es vlido, la muestra
tomada de la poblacin debe ser una muestra probabilstica, lo que significa que se debe
seleccionar la muestra de modo que cada integrante de la poblacin en estudio tenga una
probabilidad conocida, diferente de cero, de ser incluido en la muestra.

Al utilizar mtodos no probabilsticos para determinar los elementos que componen una muestra
poblacional, no todos los integrantes tienen la misma probabilidad de ser incluidos. En estos casos
los resultados del estudio pueden estar sesgados.

10.2. Mtodos de muestreo probabilstico

Aunque no existe un mtodo que se considere el mejor para


seleccionar una muestra probabilstica, o un mtodo aplicable a todas
las situaciones, todos los mtodos tienen un mismo objetivo: permitir
que el azar determine los integrantes que se incluirn en la muestra.

1. Mtodo aleatorio simple.

Una muestra aleatoria simple es una muestra formulada de manera


que cada integrante de la poblacin tenga la misma probabilidad de
quedar incluido.

Ejemplo: Supongamos que de una poblacin de 845 trabajadores


se seleccionar una muestra de 52 trabajadores.

Una forma de asegurar que todos los empleados en la poblacin


tengan la misma probabilidad de ser elegidos, es escribir los nombres de todos ellos en papeletas,
depositarlos en una caja, mezclarlos y empezar a seleccionar una papeleta a la vez hasta
completar los 52 trabajadores.

Un mtodo ms adecuado para definir la muestra aleatoria es emplear el nmero de identificacin


de cada empleado y dejar que un programa obtenga nmeros aleatorios que coincidan con los
nmeros de empleados.

2. Mtodo aleatorio sistemtico.

Una muestra aleatoria sistemtica se determina ordenando los integrantes de la poblacin


alfabticamente, en un archivo segn la fecha en que se reciben o por algn otro mtodo. Despus
se selecciona al azar un punto de inicio y despus se elige cada k-simo elemento de la poblacin
para la muestra.

El problema con este tipo de mtodos es si existe un patrn predeterminado de la muestra, como
el caso de un almacn donde se tienen los artculos ordenados por el nivel de movimiento en el
mercado. Ordenarlos por rotacin reduce la aleatoriedad de la seleccin sistemtica.

3. Mtodo aleatorio estratificado.

La muestra aleatoria estratificada consiste en la separacin de la poblacin en subgrupos


denominados estratos, y se selecciona una muestra de cada estrato.
Despus de dividir la poblacin en estratos, puede seleccionarse una muestra proporcional o no
proporcional. Como su nombre lo indica, un procedimiento proporcional exige que el nmero de
elementos en cada estrato tenga la misma proporcin que se encuentra en la poblacin.

Ejemplo:

En un estudio de los gastos de propaganda de las 352 compaas ms grandes, se determinar si


las empresas que pagan altos dividendos gastan ms o menos de cada peso de ventas en
propaganda. Se dividen las compaas en estratos en aquellas que tenan un 30% o ms de
rentabilidad, aquellas con una rentabilidad entre 20% y 30% y as sucesivamente.

De las 352 empresas, se busca una muestra de 50 empresas a travs de una muestra
proporcional.

Estrato Rentabilidad Empresas Porcentaje Muestra


1 Mayor a 30% 8 2 1
2 De 20 a 30% 35 10 5
3 De 10 a 20% 189 54 27
4 De 0 a 10% 115 33 16
5 Dficit 5 1 1
Total 352 100 50

Tabla 10.1 Muestreo aleatorio estratificado con muestra proporcional

4. Mtodo de muestreo conglomerado.

Empleado comnmente para reducir el costo de muestrear una poblacin dispersa en un rea
geogrfica grande. Por ejemplo, si se desea hacer una encuesta respecto a las polticas estatales
acerca del medio ambiente, se subdividen las regiones del estado en reas pequeas comnmente
llamados municipios.

De las reas pequeas se seleccionan ciertas reas al azar y se concentran los esfuerzos de
muestreo en las reas seleccionadas.

Aunque la seleccin de la muestra poblacional sea lo ms aleatoria posible y garantiza que cada
miembro de la poblacin haya tenido la misma probabilidad de haber sido incluido, es poco
probable que la media muestral sea idntica a la media poblacional. De igual forma, la desviacin
estndar calculada a partir de la muestra, probablemente no ser la exactamente igual al valor
correspondiente de la poblacin.

A la diferencia entre una estadstica de muestra y su parmetro poblacional correspondiente se le


denomina error de muestreo, atribuible simplemente al azar.

10.3 Estadsticos muestrales


Un estadstico muestral es una medida cuantitativa calculada a partir de una muestra aleatoria,
cuyo objetivo es estimar una medida cuantitativa poblacional.

Media muestral

La medida de tendencia central de uso ms amplio es la llamada media aritmtica. Para datos
originales o no agrupados, lamedia es la suma de todos los valores dividida entre el nmero total
de valores. A fin de obtener la media de una muestra, se usa la siguiente frmula:

Matemticamente, se expresa de la siguiente forma:

Ejemplo:

Los pesos netos en gramos de cinco envases de un perfume, seleccionados en forma aleatoria de
la lnea de produccin son: 84.4, 85.3, 84.9, 85.4 y 85.0. Cul es la media de las observaciones
muestrales de los pesos de los envases?

Consideremos:
Matemticamente, se expresa:

La media aritmtica muestral de los pesos de los envases es de 85.2 gramos.

Varianza muestral.

La frmula para calcular la media poblacional y la media muestral es prcticamente la misma, slo
cambia la forma en que representamos la media aritmtica y, por encima de todo, la forma en que
se interpreta el resultado.

En el caso de la varianza muestral, la conversin de la frmula poblacional a la muestral no es tan


directa. Se debe hacer una ligera modificacin en el denominador. La frmula de la varianza
muestral como estimador de la varianza poblacional es la siguiente:

Por qu la diferencia en el denominador?, por qu dividir entre n 1 en lugar de dividir entre n?


Puede demostrarse que si se hubiera calculado la varianza muestral utilizando solo n en el
denominador, el resultado subestimara la varianza poblacional.

Dado que se usa en lugar de , el total de valores utilizados en el numerador es muy pequeo.
Al dividir entre n 1 en vez de n, se compensa la subestimacin en el numerador. De esta
manera, se considera un estimador insesgado de la varianza poblacional.

Ejemplo:

Los sueldos por hora en una muestra de trabajadores de medio tiempo son: $2, $10, $6, $8 y $9.
Cul es la varianza poblacional?

Consideremos el clculo de la media muestral:


Para obtener la varianza poblacional, tenemos:

Sueldo por hora


$2 -5 25
$ 10 3 9
$6 -1 1
$8 1 1
$9 2 4
Total 0 40

Utilizando la frmula de la varianza muestral, se obtiene:

Esto indica que el estimador de la varianza poblacional, la varianza muestral de los sueldos por
hora es de 10.

Desviacin estndar muestral

La desviacin estndar muestral se utiliza como un estimador de la desviacin estndar


poblacional. De manera semejante, la desviacin estndar muestral es la raz cuadrada de la
varianza muestral. Matemticamente, se expresa as:
Ejemplo:

La varianza muestral del ejemplo anterior para los sueldos por hora se calcul como 10. Cul es
la desviacin estndar de la muestra? La desviacin estndar muestral es de $3.16, obtenida de la
raz cuadrada de 10.

10.4 Propiedades de un estadstico muestral.

Para usar un estimador muestral como un estimador puntual de una poblacin, debe cumplir con
ciertas caractersticas o propiedades:

Estadstico muestral insesgado. Se dice que un estadstico muestral es insesgado cuando


el valor esperado del estadstico muestral es igual al estadstico poblacional.

Eficiencia de un estadstico muestral. Un estadstico muestral es eficiente cuando el error


estndar del estadstico sea igual a 0. Suponga que se usa una muestra aleatoria simple
de n elementos para obtener dos estadsticos muestrales insesgados. Se dice que un
estadstico es ms eficiente que otro, cuando su error estndar es menor.

Consistencia de un estadstico muestral. Se dice que un estadstico muestral es


consistente si su valor tiende a estar ms cerca del parmetro poblacional a medida que
aumenta el tamao de la muestra.

Suficiencia de un estadstico muestral.

Un concepto de reciente introduccin es el de la suficiencia de un estadstico, fue introducido en


1922 por el cientfico ingls Ronald Fisher.

10.5 Aplicaciones de los estadsticos muestrales

Estimacin puntual.
La estimacin puntual utiliza los estadstico muestrales para determinar el valor de un parmetro
desconocido de una poblacin. Por ejemplo, cuando se utiliza la media muestral para estimar la
media de una poblacin, o bien, para estimar la desviacin estndar poblacional a travs de la
desviacin estndar muestral.

Pruebas de hiptesis.

Las prueba de hiptesis son procedimientos basados en la evidencia muestral y en la teora de


probabilidad empleada para determinar si la teora de un enunciado es razonable y no debe
rechazarse, o si es irrazonable y debe ser rechazada.

En los siguientes temas veremos ms detalladamente los temas de estimacin puntual y pruebas
de hiptesis

Glosario

Estadstico: Caracterstica medible significativa de una muestra.

Muestra probabilstica: Muestra que se selecciona de modo que cada integrante, de la poblacin
en estudio, tenga una probabilidad conocida de ser incluido en la muestra.

Muestra aleatoria simple: Muestra formulada de manera que cada integrante de la poblacin, tenga
la misma probabilidad de quedar incluido.

Muestra aleatoria sistemtica Los integrantes de la poblacin se ordenan por algn mtodo y se
selecciona al azar un punto de inicio; despus se elige cada k-simo elemento de la poblacin para
la muestra.

Muestra aleatoria estratificada: Dividir la poblacin en subgrupos denominados estratos y se


selecciona una muestra de cada estrato.
Probabilidad y estadstica
Tema 11. Estimadores puntuales y de intervalo
11.1 Estimacin puntual

Los cientficos dedicados a la conservacin de los recursos naturales calculan el peso promedio y
otras caractersticas de la poblacin de peces o presas de caza a travs de varios dispositivos. Con
base en los datos muestrales, una persona puede estimar que el peso promedio del salmn que se
pesca en algn lago del pas es de 2.5 Kg.

El peso promedio del salmn es una estimacin de un parmetro poblacional desconocido, pues es
prcticamente imposible que podemos identificar y medir toda la poblacin de salmones, pues sta
cambia constantemente debido al nacimiento de nuevos salmones o bien, precisamente a la pesca
o eliminacin natural de los mismos.

Por ejemplo, la media muestral es el mejor estimador de la media poblacional . Como


revisamos el tema pasado, la media muestral se calcula como:

Ejemplo:

Se realiza un estudio sobre la potencia en arranque fro de bateras o acumuladores de 12 V para


estimar el nmero de veces que un motor con desplazamiento de 444 cm3 arrancar antes de que
falle la batera. Una muestra de 40 dispositivos seleccionados dio los siguientes nmeros de
arranques:

Valores negociados
26 27 26 20 21 42 30 22
22 21 26 9 21 22 28 26
19 16 20 32 18 23 32 28
21 41 19 31 21 22 16 23
30 21 37 28 39 30 21 23

Cul es la mejor estimacin del nmero de la media poblacional de arranques?

La media poblacional del nmero de arranques en fro para acumuladores de 12 V, estimada a


travs de la media muestral es de 25 arranques.
Otros estimadores puntuales de una poblacin son la varianza muestral y la desviacin estndar,
calculadas como:

Propiedades de un estimador puntual.

Un estimador puntual de una poblacin presenta las siguientes propiedades:

Estimador insesgado. Se dice que un estadstico muestral es insesgado, cuando el valor


esperado del estadstico muestral es cercano al estadstico poblacional. Matemticamente:
Si un estimador es insesgado, entonces:

De lo anterior se desprende que un estimador es asintticamente insesgado, si su posible sesgo


tiende a cero al aumentar el tamao de la muestra.

Eficiencia de un estimador. Sean y dos estimadores insesgados de un parmetro


desconocido , decimos que es ms eficiente que si:

Estimador consistente. Un estimador asintticamente insesgado, cuya varianza tiende a


cero al aumentar el tamao de la muestra, es un estimador consistente.

Estimador suficiente. Un estimador es suficiente cuando no da lugar a prdida de


informacin, es decir, cuando la inferencia basada en es tan buena como si la
estimacin se hubiera hecho sobre la poblacin.

11.2 Estimacin de Intervalo

La estimacin de intervalo expresa la amplitud dentro de la cual. probablemente se encuentra un


parmetro poblacional. El intervalo en el que se espera est el valor real del parmetro poblacional
se le denomina intervalo de confianza.

Por ejemplo, el intervalo de confianza para la media poblacional es el intervalo que tiene una
mayor probabilidad de contener la media poblacional . Se utilizan con frecuencia dos intervalos de
confianza para la media poblacional: el intervalo de confianza de 95% y el intervalo de confianza
de 99%.

El intervalo de confianza de 95% indica que el 95% de las medias muestrales de un


tamao de muestra especfico seleccionadas de una poblacin, se hallar dentro de ms o
menos 1.96 desviaciones estndares de la media poblacional hipottica.
El intervalo de confianza de 99% indica que el 99% de las medias muestrales de un
tamao de muestra especfico seleccionadas de una poblacin, se hallar dentro de ms o
menos 2.58 desviaciones estndares de la media poblacional hipottica.

Fig. 11.1 Intervalo de confianza de 95% y de 99% para

De dnde provienen los valores de 1.96 y 2.58? Veamos el caso del valor 1.96: el 95% central de
las medias muestrales se encuentra en cualquiera de los lados de la media poblacional, y
lgicamente, 0.95 / 2 = 0.4750. Entonces, el rea a la derecha de la media es de 0.4750, el rea a
la izquierda de la media tambin es de 0.4750. Utilizamos la tabla de la distribucin normal
estndar para obtener el valor de 0.4750:

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.443 0.4441
1.6 0.4452 0.4463 0.4474 0.4485 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545
1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633
1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4700 0.4706
1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4762 0.4767

De esta forma, el valor a la izquierda de la media es de -1.96 y el valor a la derecha de la media es


de 1.96, como se muestra en el siguiente diagrama. Se utiliza el mismo procedimiento para
determinar 2.58.
Fig. 11.2 Determinacin de z para el intervalo de confianza de 95%

11.3 Error estndar de la media

Para elaborar un intervalo de confianza, primero es necesario calcular el error estndar de la


media.

El error estndar de la media se calcula mediante la siguiente frmula:


Como se ve en la frmula del error estndar de la media, sta supone conocida la desviacin
estndar de la poblacin . Si no se conoce y el tamao de la muestra es mayor o igual a 30 (se
considera una muestra grande), la desviacin estndar de la muestra, denotada por s, sirve para
aproximar la desviacin estndar de la poblacin. Entonces la frmula para el error estndar queda
expresada de la siguiente forma:

El error estndar de la media variar de acuerdo con el tamao de la muestra. A medida que se
aumenta el tamao de la muestra, la variabilidad de las medias muestrales se vuelve cada vez ms
pequea, lo que cumple con el principio de consistencia de un estimador puntual.

11.4 Elaboracin de intervalos de confianza

Los intervalos de confianza se establecen como:


Intervalo de confianza de 95%

Intervalo de confianza de 99%

Ejemplo:

En un experimento se trata de seleccionar una muestra aleatoria de 256 administradores o


gerentes para el estudio. Un elemento de inters es su ingreso mensual. La media muestral se
calcula como $ 35,420 pesos y la desviacin estndar de la muestra es de $ 2,050 pesos.

Cul es el ingreso medio estimado de todos los administradores y gerentes?

El ingreso medio estimado de la poblacin es de $ 35,420. Lo anterior debido a que la media


muestral es un estimador puntual de la media poblacional.

Cul es el intervalo de confianza de 95%?

Considerando la frmula, tenemos:

El intervalo de confianza de 95% para el ingreso mensual de todos los administradores y gerentes
es entre $35,168.87 y $35,671.13.

Interpretacin:

Si hubiera que seleccionar 100 muestras de tamao 256 de la poblacin de administradores para
calcular las medias muestrales y los intervalos de confianza, la media poblacional del ingreso
mensual se encontrara en 95 de los 100 intervalos de confianza y 5 de los 100 intervalos de
confianza no contendran a la media poblacional.

Intervalo de confianza de una proporcin.

La estimacin puntual para una proporcin de la poblacin, se obtiene dividiendo el nmero de


xitos en la muestra entre el tamao de la muestra. Para calcular el intervalo de confianza de una
proporcin, se utiliza la siguiente frmula:
Ejemplo:

Supongamos que 1600 de 2000 electores empadronados que se muestrean dijeron que planean
votar por el candidato oficial para gobernador. Si se utiliza un grado de confianza de 0.95, cul es
la estimacin de intervalo para la proporcin de la poblacin?

Sabemos que 1600 de 2000 electores votarn por el candidato oficial, por lo tanto, la proporcin de
electores es:

Utilizando la frmula para calcular el intervalo de confianza, tenemos:

El intervalo de confianza para la proporcin de votantes que votarn por el candidato oficial es
entre 78.247 % y 81.753 %

Glosario:

Estimacin puntual: Nmero (denominado punto) que se utiliza para estimar un parmetro
poblacional.

Estimacin de intervalo: Amplitud dentro de la cual probablemente se encuentra un parmetro


poblacional.

Intervalo de confianza: Intervalo dentro del que se espera est un parmetro poblacional.

Error estndar de la media: Desviacin estndar de la distribucin muestral de las medias


muestrales.
Probabilidad y estadstica
Tema 12. Distribuciones de muestreo
12.1 Distribucin muestral de medias
En una poblacin de cinco trabajadores de produccin se tienen las siguientes tasas de
produccin:

Tasa de produccin
97
103
96
99
105

Si seleccionamos muestras aleatorias de dos trabajadores cada una y obtenemos la media de la


muestra como un estimador puntual de la media la poblacin, cada muestra tender a tener una
media muestral distinta:

Muestra Media muestral


97 y 105 101
103 y 96 99.5
99 y 97 98

Cada una de las medias muestrales se calcula como:

Para el primer caso, donde los valores para la muestra son 97 y 105, la media muestral es:
Como podemos observar los diferentes valores obtenidos de las medias muestrales para cada
muestra varan, qu comportamiento podemos observar de ello?

Para ilustrar mejor el concepto, veamos un ejemplo:

Ejemplo:

Una empresa industrial tiene siete trabajadores de produccin, considerados como la poblacin. La
retribucin (salario por hora) de cada empleado se presenta en la siguiente tabla:

Trabajador Salario por hora


Javier $ 7.00
Ral $ 9.00
Susana $ 8.00
Berta $ 8.00
Juan $ 7.00
Aurora $ 8.00
Carlos $ 9.00

La media de la poblacin est dada por:

Esto indica, que el salario promedio de la poblacin de trabajadores de la empresa es de $ 8.00


pesos por hora.

Para construir una distribucin muestral de medias se tomaron muestras de tamao 4. Para
calcular el total de distintas muestras posibles utilizamos la frmula de las combinaciones:

Para una n = 7 y r = 4, tenemos:


Existen 35 formas de obtener muestras de tamao 4 de una poblacin de 7. Se realiz el clculo
de la media muestra para cada una de estas muestras y se obtuvo:

Nombres Salarios Media muestral


Javier, Ral, Susana, Berta $ 7.00, $ 9.00, $ 8.00, $ 8.00 $ 8.00
Javier, Ral, Susana, Juan $ 7.00, $ 9.00, $ 8.00, $ 7.00 $ 7.75
Javier, Ral, Susana, Aurora $ 7.00, $ 9.00, $ 8.00, $ 8.00 $ 8.00
Javier, Ral, Susana, Carlos $ 7.00, $ 9.00, $ 8.00, $ 9.00 $ 8.25
Javier, Ral, Berta, Juan $ 7.00, $ 9.00, $ 8.00, $ 7.00 $ 7.75
Javier, Ral, Berta, Aurora $ 7.00, $ 9.00, $ 8.00, $ 8.00 $ 8.00
Javier, Ral, Berta, Carlos $ 7.00, $ 9.00, $ 8.00, $ 9.00 $ 8.25
Javier, Ral, Juan, Aurora $ 7.00, $ 9.00, $ 7.00, $ 8.00 $ 7.75
Javier, Ral, Juan, Carlos $ 7.00, $ 9.00, $ 7.00, $ 9.00 $ 8.00
Javier, Ral, Aurora, Carlos $ 7.00, $ 9.00, $ 8.00, $ 9.00 $ 8.25
Javier, Ral, Berta, Juan $ 7.00, $ 9.00, $ 8.00, $ 7.00 $ 7.75
Javier, Ral, Berta, Aurora $ 7.00, $ 9.00, $ 8.00, $ 8.00 $ 8.00
Javier, Ral, Berta, Carlos $ 7.00, $ 9.00, $ 8.00, $ 9.00 $ 8.25
Javier, Ral, Juan, Aurora $ 7.00, $ 9.00, $ 7.00, $ 8.00 $ 7.75
Javier, Ral, Juan, Carlos $ 7.00, $ 9.00, $ 7.00, $ 9.00 $ 8.00
Javier, Ral, Aurora, Carlos $ 7.00, $ 9.00, $ 8.00, $ 9.00 $ 8.25
Javier, Berta, Juan, Aurora $ 7.00, $ 8.00, $ 7.00, $ 8.00 $ 8.50
Javier, Berta, Juan, Carlos $ 7.00, $ 8.00, $ 7.00, $ 9.00 $ 7.75
Javier, Berta, Aurora, Carlos $ 7.00, $ 8.00, $ 8.00, $ 9.00 $ 8.00
Javier, Juan, Aurora, Carlos $ 7.00, $ 7.00, $ 8.00, $ 9.00 $ 7.75
Ral, Susana, Berta, Juan $ 9.00, $ 8.00, $ 8.00, $ 7.00 $ 8.00
Ral, Susana, Berta, Aurora $ 9.00, $ 8.00, $ 8.00, $ 8.00 $ 8.25
Ral, Susana, Berta, Carlos $ 9.00, $ 8.00, $ 8.00, $ 9.00 $ 8.50
Ral, Susana, Juan, Aurora $ 9.00, $ 8.00, $ 7.00, $ 8.00 $ 8.00
Ral, Susana, Juan, Carlos $ 9.00, $ 8.00, $ 7.00, $ 9.00 $ 8.25
Ral, Susana, Aurora, Carlos $ 9.00, $ 8.00, $ 8.00, $ 9.00 $ 8.50
Ral, Berta, Juan, Aurora $ 9.00, $ 8.00, $ 7.00, $ 8.00 $ 8.00
Ral, Berta, Juan, Carlos $ 9.00, $ 8.00, $ 7.00, $ 9.00 $ 8.25
Ral, Berta, Aurora, Carlos $ 9.00, $ 8.00, $ 8.00, $ 9.00 $ 8.50
Ral, Juan, Aurora, Carlos $ 9.00, $ 7.00, $ 8.00, $ 9.00 $ 8.25
Ral, Berta, Juan, Aurora $ 9.00, $ 8.00, $ 7.00, $ 8.00 $ 8.00
Susana, Berta, Juan, Carlos $ 8.00, $ 8.00, $ 7.00, $ 9.00 $ 8.00
Susana, Berta, Aurora, Carlos $ 8.00, $ 8.00, $ 8.00, $ 9.00 $ 8.25
Susana, Juan, Aurora, Carlos $ 8.00, $ 7.00, $ 8.00, $ 9.00 $ 8.00
Berta, Juan, Aurora, Carlos $ 8.00, $ 7.00, $ 8.00, $ 9.00 $ 8.00

A partir de la tabla anterior podemos deducir:

La media de la distribucin muestral:

La media de la distribucin muestral para el salario promedio de la poblacin de trabajadores de la


empresa es de $ 8.00 pesos por hora.

Ahora construiremos la distribucin de media para las muestras de los salarios de los trabajadores
con un tamao de muestra igual a 4.

Media muestral Nmero de ocurrencias Probabilidad

$7.50 3

$ 7.75 8

$ 8.00 13

$ 8.25 8

$ 8.50 3

Total 35

Con esta distribucin de probabilidad de muestras de medias, utilizando Excel podemos obtener la
grfica de la distribucin:
Fig. 12.1. Captura de distribucin de probabilidad en Excel

Para generar la grfica, selecciona las columnas e inserta una grfica de columnas, tal como se ve
en la siguiente imagen:

Fig. 12.2. Seleccin del tipo de grfica a insertar

Ajustamos los datos del cuadro de dilogo de acuerdo a la siguiente figura:


Fig. 12.3. Distribucin de probabilidad de muestras de medias

Observando la grfica 12.1, podemos observar que la distribucin de medias muestrales, tiende a
aproximarse a la curva normal.

12.2 Distribucin muestral de proporciones

Existen situaciones en donde se estudia una caracterstica en particular de la poblacin, donde el


individuo presenta o no esa caracterstica en particular. En dichas situaciones, es de gran utilidad
conocer cmo se distribuye la proporcin de n observaciones independientes, que cumplen con la
caracterstica en estudio.

Ejemplo:

En un grupo de practicantes de karate de 6 personas, considerados como la poblacin se realiza


un estudio para observar si miembros del grupo fuman o no. Se obtienen los siguientes resultados
Miembro del equipo Fuma (S/N)
Luis No
Mario Si
Juan No
Joel No
Jess Si
Esteban No

De la tabla anterior, podemos deducir que la probabilidad de que al seleccionar un miembro del
equipo de karate, ste sea un fumador est dada por:

El resultado indica que existe un 33.33% de miembros del equipo que fuman. En este caso, el valor
esperado de proporcin de fumadores es:

Para construir una distribucin muestral de proporciones se tomaron muestras de tamao 4. Para
calcular el total de de distintas muestras posibles utilizamos la frmula de las combinaciones:

Para una n = 6 y r = 4, tenemos:

Existen 15 formas de obtener muestras de tamao 4 de una poblacin de 6. Se realiz el estudio


de proporciones y se obtuvo:

Nombres Fuma (Si/No) Proporcin


Luis, Mario, Juan, Joel No, Si, No, No 0.25
Luis, Mario, Juan, Jess No, Si, No, Si 0.50
Luis, Mario, Juan, Esteban No, Si, No, No 0.25
Luis, Mario, Joel, Jess No, Si, No, Si 0.50
Luis, Mario, Joel, Esteban No, Si, No, No 0.25
Luis, Mario, Jess, Esteban No, Si, Si, No 0.50
Luis, Juan, Joel, Jess No, No, No, Si 0.25
Luis, Juan, Joel, Esteban No, No, No, No 0.00
Luis, Juan, Jess, Esteban No, No, Si, No 0.25
Luis, Joel, Jess, Esteban No, No, Si, No 0.25
Mario, Juan, Joel, Jess Si, No, No, Si 0.50
Mario, Juan, Joel, Esteban Si, No, No, No 0.25
Mario, Juan, Jess, Esteban Si, No, Si, No 0.50
Mario, Joel, Jess, Esteban Si, No, Si, No 0.50
Juan, Joel, Jess, Esteban No, No, Si, No 0.25

Ahora construiremos la distribucin de media para las muestras de los fumadores en el equipo de
karate con un tamao de muestra igual a 4.

Proporcin Nmero de ocurrencias


0.00 1
0.25 8
0.50 6

Para obtener la media o valor esperado de las proporciones muestrales de fumadores en el equipo
de karate, utilizamos la siguiente frmula:

Aplicando la frmula, obtenemos:

El resultado indica que existe un 33.33% de miembros del equipo que fuman, obtenido a travs de
una distribucin muestral de proporciones. De lo anterior podemos concluir:
Glosario

Distribucin muestral de medias: Distribucin de probabilidad que consta de una lista de todas las
medias muestrales posibles de un tamao de muestra dado de una poblacin y la probabilidad de
ocurrencia asociada con cada media muestral.

Distribucin muestral de proporciones: Conjunto de todas las muestras posibles del mismo tamao
extradas de una poblacin, junto con el conjunto de todas las proporciones muestrales.
Probabilidad y estadstica
Tema 13. Inferencia en una poblacin
13.1 Qu es una hiptesis?

Una hiptesis es un enunciado acerca del valor de un parmetro


poblacional. La razn para establecer una hiptesis es que la poblacin de
inters es tan grande que por diversas razones sera prcticamente
imposible estudiar a todos los elementos de la poblacin.

Ejemplos de este tipo de hiptesis o enunciados acerca de un parmetro


poblacional son:

El ingreso mensual medio para los ciudadanos jubilados es de


$9,930 pesos.
Se sabe que el 20% de los delincuentes juveniles finalmente son
arrestados, se les sentencia y encarcela.
El dimetro exterior medio de los cojines de bolas producidos
durante una jornada laboral es de 1.000 pulgadas.
En general, el 90% de las formas de impuesto federal de ingresos se llenan correctamente.
Las resistencias al impacto de los parabrisas que producen dos empresas industriales son
iguales.

Una alternativa a estudiar o entrevistar a la poblacin completa, es tomar una muestra de la


poblacin de inters. Dada esta premisa de la estimacin estadstica, es posible entonces probar
una afirmacin, o una hiptesis, a fin de determinar si la evidencia emprica de la poblacin
fundamenta o no la afirmacin.

Prueba de hiptesis

Supongamos que se afirma que la comisin mensual media de los vendedores de una empresa de
computadoras es de $ 20,000 pesos. Dado que no es posible entrevistar a todos los vendedores
para establecer que la media es en realidad $ 20,000 pesos, se debe seleccionar una muestra de
vendedores de computadoras, calcular estadsticas muestrales, y con base en determinadas reglas
de decisin aceptar o rechazar la afirmacin o hiptesis.

La prueba de hiptesis es un procedimiento basado en la evidencia muestral y en la teora de


probabilidad que se emplea para determinar si la hiptesis en un enunciado razonable y no debe
rechazarse, o si es irrazonable y debe ser rechazada.
13.2 Procedimiento de pruebas

Existe un procedimiento de cinco pasos que sistematiza la prueba de hiptesis; al llegar al quinto
paso, se est en la capacidad de tomar la decisin de rechazar o no una hiptesis:

Paso 1: La hiptesis nula y la hiptesis alternativa

El primer paso es plantear la hiptesis que se probar, denominada hiptesis nula o .

En trminos generales, la hiptesis nula se plantea con el objetivo de aceptarla o rechazarla, en


otras palabras, es una afirmacin que se aceptar si los datos muestrales no pueden proporcionar
evidencia convincente de que la afirmacin es falsa. Es necesario subrayar que si la hiptesis nula
se acepta con base en datos muestrales, en realidad se seala que la evidenciano permite
rechazarla; sin embargo, no es posible afirmar que la hiptesis nula es verdadera.
Para la pregunta Es la resistencia media al impacto de la placa de vidrio que se fabrica en la lnea
de produccin B de 70 psi (libra por pulgada cuadrada)?, la hiptesis nula sera: La resistencia al
impacto del vidrio no es significativamente diferente de 70 psi. Matemticamente:

La hiptesis alternativa o describe lo que se considerar si se rechaza la hiptesis nula. A menudo


se denomina tambin como hiptesis de investigacin. Para la pregunta, es la resistencia media
al impacto de la placa de vidrio que se fabrica en la lnea de produccin B de 70 psi (libra por
pulgada cuadrada)?, la hiptesis alternativa sera: La resistencia al impacto del vidrio es
significativamente diferente de 70 psi. Matemticamente:

Paso 2: Nivel de significacin.

Despus de plantear la hiptesis nula y la hiptesis alternativa, el siguiente paso es definir el nivel
de significacin o bien, la probabilidad de rechazar la hiptesis nula cuando en realidad es
verdadera.

No hay un nivel de significacin que se aplique a todos los estudios que implican muestreo. Debe
tomarse una decisin de usar el nivel de 0.05 (que a menudo se enuncia como nivel de 5%), el
nivel de 0.01, el 0.10 o cualquier nivel entre 0 y 1.

Al realizar una prueba de hiptesis, adems del riesgo de rechazar la hiptesis cuando en realidad
debe aceptarse, corremos otro tipo de riesgo: aceptar una hiptesis cuando en realidad debe
rechazarse.

Error Tipo I ( ): La probabilidad de rechazar la hiptesis nula cuando en realidad es verdadera.

Error Tipo II ( ): La probabilidad de aceptar la hiptesis nula cuando en realidad es falsa.

Ejemplo: A fin de ilustrar cmo es posible rechazar una hiptesis verdadera, supongamos que una
compaa manufactura computadoras personales y utiliza un gran nmero de tableros con circuitos
impresos. Los proveedores ofrecen precios de diversos tableros y al que presente la oferta ms
baja se le otorga un contrato. En el contrato se especifica que el departamento de calidad
muestrear todos los envos y si ms del 6% tiene defectos, se rechazar el envo.
Una muestra de 50 circuitos, revel que 4 tableros u 8%, tenan defectos. El embarque se rechaz
porque exceda el mximo de 6% de tableros defectuosos. Si la remesa era en realidad
defectuosa, entonces fue correcta la decisin de devolver los productos al proveedor. Sin embargo,
supongamos que los 4 defectuosos que se seleccionaron en la muestra de 50 eran los nicos
tableros defectuosos en el envo de 4,000 tableros. En este caso, solo el 0.1% eran defectuosos
(menos del 6%) y fue un error rechazar la remesa. Es decir, el fabricante de computadoras cometi
un error tipo I.

En la siguiente tabla se resumen las decisiones y sus consecuencias:

Hiptesis nula
Acepta Rechaza

Si es verdadera y Decisin correcta Error tipo I

Si es falsa y Error tipo II Decisin correcta

Paso 3: El estadstico de prueba.

Un estadstico de prueba es un valor determinado a partir de la informacin muestral, que se utiliza


para aceptar o rechazar la hiptesis nula.

Existen muchos estadsticos de prueba, entre los que se encuentran los estadsticos (normal
estndar), (t-student) y (Chi-cuadrada).

Paso 4: La regla de decisin.

Una regla de decisin simplemente es una afirmacin de las condiciones bajo las que se acepta o
rechaza la hiptesis nula. Para lograr esto, la distribucin muestral se divide en dos partes,
denominadas regin de aceptacin y regin de rechazo. El rea de rechazo define la ubicacin de
todos los valores posibles que son demasiado grandes o demasiado pequeos, por lo que la
probabilidad de que ocurran segn una hiptesis nula verdadera es muy remota.

Fig. 13.1: Regiones de aceptacin y de rechazo para un estadstico z con un nivel de significacin
del 5%.

De la figura 13.1, observamos que:


El rea o regin de aceptacin incluye el rea a la izquierda de 1.645.
El rea o regin de rechazo est a la derecha de 1.645.

De acuerdo a la tabla normal estndar, para un nivel de significacin de 0.05, buscamos aquel
valor de z cuyo punto es 0.4500 (0.5 + 0.45 = 0.95):

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06


1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406
1.6 0.4452 0.4463 0.4474 0.4485 0.4495 0.4505 0.4515
1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608
1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686
1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750

Dado que el valor 0.4500 est entre 1.64 y 1.65, se utiliza un valor de Z de 1.645.

Se aplica una prueba de una cola (Esto se explicar ms adelante).


Se eligi un nivel de significacin de 0.95.
La distribucin muestral pertenece al estadstico (normal estndar).
El valor 1.645 separa las regiones de aceptacin y rechazo.
El valor 1.645 se le denomina valor crtico.

Paso 5: Toma de decisin

El quinto y ltimo paso en la prueba de hiptesis es decidir si se acepta o rechaza la hiptesis nula.
Respecto al diagrama 13.1 si, con base en la informacin muestral se calcula que z es de 2.34 a
travs del estadstico de prueba, la hiptesis nula se rechaza en el nivel de significacin de 5%,
pues el 2.34 se encuentra a la derecha de 1.645, es decir, se encuentra en la regin de rechazo.
Lo anterior significa que la hiptesis nula se rechaza debido a que es muy improbable que un valor
de z tan grande se deba al azar, esto es, a una variacin muestral.

Si el valor calculado de z hubiera sido 1.645 o menor, por ejemplo 0.71, la hiptesis nula sera
aceptada. Se razonara que un valor calculado de z tan pequeo podra ser atribuido al azar, esto
es, a una variacin en el muestreo.

13.3 Pruebas de significacin de una y dos colas

En el diagrama 13.1 se aplica una prueba de una cola o extremo, es decir, la regin de rechazo
est en una de las extremidades de la curva. Una forma de determinar la ubicacin de rechazo es
observar la direccin en que apunta el signo de desigualdad en la hiptesis alternativa (ya sea < o
bien >).

Ejemplo: Las empresas desean que el rendimiento de un neumtico sea de 40,000 kilmetros en
condiciones normales de uso, por lo que se rechaza un envo si en una prueba acelerada de
duracin revela que la vida de los neumticos est significativamente por debajo de 40,000
kilmetros.

En este caso, la hiptesis nula y alternativa sera:


Matemticamente:

En este caso, dado que el signo < apunta a la regin de rechazo en la cola inferior, la prueba de
hiptesis para un nivel de significacin de 5%, mostrara la regin de rechazo y aceptacin de
acuerdo al diagrama 13.2.

Fig. 13.2: Regiones de aceptacin y de rechazo para un estadstico z con un nivel de significacin
del 5% (prueba de una cola inferior).

Ejemplo: Un productor de cajas de cereales afirma que en promedio, las cajas pesan 453 gramos.
Hay preocupacin de que las cajas de cereal se empaqueten con un peso superior a 453 gramos.

En este caso, la hiptesis nula y alternativa sera:

Matemticamente, se expresa de la siguiente manera:

En este caso, dado que el signo > apunta a la regin de rechazo en la cola superior, la prueba de
hiptesis para un nivel de significacin de 5%, mostrara la regin de rechazo y aceptacin de
acuerdo al diagrama 13.3.
Fig. 13.3: Regiones de aceptacin y de rechazo para un estadstico z con un nivel de significacin
del 5% (prueba de una cola superior).

Pruebas de dos colas

Si en la hiptesis alternativa no se especifica una direccin, se aplica una prueba de dos colas o
extremidades. Veamos un ejemplo:

En una consultora se especula que existe una diferencia entre el ingreso medio de hombres y
mujeres. El gerente est preocupado y afirma que no existe tal diferencia entres los ingresos
medios.

En este caso, la hiptesis nula y alternativa sera:

Matemticamente:

En este caso, dado que no existe una direccin del signo < o bien >, la prueba de hiptesis para un
nivel de significacin de 5%, mostrara la regin de rechazo y aceptacin de acuerdo al diagrama
13.4.
Fig. 13.4: Regiones de aceptacin y de rechazo para un estadstico z con un nivel de significacin
del 5% (prueba de dos colas).

13.4 Prueba de hiptesis para la media de una poblacin: muestras grandes

La contestacin a estas preguntas expresa una media de poblacin:

Es el ingreso medio de ejecutivos de alto nivel de $325,000 pesos?


La longitud media de las barras cortadas es de 2.000 pulgadas?
La edad media de los internos en reclusorios es menor de 40 aos?
La cantidad media que deben quienes son subscritores de tarjeta de crdito es mayor a $
10,000 pesos?
La tasa media de eficiencia de los empleados de produccin es igual a 200?

Para realizar una prueba de hiptesis para la media de una poblacin, se utiliza el estadstico z
cuando el tamao de la muestra es grande (mayores a 30). La frmula es:
Ejemplo:

Se sabe que la distribucin de las tasas de eficiencia para los trabajadores de una compaa se
distribuye normalmente con una media poblacional de 200 y una desviacin estndar poblacional
de 16. El departamento de investigacin cuestiona esta media, afirmando que es diferente de 200.

Usa el nivel de significacin del 1% y probar la hiptesis de que la media poblacional es de 200.

Paso 1: Plantear la hiptesis nula y alternativa.

Matemticamente:

Paso 2: Seleccionar el nivel de significacin.

Se utilizar un nivel de significacin de 0.01, que es , la probabilidad de cometer un error tipo I.


Es decir, la probabilidad de rechazar una hiptesis verdadera.

Paso 3: Identificar el estadstico de prueba.

El estadstico adecuado es z, pues se est analizando la hiptesis sobre una media poblacional
cuando el tamao de la muestra es grande (mayores a 30). La transformacin de los datos a
unidades estndares (valores z) permite que se usen en un gran nmero de problemas diferentes.

Paso 4: Formular la regin de decisin.

La regla de decisin se formula hallando el valor crtico de z a partir la tabla de z. Puesto que es
una prueba de dos colas, se busca la porcin de cada cola que determina la mitad del nivel de
significacin, en este caso la mitad de 0.01 es 0.005. El rea de aceptacin por consiguiente es de
0.99. De la tabla de z, buscamos el valor de z cuyo punto es 0.4950 (0.99 dividido entre 2, dada la
simetra de la curva normal)

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
2.0 0.4773 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817
2.1 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.485 0.4854 0.4857
2.2 0.4861 0.4865 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890
2.3 0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916
2.4 0.4918 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936

2.5 0.4938 0.494 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952
2.6 0.4953 0.4955 0.4956 0.4957 0.4959 0.496 0.4961 0.4962 0.4963 0.4964

Dado que el valor 0.4950 est entre 2.57 y 2.58, se utiliza un valor de Z de 2.575. Grficamente:

Fig. 13.5: Regiones de aceptacin y de rechazo para un estadstico z con un nivel de significacin
del 1% (prueba de dos colas).

Por consiguiente, la regla de decisin es: rechazar la hiptesis nula y aceptar la hiptesis
alternativa si el valor calculado de z no queda entre la regin -2.575 y + 2.575. En caso contrario,
no se rechaza la hiptesis nula.

Paso 5: Tomar la muestra y llegar a una decisin.

Se analizaron las calificaciones de eficiencia de 100 empleados de produccin y se calcul que la


media de la muestra es de 203.5. Ahora calculamos el estadstico z para evaluar la hiptesis nula.
De acuerdo a la frmula, tenemos:
Donde:

Sustituyendo en la frmula, tenemos:

Dado que 2.19 queda en la regin de aceptacin, la hiptesis nula que indica que la media
poblacional no es diferente de 200, se acepta con un nivel del 0.01 o 1%. La diferencia entre 203.5
y 200 puede atribuirse a una variacin aleatoria.

Observacin 1: Si en lugar de seleccionar el nivel de aceptacin del 0.01 hubiramos seleccionado


el nivel de 0.05, en donde los valores crticos para el nivel de 0.95 de acuerdo a la tabla z de la
normal estndar es de 1.96 (0.95 entre 2 es 0.4750). En ese caso, la hiptesis nula debi
rechazarse con un nivel del 0.05 o 5%

Fig. 13.6: Regiones de aceptacin y de rechazo para un estadstico z con un nivel de significacin
del 5% (prueba de dos colas).

Observacin 2: Supongamos que la preocupacin de los investigadores es que la tasa de


eficiencia sea mayor a 200. En este caso, con un nivel de significacin de 0.01 o 1%, el valor crtico
para el nivel de 0.99 de acuerdo a la tabla normal estndar es de 2.33 (0.99 0.5, debido a la
simetra, buscamos en las tablas de z el valor de 0.4900).
Fig. 13.7: Regiones de aceptacin y de rechazo para un estadstico z con un nivel de significacin
del 1% (prueba de una cola).

En el problema anterior, la desviacin estndar poblacional es conocida. Sin embargo, en la


mayora de los problemas es poco probable que se conozca la desviacin estndar de la
poblacin. En este caso, podemos utilizar la desviacin estndar de la muestra, como se ilustra en
el siguiente caso.

Ejemplo:

Una cadena de tiendas de autoservicio, expide su propia tarjeta de crdito. El gerente de


investigacin desea evaluar si el saldo insoluto medio mensual es mayor de $400 pesos. El nivel
de significacin se fija en 0.05. Una revisin aleatoria de 172 saldos insolutos revel que la media
muestral es de $407 pesos con una desviacin estndar de la muestra de $38. Debera concluir
el funcionario que la media poblacional es mayor que $400 pesos, o es razonable que la diferencia
de $7 entre la media muestral y poblacional se debe al azar?

Paso 1: Plantear la hiptesis nula y alternativa

Matemticamente:

Paso 2: Seleccionar el nivel de significacin.

Se utilizar un nivel de significacin de 0.05, que es , la probabilidad de cometer un error tipo I.


Es decir, la probabilidad de rechazar una hiptesis verdadera.

Paso 3: Identificar el estadstico de prueba


El estadstico adecuado es z, pues se est analizando la hiptesis sobre una media poblacional
cuando el tamao de la muestra es grande (mayores a 30). La transformacin de los datos a
unidades estndares (valores z) permite que se usen en un gran nmero de problemas diferentes.

Paso 4: Formular la regin de decisin.

La regla de decisin se formula hallando el valor crtico de z a partir la tabla de z. Puesto que es
una prueba de una cola, se busca la porcin de la cola derecha que determina la mitad del nivel de
significacin, en este caso la mitad de 0.4500.

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06


1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406
1.6 0.4452 0.4463 0.4474 0.4485 0.4495 0.4505 0.4515
1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608
1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686
1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750

Dado que el valor 0.4500 est entre 1.64 y 1.65, se utiliza un valor de Z de 1.645. Grficamente:

Fig. 13.8: Regiones de aceptacin y de rechazo para un estadstico z con un nivel de significacin
del 5% (prueba de una cola superior).

Por consiguiente, la regla de decisin es: rechazar la hiptesis nula y aceptar la hiptesis
alternativa si el valor calculado de zqueda ms all del valor crtico: 1.645. En caso contrario, no se
rechaza la hiptesis nula.

Paso 5: Tomar la muestra y llegar a una decisin.

De acuerdo a la frmula, tenemos:

Donde:
Sustituyendo en la frmula, tenemos:

Dado que 2.42 queda en la regin de rechazo, la hiptesis nula que indica que la media
poblacional es de $400 pesos, se rechaza con un nivel del 0.05 o 5%. Un valor as de grande
ocurrir menos de 5% de las veces. El gerente de investigacin rechazara la hiptesis nula de que
el saldo insoluto medio es de $400 pesos a favor de la hiptesis alternativa, que plantea que la
media es mayor a $400 pesos

13.5 Prueba de hiptesis para la media de una poblacin: muestras pequeas

La distribucin t-student fue desarrollada por William S. Gossett, un maestro cervecero de la


cervecera Guinness en Irlanda, quien la public en 1908 bajo el seudnimo de Student. A Gossett
le interesaba el comportamiento de:

Cuando s deba utilizarse como estimador de . En particular le preocupaba la discrepancia


entre s y cuando se calculaba s a partir de una muestra muy pequea. La distribucin t-
student tiene las siguientes caractersticas:

1. Como la distribucin normal, es una distribucin continua.


2. Como la distribucin normal, tiene forma de campana y simtrica.
3. No hay una distribucin t, sino una familia de distribuciones t. Todas tiene la misma media
igual a cero, pero sus desviaciones estndar difieren de acuerdo al tamao de la muestra
n.
4. La distribucin t es ms extendida y menos aguda en el centro que la distribucin normal.
(Ver grfica 13.9)

13.9 Comparacin entre la distribucin t y la distribucin z

Dado que la distribucin t es ms extendida que la distribucin z, los valores crticos de t para un
nivel de significacin dado, son mayores en magnitud que los valores crticos correspondientes
de z. Como auxiliar para determinar valores de t para diferentes tamaos de muestra de n se han
formado tablas similares a la siguiente:

Valores crticos de t
Niveles de significacin para prueba de una cola
Grados de 0.10 0.5 0.025 0.01 0.005 0.0005
libertad
(n 1) Niveles de significacin para prueba dos colas
0.20 0.10 0.05 0.02 0.01 0.001
21 1.323 1.721 2.080 2.518 2.831 3.819
22 1.321 1.717 2.074 2.508 2.819 3.792
23 1.319 1.714 2.069 2.500 2.807 3.767
24 1.318 1.711 2.064 2.492 2.797 3.745
25 1.316 1.708 2.060 2.485 2.787 3.725
26 1.315 1.706 2.056 2.479 2.779 3.707
27 1.314 1.703 2.052 2.473 2.771 3.690
28 1.313 1.701 2.048 2.467 2.763 3.674

Ejemplo:

Un estudio en una aseguradora revela que en promedio, cuesta $ 600 pesos la realizacin de
todos los trmites necesarios en un accidente automovilstico. Este costo se consider exorbitante
en comparacin con el de otras compaas aseguradoras y se instauraron medidas para abatir los
costos. A fin de evaluar el impacto de estas nuevas medidas, se seleccion aleatoriamente una
muestra de 26 demandas recientes y se realiz un estudio de costos. Se encontr que la media
muestral y la desviacin estndar de la muestra fueron $ 570 y $ 100, respectivamente. En el nivel
0.01 o 1% de significacin, hay una reduccin en el costo promedio o la diferencia entre 570 y
600 puede atribuirse al azar?

Paso 1: Plantear la hiptesis nula y alternativa.

Matemticamente:

La prueba es de una cola, ya que slo interesa si hay una reduccin en el costo. Esta desigualdad
en la hiptesis alternativa seala hacia la regin de rechazo en la cola o extremidad izquierda de la
distribucin.

Paso 2: Seleccionar el nivel de significacin.

Se utilizar un nivel de significacin de 0.01, que es , la probabilidad de cometer un error tipo I.


Es decir, la probabilidad de rechazar una hiptesis verdadera.

Paso 3: Identificar el estadstico de prueba.

El estadstico adecuado es t, pues se est analizando la hiptesis sobre una media poblacional
cuando el tamao de la muestra es pequeo (menores a 30).

Paso 4: Formular la regin de decisin.

La regla de decisin se formula hallando el valor crtico de t a partir la tabla de t. Puesto que es una
prueba de una cola, se busca la porcin de la cola izquierda en la tabla de t para un grado de
libertad de 25 (26 1):

Valores crticos de t
Niveles de significacin para prueba de una cola
Grados de 0.10 0.5 0.025 0.01 0.005 0.0005
libertad
(n 1) Niveles de significacin para prueba de dos colas
0.20 0.10 0.05 0.02 0.01 0.001
21 1.323 1.721 2.080 2.518 2.831 3.819
22 1.321 1.717 2.074 2.508 2.819 3.792
23 1.319 1.714 2.069 2.500 2.807 3.767
24 1.318 1.711 2.064 2.492 2.797 3.745
25 1.316 1.708 2.060 2.485 2.787 3.725
26 1.315 1.706 2.056 2.479 2.779 3.707
27 1.314 1.703 2.052 2.473 2.771 3.690
28 1.313 1.701 2.048 2.467 2.763 3.674

Dado que el valor 0.4500 est entre 1.64 y 1.65, se utiliza un valor de t de 1.645. Grficamente:

Fig. 13.10 Regiones de aceptacin y de rechazo para un estadstico t con un nivel de significacin
del 1% (prueba de una cola inferior)

Por consiguiente, la regla de decisin es: rechazar la hiptesis nula y aceptar la hiptesis
alternativa si el valor calculado de tqueda abajo del valor crtico: -2.486. En caso contrario, no se
rechaza la hiptesis nula.

Paso 5: Tomar la muestra y llegar a una decisin.

De acuerdo a la frmula, tenemos:

Donde:

Sustituyendo en la frmula, tenemos:

Dado que -1.53 queda en la regin de aceptacin, la hiptesis nula que indica que la media
poblacional del costo de trmites es de $600 pesos, se acepta con un nivel del 0.01 o 1%. Esto
indica que no hay una reduccin del costo promedio en los trmites relacionados con un accidente
automovilstico.

13.6 Prueba de hiptesis sobre una proporcin

Una proporcin es la fraccin, porcin relativa o porcentaje que expresa la parte de la poblacin o
muestra que tiene un atributo particular de inters. En el caso de las pruebas de hiptesis de la
proporcin, la frmula a utilizar para el estadstico z es la siguiente:

El estadstico z para proporciones poblacionales es adecuado cuando tanto np como (1 - p) son


mayores a 5.

Ejemplo:

Elecciones anteriores en un estado federal indican que es necesario que un candidato a


gobernador logre al menos 80% de los votos en la seccin norte del estado para que resulte
elegido. Un candidato a gobernador est interesado en evaluar qu oportunidad tiene de lograr la
victoria y planea la realizacin de una encuesta con 2000 electores registrados en dicha seccin
del norte del estado.

Del resultado de la encuesta, se obtuvo: de los 2000 votantes potenciales en el rea del norte del
estado , 1550 tienen planes de votar por dicho candidato a gobernador. La proporcin de 0.775
(1550 entre 2000) es lo suficientemente cercana a la proporcin necesaria de 0.80 para afirmar
que el candidato ser elegido?
Paso 1: Plantear la hiptesis nula y alternativa.

Matemticamente:

Paso 2: Seleccionar el nivel de significacin.

Se utilizar un nivel de significacin de 0.05, que es , la probabilidad de cometer un error tipo I.


Es decir, la probabilidad de rechazar una hiptesis verdadera.

Paso 3: Identificar el estadstico de prueba.

El estadstico adecuado es z, pues se est analizando la hiptesis sobre una proporcin


poblacional cuando tanto como son mayores a 5:

Paso 4: Formular la regin de decisin.

La regla de decisin se formula hallando el valor crtico de z a partir la tabla de z. Puesto que es
una prueba de una colas, se busca la porcin de la cola izquierda que determina la mitad del nivel
de significacin, en este caso la mitad de 0.4500.

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06


1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406
1.6 0.4452 0.4463 0.4474 0.4485 0.4495 0.4505 0.4515
1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608
1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686
1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750

Dado que el valor 0.4500 est entre 1.64 y 1.65, se utiliza un valor de Z de 1.645. Grficamente:
Fig. 13.11: Regiones de aceptacin y de rechazo para un estadstico z con un nivel de significacin
del 5% (prueba de una cola inferior).

Por consiguiente, la regla de decisin es: rechazar la hiptesis nula y aceptar la hiptesis
alternativa si el valor calculado de zqueda ms all del valor crtico: 1.645. En caso contrario, no se
rechaza la hiptesis nula.

Paso 5: Tomar la muestra y llegar a una decisin.

De acuerdo a la frmula, tenemos:

Donde:

Sustituyendo en la frmula, tenemos:

Dado que -2.80 queda en la regin de rechazo, se rechaza la hiptesis nula con un nivel del 0.05
5%. La diferencia de 2.5 porcentuales entre el porcentaje muestral (77.5%) y el porcentaje
poblacional necesaria para ganar la eleccin del estado (80%), es estadsticamente significativa.

Glosario

Valor crtico: Nmero que es el punto divisorio entre la regin de aceptacin y la regin de rechazo.
Probabilidad y estadstica
Tema 14. Inferencia en dos poblaciones
14.1 Introduccin

En algunas ocasiones, es importante realizar pruebas de comparacin entre


dos poblaciones o proporciones y determinar si son iguales o no.

Ejemplo: Una compaa manufactura computadoras personales y utiliza un


gran nmero de tableros con circuitos impresos. Los proveedores ofrecen
precios de diversos tableros y al que presente la oferta ms baja se le otorga
un contrato. Dos de los proveedores afirman que sus productos son similares
en calidad y se desea determinar si esta situacin es correcta.

En este tipo de casos, en donde se desea conocer si dos poblaciones


tienen alguna caracterstica en particular, se puede hacer uso de las pruebas de hiptesis de dos
poblaciones o de dos proporciones, segn sea el caso.

14.2 Prueba de confianza entre las medias dos poblaciones

Como se observ con anterioridad, para muestras grandes (n > 30) puede utilizarse el
estadstico z para la prueba de hiptesis de medias muestrales. En el caso de las pruebas de
hiptesis entre dos medias poblacionales, tambin se utiliza el estadsticoz siempre y cuando
tanto como son mayores a 30. La teora que subyace en este planteamiento se expone
brevemente:

Si un nmero grande de muestras aleatorias independientes se selecciona de dos poblaciones, la


distribucin de diferencias entres las dos medias dividida entre el error estndar de la diferencia
entre las dos medias (el valor crtico) se aproxima a una distribucin normal.

Matemticamente se expresa:
Ejemplo:

Las especificaciones para los bloques de concreto utilizados en cimientos de los edificios indican
que la media aritmtica mnima de la resistencia a la compresin de una muestra de bloques debe
ser de 1000 psi (libras por pulgada cuadrada). Una muestra de dos compaas, cuyas muestras de
bloques indican una resistencia a la compresin superior a la mnima.

Si se aplica una prueba estadstica a los resultados muestrales y se determina que ambas
muestras pueden venir de poblaciones iguales, o idnticas, el contrato para los bloques se dividir
por igual. Si las estadsticas muestrales indican que comprende dos poblaciones, al fabricante que
enve los bloques con resistencia a la compresin ms alta se le adjudicar el contrato.

Paso 1: Plantear la hiptesis nula y alternativa.

Matemticamente:

Como la hiptesis alternativa no especifica direccin (como el que la resistencia media a la


compresin de los bloques de Stanblock Company es mayor que la media de los bloques de
Hicompress Company), se usar una prueba de dos colas.

Paso 2: Seleccionar el nivel de significacin.

Se utilizar un nivel de significacin de 0.01, que es , la probabilidad de cometer un error tipo I.


Es decir, la probabilidad de rechazar una hiptesis verdadera.

Paso 3: Identificar el estadstico de prueba.


El estadstico adecuado es z, pues se est analizando la hiptesis sobre una media poblacional
cuando el tamao de la muestra es grande (mayores a 30). En ambos casos, la muestra es
bloques para cada compaa es mayor a 30.

Paso 4: Formular la regin de decisin.

La regla de decisin se formula hallando el valor crtico de z a partir la tabla de z. Puesto que es
una prueba de dos colas, se busca la porcin de cada cola que determina la mitad del nivel de
significacin, en este caso la mitad de 0.01 es 0.005. El rea de aceptacin por consiguiente es de
0.99. De la tabla de z, buscamos el valor de z cuyo punto es 0.4950 (0.99 dividido entre 2, dada la
simetra de la curva normal)

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
2.0 0.4773 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817
2.1 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.485 0.4854 0.4857
2.2 0.4861 0.4865 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890
2.3 0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916
2.4 0.4918 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936

2.5 0.4938 0.494 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952
2.6 0.4953 0.4955 0.4956 0.4957 0.4959 0.496 0.4961 0.4962 0.4963 0.4964

Dado que el valor 0.4950 est entre 2.57 y 2.58, se utiliza un valor de Z de 2.575. Grficamente:

Fig. 14:1 Regiones de aceptacin y de rechazo para un estadstico z con un nivel de significacin
del 1% (prueba de dos colas).

Por consiguiente, la regla de decisin es: rechazar la hiptesis nula y aceptar la hiptesis
alternativa si el valor calculado de z no queda entre la regin -2.575 y + 2.575. En caso contrario,
no se rechaza la hiptesis nula.

Paso 5: Tomar la muestra y llegar a una decisin.


Una muestra de bloques de las dos compaas proveedoras, revel la siguiente informacin:

Tamao de Media Desviacin


Compaa
la muestra muestral estndar
Stanblock Company 81 1070 psi 63 psi
Hicompress Company 64 1020 psi 57 psi

Ahora calculamos el estadstico z para evaluar la hiptesis nula. De acuerdo a la frmula, tenemos:

Donde:

Sustituyendo en la frmula, tenemos:

Dado que 5.01 queda en la regin de rechazo, la hiptesis nula que indica que la media
poblacional de la resistencia a la compresin no es diferente entres las dos compaas, se rechaza
con un nivel del 0.01 o 1%. La diferencia entre las medias muestrales no se debe al azar

14.3 Prueba de confianza entre dos proporciones


Para el caso de las pruebas entre dos proporciones, al igual que la prueba de hiptesis de una
proporcin, se puede utilizar el estadstico z siempre y cuando que tanto np como n(1 - p) son
mayores a 5 para ambas proporciones.

En el caso de las pruebas de hiptesis de la proporcin, la frmula a utilizar para el estadstico z es


la siguiente:

Para calcular la media ponderada de las dos proporciones muestrales , se utiliza la siguiente
frmula:

Ejemplo:

Un fabricante de perfumes ha desarrollado un nuevo producto llamado Stay-Away. Varias pruebas


de comparacin indican que el perfume tiene un buen potencial de mercado. Sin embargo, los
departamentos de mercadotecnia y publicidad quieren planear su estrategia de manera que el
producto llegue e impresione al sector ms grande posible del pblico comprador.

Una de las preguntas es si el perfume es preferido por una proporcin mayor de mujeres jvenes o
maduras.

Se seleccionaron damas aleatoriamente y se les pidi que olieran varios perfumes en sucesin,
incluyendo el que suelen usar y, por supuesto, Stay-Away. La persona que realiza la prueba es la
nica que conoce los nombres de los perfumes.

Un total de 100 mujeres jvenes se seleccionaron aleatoriamente, veinte de las cuales eligieron
Stay-Away como el perfume que ms les agrad. Tambin se seleccionaron doscientas damas
maduras y a cada una se le aplic la misma prueba estndar. 100 de las 200 prefirieron Stay-
Away.

Paso 1: Plantear la hiptesis nula y alternativa.

Matemticamente:

Como la hiptesis alternativa no especifica direccin (como el que la proporcin de mujeres


jvenes que prefieren Stay-Away es mayor a la proporcin de mujeres maduras que lo prefieres),
se usar una prueba de dos colas.

Paso 2: Seleccionar el nivel de significacin.

Se utilizar un nivel de significacin de 0.05, que es , la probabilidad de cometer un error tipo I.


Es decir, la probabilidad de rechazar una hiptesis verdadera.

Paso 3: Identificar el estadstico de prueba

El estadstico adecuado es z, pues se est analizando la hiptesis sobre proporciones


poblacionales cuando tanto como son mayores a 5:

Paso 4: Formular la regin de decisin.

La regla de decisin se formula hallando el valor crtico de z a partir la tabla de z. Puesto que es
una prueba de dos colas, se busca la porcin de cada cola que determina la mitad del nivel de
significacin, en este caso la mitad de 0.05 es 0.025. El rea de aceptacin por consiguiente es de
0.99. De la tabla de z, buscamos el valor de z cuyo punto es 0.4750 (0.95 dividido entre 2, dada la
simetra de la curva normal)

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06


1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406
1.6 0.4452 0.4463 0.4474 0.4485 0.4495 0.4505 0.4515
1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608
1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686
1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750

De la tabla, se utiliza un valor de Z de -1.96 para la cola izquierda y de 1.96 para la cola derecha
de la grfica. Grficamente:

Fig. 14.2 Regiones de aceptacin y de rechazo para un estadstico z con un nivel de significacin
del 5% (prueba de dos colas)

Por consiguiente, la regla de decisin es: rechazar la hiptesis nula y aceptar la hiptesis
alternativa si el valor calculado de z no queda entre la regin -1.96 y + 1.96. En caso contrario, no
se rechaza la hiptesis nula.

Paso 5: Tomar la muestra y llegar a una decisin.

De acuerdo a la informacin proporcionada, obtenemos primero la proporcin ponderada de las


proporciones muestrales, con la siguiente frmula:

Donde:

Sustituyendo en la frmula, tenemos:


Ahora calculamos el estadstico z para evaluar la hiptesis nula. De acuerdo a la frmula, tenemos:

Donde:

Sustituyendo en la frmula, tenemos:

Dado que -5.00 queda en la regin de rechazo, la hiptesis nula que indica que la proporcin de
mujeres jvenes que prefieren Stay-Away es igual a la proporcin de mujeres maduras que lo
prefieren, se rechaza con un nivel del 0.05 o 5%. La diferencia entre las proporciones no se debe al
azar.
Probabilidad y estadstica
Tema 15. Anlisis de datos discretos
15.1 Distribucin Chi-cuadrada
La distribucin de probabilidad Chi-Cuadrada, tambin llamada Ji-Cuadrado o Chi-Cuadrata de
Pearson, es una distribucin de varianzas muestrales , es decir que si se extraen todas las
muestras posibles de una poblacin normal y a cada muestra se le calcula su varianza, se
obtendr la distribucin muestral de varianzas.

Matemticamente:

Las caractersticas de la distribucin Chi-Cuadrada son:

El valor calculado es siempre positivo.


Existe una familia de distribuciones ji cuadrada, cada una con un grado de libertad (ver
grfica 15.1), en consecuencia, existe un nmero infinito de distribuciones.
Las distribuciones no son simtricas, es decir, tienen colas estrechas que se extienden a la
derecha. Esto significa que presenta un sesgo positivo.
El rea bajo la curva y sobre el eje horizontal es igual a 1.
Al aumentar los grados de libertad, la distribucin se aproxima a la curva normal.
Fig. 15.1: Distribuciones Chi-Cuadrada para distintos grados de libertad.

Dada la gran cantidad de curvas Chi-Cuadrada existentes, se ha desarrollado una tabla de los
valores crticos considerando distintos grados de libertad.

Grados rea de la cola derecha de la curva


de
Libertad 0.1 0.05 0.025 0.01 0.005
(g.l.)
1 2.71 3.84 5.02 6.63 7.88
2 4.61 5.99 7.38 9.21 10.60
3 6.25 7.81 9.35 11.34 12.84
4 7.78 9.49 11.14 13.28 14.86
5 9.24 11.07 12.83 15.09 16.75
6 10.64 12.59 14.45 16.81 18.55
7 12.02 14.07 16.01 18.48 20.28
8 13.36 15.51 17.53 20.09 21.95
9 14.68 16.92 19.02 21.67 23.59
10 15.99 18.31 20.48 23.21 25.19
11 17.28 19.68 21.92 24.73 26.76
12 18.55 21.03 23.34 26.22 28.30
13 19.81 22.36 24.74 27.69 29.82
14 21.06 23.68 26.12 29.14 31.32
15 22.31 25.00 27.49 30.58 32.80
16 23.54 26.30 28.85 32.00 34.27
17 24.77 27.59 30.19 33.41 35.72
18 25.99 28.87 31.53 34.81 37.16
19 27.20 30.14 32.85 36.19 38.58
20 28.41 31.41 34.17 37.57 40.00
21 29.62 32.67 35.48 38.93 41.40
22 30.81 33.92 36.78 40.29 42.80
23 32.01 35.17 38.08 41.64 44.18
24 33.20 36.42 39.36 42.98 45.56
25 34.38 37.65 40.65 44.31 46.93
26 35.56 38.89 41.92 45.64 48.29
27 36.74 40.11 43.19 46.96 49.65
28 37.92 41.34 44.46 48.28 50.99
29 39.09 42.56 45.72 49.59 52.34
30 40.26 43.77 46.98 50.89 53.67
40 51.81 55.76 59.34 63.69 66.77
50 63.17 67.50 71.42 76.15 79.49
60 74.40 79.08 83.30 88.38 91.95
70 85.53 90.53 95.02 100.43 104.21
80 96.58 101.88 106.63 112.33 116.32
90 107.57 113.15 118.14 124.12 128.30
100 118.50 124.34 129.56 135.81 140.17

La distribucin Chi-Cuadrada es considerada como una prueba no paramtrica, es utilizada para


estimar la diferencia entre una distribucin observada y una distribucin terica, indicando en qu
grado las diferencias entre ambas distribuciones se deben al azar, a travs de una prueba de
hiptesis. A esta prueba no paramtrica se le conoce como Prueba de Bondad de Ajuste.

15.2 Pruebas de bondad de ajuste: Frecuencias esperadas iguales

Entre las pruebas de bondad de ajuste, la Chi-Cuadrada es una de las pruebas no paramtricas
ms utilizadas. Ideada por Karl Pearson a principios de 1900, es apropiada para los niveles de
datos tanto nominal como ordinal, aunque tambin puede utilizarse para niveles de datos nominal y
de razn.
El estadstico utilizado para realizar la prueba de bondad de ajuste es:

Como indica la definicin de la prueba de bondad de ajuste Chi-Cuadrada, el objetivo de la prueba


es determinar cun bien se ajusta un conjunto observado de datos a un conjunto esperado. La
primera prueba a analizar, es cuando las frecuencias esperadas son iguales.

Ejemplo:

Supongamos que existen algunas dudas respecto al funcionamiento correcto de una de las
mquinas tragamonedas de un casino en Las Vegas, existe la sospecha de que est alterado el
mecanismo de una de las ventanillas de la mquina. Como experimento, se acciona 120 veces la
palanca de la mquina y se registran los resultados, que se enlistan en la siguiente tabla:

Dibujo en la ventanilla izquierda Nmero de veces que aparece el dibujo (fo)


Pltano 13
Cereza 33
Naranja 14
Durazno 7
Limn 36
Pera 17

Para resolver la duda, utilizaremos el procedimiento de pruebas utilizado para las pruebas de
hiptesis de datos de nivel intervalo.

Paso 1: Plantear la hiptesis nula y alternativa.

Matemticamente:

Si la hiptesis nula se rechaza y es aceptada, ello significar que el mecanismo ha sido


alterado para permitir que un dibujo o varios, aparezcan en la ventanilla con ms frecuencia que
otros.

Paso 2: Seleccionar el nivel de significacin.

Se utilizar un nivel de significacin de 0.05, que es , la probabilidad de cometer un error tipo I.


Es decir, la probabilidad de rechazar una hiptesis nula verdadera.

Paso 3: Identificar el estadstico de prueba.

El estadstico adecuado es el estadstico Chi-Cuadrado, pues se est analizando la diferencia que


existe entre una frecuencia observada y una frecuencia esperada.

Paso 4: Formular la regin de decisin.

La regla de decisin requiere identificar un valor crtico en la curva Chi-Cuadrada que separe la
regin de rechazo de la regin de aceptacin. En una prueba de Chi-Cuadrada, para obtener el
valor correcto debemos considerar los grados de libertad de la prueba definidos como k-1,
donde k es representa al nmero de categoras. En nuestro caso, los grados de libertad son 5,
pues existen 6 categoras.

Obtenemos el valor crtico de Chi-Cuadrada con 5 grados de libertad y con un nivel de significancia
de 0.05 ( ), lo obtenemos de la tabla:

Grados rea de la cola derecha de la curva


de
Libertad 0.1 0.05 0.025 0.01 0.005
(g.l.)
1 2.71 3.84 5.02 6.63 7.88
2 4.61 5.99 7.38 9.21 10.60
3 6.25 7.81 9.35 11.34 12.84
4 7.78 9.49 11.14 13.28 14.86
5 9.24 11.07 12.83 15.09 16.75

De la tabla, se utiliza un valor crtico de Chi-Cuadrada de 11.07. Grficamente:


Fig. 15.2: Regiones de aceptacin y de rechazo para un estadstico .

Observacin: La regin de aceptacin est a la izquierda del valor crtico. Por consiguiente, la regla
de decisin es: aceptar la hiptesis nula y rechazar la hiptesis alternativa si el valor calculado del
estadstico Chi-Cuadrada es menor o igual a 11.07. En caso contrario, se rechaza la hiptesis nula.

Paso 5: Tomar la muestra y llegar a una decisin.

Con la muestra seleccionada, se calcula el valor de Chi-Cuadrada a travs de las frecuencias


observadas y las frecuencias esperadas. Para calcular las frecuencias esperadas, consideremos
que la mquina est preparada para que cada dibujo tenga la misma probabilidad de aparecer en
la ventanilla. En teora, si cada dibujo tiene la misma oportunidad y el experimento se hace 12
veces, puede esperarse que aparezca 2 veces cada figura. Considerando nuestro ejemplo al
accionar 120 veces la palanca, se espera que aparezca 20 veces cada figura:

Dibujo en la ventanilla
Frecuencias observadas Frecuencias esperadas
izquierda
Pltano 13 20
Cereza 33 20
Naranja 14 20
Durazno 7 20
Limn 36 20
Pera 17 20

De acuerdo a la informacin proporcionada, obtenemos el valor de Chi-Cuadrada con la frmula:

Donde:
Sustituyendo en la frmula, obtenemos:

Dado que 34.40 queda en la regin de rechazo, la hiptesis nula que indica no existe diferencia
entre el nmero de frecuencias observadas y el nmero de frecuencias esperadas, se rechaza con
un nivel del 0.05 o 5%. Esto indica que la mquina tragamonedas en estudio si presenta una
alteracin en la ventanilla izquierda.

15.3 Pruebas de bondad de ajuste: Frecuencias esperadas desiguales

Las frecuencias esperadas en el ejemplo de la mquina tragamonedas fueron todas iguales, es


decir, de 120 ensayos, en teora se espera que cada tipo de figura aparezca 20 veces en la
ventanilla izquierda de la mquina tragamonedas. La Chi-Cuadrada tambin puede utilizarse
cuando las frecuencias esperadas son desiguales.

Ejemplo:

Un estudio de admisiones a hospitales, durante un periodo de dos aos, revel estadsticas


respecto a adultos mayores residentes en centros de asistencia que fueron hospitalizados durante
el periodo, de acuerdo a la siguiente tabla:

Nmero de ingresos en un periodo de dos Porcentaje


aos del total
1 40
2 20
3 14
4 10
5 8
6 6
7 2
Total 100%

La administradora de un hospital local desea comparar su existencia con la experiencia nacional.


Seleccionaron 400 adultos mayores en centros de asistencia locales que necesitaron
hospitalizacin y determin el nmero de veces que cada uno fue admitido en su hospital. Las
frecuencias observadas se muestran en la siguiente tabla:

Nmero de ingresos en un periodo de dos Nmero de


aos personas
1 165
2 79
3 50
4 44
5 32
6 20
7 10
Total 400

Para resolver la duda, usaremos el procedimiento de pruebas utilizado para las pruebas de
hiptesis de datos de nivel intervalo.

Paso 1: Plantear la hiptesis nula y alternativa.

Matemticamente se expresa:

Si la hiptesis nula se rechaza y es aceptada, ello significar que existen diferencias entre
la experiencia local y nacional con respecto al nmero de veces que un adulto mayor ingresa al
hospital local.

Paso 2: Seleccionar el nivel de significacin.


Se utilizar un nivel de significacin de 0.05, que es , la probabilidad de cometer un error tipo I.
Es decir, la probabilidad de rechazar una hiptesis nula verdadera.

Paso 3: Identificar el estadstico de prueba.

El estadstico adecuado es el estadstico Chi-Cuadrado, pues se est analizando la diferencia que


existe entre una frecuencia observada y una frecuencia esperada.

Paso 4: Formular la regin de decisin.

La regla de decisin requiere identificar un valor crtico en la curva Chi-Cuadrada que separe la
regin de rechazo de la regin de aceptacin. En una prueba de Chi-Cuadrada, para obtener el
valor correcto debemos considerar los grados de libertad de la prueba definidos como k-1,
donde k es representa al nmero de categoras. En nuestro caso, los grados de libertad son 6,
pues existen 7 categoras.

El valor crtico de Chi-Cuadrada con 6 grados de libertad y con un nivel de significancia de 0.05 (
), lo obtenemos de la tabla:

Grados rea de la cola derecha de la curva


de
0.1 0.05 0.025 0.01 0.005
Libertad
(g.l.)
1 2.71 3.84 5.02 6.63 7.88
2 4.61 5.99 7.38 9.21 10.60
3 6.25 7.81 9.35 11.34 12.84
4 7.78 9.49 11.14 13.28 14.86
5 9.24 11.07 12.83 15.09 16.75
6 10.64 12.59 14.45 16.81 18.55

De la tabla, se utiliza un valor crtico de Chi-Cuadrada de 12.59. Grficamente:


Fig. 15.3: Regiones de aceptacin y de rechazo para un estadstico .

Observacin: La regin de aceptacin est a la izquierda del valor crtico. Por consiguiente, la regla
de decisin es: aceptar la hiptesis nula y rechazar la hiptesis alternativa si el valor calculado del
estadstico Chi-Cuadrada es menor o igual a 12.59. En caso contrario, se rechaza la hiptesis nula.

Paso 5: Tomar la muestra y llegar a una decisin.

El nmero de frecuencias observadas que resulta del estudio de los adultos mayores locales no
puede compararse directamente con los porcentajes dados para los hospitales de la nacin. Sin
embargo, los porcentajes pueden convertirse en frecuencias esperadas, como se ve en la siguiente
tabla:

Nmero de ingresos en un Frecuencias


Frecuencias observadas
periodo de dos aos Esperadas
1 165 40% * 400 = 160
2 79 20% * 400 = 80
3 50 14% * 400 = 56
4 44 10% * 400 = 40
5 32 8% * 400 = 32
6 20 6% * 400 = 24
7 10 2% * 400 = 8

De acuerdo a la informacin proporcionada, obtenemos el valor de Chi-Cuadrada con la frmula:

Donde:

Sustituyendo en la frmula, tenemos:

Dado que 2.379 queda en la regin de aceptacin, la hiptesis nula que indica no existe diferencia
entre el nmero de frecuencias observadas y el nmero de frecuencias esperadas, se acepta con
un nivel del 0.05 o 5%. Esto indica los resultados de la experiencia local con respecto a los adultos
mayores de centros de asistencia hospitalizados es similar a la de otras partes del pas.

15.4 Limitaciones de la Chi-Cuadrada


Si hay un nmero inusitadamente pequeo de frecuencias esperadas en una celda, la Chi-
Cuadrada puede llevar a una conclusin errnea. Esto puede deberse a que aparece en el
denominador y la divisin entre un nmero muy pequeo produce un cociente demasiado grande.
Dos reglas de aceptacin general respecto a pequeas frecuencias de celda son:

Si slo hay dos celdas, las frecuencias esperadas en cada celda deben ser cinco o ms. El
clculo de la Chi-Cuadrada sera permisible en el siguiente problema:

Frecuencias Frecuencias
Persona
observadas esperadas
Alfabeta 643 642
Analfabeta 7 6

Para ms de dos celdas, la no debe aplicarse si ms de 20% de las celdas tienen


frecuencias esperadas de menos de cinco. De acuerdo con esta regla, se permite
calcular para la informacin gerencial en la parte izquierda de la tabla siguiente, pues
solo una celda de 6, o sea 17%, contiene una frecuencia de menos de cinco:

Frecuencias Frecuencias
Nivel directivo
observadas esperadas
Supervisor 18 16
Subgerente 39 37
Gerente 8 13
Subdirector 6 4
Director 82 78
Presidente 10 15
163 163

Sin embargo, la Chi.Cuadrada no debe utilizarse para la informacin gerencial en la siguiente tabla
porque tres de las siete frecuencias, o sea 43%, son inferiores a cinco.

Frecuencias Frecuencias
Nivel directivo
observadas esperadas
Jefe de rea 30 32
Supervisor 110 113
Subgerente 86 87
Gerente 23 24
Subdirector 5 2
Director 5 4
Presidente 4 1
163 263

Glosario
Prueba de Bondad de Ajuste: Prueba de hiptesis para determinar el grado de las diferencias entre
una distribucin observada y una distribucin terica.

También podría gustarte