Está en la página 1de 113

CONTENIDO.

MÓDULO I: TEORIA DE CONJUNTOS Y PROBABILIDAD

MÓDULO II: VARIABLES ALEATORIAS DISCRETAS Y CONTINUAS

MÓDULO III: ESTIMACION

MÓDULO IV: CONTRASTE DE HIPOTESIS

MÓDULO V: REGRESION Y CORRELACION LINEAL SIMPLE

2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Símbolos Matemáticos

Símbolos Descripción
∈ Pertenece
∉ No pertenece a
⊆ Contenido en
⊂ Estrictamente Contenido
⊄ No está contenido
= Igual
≠ Diferente
 Unión
 Intersección
A–B Diferencia
P(A) Conjuntos de Partes de A
x<y x menor que y
x ≤y x menor o igual a y
[a, ∞ ) Intervalo Cerrado por la izquierda
(– ∞ , b] Intervalo Cerrado por la derecha
(a, ∞ ) Intervalo Abierto por la izquierda
(- ∞ , b) Intervalo Abierto por la derecha
[a, b] Intervalo Cerrado
(a, b) Intervalo Abierto
(x, y) Par ordenado
AxB Producto Cartesiano

17
Interpretaciones de la Probabilidad 1

A pesar de que el concepto de probabilidad es una parte tan común y natural de la experiencia
de la gente, no existe una única interpretación científica del término probabilidad aceptada por
todos los estadísticos, filósofos y demás autoridades científicas. A través de los años, cada
interpretación de la probabilidad propuesta por unos expertos ha sido criticada por otros. De
hecho, el verdadero significado de la probabilidad es todavía un término muy conflictivo y
surge en muchas discusiones filosóficas actuales sobre los fundamentos de la estadística.

Se expondrán tres interpretaciones (o definiciones) diferentes de la probabilidad, cada una de


estas interpretaciones puede ser útil en la aplicación de la teoría de la probabilidad a
problemas prácticos.

Interpretación Clásica de la Probabilidad (o Probabilidad a priori)


La teoría de la probabilidad en sus comienzos estuvo asociada a los juegos de azar. Esta
asociación impulsa la interpretación clásica. Por ejemplo, supóngase que se quiere conocer la
probabilidad de que al lanzar una moneda salga cara. Puede argumentarse de la siguiente
manera: Como hay solamente dos formas en que la moneda puede caer, cara o sello, y como la
moneda esta balanceada, podría esperarse que sea tan probable que salga cara como sello, así
la probabilidad de cara estará dada por el valor 1/2.

Esta interpretación de la probabilidad esta basada en el concepto de resultados igualmente


probables que son mutuamente excluyentes. Generalizando, si el resultado de algún proceso
debe ser uno de n resultados diferentes y estos n resultados son igualmente probables y
mutuamente excluyentes, entonces la probabilidad de cada resultado es 1/n.

Considérese otro ejemplo: Si un dado es lanzado (hay seis posibles resultados) cualquiera de
las seis caras numeradas pueden salir. Estos seis resultados son mutuamente excluyentes dado
que dos o más caras no pueden salir simultáneamente,
1
Basado en los siguientes textos: DeGroot, Morris. Probabilidad y Estadística. Págs. 2-6; Mood, Graybill y
Boes. Introduction to the Theory of Statistics. Págs. 3-5.

18
y si el dado es justo2, los seis resultados son igualmente probables, es decir que por la
naturaleza del proceso, por su simetría, todas las caras tienen la misma oportunidad de
aparecer.

Ahora se quiere la probabilidad de que el resultado de un lanzamiento sea un número par.


Tres de los seis posibles resultados tienen este atributo. La probabilidad de que un número
par aparecerá cuando el dado es lanzado es 3/6 ó 1/2. Similarmente, la probabilidad que un
cinco aparecerá cuando un dado es lanzado es 1/6. La probabilidad que el resultado de un
lanzamiento será mayor que 2 es 2/3.

De este modo, se tiene de manera más general que, si los n resultados de un fenómeno
aleatorio son mutuamente excluyentes e igualmente probables y si n(A) de estos resultados

presentan el atributo A, entonces la probabilidad de A es la proporción n (A)/n.

Debe notarse que por la interpretación clásica, la probabilidad de A es un número entre 0 y

1 (ambos inclusive). La proporción n (A)/n debe ser menor que o igual a1, ya que el
número total de posibles resultados no puede ser menor que el número de resultados con un
atributo específico. Si es seguro que un suceso ocurra, su probabilidad es 1; si es imposible
que ocurra, su probabilidad es cero. De esta manera, la probabilidad de obtener un 7 al
lanzar un dado es 0. La probabilidad que al lanzar un dado se obtenga un número menor
que 8 es igual a 1.

Las probabilidades determinadas por la definición clásica son llamadas probabilidades a


priori, debido a que se llega al resultado solamente por razonamiento deductivo.

Hay algunas limitaciones en la interpretación clásica:

1. No proporciona un método sistemático para asignar probabilidades a resultados que no


sean igualmente probables.

19
Por ejemplo, es lanzada una moneda sabiendo que esta sesgada a favor de las caras, es
decir, es más probable que aparezca una cara que un sello. Los dos posibles resultados
del lanzamiento de la moneda no son igualmente probables 3. ¿Cuál es la probabilidad
de cara? La definición clásica no tiene la posibilidad de ayudar aquí.

2. Hay otra dificultad cuando a la interpretación clásica se le hacen preguntas como:


• ¿Cuál es la probabilidad de que nazca un varón en Barinas?
• ¿Cuál es la probabilidad de que un hombre muera antes de los 50 años?
• ¿Cuál es la probabilidad de que una persona se case?

Todas estas son preguntas legítimas que se quieren traer al campo de la teoría de
probabilidad. Sin embargo, las nociones de “simetría”, “igualmente probable”, etc., no
pueden ser utilizadas como lo son en los juegos de azar.

3. Otro inconveniente surge cuando los resultados del proceso no son finitos. Esto aparece
muchas veces cuando el número de resultados posibles del proceso es posiblemente
muy grande. Por ejemplo, ¿Cuál es la probabilidad de que lleguen a una intersección
vial más de 500 automóviles entre las 12 PM y la 1 PM?
Nota 1:
Hay que tener cuidado y poner atención a las calificaciones de mutuamente excluyente,
igualmente probables y aleatorio. Supóngase que se desea calcular la probabilidad de
obtener dos caras si una moneda es lanzada dos veces. Pudiera razonarse que hay tres
posibles resultados para los dos lanzamientos: dos caras, dos sellos o una cara y un sello.
Uno de estos tres resultados tiene el atributo deseado, es decir, dos caras; Además la
probabilidad es 1/3. Este razonamiento es incorrecto ya que los tres resultados dados no
son igualmente probables. El tercer resultado, una cara y un sello, puede ocurrir de dos
maneras debido a que la cara puede aparecer en el primer lanzamiento y el sello en el
segundo; o la

2
Es decir, el dado es un cubo perfecto en el sentido de que es simétrico y no está arreglado para que alguna
de sus caras tenga más chance de ocurrir.

20
3
Esto se conoce con la expresión: la moneda no está balanceada, no es simétrica o no es justa

21
cara puede aparecer en el segundo lanzamiento y el sello en el primero. Así hay cuatro
resultados igualmente probables: (cara, cara), (cara, sello), (sello, cara) y (sello, sello)4. El
primero de estos tiene el atributo deseado, mientras los otros no. La probabilidad correcta
es entonces 1/4. El resultado debería ser el mismo si dos monedas balanceadas fueran
lanzadas simultáneamente.

Ahora, supóngase que se desea calcular la probabilidad que una carta extraída de una baraja
de bridge5 será un as o una espada. En la enumeración de los resultados favorables, pueden
contarse 4 ases y trece espadas y se concluye que hay 17 resultados con el atributo deseado.
Esto es claramente incorrecto ya que estos 17 resultados no son mutuamente excluyentes
debido a que el as de espadas es tanto as como espada. Hay 16 resultados que son
favorables a un as o una espada, así la probabilidad correcta es 16/52 o 4/13.
Interpretación Frecuentista de la Probabilidad (Probabilidad a Posteriori)
En muchos problemas, la probabilidad de obtener algún resultado especifico de un proceso
puede ser interpretado en el sentido de la frecuencia relativa con la que se obtendría ese
resultado si el proceso se repitiera un número grande de veces en condiciones similares.
Supóngase que una moneda simétrica la cual parece estar bien balanceada fue lanzada 100
veces, los resultados fueron los siguientes:

Tabla 1. Resultados obtenidos al lanzar una moneda 100 veces.

Resultado Frecuencia Frecuencia relativa observada Frecuencia relativa esperada


observada a largo plazo
C 56 0.56 0.50
S 44 0.44 0.50
TOTAL 100 1 1

Obsérvese que la frecuencia relativa de caras esta cerca de 1/2. Esto era lo que se esperaba
ya que la moneda era simétrica.

Supóngase ahora que un dado fue lanzado 300 veces, con los siguientes resultados:

Tabla 2. Resultados obtenidos al lanzar un dado 300 veces.

Resultado Frecuencia Frecuencia relativa Frecuencia relativa esperada a largo


observada observada plazo
1 51 0.170 0.1667
2 54 0.180 0.1667
3 48 0.160 0.1667
4 51 0.170 0.1667
5 49 0.163 0.1667
6 47 0.157 0.1667
TOTAL 300 1 1

Nótese ahora que la frecuencia relativa de la cara con 1 esta cerca de 1/6; de manera similar
para 2, 3, 4, 5 y 6. Estos resultados no son inesperados, ya que el dado estaba balanceado;
era de esperarse que cada cara ocurriera con aproximadamente la misma frecuencia en el
largo plazo.
Esto sugiere que se pueden usar las frecuencias relativas como una aproximación para la
probabilidad. En otras palabras, se supone que la proporción de lanzamientos en los que se
obtiene una cara en el lanzamiento de una moneda o de los números de un dado se puede
usar como una aproximación de la respectiva probabilidad. Adviértase que aunque las
frecuencias relativas de los diferentes resultados son predecibles, el resultado actual de un
lanzamiento individual es impredecible.

En los ejemplos anteriores puede usarse la interpretación clásica o la frecuentista y se


obtienen aproximadamente los mismos resultados. Esto se debe a que la moneda y el dado
están bien balanceados y son simétricos. Supóngase ahora que la moneda no está
balanceada, así que los dos casos: cara y sello, no son igualmente probables que ocurran.
Aquí la definición clásica no es útil en la misión de encontrar el valor de una probabilidad.
Entonces, podría utilizarse la interpretación de la frecuencia relativa o posiblemente algún
análisis físico de la moneda no balanceada.

En muchas investigaciones científicas, se toman observaciones las cuales tienen un


elemento de incertidumbre o son impredecibles. Como un ejemplo, supóngase que se quiere
predecir, si al nacer un bebe en cierta localidad será varón o hembra. Esto es
individualmente un evento incierto, pero los resultados de grupos de nacimientos pueden
ser satisfactorios. Se ha encontrado que existe una cierta regularidad a largo plazo, la cual
es similar a la regularidad a largo plazo de la frecuencia relativa de una cara cuando una
moneda es lanzada. Si por ejemplo es encontrado, examinando registros, que alrededor de
51% de los nacimientos en esta localidad son masculinos, este número puede ser tomado
como una aproximación a la probabilidad de que nazca un varón en esa localidad.

Para hacer esta idea mas concreta, se asumirá que una serie de observaciones pueden ser
obtenidas bajo condiciones uniformes. Es decir, una observación de un experimento
aleatorio es hecha; entonces el experimento se repitió bajo las mismas condiciones y se
tomó otra observación. Esto se repite muchas veces, y mientras las condiciones son
similares cada vez, hay una variación incontrolable la cual es aleatoria, así que las
observaciones son individualmente impredecibles. En muchos de estos casos las
observaciones caen dentro de ciertas clases en donde las frecuencias relativas son muy
estables. Esto sugiere que se postule un numero “p”, llamado la probabilidad del evento, y
“p” será aproximado por la frecuencia relativa con la cual las observaciones repetidas
satisfacen el evento en particular.

En la Figura 1 se muestran los resultados de efectuar en cinco oportunidades, el


experimento de lanzar 150 veces una moneda balanceada y graficar el comportamiento de
la respectiva frecuencia relativa de cara. Como era de esperarse, en los cinco casos, al
principio existe cierta fluctuación en las respectivas frecuencias relativas. A medida que
aumenta el número de lanzamientos, esta frecuencia relativa se va estabilizando mostrando
una tendencia clara hacia la frecuencia relativa 0,5. Nótese que algunas de las curvas
tienden más rápido a 0,5 que otras. Por tanto, según la interpretación frecuentista de la
probabilidad, p=0,5; que es el mismo valor

de la probabilidad de cara que se obtiene bajo la interpretación clásica. Esta es una


ilustración de cómo se comporta la frecuencia relativa en el largo plazo6.
De este modo para calcular la probabilidad p de que un suceso A ocurra, se realiza el
experimento sucesivamente bajo condiciones similares y se va contando el número de
veces que ocurre A. Sea n(A) el número de veces que ocurre el suceso A en las primeras n
repeticiones. Entonces la frecuencia relativa de ocurrencia de A en las primeras n
repeticiones del experimento viene dada por:

La probabilidad de A es el límite de este cociente, cuando n tiende a infinito, si este límite


existe:

Esta claro que las condiciones mencionadas son muy vagas para servir como base de una
definición científica de probabilidad. Por tanto, este criterio de la probabilidad a posteriori
recibe varias críticas, entre las cuales se pueden mencionar las siguientes:

1. Se menciona un número grande de repeticiones de un proceso, pero no hay una


identificación clara del número específico que podría considerarse suficientemente grande.

2. Se afirma que la moneda debería ser lanzada cada vez en condiciones similares, pero
estas condiciones no se describen con precisión. Las condiciones en la cual se lanza la
moneda no pueden ser completamente idénticas para cada lanzamiento porque entonces los
resultados serian todos iguales y se obtendrían sólo caras o sólo sellos. De hecho, una
persona experimentada puede lanzar una moneda repetidamente y cogerla de tal manera
que obtenga una cara en casi todos los lanzamientos. En consecuencia, los lanzamientos no
deben ser completamente controlados sino que deben tener una característica aleatoria.

3. Se asevera, además, que la frecuencia relativa de caras sería “aproximadamente 1/2”,


pero no se especifica un límite para la variación posible respecto al valor 1/2. Si una
moneda fuese lanzada 1.000.000 de veces, no se esperaría obtener exactamente 500.000
caras. En realidad, sería muy sorprendente si se obtuvieran exactamente 500.000 caras. Por
otro lado, tampoco se espera que el número de caras difiriera mucho de 500.000.

4. Otro inconveniente de la interpretación frecuentista de la probabilidad es que sólo puede


utilizarse para un problema en el que pueda haber, al menos en principio, un número grande
de repeticiones similares de cierto proceso. Muchos problemas importantes no son de este
tipo. Por ejemplo, la interpretación frecuentista de la probabilidad no puede ser aplicada
directamente a la probabilidad de que un determinado conocido contraiga matrimonio en
los próximos dos años.

Interpretación Subjetiva de la Probabilidad


De acuerdo con la interpretación subjetiva o personal de la probabilidad, la probabilidad
que una persona asigna a uno de los posibles resultados de un proceso representa su propio
juicio sobre la probabilidad de que se obtenga el resultado. Este juicio estará basado en las
opiniones e información de la persona acerca del proceso. Otra persona que puede tener
diferentes opiniones o información distinta puede asignar una probabilidad diferente al
mismo resultado. Por esta razón, resulta más apropiado hablar de la probabilidad subjetiva
que asigna cierta persona a un resultado, que de la verdadera probabilidad de ese resultado.

Con el objeto de que una persona sea capaz de asignar probabilidades subjetivas a los
resultados, debe expresar su grado de creencia en términos numéricos. La interpretación
subjetiva de la probabilidad puede ser formalizada, en general, si los juicios de una persona
acerca de las probabilidades de diversas combinaciones de resultados satisfacen ciertas
condiciones de consistencia. Entonces puede demostrarse que sus probabilidades subjetivas
para los diferentes sucesos posibles pueden ser determinadas en forma única.

La interpretación subjetiva tiene, sin embargo, dos dificultades:


1. El requisito de que los juicios de una persona sobre las probabilidades de un número
infinito de sucesos sean completamente consistentes y libres de contradicciones no
parece humanamente posible.

2. La interpretación subjetiva no proporciona bases “objetivas” para que dos o más


científicos que trabajan juntos obtengan una evaluación conjunta de su estado de
conocimiento en un área científica de interés común.

La evaluación por un determinado científico de la probabilidad de algún resultado incierto


debe ser, en última instancia, su propia evaluación, basada en todas las evidencias de que
dispone. Esta evaluación puede estar parcialmente basada en la interpretación frecuentista
de la probabilidad, ya que el científico puede tener en cuenta la frecuencia relativa de la
ocurrencia de este resultado o de resultados similares en el pasado. También puede basarse
parcialmente en la interpretación clásica de la probabilidad, puesto que el científico puede
tener en cuenta el número total de resultados posibles que considera igualmente probables.
Sin embargo, la asignación final de probabilidades numéricas es responsabilidad del propio
científico.

La Teoría de la Probabilidad y las Interpretaciones de Probabilidad


La teoría de la probabilidad y la estadística se pueden desarrollar, sin considerar la
controversia en torno a las diferentes interpretaciones del término probabilidad. Esta teoría
es correcta y puede ser aplicada útilmente, con independencia de la interpretación de
probabilidad que se utilice en un problema particular. Una vez asignadas las probabilidades
a algunos resultados de algún proceso, todos los expertos están completamente de acuerdo
en que la teoría matemática de la probabilidad proporciona la metodología apropiada para
ampliar el estudio de estas probabilidades.
Probabilidad de un evento

Las probabilidades se plantean con respecto a algún evento. El evento en cuestión puede ser
que llueva, haya ganancias, caiga cara, se obtenga un rendimiento de por lo menos 6%, se
termine el curso, se obtengan buenas calificaciones, entre otros.

Las probabilidades pueden expresarse en múltiples formas, incluyendo decimales,


fracciones y porcentajes. Por ejemplo, la posibilidad de lluvia se puede establecer como
20%, 2 de 10, 0.20, o bien 1/5.

La probabilidad de que un evento ocurra está dada mediante un número que va de 0 a 1.

La probabilidad de algún evento A, se representa por P(A), es un número que va del 0 al 1,


y que indica cuan probable es la ocurrencia del evento A. Cuanto mas cerca se encuentre el
número de uno (1), tanto mayor es la probabilidad de que dicho evento A ocurra; cuanto
mas cercano sea el numero a cero (0) menor es la probabilidad de que el evento A ocurra. A
un evento imposible se le asigna una probabilidad 0, mientras que a un evento del cual se
tiene la certeza que ocurrirá se le asigna una probabilidad de 1.

Espacio Muestral y Eventos


Uno de los conceptos matemáticos fundamentales, utilizados en el estudio de la
probabilidad es el conjunto. Este es un grupo de objetos o elementos que tienen ciertas
características comunes. Por ejemplo, los habitantes de Barinas, los ríos del Municipio
Pedraza, los estudiantes de la UBV-Barinas, entre otros.

Espacio Muestral, es el conjunto de todos los resultados posibles de un experimento o


muestra. Vamos a denotar al Espacio Muestral con la letra S. También el espacio
muestral se denota con la letra griega Omega(Ω).

Evento, son los posibles resultados de un Experimento Aleatorio.


Experimento Aleatorio, es todo aquel experimento que satisface los siguientes
requerimientos:
a. Puede repetirse un número ilimitado de veces bajo las mismas condiciones.
b. Es posible conocer por adelantado todos los posibles resultados a que pueda dar
origen.
c. No puede predecirse con exactitud el resultado en una realización particular de ese
experimento.

Ejemplos:

 Si lanzamos una moneda al aire, el resultado puede ser cara o sello, pero no
sabemos de antemano cual de ello va a salir. El proceso de lanzamiento de la
moneda es un experimento aleatorio.
Su espacio muestral es S = { cara, sello}

 Lanzamiento de un dado y registrar el numero de puntos que aparecen en el


lado de arriba. El espacio muestral es: S = { 1,2,3,4,5,6}. El experimento es:
lanzamiento del dado.

Si el dado es un cubo simétrico y balanceado, entonces todos sus lados tienen la misma
posibilidad de ocurrencia, es decir, sus probabilidades son: P(1) = P(2) = P(3) = P(4) P(5) =
P(6) = 1/6. Sea cualquier evento A de ese experimento, por ejemplo, A: número par,
entonces A = { 2,4,6}, obsérvese que A tiene tres puntos muestrales, en consecuencia su
probabilidad de A viene dada por: numero de elementos de A dividido por número de
elementos del espacio muestral S, es decir: P(A) = 3/6 = ½ = 0.5

Por su dimensión un espacio muestral puede ser: finito, infinito numerable, ó infinito no numerable.

La estadística tiene dos objetivos inmediatos, describir e inferir, cuya finalidad es satisfacer
un objetivo mucho mas exigente: predecir.
La predicción está relacionada de una manera indisoluble con las probabilidades, y aquel
que no estudia los postulados de probabilidades para comprender profundamente su
significado, no podrá interpretar cabalmente los resultados de la estadística.

Es por esta razón que categóricamente afirmamos que con la estadística no se puede mentir.
Vincular a la estadística, en tanto que disciplina matemática, con la capacidad de
manipulación para engañar, es tan osado como acusar al español, como lenguaje verbal, de
herramienta susceptible de ser usada para decir mentiras. Es sólo la falta de información de
un individuo lo que faculta a otro para engañarlo, con o sin intención, tanto con letras como
con números.

Operaciones con eventos:


Tratándose los eventos de subconjuntos del espacio muestral, es natural que satisfagan todas las
características de los conjuntos. Sean A y B dos eventos pertenecientes a un espacio muestral S.
• La intersección, que se denota A ∩ B , es el evento que consta de todos los resultados en S que
pertenecen tanto a A como a B. Por tanto, la intersección A ∩ B ocurre si y sólo si tanto A
como B ocurren.
De manera más general, dados k eventos A1, A2, ..., Ak, su intersección A1 ∩ A2 ∩ ∩ Ak es el
conjunto de todos los resultados básicos que pertenecen a todo Ai (i = 1, 2, ..., k)

• La unión, que se denota A ∪ B , es el evento que consta de todos los resultados en S que
pertenecen al menos a uno de estos eventos. Por lo tanto, la unión A ∪ B ocurre si y sólo si A
y/o B ocurren.
De manera más general, dados k eventos A1, A2, ..., Ak, su unión A1 ∪ A2 ∪ ∪ Ak es el
conjunto de todos los resultados que pertenecen al menos a uno de estos k eventos.

• El complemento de A (con respecto al espacio muestral S ), que se representa por Ac


(dependiendo de la literatura también se usa A ó A´ ), es el evento que consta de todos los
resultados pertenecientes a S pero no a A.
Definiciones complementarias:
• Si A y B no tienen puntos muestrales en común se denominan excluyentes y su intersección A
∩ B es el conjunto vacío Ø, lo que significa que A ∩ B no puede ocurrir.
De manera más general, dados k eventos A1, A2, ..., Ak, se dicen mutuamente excluyentes si cada

par de estos eventos es excluyente, es decir Ai ∪ A j = Ø para todo i ≠ j.

• Dados k eventos E1, E2, ..., Ek en el espacio muestral S , si su unión E 1 ∪ E2 ∪ ... ∪ Ek = S se


dice que estos k eventos son colectivamente exhaustivos.

Ejercicios
1. Los artículos provenientes de una línea de producción se clasifican como defectuosos o no
defectuosos. Se observan los artículos y se anota su condición. Este proceso se continúa hasta
que se produzcan dos artículos defectuosos consecutivos o se verifiquen cuatro artículos, lo que
ocurra primero. Describir el espacio muestral para este experimento aleatorio.
2. Considérense cuatro objetos, a, b, c y d. Supóngase que el orden en el cual se anotan esos
objetos representa el resultado de un experimento. Sean los eventos A = {a está en el primer
lugar} y B = {b está en el segundo lugar}.
a. Describir el espacio muestral.
b. Describir todos los elementos de los eventos A ∩ B y A ∪ B .
3. Considerando el espacio muestral S = {a, b, c}, construya todos los eventos posibles.
4. Sean A, B y C tres eventos asociados con un experimento. Expresar las siguientes
proposiciones verbales en notación de conjuntos. Puede ayudarse con diagramas de Venn.
a. Al menos uno de los eventos ocurre.
b. Exactamente uno de los eventos ocurre.
c. Exactamente dos de los eventos ocurren.

Desarrollo Axiomático de las Probabilidades


El desarrollo teórico anterior se ha efectuado con la finalidad de plantear formalmente el
siguiente problema: si A es un evento asociado con el experimento aleatorio E y el espacio
muestral S , no podemos indicar con certeza, en principio, si A ocurrirá o no.
Surge entonces la siguiente pregunta: ¿cómo podemos asociar un número con el evento A
que mida de alguna manera la posibilidad de que A ocurra?

Para ello vamos a estudiar a fondo un modelo de pensamiento que utilizamos


constantemente sin importar nuestra cultura probabilística.

Suponga que se repite n veces el experimento aleatorio E. Sean A y B dos eventos


relacionados con E. Sean nA y nB el número de veces que A y B ocurren respectivamente en
las n repeticiones.
nA
Frecuencia Relativa: para el evento A se define como f A = .
n
Propiedades de la frecuencia relativa:
1. 0 ≤ f A ≤1
2. f A =1 si y sólo si A ocurre en cada una de las n repeticiones de E.

3. f A = 0 si y sólo si A no ocurre nunca en las n repeticiones de E.

4. Si A y B son eventos mutuamente excluyentes entonces f A∪B = f A + f B


5. Regularidad estadística: la frecuencia relativa f A tiende a estabilizarse en cierto
valor (que luego bautizaremos como P(A)) a medida que el número de repeticiones
de un experimento aumenta.

Ejemplo: Lanzamiento de una moneda.


Sea E = lanzamiento de una moneda. El espacio muestral es S = {C,S} y consideremos el
evento A = {C}.
Observemos esta realización particular del experimento, repetido varias veces:

n 1 2 3 4 5 6 7 8 9 10 11 12 13 …
nA 0 0 1 1 2 3 4 5 6 6 6 6 7 …
fA 0 0 0.3 0.2 0.2 0.5 0.5 0.6 0.6 0.6 0.5 0.5 0.5 …
3 5 7 2 6 5 4

Esta frecuencia relativa aparece graficada a continuación:


Frecuencia relativa
F
rec
uenc
iarelativ
aenellanzamientod
eun
amo
neda

1
0
,9
0
,8
0
,7
0
,6
0
,5
0
,4
0
,3
0
,2
0
,1
0
1 2 3 4 5 6 7 8 9 1
0 1
1 1
2 1
3
L
anzamiento

Vamos a usar las propiedades de la frecuencia relativa como esquema para las condiciones
que le exigiremos que cumpla a una medida de la posibilidad de que un evento ocurra.

Probabilidad
Consideraremos la probabilidad como el límite de la frecuencia relativa, de forma tal que se
convierte en una función que va del espacio de todos los eventos posibles al conjunto de los
números reales en el intervalo entre 0 y 1 inclusive:
P ( A) = lim f A
n→∞

Sea E un experimento aleatorio y S un espacio muestral asociado a éste. Considerado


como el límite anterior, la probabilidad es una función que asigna a cada evento A de S un
número real denotado por P(A) y llamado probabilidad de A, que satisface las siguientes
propiedades:
1. 0 ≤ P ( A) ≤1
2. P(S ) = 1
3. Si A y B son mutuamente excluyentes entonces P(A ∪ B) = P(A) + P(B)
4. (teórico) Si cada par de eventos de la secuencia infinita E1,E2,..., Ek,..., es

∞  ∞
mutuamente excluyente, entonces P  Ai  = ∑ P( Ai )
 i =1  i =1
Los anteriores se conocen como Postulados de Probabilidades, si bien, debido a que en la
práctica sólo aparecen los tres primeros, esos son los mas conocidos en la literatura básica.

Hasta ahora hemos postulado la existencia de P(A) y las propiedades que debe cumplir,
pero no hemos indicado una forma de obtener en la práctica una función P que satisfaga las
propiedades. A partir de este momento vamos a establecer suposiciones que conduzcan a un
método válido para evaluar probabilidades.

Vamos a iniciar el trabajo suponiendo que el experimento E tiene sólo un número finito de
elementos, y bajo supuestos adicionales muy simples (y verificables) vamos a construir una
P(A) válida.

Caracterización de P(A) bajo un Espacio Muestral Finito


Suposición: espacio muestral finito, es decir S = {a1,a2,..., ak}

Definiremos como evento elemental (ó simple, ó resultado elemental) al evento constituido


por un sólo resultado, es decir Ai = {ai} para i = 1,…,k.

Asignamos un número pi a cada Ai mediante P(Ai) = pi tal que:


1. pi ≥ 0

2. p1 + + pk =1

Estos números son consistentes, por definición, con los postulados de probabilidades, lo
cual se puede verificar fácilmente.

Así, A = {a j1 ,, a jr } para 1 ≤ r ≤ k entonces

P ( A) = P ( Aj1 ∪ A j2 ∪  ∪ A jr ) = P ( A j1 ) + P ( Aj 2 ) +  + P ( A jr ) = p j1 + p j2 +  + p jr
Ahora vamos a darle valores a los pi

Suposición: resultados equiprobables o igualmente probables.

Si los k resultados son equiprobables entonces


1 = p1 + p2 +  + pk = pi + pi +  + pi = kpi

1
Lo cual implica que pi = para i = 1,…,k.
k
r
Así, si consideramos el evento A definido anteriormente, P ( A) =
k
Esta forma de pensar nos lleva a la conocida fórmula de “casos favorables entre casos
totales” para calcular probabilidades. Formalmente se escribe:
número de puntos de S en A
P ( A) =
número de puntos de S

Técnicas de Conteo
Definiciones previas:
El número de posibles ordenaciones de x objetos es x! = x(x-1)(x-2)...(2)(1), es decir el
producto de todos los números inferiores a x. Este número se lee x factorial.

Regla m x n:
La regla del producto se aplica a situaciones en las que se busca un número de maneras
distintas que las que se pueden formar pares de objetos, en donde los objetos se seleccionan
de dos grupos distintos.
Este principio se conoce también como regla de multiplicación ó regla m por n.

Permutaciones:
El número de permutaciones de n objetos tomados de k en k es el número de posibles
ordenaciones cuando k objetos han de ser seleccionados de un total de n y dispuestos en
n!
orden. Este número se calcula por la fórmula Pk =n Pk = ( n −k )! y se lee permutaciones
n

de n en k. En realidad se trata de una extensión de la regla m x n.

Combinaciones:
El número de combinaciones de n objetos tomados de k en k es el número de subconjuntos
de tamaño k que se pueden formar de un conjunto de n elementos. Este número se calcula

Pk n!
por la fórmula n Ck = =
n
y se lee combinaciones de n en k. Generalmente se
k! k!(n − k )!
aplica en situaciones en las que el orden no es importante.

Muestreo

Muestra al azar:

Supongamos que tenemos n objetos. Escoger al azar k objetos entre los n objetos originales
( 0 ≤ k ≤ n ) significa que cada subconjunto de tamaño k tiene la misma probabilidad de ser
elegida que cualquier otro subconjunto.

Muestreo con reemplazo ( o con reposición):


Consiste en seleccionar un objeto de una colección y devolverlo a la misma después de
anotar su característica de interés.

Muestreo sin reemplazo (o sin reposición):


Consiste en seleccionar un objeto de una colección sin devolverlo a la misma después de
anotar su característica de interés.

En principio, al efectuar un muestreo con reemplazo el espacio muestral no cambia, de


forma que en caso de seleccionar otra muestra posteriormente, las probabilidades originales
no cambian. En cambio en el muestreo sin reemplazo el espacio muestral se modifica, y
con el se modifica también la probabilidad.

Ejercicios
1. Un candado de combinación abre sólo cuando la combinación correcta de los tres
dígitos es seleccionada. Cada dígito puede ser cualquier número entre 0 y 9. Si una
combinación particular de dígitos representa a un punto muestral, ¿cuántas puntos se
están utilizando para definirlo?
2. El presidente, vicepresidente, secretario y tesorero de una determinada asociación, se
elegirán de entre 10 candidatos. Encuentre el número de maneras distintas en que estos
puestos pueden ocuparse.
3. Un experimento consiste en asignar 10 trabajadores para 10 tareas distintas (un
trabajador por tarea y viceversa). ¿De cuantas maneras se pueden asignar las 10 tareas a
los 10 trabajadores?
4. Si se seleccionó una muestra de 10 enfermeras de un total de 90 de un hospital,
¿cuántas posibles muestras había?
5. Si se seleccionan cinco cartas con reposición (esto es, se selecciona al azar la primera y
se regresa al conjunto de cartas, etc.) de un mazo de 52 cartas, ¿cuántas selecciones
posibles hay?
6. Para el ejercicio anterior suponga que no hay reposición. ¿Cuántas selecciones posibles
hay?
7. En un departamento con 18 empleados, se debe efectuar una reducción de un tercio del
personal. Si todos los empleados tienen igual desempeño, ¿de cuántas formas se pueden
elegir los grupos de despidos?
8. En una habitación 25 personas tienen insignias numeradas del 1 al 25. Se eligen 5
personas al azar y se les pide que dejen la habitación inmediatamente y se anotan los
números de sus insignias.
a. ¿Cuál es la probabilidad de que el número menor de las insignias sea 7?
b. ¿Cuál es la probabilidad de que el número mayor de las insignias sea 7?
c. ¿Cuál es la probabilidad de que los números de las cinco insignias estén
comprendidas entre 9 y 21?

Teorema de Probabilidad
Sean A y B dos eventos, y Ac el complementario. Siempre se satisfacen las fórmulas
siguientes:
• P(Ac) = 1 – P(A)
• P(B) = P(A ∩ B) + P(Ac ∩ B)
• P(A ∪ B) = P(A) + P(Ac ∩ B)

Teorema de la suma de probabilidades


La probabilidad de la unión de dos eventos cualesquiera A y B es
P(A ∪ B) = P(A) + P(B) - P(A ∩ B)

Probabilidad Condicional
Dados dos eventos A y B, se define la probabilidad condicional de A dado B como
P( A ∩ B)
P( A | B) = , siempre que P(B) > 0
P( B)

Similarmente se define
P( A ∩ B )
P ( B | A) = , siempre que P(A) > 0
P ( A)

Propiedades de la probabilidad condicional


1. 0 ≤ P( A | B) ≤1
2. P ( S | A) =1
3. P( A | S ) = A
∞ ∞
4. P (  Ai | B ) = ∑ P ( Ai | B ) si Ai ∩ A j = 0 para i ≠ j
i =1 i =1

En general tenemos dos formas de calcular P ( A | B ) :


a. Directamente, considerando la probabilidad de A respecto al espacio muestral S.
b. Usando la definición, donde P ( A ∩ B ) y P(B) se calculan respecto al espacio
muestral original S.

Regla del producto de probabilidadeds


También conocido como Teorema de Multiplicación, se puede ver como una consecuencia
de la definición de probabilidad condicional, indica que la probabilidad de la intersección
de dos eventos cualesquiera A y B es:
P(A ∩ B) = P(A|B)P(B) = P(B|A)P(A)
La generalización de esta regla para n eventos nos lleva a:
P ( A1 ∩ ∩ An ) = P ( An | A1 ∩ ∩ An−1 ) P ( An−1 | A1 ∩ ∩ An−2 )  P ( A3 | A1 ∩ A2 ) P ( A2 | A1 ) P ( A1 )

Independencia de Eventos
Dados dos eventos A y B se dice que son independientes estadísticamente, o simplemente
independientes, si y sólo si
P(A ∩ B) = P(A)P(B)

En otras palabras, A y B son independientes si y solo si P(A|B) = P(A) siempre que P(A)
sea diferente de 0 y también si P(B|A) = P(B) siempre que P(B) sea diferente de 0.

En general n eventos A1 , , An , se dicen independientes si y sólo si


P( A1 ∩ ∩ An ) = P( A1 ) P( A2 ) ... P( An )

En general n eventos A1 , , An , se dicen mutuamente independientes si y sólo si para


cualquier valor k = 2, 3, 4, …, n se tiene:
P( Ai1 ∩ ∩ Ai k ) = P( Ai1 ) P( Ai 2 ) ... P( Ai k )
Partición
Los eventos A1 , , An conforman una partición del espacio muestral S si
1. Ai ∩ A j = Ø para i ≠ j
n
2.  Ai = S
i =1

3. P ( Ai ) > 0 para todo i

Teorema de Bayes
Teorema de Bayes para dos eventos:
Dados los eventos A y B, entonces se cumple que
P( A | B) P( B)
P ( B | A) =
P ( A)

Teorema de Bayes para k eventos:


Dados k eventos E1, E2, ..., Ek, mutuamente excluyentes y colectivamente exhaustivos, y otro
evento A, entonces se cumple que
P( A | Ei ) P ( Ei ) P ( A | Ei ) P( Ei )
P ( Ei | A) = =
P( A) P ( A | E1 ) P ( E1 ) +  + P ( A | Ek ) P ( Ek )

Probabilidades Bivariadas
Supóngase que al realizar un experimento los resultados puedan ser clasificados según dos
reglas de clasificación diferentes. Por ejemplo, un grupo de personas puede ser clasificado
por su edad y por su sexo.
Sea un experimento aleatorio y A1, A2, ..., Ah y B1, B2, ..., Bk dos grupos de eventos donde los
Ai son mutuamente excluyentes y colectivamente exhaustivos, así como los B j. Estos
grupos de eventos se denominan eventos bivariantes.
Las probabilidades conjuntas son las que se obtienen mediante P(Ai ∩ Bj)
Las probabilidades marginales son la que se obtienen mediante P(Ai) ó P(Bj)

Los aspectos importantes de esta forma de clasificar los datos está en que facilita el
planteamiento de los problemas donde hay dos formas de clasificar los resultados.

Las tablas de frecuencia que se arman previo al cálculo de probabilidades se conocen como
tablas de contingencia. Cuando las frecuencias son sustituidas por probabilidades se habla
de las probabilidades bivariadas o bivariantes.

Si a las reglas de clasificación las llamamos atributos A y B respectivamente como


representantes de cada uno de sus grupos de eventos mutuamente excluyentes y
colectivamente exhaustivos, decimos que dichos atributos son independientes si todo
evento Ai es independiente de todo evento Bj.

Ejercicios:
1. Un estudio sobre los estudiantes de la Universidad “ X ” reveló que el 20% fuma. La
probabilidad de enfermedad pulmonar, si una persona fuma es diez veces mayor que la
probabilidad de que se enferme del pulmón si no lo hace. Si la probabilidad de
enfermedad pulmonar es de 0.014 en nuestro país, ¿cuál es la probabilidad de que un
estudiante de la Universidad “ X “ sufra enfermedades pulmonares si fuma?
2. Supongamos que lanzamos dos dados. Se definen los eventos de la manera siguiente:
A = {el primer dado muestra un número par}
B = {el segundo dado muestra un número impar}
C = {ambos dados muestran números pares ó números impares}
Halle la probabilidad de cada evento, de cada par de eventos y de la intersección de
todos los eventos. ¿Los eventos son mutuamente independientes?
3. Cada vez que se realiza un experimento, la ocurrencia de un evento particular A es igual
a 0.2. El experimento se repite, independientemente, hasta que A ocurre. Calcular la
probabilidad de que sea necesario ejecutar un cuarto experimento.
4. Un conjunto electrónico consta de dos subsistemas, digamos A y B. A partir de una
serie de pruebas previas, se presuponen las siguientes probabilidades:
P(A falle) = 0.20
P(sólo B falle) = 0.15
P(A y B fallen) = 0.15
Calcular las probabilidades siguientes:
a. P(A falle | B haya fallado)
b. P(A falle solamente)
5. En la fabricación de cierto artículo se presenta un tipo de defectos con una probabilidad
de 0.1 y defectos de un segundo tipo con probabilidad de 0.05. Suponiendo
independencia entre los tipos de defectos, calcule la probabilidad de:
a. Un artículo no tenga ambas clases de defectos.
b. Un artículo sea defectuosos.
c. Suponiendo que un artículo sea defectuoso, tenga sólo un tipo de defecto
6. Tres componentes de un mecanismo, digamos C1, C2 y C3 están colocados en serie (en
una línea recta). Supóngase que estos mecanismos están agrupados en orden aleatorio.
Sea R el evento {C2 está a la derecha de C1}, y S el evento {C3 está a la derecha de
C1}. ¿Los eventos R y S son independientes?

Ejercicios
1. Suponga que se tira un dado no cargado una sola vez. A) ¿Cuál es la probabilidad
de obtener un par?. B) ¿Cuál es la probabilidad de obtener un número mayor que 4?.
Sol: (a) 3/6, (b) 2/6.
2. Se lanza una vez un par de dados no cargados, a) ¿cuál es la probabilidad de que la
suma de los dos números sea 2 (b) ¿ sea 7?,(C) ¿sea 11?.
Sol: (a) 1/36, (b) 6/36, (c) 2/36.
En determinado grupo hay 20 estudiantes, 7 son chicas rubias de ojos azules, 4 tienen
cabello castaño y ojos azules, 5 son muchachos rubios de ojos azules y los 4 restantes son
muchachos de cabello castaño y ojos cafés. Si se selecciona un estudiante al azar: a) ¿cuál
es la probabilidad de que el estudiante elegido sea una chica (b) que tenga ojos azules?, (c)
que tenga cabello castaño?, (d) que sea rubia y tenga ojos cafés?. Se supone que los 20
estudiantes están numerados en algún orden específico.
Sol: (a) 11/20, (b) 16/20, (c) 8/20, (d) 0.
3. Una caja contiene 7 fichas rojas y 3 blancas; si se sacan tres fichas de la caja una
después de la otra sin reemplazo, encontrar la probabilidad de que la dos primeras sean
rojas y la otra blanca.
Sol: 7/40.
4. Tres cartas son sacadas en forma aleatoria sin reemplazo de un juego de cartas
ordinarias. ¿Cuál es la probabilidad de que todas las cartas sean reyes?.
Sol: 4/22.100.
5. ¿Cuántas manos diferentes de 5 naipes pueden darse con un juego de barajas
ordinarias?.
Sol: 2.598.960.
6. Si de una caja se sacan al azar 4 bolas rojas y 2 blancas y se colocan en una hilera;
(a) ¿cuál es la probabilidad de que la de los extremos sean blancas?. (B) ¿de qué no
sean blancas?. (C) ¿de qué las dos blancas estén juntas?.
Sol: (a) 1/15, (b) 14/15, (c) 240/720.
7. Una ensambladora de partes eléctricas usa motores de dos orígenes; de una
compañía “A”, que le suministra el 90% de los motores y de una compañía “B”, que le
suministra el otro 10% de los motores. Supóngase que es conocido que, el 5% de los
motores suministrados por la compañía “A” son detectados como defectuosos y 7% de
los suministrados por la compañía “B” son defectuosos. La ensambladora de partes
eléctricas encontró un motor defectuoso. ¿Cuál es la probabilidad de que este motor sea
suministrado por la compañía “B?”.
Sol: 0,134653.
8. Nos entregan tres cajas que contienen lo siguiente:
Caja “A” contiene 3 bolas rojas y 5 blancas
Caja “B” “ 2 bolas rojas y 1 blanca
Caja “C” “ 2 bolas rojas y 3 blancas.
Una caja es seleccionada aleatoriamente y se extrae una bola que resulta ser roja. ¿Cuál
es la probabilidad de que provenga de la caja “A?”.
Sol: 45/173.
9. ¿De cuántas maneras pueden ser colocados 10 automóviles en u stock, si 3 de ellos
son Fiat, 4 son Ford, 2 Toyota y 1 BMW?.
Sol: 12.600
10. ¿De cuántas maneras pueden ser seleccionadas 4 personas provenientes de 5 parejas
de casados, si la selección consiste de 2 damas y 2 caballeros?.
Sol: 100.

11. Se lanza un par de dados no cargados una vez, y se establece que los dos números
que aparecen no son los mismos. (A) Calcular la probabilidad de que la suma sea 7. (B)
Calcular la probabilidad de que la suma sea 4. (C) Que la suma sea 12.
Sol: (a) 1/5 (b) 1/15 (c) 0.

12. Con base a su experiencia un médico ha recabado la siguiente información relativa a


las enfermedades de sus pacientes: 5% creen tener un virus infeccioso y lo tienen, 45%
creen tener el virus y no lo tienen, 10% creen no tener el virus pero sí lo tienen y
finalmente 40% creen no tenerlo, lo cual es cierto. Hallar: (a) la probabilidad de que un
paciente si cree tenerlo, (b) la probabilidad de que tenga virus si no cree tenerlo, (c) la
probabilidad de que crea tener virus y no lo tenga y (d) la probabilidad de que crea tener
el virus y sí lo tiene.
Sol: (a) 0,10 (b) 0,20 (c) 0,53 (d) 0,33

13. ¿Cuál es la probabilidad de encontrar solamente un 6 en el lanzamiento de un dado


tres veces?.
Sol: 75/216.
Variables Aleatorias Discretas y Continuas

Muchas veces se desea resumir con un número el resultado de un experimento aleatorio.


En muchos de los ejemplos relativos a experimentos aleatorios que han sido considerados
hasta ahora, el espacio muestral es sólo una descripción de los posibles resultados. En
algunos casos tales descripciones son suficientes, pero en otros se hace útil asociar un
número con cada resultado del espacio muestral. Es así como se llega a la definición de
variable aleatoria.

Una variable aleatoria X es una función que asigna un número real a cada resultado en el
espacio muestral S de un experimento aleatorio. El conjunto de los posibles valores de la
variable aleatoria X se denomina rango. Diremos que la variable aleatoria es discreta si su
rango es finito (o infinito contable).

Variable aleatoria discreta


Una variable aleatoria es discreta cuando puede tomar un número finito o infinito contable
de valores, es decir que pueden ordenarse en secuencia.

Ejemplos de variables aleatorias discretas:


 Número de hermanos de una persona seleccionada al azar
 Número de accidentes que ocurren en una autopista en un tiempo determinado
 Número de veces que se lanza una moneda hasta que aparezca la primera cara, etc.

Variable aleatoria continua


Una variable aleatoria es continua cuando toma cualquier valor dentro de un intervalo de
número reales.

Ejemplos de variables aleatorias continuas: edad, estatura, peso, temperatura, ingreso, etc.

Distribución de probabilidad de una variable aleatoria discreta


Diremos que la función p(x)=P(X=x) que va del conjunto de valores posibles de la variable
aleatoria X al intervalo [0, 1] es la función distribución de probabilidad para X si y sólo
si se satisfacen las siguientes propiedades:

0 ≤ p(x) ≤ 1 , para todo x

∑p( x) =1
x

Se define la distribución acumulada F(x) para la variable aleatoria X como

F(x) = P(X ≤ x) = t∑
p( t)
≤x

Ejemplo 1

Experimento aleatorio: se lanza una moneda 3 veces


S = { ccc, ccs, csc, css, scc, scs, ssc, sss }

Sea X : Número de caras observadas

x 0 1 2 3
p(x) 1 3 3 1
8 8 8 8
La distribución anterior es una distribución de probabilidades para la variable aleatoria X,
en efecto 0 ≤ p(x) ≤ 1 para todo x (x = 0, 1, 2 y 3) y además ∑p( x) =1. Para
x
determinar la distribución acumulada de probabilidad observe que
P(X ≤ 0) = P(X = 0) = 1
8

P(X ≤ 1) = P(X = 0) + P(X = 1) = 1 +3 = 1


8 8 2

P(X ≤ 2) = P(X = 0) + P(X = 1) + P(X = 2) = 1 +3 +3 =7


8 8 8 8

P(X ≤ 3) = P(X= 0) + P(X= 1) + P(X= 2) + P(X= 3) = 1 + 3 + 3 + 1 =1


8 8 8 8
Se tiene entonces,

x 0 1 2 3
F(x) 1 1 7 1
8 2 8

Si X es una variable aleatoria, y el experimento aleatorio que determina el valor de X se


repite muchas veces, entonces se obtiene una secuencia de valores para X. A partir de esta
secuencia de valores se puede identificar el valor promedio o valor esperado de la variable
aleatoria X, que denotamos E(X) , y se define en la forma siguiente:

E(X) = ∑xp( x)
x
Propiedades:
a) E(k)=k
b) E(kX)=kE(X)
c) E(X± Y)=E(X)± E(Y)
d) E(g(X))=∑g(x)p(x)

Para el ejemplo dado, E(X) = ∑xp( x) = 0 p( 0 ) +1p( 1) +2p( 2) + 3p( 3)


x
1 3 3 1 12 3
= 0 . + 1. + 2. + 3. = =
8 8 8 8 8 2

A veces, el interés es determinar la variabilidad de la variable aleatoria. Definimos entonces


la varianza de la variable aleatoria X, denotada V(X) ,ó σ2 mediante la siguiente ecuación:
V(X)=E[(X-E(X))2] y su forma reducida es:

V(X) ( )
= E X2 −[ E( X)]2
donde, (
E X2 )= ∑
x
x2 p( x)

Para el ejemplo dado, (


E X2 ) = 0 2 p( 0) +12 p(1) +22 p(2) +32 p( 3)
1 3 3 1 24
= 0 . + 1. + 4. + 9. = =3
8 8 8 8 8

2
3 12− 9 3
Entonces, V(X) = 3 −   = =
 2 4 4

Propiedades de la Varianza:
a) V(k)=0
b) V(kX)=k2V(X)
c) V(X± Y)=V(X)+V(Y) si X y Y son independientes
d)

La desviación estándar de la variable aleatoria X es la raíz cuadrada positiva de la varianza,


es decir, σ = V(X) .

Modelos discretos de probabilidad:

Distribución Binomial

Un ensayo Bernoulli, es un experimento aleatorio que sólo admite dos posibles resultados,
denotados éxito y fracaso. La probabilidad de éxito se denota p y la probabilidad de
fracaso por q.
Por lo tanto si denotamos el éxito por 1 y el fracaso por 0 se tiene:
P (1) = p P (0) = 1-p = q
Además se cumple: E (X) = p V(X) = pq

Un proceso Bernoulli es un proceso en el cual se verifican las siguientes condiciones:

El experimento aleatorio se repite n veces en idénticas condiciones

Hay sólo dos posibles resultados en cada repetición del experimento, llamados
arbitrariamente éxito y fracaso

La probabilidad de éxito, denotada p, es la misma para cada repetición (permanece


constante entre repeticiones)
las n repeticiones del experimento aleatorio son independientes entre sí.

Consideremos ahora la variable aleatoria X: Número de éxitos observados en n


repeticiones. Suponga que se quiere determinar la probabilidad de observar x éxitos en n
repeticiones; esto es, se desea determinar P(X = x). Como lo importante es observar x
éxitos en n repeticiones, el orden de ocurrencia de los mismos es irrelevante; así, para
contar de cuántas formas pueden observarse x éxitos en n repeticiones empleamos las

 n
combinaciones 
 x
 . Por otro lado, como las n repeticiones del experimento son
 
independientes entre sí y calcular P(X = x) equivale a calcular la probabilidad de una
intersección de eventos (en las que cada evento corresponde a un éxito o a un fracaso),
tenemos que la probabilidad de un punto muestral cualquiera asociado al experimento es
px qn−x; en definitiva:
 n x n− x
P(X = x) =  x p q parax = 0 , 1, 2,...,n
 

 n
n  n
x n− x
Dado que 0 ≤  x p q ≤ 1 y ∑  x px qn− x =1, resulta que
  x=0 

una variable aleatoria X se distribuye Binomial con parámetros n y p si su funcion de


probabilidad es:
 n x n− x
P(X = x) =  x p q parax = 0 , 1, 2,...,n
 

En resumen X ˜ B ( n , p ) “se lee la variable aleatoria X se distribuye Binomial

con parámetro n y p”.

O, la variable aleatoria X tiene distribución binomial si su función distribución de


probabilidad está dada por
 n  x n − x
  p q
p( x) =  x 
si x = 0 , 1 , ... , n
 
 0 otros valores

Se puede demostrar que para una variable aleatoria con distribución binomial
E(X) = µ = n.p ( Valor esperado de X o esperanza matemática de X )
V(X) = n.p.q ( Varianza de X )

Ejemplo 1

Una máquina fabrica una determinada pieza y se sabe que produce un 7 por 1000 de piezas
defectuosas. Hallar la probabilidad de que al examinar 50 piezas sólo haya una defectuosa.

Solución :

Se trata de una distribución binomial de parámetros B (50, 0'007) y debemos calcular la


probabilidad p(X=1).

Ejemplo 2

La probabilidad de éxito de una determinada vacuna es 0,72. Calcular la probabilidad de


que una vez administrada a 15 pacientes:
a) Ninguno sufra la enfermedad
b) Todos sufran la enfermedad
c) Dos de ellos contraigan la enfermedad

Solución :

Se trata de una distribución binomial de parámetros B(15, 0'72)


Ejemplo 3

La probabilidad de que el carburador de un coche salga de fábrica defectuoso es del 4 por


100. Hallar :
a) El número de carburadores defectuosos esperados en un lote de 1000
b) La varianza y la desviación típica.

Solución :

Distribución Normal

Sea una variable aleatoria X que toma todos los valores reales, y que posee una esperanza o
media μ y una desviación estándar σ . Esa variable tiene una Distribución Normal o
Gaussiana si su función de densidad de probabilidad es de la forma:

1  1 ( x − μ)2 
f(x) = ⋅ exp − ⋅ , − ∞ < x < ∞

σ 2π  2 σ2 

Los parámetros μ y σ deben satisfacer las condiciones − ∞ < μ < ∞ y σ > 0 . Puesto
que tendremos diversas ocasiones para referirnos a la distribución anterior; utilizaremos la
siguiente notación: X tiene la distribución N ( μ, σ 2 ) sí y sólo si su función de densidad está
dada por la expresión anterior.

El gráfico de f se denomina Curva Normal, la cual es simétrica respecto a un eje vertical


que pasa por el punto x = μ , donde f toma su valor máximo. La forma de la curva es
acampanada, positiva a lo largo del Eje X, creciente en ( − ∞, μ ) y decreciente en ( μ, ∞) .
La curva no corta al Eje X, sino que es asintótica en ambos extremos.

La posición o localización de la curva varía con el valor de μ , y su forma cambia con el


valor de σ . Mientras más pequeña sea la desviación estándar (o dispersión con respecto a
la media), más alta y esbelta es la curva; mientras más pequeña sea la varianza más
achatada será la curva.

La denominación que tiene esta distribución viene del hecho de que al principio se
consideraba que todos los fenómenos en su estado normal debían seguirla. Actualmente,
esta se considera tan corriente como cualquier otro tipo de distribución.

Áreas bajo la Curva Normal

La mayor parte del área de la curva normal se concentra alrededor de μ . El gráfico


siguiente muestra que hay aproximadamente 68,26% del área dentro del intervalo
[ − σ + μ, σ + μ ] , 95,45% del área dentro del intervalo [ − 2 ⋅ σ + μ, 2 ⋅ σ + μ ] , y 99,73% del
área dentro del intervalo [ − 3σ + μ, 3σ + μ ] . No se puede calcular más allá del último
intervalo ya que casi el 100% de los datos o valores está contenido allí. El área total bajo la
curva normal y sobre el Eje X es la probabilidad total, la cual es igual a 1 o 100%. Estas
consideraciones numéricas se conocen bajo el nombre de la Regla Empírica, la cual es
mucho más precisa que la Regla de Tchebyshev .
Fig. 1

Entre la media y una desviación estándar por encima de la media, se encuentra el 34,13%
de todos los casos. Análogamente, el 34,13% de todos los casos se encuentran entre la
media y una desviación estándar por debajo de la media. Dicho de otra manera, 34,13% del
área bajo la curva se encuentra entre la media y una desviación estándar por encima de la
media, y 34,13% del área está comprendida entre la media y menos una desviación
estándar.

Entre la media y dos desviaciones estándar por encima de la media, se encuentra el 47,72%
de los casos. Análogamente, por debajo de la media y menos dos desviaciones estándar se
encuentran el 47,72% de los datos.

Finalmente, entre la media y tres desviaciones estándar por encima de la media se


encuentra el 49,87% de los casos. Análogamente, el 49,87% de los casos se encuentra
entre la media y menos tres desviaciones estándar.
Distribución Normal Estándar y Estandarización de una Normal no estándar

Para diferentes valores de μ y σ los respectivos gráficos son todos similares entre sí más
allá de sus particularidades propias. Las respectivas distribuciones normales se pueden
reducir todas a una especial denominada Distribución Normal Estándar.

La función de densidad de esta distribución asociada a cierta variable Z está dada por:

1  Z2 
f (Z ) = ⋅ exp  − , − ∞ < Z < ∞
2π  2 

Vemos que para esta distribución la esperanza es μ = 0 y la varianza es σ = 1, por lo que


la variable Z tiene la distribución N(0,1).

Una porción de las probabilidades que representan áreas de diferentes tamaños bajo la
curva normal estándar se presentan en la siguiente tabla, donde aparecen los valores de Z a
intervalos de 0,25 unidades de longitud, desde Z = 0 hasta z = 4.

Función de Distribución
de una Curva Normal Estándar

Z F(Z)
0,00 0,00000
0,25 0,09871
0,50 0,19146
0.75 0,27337
1,00 0,34134
1,25 0,39435
1,50 0,43319
1,75 0,45994
2,00 0,47725
2,25 0,48778
2,50 0,49379
2,75 0,49702
3,00 0,49865
3,25 0,49942
3,50 0,49977
3,75 0,49991
4,00 0,49997

Aquí F es la función de distribución de f, y F(Z) es la probabilidad de que el resultado del


experimento aleatorio sea mayor que cero (en este caso es la media μ = 0) y menor que Z.

Para cualquier otra distribución N ( μ, σ 2 ) de una variable X, con μ ≠ 0, σ ≠ 1 y función


de densidad f X , esta se puede estandarizar si aplicamos el cambio de variable Z =

X −μ
, y por tanto:
σ

1  1 ( X − μ) 2  1 1  Z2  1
fX ( X ) = ⋅ exp − ⋅ = ⋅
 σ 2π ⋅ exp −  = ⋅ f ( z )
σ 2π  2 σ2   2  σ

Para cada valor x que asume X se calcula el respectivo valor Z que asume Z usando la
esperanza y la desviación estándar de X, se revisa la tabla de la curva normal estándar, y así
se ubica el valor del área del gráfico de f X que sea anterior a x.

Ahora, al transformar los datos X de una variable normalmente distribuida en datos


estandarizados Z, en realidad expresamos estos datos en unidades de la curva normal
estándar. La importancia de esta transformación radica en que podemos expresar cualquier
dato que provenga de una distribución normal como un valor porcentual. Además, puesto
que los datos estandarizados z representan números abstractos (adimensionales) en
oposición a las unidades concretas de los datos, podemos comparar la posición de un dato
en una variable con su posición en una segunda variable.
Puesto que cualquier forma de curva normal puede ser convertida en la forma de la curva
normal estándar, esta es la única que se requiere para encontrar la probabilidad de una
cierta área bajo la primera curva.

La Distribución Normal como aproximación de una distribución discreta o continua

Generalmente, el gráfico poligonal de una distribución discreta de probabilidad tiende a ser


parecido al de una curva normal. A cada distribución discreta de cualquier variable X con
parámetros conocidos μ y σ , se le puede asociar una distribución normal N ( μ, σ 2 ) , y la
función de probabilidad f definida con dichos parámetros se asemeja bastante a la línea
poligonal en cuestión.

Habiéndose mostrado la manera como toda distribución normal se puede representar por
medio de la distribución estándar N(0,1), se puede definir la forma como toda distribución
discreta se asocia con aquella.
En ese sentido, cada valor Pj de la función de probabilidad P de la variable discreta X puede
ser relativamente aproximado en cada valor Xj mediante la siguiente fórmula:

n
Yj = ⋅ f(Z j ), j = 1, , n
σ

Al graficar la distribución {(X1, Y1), (X2, Y2),…, (Xn, Yn)} uniendo esos pares con trazos
curvos y no lineales, se obtiene un gráfico muy cercano al de la función de probabilidad de
la distribución N ( μ, σ 2 ) .

Con el fin de entender mejor la fórmula y facilitar posteriores cálculos, para cada j = 1,…,
n tenemos que:
n Número de datos de la población
d j = X j −μ Distancia entre el dato y la media
Yj Altura del punto Xj en la curva normal
Zj = d j σ Normalización de la distancia dj
f(zj) Función de probabilidad de Zj

Básicamente, la curva normal se construye de acuerdo con las alturas Y. Para X = μ se


alcanza la altura máxima en esa curva ya construida, y la cual es Y0 =

n μ−μ n n 1
⋅f   = ⋅ f (0 ) = ⋅ . Así como a ambos lados de z = 0 se ubica el 50% del
σ  σ  σ σ 2π

área total de la curva f de la distribución N(0,1), también a ambos lados de Y0 se ubica el


50% del área total de la curva normal de la distribución N ( μ, σ 2 ) .

Ejemplo 1:
Supongamos que X indica el monto de ingresos de 10.000 trabajadores de PDVSA, cuyo
promedio mensual de ingreso es $500 y la desviación estándar es $100. Vamos a construir
una curva normal.

Aquí n = 10.000, μ = 500, σ = 100 y n σ = 10.000


100 = 100.

Consideremos el intervalo [ μ, 3σ + μ ] = [500, 800], y nos moveremos en este con pasos de


tamaño 50. Así obtenemos un conjunto de puntos Xj, j = 1,…, 7, el cual es {500, 550, 600,
650, 700, 750, 800} ⊆ [500, 800]

Usando los valores de la función de distribución de la curva normal, y aplicando la fórmula


para hallar los valores de las ordenadas de la curva normal, obtenemos la siguiente tabla.

n
X d=X– μ Z= d σ f(Z) Y = ⋅ f(Z)
σ
500 0 0.0 0,39894 39,894
550 50 0.5 0,35207 35,207
600 100 1.0 0,24197 24,197
650 150 1.5 0,12952 12,952
700 200 2.0 0,05399 5,399
750 250 2.5 0,01753 1,753
800 300 3.0 0,00443 0,443
Puesto que la curva normal es simétrica, la altura de la ordenada hacia el lado izquierdo de
la media μ debe ser la misma que la del lado derecho de ese valor. Definimos RXj como
aquel punto que está a la misma distancia de la media pero en dirección opuesta a Xj. Por
ejemplo, para X2 = 550 y RX2 = 450, tenemos –d2 = RX2 – μ = 450 – 500 = –50, –Z2 =

−50
= –0,5 y f(–Z2) = f(–0,5) = f(0,5) = 0,35207, por lo que RY2 = 32,207 = Y2. Así, los
100
valores de las ordenadas para RX2 = 450 y X2 = 550, son los mismos puesto que ambos
datos se encuentran a la misma distancia de la media.

Ahora procedemos a dibujar la curva normal correspondiente.

Fig. 2

Como puede observarse, esta curva tiene forma acampanada además de ser simétrica
respecto a la media μ , es decir, es como si el segmento punteado fuese un espejo.
Ejercicio: construyamos una curva normal igual que en el ejemplo anterior pero tomando
la media en $600.

Ejemplo 2:
Supongamos que el ingreso mensual promedio de 10.000 trabajadores de PDVSA es $500
y la desviación estándar es $100. Si la distribución es normal, encontraremos el número de
trabajadores que tiene un ingreso mensual

a) Inferior a $500.
b) Superior a $500 pero inferior a $600.
c) Superior a $600.

Antes de usar la tabla de áreas de la curva normal, el valor de X debe ser transformado

X −μ
en Z = . En este ejemplo, μ = 500 y σ = 100. Por otro lado, tengamos en cuenta
σ
que el 100% del área de la distribución N(500, 100) está asociada al ingreso de 10.000
trabajadores, por lo que un área menor representa menos trabajadores.

a) El área requerida es la inferior a X = 500, la cual es equivalente al punto

500 − 500
z= = 0.
100

Debido a que la máxima ordenada Y0 está localizada en el punto X = μ donde Z = 0, la


región ubicada a la izquierda de Y0 tiene un área que representa el 0,5 o 50% del total del
área de la distribución. Por lo tanto, el número aproximado de trabajadores que tiene un
ingreso mensual inferior a $500 es 10.000⋅ (0,5) = 5.000.

b) Cuando X = 500 entonces Z = 0, y para X = 600 se tiene que Z = 1.


El área o probabilidad entre Z = 0 y Z = 1 es F(1) = 0,34134 o 34,134%. Por lo tanto, el
número aproximado de trabajadores que tienen un ingreso mensual superior a $500 pero
inferior a $600 es n⋅ F(1) = 10.000⋅ (0,34134) = 3.413,4 ≈ 3.414. Gráficamente, el área
está representada por la región sombreada.

Fig. 3

c) Para X = 600 tenemos Z = 1. La zona de interés es un intervalo donde z > 1,


y esa área está representada por la región sombreada en el siguiente gráfico.
Fig. 4

Para calcular esa área procedemos de la siguiente manera: el área por encima de Z = 0 es
0,5 o 50%, y el área por debajo de Z = 1 es F(1) = 0,34134 o 34,134 %. Luego, el área
sombreada se obtiene de la diferencia 0,5 – 0,34134 = 0,15866 o 15.866%. Así, el número
aproximado de trabajadores que perciben un sueldo por encima de $600 es
10.000⋅ (0,15866) =1.586,6 ≈ 1.587.

Ejemplo 3:
Siguiendo con el ejemplo anterior, si μ = $400 y σ = $100, hallaremos la probabilidad
(área) de que los 10.000 trabajadores ganen entre $250 y $500. Dicha probabilidad es la
suma del área entre $250 y μ = $400 más el área entre μ = $400 y $500.

El área entre 250 y 400 se calcula como sigue:


250 − 400 400 − 400
Cuando X = 250 entonces Z = = –1,5, y para X = 400 queda Z = =
100 100
0. Luego, el área entre Z = –1,5 y z = 0 es la misma que el área entre Z = 0 y Z = –1,5
debido a que la curva normal es perfectamente simétrica, y usando la tabla se tiene que
parte del área buscada es A1 = F(–1,5) = F(1,5) = 0,43319.

El área entre 400 y 500 se calcula como sigue:

400 − 400 500 − 400


Cuando X = 400 entonces Z = = 0, y para X = 500 queda z = = 1,0.
100 100
Por la tabla, parte del área buscada es A2 = F(1,0) = 0,34134.

En consecuencia, el área total buscada entre 250 y 500 es A1 + A2 = 0,43319 + 0,34134 =


0,77453 o 77,453%. Esto quiere decir que hay un 77,453% de que los 10.000 trabajadores
de PDVSA ganen entre $250 y $500.
Fig. 5

Ejercicios :
1) Hallar el área bajo la curva normal tipificada:
a) Entre Z = 0 y Z = 1,2 Sol: 0,3849
b) Entre Z = -0,68 y Z = 0 Sol: 0,2517
c) Entre Z = -0,46 y Z = 2,21 Sol: 0,6636
d) Entre Z = 0,81 y Z = 1,94 Sol: 0,1828
e) A la derecha de Z = -1,28 Sol: 0,8997

2) Si "área" se refiere al área bajo la curva normal tipificada, hallar el valor o los valores de
Z
tales que:
a) El área entre 0 y Z sea 0,3770 Sol: Z = ±1,16
b) El área a la izquierda de Z sea 0,8621 Sol: Z = 1,09
c) El área entre -1,5 y Z sea 0,0217 Sol: Z = -1,695 y Z = -1,35
3) El peso medio de 500 estudiantes varones de una universidad es de 68,5 Kg. y la
desviación
típica es de 10 Kg. Suponiendo que los pesos están distribuidos normalmente, hallar el
número de estudiantes que pesan:
a) Entre 48 y 71 kg. Sol: entre 289 y 290 estudiantes.
b) Más de 91 kg. Sol: entre 6 o 7 estudiantes.

4) La media del diámetro interior de una muestra de 200 lavadoras producidas por una
máquina es 1,275 cm. y la desviación típica de 0,0125 cm. El propósito para el cual se han
diseñado las lavadoras permite una tolerancia máxima en el diámetro de 1,26cm. a 1,29
cm., de otra forma las lavadoras se consideran defectuosas. Determinar el porcentaje de
lavadoras defectuosas producidas por la máquina, suponiendo que los diámetros están
distribuidos normalmente.
Sol: 23,02%

5) Si X está distribuida normalmente con media 5 y desviación típica 2, hallar P (X > 8).
Sol: 0,0668

6) Se tiene un programador de entrenamiento diseñado para mejorar la calidad de las


habilidades de los supervisores de la línea de producción. Debido a que el programa es auto
administrativo, los supervisores requieren un número diferente de horas para terminarlo. Un
estudio de los participantes anteriores indica que el tiempo medio que se lleva completar el
programa es de 500 h. y que esta variable aleatoria normalmente distribuida tiene una
desviación estándar de 100 h.
a) ¿Cuál es la probabilidad de que un participante elegido al azar requiera más de 500 h.
para
completar el programa?. Sol: 0,5
b) ¿Cuál es la probabilidad de que un candidato elegido al azar se tome entre 500 h. y 650
h. para completar el programa de entrenamiento?. Sol: 0,4332
c) ¿Cuál es la probabilidad de que un candidato elegido al azar se tome más de 700 h. en
completar el programa?. Sol: 0,0228
d) Suponga que el director del programa de entrenamiento desea saber la probabilidad de
que un participante escogido al azar requiera entre 550 y 650 h. para completar el trabajo
requerido en el programa. ¿Cuánto ha de ser ese valor? Sol: 0,2417
e) ¿Cuál es la probabilidad de que un candidato elegido al azar se tomará menos de 580 h.
para completar el programa? Sol; 0,7881
Teoría de la Estimación Estadística
La inferencia estadística es el proceso de usar resultados muestrales para obtener
conclusiones respecto a las características de una población. En esta sección estudiaremos
los procedimientos estadísticos que permitan estimar dos parámetros de una población: la
media y la proporción.

Razón para estimar


Los administradores utilizan las estimaciones porque se deben tomar decisiones racionales,
sin que tengan la información pertinente completa y con una gran incertidumbre acerca de
lo que pueda deparar el futuro, pero con la intención de que las estimaciones constituyan
una buena aproximación de los parámetros desconocidos de la población.

Estimador
Es la regla o procedimiento, expresado en general por medio de una fórmula, que se utiliza
para deducir la estimación.

Estimación
Es un valor específico observado de un estimador, por lo que asigna uno o varios valores
numéricos a un parámetro de una población sobre la base de datos de muestra.

Tipos de estimación
a) Estimación puntual: consiste en un solo estadístico muestral que se usa para estimar el
valor verdadero de un parámetro de una población que es desconocido.
Por ejemplo, la media muestral es una estimador puntual de la media poblacional µ y

la proporción muestral es un estimador puntual de la verdadera proporción poblacional p


.

Cuando usamos una estimación puntual, sabemos que aunque usemos un método bueno de
estimación es prácticamente improbable que el valor de la estimación coincida con el
verdadero valor del parámetro, así que sería conveniente acompañar nuestra estimación con
alguna medida que nos permitiera expresar la cercanía del estimador al parámetro. Una
solución a ello no los brindan los estimadores por Intervalos de Confianza.
b) Estimación por intervalo: es la estimación de un parámetro de la población dado por dos
números que forman un intervalo que contiene al parámetro con una cierta probabilidad.

Conceptos básicos.

Nivel de Confianza
Está asociado con la probabilidad de que el intervalo de confianza contenga al parámetro de
la población y es expresado en porcentaje. Los niveles de confianza que más se utilizan son
90%, 95% y 99%.
Interpretación de los intervalos de confianza
Un intervalo de confianza se puede interpretar de dos maneras diferentes.

Ejemplo: una directora de tiendas cree que el gasto medio de sus clientes en el último año
se encuentra en el intervalo de 35 a 38 dólares y concede una confianza del 95% a ese
intervalo.

Intervalos de confianza para la media poblacional y la proporción (muestras grandes)


Con el objeto de mostrar cómo se construyen los intervalos de confianza, realizaremos la
deducción de uno de ellos. Para el resto de los intervalos el procedimiento es similar así que
se darán sólo las expresiones para el cálculo de los mismos.
Para la construcción de los Intervalos es necesario tener en cuenta la distribución muestral
de los estimadores de interés, así que diferenciaremos los casos de manera análoga a como
lo hicimos para estudiar las distribuciones en el muestreo.

I ) Intervalos de Confianza para la Media de una población con varianza conocida.


�_ _________ ___________
Ejemplo.1
Se encuentra que la concentración promedio de zinc que se saca del agua a partir de una
muestra de mediciones de zinc en 36 sitios diferentes es de 2.6 gramos por mililitro.
Encuentre los intervalos de confianza de 95% y 99% para la concentración media de zinc
en el río. Suponga que los datos siguen una distribución normal con una desviación
estándar de 0.3.
Como se puede observar en los resultados del ejercicio se tiene un error de estimación
mayor cuando el nivel de confianza es del 99% y más pequeño cuando se reduce a un nivel
de confianza del 95%

Ejemplo 2
Ejemplo 3
Una empresa eléctrica fabrica 3000 focos con una duración aproximadamente distribuida
de forma normal con una desviación estándar de 40 horas. Si una muestra de 300 focos
tiene una duración promedio de 780 horas, encuentre un intervalo de confianza de 96%
para la media de la población de todos los focos que produce esta empresa.
Solución:
En este caso la varianza de la población es conocida, la población es finita, así que:
Ejemplo 4
Un biólogo quiere estimar el peso promedio de los capibaras cazados en el estado Apure.
Un estudio anterior de diez capibaras cazados mostró que la desviación estándar de sus
pesos es de 12.2 libras. ¿Qué tan grande debe ser una muestra para que el biólogo tenga el
95% de confianza de que el error de estimación es a lo más de 4 libras?
En consecuencia, si el tamaño de la muestra es 36, se puede tener un 95% de confianza en
que m difiere en menos de 4 libras de .

Ejemplo 5
Una empresa eléctrica fabrica focos que tienen una duración aproximadamente normal
con una desviación estándar de 40 horas. ¿De qué tamaño se necesita una muestra si se
desea tener 95% de confianza que la media real esté dentro de 10 horas de la media real?
Ejemplo 3.6
1.Una legisladora estatal desea encuestar a los residentes de su municipio para conocer qué
proporción del electorado conoce la opinión de ella, respecto al uso de fondos estatales para
pagar abortos, ella supone que el 50% del electorado conoce su opinión.¿Qué tamaño de
muestra se necesita si se requiere una confianza del 95% y un error máximo de estimación
de 0.10?

Solución:
La proporción de residentes que conoce la opinión de la legisladora es de 0.5, así
que:

Se requiere un tamaño de muestra de 97 residentes para que con una confianza del 95% la
estimación tenga un error máximo de 0.10.

Control de la anchura del intervalo


Es evidente que si se estrecha el intervalo, se suministrará al investigador una estimación
más exacta del valor del parámetro. Hay dos métodos corrientes para estrechar un intervalo,
pero para ambos se debe hacer un sacrificio adicional. Estos procedimientos
son:
a) Ajuste del nivel de confianza: por la propia naturaleza de los intervalos de confianza, si
se acepta un nivel de confianza más bajo, se podría generar un intervalo más preciso,
menos amplio, pero eso aumenta la probabilidad de error.
b) Ajuste del tamaño de la muestra: el aumentar el tamaño de la muestra disminuye el error
esperado y es más probable que se dé una estimación más ajustada del valor verdadero del
parámetro, con ello se puede conservar un nivel de confianza determinado y al mismo
tiempo disminuir la anchura del intervalo; pero el sacrificio es un aumento ya sea de
tiempo, del gasto, etc.; que se exige para recoger los datos para una muestra mayor.
Contraste de Hipótesis1

La prueba de hipótesis y la estimación son dos de las ramas principales de la inferencia


estadística2

El objetivo de la estimación es obtener una aproximación al valor de cierto parámetro de la


población y la finalidad de la prueba de hipótesis es decidir si una afirmación acerca de
una característica de la población es verdadera.

1
Otros nombres de contraste de hipótesis utilizados en la bibliografía estadística son: Prueba de hipótesis,
docimasia de hipótesis, test de hipótesis, prueba de significación.
2 Estos Apuntes están basados principalmente en: Newbold, Paul. Estadística para los Negocios y la
Economía. Y en Stevenson,. W. Estadística para Administración y Economía.
Ejemplo 1:
Es posible desear determinar si afirmaciones como las siguientes son ciertas: 3
1. Un fabricante que produce cereales de desayuno afirma que, en promedio, el contenido
de cada caja pesa al menos 200 gramos. Para verificar esta afirmación, se pesa el contenido
de una muestra aleatoria y se infiere el resultado a partir de la información muestral.

2. Una compañía recibe un gran cargamento de piezas. Sólo puede aceptar el envío si no
hay más de un 5% de piezas defectuosas. La decisión de aceptar la remesa puede basarse en
el examen de una muestra aleatoria de piezas.

3. Un profesor está interesado en valorar la utilidad de realizar regularmente pruebas cortas


en un curso de estadística. La asignatura consta de dos partes y el profesor realiza esta
prueba sólo en una de ellas. Cuando acaba el curso, compara los conocimientos de los
estudiantes en las dos partes de la materia mediante un examen final y analiza su hipótesis
de que las pruebas cortas aumentan el nivel medio de conocimientos.

Los ejemplos propuestos tienen algo en común. La hipótesis se formula sobre la población,
y las conclusiones sobre la validez de esta hipótesis se basan en la información muestral.

Hipótesis Estadística

Es cualquier enunciado, teoría, conjetura, tentativa, afirmación que se haga sobre una o más
características poblacionales como un parámetro, la distribución de probabilidad de una
población, etc.

____________________
3
Newbold, Paul. Estadística para los Negocios y la Economía. Pág. 281.
Nunca se sabe con absoluta certeza la verdad o falsedad de una hipótesis estadística, a no
ser que se examine toda la población. Esto, por supuesto, sería impráctico en la mayoría de
las situaciones. En su lugar, se toma una muestra aleatoria de la población de interés y se
utilizan los datos que contiene tal muestra para proporcionar evidencias que confirmen o no
la hipótesis.

La evidencia de la muestra que es inconsistente con la hipótesis planteada conduce a un


rechazo de la misma, mientras que la evidencia que apoya la hipótesis conduce a su
aceptación. De ahí que el aspecto principal de la prueba de hipótesis sea determinar si la
diferencia entre un valor propuesto de un parámetro poblacional y el valor estadístico de
la muestra se debe razonablemente a la variabilidad del muestreo. O si la discrepancia es
demasiado grande para ser considerada de esa manera, lo cual en el argot estadístico es
conocido como que la diferencia es significativa.

Considérese la siguiente situación:


Se inspecciona una muestra de 150 productos de un enorme lote y se observa que el 7% de
ellos está defectuoso. El proveedor de dichos productos garantizó que un porcentaje igual al
5% de cualquier cargamento tendría defectos. La pregunta que se habrá de contestar
mediante la prueba de hipótesis es si la información proporcionada por el proveedor es
verdadera.

Si la proposición realmente es cierta, ¿Cuál sería la causa del hecho de que una muestra
señalara un 7% de partes defectuosas? Una posibilidad es que la causa sea la variabilidad
del muestreo. Si la decisión después de efectuar el análisis es aceptar la afirmación del
proveedor, significa que la discrepancia entre el porcentaje de productos defectuosos
observado en la muestra y el porcentaje de elementos defectuosos propuesto se debe
razonablemente a la variabilidad del muestreo (al azar). Por el contrario, la decisión de
rechazar la afirmación del proveedor, significa que la diferencia entre el valor observado y
el propuesto es demasiado grande como para deberse únicamente al azar.
Hipótesis Nula (H0)
Es la hipótesis que se considera cierta a no ser que se produzca suficiente evidencia en
contra, lo cual puede entenderse como mantener la hipótesis. Es la hipótesis que se plantea
para juzgar si puede ser o no rechazada. En general, se enuncia como hipótesis nula lo que
se viene aceptando, creyendo o asumiendo como lo que es cierto con anterioridad al
estudio.

Hipótesis Alternativa (H1)


Es la hipótesis que se plantea para oponerla a la hipótesis nula. Es un enunciado que ofrece
una alternativa a la proposición en H0, es decir, afirma que la proposición en la hipótesis
nula es falsa. En general, se enuncia en H1 lo que se presume que está sucediendo
(actualmente) y que ha cambiado con respecto a lo que se suponía como verdadero
(anteriormente). En la práctica, esta es la hipótesis de interés para el investigador debido a
que representa generalmente la proposición hipotética que él desea probar.

Ejemplo 2:

Supóngase que una persona es llevada a juicio en un tribunal de justicia. Las hipótesis nula
y alternativa son:
H0: Es inocente
H1: Es culpable
Cuando la persona acusada es llevada ante un tribunal de justicia, en principio, goza de la
presunción de inocencia (“toda persona es inocente hasta que se demuestre lo contrario”).
Como en la hipótesis nula se enuncia lo que se asume como cierto, en este caso H0: Es
inocente.

Por otra parte, en la hipótesis alternativa se plantea lo que se presume o se cree que es la
situación actual y que ha cambiado con respecto a lo enunciado en H0 y es lo que se quiere
probar. De esta manera, debe plantearse bajo esta circunstancia que H1: Es culpable.
Por lo tanto, la acusación debe presentar evidencia suficientemente clara como para
conseguir un veredicto de culpabilidad. Puede darse el caso de que no se rechace que el
enjuiciado “sea inocente” dado que no se han presentado suficientes evidencias.
En el contexto del contraste de hipótesis clásico, la hipótesis nula se considera cierta
inicialmente. La tarea de persuadirnos de lo contrario corresponde a los datos de la muestra.
La aceptación de una hipótesis nula implica tan sólo que los datos de la muestra no
proporcionan evidencia suficiente para rechazarla. Por otro lado, el rechazo implica que la
evidencia muestral la refuta.

Tipos de Hipótesis Nula y Alternativa


Para hacer más general la exposición, se denotará por θ al parámetro poblacional de interés
(por ejemplo, la media poblacional, la varianza o una proporción) y por θ0 para designar un
valor que puede tomar el parámetro θ.

Una hipótesis nula o alternativa, puede designar un único valor, llamado θ0, para el
parámetro poblacional θ. En este caso, se dice que la hipótesis es simple. La notación
simbólica para una hipótesis de este tipo es
H0: θ = θ0
que se lee “La hipótesis nula es que el parámetro poblacional θ es igual al valor específico
θ0”. Por ejemplo, en la situación de los productos defectuosos de un gran lote, el
investigador podría comenzar el estudio con la hipótesis simple de que el porcentaje de
artículos defectuosos es igual a 5%.

Una hipótesis también puede designar un rango de valores para el parámetro poblacional
desconocido. Una hipótesis de este tipo se denomina compuesta y será cierta para más de
un valor del parámetro poblacional. Por ejemplo, la hipótesis nula de que el peso medio de
las cajas de cereales es al menos 200 gramos es compuesta. La hipótesis es cierta para
cualquier peso medio poblacional mayor o igual que 200 gramos.
En muchas situaciones, se contrasta una hipótesis nula simple, digamos, H0: θ = θ0, frente a
una alternativa compuesta. En algunos casos, sólo interesan alternativas a un lado de la
hipótesis nula. Por ejemplo, podría quererse contrastar esta hipótesis nula frente a la
hipótesis alternativa de que el verdadero valor de θ es mayor que θ0, lo cual puede escribirse
como: H1: θ > θ0

Por el contrario, la alternativa de interés puede ser: H1: θ < θ0

Las hipótesis alternativas de este tipo se denominan alternativas unilaterales. Otra


posibilidad es que se quiera contrastar esta hipótesis nula simple frente a la alternativa
general de que el valor de θ es cualquiera distinto de θ0, es decir: H1: θ ≠ θ0
Ésta se conoce como alternativa bilateral.

En resumen, se pueden tener las siguientes combinaciones de hipótesis nulas y alternativas:


1 1. H0: θ = θ0 vs. H1: θ > θ0
2 2. H0: θ = θ0 vs. H1: θ < θ0
3 3. H0: θ = θ0 vs. H1: θ ≠ θ0
4 4. H0: θ ≤ θ0 vs. H1: θ > θ0
5 5. H0: θ ≥ θ0 vs. H1: θ < θ0
6

Obsérvese que en la hipótesis nula siempre se encuentra la posibilidad de la igualdad del


planteamiento. Esto se debe a que, como se mencionó anteriormente, la hipótesis nula
inicialmente se considera cierta.

Nota 1:
La especificación de las hipótesis nula y alternativa apropiadas depende del problema.

Ejemplo 3:
Para ilustrar estos conceptos, se considerarán los ejemplos enunciados al principio de estas
notas:

1. Sea θ el peso medio poblacional (en gramos) de cereales por caja. La hipótesis nula es
que esta media es al menos 200 gramos, luego se tiene la hipótesis nula compuesta:
H0: θ ≥ 200
La alternativa obvia es que el verdadero peso medio es inferior a 200 gramos, es decir,
H1: θ < 200
1 2. La compañía resuelve aceptar envíos de piezas siempre que no tenga evidencia para
sospechar que más del 5% son defectuosas. Denotando por θ la proporción poblacional
de piezas defectuosas. La hipótesis nula aquí es que esta proporción es como mucho
0.05, es decir, H0: θ ≤ 0,05.
2
Basándose en la información muestral, se contrasta esta hipótesis frente a la alternativa
H1: θ > 0,05.

La hipótesis nula, entonces, es que el cargamento de piezas tiene una calidad adecuada,
mientras que la hipótesis alternativa es que no la tiene.

1 3. Supóngase que la conjetura del profesor es que la realización de pruebas cortas


regularmente no produce diferencias en el promedio de las puntuaciones del examen
final. Denotando por θ la diferencia entre las puntuaciones medias poblacionales para
las dos partes del curso, con y sin pruebas cortas regulares. La hipótesis nula es,
entonces, una hipótesis simple:
H0: θ = 0

Sin embargo, el profesor puede sospechar que posiblemente los controles produzcan un
incremento en el promedio y, en consecuencia, querrá contrastar la hipótesis nula frente
a la hipótesis alternativa:
H1: θ > 0

Después de especificar las hipótesis nula y alternativa, y de recoger información muestral,


debe tomarse una decisión sobre la hipótesis nula. Las dos posibilidades son no rechazar
(aceptar) la hipótesis nula o rechazarla en favor de la alternativa. Con el fin de llegar a una
de estas conclusiones, se adopta una regla de decisión basada en la evidencia muestral.
Más adelante se estudiaran reglas de decisión concretas.
Tipos de Errores que se pueden cometer en un Contraste de Hipótesis
Si sólo se dispone de una muestra de la población, entonces el parámetro poblacional no se
conocerá con exactitud (¿Por qué?). Por consiguiente, no se puede saber con seguridad si la
hipótesis nula es cierta o falsa. Por tanto, cualquier regla de decisión adoptada tiene cierta
probabilidad de llegar a una conclusión errónea sobre el parámetro poblacional de interés.

Existen dos tipos de errores que son inherentes al proceso de contraste de hipótesis:
• Error Tipo I: Consiste en rechazar la hipótesis nula (H0) cuando realmente es cierta
• Error Tipo II: Consiste en aceptar la hipótesis nula (H0) cuando realmente es falsa

Si la regla de decisión es tal que P(cometer Error Tipo I ) = α, es decir, la probabilidad de


rechazar la hipótesis nula cuando es cierta es α, entonces α se llama nivel de significación
del contraste. Nótese que α es una probabilidad condicional,
P(Rechazar H0 / H0 es cierta) = α
Puesto que la hipótesis nula tiene que ser aceptada o rechazada, la probabilidad de aceptar
la hipótesis nula cuando es cierta es (1− α), es decir,
P(Aceptar H0 / H0 es cierta) = 1−α.

Por otro lado, la P(cometer Error Tipo II) = β, es decir, la probabilidad de aceptar una
hipótesis nula falsa se denota por β. También puede verse como,
P(Aceptar H0 / H0 es falsa) = β
Entonces, la probabilidad de rechazar una hipótesis nula falsa es (1−β), y se denomina
potencia del contraste. Visto como una probabilidad condicional,
P(Rechaza H0 / H0 es falsa) = 1−β.

En la Tabla 1 se resumen las situaciones posibles en un contraste de hipótesis al tomar la


decisión sobre la hipótesis nula.
Tabla 1.Situación Real y decisiones sobre la hipótesis nula, con las probabilidades
Asociadas a cada decisión, dada una determinado situación real

SITUACIÓN REAL
DECISIONES SOBRE LA HIPÓTESIS NULA
H0 VERDADERA H0 FALSA
Decisión correcta Error Tipo II
ACEPTAR H0
Probabilidad = 1− α Probabilidad = β
Error Tipo I Decisión correcta
RECHAZAR H0
Probabilidad = α Probabilidad = 1−β

Ejemplo 4:

Haciendo referencia al ejemplo del juicio, se aclararán estas ideas. Se tiene que determinar
si la persona llevada a juicio a un tribunal de justicia es inocente o culpable. Como se
estableció más atrás, se consideró como hipótesis nula el que esta persona es inocente
contrastándose con la hipótesis alternativa de que es culpable. Cuando la decisión es
tomada se está en presencia de las situaciones expuestas en la Tabla 1.

Si el veredicto es que el acusado es declarado culpable, es decir, se rechaza H0, entonces


esta decisión puede ser la correcta si efectivamente esta persona es culpable. O por el
contrario, se puede estar ante la presencia de un Error Tipo I que en este caso significa que
¡se está condenando a una persona inocente!

Pero, si el veredicto declara que el acusado es inocente, en otras palabras, se acepta H0, esta
puede ser la decisión correcta si ciertamente esta persona no cometió el delito. O se puede
estar cometiendo un Error Tipo II, lo cual implica que ¡se está declarando inocente a una
persona que realmente es culpable!

Ejercicio
¿Cuál de los dos errores anteriores es más grave? Justifique su respuesta.
Influencia de las Probabilidades α y β sobre una Prueba de Hipótesis
Evidentemente, lo ideal sería que las probabilidades de los dos tipos de error fuesen lo más
pequeñas posible. Sin embargo, hay una clara compensación entre las dos. Cuando se ha
tomado una muestra, cualquier modificación de la regla de decisión que haga menos
probable rechazar una hipótesis nula cierta, inevitablemente, se traducirá en mayor
probabilidad de aceptar esta hipótesis cuando es falsa. En otras palabras, cuando α decrece,
β aumenta y viceversa.

Supóngase que se quiere contrastar, basándose en una muestra aleatoria, la hipótesis nula
de que el verdadero peso medio del contenido de las cajas de cereales es al menos de 200
gramos: H0: θ ≥ 200. Dado un tamaño muestral específico, digamos n = 30 observaciones,
se puede adoptar la regla de decisión de “rechazar la hipótesis nula si el peso medio en la
muestra es inferior a 185 gramos”. Ahora, es fácil encontrar otra regla de decisión para la
cual, la probabilidad de cometer un error de Tipo I es menor. Si se modifica la regla de
decisión anterior para “rechazar la hipótesis nula si el peso medio en la muestra es inferior a
180 gramos”, se conseguirá este objetivo.

Sin embargo, hay que pagar un precio. Si se usa la regla de decisión modificada, será más
probable aceptar la hipótesis nula, tanto si es cierta como si es falsa (¿Por qué?) Por tanto,
al disminuir la probabilidad de cometer un error de Tipo I, se ha aumentado la probabilidad
de cometer un error de Tipo II. La única manera de disminuir simultáneamente las dos
probabilidades de error será obtener más información sobre la verdadera media de la
población, tomando una muestra mayor. Habitualmente, lo que se hace en la práctica, es
fijar la probabilidad de cometer un error de Tipo I a un nivel deseado, es decir, se fija el
nivel de significación α. Esto determina, entonces, la regla de decisión adecuada, que a su
vez determina la probabilidad de un error de Tipo II. Este procedimiento se ilustra en la
Figura 2.

Para ilustrar este procedimiento, considérese de nuevo el problema de contrastar, a partir de


una muestra de 30 observaciones, si el verdadero peso medio de las cajas de cereales es al
menos de 200 gramos. Dada una regla de decisión, se pueden determinar las probabilidades
de los errores de Tipo I y de Tipo II asociadas al contraste. Sin embargo, en realidad, se
procede fijando primero la probabilidad de error de Tipo I. Supóngase, por ejemplo, que se
quiere asegurar que la probabilidad de rechazar la hipótesis nula cuando es cierta sea como
mucho 0,05. Esto se puede conseguir eligiendo un número, k, apropiado a la regla de
decisión “rechazar la hipótesis nula si la media muestral es inferior a k gramos” (más
adelante se explicará cómo se puede hacer esto). Una vez elegido el número k, pueden
calcularse las probabilidades del error de Tipo II usando los procedimientos que se
expondrán más adelante. Así se puede observar que la regla de decisión queda determinada
por el nivel de significación elegido.4
1

Nota 2:

Al usar el criterio de fijar la probabilidad de error Tipo I, α, para encontrar una regla de
decisión; implícitamente se está considerando a este error más grave que el error Tipo II.
Así, al fijar α en un valor pequeño, el investigador está controlando directamente la
probabilidad de cometer un error Tipo I. Por tal razón, al plantear las hipótesis siempre hay
que hacerlo tomando en cuenta esto último, es decir, que “rechazar la hipótesis nula cuando
es cierta” es un error más grave que “aceptar la hipótesis nula cuando es falsa”.
Terminología adicional en el contraste de hipótesis

Estadístico de Contraste (o de Prueba)


Es aquella función de las observaciones muestrales que se usa para determinar si la
hipótesis nula debe ser aceptada o rechazada.

Regla de Decisión
Una regla de decisión define las condiciones que llevan a la aceptación o rechazo de la
hipótesis nula.

Región de Aceptación
Es un rango de valores, tal que si el estadístico de prueba queda dentro, la hipótesis nula se
declara aceptable.

Región de Rechazo
Es un rango separado de valores, tal que si el estadístico de prueba queda dentro, la
hipótesis nula se rechaza.

Valor(es) Crítico(s)
Los valores críticos son los números que definen las fronteras de la región de rechazo.
¿Cómo establecer los valores críticos?
Va a depender del:
1 1. nivel de significación, α.
2 2. tipo de distribución de probabilidad del estadístico de contraste
3 3. tipo de hipótesis alternativa que se esté contrastando (bilateral o unilateral)

Los valores críticos pertenecen a la región de rechazo. En la Figura 3 de forma ilustrativa se


pueden apreciar las regiones de aceptación y rechazo, como también los valores críticos
para las diferentes hipótesis alternativas.
Nota 3:

Los términos aceptar (no rechazar) y rechazar son comúnmente usados para las posibles
decisiones sobre la hipótesis nula en los resúmenes formales de los resultados de un
contraste particular. Sin embargo, estos términos no reflejan adecuadamente las
consecuencias de un procedimiento en el que se fija el nivel de significación y no se
controla la probabilidad de un error de Tipo II. Como ya se ha señalado, la hipótesis nula
tiene estatus de hipótesis mantenida, una hipótesis que se considera cierta salvo que los
datos contengan suficiente evidencia en contra. Además, al fijar el nivel de significación,
generalmente en alguna probabilidad pequeña, se está asegurando que el riesgo de rechazar
una hipótesis nula cierta sea pequeño.
Con esta estructura, una pequeña cantidad de datos no será suficiente para poderse colocar
en posición de rechazar una hipótesis nula, aunque sea completamente errónea. Cuando
aumenta el número de observaciones, es decir, aumenta el tamaño de la muestra, también lo
hace la capacidad de la técnica de contraste para detectar una hipótesis nula falsa. Por tanto,
al “aceptar” una hipótesis nula, no se está asegurando necesariamente, que haya mucho en
su favor. Una afirmación más precisa sobre la situación es “los datos disponibles no
proporcionan suficiente evidencia para rechazar la hipótesis nula” en lugar de “se acepta la
hipótesis nula”.
Se seguirá usando “aceptar” como una manera eficiente de expresar esta idea, pero es
importante tener en cuenta la interpretación de la frase. La situación es muy similar a la de
un tribunal de justicia, donde el acusado, al principio, goza de la presunción de inocencia, y
la acusación debe presentar evidencia contraria lo suficientemente clara como para
conseguir un veredicto de culpabilidad. En el contexto del contraste de hipótesis clásico, la
hipótesis nula se considera cierta inicialmente. La tarea de persuadir de lo contrario
corresponde a los datos de la muestra.5

Casos Particulares
A continuación se introducirá la metodología del contraste de hipótesis clásico. Supóngase
que se dispone de una muestra aleatoria de n observaciones, X1, X2, … , Xn, proveniente de
una población con media μ y varianza σ2. ( También la varianza se denota S2 )

1. Contrastes para la Media Poblacional


El objetivo es contrastar una hipótesis sobre la media poblacional desconocida.
Asumiendo:
• Población con distribución normal
• Varianza poblacional, σ2, conocida

Se comenzará con el problema de contrastar la hipótesis nula de que la media poblacional


es igual a cierto valor, μ0. Esta hipótesis se representa:
H0: μ = μ0
Supóngase que la hipótesis alternativa de interés es que la media poblacional supera este
valor específico, es decir, H1: μ > μ0
Es natural que el contraste sobre la media poblacional, se base en la media muestral . En
este caso particular, el investigador desconfiará de la veracidad de una hipótesis nula, frente
a esta alternativa, si la media muestral observada fuese mucho mayor que μ0.
La idea es buscar la forma de un contraste con un nivel de significación α prefijado.

digamos representada por la v. a. X, se distribuye normalmente, X ~ N(μ, σ2). Por tal


razón, la variable aleatoria ( v . a).

Cuando la hipótesis nula es cierta, μ es igual μ0, y en consecuencia, la variable aleatoria

La variable Z de la ecuación (1) es lo que se llamará Estadístico de Contraste en este caso


particular.
Ahora, se rechazará la hipótesis nula si la media muestral es mucho mayor que el valor μ 0
postulado para la media poblacional. Por tanto, H0 será rechazada si se observa un valor alto
para el estadístico de contraste en la ecuación (1)

Se quiere fijar en α la probabilidad de rechazar la hipótesis nula cuando es cierta. Al igual


que en la parte correspondiente a intervalos de confianza, se denotará por zα el número para
el cual P(Z > zα) = α
que significa, que cuando la hipótesis nula es cierta, la probabilidad de que el estadístico de
prueba Z sea mayor que zα es α.
Por tanto, denotando por a la media muestral observada y si se adopta la siguiente regla
de decisión:
entonces la probabilidad de rechazar H0 cuando es cierta será α, luego α es el nivel de
significación del contraste basado en esta regla de decisión.

Esta situación se observa en la Figura 4, la cual ilustra la distribución muestral del


estadístico de contraste en ecuación (1) cuando la hipótesis nula es cierta, mediante un
gráfico de su función de densidad. En la figura se señala el valor crítico zα, tal que la
probabilidad de superarlo, cuando la hipótesis nula es cierta, es el nivel de significación del
contraste. Esto significa que la probabilidad de obtener un resultado muestral en la
correspondiente región de rechazo, área sombreada de la figura, debe ser α cuando la
hipótesis nula es cierta
Ejemplo 5:

Cuando un proceso de producción de bolas de rodamiento funciona correctamente, el peso


de las bolas tiene una distribución normal con media cinco gramos y desviación estándar
0,1 gramos. Se lleva a cabo una modificación del proceso, y el director de la fábrica
sospecha que esto ha incrementado el peso medio de las bolas producidas, sin modificar la
desviación estándar. Se toma una muestra aleatoria de 16 bolas, y se comprueba que su
peso medio es de 5,038 gramos.
a. ¿Son válidas las sospechas del director de la fábrica? Use un nivel de significación del
5%
b. Responda la pregunta anterior usando, ahora, un nivel de significación del 10%

Solución:
a. Población: Peso (en gramos) de las bolas de rodamiento producidas en una fábrica
Denotando por μ el peso medio (en gramos) de las bolas de rodamientos, se quiere
contrastar H0: μ = 5 frente a H1: μ > 5

¿Por qué son esas las hipótesis?

La regla de decisión es:

De esta manera,
Para un contraste de nivel 5%, en las tablas estadísticas se puede hallar que
Z0,05 = 1,645
Como 1,52 no es mayor que 1,645, no se puede rechazar la hipótesis nula para un nivel de
significación del 5%, es decir, se acepta la hipótesis nula con este nivel de significación. En
otras palabras, si se usa un contraste que nos asegure que la probabilidad de rechazar la
hipótesis nula cuando es cierta es 0,05; los datos de la muestra no contienen suficiente
evidencia como para rechazar esta hipótesis.

En términos del problema, se puede decir que no se han encontrado evidencias en la


muestra que apoyen la sospecha del director de la fábrica en cuanto a que las
modificaciones en el proceso han incrementado el peso medio de las bolas de rodamiento
producidas.

b. Para un contraste de nivel 10%, se tiene que


Z0,10 = 1,28
Como 1,52 es mayor que 1,28, se rechaza la hipótesis nula para un nivel de significación
del 10%. Hasta aquí, existe una cierta evidencia en los datos que sugiere que el verdadero
peso medio supera los 5 gramos.

¿Qué es lo que se entiende por el rechazo de una hipótesis nula?


En el ejemplo anterior, la hipótesis de que el peso medio en la población es 5 gramos fue
rechazada por un contraste con nivel de significación 0,1. Desde luego, esto no significa
que se haya probado que la verdadera media supera los 5 gramos. Partiendo sólo de la
información muestral, nunca será posible asegurar nada sobre un parámetro poblacional.
Por el contrario, se puede pensar que los datos suscitan cierta duda sobre la veracidad de la
hipótesis nula. Si esta hipótesis fuese cierta, entonces el valor observado representaría
una observación de una distribución normal estándar
.Al contrastar hipótesis, lo que realmente se está cuestionando es la verosimilitud
(probabilidad) de observar un valor tan extremo si la hipótesis nula fuese cierta.

En el ejemplo anterior, se vio que la probabilidad de observar un valor mayor que 1,28 es
0,1. Por tanto, al rechazar la hipótesis nula, se está diciendo que la hipótesis nula es falsa o
que se ha observado un suceso poco verosímil (que ocurriría sólo con la probabilidad que
especifica el nivel de significación). Es en este sentido en el que la información muestral
despierta dudas sobre la hipótesis nula.

Obsérvese que en el último ejemplo, la hipótesis nula fue rechazada al nivel de


significación 0,10 pero no fue rechazada al menor nivel 0,05. Al rebajar el nivel de
significación, se está reduciendo la probabilidad de rechazar un hipótesis nula cierta y, en
consecuencia, se está modificando la regla de decisión para hacer menos verosímil que se
rechace la hipótesis nula, tanto si es cierta como si no.
Obviamente, cuanto menor sea el nivel de significación al cual puede rechazarse una
hipótesis nula, mayor será la duda sobre su veracidad. En lugar de contrastar hipótesis con
niveles de significación asignados de antemano, los investigadores suelen determinar el
menor nivel de significación al cual puede rechazarse la hipótesis nula.

Valor p
Es el nivel de significación más pequeño que conduce al rechazo de la hipótesis nula H0.
El valor p señala la probabilidad (suponiendo que H0 sea cierta) de obtener un valor del
estadístico de prueba, por lo menos tan extremo como el obtenido.

Por tanto, de acuerdo con la regla de decisión en el problema anterior, se rechaza la


hipótesis nula para cualquier nivel de significación α tal que zα sea mayor que 1,52. El
valor p del contraste viene dado en este caso por p = P(Z>1.52), que al usar las tablas
estadísticas se encuentra que p = 0,0643. La implicación es que la hipótesis nula puede ser
rechazada para todos los niveles de significación mayores que 6,43%.
Este procedimiento compara la probabilidad, llamada valor p, con el nivel de significancia
α. Si el citado valor p es menor que dicho nivel, H0 se rechaza. Si tal valor es mayor que el
nivel en cuestión, H0 se acepta.

Interpretación del peso de las evidencias contra H0

Si el valor p es menor que6:


a. 0.10, se tiene regular evidencia de que H0 no es verdadera.
b. 0.05, se tiene fuerte evidencia de que H0 no es verdadera.
c. 0.01, se tiene muy fuerte evidencia de que H0 no es verdadera.
d. 0.001, se tiene evidencia extremadamente fuerte de que H0 no es verdadera.

Nota 4:

En los últimos años este concepto ha adquirido gran relevancia. Todos los programas
estadísticos modernos proporcionan valores p, y algunas calculadoras de bolsillo permiten
su cómputo. En consecuencia, actualmente, los estudios aplicados suelen proporcionar
valores p.

Supóngase ahora, que en lugar de una hipótesis nula simple, se quiere contrastar la
hipótesis nula compuesta frente a la alternativa: H0: μ ≤ 5 vs H1: μ > 5
al nivel de significación α. Para la regla de decisión desarrollada en el caso de la hipótesis
nula simple, se vio que si la media de la población es precisamente μ0, entonces la
probabilidad de rechazar la hipótesis nula es α. Para esta misma regla de decisión, si la
verdadera media de la población es menor que μ0, parece aún menos verosímil rechazar la
hipótesis nula. Por tanto, usar esta regla de decisión en el presente contexto garantiza que la
probabilidad de rechazar la hipótesis nula compuesta cuando es cierta es como mucho α.

Supóngase ahora, que en lugar de una hipótesis nula simple, se quiere contrastar la
hipótesis nula compuesta H0: μ ≤ 5 frente a alternativa H1: μ > 5
al nivel de significación α. Para la regla de decisión desarrollada en el caso de la hipótesis
nula simple, se vio que si la media de la población es precisamente μ0, entonces la
probabilidad de rechazar la hipótesis nula es α. Para esta misma regla de decisión, si la
verdadera media de la población es menor que μ0, parece aún menos verosímil rechazar la
hipótesis nula. Por tanto, usar esta regla de decisión en el presente contexto garantiza que la
probabilidad de rechazar la hipótesis nula compuesta cuando es cierta es como mucho α.

6 Tomado de Mason-Lind-Marchal. Estadística para Administración y Economía. Pág. 322.


Procedimiento general para la prueba de hipótesis

Pasos para la contratación de una hipótesis:


1 1. Formulación de hipótesis
2 2. Especificación de un valor de probabilidad crítico o nivel de significación.
3 3. Elección de un estadístico de la muestra y de su distribución para someter a prueba
las hipótesis.
4 4. Establecimiento de una zona de rechazo para Ho.
5 5. Cómputos necesarios.
6 6. Decisión.

Tabla 1 Parámetros y estadísticos de prueba mas comunes

Tabla 2 Estadísticos de prueba para algunos parámetros poblacionales


Prueba de hipótesis acerca de la media poblacional cuando la muestra
proviene de una población distribuida normalmente y con varianza conocida.

Ejemplo. Un médico traumatólogo afirma que el contenido de calcio en


los huesos de mujeres que padecen osteoporosis después de aplicársele
cierto tratamiento es mayor al valor promedio observado para la
población femenina que padece está enfermedad, el cual se sabe es
igual a 270 mg/g con una desviación de 120 mg/g. Para probar su
premisa el investigador determinó el contenido de calcio en los huesos
de 36 individuos que fueron sometidos al tratamiento y pudo determinar
que dicha muestra arroja un valor promedio de calcio igual a 310 mg/g.
La concentración de calcio es una variable que se distribuye
normalmente.

Las hipótesis de investigación son las siguientes:

Ho : El tratamiento para la osteoporosis no tiene ningún efecto

H1 : El tratamiento para la osteoporosis aumenta los niveles de calcio en


los huesos.

Prueba de las hipótesis estadísticas

a. Formulación de hipótesis. Ho : μ = 270 frente a H1 : μ > 270


b. Especificación de un valor de probabilidad crítico o nivel de
significación. α = 0.05

c. Elección de un estadístico de la muestra y de su distribución para


someter a prueba las hipótesis.
Puesto que el parámetro involucrado en la docimasia es la media
poblacional μ, y la variable se distribuye normalmente con varianza
conocida lo más conveniente es usar como estadístico de prueba la
media muestral en su forma derivada Z.
d. Establecer una zona de aceptación para Ho.
Como H1: μ > μo se trata de una prueba de una cola hacia la derecha,
siendo la zona de aceptación la siguiente: ZA = {Z / Z < z }
(1−α)

e. Cómputos (cálculos) necesarios:

f. Decisión:

Como z = 2 > z(0.95) = 1.65 el valor del estadístico de prueba se


encuentra dentro de la zona de rechazo. Por lo tanto se concluye que
los datos proporcionan suficiente evidencia para rechazar Ho.

La información obtenida de la muestra permite afirmar que se tiene


un 95% de confianza que el tratamiento aplicado a los pacientes
enfermos de osteoporosis aumenta el nivel de calcio en los tejidos
óseos.
La información obtenida de la muestra permite afirmar que se tiene un 95% de confianza

que el tratamiento aplicado a los pacientes enfermos de osteoporosis aumenta el nivel de

calcio en los tejidos óseos.

Prueba de hipótesis acerca de la media poblacional cuando la muestra


proviene de una población distribuida normalmente, con varianza desconocida
y tamaño de muestra grande (n > 30).

Ejemplo. Un entomólogo sospecha que en cierta zona endémica para el


dengue el valor de la tasa neta reproductiva (Ro) de una población del
mosquito Aedes aegypti vector de dicha enfermedad, ha cambiado en
relación con el valor determinado hace 5 años el cual era igual a 205
individuos. Con tal propósito determinó el valor de Ro a 40 hembras
criadas en el laboratorio y pertenecientes a una cepa desarrollada a
partir de mosquitos capturados en la zona estudiada. Los resultados
fueron los siguientes:
El investigador sabe que la variable se distribuye normalmente y quiere someter a prueba su
hipótesis no queriendo equivocarse en más del 5% de las veces.

Las hipótesis de investigación son las siguientes:

Ho : La tasa neta de reproducción no ha cambiado

H1 : La tasa neta de reproducción se modificó después de cinco años.

Prueba de las hipótesis estadísticas

a. Formulación de hipótesis
Ho : μ = 205
H1 : μ ≠ 205 (Analice porque la hipótesis alternativa es de diferencia)
b. Especificación de un valor de probabilidad crítico o nivel de significación.
El nivel de significación especificado es α = 0.05

c. Elección de un estadístico de la muestra y de su distribución para someter a prueba las


hipótesis.
Puesto que el parámetro involucrado en la docimasia es la media poblacional μ, y la
variable se distribuye normalmente con varianza desconocida y el tamaño de la muestra
grande lo más conveniente es usar como estadístico de prueba la media muestral en su
forma derivada Z. El valor de la desviación de la muestra se usa para estimar el
valor de σ.

d. Establecer una zona de aceptación para Ho.

Como H1: μ ≠ μo se trata de una prueba de dos colas, siendo la zona de aceptación la
siguiente:
ZR = {Z / -z(1−α/2) < Z < z (1−α/2)}

e. Cómputos necesarios.

e.1) Media: 202.9


e.2) Desviación estándar: s = 36.17
e.3) Estadístico de prueba:

e.4) Zona de aceptación:


ZA = {Z / -z(1−α/2) < Z < z } = {Z / -z (0.975) < Z < z
(1−α/2) } = {Z / -1.96 <
(0.975)
Z < + 1.96}

f. Decisión:

Como z = -0.35, el valor del estadístico de prueba se encuentra dentro de la zona de


aceptación de Ho. Por lo tanto se concluye que los datos no proporcionan suficiente
evidencia para rechazar Ho

La sospecha del investigador que la tasa de reproducción de la población de mosquito se

había modificado fue rechazada con un 95% de confianza a la luz de la información

proporcionada por la muestra.

Prueba de hipótesis acerca de la media poblacional cuando la muestra proviene de


una población distribuida normalmente, con varianza desconocida y tamaño de
muestra pequeño (n < 30).
Ejemplo. Un ecofisiólogo vegetal desea verificar si el contenido de nitrógeno en las hojas
jóvenes de la especie Rhizophora mangle, es menor en las plantas que viven en una zona
ambientalmente protegida con relación al de plantas que viven en una zona que está siendo
afectada por la contaminación con fertilizantes y cuyo valor promedio se cuantificó en 14.6
mg/g de nitrógeno. El análisis de 25 hojas jóvenes provenientes de la zona protegida
produjo los resultados siguientes:

Si la concentración de nitrógeno se distribuye normalmente, ¿apoya la evidencia


proporcionada por la muestra la presunción que las plantas de la zona protegida contienen
menos nitrógeno?. El error tipo I no debe ser mayor al 1%.

Las hipótesis de investigación son las siguientes:

Ho : La concentración de nitrógeno en las hojas jóvenes de Rhizophora mangle en ambas


regiones es la misma

H1 : La concentración de nitrógeno en las hojas jóvenes de Rhizophora mangle es menor en


la región protegida.

Prueba de las hipótesis estadísticas

a. Formulación de hipótesis
Ho : μ = 14.6
H1 : μ < 14.6
b. Especificación de un valor de probabilidad crítico o nivel de significación.
El nivel de significación especificado es α = 0.01
c. Elección de un estadístico de la muestra y de su distribución para someter a prueba las
hipótesis.
Puesto que el parámetro involucrado en la docimasia es la media poblacional μ, y la
variable se distribuye normalmente con varianza desconocida y el tamaño de la muestra
es pequeño lo más conveniente es usar como estadístico de prueba la media muestral en
su forma derivada T. El valor de la desviación de la muestra se usa para estimar el
valor de σ.

1
d. Establecer una zona de aceptación para Ho.
Como H1: μ < μo se trata de una prueba de una cola hacia la izquierda, siendo la zona
de aceptación la siguiente:
ZA = {T / T > - t ( 1−α; n-1) }
e. Cómputos necesarios.

e.1) Media: x= 10.48


e.2) Desviación estándar: s = 2.41
e.3) Estadístico de prueba:

e.4) Zona de aceptación:


ZA = {T / T > -t(1−α; n-1) } = {T / T > -t(0.99; 24)} = {T / T > -2.492}

1 f. Decisión:

Como t = - 8.55 < -t(0.99; 24) = -2.492 el valor del estadístico de prueba se encuentra
dentro de la zona de rechazo de Ho. Por lo tanto se concluye que los datos
proporcionan suficiente evidencia para rechazar Ho
De acuerdo a la información obtenida de la muestra se puede afirmar con un 99%
de confianza que la concentración de nitrógeno en las hojas jóvenes de
Rhizophora mangle en ambas regiones es la misma.
Regresión y Correlación Lineal Simple

Si sabemos que existe una relación entre una variable denominada dependiente y otras
denominadas independientes (como por ejemplo las existentes entre: la experiencia
profesional de los trabajadores y sus respectivos sueldos, las estaturas y pesos de
personas, la producción agraria y la cantidad de fertilizantes utilizados, etc.), puede
darse el problema de que la dependiente asuma múltiples valores para una combinación
de valores de las independientes.

La dependencia a la que hacemos referencia es relacional matemática y no


necesariamente de causalidad. Así, para un mismo número de unidades producidas,
pueden existir niveles de costo, que varían empresa a empresa.

Si se da ese tipo de relaciones, se suele recurrir a los estudios de regresión en los cuales
se obtiene una nueva relación pero de un tipo especial denominado función, en la cual la
variable independiente se asocia con un indicador de tendencia central de la variable
dependiente. Cabe recordar que en términos generales, una función es un tipo de
relación en la cual para cada valor de la variable independiente le corresponde uno y
sólo un valor de la variable dependiente.

Regresión Lineal Simple y Correlación

La Regresión y la correlación son dos técnicas estadísticas que se pueden utilizar para
solucionar problemas comunes.

Muchos estudios se basan en la creencia de que es posible identificar y cuantificar


alguna Relación Funcional entre dos o más variables, donde una variable depende de la
otra variable.

Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en un


modelo de Regresión Simple.

"Y es una función de X"

Y = f(X)

Como Y depende de X, Y es la variable dependiente, y X es la variable independiente.


En el Modelo de Regresión es muy importante identificar cuál es la variable
dependiente y cuál es la variable independiente.

En el Modelo de Regresión Simple se establece que Y es una función de sólo una


variable independiente, razón por la cual se le denomina también Regresión Bivariada
porque sólo hay dos variables, una dependiente y otra independiente y se representa así:

Y = f (X)

"Y depende de X"

La variable dependiente es la variable que se desea explicar, predecir. También se le


llama Variable Respuesta.

La variable Independiente X se le denomina Variable Explicativa y se le utiliza para


Explicar Y.

Análisis Estadístico: Regresión Lineal Simple

En el estudio de la relación funcional entre dos variables poblacionales, una variable X,


llamada independiente, explicativa o de predicción y una variable Y, llamada
dependiente o variable respuesta, presenta la siguiente notación:

Y=A+BX+E

Donde:

A es el valor de la ordenada donde la línea de regresión se intercepta con el eje


Y.

B es el coeficiente de regresión poblacional (pendiente de la línea recta)

E es el error.

Suposición de la regresión Lineal

1.Los valores de la variable independiente X son fijos, medidos sin error.


2.La variable Y es aleatoria
3.Para cada valor de X, existe una distribución normal de valores de Y
(subpoblaciones Y)
4.Las variancias de las subpoblaciones Y son todas iguales.
5.Todas las medias de las subpoblaciones de Y están sobre la recta.
6.Los valores de Y están normalmente distribuidos y son estadísticamente
independientes.

Estimación de la ecuación de regresión muestral

Consiste en determinar los valores de "a" y "b" a partir de la muestra, es decir, encontrar
los valores de a y b con los datos observados de la muestra. El método de estimación es
el de Mínimos Cuadrados, mediante el cual se obtiene:

Luego, la ecuación de regresión muestral estimada es:

Interpretación de:

a es el estimador de A. Es el valor estimado de la variable Y cuando la variable X = 0

b es el estimador de B , es el coeficiente de regresión. Está expresado en las mismas


unidades de Y por cada unidad de X. Indica el número de unidades en que varía Y
cuando se produce un cambio, en una unidad, en X (pendiente de la recta de regresión).

Un valor negativo de b sería interpretado como la magnitud del decremento en Y por


cada unidad de aumento en X.

Ejemplo

Los datos de la siguiente tabla representan las estaturas (X, cm) y los pesos (Y, kg) de
una muestra de 12 hombres adultos. Para cada estatura fijada previamente se observó el
peso de una persona seleccionada de entre el grupo con dicha estatura, resultando:
X 152 155 152 155 157 152 157 165 162 178 183 178

Y 50 61.5 54.5 57.5 63.5 59 61 72 66 72 84 82

Con estos datos vamos a plantear una ecuación de regresión simple que nos permita
pronosticar los pesos conociendo las estaturas.

Desarrollo:

• Representación matemática y gráfica de los datos:

Representación Matemática

I.C. para la I. C. individual


estatura pesos Regresión Lineal media

datos x y x ^2 y ^2 xy y est. Residual L. I. L. S. L. I. L. S.

1 152 50 23104 2500 7600 56.43 -6.43 53.07 59.79 47.30 65.56

2 155 61.5 24025 3782.3 9532.5 59.03 2.47 56.09 61.97 50.05 68.02

3 152 54.5 23104 2970.3 8284 56.43 -1.93 53.07 59.79 47.30 65.56

4 155 57.5 24025 3306.3 8912.5 59.03 -1.53 56.09 61.97 50.05 68.02

5 157 63.5 24649 4032.3 9969.5 60.77 2.73 58.05 63.48 51.85 69.68

6 152 59 23104 3481 8968 56.43 2.57 53.07 59.79 47.30 65.56

7 157 61 24649 3721 9577 60.77 0.23 58.05 63.48 51.85 69.68

8 165 72 27225 5184 11880 67.71 4.29 65.17 70.24 58.85 76.57

9 162 66 26244 4356 10692 65.11 0.89 62.65 67.56 56.27 73.94

10 178 72 31684 5184 12816 78.99 -6.99 74.65 83.33 69.45 88.52

11 183 84 33489 7056 15372 83.32 0.68 78.01 88.64 73.31 93.34

12 178 82 31684 6724 14596 78.99 3.01 74.65 83.33 69.45 88.52

Representación Gráfica
• De acuerdo al desarrollo matemático hemos obtenido los siguientes cálculos:

Lo que nos permite obtener los coeficientes a y b.


Luego,

b = 1223 / 1409.667 = 0.8676

a = 65.25 – (0.8676) (162.167) = -75.446

Interpretación:

• La ecuación de regresión estimada es:

Coeficiente de correlación: R= 0.9379

Coeficiente de determinación: R²=0.8796


El valor de b = 0.8676 indica el incremento del peso en kilogramos, en promedio, por
cada centímetro de aumento en la estatura de los hombres adultos.

El valor de a, no tiene interpretación práctica en el ejemplo, se interpretaría como el


valor obtenido, en promedio, para el peso Y, cuando la estatura es 0.

Utilizando la ecuación de regresión para estimar o predecir valores de la variable Y:


Para una talla de 180 se obtiene un peso de 80.7 kg.

¿Cuánto se espera que pese (en promedio) una persona que mide 1.60 m?

Sustituyendo el valor de interés en la ecuación:

Se obtiene:

Conclusión:

De acuerdo a la gráfica de dispersión y la ecuación de Regresión Lineal estimada para


las variables estatura y peso muestran, que las variables peso y estatura están
correlacionadas.

Esta relación se ha estimado en un R = 93.7, que indica una fuerte relación positiva.

Además si consideramos el coeficiente de determinación R² = 87.9 podemos indicar que


el 87.9% de las variaciones que ocurren en el peso se explicarían por las variaciones en
la variable estatura.
FUENTES CONSULTADAS:

1 Armas, J. (1992) Estadística Sencilla. Probabilidades. Mérida:


FACES-ULA.
2 Newbold, P. (1998) Estadística para los Negocios y la
Economía. Madrid: Prentice Hall.
3 Ya-Lun Chou. (1992) Análisis Estadístico. México: Editorial
Interamericana.
4 Walpole, R. y Myers, R. (1992) Probabilidad y Estadística.
México, D.F.: Editorial Interamericana.
5 Canavos, G. (1988) Probabilidad y Estadística. Aplicaciones y
Métodos. España: McGraw-Hill / Interamericana.
6 Berenson, M., Levine, D. y Krehbiel, T. (2001) Estadística
para Administración. México: Pearson Educación.
7 Mason, R., Lind, D. y Marchal, W. (2001) Estadística para
Administración y Economía. México, D.F.: Alfaomega.
8 Stevenson,. W. (1981) Estadística para Administración y
Economía. México, D.F.: Harla.
9 Montgomery, D. y Runger, G. (2000) Probabilidad y
Estadística: aplicadas a la Ingeniería. México, D.F.: McGraw-Hill /
Interamericana.
10 amsey, F. y Schafer, D. (2002) The Statistical Sleuth. USA:
Duxbury.
11 Página WEB.

También podría gustarte