Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Símbolos Matemáticos
Símbolos Descripción
∈ Pertenece
∉ No pertenece a
⊆ Contenido en
⊂ Estrictamente Contenido
⊄ No está contenido
= Igual
≠ Diferente
Unión
Intersección
A–B Diferencia
P(A) Conjuntos de Partes de A
x<y x menor que y
x ≤y x menor o igual a y
[a, ∞ ) Intervalo Cerrado por la izquierda
(– ∞ , b] Intervalo Cerrado por la derecha
(a, ∞ ) Intervalo Abierto por la izquierda
(- ∞ , b) Intervalo Abierto por la derecha
[a, b] Intervalo Cerrado
(a, b) Intervalo Abierto
(x, y) Par ordenado
AxB Producto Cartesiano
17
Interpretaciones de la Probabilidad 1
A pesar de que el concepto de probabilidad es una parte tan común y natural de la experiencia
de la gente, no existe una única interpretación científica del término probabilidad aceptada por
todos los estadísticos, filósofos y demás autoridades científicas. A través de los años, cada
interpretación de la probabilidad propuesta por unos expertos ha sido criticada por otros. De
hecho, el verdadero significado de la probabilidad es todavía un término muy conflictivo y
surge en muchas discusiones filosóficas actuales sobre los fundamentos de la estadística.
Considérese otro ejemplo: Si un dado es lanzado (hay seis posibles resultados) cualquiera de
las seis caras numeradas pueden salir. Estos seis resultados son mutuamente excluyentes dado
que dos o más caras no pueden salir simultáneamente,
1
Basado en los siguientes textos: DeGroot, Morris. Probabilidad y Estadística. Págs. 2-6; Mood, Graybill y
Boes. Introduction to the Theory of Statistics. Págs. 3-5.
18
y si el dado es justo2, los seis resultados son igualmente probables, es decir que por la
naturaleza del proceso, por su simetría, todas las caras tienen la misma oportunidad de
aparecer.
De este modo, se tiene de manera más general que, si los n resultados de un fenómeno
aleatorio son mutuamente excluyentes e igualmente probables y si n(A) de estos resultados
1 (ambos inclusive). La proporción n (A)/n debe ser menor que o igual a1, ya que el
número total de posibles resultados no puede ser menor que el número de resultados con un
atributo específico. Si es seguro que un suceso ocurra, su probabilidad es 1; si es imposible
que ocurra, su probabilidad es cero. De esta manera, la probabilidad de obtener un 7 al
lanzar un dado es 0. La probabilidad que al lanzar un dado se obtenga un número menor
que 8 es igual a 1.
19
Por ejemplo, es lanzada una moneda sabiendo que esta sesgada a favor de las caras, es
decir, es más probable que aparezca una cara que un sello. Los dos posibles resultados
del lanzamiento de la moneda no son igualmente probables 3. ¿Cuál es la probabilidad
de cara? La definición clásica no tiene la posibilidad de ayudar aquí.
Todas estas son preguntas legítimas que se quieren traer al campo de la teoría de
probabilidad. Sin embargo, las nociones de “simetría”, “igualmente probable”, etc., no
pueden ser utilizadas como lo son en los juegos de azar.
3. Otro inconveniente surge cuando los resultados del proceso no son finitos. Esto aparece
muchas veces cuando el número de resultados posibles del proceso es posiblemente
muy grande. Por ejemplo, ¿Cuál es la probabilidad de que lleguen a una intersección
vial más de 500 automóviles entre las 12 PM y la 1 PM?
Nota 1:
Hay que tener cuidado y poner atención a las calificaciones de mutuamente excluyente,
igualmente probables y aleatorio. Supóngase que se desea calcular la probabilidad de
obtener dos caras si una moneda es lanzada dos veces. Pudiera razonarse que hay tres
posibles resultados para los dos lanzamientos: dos caras, dos sellos o una cara y un sello.
Uno de estos tres resultados tiene el atributo deseado, es decir, dos caras; Además la
probabilidad es 1/3. Este razonamiento es incorrecto ya que los tres resultados dados no
son igualmente probables. El tercer resultado, una cara y un sello, puede ocurrir de dos
maneras debido a que la cara puede aparecer en el primer lanzamiento y el sello en el
segundo; o la
2
Es decir, el dado es un cubo perfecto en el sentido de que es simétrico y no está arreglado para que alguna
de sus caras tenga más chance de ocurrir.
20
3
Esto se conoce con la expresión: la moneda no está balanceada, no es simétrica o no es justa
21
cara puede aparecer en el segundo lanzamiento y el sello en el primero. Así hay cuatro
resultados igualmente probables: (cara, cara), (cara, sello), (sello, cara) y (sello, sello)4. El
primero de estos tiene el atributo deseado, mientras los otros no. La probabilidad correcta
es entonces 1/4. El resultado debería ser el mismo si dos monedas balanceadas fueran
lanzadas simultáneamente.
Ahora, supóngase que se desea calcular la probabilidad que una carta extraída de una baraja
de bridge5 será un as o una espada. En la enumeración de los resultados favorables, pueden
contarse 4 ases y trece espadas y se concluye que hay 17 resultados con el atributo deseado.
Esto es claramente incorrecto ya que estos 17 resultados no son mutuamente excluyentes
debido a que el as de espadas es tanto as como espada. Hay 16 resultados que son
favorables a un as o una espada, así la probabilidad correcta es 16/52 o 4/13.
Interpretación Frecuentista de la Probabilidad (Probabilidad a Posteriori)
En muchos problemas, la probabilidad de obtener algún resultado especifico de un proceso
puede ser interpretado en el sentido de la frecuencia relativa con la que se obtendría ese
resultado si el proceso se repitiera un número grande de veces en condiciones similares.
Supóngase que una moneda simétrica la cual parece estar bien balanceada fue lanzada 100
veces, los resultados fueron los siguientes:
Obsérvese que la frecuencia relativa de caras esta cerca de 1/2. Esto era lo que se esperaba
ya que la moneda era simétrica.
Supóngase ahora que un dado fue lanzado 300 veces, con los siguientes resultados:
Nótese ahora que la frecuencia relativa de la cara con 1 esta cerca de 1/6; de manera similar
para 2, 3, 4, 5 y 6. Estos resultados no son inesperados, ya que el dado estaba balanceado;
era de esperarse que cada cara ocurriera con aproximadamente la misma frecuencia en el
largo plazo.
Esto sugiere que se pueden usar las frecuencias relativas como una aproximación para la
probabilidad. En otras palabras, se supone que la proporción de lanzamientos en los que se
obtiene una cara en el lanzamiento de una moneda o de los números de un dado se puede
usar como una aproximación de la respectiva probabilidad. Adviértase que aunque las
frecuencias relativas de los diferentes resultados son predecibles, el resultado actual de un
lanzamiento individual es impredecible.
Para hacer esta idea mas concreta, se asumirá que una serie de observaciones pueden ser
obtenidas bajo condiciones uniformes. Es decir, una observación de un experimento
aleatorio es hecha; entonces el experimento se repitió bajo las mismas condiciones y se
tomó otra observación. Esto se repite muchas veces, y mientras las condiciones son
similares cada vez, hay una variación incontrolable la cual es aleatoria, así que las
observaciones son individualmente impredecibles. En muchos de estos casos las
observaciones caen dentro de ciertas clases en donde las frecuencias relativas son muy
estables. Esto sugiere que se postule un numero “p”, llamado la probabilidad del evento, y
“p” será aproximado por la frecuencia relativa con la cual las observaciones repetidas
satisfacen el evento en particular.
Esta claro que las condiciones mencionadas son muy vagas para servir como base de una
definición científica de probabilidad. Por tanto, este criterio de la probabilidad a posteriori
recibe varias críticas, entre las cuales se pueden mencionar las siguientes:
2. Se afirma que la moneda debería ser lanzada cada vez en condiciones similares, pero
estas condiciones no se describen con precisión. Las condiciones en la cual se lanza la
moneda no pueden ser completamente idénticas para cada lanzamiento porque entonces los
resultados serian todos iguales y se obtendrían sólo caras o sólo sellos. De hecho, una
persona experimentada puede lanzar una moneda repetidamente y cogerla de tal manera
que obtenga una cara en casi todos los lanzamientos. En consecuencia, los lanzamientos no
deben ser completamente controlados sino que deben tener una característica aleatoria.
Con el objeto de que una persona sea capaz de asignar probabilidades subjetivas a los
resultados, debe expresar su grado de creencia en términos numéricos. La interpretación
subjetiva de la probabilidad puede ser formalizada, en general, si los juicios de una persona
acerca de las probabilidades de diversas combinaciones de resultados satisfacen ciertas
condiciones de consistencia. Entonces puede demostrarse que sus probabilidades subjetivas
para los diferentes sucesos posibles pueden ser determinadas en forma única.
Las probabilidades se plantean con respecto a algún evento. El evento en cuestión puede ser
que llueva, haya ganancias, caiga cara, se obtenga un rendimiento de por lo menos 6%, se
termine el curso, se obtengan buenas calificaciones, entre otros.
Ejemplos:
Si lanzamos una moneda al aire, el resultado puede ser cara o sello, pero no
sabemos de antemano cual de ello va a salir. El proceso de lanzamiento de la
moneda es un experimento aleatorio.
Su espacio muestral es S = { cara, sello}
Si el dado es un cubo simétrico y balanceado, entonces todos sus lados tienen la misma
posibilidad de ocurrencia, es decir, sus probabilidades son: P(1) = P(2) = P(3) = P(4) P(5) =
P(6) = 1/6. Sea cualquier evento A de ese experimento, por ejemplo, A: número par,
entonces A = { 2,4,6}, obsérvese que A tiene tres puntos muestrales, en consecuencia su
probabilidad de A viene dada por: numero de elementos de A dividido por número de
elementos del espacio muestral S, es decir: P(A) = 3/6 = ½ = 0.5
Por su dimensión un espacio muestral puede ser: finito, infinito numerable, ó infinito no numerable.
La estadística tiene dos objetivos inmediatos, describir e inferir, cuya finalidad es satisfacer
un objetivo mucho mas exigente: predecir.
La predicción está relacionada de una manera indisoluble con las probabilidades, y aquel
que no estudia los postulados de probabilidades para comprender profundamente su
significado, no podrá interpretar cabalmente los resultados de la estadística.
Es por esta razón que categóricamente afirmamos que con la estadística no se puede mentir.
Vincular a la estadística, en tanto que disciplina matemática, con la capacidad de
manipulación para engañar, es tan osado como acusar al español, como lenguaje verbal, de
herramienta susceptible de ser usada para decir mentiras. Es sólo la falta de información de
un individuo lo que faculta a otro para engañarlo, con o sin intención, tanto con letras como
con números.
• La unión, que se denota A ∪ B , es el evento que consta de todos los resultados en S que
pertenecen al menos a uno de estos eventos. Por lo tanto, la unión A ∪ B ocurre si y sólo si A
y/o B ocurren.
De manera más general, dados k eventos A1, A2, ..., Ak, su unión A1 ∪ A2 ∪ ∪ Ak es el
conjunto de todos los resultados que pertenecen al menos a uno de estos k eventos.
Ejercicios
1. Los artículos provenientes de una línea de producción se clasifican como defectuosos o no
defectuosos. Se observan los artículos y se anota su condición. Este proceso se continúa hasta
que se produzcan dos artículos defectuosos consecutivos o se verifiquen cuatro artículos, lo que
ocurra primero. Describir el espacio muestral para este experimento aleatorio.
2. Considérense cuatro objetos, a, b, c y d. Supóngase que el orden en el cual se anotan esos
objetos representa el resultado de un experimento. Sean los eventos A = {a está en el primer
lugar} y B = {b está en el segundo lugar}.
a. Describir el espacio muestral.
b. Describir todos los elementos de los eventos A ∩ B y A ∪ B .
3. Considerando el espacio muestral S = {a, b, c}, construya todos los eventos posibles.
4. Sean A, B y C tres eventos asociados con un experimento. Expresar las siguientes
proposiciones verbales en notación de conjuntos. Puede ayudarse con diagramas de Venn.
a. Al menos uno de los eventos ocurre.
b. Exactamente uno de los eventos ocurre.
c. Exactamente dos de los eventos ocurren.
n 1 2 3 4 5 6 7 8 9 10 11 12 13 …
nA 0 0 1 1 2 3 4 5 6 6 6 6 7 …
fA 0 0 0.3 0.2 0.2 0.5 0.5 0.6 0.6 0.6 0.5 0.5 0.5 …
3 5 7 2 6 5 4
1
0
,9
0
,8
0
,7
0
,6
0
,5
0
,4
0
,3
0
,2
0
,1
0
1 2 3 4 5 6 7 8 9 1
0 1
1 1
2 1
3
L
anzamiento
Vamos a usar las propiedades de la frecuencia relativa como esquema para las condiciones
que le exigiremos que cumpla a una medida de la posibilidad de que un evento ocurra.
Probabilidad
Consideraremos la probabilidad como el límite de la frecuencia relativa, de forma tal que se
convierte en una función que va del espacio de todos los eventos posibles al conjunto de los
números reales en el intervalo entre 0 y 1 inclusive:
P ( A) = lim f A
n→∞
∞ ∞
mutuamente excluyente, entonces P Ai = ∑ P( Ai )
i =1 i =1
Los anteriores se conocen como Postulados de Probabilidades, si bien, debido a que en la
práctica sólo aparecen los tres primeros, esos son los mas conocidos en la literatura básica.
Hasta ahora hemos postulado la existencia de P(A) y las propiedades que debe cumplir,
pero no hemos indicado una forma de obtener en la práctica una función P que satisfaga las
propiedades. A partir de este momento vamos a establecer suposiciones que conduzcan a un
método válido para evaluar probabilidades.
Vamos a iniciar el trabajo suponiendo que el experimento E tiene sólo un número finito de
elementos, y bajo supuestos adicionales muy simples (y verificables) vamos a construir una
P(A) válida.
2. p1 + + pk =1
Estos números son consistentes, por definición, con los postulados de probabilidades, lo
cual se puede verificar fácilmente.
P ( A) = P ( Aj1 ∪ A j2 ∪ ∪ A jr ) = P ( A j1 ) + P ( Aj 2 ) + + P ( A jr ) = p j1 + p j2 + + p jr
Ahora vamos a darle valores a los pi
1
Lo cual implica que pi = para i = 1,…,k.
k
r
Así, si consideramos el evento A definido anteriormente, P ( A) =
k
Esta forma de pensar nos lleva a la conocida fórmula de “casos favorables entre casos
totales” para calcular probabilidades. Formalmente se escribe:
número de puntos de S en A
P ( A) =
número de puntos de S
Técnicas de Conteo
Definiciones previas:
El número de posibles ordenaciones de x objetos es x! = x(x-1)(x-2)...(2)(1), es decir el
producto de todos los números inferiores a x. Este número se lee x factorial.
Regla m x n:
La regla del producto se aplica a situaciones en las que se busca un número de maneras
distintas que las que se pueden formar pares de objetos, en donde los objetos se seleccionan
de dos grupos distintos.
Este principio se conoce también como regla de multiplicación ó regla m por n.
Permutaciones:
El número de permutaciones de n objetos tomados de k en k es el número de posibles
ordenaciones cuando k objetos han de ser seleccionados de un total de n y dispuestos en
n!
orden. Este número se calcula por la fórmula Pk =n Pk = ( n −k )! y se lee permutaciones
n
Combinaciones:
El número de combinaciones de n objetos tomados de k en k es el número de subconjuntos
de tamaño k que se pueden formar de un conjunto de n elementos. Este número se calcula
Pk n!
por la fórmula n Ck = =
n
y se lee combinaciones de n en k. Generalmente se
k! k!(n − k )!
aplica en situaciones en las que el orden no es importante.
Muestreo
Muestra al azar:
Supongamos que tenemos n objetos. Escoger al azar k objetos entre los n objetos originales
( 0 ≤ k ≤ n ) significa que cada subconjunto de tamaño k tiene la misma probabilidad de ser
elegida que cualquier otro subconjunto.
Ejercicios
1. Un candado de combinación abre sólo cuando la combinación correcta de los tres
dígitos es seleccionada. Cada dígito puede ser cualquier número entre 0 y 9. Si una
combinación particular de dígitos representa a un punto muestral, ¿cuántas puntos se
están utilizando para definirlo?
2. El presidente, vicepresidente, secretario y tesorero de una determinada asociación, se
elegirán de entre 10 candidatos. Encuentre el número de maneras distintas en que estos
puestos pueden ocuparse.
3. Un experimento consiste en asignar 10 trabajadores para 10 tareas distintas (un
trabajador por tarea y viceversa). ¿De cuantas maneras se pueden asignar las 10 tareas a
los 10 trabajadores?
4. Si se seleccionó una muestra de 10 enfermeras de un total de 90 de un hospital,
¿cuántas posibles muestras había?
5. Si se seleccionan cinco cartas con reposición (esto es, se selecciona al azar la primera y
se regresa al conjunto de cartas, etc.) de un mazo de 52 cartas, ¿cuántas selecciones
posibles hay?
6. Para el ejercicio anterior suponga que no hay reposición. ¿Cuántas selecciones posibles
hay?
7. En un departamento con 18 empleados, se debe efectuar una reducción de un tercio del
personal. Si todos los empleados tienen igual desempeño, ¿de cuántas formas se pueden
elegir los grupos de despidos?
8. En una habitación 25 personas tienen insignias numeradas del 1 al 25. Se eligen 5
personas al azar y se les pide que dejen la habitación inmediatamente y se anotan los
números de sus insignias.
a. ¿Cuál es la probabilidad de que el número menor de las insignias sea 7?
b. ¿Cuál es la probabilidad de que el número mayor de las insignias sea 7?
c. ¿Cuál es la probabilidad de que los números de las cinco insignias estén
comprendidas entre 9 y 21?
Teorema de Probabilidad
Sean A y B dos eventos, y Ac el complementario. Siempre se satisfacen las fórmulas
siguientes:
• P(Ac) = 1 – P(A)
• P(B) = P(A ∩ B) + P(Ac ∩ B)
• P(A ∪ B) = P(A) + P(Ac ∩ B)
Probabilidad Condicional
Dados dos eventos A y B, se define la probabilidad condicional de A dado B como
P( A ∩ B)
P( A | B) = , siempre que P(B) > 0
P( B)
Similarmente se define
P( A ∩ B )
P ( B | A) = , siempre que P(A) > 0
P ( A)
Independencia de Eventos
Dados dos eventos A y B se dice que son independientes estadísticamente, o simplemente
independientes, si y sólo si
P(A ∩ B) = P(A)P(B)
En otras palabras, A y B son independientes si y solo si P(A|B) = P(A) siempre que P(A)
sea diferente de 0 y también si P(B|A) = P(B) siempre que P(B) sea diferente de 0.
Teorema de Bayes
Teorema de Bayes para dos eventos:
Dados los eventos A y B, entonces se cumple que
P( A | B) P( B)
P ( B | A) =
P ( A)
Probabilidades Bivariadas
Supóngase que al realizar un experimento los resultados puedan ser clasificados según dos
reglas de clasificación diferentes. Por ejemplo, un grupo de personas puede ser clasificado
por su edad y por su sexo.
Sea un experimento aleatorio y A1, A2, ..., Ah y B1, B2, ..., Bk dos grupos de eventos donde los
Ai son mutuamente excluyentes y colectivamente exhaustivos, así como los B j. Estos
grupos de eventos se denominan eventos bivariantes.
Las probabilidades conjuntas son las que se obtienen mediante P(Ai ∩ Bj)
Las probabilidades marginales son la que se obtienen mediante P(Ai) ó P(Bj)
Los aspectos importantes de esta forma de clasificar los datos está en que facilita el
planteamiento de los problemas donde hay dos formas de clasificar los resultados.
Las tablas de frecuencia que se arman previo al cálculo de probabilidades se conocen como
tablas de contingencia. Cuando las frecuencias son sustituidas por probabilidades se habla
de las probabilidades bivariadas o bivariantes.
Ejercicios:
1. Un estudio sobre los estudiantes de la Universidad “ X ” reveló que el 20% fuma. La
probabilidad de enfermedad pulmonar, si una persona fuma es diez veces mayor que la
probabilidad de que se enferme del pulmón si no lo hace. Si la probabilidad de
enfermedad pulmonar es de 0.014 en nuestro país, ¿cuál es la probabilidad de que un
estudiante de la Universidad “ X “ sufra enfermedades pulmonares si fuma?
2. Supongamos que lanzamos dos dados. Se definen los eventos de la manera siguiente:
A = {el primer dado muestra un número par}
B = {el segundo dado muestra un número impar}
C = {ambos dados muestran números pares ó números impares}
Halle la probabilidad de cada evento, de cada par de eventos y de la intersección de
todos los eventos. ¿Los eventos son mutuamente independientes?
3. Cada vez que se realiza un experimento, la ocurrencia de un evento particular A es igual
a 0.2. El experimento se repite, independientemente, hasta que A ocurre. Calcular la
probabilidad de que sea necesario ejecutar un cuarto experimento.
4. Un conjunto electrónico consta de dos subsistemas, digamos A y B. A partir de una
serie de pruebas previas, se presuponen las siguientes probabilidades:
P(A falle) = 0.20
P(sólo B falle) = 0.15
P(A y B fallen) = 0.15
Calcular las probabilidades siguientes:
a. P(A falle | B haya fallado)
b. P(A falle solamente)
5. En la fabricación de cierto artículo se presenta un tipo de defectos con una probabilidad
de 0.1 y defectos de un segundo tipo con probabilidad de 0.05. Suponiendo
independencia entre los tipos de defectos, calcule la probabilidad de:
a. Un artículo no tenga ambas clases de defectos.
b. Un artículo sea defectuosos.
c. Suponiendo que un artículo sea defectuoso, tenga sólo un tipo de defecto
6. Tres componentes de un mecanismo, digamos C1, C2 y C3 están colocados en serie (en
una línea recta). Supóngase que estos mecanismos están agrupados en orden aleatorio.
Sea R el evento {C2 está a la derecha de C1}, y S el evento {C3 está a la derecha de
C1}. ¿Los eventos R y S son independientes?
Ejercicios
1. Suponga que se tira un dado no cargado una sola vez. A) ¿Cuál es la probabilidad
de obtener un par?. B) ¿Cuál es la probabilidad de obtener un número mayor que 4?.
Sol: (a) 3/6, (b) 2/6.
2. Se lanza una vez un par de dados no cargados, a) ¿cuál es la probabilidad de que la
suma de los dos números sea 2 (b) ¿ sea 7?,(C) ¿sea 11?.
Sol: (a) 1/36, (b) 6/36, (c) 2/36.
En determinado grupo hay 20 estudiantes, 7 son chicas rubias de ojos azules, 4 tienen
cabello castaño y ojos azules, 5 son muchachos rubios de ojos azules y los 4 restantes son
muchachos de cabello castaño y ojos cafés. Si se selecciona un estudiante al azar: a) ¿cuál
es la probabilidad de que el estudiante elegido sea una chica (b) que tenga ojos azules?, (c)
que tenga cabello castaño?, (d) que sea rubia y tenga ojos cafés?. Se supone que los 20
estudiantes están numerados en algún orden específico.
Sol: (a) 11/20, (b) 16/20, (c) 8/20, (d) 0.
3. Una caja contiene 7 fichas rojas y 3 blancas; si se sacan tres fichas de la caja una
después de la otra sin reemplazo, encontrar la probabilidad de que la dos primeras sean
rojas y la otra blanca.
Sol: 7/40.
4. Tres cartas son sacadas en forma aleatoria sin reemplazo de un juego de cartas
ordinarias. ¿Cuál es la probabilidad de que todas las cartas sean reyes?.
Sol: 4/22.100.
5. ¿Cuántas manos diferentes de 5 naipes pueden darse con un juego de barajas
ordinarias?.
Sol: 2.598.960.
6. Si de una caja se sacan al azar 4 bolas rojas y 2 blancas y se colocan en una hilera;
(a) ¿cuál es la probabilidad de que la de los extremos sean blancas?. (B) ¿de qué no
sean blancas?. (C) ¿de qué las dos blancas estén juntas?.
Sol: (a) 1/15, (b) 14/15, (c) 240/720.
7. Una ensambladora de partes eléctricas usa motores de dos orígenes; de una
compañía “A”, que le suministra el 90% de los motores y de una compañía “B”, que le
suministra el otro 10% de los motores. Supóngase que es conocido que, el 5% de los
motores suministrados por la compañía “A” son detectados como defectuosos y 7% de
los suministrados por la compañía “B” son defectuosos. La ensambladora de partes
eléctricas encontró un motor defectuoso. ¿Cuál es la probabilidad de que este motor sea
suministrado por la compañía “B?”.
Sol: 0,134653.
8. Nos entregan tres cajas que contienen lo siguiente:
Caja “A” contiene 3 bolas rojas y 5 blancas
Caja “B” “ 2 bolas rojas y 1 blanca
Caja “C” “ 2 bolas rojas y 3 blancas.
Una caja es seleccionada aleatoriamente y se extrae una bola que resulta ser roja. ¿Cuál
es la probabilidad de que provenga de la caja “A?”.
Sol: 45/173.
9. ¿De cuántas maneras pueden ser colocados 10 automóviles en u stock, si 3 de ellos
son Fiat, 4 son Ford, 2 Toyota y 1 BMW?.
Sol: 12.600
10. ¿De cuántas maneras pueden ser seleccionadas 4 personas provenientes de 5 parejas
de casados, si la selección consiste de 2 damas y 2 caballeros?.
Sol: 100.
11. Se lanza un par de dados no cargados una vez, y se establece que los dos números
que aparecen no son los mismos. (A) Calcular la probabilidad de que la suma sea 7. (B)
Calcular la probabilidad de que la suma sea 4. (C) Que la suma sea 12.
Sol: (a) 1/5 (b) 1/15 (c) 0.
Una variable aleatoria X es una función que asigna un número real a cada resultado en el
espacio muestral S de un experimento aleatorio. El conjunto de los posibles valores de la
variable aleatoria X se denomina rango. Diremos que la variable aleatoria es discreta si su
rango es finito (o infinito contable).
Ejemplos de variables aleatorias continuas: edad, estatura, peso, temperatura, ingreso, etc.
∑p( x) =1
x
F(x) = P(X ≤ x) = t∑
p( t)
≤x
Ejemplo 1
x 0 1 2 3
p(x) 1 3 3 1
8 8 8 8
La distribución anterior es una distribución de probabilidades para la variable aleatoria X,
en efecto 0 ≤ p(x) ≤ 1 para todo x (x = 0, 1, 2 y 3) y además ∑p( x) =1. Para
x
determinar la distribución acumulada de probabilidad observe que
P(X ≤ 0) = P(X = 0) = 1
8
x 0 1 2 3
F(x) 1 1 7 1
8 2 8
E(X) = ∑xp( x)
x
Propiedades:
a) E(k)=k
b) E(kX)=kE(X)
c) E(X± Y)=E(X)± E(Y)
d) E(g(X))=∑g(x)p(x)
V(X) ( )
= E X2 −[ E( X)]2
donde, (
E X2 )= ∑
x
x2 p( x)
2
3 12− 9 3
Entonces, V(X) = 3 − = =
2 4 4
Propiedades de la Varianza:
a) V(k)=0
b) V(kX)=k2V(X)
c) V(X± Y)=V(X)+V(Y) si X y Y son independientes
d)
Distribución Binomial
Un ensayo Bernoulli, es un experimento aleatorio que sólo admite dos posibles resultados,
denotados éxito y fracaso. La probabilidad de éxito se denota p y la probabilidad de
fracaso por q.
Por lo tanto si denotamos el éxito por 1 y el fracaso por 0 se tiene:
P (1) = p P (0) = 1-p = q
Además se cumple: E (X) = p V(X) = pq
Hay sólo dos posibles resultados en cada repetición del experimento, llamados
arbitrariamente éxito y fracaso
n
combinaciones
x
. Por otro lado, como las n repeticiones del experimento son
independientes entre sí y calcular P(X = x) equivale a calcular la probabilidad de una
intersección de eventos (en las que cada evento corresponde a un éxito o a un fracaso),
tenemos que la probabilidad de un punto muestral cualquiera asociado al experimento es
px qn−x; en definitiva:
n x n− x
P(X = x) = x p q parax = 0 , 1, 2,...,n
n
n n
x n− x
Dado que 0 ≤ x p q ≤ 1 y ∑ x px qn− x =1, resulta que
x=0
Se puede demostrar que para una variable aleatoria con distribución binomial
E(X) = µ = n.p ( Valor esperado de X o esperanza matemática de X )
V(X) = n.p.q ( Varianza de X )
Ejemplo 1
Una máquina fabrica una determinada pieza y se sabe que produce un 7 por 1000 de piezas
defectuosas. Hallar la probabilidad de que al examinar 50 piezas sólo haya una defectuosa.
Solución :
Ejemplo 2
Solución :
Solución :
Distribución Normal
Sea una variable aleatoria X que toma todos los valores reales, y que posee una esperanza o
media μ y una desviación estándar σ . Esa variable tiene una Distribución Normal o
Gaussiana si su función de densidad de probabilidad es de la forma:
1 1 ( x − μ)2
f(x) = ⋅ exp − ⋅ , − ∞ < x < ∞
σ 2π 2 σ2
Los parámetros μ y σ deben satisfacer las condiciones − ∞ < μ < ∞ y σ > 0 . Puesto
que tendremos diversas ocasiones para referirnos a la distribución anterior; utilizaremos la
siguiente notación: X tiene la distribución N ( μ, σ 2 ) sí y sólo si su función de densidad está
dada por la expresión anterior.
La denominación que tiene esta distribución viene del hecho de que al principio se
consideraba que todos los fenómenos en su estado normal debían seguirla. Actualmente,
esta se considera tan corriente como cualquier otro tipo de distribución.
Entre la media y una desviación estándar por encima de la media, se encuentra el 34,13%
de todos los casos. Análogamente, el 34,13% de todos los casos se encuentran entre la
media y una desviación estándar por debajo de la media. Dicho de otra manera, 34,13% del
área bajo la curva se encuentra entre la media y una desviación estándar por encima de la
media, y 34,13% del área está comprendida entre la media y menos una desviación
estándar.
Entre la media y dos desviaciones estándar por encima de la media, se encuentra el 47,72%
de los casos. Análogamente, por debajo de la media y menos dos desviaciones estándar se
encuentran el 47,72% de los datos.
Para diferentes valores de μ y σ los respectivos gráficos son todos similares entre sí más
allá de sus particularidades propias. Las respectivas distribuciones normales se pueden
reducir todas a una especial denominada Distribución Normal Estándar.
La función de densidad de esta distribución asociada a cierta variable Z está dada por:
1 Z2
f (Z ) = ⋅ exp − , − ∞ < Z < ∞
2π 2
Una porción de las probabilidades que representan áreas de diferentes tamaños bajo la
curva normal estándar se presentan en la siguiente tabla, donde aparecen los valores de Z a
intervalos de 0,25 unidades de longitud, desde Z = 0 hasta z = 4.
Función de Distribución
de una Curva Normal Estándar
Z F(Z)
0,00 0,00000
0,25 0,09871
0,50 0,19146
0.75 0,27337
1,00 0,34134
1,25 0,39435
1,50 0,43319
1,75 0,45994
2,00 0,47725
2,25 0,48778
2,50 0,49379
2,75 0,49702
3,00 0,49865
3,25 0,49942
3,50 0,49977
3,75 0,49991
4,00 0,49997
X −μ
, y por tanto:
σ
1 1 ( X − μ) 2 1 1 Z2 1
fX ( X ) = ⋅ exp − ⋅ = ⋅
σ 2π ⋅ exp − = ⋅ f ( z )
σ 2π 2 σ2 2 σ
Para cada valor x que asume X se calcula el respectivo valor Z que asume Z usando la
esperanza y la desviación estándar de X, se revisa la tabla de la curva normal estándar, y así
se ubica el valor del área del gráfico de f X que sea anterior a x.
Habiéndose mostrado la manera como toda distribución normal se puede representar por
medio de la distribución estándar N(0,1), se puede definir la forma como toda distribución
discreta se asocia con aquella.
En ese sentido, cada valor Pj de la función de probabilidad P de la variable discreta X puede
ser relativamente aproximado en cada valor Xj mediante la siguiente fórmula:
n
Yj = ⋅ f(Z j ), j = 1, , n
σ
Al graficar la distribución {(X1, Y1), (X2, Y2),…, (Xn, Yn)} uniendo esos pares con trazos
curvos y no lineales, se obtiene un gráfico muy cercano al de la función de probabilidad de
la distribución N ( μ, σ 2 ) .
Con el fin de entender mejor la fórmula y facilitar posteriores cálculos, para cada j = 1,…,
n tenemos que:
n Número de datos de la población
d j = X j −μ Distancia entre el dato y la media
Yj Altura del punto Xj en la curva normal
Zj = d j σ Normalización de la distancia dj
f(zj) Función de probabilidad de Zj
n μ−μ n n 1
⋅f = ⋅ f (0 ) = ⋅ . Así como a ambos lados de z = 0 se ubica el 50% del
σ σ σ σ 2π
Ejemplo 1:
Supongamos que X indica el monto de ingresos de 10.000 trabajadores de PDVSA, cuyo
promedio mensual de ingreso es $500 y la desviación estándar es $100. Vamos a construir
una curva normal.
n
X d=X– μ Z= d σ f(Z) Y = ⋅ f(Z)
σ
500 0 0.0 0,39894 39,894
550 50 0.5 0,35207 35,207
600 100 1.0 0,24197 24,197
650 150 1.5 0,12952 12,952
700 200 2.0 0,05399 5,399
750 250 2.5 0,01753 1,753
800 300 3.0 0,00443 0,443
Puesto que la curva normal es simétrica, la altura de la ordenada hacia el lado izquierdo de
la media μ debe ser la misma que la del lado derecho de ese valor. Definimos RXj como
aquel punto que está a la misma distancia de la media pero en dirección opuesta a Xj. Por
ejemplo, para X2 = 550 y RX2 = 450, tenemos –d2 = RX2 – μ = 450 – 500 = –50, –Z2 =
−50
= –0,5 y f(–Z2) = f(–0,5) = f(0,5) = 0,35207, por lo que RY2 = 32,207 = Y2. Así, los
100
valores de las ordenadas para RX2 = 450 y X2 = 550, son los mismos puesto que ambos
datos se encuentran a la misma distancia de la media.
Fig. 2
Como puede observarse, esta curva tiene forma acampanada además de ser simétrica
respecto a la media μ , es decir, es como si el segmento punteado fuese un espejo.
Ejercicio: construyamos una curva normal igual que en el ejemplo anterior pero tomando
la media en $600.
Ejemplo 2:
Supongamos que el ingreso mensual promedio de 10.000 trabajadores de PDVSA es $500
y la desviación estándar es $100. Si la distribución es normal, encontraremos el número de
trabajadores que tiene un ingreso mensual
a) Inferior a $500.
b) Superior a $500 pero inferior a $600.
c) Superior a $600.
Antes de usar la tabla de áreas de la curva normal, el valor de X debe ser transformado
X −μ
en Z = . En este ejemplo, μ = 500 y σ = 100. Por otro lado, tengamos en cuenta
σ
que el 100% del área de la distribución N(500, 100) está asociada al ingreso de 10.000
trabajadores, por lo que un área menor representa menos trabajadores.
500 − 500
z= = 0.
100
Fig. 3
Para calcular esa área procedemos de la siguiente manera: el área por encima de Z = 0 es
0,5 o 50%, y el área por debajo de Z = 1 es F(1) = 0,34134 o 34,134 %. Luego, el área
sombreada se obtiene de la diferencia 0,5 – 0,34134 = 0,15866 o 15.866%. Así, el número
aproximado de trabajadores que perciben un sueldo por encima de $600 es
10.000⋅ (0,15866) =1.586,6 ≈ 1.587.
Ejemplo 3:
Siguiendo con el ejemplo anterior, si μ = $400 y σ = $100, hallaremos la probabilidad
(área) de que los 10.000 trabajadores ganen entre $250 y $500. Dicha probabilidad es la
suma del área entre $250 y μ = $400 más el área entre μ = $400 y $500.
Ejercicios :
1) Hallar el área bajo la curva normal tipificada:
a) Entre Z = 0 y Z = 1,2 Sol: 0,3849
b) Entre Z = -0,68 y Z = 0 Sol: 0,2517
c) Entre Z = -0,46 y Z = 2,21 Sol: 0,6636
d) Entre Z = 0,81 y Z = 1,94 Sol: 0,1828
e) A la derecha de Z = -1,28 Sol: 0,8997
2) Si "área" se refiere al área bajo la curva normal tipificada, hallar el valor o los valores de
Z
tales que:
a) El área entre 0 y Z sea 0,3770 Sol: Z = ±1,16
b) El área a la izquierda de Z sea 0,8621 Sol: Z = 1,09
c) El área entre -1,5 y Z sea 0,0217 Sol: Z = -1,695 y Z = -1,35
3) El peso medio de 500 estudiantes varones de una universidad es de 68,5 Kg. y la
desviación
típica es de 10 Kg. Suponiendo que los pesos están distribuidos normalmente, hallar el
número de estudiantes que pesan:
a) Entre 48 y 71 kg. Sol: entre 289 y 290 estudiantes.
b) Más de 91 kg. Sol: entre 6 o 7 estudiantes.
4) La media del diámetro interior de una muestra de 200 lavadoras producidas por una
máquina es 1,275 cm. y la desviación típica de 0,0125 cm. El propósito para el cual se han
diseñado las lavadoras permite una tolerancia máxima en el diámetro de 1,26cm. a 1,29
cm., de otra forma las lavadoras se consideran defectuosas. Determinar el porcentaje de
lavadoras defectuosas producidas por la máquina, suponiendo que los diámetros están
distribuidos normalmente.
Sol: 23,02%
5) Si X está distribuida normalmente con media 5 y desviación típica 2, hallar P (X > 8).
Sol: 0,0668
Estimador
Es la regla o procedimiento, expresado en general por medio de una fórmula, que se utiliza
para deducir la estimación.
Estimación
Es un valor específico observado de un estimador, por lo que asigna uno o varios valores
numéricos a un parámetro de una población sobre la base de datos de muestra.
Tipos de estimación
a) Estimación puntual: consiste en un solo estadístico muestral que se usa para estimar el
valor verdadero de un parámetro de una población que es desconocido.
Por ejemplo, la media muestral es una estimador puntual de la media poblacional µ y
Cuando usamos una estimación puntual, sabemos que aunque usemos un método bueno de
estimación es prácticamente improbable que el valor de la estimación coincida con el
verdadero valor del parámetro, así que sería conveniente acompañar nuestra estimación con
alguna medida que nos permitiera expresar la cercanía del estimador al parámetro. Una
solución a ello no los brindan los estimadores por Intervalos de Confianza.
b) Estimación por intervalo: es la estimación de un parámetro de la población dado por dos
números que forman un intervalo que contiene al parámetro con una cierta probabilidad.
Conceptos básicos.
Nivel de Confianza
Está asociado con la probabilidad de que el intervalo de confianza contenga al parámetro de
la población y es expresado en porcentaje. Los niveles de confianza que más se utilizan son
90%, 95% y 99%.
Interpretación de los intervalos de confianza
Un intervalo de confianza se puede interpretar de dos maneras diferentes.
Ejemplo: una directora de tiendas cree que el gasto medio de sus clientes en el último año
se encuentra en el intervalo de 35 a 38 dólares y concede una confianza del 95% a ese
intervalo.
Ejemplo 2
Ejemplo 3
Una empresa eléctrica fabrica 3000 focos con una duración aproximadamente distribuida
de forma normal con una desviación estándar de 40 horas. Si una muestra de 300 focos
tiene una duración promedio de 780 horas, encuentre un intervalo de confianza de 96%
para la media de la población de todos los focos que produce esta empresa.
Solución:
En este caso la varianza de la población es conocida, la población es finita, así que:
Ejemplo 4
Un biólogo quiere estimar el peso promedio de los capibaras cazados en el estado Apure.
Un estudio anterior de diez capibaras cazados mostró que la desviación estándar de sus
pesos es de 12.2 libras. ¿Qué tan grande debe ser una muestra para que el biólogo tenga el
95% de confianza de que el error de estimación es a lo más de 4 libras?
En consecuencia, si el tamaño de la muestra es 36, se puede tener un 95% de confianza en
que m difiere en menos de 4 libras de .
Ejemplo 5
Una empresa eléctrica fabrica focos que tienen una duración aproximadamente normal
con una desviación estándar de 40 horas. ¿De qué tamaño se necesita una muestra si se
desea tener 95% de confianza que la media real esté dentro de 10 horas de la media real?
Ejemplo 3.6
1.Una legisladora estatal desea encuestar a los residentes de su municipio para conocer qué
proporción del electorado conoce la opinión de ella, respecto al uso de fondos estatales para
pagar abortos, ella supone que el 50% del electorado conoce su opinión.¿Qué tamaño de
muestra se necesita si se requiere una confianza del 95% y un error máximo de estimación
de 0.10?
Solución:
La proporción de residentes que conoce la opinión de la legisladora es de 0.5, así
que:
Se requiere un tamaño de muestra de 97 residentes para que con una confianza del 95% la
estimación tenga un error máximo de 0.10.
1
Otros nombres de contraste de hipótesis utilizados en la bibliografía estadística son: Prueba de hipótesis,
docimasia de hipótesis, test de hipótesis, prueba de significación.
2 Estos Apuntes están basados principalmente en: Newbold, Paul. Estadística para los Negocios y la
Economía. Y en Stevenson,. W. Estadística para Administración y Economía.
Ejemplo 1:
Es posible desear determinar si afirmaciones como las siguientes son ciertas: 3
1. Un fabricante que produce cereales de desayuno afirma que, en promedio, el contenido
de cada caja pesa al menos 200 gramos. Para verificar esta afirmación, se pesa el contenido
de una muestra aleatoria y se infiere el resultado a partir de la información muestral.
2. Una compañía recibe un gran cargamento de piezas. Sólo puede aceptar el envío si no
hay más de un 5% de piezas defectuosas. La decisión de aceptar la remesa puede basarse en
el examen de una muestra aleatoria de piezas.
Los ejemplos propuestos tienen algo en común. La hipótesis se formula sobre la población,
y las conclusiones sobre la validez de esta hipótesis se basan en la información muestral.
Hipótesis Estadística
Es cualquier enunciado, teoría, conjetura, tentativa, afirmación que se haga sobre una o más
características poblacionales como un parámetro, la distribución de probabilidad de una
población, etc.
____________________
3
Newbold, Paul. Estadística para los Negocios y la Economía. Pág. 281.
Nunca se sabe con absoluta certeza la verdad o falsedad de una hipótesis estadística, a no
ser que se examine toda la población. Esto, por supuesto, sería impráctico en la mayoría de
las situaciones. En su lugar, se toma una muestra aleatoria de la población de interés y se
utilizan los datos que contiene tal muestra para proporcionar evidencias que confirmen o no
la hipótesis.
Si la proposición realmente es cierta, ¿Cuál sería la causa del hecho de que una muestra
señalara un 7% de partes defectuosas? Una posibilidad es que la causa sea la variabilidad
del muestreo. Si la decisión después de efectuar el análisis es aceptar la afirmación del
proveedor, significa que la discrepancia entre el porcentaje de productos defectuosos
observado en la muestra y el porcentaje de elementos defectuosos propuesto se debe
razonablemente a la variabilidad del muestreo (al azar). Por el contrario, la decisión de
rechazar la afirmación del proveedor, significa que la diferencia entre el valor observado y
el propuesto es demasiado grande como para deberse únicamente al azar.
Hipótesis Nula (H0)
Es la hipótesis que se considera cierta a no ser que se produzca suficiente evidencia en
contra, lo cual puede entenderse como mantener la hipótesis. Es la hipótesis que se plantea
para juzgar si puede ser o no rechazada. En general, se enuncia como hipótesis nula lo que
se viene aceptando, creyendo o asumiendo como lo que es cierto con anterioridad al
estudio.
Ejemplo 2:
Supóngase que una persona es llevada a juicio en un tribunal de justicia. Las hipótesis nula
y alternativa son:
H0: Es inocente
H1: Es culpable
Cuando la persona acusada es llevada ante un tribunal de justicia, en principio, goza de la
presunción de inocencia (“toda persona es inocente hasta que se demuestre lo contrario”).
Como en la hipótesis nula se enuncia lo que se asume como cierto, en este caso H0: Es
inocente.
Por otra parte, en la hipótesis alternativa se plantea lo que se presume o se cree que es la
situación actual y que ha cambiado con respecto a lo enunciado en H0 y es lo que se quiere
probar. De esta manera, debe plantearse bajo esta circunstancia que H1: Es culpable.
Por lo tanto, la acusación debe presentar evidencia suficientemente clara como para
conseguir un veredicto de culpabilidad. Puede darse el caso de que no se rechace que el
enjuiciado “sea inocente” dado que no se han presentado suficientes evidencias.
En el contexto del contraste de hipótesis clásico, la hipótesis nula se considera cierta
inicialmente. La tarea de persuadirnos de lo contrario corresponde a los datos de la muestra.
La aceptación de una hipótesis nula implica tan sólo que los datos de la muestra no
proporcionan evidencia suficiente para rechazarla. Por otro lado, el rechazo implica que la
evidencia muestral la refuta.
Una hipótesis nula o alternativa, puede designar un único valor, llamado θ0, para el
parámetro poblacional θ. En este caso, se dice que la hipótesis es simple. La notación
simbólica para una hipótesis de este tipo es
H0: θ = θ0
que se lee “La hipótesis nula es que el parámetro poblacional θ es igual al valor específico
θ0”. Por ejemplo, en la situación de los productos defectuosos de un gran lote, el
investigador podría comenzar el estudio con la hipótesis simple de que el porcentaje de
artículos defectuosos es igual a 5%.
Una hipótesis también puede designar un rango de valores para el parámetro poblacional
desconocido. Una hipótesis de este tipo se denomina compuesta y será cierta para más de
un valor del parámetro poblacional. Por ejemplo, la hipótesis nula de que el peso medio de
las cajas de cereales es al menos 200 gramos es compuesta. La hipótesis es cierta para
cualquier peso medio poblacional mayor o igual que 200 gramos.
En muchas situaciones, se contrasta una hipótesis nula simple, digamos, H0: θ = θ0, frente a
una alternativa compuesta. En algunos casos, sólo interesan alternativas a un lado de la
hipótesis nula. Por ejemplo, podría quererse contrastar esta hipótesis nula frente a la
hipótesis alternativa de que el verdadero valor de θ es mayor que θ0, lo cual puede escribirse
como: H1: θ > θ0
Nota 1:
La especificación de las hipótesis nula y alternativa apropiadas depende del problema.
Ejemplo 3:
Para ilustrar estos conceptos, se considerarán los ejemplos enunciados al principio de estas
notas:
1. Sea θ el peso medio poblacional (en gramos) de cereales por caja. La hipótesis nula es
que esta media es al menos 200 gramos, luego se tiene la hipótesis nula compuesta:
H0: θ ≥ 200
La alternativa obvia es que el verdadero peso medio es inferior a 200 gramos, es decir,
H1: θ < 200
1 2. La compañía resuelve aceptar envíos de piezas siempre que no tenga evidencia para
sospechar que más del 5% son defectuosas. Denotando por θ la proporción poblacional
de piezas defectuosas. La hipótesis nula aquí es que esta proporción es como mucho
0.05, es decir, H0: θ ≤ 0,05.
2
Basándose en la información muestral, se contrasta esta hipótesis frente a la alternativa
H1: θ > 0,05.
La hipótesis nula, entonces, es que el cargamento de piezas tiene una calidad adecuada,
mientras que la hipótesis alternativa es que no la tiene.
Sin embargo, el profesor puede sospechar que posiblemente los controles produzcan un
incremento en el promedio y, en consecuencia, querrá contrastar la hipótesis nula frente
a la hipótesis alternativa:
H1: θ > 0
Existen dos tipos de errores que son inherentes al proceso de contraste de hipótesis:
• Error Tipo I: Consiste en rechazar la hipótesis nula (H0) cuando realmente es cierta
• Error Tipo II: Consiste en aceptar la hipótesis nula (H0) cuando realmente es falsa
Por otro lado, la P(cometer Error Tipo II) = β, es decir, la probabilidad de aceptar una
hipótesis nula falsa se denota por β. También puede verse como,
P(Aceptar H0 / H0 es falsa) = β
Entonces, la probabilidad de rechazar una hipótesis nula falsa es (1−β), y se denomina
potencia del contraste. Visto como una probabilidad condicional,
P(Rechaza H0 / H0 es falsa) = 1−β.
SITUACIÓN REAL
DECISIONES SOBRE LA HIPÓTESIS NULA
H0 VERDADERA H0 FALSA
Decisión correcta Error Tipo II
ACEPTAR H0
Probabilidad = 1− α Probabilidad = β
Error Tipo I Decisión correcta
RECHAZAR H0
Probabilidad = α Probabilidad = 1−β
Ejemplo 4:
Haciendo referencia al ejemplo del juicio, se aclararán estas ideas. Se tiene que determinar
si la persona llevada a juicio a un tribunal de justicia es inocente o culpable. Como se
estableció más atrás, se consideró como hipótesis nula el que esta persona es inocente
contrastándose con la hipótesis alternativa de que es culpable. Cuando la decisión es
tomada se está en presencia de las situaciones expuestas en la Tabla 1.
Pero, si el veredicto declara que el acusado es inocente, en otras palabras, se acepta H0, esta
puede ser la decisión correcta si ciertamente esta persona no cometió el delito. O se puede
estar cometiendo un Error Tipo II, lo cual implica que ¡se está declarando inocente a una
persona que realmente es culpable!
Ejercicio
¿Cuál de los dos errores anteriores es más grave? Justifique su respuesta.
Influencia de las Probabilidades α y β sobre una Prueba de Hipótesis
Evidentemente, lo ideal sería que las probabilidades de los dos tipos de error fuesen lo más
pequeñas posible. Sin embargo, hay una clara compensación entre las dos. Cuando se ha
tomado una muestra, cualquier modificación de la regla de decisión que haga menos
probable rechazar una hipótesis nula cierta, inevitablemente, se traducirá en mayor
probabilidad de aceptar esta hipótesis cuando es falsa. En otras palabras, cuando α decrece,
β aumenta y viceversa.
Supóngase que se quiere contrastar, basándose en una muestra aleatoria, la hipótesis nula
de que el verdadero peso medio del contenido de las cajas de cereales es al menos de 200
gramos: H0: θ ≥ 200. Dado un tamaño muestral específico, digamos n = 30 observaciones,
se puede adoptar la regla de decisión de “rechazar la hipótesis nula si el peso medio en la
muestra es inferior a 185 gramos”. Ahora, es fácil encontrar otra regla de decisión para la
cual, la probabilidad de cometer un error de Tipo I es menor. Si se modifica la regla de
decisión anterior para “rechazar la hipótesis nula si el peso medio en la muestra es inferior a
180 gramos”, se conseguirá este objetivo.
Sin embargo, hay que pagar un precio. Si se usa la regla de decisión modificada, será más
probable aceptar la hipótesis nula, tanto si es cierta como si es falsa (¿Por qué?) Por tanto,
al disminuir la probabilidad de cometer un error de Tipo I, se ha aumentado la probabilidad
de cometer un error de Tipo II. La única manera de disminuir simultáneamente las dos
probabilidades de error será obtener más información sobre la verdadera media de la
población, tomando una muestra mayor. Habitualmente, lo que se hace en la práctica, es
fijar la probabilidad de cometer un error de Tipo I a un nivel deseado, es decir, se fija el
nivel de significación α. Esto determina, entonces, la regla de decisión adecuada, que a su
vez determina la probabilidad de un error de Tipo II. Este procedimiento se ilustra en la
Figura 2.
Nota 2:
Al usar el criterio de fijar la probabilidad de error Tipo I, α, para encontrar una regla de
decisión; implícitamente se está considerando a este error más grave que el error Tipo II.
Así, al fijar α en un valor pequeño, el investigador está controlando directamente la
probabilidad de cometer un error Tipo I. Por tal razón, al plantear las hipótesis siempre hay
que hacerlo tomando en cuenta esto último, es decir, que “rechazar la hipótesis nula cuando
es cierta” es un error más grave que “aceptar la hipótesis nula cuando es falsa”.
Terminología adicional en el contraste de hipótesis
Regla de Decisión
Una regla de decisión define las condiciones que llevan a la aceptación o rechazo de la
hipótesis nula.
Región de Aceptación
Es un rango de valores, tal que si el estadístico de prueba queda dentro, la hipótesis nula se
declara aceptable.
Región de Rechazo
Es un rango separado de valores, tal que si el estadístico de prueba queda dentro, la
hipótesis nula se rechaza.
Valor(es) Crítico(s)
Los valores críticos son los números que definen las fronteras de la región de rechazo.
¿Cómo establecer los valores críticos?
Va a depender del:
1 1. nivel de significación, α.
2 2. tipo de distribución de probabilidad del estadístico de contraste
3 3. tipo de hipótesis alternativa que se esté contrastando (bilateral o unilateral)
Los términos aceptar (no rechazar) y rechazar son comúnmente usados para las posibles
decisiones sobre la hipótesis nula en los resúmenes formales de los resultados de un
contraste particular. Sin embargo, estos términos no reflejan adecuadamente las
consecuencias de un procedimiento en el que se fija el nivel de significación y no se
controla la probabilidad de un error de Tipo II. Como ya se ha señalado, la hipótesis nula
tiene estatus de hipótesis mantenida, una hipótesis que se considera cierta salvo que los
datos contengan suficiente evidencia en contra. Además, al fijar el nivel de significación,
generalmente en alguna probabilidad pequeña, se está asegurando que el riesgo de rechazar
una hipótesis nula cierta sea pequeño.
Con esta estructura, una pequeña cantidad de datos no será suficiente para poderse colocar
en posición de rechazar una hipótesis nula, aunque sea completamente errónea. Cuando
aumenta el número de observaciones, es decir, aumenta el tamaño de la muestra, también lo
hace la capacidad de la técnica de contraste para detectar una hipótesis nula falsa. Por tanto,
al “aceptar” una hipótesis nula, no se está asegurando necesariamente, que haya mucho en
su favor. Una afirmación más precisa sobre la situación es “los datos disponibles no
proporcionan suficiente evidencia para rechazar la hipótesis nula” en lugar de “se acepta la
hipótesis nula”.
Se seguirá usando “aceptar” como una manera eficiente de expresar esta idea, pero es
importante tener en cuenta la interpretación de la frase. La situación es muy similar a la de
un tribunal de justicia, donde el acusado, al principio, goza de la presunción de inocencia, y
la acusación debe presentar evidencia contraria lo suficientemente clara como para
conseguir un veredicto de culpabilidad. En el contexto del contraste de hipótesis clásico, la
hipótesis nula se considera cierta inicialmente. La tarea de persuadir de lo contrario
corresponde a los datos de la muestra.5
Casos Particulares
A continuación se introducirá la metodología del contraste de hipótesis clásico. Supóngase
que se dispone de una muestra aleatoria de n observaciones, X1, X2, … , Xn, proveniente de
una población con media μ y varianza σ2. ( También la varianza se denota S2 )
Solución:
a. Población: Peso (en gramos) de las bolas de rodamiento producidas en una fábrica
Denotando por μ el peso medio (en gramos) de las bolas de rodamientos, se quiere
contrastar H0: μ = 5 frente a H1: μ > 5
De esta manera,
Para un contraste de nivel 5%, en las tablas estadísticas se puede hallar que
Z0,05 = 1,645
Como 1,52 no es mayor que 1,645, no se puede rechazar la hipótesis nula para un nivel de
significación del 5%, es decir, se acepta la hipótesis nula con este nivel de significación. En
otras palabras, si se usa un contraste que nos asegure que la probabilidad de rechazar la
hipótesis nula cuando es cierta es 0,05; los datos de la muestra no contienen suficiente
evidencia como para rechazar esta hipótesis.
En el ejemplo anterior, se vio que la probabilidad de observar un valor mayor que 1,28 es
0,1. Por tanto, al rechazar la hipótesis nula, se está diciendo que la hipótesis nula es falsa o
que se ha observado un suceso poco verosímil (que ocurriría sólo con la probabilidad que
especifica el nivel de significación). Es en este sentido en el que la información muestral
despierta dudas sobre la hipótesis nula.
Valor p
Es el nivel de significación más pequeño que conduce al rechazo de la hipótesis nula H0.
El valor p señala la probabilidad (suponiendo que H0 sea cierta) de obtener un valor del
estadístico de prueba, por lo menos tan extremo como el obtenido.
Nota 4:
En los últimos años este concepto ha adquirido gran relevancia. Todos los programas
estadísticos modernos proporcionan valores p, y algunas calculadoras de bolsillo permiten
su cómputo. En consecuencia, actualmente, los estudios aplicados suelen proporcionar
valores p.
Supóngase ahora, que en lugar de una hipótesis nula simple, se quiere contrastar la
hipótesis nula compuesta frente a la alternativa: H0: μ ≤ 5 vs H1: μ > 5
al nivel de significación α. Para la regla de decisión desarrollada en el caso de la hipótesis
nula simple, se vio que si la media de la población es precisamente μ0, entonces la
probabilidad de rechazar la hipótesis nula es α. Para esta misma regla de decisión, si la
verdadera media de la población es menor que μ0, parece aún menos verosímil rechazar la
hipótesis nula. Por tanto, usar esta regla de decisión en el presente contexto garantiza que la
probabilidad de rechazar la hipótesis nula compuesta cuando es cierta es como mucho α.
Supóngase ahora, que en lugar de una hipótesis nula simple, se quiere contrastar la
hipótesis nula compuesta H0: μ ≤ 5 frente a alternativa H1: μ > 5
al nivel de significación α. Para la regla de decisión desarrollada en el caso de la hipótesis
nula simple, se vio que si la media de la población es precisamente μ0, entonces la
probabilidad de rechazar la hipótesis nula es α. Para esta misma regla de decisión, si la
verdadera media de la población es menor que μ0, parece aún menos verosímil rechazar la
hipótesis nula. Por tanto, usar esta regla de decisión en el presente contexto garantiza que la
probabilidad de rechazar la hipótesis nula compuesta cuando es cierta es como mucho α.
f. Decisión:
a. Formulación de hipótesis
Ho : μ = 205
H1 : μ ≠ 205 (Analice porque la hipótesis alternativa es de diferencia)
b. Especificación de un valor de probabilidad crítico o nivel de significación.
El nivel de significación especificado es α = 0.05
Como H1: μ ≠ μo se trata de una prueba de dos colas, siendo la zona de aceptación la
siguiente:
ZR = {Z / -z(1−α/2) < Z < z (1−α/2)}
e. Cómputos necesarios.
f. Decisión:
a. Formulación de hipótesis
Ho : μ = 14.6
H1 : μ < 14.6
b. Especificación de un valor de probabilidad crítico o nivel de significación.
El nivel de significación especificado es α = 0.01
c. Elección de un estadístico de la muestra y de su distribución para someter a prueba las
hipótesis.
Puesto que el parámetro involucrado en la docimasia es la media poblacional μ, y la
variable se distribuye normalmente con varianza desconocida y el tamaño de la muestra
es pequeño lo más conveniente es usar como estadístico de prueba la media muestral en
su forma derivada T. El valor de la desviación de la muestra se usa para estimar el
valor de σ.
1
d. Establecer una zona de aceptación para Ho.
Como H1: μ < μo se trata de una prueba de una cola hacia la izquierda, siendo la zona
de aceptación la siguiente:
ZA = {T / T > - t ( 1−α; n-1) }
e. Cómputos necesarios.
1 f. Decisión:
Como t = - 8.55 < -t(0.99; 24) = -2.492 el valor del estadístico de prueba se encuentra
dentro de la zona de rechazo de Ho. Por lo tanto se concluye que los datos
proporcionan suficiente evidencia para rechazar Ho
De acuerdo a la información obtenida de la muestra se puede afirmar con un 99%
de confianza que la concentración de nitrógeno en las hojas jóvenes de
Rhizophora mangle en ambas regiones es la misma.
Regresión y Correlación Lineal Simple
Si sabemos que existe una relación entre una variable denominada dependiente y otras
denominadas independientes (como por ejemplo las existentes entre: la experiencia
profesional de los trabajadores y sus respectivos sueldos, las estaturas y pesos de
personas, la producción agraria y la cantidad de fertilizantes utilizados, etc.), puede
darse el problema de que la dependiente asuma múltiples valores para una combinación
de valores de las independientes.
Si se da ese tipo de relaciones, se suele recurrir a los estudios de regresión en los cuales
se obtiene una nueva relación pero de un tipo especial denominado función, en la cual la
variable independiente se asocia con un indicador de tendencia central de la variable
dependiente. Cabe recordar que en términos generales, una función es un tipo de
relación en la cual para cada valor de la variable independiente le corresponde uno y
sólo un valor de la variable dependiente.
La Regresión y la correlación son dos técnicas estadísticas que se pueden utilizar para
solucionar problemas comunes.
Y = f(X)
Y = f (X)
Y=A+BX+E
Donde:
E es el error.
Consiste en determinar los valores de "a" y "b" a partir de la muestra, es decir, encontrar
los valores de a y b con los datos observados de la muestra. El método de estimación es
el de Mínimos Cuadrados, mediante el cual se obtiene:
Interpretación de:
Ejemplo
Los datos de la siguiente tabla representan las estaturas (X, cm) y los pesos (Y, kg) de
una muestra de 12 hombres adultos. Para cada estatura fijada previamente se observó el
peso de una persona seleccionada de entre el grupo con dicha estatura, resultando:
X 152 155 152 155 157 152 157 165 162 178 183 178
Con estos datos vamos a plantear una ecuación de regresión simple que nos permita
pronosticar los pesos conociendo las estaturas.
Desarrollo:
Representación Matemática
1 152 50 23104 2500 7600 56.43 -6.43 53.07 59.79 47.30 65.56
2 155 61.5 24025 3782.3 9532.5 59.03 2.47 56.09 61.97 50.05 68.02
3 152 54.5 23104 2970.3 8284 56.43 -1.93 53.07 59.79 47.30 65.56
4 155 57.5 24025 3306.3 8912.5 59.03 -1.53 56.09 61.97 50.05 68.02
5 157 63.5 24649 4032.3 9969.5 60.77 2.73 58.05 63.48 51.85 69.68
6 152 59 23104 3481 8968 56.43 2.57 53.07 59.79 47.30 65.56
7 157 61 24649 3721 9577 60.77 0.23 58.05 63.48 51.85 69.68
8 165 72 27225 5184 11880 67.71 4.29 65.17 70.24 58.85 76.57
9 162 66 26244 4356 10692 65.11 0.89 62.65 67.56 56.27 73.94
10 178 72 31684 5184 12816 78.99 -6.99 74.65 83.33 69.45 88.52
11 183 84 33489 7056 15372 83.32 0.68 78.01 88.64 73.31 93.34
12 178 82 31684 6724 14596 78.99 3.01 74.65 83.33 69.45 88.52
Representación Gráfica
• De acuerdo al desarrollo matemático hemos obtenido los siguientes cálculos:
Interpretación:
¿Cuánto se espera que pese (en promedio) una persona que mide 1.60 m?
Se obtiene:
Conclusión:
Esta relación se ha estimado en un R = 93.7, que indica una fuerte relación positiva.