Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Carlos Camacho
Universidad de Sevilla
APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD
)))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))
6.1.- Introducción
6.2.- Concepto de probabilidad
6.3.- Probabilidades simples
6.4.- Probabilidades totales
6.5.- Probabilidades compuestas
6.5.1.- Sucesos independientes
6.5.2.- Sucesos dependientes
6.6.- Probabilidad e investigación en ciencias humanas
)))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))
6.1.- Introducción
1
La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá
de puente entre lo observado en la muestra y lo pronosticable en la
población, que es desconocida. Para ello hemos de conocer las leyes de
probabilidad que rigen los fenómenos estudiados, o lo que es lo mismo,
hemos de tener una idea previa del modelo matemático que subyace tras
los datos de observación. De esta forma, del conocimiento de un
determinado valor muestral -estadístico- y del tipo de distribución que
presenta -distribución en el muestreo- derivará las conjeturas que
podamos establecer sobre los valores poblacionales -parámetros-, tal
como se verá extensamente en los capítulos dedicados a la estimación
y decisión estadísticas.
2
definido por una determinada ley de probabilidad, que es la que hace
de horma y determina toda consideración estadística.
3
Pascal (1623-1675), se pudo cuantificar las ganancias esperadas en los
juegos de cartas. A partir de entonces se observó que fenómenos
equivalentes podían observarse en otros ámbitos de la ciencia. En
particular, el astrónomo belga Quételet (1796-1874), interesado en
mediciones antropológicas mostró que la teoría de las probabilidades
podía aplicarse igualmente a temas humanos. La misma distribución de
frecuencias presentada en los juegos de la ruleta se observaba en la
estatura o en el perímetro torácico de los soldados, en los cocientes
intelectuales de los niños o en las presiones sanguíneas de los
adultos. Se sentó así la base para la utilización de la estadística,
en cuanto teoría de probabilidades, en las ciencias de la conducta.
nA
P(A) ' (6.1)
n
4
nos tomásemos la molestia de comprobar la proporción de niños que nacen
varones en un número suficientemente grande de observaciones (por
ejemplo, los nacidos en toda España durante un año) observaríamos que:
número de varones
P(varón) ' ' 0.51
total de nacimientos
na
P(A) ' lim
n64 n (6.2)
5
basada en evidencias observables y no en supuestos basados en la lógica
y naturaleza de los sucesos. Hace referencia a las denominadas
probabilidades a posteriori, precisamente porque sus magnitudes se
conocen después de la ocurrencia de los fenómenos estudiados y nunca
antes. Se distinguen de las denominadas probabilidades a priori, que
son precisamente las surgidas en el seno de la teoría de juegos, y que
se caracterizan porque previamente a cualquier ensayo podemos
(supuestamente) establecer las probabilidades correspondientes.
25
f(A) ' ' 0.25
100
De esta manera nos iremos aproximando cada vez más hasta el valor real,
aunque, en la práctica hay que decir que jamas conoceremos su valor
exacto, si bien es cierto que será lo suficientemente aproximado. En
el capítulo referente a la estimación estadística veremos con qué grado
de certeza podremos establecer una determinada aproximación.
6
fenómenos en los que es absolutamente necesario tener experiencia de
lo acontecido, como por ejemplo, en el caso en que interese determinar
la probabilidad de que un determinado tratamiento contra la
osteoporosis sea exitosa, sino que incluso en aquellos fenómenos en los
que supuestamente pueda establecerse a priori su probabilidad es
precisamente a través de su comprobación fáctica como pueda confirmarse
de forma definitiva el supuesto establecido.
7
probabilidades entendidas como frecuencias relativas. Comenzaremos por
el caso más sencillo, donde se trata la ocurrencia de un único suceso
-probabilidades simples- para tratar a continuación situaciones en las
que puedan presentarse varios sucesos -probabilidades totales y
probabilidades compuestas-. Aunque somos conscientes de que tales
conceptos no son estrictamente necesarios para resolver problemas
prácticos de investigación en psicología, estimamos de su conveniencia
en la comprensión de la lógica que subyace en toda investigación. No
pretendemos ser exhaustivos, pero sí ofrecer un mínimo conocimiento que
posibilite abordar la estadística inferencial con cierta eficacia.
Observará el lector que numerosos problemas donde intervienen muestras
pequeñas sólo pueden resolverse mediante un mínimo de conocimiento de
la teoría de la probabilidad. Por otro lado, como tendrá ocasión de
comprobar, muchas consecuencias útiles para su vida habitual serán
logradas si muestra interés por los próximos apartados.
NA N
P(A) ' ' ' 1 (6.4)
N N
NA 0
P(A) ' ' ' 0 (6.5)
N N
8
Si un determinado suceso se presenta NA veces de un total de N casos,
es evidente que no se presentará N-NA veces. Diremos, entonces que la
probabilidad de no ocurrencia de A, que expresaremos como P(A) será:
N & NA N
P(A) ' ' 1 & A ' 1 & P(A) (6.6)
N N
SOL:
1
P(rey de bastos) ' ' 0.025
40
4
P(caballo) ' ' 0.1
40
Tabla 1
+))))))))0)))))))))0))))))))))0)))))))))0)))))))))0))))))),
* * * * * * *
* Cadiz * Córdoba * Granada * Málaga * Sevilla * Total*
* * * * * * *
/))))))))3)))))))))3))))))))))3)))))))))3)))))))))3)))))))1
* 14315 * 15079 * 54782 * 24679 * 56918 *165773 *
* * * * * * *
.))))))))2)))))))))2))))))))))2)))))))))2)))))))))2)))))))-
9
SOL:
56918
P(sevillano) ' ' 0.343
165773
24679
P(malagueño) ' 1 & P(malagueño) ' 1 & ' 0.851
165773
10
P(A o B) ' P(A) % P(B) (6.7)
SOL:
Tenemos cuatro sotas y cuatro reyes. En total hay, pues, ocho casos
que satisfacen cualquiera de ambas condiciones. Así pues:
4 4 8
P(sota o rey) ' P(sota) % P(rey) ' % ' ' 0.2
40 40 40
SOL:
4 10 1
P(rey o copas) ' P(rey) % P(copas) & P(rey de copas) ' % & ' 0.325
40 40 40
11
Resulta conveniente recurrir a la teoría de conjuntos para determinar
probabilidades. En este caso, diremos que el suceso "A o B" hace
referencia a "A U B". Utilizamos el símbolo U indicando que
matemáticamente se trata de una unión de sucesos. Así, una forma
equivalente de expresar (6.8) será:
rey copa
Figura 3.1
12
A simple vista se observa que hay trece cartas que cumplen la condición
de ser rey o copa. Una de ellas, el rey de copas, pertenece tanto al
conjunto de reyes como de copas. Por esa razón, al sumar 4/40 a 10/40
de la ecuación 3.20 obtenemos 14/40. Un elemento que pertenece a ambos
conjuntos -el rey de copas- se ha sumado dos veces. En consecuencia,
para solventar este problema, hemos de restarlo una vez. De esta forma,
queda justificada la expresión 3.20.
Comenzaremos por el caso más sencillo donde los sucesos que tienen
lugar son independientes entre sí. Por ejemplo, si lanzamos dos veces
una moneda lo que se obtenga en la segunda tirada no es afectado con
lo obtenido en el primer lanzamiento; una familia que tenga diez hijos
varones, y que esté esperando su undécimo hijo, tendrá exactamente las
misma probabilidades tanto de que nazca niño como de nacer niña en el
próximo nacimiento.
13
De una manera formal, diremos que dados dos sucesos A y B tales que
sean independientes entre sí (el resultado de uno de ellos no
condiciona al otro), la probabilidad de que ocurran ambos (bien
simultáneamente o secuencialmente) es igual al producto de las
probabilidades de cada uno de ellos. Esto es:
SOL:
1 1 1
P(CX) ' P(C) ( P(X) ' ( '
2 2 4
CARA CRUZ
+)))))))))))0))))))))))),
* * *
CARA * CC * CX *
/)))))))))))3)))))))))))1
* * *
CRUZ * XC * XX *
.)))))))))))2)))))))))))-
14
Comprobamos que hay dos casos posibles para el primer lanzamiento, y
otros tantos para el segundo lanzamiento. En consecuencia, la
combinaciones posibles son 2*2=4. Y del conjunto de estos cuatro casos
(CC, CX, XC y XX) uno de ellos será cara y cruz (CX). Por tanto, su
probabilidad será 1/4.
CARA
+)))))))))))Q CC: P(CC)=1/2*1/2=1/4
CARA *P(C)=1/2
+)))))))))))1
* P(C)=1/2 * CRUZ
+)))))))), * .)))))))))))Q CX: P(CX)=1/2*1/2=1/4
* LANZA- * * P(X)=1/2
* /)))))))))))1
* MIENTO * * CARA
.))))))))- * +)))))))))))Q XC: P(XC)=1/2*1/2=1/4
* CRUZ *P(C)=1/2
.)))))))))))1
P(X)=1/2 * CRUZ
.)))))))))))Q XX: P(XX)=1/2*1/2=1/4
P(X)=1/2
SOL:
4 10 1
P(caballo de bastos) ' P(caballo)(P(bastos) ' ( '
40 40 40
15
Ejemplo 6.7.- Supongamos (de una forma un tanto irreal) que un
determinado alumno tiene siempre la probabilidad 0.5 de aprobar el
examen de Estadística. Esto supuesto: a) determinar la probabilidad de
que apruebe en el curso, esto es, entre junio y septiembre; b)
determinar la probabilidad de que apruebe en alguna de las seis
convocatorias permitidas.
SOL:
Por tanto:
16
donde P(B * A) hace referencia a la probabilidad de que ocurra B
habiendo ocurrido A. La lógica aquí es la misma que la expuesta para
los sucesos independientes. La única diferencia se encuentra en el
hecho de que la probabilidad del segundo suceso queda mediatizada por
lo ocurrido en el primero. Si el suceso A se presenta siempre y en
cualquier circunstancia, una vez de m veces, e igualmente, el suceso
B una vez de n veces, está claro, como hemos indicado que,
conjuntamente se presentarán 1/(m*n) veces, pero si al ocurrir A, B
ocurre h veces, entonces la combinación de ambos será 1/(m*h) veces.
P(AB)
P(B * A) ' (6.12)
P(B)
Ejemplo 6.8.- Tengamos una urna con diez bolas blancas y seis bolas
negras. Si extraemos dos bolas sin reposición, determinar la
probabilidad de que la primera bola sea blanca y la segunda negra.
SOL:
10
P(B) ' ' 0.625
16
6
P(N * B) ' ' 0.4
15
En consecuencia:
10 6
P(BN) ' P(B)(P(N * B) ' ( ' 0.25
16 15
17
probabilidad de A es mayor en presencia de B, y lo que nos interesa es,
justamente, tener un mayor control sobre A, entonces la presencia de
B nos lo permitirá. Es lo que, en otro contexto, se conoce como
relación de variables; una variable (sobre la que podemos intervenir)
nos permite predecir otra (que no podemos manipular directamente). Por
ejemplo, el deporte y una alimentación pobre en grasas saturadas,
disminuye el riesgo de infarto, o dicho en otros términos: la
probabilidad de padecer un infarto de miocardio por un sujeto que hace
deporte y cuida su alimentación es menor que en un sujeto que no se dan
tales circunstancias. En este caso la probabilidad condicionada nos ha
permitido disminuir la probabilidad de infarto. Otras veces, nos
interesará aumentar la probabilidad; de esta forma, el éxito con la
mujer de nuestros sueños probablemente será mayor si lo ligamos a una
conversación interesante y a una presencia agradable (en la medida de
nuestras posibilidades).
))))))))))))))))))))))))))))))))))))))))))))))))
2500 1000 3500
2750
P(F) ' ' 0.786
3500
18
2100
P(F * C) ' ' 0.84
2500
Por otro lado, la probabilidad de que un soltero sea feliz P(F * S) :
650
P(F * S) ' ' 0.65
1000
Se observa a grosso modo que el grado de felicidad tiene que ver con
el estado civil, en la medida que estar casado incrementa la
probabilidad de ser feliz. Existe relación, pues, entre ambas
variables, y podemos afirmar que la felicidad se hace más probable -y
por tanto, más predecible- en la situación de casado (según estos
datos, ficticios).
2500 2100
P(CF) ' P(C) ( P(F * C) ' ( ' 0.714 ( 0.840 ' 0.6
3500 2500
2500
P(C) ' ' 0.714
3500
19
2750
P(F) ' ' 0.786
3500
0.054
Incertidumbre disipada ' ' 0.252
0.214
20
6.6.- Probabilidad e investigación en Ciencias Humanas
21
extrañas quedarán compensadas a lo largo de los distintos sujetos, y
el promedio del rendimiento será constatable. La estadística como
ciencia alcanza su máxima eficacia desde la perspectiva macroscópica
-conjunto de datos-, donde pueden percibirse ciertas tendencias
generales, en tanto que desde una perspectiva microscópica -un sola
observación- los componentes aleatorios son de tal magnitud que hacen
en la práctica inviable cualquier pronóstico serio.
Veamos un ejemplo muy sencillo que puede ilustrar (a pesar de los pocos
elementos de probabilidad explicados) la lógica de las decisiones
estadísticas.
22
concluir en base a estos datos que tiene un cierto dominio de la
materia.
SOL:
Observamos que tal cantidad es inferior al uno por mil. Puede ocurrir
que la casualidad haya dado lugar a este caso, pero obviamente es
muchísimo más probable lo contrario (acertaremos más de 999 veces de
cada 1000). En consecuencia suponemos que el sujeto tiene algún
conocimiento de la materia asumiendo una probabilidad de equivocarnos
del 0.00098.
24
Tema VII. Variables aleatorias y modelos de probabilidad (I): El
caso discreto
))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))Q
7.1.- Introducción
7.2.- Concepto de variable aleatoria
7.3.- Variable aleatoria discreta
7.4.- Distribución de probabilidad y función de probabilidad
7.4.1.- Representación gráfica de la distribución de probabilidad
7.5.- Función de distribución
7.5.1.- Representación gráfica de la función de distribución
7.6.- Esperanza matemática de una variable aleatoria discreta
7.7.- Varianza de una variable aleatoria discreta
7.8.- Modelos de distribución discreta de probabilidad
7.8.1.- Distribución binomial
7.8.1.1.- Prueba binomial y toma de decisión estadística
7.8.2.- Distribución multinomial
))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))Q
7.1.- Introducción
25
De la misma manera que la distribución de una muestra quedaba
especificada por los valores de la variable junto a sus frecuencias (o
bien, frecuencias relativas), aquí la variable aleatoria queda descrita
por los valores que adopta junto a sus probabilidades asociadas.
(Obsérvese que la probabilidad es precisamente la frecuencia relativa
en la población). El conjunto de estos valores, con sus probabilidades
correspondientes definen las distintas distribuciones de probabilidad;
esto es, los distintos modelos de probabilidad.
26
También las variables que habitualmente hemos denominado cualitativas,
en este contexto quedan definidas como variables aleatorias discretas.
En este caso se asigna un número a cada uno de los atributos que
presente la variable cualitativa en cuestión.
X Alumnos
))))))))))))))))))))))
0 ........... 5554
1 ........... 15784
2 ........... 27544
3 ........... 37905
4 ........... 24434
5 ........... 16376
))))))))))))))))))))))
127597
Tabla 7.1
SOL:
27
El total de alumnos es 127597. Dividiendo cada una de las frecuencias
observadas en los diferentes valores de la variable aleatoria por esta
cantidad obtendremos la proporciones a nivel poblacional, o lo que es
lo mismo su probabilidad asociada. Así pues:
X P(X)
))))))))))))))))))))))
0 ........... 0.0435
1 ........... 0.1237
2 ........... 0.2159
3 ........... 0.2971
4 ........... 0.1915
5 ........... 0.1283
))))))))))))))))))))))
Tabla 7.2
SOL:
Sexo Probabilidad
X P(X)
))))))))))))))))))))))
0 ........ 0.51
1 ........ 0.49
))))))))))))))))))))))
Tabla 7.3
28
Otras veces carecemos de información poblacional, y en consecuencia,
hemos de operar con un modelo idealizado donde recurriremos a distintos
procedimientos matemáticos para determinar probabilidades. Se tratan
de distribuciones cuyos datos son producidos según un proceso
determinado. En estos casos, hemos de determinar la función matemática
que nos permite atribuir a un determinado valor una cierta
probabilidad. Esta función se denomina función de probabilidad.
SOL:
29
P(VMM) ' 0.51(0.49(0.49 ' 0.1225
P(MVM) ' 0.49(0.51(0.49 ' 0.1225
P(MMV) ' 0.49(0.49(0.51 ' 0.1225
X P(X=x)
)))))))))))))))))))))
0 ........ 0.1176
1 ........ 0.3674
2 ........ 0.3823
3 ........ 0.1327
))))))))))))))))))))
Tabla 7.4
30
Obsérvese que las probabilidades no se ofrecen directamente de los
datos de observación sino que han sido deducidas por procedimientos
matemáticos -función de probabilidad-. Normalmente en los censos no se
ofrece toda la casuística del numero de hijos varones o mujeres para
distintos tamaños de familia.
SOL:
0,4
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
0 1 2 3
Figura 7.1
31
7.5.- Función de distribución
SOL:
Así pues:
32
X F(x)
)))))))))))))))))))))
0 ........ 0.1176
1 ........ 0.4840
2 ........ 0.8673
3 ........ 1
))))))))))))))))))))
T +)))))))Q
* *
* *
* +)))))))-
* *
* *
* *
* *
* +)))))))-
* *
* *
* *
* *
/)))))))-
*
*
.)))))))))))))))))))))))))))))))))))Q
0 1 2 3
Figura 7.2
33
7.6.- Esperanza matemática de una variable aleatoria discreta
N
j fiX i
i'1
X‾ '
N
fi
donde hace referencia a las frecuencias relativas asociadas a
N
N
µ ' E(X) ' j p iXi (7.4)
i'1
34
Ejemplo 7.7.- Calcular la esperanza matemática del ejemplo 7.3.
SOL:
Xi pi piXi
))))))))))))))))))))))))))))Q
0 ........ 0.1176 0
1 ........ 0.3674 0.3674
2 ........ 0.3823 0.7646
3 ........ 0.1327 0.3981
))))))))))))))))))))))))))))Q
1.5301
Aplicando (7.4):
N
µ ' E(X) ' j piX i ' 1.5301
i'1
SOL:
Cuando pierde, pierde las 100 pesetas invertidas (gana -100), y
cuando gana, gana la diferencia entre los invertido y lo conseguido
(500-100=400). Así pues, la distribución de probabilidad será:
35
Xi pi
)))))))))))))))))))))
-100 ....... 0.9
400 ....... 0.1
))))))))))))))))))))
Y su valor esperado:
N
E(X) ' j piX i ' 0.9((&100) % 0.1(400 ' &50
i'1
Puede ocurrir que si juega una única vez gane o incluso gane en unas
pocas jugadas, pero con toda seguridad, si juega muchas veces perderá.
En el límite, perderá 50 pesetas multiplicado por el numero de jugadas.
Esto es lo que sucede con bingos, tragaperras .. etc; si se juega
alguna vez, a lo mejor se gana, pero si se repite mucho, al final
siempre se pierde. Si se quiere ganar dinero con la lotería lo mejor
es montar una.
36
como una probabilidad (frecuencia relativa poblacional). Por otro lado,
la media será ahora la media poblacional µ. Si designamos la varianza
poblacional como σ2:
N
σ2 ' j pi X i & µ 2
(7.6)
i'1
N
j X fi
2
s2 ' i'1
& X‾2
N
Igualmente, ahora:
N
σ2 ' j piX 2 & µ2 (7.7)
i'1
37
En este apartado trataremos algunas de los modelos de distribución
aplicables a variables aleatorias discretas. Nos centraremos sólo en
las dos que estimamos más relevantes, y no profundizaremos demasiado
en ellos; tan sólo nos referiremos a ciertos aspectos de interés de
cara a la investigación en ciencias humanas. Los dos modelos en
cuestión son: la distribución binomial y la distribución multinomial.
X = 1 + 1 + 1 + 0 + 1 + 1 + 0 + 1 = 6
38
base era dicotómica. En realidad es el número de veces que se presenta
algo. Es interesante hacerlo constatar porque en última instancia en
la naturaleza todo lo que hay es la suma de algo que bien se da o no
se da. Incluso las variables continuas lo son aparentemente, en el
límite de su resolución serán discretas: número de veces que se
presenta algo.
n n!
f(x) ' p xq n&x ' p xq n&x (7.8)
x x!(n&x)!
donde:
39
que tal cosa ocurra será:
Pero nos conformamos con obtener x veces dicho sucesos, sin importarnos
el orden. Entonces, las combinaciones posibles en las que se pueden
presentar x veces un determinado suceso entre un total de n
observaciones, es como se sabe:
n n!
Cnx ' '
x n!(n&x)!
n!
P(X'x) ' p xq n&x
x!(n&x)!
SOL:
Apliquemos (7.8):
3!
P(X'2) ' 0.512 ( 0.493&2 ' 0.3823
2!(3&2)!
40
7.8.1.1.- Prueba binomial y toma de decisión estadística
41
lanzamientos esperaremos lograr 5 caras. Pero es igualmente evidente
que no necesariamente tendremos que conseguir exactamente 5 caras. El
azar puede dar lugar a ciertas fluctuaciones. No nos sorprenderá, por
ejemplo, si obtenemos 6 o 4 caras, y aún con estos resultados
seguiremos pensando que nuestra moneda está equilibrada. Sin embargo,
si obtenemos 10 caras o bien 0 caras, empezaremos a pensar que quizás
la moneda no esté tan equilibrada como pensábamos. La razón estriba en
que consideramos que la obtención de 6 o 4 caras es bastante probable
en una moneda perfecta, mientras que obtener 10 o 0 caras ya es menos
probable en dicha moneda.
42
10!
P(X'0) ' 0.500 ( 0.5010 ' 0.0010
0!10!
10!
P(X'1) ' 0.501 ( 0.509 ' 0.0098
1!9!
10!
P(X'2) ' 0.502 ( 0.508 ' 0.0439
2!8!
10!
P(X'3) ' 0.503 ( 0.507 ' 0.1172
3!7!
10!
P(X'4) ' 0.504 ( 0.506 ' 0.2051
4!6!
10!
P(X'5) ' 0.505 ( 0.505 ' 0.2461
5!5!
10!
P(X'6) ' 0.506 ( 0.504 ' 0.2051
6!4!
10!
P(X'7) ' 0.507 ( 0.503 ' 0.1172
7!3!
10!
P(X'8) ' 0.508 ( 0.502 ' 0.0439
8!2!
10!
P(X'9) ' 0.509 ( 0.501 ' 0.0098
9!1!
10!
P(X'10) ' 0.5010 ( 0.500 ' 0.001
10!0!
43
0,25
0,2
0,15
0,1
0,05
0
0 1 2 3 4 5 6 7 8 9 10
Figura 7.3
44
moneda está mal equilibrada. En este caso nos equivocaremos
precisamente las 2.16% de las veces que la moneda esté bien, pero
parece razonable que adoptemos esta decisión ya que el riesgo implicado
es considerablemente menor que si concluyésemos de forma contraria.
0,25
0,2
0,15
0,1
0,05
0
0 1 2 3 4 5 6 7 8 9 10
Figura 7.4
Esta misma lógica que hemos utilizado con la moneda puede ser
generalizado a otros contextos, de tal forma que acontecimientos cuya
probabilidades (por azar) fueran de una magnitud pequeña (normalmente
del 0.05 o 0.01), serán considerados, en caso de obtenerse, que su
ocurrencia no ha sido debida azar, sino por cualquier causa (que
habremos de determinar en función del control de variables habidas).
En caso contrario, cuando la probabilidad de la ocurrencia por azar sea
grande será aceptado el supuesto de azar, y si estamos realizando
alguna investigación concluiremos que no ha sucedido nada distinto al
45
azar, así si estudiásemos el efecto de una droga sobre la conducta
concluiríamos que ésta no ha sido efectiva.
+))))))))))))))))))))))))))))))))))))))))))))))))))))))))),
* Resplandor, Resplandor, Resplandor, Pulkrín, Pulkrín *
* Resplandor, Resplandor, Resplandor, Pulkrín, Resplandor *
.)))))))))))))))))))))))))))))))))))))))))))))))))))))))))-
SOL:
46
P(X=10)=0.001. Nos falta calcular P(X=8):
10!
P(X'8) ' 0.58(0.52 ' 0.0439
8!2!
P(X>7) ' P(X'8) % P(X'9) % P(X'10) ' 0.0439 % 0.0098 % 0.001 ' 0.0547
Y en total:
47
Para ello, se realiza un experimento con las cartas de la baraja
española, donde debe intentar adivinar la carta que extrae (con
reemplazamiento) un observador situado en un cuarto contiguo. De un
total de 6 cartas adivina 4. ¿Confirman estos datos la capacidad
telepática del sujeto?
SOL:
La probabilidad de acertar por puro azar cada ensayo, esto es, cada
carta es 1/40, y en consecuencia, la de fallar 39/40. Así pues, la
probabilidades de acertar 4 o más cartas de un total de 6 será:
4 2
6! 1 39
P(X'4) ' ' 5.57(10&6
4!2! 40 40
5 1
6! 1 39
P(X'5) ' ' 5.71(10&8
5!1! 40 40
6 0
6! 1 39
P(X'6) ' ' 2.44(10&10
6!0! 40 40
Por tanto:
P(X$4) ' P(4) % P(5) % P(6) ' 5.57(10&6 % 5.71(10&8 % 2.44(10&10 ' 5.62(10&6
48
probabilidad de equivocarnos) que ha habido algo más que azar. Ahora
sólo hace falta descartar la hipótesis de fraude y que el experimento
haya sido correctamente llevado para concluir que ha existido realmente
telepatía.
N! n n n
P ' p1 1p2 2...pk k (7.9)
n1!n2!...n k!
siendo:
n n n
p1 1p2 2...p k k
49
la probabilidad de que se presenten tales sucesos en un orden
determinado. Y siendo:
N!
n1!n2!...nk!
SOL:
Apliquemos (7.9):
N! n n n 3!
P ' p1 1p2 2...pk k ' 0.210.310.51 ' 0.18
n1!n2!...n k! 1!1!1!
48
Tema VIII. Variables aleatorias y modelos de probabilidad (II): El caso
continuo.
))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))Q
8.1.- Introducción
8.2.- Variable aleatoria continua
8.3.- Distribución de una variable aleatoria continua
8.4.- Función de densidad de probabilidad
8.5.- Media de una variable aleatoria continua
8.6.- Varianza de una variable aleatoria continua
8.7.- La distribución normal de probabilidad
8.7.1.- Cálculo de probabilidades en distribuciones normales
8.7.2.- Manejo de la tabla normal tipificada
8.7.3.- Ley normal y distribuciones afines
8.7.3.1.- Distribución muestral de medias
8.7.3.2.- Distribución muestral de proporciones
8.7.3.3.- Aplicaciones en la teoría de la decisión estadística
))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))Q
8.1.- Introducción
49
la estatura, la inteligencia, el tiempo en ejecutar una tarea ... etc.
Tomemos, a efectos ilustrativos, la estatura. Entre dos valores,
digamos 170 cms y 171 cms podremos encontrar tantos como deseemos.
Supongamos que afinamos más y nos situamos entre dos valores
extraordinariamente próximos como 170.13 y 170.14. Aquí también
podremos encontrar tantos valores como deseemos. Tan sólo hemos de
operar con una precisión infinita (infinitos decimales).
Obsérvese que hemos dicho "en teoría" ya que en la práctica está claro
que no es posible una precisión infinita (entre otras razones
necesitaríamos infinito tiempo). Por otro lado, el mismo instrumento
de medida nos marcará el límite en la precisión. Así, si un metro tiene
la escala en milímetros, esa será nuestra precisión; si la inteligencia
la medimos a través de una determinada prueba, el número de cuestiones
marcará igualmente el límite de medida. En definitiva, en la práctica
cualquier variable continua, por limitaciones del instrumento de
medida, resultará una variable discreta.
X f p F P
))))))))))))))))))))))))))))))))
10-14 2 0.04 2 0.04
15-19 8 0.16 10 0.20
20-24 6 0.12 16 0.32
25-29 12 0.24 28 0.56
30-34 7 0.14 35 0.70
35-39 6 0.12 41 0.82
40-44 4 0.08 45 0.90
45-49 3 0.06 48 0.96
50-54 1 0.01 49 0.98
55-59 1 0.01 50 1
))))))))))))))))))))))))))))))))
Tabla 8.1
50
Y su correspondiente histograma:
Figura 8.1
(8.1)
51
ahora, un histograma de las siguientes características:
Figura 8.2
Figura 8.3
52
Cómo calcular dicho área cuando disponemos del modelo de probabilidad
(pero no de datos concretos) será el objetivo del próximo apartado.
n
Area total ' j f(x i)(xi & xi&1) (8.2)
i'1
53
n
lim j f(x i)(xi & xi&1) ' 4 f(x)dx
Area total ' n64 i'1 m&4 (8.3)
Figura 8.4
x2
mx1
P(x1# x # x2) ' f(x)d(x) (8.4)
54
Para el cálculo de las áreas correspondientes a funciones continuas se
hace necesario el recurso del cálculo integral. No obstante, hay que
decir que para las variables aleatorias más comunes, que son con las
que operaremos aquí (ley Normal, F de Snedecor, t de Student y Chi
cuadrado) ya vienen las áreas convenientemente tabuladas, por lo que
en la práctica no habremos de utilizar integrales.
55
8.5.- Media de una variable aleatoria continua
N
µ ' E(X) ' j piX i
i'1
4
m&4
µ ' E(X) ' f(x) x dx (8.5)
N
σ2 ' j p iXi2 & µ2
i'1
4
m&4
σ2 ' E(X 2) & [E(X)]2 ' f(x)(x 2) dx & µ2 (8.7)
56
No obstante, como hemos indicado anteriormente, en este texto no
tendremos necesidad de utilizar integrales, por cuanto las variables
continuas que estudiaremos dispondrán de su correspondiente tabla donde
vendrán indicadas las funciones de densidad asociadas así como sus
medias y varianzas.
Como acabamos de indicar las variables aleatorias que siguen una ley
normal de probabilidad son las más frecuentemente utilizadas en
estadística. Hace referencia a multitud de fenómenos que presentan sus
máximas frecuencias en torno a los valores promedios de la
distribución, yendo tales frecuencias disminuyendo progresivamente
conforme se alejan sus valores de dichos promedios. Por ejemplo, la
mayor parte de las variables de tipo biológico (peso, estatura, presión
sanguínea ..etc), así como las variables de tipo psicológico (memoria,
inteligencia, tiempo de reacción ..etc) siguen distribuciones normales.
Tomemos, como referencia la estatura. La mayor parte de las personas
tienen valores próximos a la media, sea 1.70, siendo más infrecuentes
las estaturas cuanto más alegadas estén de dicho promedio. De una forma
gráfica la distribución normal tiene la siguiente configuración:
Figura 8.5
57
Esta distribución fue desarrollada por Carl Friedrich Gauss (1777-1855)
y por su forma acampanada es denominada frecuentemente como campana de
Gauss. Aunque en honor de la verdad hay que decir, que esta
distribución ya fue descrita gráficamente (sin su ecuación
correspondiente) con anterioridad por De Moivre estudiando algunos
juegos de azar.
1 x&µ 2
1 &
f(x) ' e 2 σ
(8.8)
σ 2π
Se observa que a excepción del número π y del número e que son valores
constantes en la ecuación, ésta depende de µ y σ que nos indican la
medida de posición y de dispersión respectivamente. Ya que estos valores
pueden variar de una distribución a otra más que hablar de la
distribución normal hemos de hacerlo de una familia de distribuciones
normales, cada una con su media y su varianza correspondiente. Así las
mostradas a continuación son todas distribuciones normales con distintas
medias y varianzas:
Figura 8.6
58
En consecuencia, cada distribución normal queda definida por su media
y su varianza. Son los parámetros (valores poblacionales) que
caracterizan dicha distribución. De esta forma, para indicar que una
determinada variable aleatoria X sigue una ley de distribución normal
de media µ y varianza σ2 lo expresaremos formalmente como:
X 0 N(µ,σ)
59
170
Figura 8.7
m170
175
P(170 # x # 175) ' e 2 6
dx
6 2π
Decimos "en principio" porque aunque nada impide utilizar este recurso,
es evidente que se trata de un procedimiento un tanto engorroso, por
cuanto el desarrollo de integrales no siempre es fácil. Más útil resulta
recurrir a unas tablas donde alguien se ha tomado la molestia de
calcular las áreas correspondientes a los diferentes recintos que se nos
pueden plantear en una curva normal.
60
Variable media des. tipo
S)))))))))))))))))))))))))))))))))))Q
Estatura 170 cms 4 cms
Peso 70 kgs 5 kgs
Inteligencia 100 C.I. 15 C.I.
T. Reacción 0.10 ss 0.02 ss
S)))))))))))))))))))))))))))))))))))
Tabla 8.2
No obstante, más útil que tomar como referencia una variable específica
sobre la que se realiza la transformación, definiremos la tabla sobre
la variable que resulta de efectuar la siguiente transformación:
X&µ
Z '
σ
X&µ 1 1
E (Z) ' E ' E(X) & µ ' (µ & µ) ' 0
σ σ σ
(8.9)
X&µ 1 1 2
var (Z) ' var ' var (X) ' σ ' 1
σ σ2
σ2
61
recurriremos a esta distribución como punto de referencia. Para ello,
transformaremos cualquier variable X en su Z correspondiente, y a
continuación, manejaremos la tabla sobre estos valores Z a sabiendas que
los recintos bajo la curva de la variable tipificada son los mismos que
los correspondientes valores de la variable original.
+)))))))))))))))))))))))))))))))))))))))))))))))))))))))),
* *
* *
* *
* *
* *
* *
* *
* *
* *
* *
* *
* *
* *
* *
* *
* *
* 170 174 *
* 70 75 *
* 100 115 *
* 0.10 0.12 *
.))))))))))))))))))))))))))))))))))))))))))))))))))))))))-
Figura 8.8
X1 &µ 100&100
Z1 ' ' ' 0
σ 15
X2 &µ 115&100
Z2 ' ' ' 1
σ 15
62
De esta forma, concluiremos que:
0 Z
Figura 8.9
63
Por ejemplo, si nos preguntan por la probabilidad de obtener un valor
Z comprendido entre 0 y 1.23, buscaremos en las tablas y obtendremos el
valor 0.3906. Por tanto:
0 1,23
Figura 8.10
P(&1.23 # Z # 0) '
P(0 # Z # 1.23) ' 0.3906
-1,23 0
Figura 8.11
64
Y por la misma razón de simetría aludida sabremos que cada una de las
partes de la curva comprende un área cuyo valor es 0.5. Esta
característica la podemos aprovechar convenientemente para calcular
probabilidades por encima o por debajo de unos valores dados. Por
ejemplo, supongamos que nos solicitan la probabilidad de obtender una
valor de Z superior a 1.23:
Figura 8.12
0 1,23
Figura 8.13
65
Veamos a continuación algunos ejemplos que ilustran lo expuesto.
17 18 21
Figura 8.14
66
X1 &µ 17&18
Z1 ' ' ' &0.25
σ 4
X2 &µ 21&18
Z2 ' ' ' 0.75
σ 4
Por tanto:
P(17 # x # 21) ' P(&0.25 # Z # 0.75) ' 0.0987 % 0.27335 ' 0.37205
b) Nos piden:
18 20
Figura 8.15
Tipifiquemos:
X&µ 20 & 18
Z ' ' ' 0.5
σ 4
Luego:
67
18 23
Figura 8.16
Tipificando la variable:
X&µ 23 & 18
Z ' ' ' 1.25
σ 4
En consecuencia:
P(4 # x # 23) ' P(4 # Z # 1.25) ' 0.5 % 0.3943 ' 0.8943
68
Figura 8.17
Distribución muestral
σ2=σ2pob/n
Población
Figura 8.18
69
0,6
0,5
0,4
0,3
0,2
0,1
0
varon mujer
Figura 8.19
Distribución muestral
Población
σ2=p*q/n
0,6
0,5
0,4
0,3
µ= p
0,2
0,1
0
varon mujer
Figura 8.20
70
no lo son- es de extraordinario interés. Ha sido formulado
matemáticamente como el teorema central del límite o más sencillamente
teorema de la aproximación normal y puede expresarse en los siguientes
términos:
X1 % X2 % ÿ % Xn 1
‾ ' E
E(X) ' E (X1) % E (X2) % ÿ % E (X n) '
n n
(8.10)
1 1
' µ % µ % ÿ % µn ' (nµ) ' µ
n 1 2 n
Y en relación a la varianza:
X1 % X2 % ÿ % X n 1
‾ ' Var
Var (X) ' Var (X1) % (X2) % ÿ % (X n) '
n n2
(8.11)
1 1 Var (X)
' Var (X1) % Var (X2) % ÿ % Var (Xn) ' n ( Var (X) '
n2 n2 n
71
8.7.3.2.- Distribución muestral de proporciones
n
jX 0 % 1% 0 % 1 % 0 % 0 % 0 % 0 % 1 % 1
i'1
X‾ ' ' ' 0.4 ' p
n 10
72
numerador de la expresión anterior, el valor total será el número de
fumadores. Como el denominador el es total de sujetos, el resultado
será precisamente la proporción de fumadores. En consecuencia, la media
equivale a la proporción. Veamos, ahora, que ocurre con la varianza:
n n
j X&X‾ jX
2 2
S2 ' i'1
' i'1
&X‾2 ' p&p 2 ' p(1&p) ' p(q
n n
73
Rechazo H0 Aceptación H0 Rechazo H0
Figura 8.21
74
Ejemplo 8.1.- Supongamos que en la academia Fullinglis, con 40 años de
experiencia en la enseñanza del inglés, los 10000 alumnos matriculados
en ella obtuvieron en el examen de proficiency la calificación de 5.3
puntos por término medio, con una desviación tipo de 1.2 puntos. En el
presente curso se introduce un nuevo método de enseñanza en una de las
aulas, compuesta por 50 alumnos, logrando dichos alumnos en el examen
final, una puntuación de 5.6 puntos. ¿Qué puede decirse del nuevo
método de enseñanza?.
SOL:
σ 1.2
σx‾ ' ' ' 0.21
n 50
75
Ejemplo 8.2.- Un determinado sujeto afirma ser capaz de adivinar el
sexo de un niño antes del nacimiento. Supongamos que las probabilidades
de nacimiento de niño y de niña son iguales. Si dicho sujeto, operando
sobre una muestra de 100 embarazos acertó en 60 de ellos, ¿puede
afirmarse que dispone de tal capacidad?.
SOL:
76