Teoria Probabilidad

APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD
Carlos Camacho
Universidad de Sevilla
APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD
Tema VI. Introducción a la teoría de la probabilidad
6.1.- Introducción ................................................................................................................................. 1

6.2.- Concepto de probabilidad ........................................................................................................... 3
6.3.- Probabilidades simples ................................................................................................................ 8
6.4.- Probabilidades totales ............................................................................................................... 10
6.5.- Probabilidades compuestas ....................................................................................................... 13
6.5.1.- Sucesos independientes ........................................................................................................ 13
6.5.2..- Sucesos dependientes ........................................................................................................... 16
6.6.- Probabilidad e investigación en ciencias humanas ................................................................... 21
Tema VII. Variables aleatorias y modelos de probabilidad (I): El caso discreto
7.1.- Introducción ............................................................................................................................... 25

7.2.- Concepto de variable aleatoria.................................................................................................. 26
7.3.- Variable aleatoria discreta ......................................................................................................... 26
7.4.- Distribución de probabilidad y función de probabilidad ........................................................... 27
7.4.1.- Representación gráfica de la función de probabilidad ........................................................... 31
7.5.- Función de distribución ............................................................................................................ 32
7.5.1.- Representación gráfica de la función de distribución ............................................................ 33
7.6.- Esperanza matemática de una variable aleatoria discreta ....................................................... 34
7.7.- Varianza de una variable aleatoria discreta .............................................................................. 36
7.8.- Modelos de función discreta de probabilidad ........................................................................... 37
7.8.1.- Distribución binomial.............................................................................................................. 38
7.8.1.- Distribución binomial y toma de decisión estadística ............................................................ 41
7.8.2.- Distribución multinomial ........................................................................................................ 49
Tema VIII. Variables aleatorias y modelos de probabilidad (II): El caso continuo
8.1.- Introducción ............................................................................................................................... 50

8.2.- Variable aleatoria continua ....................................................................................................... 50
8.3.- Distribución de una variable aleatoria continua ....................................................................... 50
8.4.- Función de densidad de probabilidad ....................................................................................... 53
8.5.- Media de una variable aleatoria continua................................................................................. 56
8.6.- Varianza de una variable aleatoria continua ............................................................................. 56
8.7.- Distribución normal de probabilidad ......................................................................................... 57
8.7.1.- Cálculo de probabilidades en distribuciones normales .......................................................... 59
8.7.2.- Manejo de la tabla normal tipificada...................................................................................... 63
8.7.3.- Ley normal y distribuciones afines ......................................................................................... 68
8.7.3.1.- Distribución muestral de medias ........................................................................................ 71
8.7.3.2.- Distribución muestral de proporciones ............................................................................... 72
8.7.3.3.- Aplicaciones en la teoría de la decisión estadística............................................................. 73
Tema VI. Introducción a la teoría de la probabilidad
)))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))
6.1.- Introducción
6.2.- Concepto de probabilidad
6.3.- Probabilidades simples
6.4.- Probabilidades totales
6.5.- Probabilidades compuestas
6.5.1.- Sucesos independientes
6.5.2.- Sucesos dependientes
6.6.- Probabilidad e investigación en ciencias humanas
)))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))
6.1.- Introducción
En los capítulos anteriores hemos ofrecido técnicas para estudiar de

forma eficaz el comportamiento de diferentes tipos de variables en las
muestras observadas -estadística descriptiva-. No obstante, nuestro
objetivo -la estadística como ciencia- no es saber lo que ocurre en
unos pocos casos (muestra), sino conocer lo que sucede en la
generalidad de los mismos (población) a efecto de establecer las leyes
generales que rigen el comportamiento de los fenómenos estudiados.
Interesa el caso general a partir del caso particular. La cuestión es
precisamente cómo determinar el procedimiento estadístico que nos
permita realizar tal tipo de consideraciones; cómo generalizar a partir
del caso particular, o si se quiere, cómo inferir las poblaciones
orígenes a partir de las muestras observadas.
Es evidente el interés de lo que estamos exponiendo. Supóngase que

estamos investigando el efecto de una vacuna que ha sido efectiva en
seis de once casos estudiados. Es importante conocer el efecto de dicha
vacuna en la generalidad de los casos, y en especial, si la proporción
de curaciones, a nivel poblacional, supera de manera significativa las
remisiones espontáneas de la enfermedad observada o, en cualquier caso,
si supera la de otros tratamientos utilizados. En el supuesto de que
la bondad de la vacuna se confirmase mediante procedimientos
estadístico procederíamos a aplicar masivamente dicha vacuna en la
población.
1
La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá
de puente entre lo observado en la muestra y lo pronosticable en la
población, que es desconocida. Para ello hemos de conocer las leyes de
probabilidad que rigen los fenómenos estudiados, o lo que es lo mismo,
hemos de tener una idea previa del modelo matemático que subyace tras
los datos de observación. De esta forma, del conocimiento de un
determinado valor muestral -estadístico- y del tipo de distribución que
presenta -distribución en el muestreo- derivará las conjeturas que
podamos establecer sobre los valores poblacionales -parámetros-, tal
como se verá extensamente en los capítulos dedicados a la estimación
y decisión estadísticas.
Abundando en lo que estamos diciendo, y a título exclusivamente

ilustrativo (en los próximos capítulos se tratarán in extenso estos
aspectos) permítasenos exponer algunos ejemplos donde se hace patente
la lógica de la inferencia estadística y su conexión con la teoría de
la probabilidad. Supongamos que retomamos el caso anterior de la vacuna
y nos preguntamos qué proporción de sujetos sanarán si dicha vacuna se
aplicase masivamente. La teoría de la estimación estadística nos indica
que la proporción de sujetos que sanarán a nivel poblacional en base
a este experimento oscilará, por ejemplo, entre 0.45 y 0.65, y este
resultado podemos afirmarlo en el 95% de las veces. En otro términos:
tenemos una probabilidad de 0.95 de que en la generalidad de los casos
sanen entre 0.45 y 0.65. Si queremos rizar un poco más el rizo, diremos
que la probabilidad de que un sujeto sane se encuentra entre 0.45 y
0.65, y esta afirmación la hacemos con una probabilidad de 0.95 de
acertar. Obsérvese que aquí hay una doble utilización de la
probabilidad, por un lado está el valor límite de una proporción cuando
el número de observaciones tiende a infinito (lo explicaremos más
adelante) y por otro, estamos operando con un determinado modelo de
probabilidad - la ley normal- a la que supuestamente se ajusta la
distribución muestral de proporciones, y sobre esa curva estamos
definiendo un intervalo de probabilidad. (No pretendemos que por el
momento el lector entienda cabalmente lo que estamos diciendo, sino tan
sólo estamos justificando el uso de la probabilidad dando un avance de
lo que vendrá más adelante. Ya se entenderá entonces).
Es importante destacar el papel primordial de la teoría de la

probabilidad en ciencias humanas, donde los sucesos no pueden
predecirse con certeza. Aunque en la práctica habitual de la
estadística no se suele hacer mención expresa del concepto de
probabilidad no por eso deja de estar presente en todo momento, como
acabamos de ver en el ejemplo anterior. Igualmente queremos insistir
que en toda estimación y decisión estadística existe un modelo
matemático subyacente -configuración de los valores aleatorios-,
2
definido por una determinada ley de probabilidad, que es la que hace
de horma y determina toda consideración estadística.
En los próximos apartados intentaremos ofrecer una visión comprensiva

y práctica de la aplicación de la teoría de la probabilidad en ciencias
humanas sin por ello dejar de lado un cierto rigor expositivo. El
concepto de probabilidad y algunos otros asociados a ella tales como
el de variable aleatoria, esperanza matemática, función de densidad de
probabilidad, función de distribución ... etc, devienen de una manera
natural a partir del estudio de las muestras y como una generalización
de las mismas. No son más que los mismos conceptos, observados
inicialmente en las muestras, y aplicados posteriormente a las
poblaciones; es el comportamiento idealizado -modelo- a partir del
comportamiento particular. Así pues, en la medida que nos sea posible
recurriremos a conceptos ya familiares, desarrollados en los capítulos
anteriores, para explicar los nuevos, algo más abstractos. Seguiremos
un cierto camino en paralelo con los puntos expuestos en los temas de
estadística descriptiva.
6.2.- Concepto de probabilidad
Digamos en primer lugar que, aunque el término probabilidad es

frecuentemente utilizado en la vida ordinaria no por ello se hace con
el rigor necesario. Decimos "probablemente lloverá" o "probablemente
habrá elecciones anticipadas antes de verano" para indicar que ocurrirá
algo con cierta seguridad. Aquí no hay precisión en los asertos, pero
se supone una cierta memoria del pasado donde situaciones equivalentes
dieron lugar a lo que ahora, de nuevo, suponemos que ocurrirá. Hay una
cierta frecuencia de acontecimientos ocurridos que nos sirve de base
para futuros acontecimientos. Otras veces nuestras afirmaciones carecen
de fundamento objetivo ya que se limitan a un único acontecimiento, sin
otras referencias posibles. Esto ocurre cuando nos referimos a la
probabilidad de vida en Marte o a la probabilidad de que una
conflagración mundial acabe con la vida del planeta. Se tratan de
probabilidades subjetivas que no vienen al caso por el momento.
La teoría de las probabilidades hunde sus raíces en los juegos de azar,

muy probablemente motivado por esa vieja tendencia del ser humano a
conseguir algo a cambio de nada, o mejor dicho, mucho a cambio de casi
nada. No es casualidad que tanto la palabra "azar" (del árabe azahr:
dado para jugar) como aleatorio (del latín aleatorius: relativo al
juego) tengan el mismo origen. Pero no fue hasta el siglo XVII cuando
de una forma cabal, y gracias a los matemáticos Fermat (1601-1665) y
3
Pascal (1623-1675), se pudo cuantificar las ganancias esperadas en los
juegos de cartas. A partir de entonces se observó que fenómenos
equivalentes podían observarse en otros ámbitos de la ciencia. En
particular, el astrónomo belga Quételet (1796-1874), interesado en
mediciones antropológicas mostró que la teoría de las probabilidades
podía aplicarse igualmente a temas humanos. La misma distribución de
frecuencias presentada en los juegos de la ruleta se observaba en la
estatura o en el perímetro torácico de los soldados, en los cocientes
intelectuales de los niños o en las presiones sanguíneas de los
adultos. Se sentó así la base para la utilización de la estadística,
en cuanto teoría de probabilidades, en las ciencias de la conducta.
La primera definición de probabilidad, atribuida a Laplace (1749-1827),

y denominada definición clásica por razones históricas, indica que la
probabilidad de un determinado suceso es el cociente entre el número
de casos favorables y el número de casos posibles. De una manera algo
más rigurosa diremos: dado un suceso A tal que de n casos posibles
ocurre nA veces, entonces, se entiende por P(A):
nA
P(A) ' (6.1)
n
Por ejemplo, si un dado tiene seis lados, la probabilidad de obtener

uno cualquiera, sea el cuatro, será:
1
P(4) '
6
Esta definición implica algunos supuestos que pueden ser evidentes en

el seno de la teoría de juegos, donde originalmente surgieron, pero que
no lo son tanto en otros contextos. En el caso del dado, como en las
cartas de la baraja, la ruleta, y otros artilugios de la suerte,
existen razones física para suponer que todos los sucesos son
igualmente probables. Por ejemplo, la homogeneidad de las caras de un
dado, su simetría, inducen a pensar que no hay ninguna razón para que
el cuatro salga más o menos veces que el dos. Ambas caras son para
todos los conceptos exactamente iguales, por tanto deberán ser
igualmente probables en su ocurrencia. Lo mismo puede decirse de
cualquier número de la ruleta o de cualquier carta de la baraja.
Pero esta definición de probabilidad puede resultar engañosa. Por las

mismas razones aducidas en el caso del dado o la moneda supondremos que
la probabilidad de que nazca un niño varón será 0.5. Sin embargo, si
4
nos tomásemos la molestia de comprobar la proporción de niños que nacen
varones en un número suficientemente grande de observaciones (por
ejemplo, los nacidos en toda España durante un año) observaríamos que:
número de varones
P(varón) ' ' 0.51
total de nacimientos
La probabilidad de dicho acontecimiento es 0.51. No hay una gran

diferencia con la que habría en el supuesto de equiprobabilidad entre
varones y mujeres, pero es suficientemente indicativo de que no
conviene aventurarse a hacer afirmaciones sobre la realidad antes de
efectuar ciertas comprobaciones, aunque la idea que tengamos de cómo
deben funcionar las cosas parezca razonable. Y en cualquier caso,
muchos fenómenos carecen de la simetría y homogeneidad de los juegos
de azar. Supóngase que nos preguntamos por la probabilidad de que un
niño nazca pelirrojo. Aquí no vale imaginar que los humanos se reparten
cromáticamente a todo lo largo del arco iris, y además lo hacen de
forma homogénea, siendo la probabilidad de nacer con un cierto color
de pelo igual a la unidad partido por el número de colores diferentes
del espectro. En este caso hemos de recurrir a la evidencia empírica.
Hemos de observar en un número suficientemente grande las distintas
proporciones de nacimientos referidos a los diferentes colores de pelo,
y estas proporciones se acercarán (más cuanto mayor sea el número de
observaciones) a las probabilidades reales. De esta forma, entramos en
un nuevo concepto de probabilidad, la llamada definición empírica de
probabilidad.
De una manera formal diremos que la probabilidad de un determinado

suceso A, definido empíricamente, hace referencia a la frecuencia
relativa de dicho suceso cuando el número de observaciones tiende a
infinito. Esto es:
na
P(A) ' lim
n64 n (6.2)
Debe entenderse que el concepto aquí utilizado de "límite" no es el

usualmente manejado en el análisis, por cuanto no es posible fijar un
número n tal que la diferencia entre la frecuencia relativa y su
probabilidad sea menor que un infinitésimo ε prefijado.
La característica fundamental de la definición empírica de la

probabilidad reside en su insistencia en que la probabilidad debe estar
5
basada en evidencias observables y no en supuestos basados en la lógica
y naturaleza de los sucesos. Hace referencia a las denominadas
probabilidades a posteriori, precisamente porque sus magnitudes se
conocen después de la ocurrencia de los fenómenos estudiados y nunca
antes. Se distinguen de las denominadas probabilidades a priori, que
son precisamente las surgidas en el seno de la teoría de juegos, y que
se caracterizan porque previamente a cualquier ensayo podemos
(supuestamente) establecer las probabilidades correspondientes.
La consideración de la probabilidad basada en la definición empírica

es la que viene más al caso con la forma habitual que aquí utilizaremos
para estimar probabilidades. Como se recuerda, nos interesa conocer -
la estadística como ciencia- lo que ocurre en la generalidad de los
casos (población). Para ello partimos del conocimiento que nos
suministran las muestras estudiadas. Es evidente que cuanto mayor sea
el número de observaciones más nos acercaremos a los valores
poblacionales, y por tanto, a la generalidad de los casos. Supongamos,
a este respecto, que en una determinada muestra, pongamos 100 sujetos,
calculamos el número de ellos que son rubios, obteniendo un total de
25, entonces:
25
f(A) ' ' 0.25
100
Supongamos que incrementamos ahora el número de observaciones, sean

500, donde obtenemos 130 personas rubias, entonces:
140
f(A) ' ' 0.28
500
Ahora, incrementamos esta cantidad hasta 3000, obteniendo 810 sujetos

rubios, luego:
810
f(A) ' ' 0.27
3000
De esta manera nos iremos aproximando cada vez más hasta el valor real,
aunque, en la práctica hay que decir que jamas conoceremos su valor
exacto, si bien es cierto que será lo suficientemente aproximado. En
el capítulo referente a la estimación estadística veremos con qué grado
de certeza podremos establecer una determinada aproximación.
La consideración empírica de la probabilidad mejora considerablemente

el planteamiento de la definición clásica, no solamente en aquellos
6
fenómenos en los que es absolutamente necesario tener experiencia de
lo acontecido, como por ejemplo, en el caso en que interese determinar
la probabilidad de que un determinado tratamiento contra la
osteoporosis sea exitosa, sino que incluso en aquellos fenómenos en los
que supuestamente pueda establecerse a priori su probabilidad es
precisamente a través de su comprobación fáctica como pueda confirmarse
de forma definitiva el supuesto establecido.
A pesar de ello, la definición empírica presenta algunos

inconvenientes. En primer lugar, hablar del "límite cuando n tiende a
infinito" nos deja en la práctica imposibilitados de conocer jamás el
valor exacto de una probabilidad cualquiera, por cuanto nunca se harán
infinitos ensayos. Cualquier número grande de ensayos será susceptible
de ampliarse, y por tanto, de modificarse su probabilidad. Por otro
lado, un determinado fenómeno puede variar a lo largo del tiempo con
lo que lo que afirmamos hoy no lo válido para mañana.
Vistas estas deficiencias, hoy en día se ha propuesto una nueva

definición de probabilidad, debida especialmente a Kolmogorov (1933),
y que es denominada definición axiomática. Tiene un interés más bien
teórico que práctico. No afecta en nada a la forma en como realicemos
nuestras estimaciones de la probabilidad pero deja a salvo el honor de
los matemáticos por cuanto al fin se consigue un discurso que en cuanto
tal discurso es coherente, riguroso y carente de fisuras lógicas, pero
que no pretende ninguna correspondencia con la realidad. Se trata
simplemente de establecer las reglas que deben cumplir toda frecuencia
relativa, pero sin preocuparnos por la adecuación de tales valores con
algún suceso en particular. En todo caso, más tarde podremos efectuar
comprobaciones para ver si se ajustan a los hechos.
De cualquier manera, y al margen de los diferentes intentos por

aproximarnos a la idea de probabilidad de una forma rigurosa, podemos
llegar al acuerdo tácito de que la probabilidad de un suceso no es otra
cosa que su frecuencia relativa a nivel poblacional. Es eso
precisamente, tanto como cuando nos aventuramos a establecer una
probabilidad previamente a toda experiencia -definición clásica- como
cuando recurrimos a su comprobación fáctica -enfoque empírico-. Por
otro lado, la definición axiomática no dice nada respecto a qué cosa
se refiere la probabilidad sino tan sólo qué requisitos deben cumplir
los valores de tales probabilidades, por lo que nuestra propuesta sigue
siendo válida.
En lo que sigue nos introduciremos en el manejo del cálculo de las
7
probabilidades entendidas como frecuencias relativas. Comenzaremos por
el caso más sencillo, donde se trata la ocurrencia de un único suceso
-probabilidades simples- para tratar a continuación situaciones en las
que puedan presentarse varios sucesos -probabilidades totales y
probabilidades compuestas-. Aunque somos conscientes de que tales
conceptos no son estrictamente necesarios para resolver problemas
prácticos de investigación en psicología, estimamos de su conveniencia
en la comprensión de la lógica que subyace en toda investigación. No
pretendemos ser exhaustivos, pero sí ofrecer un mínimo conocimiento que
posibilite abordar la estadística inferencial con cierta eficacia.
Observará el lector que numerosos problemas donde intervienen muestras
pequeñas sólo pueden resolverse mediante un mínimo de conocimiento de
la teoría de la probabilidad. Por otro lado, como tendrá ocasión de
comprobar, muchas consecuencias útiles para su vida habitual serán
logradas si muestra interés por los próximos apartados.
6.3.- Probabilidades simples
Ofreceremos algunas definiciones relacionadas con la probabilidad de

un determinado suceso. En algunos textos se plantean como axiomas,
teoremas o propiedades que han de reunir toda frecuencia relativa. Son
necesarios para apuntalar las ideas. Y como observará el lector,
bastantes sencillas. Comencemos por la primera.
La frecuencia relativa de un suceso A oscila entre cero y uno. Esto es:

0 # P(A) # 1 (6.3)
Esta propiedad es evidente si entendemos f(A) como NA/N. Como máximo

se presentará N veces de un total de N. Su cociente en este caso será
la unidad. Diremos que se trata de un suceso seguro. Así:
NA N
P(A) ' ' ' 1 (6.4)
N N
Por contra, si de N veces no se presenta ninguna, su cociente valdrá

cero. Diremos, ahora que se trata de un suceso imposible:
NA 0
P(A) ' ' ' 0 (6.5)
N N
8
Si un determinado suceso se presenta NA veces de un total de N casos,
es evidente que no se presentará N-NA veces. Diremos, entonces que la
probabilidad de no ocurrencia de A, que expresaremos como P(A) será:
N & NA N
P(A) ' ' 1 & A ' 1 & P(A) (6.6)
N N
Ejemplo 6.1.- Determinar la probabilidad al extraer una carta de la

baraja española de obtener: a) el rey de bastos, b) un caballo.
SOL:
a) Solo hay un único caso de los 40 posibles que cumpla esta

condición. En consecuencia:
1
P(rey de bastos) ' ' 0.025
40
b) Hay cuatro caballos en la baraja española. Así pues:
4
P(caballo) ' ' 0.1
40
Ejemplo 6.2.- Según datos de la Consejería de Educación y Ciencia, los

alumnos matriculados en las distintas universidades andaluzas durante
el curso 90-91 son los siguientes:
Tabla 1
+))))))))0)))))))))0))))))))))0)))))))))0)))))))))0))))))),
* * * * * * *
* Cadiz * Córdoba * Granada * Málaga * Sevilla * Total*
* * * * * * *
/))))))))3)))))))))3))))))))))3)))))))))3)))))))))3)))))))1
* 14315 * 15079 * 54782 * 24679 * 56918 *165773 *
* * * * * * *
.))))))))2)))))))))2))))))))))2)))))))))2)))))))))2)))))))-
Esto supuesto, determinar la probabilidad: a) que un alumno

universitario andaluz elegido al azar sea sevillano, b) que no sea
malagueño.
9
SOL:
a) Su frecuencia relativa al nivel de la población andaluza será:
56918
P(sevillano) ' ' 0.343
165773
b) Y la probabilidad de que no sea malagueño:
24679
P(malagueño) ' 1 & P(malagueño) ' 1 & ' 0.851
165773
6.4.- Probabilidades totales
Frecuentemente los sucesos no se presentan aislados sino que se

encuentran entrelazados con otros y hemos de tomar decisiones no sobre
un único suceso, sino donde intervienen un conjunto de ellos. Por
ejemplo, un alumno puede tener interés no solamente por la probabilidad
de aprobar en junio sino también por la de aprobar entre la
convocatoria de junio y la de septiembre. A un inversor en bolsa le
puede interesar combinar probabilidades en distintas intervenciones
bancarias, de tal forma que optimice ganancias.
Ciertas cuestiones obedecen a la pregunta "probabilidad de suceder tal

cosa o tal otra". Aquí, dados varios sucesos, nos conformamos con la
ocurrencia de uno cualquiera de ellos. De esta cuestión trata el
presente apartado, que hemos denominado "probabilidades totales". Otras
veces, en presencia de varios sucesos, nos interesa conocer la
probabilidad de que ocurran todos ellos. Aquí nos preguntamos por la
"probabilidad de que suceda tal y tal cosa". Este aspecto, que
denominaremos como "probabilidades compuestas" será objeto de estudio
en el próximo apartado. Obviamente, podemos combinar probabilidades
totales y compuestas (probabilidad de que ocurra tal y tal cosa o tal
y tal otra).
Comencemos, pues, por la probabilidades totales. A este respecto,

tengamos dos sucesos A y B, de tal forma que ambos sucesos se excluyen
mutuamente (si sucede uno no puede suceder el otro), entonces, la
probabilidad que ocurra uno de los dos es la suma de las probabilidades
de cada uno de los sucesos aislados. Esto es:
10
P(A o B) ' P(A) % P(B) (6.7)
Ejemplo 6.3.- Calcula la probabilidad de que al extraer una carta del

mazo de la baraja española sea sota o rey.
SOL:
Tenemos cuatro sotas y cuatro reyes. En total hay, pues, ocho casos
que satisfacen cualquiera de ambas condiciones. Así pues:
4 4 8
P(sota o rey) ' P(sota) % P(rey) ' % ' ' 0.2
40 40 40
Se observa en este ejemplo que no se puede extraer una sota y un rey

simultáneamente. Se trata, como se ha indicado, de sucesos mutuamente
excluyentes. Pero no siempre las cosas son tan sencillas. Puede ocurrir
que trabajemos con sucesos que no son mutuamente excluyentes; esto es,
sucesos compatibles. Por ejemplo, nos puede interesar la probabilidad
de obtener un rey o copas. En este caso, está claro que se puede
obtener un rey que al mismo tiempo sea copas.
En el caso que operemos con dos sucesos A y B, que no se excluyen

mutuamente, la probabilidad de que ocurra uno cualquiera de ellos es:
P(A o B) ' P(A) % P(B) & P(AB) (6.8)
donde P(AB) hace referencia a la probabilidad de que suceda A y B

simultáneamente.
Ejemplo 6.4.- Calcular la probabilidad de obtener al extraer una carta

de la baraja española sea rey o copas.
SOL:
Tenemos un rey de copas. Por tanto:
4 10 1
P(rey o copas) ' P(rey) % P(copas) & P(rey de copas) ' % & ' 0.325
40 40 40
11
Resulta conveniente recurrir a la teoría de conjuntos para determinar
probabilidades. En este caso, diremos que el suceso "A o B" hace
referencia a "A U B". Utilizamos el símbolo U indicando que
matemáticamente se trata de una unión de sucesos. Así, una forma
equivalente de expresar (6.8) será:
P(A ^ B) ' P(A) % P(B) & P(A _ B) (6.9)

A este respecto puede ser ilustrativo servirnos de los diagramas de
Venn, donde cada suceso simple se representa por un punto contenido en
un determinado recinto. Asociemos, por otro lado, a cada uno de estos
puntos una determinada probabilidad, de tal forma que la probabilidad
de cada recinto equivalga a la suma de las probabilidades de los
elementos contenidos en dicho recinto. Si definimos ahora, por ejemplo,
dos recintos dentro del conjunto de sucesos y nos cuestionamos por la
probabilidad de que se presente bien un suceso del primer recinto o
bien un suceso del segundo recinto, está claro que equivaldrá a
considerar un nuevo recinto que comprende los elementos de los dos
recintos previos.
Tiene interés plantearlo desde la perspectiva de la teoría de conjuntos

por lo ilustrativo de este procedimiento, en especial cuando nos
encontramos con sucesos que comparten elementos, lo que gráficamente
equivale a recintos que se solapan parcialmente. En este caso, el
gráfico nos facilita el recuento del total de elementos que comprende
el recinto total. De esta forma, para el ejemplo 6.4, tendremos:
rey copa
Figura 3.1
12
A simple vista se observa que hay trece cartas que cumplen la condición
de ser rey o copa. Una de ellas, el rey de copas, pertenece tanto al
conjunto de reyes como de copas. Por esa razón, al sumar 4/40 a 10/40
de la ecuación 3.20 obtenemos 14/40. Un elemento que pertenece a ambos
conjuntos -el rey de copas- se ha sumado dos veces. En consecuencia,
para solventar este problema, hemos de restarlo una vez. De esta forma,
queda justificada la expresión 3.20.
6.5.- Probabilidades compuestas
Hemos visto la probabilidades totales, donde se trata la probabilidad

de ocurrencia de un "suceso o bien otro", y cuyo resultado correspondía
a la suma de las probabilidades de los acontecimientos implicados.
Dados varios sucesos, la ocurrencia de cualquiera de ellos nos
satisfacía; por tanto, la extensión del nuevo suceso comprendía los
anteriores. En algunos textos, por el procedimiento utilizado -suma de
probabilidades-este caso se denominaba teorema o axioma de la suma de
las probabilidades.
Ahora nos preguntamos, genéricamente, por la probabilidad de ocurrencia

de "un suceso y otro". Se trata de sucesos combinados o compuestos, y
su cálculo, como explicaremos, se resuelve mediante el producto de las
diferentes probabilidades. Por esta razón, en algunos textos se
denomina teorema de la multiplicación de probabilidades.
Las probabilidades compuestas obedece a preguntas donde se encuentra

la conjunción "y". Puede indicar la ocurrencia simultánea de dos (o
más) acontecimientos cualesquiera, como por ejemplo, la obtención en
la baraja española del rey de copas (rey y copa), o bien la ocurrencia
sucesiva de una serie de eventos, como por ejemplo, obtener dos caras
en el lanzamiento de dos monedas (cara en la primera y cara en la
segunda). En ambos casos el resultado es el producto de las distintas
probabilidades.
6.5.1.- Sucesos independientes
Comenzaremos por el caso más sencillo donde los sucesos que tienen
lugar son independientes entre sí. Por ejemplo, si lanzamos dos veces
una moneda lo que se obtenga en la segunda tirada no es afectado con
lo obtenido en el primer lanzamiento; una familia que tenga diez hijos
varones, y que esté esperando su undécimo hijo, tendrá exactamente las
misma probabilidades tanto de que nazca niño como de nacer niña en el
próximo nacimiento.
13
De una manera formal, diremos que dados dos sucesos A y B tales que
sean independientes entre sí (el resultado de uno de ellos no
condiciona al otro), la probabilidad de que ocurran ambos (bien
simultáneamente o secuencialmente) es igual al producto de las
probabilidades de cada uno de ellos. Esto es:
P(AB) ' P(A) ( P(B) (6.10)

Es fácil comprender la razón por la cual se realiza el producto
P(A)*P(B) para determinar la probabilidad de ocurrencia de A y de B.
Si A ocurre 1/n veces y B, 1/m veces, entonces A y B ocurrirá 1/m veces
(suceso B) de 1/n veces (suceso A). Aunque parezca un juego de
palabras, se verá en los ejemplos siguientes lo sencillo que es.
Ejemplo 6.5.- Calcular la probabilidad de obtener dos caras en el

lanzamiento de dos monedas.
SOL:
Definamos como C el suceso "obtención de cara" y X al suceso

"obtención de cruz". Aplicando la regla del producto:
1 1 1
P(CX) ' P(C) ( P(X) ' ( '
2 2 4
Se observa que del primer lanzamiento la mitad de las veces saldrá

cara. Y una vez efectuado este lanzamiento, en el segundo lanzamiento,
la mitad de las veces obtendremos cruz. Así pues, cara y cruz se
obtendrá la mitad de la mitad de las veces; esto es, un cuarto de las
veces. Podemos recurrir, si se desea, a establecer el conjunto de los
resultados posibles:
CARA CRUZ
+)))))))))))0))))))))))),
* * *
CARA * CC * CX *
/)))))))))))3)))))))))))1
* * *
CRUZ * XC * XX *
.)))))))))))2)))))))))))-
14
Comprobamos que hay dos casos posibles para el primer lanzamiento, y
otros tantos para el segundo lanzamiento. En consecuencia, la
combinaciones posibles son 2*2=4. Y del conjunto de estos cuatro casos
(CC, CX, XC y XX) uno de ellos será cara y cruz (CX). Por tanto, su
probabilidad será 1/4.
Otro procedimiento alternativo que nos ayuda a comprender las

probabilidades compuesta nos lo proporciona el diagrama en árbol.
Veamos este caso:
CARA
+)))))))))))Q CC: P(CC)=1/2*1/2=1/4
CARA *P(C)=1/2
+)))))))))))1
* P(C)=1/2 * CRUZ
+)))))))), * .)))))))))))Q CX: P(CX)=1/2*1/2=1/4
* LANZA- * * P(X)=1/2
* /)))))))))))1
* MIENTO * * CARA
.))))))))- * +)))))))))))Q XC: P(XC)=1/2*1/2=1/4
* CRUZ *P(C)=1/2
.)))))))))))1
P(X)=1/2 * CRUZ
.)))))))))))Q XX: P(XX)=1/2*1/2=1/4
P(X)=1/2
Ejemplo 6.6.- Determinar la probabilidad de obtener el caballo de

bastos en la extracción de la carta de una baraja española.
SOL:
Aunque este ejemplo podemos resolverlo utilizando las

probabilidades simples (existe un único caballo de bastos en toda la
baraja, luego su probabilidad será 1/40), merece la pena plantearlo
como un caso de probabilidad simultánea, a diferencia del ejemplo
anterior, donde los sucesos ocurrían secuencialmente (primero cara y
luego cruz). Tenemos así:
4 10 1
P(caballo de bastos) ' P(caballo)(P(bastos) ' ( '
40 40 40
15
Ejemplo 6.7.- Supongamos (de una forma un tanto irreal) que un
determinado alumno tiene siempre la probabilidad 0.5 de aprobar el
examen de Estadística. Esto supuesto: a) determinar la probabilidad de
que apruebe en el curso, esto es, entre junio y septiembre; b)
determinar la probabilidad de que apruebe en alguna de las seis
convocatorias permitidas.
SOL:
a) Mejor que operar con la probabilidad de aprobar P(A) lo haremos

con la probabilidad de suspender P(S). De esta forma, el alumno
aprobará al final si no suspende ambas convocatorias. Así pues, la
probabilidad de que suspenda en junio y en septiembre será:
P(SS) ' 0.5(0.5 ' 0.25
Si no ocurre esto aprobará alguna de las veces, que será el suceso

complementario. Por tanto, que apruebe en junio o en septiembre será:
P(A o A) ' 1 & P(SS) ' 1 & 0.25 ' 0.75
b) Este caso es equivalente al anterior. Aprobará (alguna vez) si no

suspende las seis convocatorias. Calculemos, en primer lugar la
probabilidad de suspender las seis convocatorias:
P(SSSSSS) ' 0.56 ' 0.016
Por tanto:
P(A o A o A o A o A o A) ' 1 & P(SSSSSS) ' 1 & 0.016 ' 0.984
6.5.2.- Sucesos dependientes
Frecuentemente los sucesos no son independientes entre sí, sino que la

ocurrencia de uno de ellos condiciona la probabilidad de ocurrencia del
otro. Por ejemplo, si está nublado es más probable que llueva que si
está despejado; si somos fumadores empedernidos, la probabilidad de
cáncer será mayor que si sólo respiramos aire puro ..etc. Se trata de
sucesos que presentan un cierto grado de dependencia. En este caso:
P(AB) ' P(A) ( P(B * A) (6.11)
16
donde P(B * A) hace referencia a la probabilidad de que ocurra B
habiendo ocurrido A. La lógica aquí es la misma que la expuesta para
los sucesos independientes. La única diferencia se encuentra en el
hecho de que la probabilidad del segundo suceso queda mediatizada por
lo ocurrido en el primero. Si el suceso A se presenta siempre y en
cualquier circunstancia, una vez de m veces, e igualmente, el suceso
B una vez de n veces, está claro, como hemos indicado que,
conjuntamente se presentarán 1/(m*n) veces, pero si al ocurrir A, B
ocurre h veces, entonces la combinación de ambos será 1/(m*h) veces.
Cuando un suceso A depende en su probabilidad de la ocurrencia de otro

B decimos que se trata de una probabilidad condicionada. Su valor, que
deduciremos fácilmente de (6.11) será:
P(AB)
P(B * A) ' (6.12)
P(B)
Ejemplo 6.8.- Tengamos una urna con diez bolas blancas y seis bolas
negras. Si extraemos dos bolas sin reposición, determinar la
probabilidad de que la primera bola sea blanca y la segunda negra.
SOL:
La probabilidad de que la primera bola sea blanca P(B) será:
10
P(B) ' ' 0.625
16
Y de que la segunda sea negra habiendo sido blanca la primera P(N * B)

(obsérvese que el haber extraído la primera bola sin reposición nos
quedarán quince bolas):
6
P(N * B) ' ' 0.4
15
En consecuencia:
10 6
P(BN) ' P(B)(P(N * B) ' ( ' 0.25
16 15
Gran parte del interés de la estadística como ciencia reside justamente

en el hecho de que la probabilidad para un determinado suceso no se
mantiene constante siempre y en cualquier lugar, sino que dicha
probabilidad se ve afectada cuando se combina con otro suceso. Si la
17
probabilidad de A es mayor en presencia de B, y lo que nos interesa es,
justamente, tener un mayor control sobre A, entonces la presencia de
B nos lo permitirá. Es lo que, en otro contexto, se conoce como
relación de variables; una variable (sobre la que podemos intervenir)
nos permite predecir otra (que no podemos manipular directamente). Por
ejemplo, el deporte y una alimentación pobre en grasas saturadas,
disminuye el riesgo de infarto, o dicho en otros términos: la
probabilidad de padecer un infarto de miocardio por un sujeto que hace
deporte y cuida su alimentación es menor que en un sujeto que no se dan
tales circunstancias. En este caso la probabilidad condicionada nos ha
permitido disminuir la probabilidad de infarto. Otras veces, nos
interesará aumentar la probabilidad; de esta forma, el éxito con la
mujer de nuestros sueños probablemente será mayor si lo ligamos a una
conversación interesante y a una presencia agradable (en la medida de
nuestras posibilidades).
Ejemplo 6.9.- Supongamos que en una determinada localidad compuesta por

3500 habitantes hemos registrado las variables estado civil y nivel de
felicidad. Los datos son los siguientes:
Tabla 2
Casado Soltero Total

))))))))))))))))))))))))))))))))))))))))))))))))
Feliz ...... 2100 650 2750
No feliz ... 400 350 750
))))))))))))))))))))))))))))))))))))))))))))))))
2500 1000 3500
Se observa que la proporción de sujetos felices (o bien, la

probabilidad de ser feliz P(F)) en dicha localidad, al margen de su
estado civil es:
2750
P(F) ' ' 0.786
3500
Si nos centramos en los casados, la proporción de felices (probabilidad

de ser feliz condicionada a estar casado P(F * C) ) será:
18
2100
P(F * C) ' ' 0.84
2500
Por otro lado, la probabilidad de que un soltero sea feliz P(F * S) :
650
P(F * S) ' ' 0.65
1000
Se observa a grosso modo que el grado de felicidad tiene que ver con
el estado civil, en la medida que estar casado incrementa la
probabilidad de ser feliz. Existe relación, pues, entre ambas
variables, y podemos afirmar que la felicidad se hace más probable -y
por tanto, más predecible- en la situación de casado (según estos
datos, ficticios).
Por otro lado, es fácil comprobar en base a estos datos:
2100 2500 2100

' (
3500 3500 2500
O lo que es lo mismo, la probabilidad de estar casado y ser feliz

P(CF):
2500 2100
P(CF) ' P(C) ( P(F * C) ' ( ' 0.714 ( 0.840 ' 0.6
3500 2500
En el supuesto de que el estado civil no guarde relación con la

felicidad de los sujetos, la probabilidad de ser feliz sería siempre
la misma al margen del estado civil. Esto es:
P(F) ' P(F * C) ' P(F * S)
De esta forma, la probabilidad de estar casado y ser feliz P(CF) será,

ahora, el producto de sus probabilidades simples:
P(CF) ' P(C) ( P(F)
Sabemos, operando con los marginales de la tabla I, que la probabilidad

de estar casado es:
2500
P(C) ' ' 0.714
3500
Y la probabilidad de ser feliz:
19
2750
P(F) ' ' 0.786
3500
Esto es, están casados el 71.4% y son felices, el 78.6%. Si estos

sucesos fueran independientes el porcentaje de sujetos felices se
mantendría constante para cualquier valor de la variable estado civil.
Habría el 78.6% de felices del 71.4% de casados. En términos de
probabilidad:
P(CF) ' P(C) ( P(F) ' 0.714 ( 0.786 ' 0.561
Obsérvese que la probabilidad de estar casado y ser feliz, según los

datos de la tabla I donde los sucesos son dependientes, es 0.6, y en
el supuesto de independencia, 0.561. La dependencia de variables da
lugar a que los acontecimientos sean más predecibles que desde la
independencia de los mismos. Todavía se hace más patente el efecto de
la dependencia si comparamos la probabilidad de ser feliz entre
solteros y casados. Para los solteros es 650/1000=0.65, y para los
casados, 2100/2500=0.84.
Merece la pena considerar la ventaja en la predicción al incluir en

nuestra investigación una variable que modifica las probabilidades. Por
ejemplo, en el caso que estamos tratando, supongamos que en la citada
localidad, en una primera instancia sólo preguntamos si es feliz o no.
En este caso, como se sabe, la proporción de felices es 0.786. En base
a la información de esta única variable tendremos una probabilidad de
0.786 de acertar si afirmamos que un sujeto cualquiera es feliz, y por
contra, nuestra incertidumbre, si la cuantificásemos de alguna manera,
sería 1-0.786=0.214. Supongamos, ahora, que introducimos la variable
estado civil. La probabilidad de ser feliz, en el supuesto de casado
es 0.84. Ha supuesto una mejora de 0.84-0.786=0.054 puntos de
probabilidad. Si nos interesa conocer el grado de incertidumbre
disipada, éste ha sido 0.054 de la incertidumbre inicial de 0.214. Por
tanto:
0.054
Incertidumbre disipada ' ' 0.252
0.214
Hemos mejorado nuestra predicción gracias a la información que nos

proporciona la variable introducida -estado civil- en algo más de un
25%.
20
6.6.- Probabilidad e investigación en Ciencias Humanas
En las páginas anteriores hemos ofrecido las nociones básica mínimas

(por otro lado, bastantes sencillas) para el cálculo de probabilidades.
No queremos aburrir (o entretener) al lector con cuestiones tales como
¿de cuantas manera posibles se pueden sentar cinco chicos y cinco
chicas de tal forma que siempre queden emparejados?. Nos interesa, en
especial, ofrecer la probabilidad como una herramienta útil en la
investigación psicológica.
Digamos, en primera instancia, como cuestión relevante en toda

investigación, la posibilidad de encontrar nexos que liguen las
variables consideradas. En psicología, nuestra variable objeto de
estudio, por excelencia, es la conducta en sus múltiples
manifestaciones. Si estamos en un contexto clínico nos puede interesar
encontrar la forma de sacar a un paciente de una depresión; o bien,
mejorar el rendimiento académico de los alumnos referente a las
matemáticas, si estamos en un contexto escolar; o bien lograr una mayor
satisfacción laboral, si nos situamos en psicología del trabajo. En
todos estos casos hemos de encontrar una variable que incida sobre la
variable objeto de estudio en el sentido que pueda modificarla en la
dirección que nos interesa. De esta forma, una determinada terapia
cognitiva podrá resultar efectiva contra la depresión, un cierto método
de enseñanza programada podrá mejorar el rendimiento de nuestros
estudiantes, y un cambio en el tipo de relaciones humanas en el seno
de la empresa podrá mejorar la satisfacción laboral de los
trabajadores.
Pero en ciencias humanas, nos topamos con un material mal conocido. No

ocurre como en física que estudiando detenidamente un único objeto -por
ejemplo, una pelota, rodar por un plano inclinado- podemos establecer
conclusiones generales que expliquen rigurosamente el problema de la
aceleración para cualquier cuerpo. En psicología -por la complejidad
de la conducta- no valen conclusiones generales a partir de un único
caso particular. Dos sujetos sometidos a un mismo programa de
aprendizaje rendirán probablemente de forma distinta, e incluso el
mismo sujeto no rendirá hoy igual que mañana. Y ya que los fenómenos
particulares son impredecibles, necesitamos de la predicibilidad de los
grandes números. Una moneda, en un sólo ensayo no sabremos si saldrá
cara o cruz, pero en mil ensayos la proporción de caras será muy
próxima a 0.5. Un buen método de enseñanza puede no mejorar a un sujeto
en particular, ya que otras variables extrañas, como motivación, salud,
o inteligencia puede afectar los resultados para un caso concreto, pero
en una muestra relativamente amplia de individuos, tales variables
21
extrañas quedarán compensadas a lo largo de los distintos sujetos, y
el promedio del rendimiento será constatable. La estadística como
ciencia alcanza su máxima eficacia desde la perspectiva macroscópica
-conjunto de datos-, donde pueden percibirse ciertas tendencias
generales, en tanto que desde una perspectiva microscópica -un sola
observación- los componentes aleatorios son de tal magnitud que hacen
en la práctica inviable cualquier pronóstico serio.
Pero a pesar de todo, ni siquiera desde una perspectiva macroscópica

tendremos seguridad total de nada. Siempre habrá un resquicio para el
azar. En una moneda bien equilibrada, podrá salir veinte veces cara de
veinte lanzamiento. Muy improbablemente, pero puede ocurrir.
Igualmente, una muy efectiva vacuna contra la polio puede en muy rara
ocasiones producir precisamente la polio. Entonces, ¿qué valor tiene
la estadística como ciencia, si jamas tendremos total seguridad de
nuestros pronósticos?. Se trata de una cuestión de probabilidad. Y la
probabilidad nos ofrece una medida de la certidumbre (o incertidumbre)
en nuestra decisiones. No podemos afirmar las cosas con certeza pero
sí podemos saber con que probabilidad ocurrirán. Esta es la
característica fundamental de la estadística como ciencia: no sabemos
con seguridad si algo ocurrirá o no, pero sí sabemos con certeza su
probabilidad de ocurrencia, y esto ya es un cierto grado de control.
Sabemos que no sabemos, y además sabemos (exactamente) cuanto no
sabemos.
Disponemos de un cierto grado de certidumbre, y cuando ésta es

suficiente, nos arriesgamos a tomar decisiones (aceptando un
determinado riesgo de equivocarnos). Normalmente, para saber si ha
ocurrido algo -una relación, por ejemplo- la estadística recurre
siempre a la misma lógica. Determina, en primer lugar, cual es la
probabilidad de que lo observado ocurra por puro azar. Si esta
probabilidad es grande se acepta que las cosas han ocurrido por
causalidad y aquí no ha pasado nada. Si por el contrario, comprobamos
una probabilidad muy baja para el azar (habitualmente, por convenio,
del 0.05 o bien 0.01) suponemos que probablemente haya ocurrido "algo"
distinto a la pura casualidad (y probablemente debido a las
modificaciones que hemos realizado sobre nuestro objeto de estudio).
Veamos un ejemplo muy sencillo que puede ilustrar (a pesar de los pocos
elementos de probabilidad explicados) la lógica de las decisiones
estadísticas.
Ejemplo 6.10.- Supongamos un sujeto que en un examen compuesto por diez

items de verdadero o falso, responde correctamente los diez. ¿Podemos
22
concluir en base a estos datos que tiene un cierto dominio de la
materia.
SOL:
Si dicha persona no tuviera ningún conocimiento de la materia

tendría una probabilidad de acertar para cada ítem de 0.5. Hay diez
items, luego la probabilidad de acertar todos por puro azar será:
P(diez items) ' 0.510 ' 0.00098
Observamos que tal cantidad es inferior al uno por mil. Puede ocurrir
que la casualidad haya dado lugar a este caso, pero obviamente es
muchísimo más probable lo contrario (acertaremos más de 999 veces de
cada 1000). En consecuencia suponemos que el sujeto tiene algún
conocimiento de la materia asumiendo una probabilidad de equivocarnos
del 0.00098.
24
Tema VII. Variables aleatorias y modelos de probabilidad (I): El
caso discreto
))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))Q
7.1.- Introducción
7.2.- Concepto de variable aleatoria
7.3.- Variable aleatoria discreta
7.4.- Distribución de probabilidad y función de probabilidad
7.4.1.- Representación gráfica de la distribución de probabilidad
7.5.- Función de distribución
7.5.1.- Representación gráfica de la función de distribución
7.6.- Esperanza matemática de una variable aleatoria discreta
7.7.- Varianza de una variable aleatoria discreta
7.8.- Modelos de distribución discreta de probabilidad
7.8.1.- Distribución binomial
7.8.1.1.- Prueba binomial y toma de decisión estadística
7.8.2.- Distribución multinomial
))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))Q
7.1.- Introducción
El presente capítulo guarda un cierto paralelismo con los capítulos

2,3, 4 y 5 donde se ofrecía técnicas descriptivas de datos muestrales.
Aquí describiremos variables aleatorias que no son más que las mismas
variables observadas en las muestras, pero esta vez referidas a nivel
poblacional, esto es, en la generalidad de los casos, ya que es en esta
dimensión donde adquieren validez universal las decisiones adoptadas.
Estudiaremos el comportamiento idealizado de las variables en la

población. Decimos idealizados por cuanto son la consecuencia de
aplicar la lógica de un cierto modelo. En el futuro cuando extraigamos
conclusiones de una determinada variable, bien referido a ella en
particular o en relación a otras, que quede claro que es según el
modelo supuesto. Tomamos el modelo como referente para explicar la
realidad, aunque no es menos cierto que es a partir de la realidad como
hemos concebido el modelo. En este sentido hay una justificación
recíproca que queda fundamentada en la eficacia del modelo al dar
cuenta de la realidad.
25
De la misma manera que la distribución de una muestra quedaba
especificada por los valores de la variable junto a sus frecuencias (o
bien, frecuencias relativas), aquí la variable aleatoria queda descrita
por los valores que adopta junto a sus probabilidades asociadas.
(Obsérvese que la probabilidad es precisamente la frecuencia relativa
en la población). El conjunto de estos valores, con sus probabilidades
correspondientes definen las distintas distribuciones de probabilidad;
esto es, los distintos modelos de probabilidad.
7.2.- Concepto de variable aleatoria
El concepto de variable aleatoria está ligado al concepto de variable

tal como ha sido tratado en la Estadística descriptiva: es todo aquello
susceptible de adoptar deferentes valores. Aquí se el añade el adjetivo
"aleatoria" queriéndose indicar con ello que sus valores dependen del
azar. Se entiende además, con este término, que se estudia el
comportamiento en la generalidad de los casos; es decir, en la
población.
Las variables aleatorias son todas numéricas, aun cuando reflejen

cualidades. Si las observaciones son de tipo cualitativo se le asigna
a los diferentes atributos un número arbitrariamente; por ejemplo, en
relación al sexo, asignaremos 0 si es varón y 1 si es mujer. De esta
forma, desde esta perspectiva sólo se consideran dos tipos de variables
aleatorias: a) variables aleatorias discretas, donde se incluyen las
variables que conocemos en otro contexto como variables cualitativas,
y b) variables aleatorias continuas.
7.3.- Variable aleatoria discreta
Se denominan a tales variable aquellas que adoptan un número de valores

numerables. Son variables cuyos valores se diferencian siempre en
alguna cantidad, o lo que es lo mismo, entre dos valores consecutivos
no puede existir ningún otro. Sólo puede adoptar valores enteros, y no
tienen sentido en ellos valores fraccionarios tales como 1.5 o 3.44.
Ejemplos de variables discretas son el número de accidentes en una
empresa, el número de suicidios en un determinado país o la cantidad
de naranjas exportadas en el año 1994. Es fácil percatarse que tales
tipos de variables corresponden a situaciones donde se consideran el
número de veces que ocurre un determinado suceso (accidentes,
suicidios, naranjas).
26
También las variables que habitualmente hemos denominado cualitativas,
en este contexto quedan definidas como variables aleatorias discretas.
En este caso se asigna un número a cada uno de los atributos que
presente la variable cualitativa en cuestión.
7.4.- Distribución de probabilidad y función de probabilidad
Si deseamos conocer como se distribuye una variable aleatoria discreta

en la población, procederemos en primer lugar a elaborar su
distribución de probabilidad que es precisamente una tabla donde se
relacionan los posibles valores que adopta la variable junto a sus
probabilidades asociadas. Esta procedimiento es equivalente a la
distribución de frecuencias relativas utilizada en el contexto de la
Estadística descriptiva.
Ejemplo 7.1.- Supongamos que en el examen de selectividad para el

ingreso en la universidad realizado en una determinada capital
española, se presentaron 127597 alumnos. La prueba consistía en cinco
problemas. Definamos la variable aleatoria X "número de problemas
acertados". La relación de alumnos que han superado los distintos
problemas es:
X Alumnos
))))))))))))))))))))))
0 ........... 5554
1 ........... 15784
2 ........... 27544
3 ........... 37905
4 ........... 24434
5 ........... 16376
))))))))))))))))))))))
127597
Tabla 7.1
Determinar su distribución de probabilidad.
SOL:
27
El total de alumnos es 127597. Dividiendo cada una de las frecuencias
observadas en los diferentes valores de la variable aleatoria por esta
cantidad obtendremos la proporciones a nivel poblacional, o lo que es
lo mismo su probabilidad asociada. Así pues:
X P(X)
))))))))))))))))))))))
0 ........... 0.0435
1 ........... 0.1237
2 ........... 0.2159
3 ........... 0.2971
4 ........... 0.1915
5 ........... 0.1283
))))))))))))))))))))))
Tabla 7.2
Ejemplo 7.2.- Supongamos que en la población española el porcentaje de

varones es del 51% y el de mujeres, del 49%. Determinar la función de
probabilidad para la variable sexo.
SOL:
Supongamos que arbitrariamente asignamos el valor 0 a varón y 1 a

mujeres. Por tanto:
Sexo Probabilidad
X P(X)
))))))))))))))))))))))
0 ........ 0.51
1 ........ 0.49
))))))))))))))))))))))
Tabla 7.3
La asignación de probabilidades en casos como en los ejemplos citados

(donde se ofrece información empírica de la población) es evidente. Se
trata tan sólo de conocer la proporción correspondiente a un
determinado valor. De esta forma, en relación al ejemplo 7.1, con sólo
mirar a la tabla sabremos que la probabilidad de acertar 3 problemas
es 0.2971. Este tipo de distribuciones, cuyas probabilidades derivan
directamente de los datos de observación, se conocen como
distribuciones empíricas de probabilidad.
28
Otras veces carecemos de información poblacional, y en consecuencia,
hemos de operar con un modelo idealizado donde recurriremos a distintos
procedimientos matemáticos para determinar probabilidades. Se tratan
de distribuciones cuyos datos son producidos según un proceso
determinado. En estos casos, hemos de determinar la función matemática
que nos permite atribuir a un determinado valor una cierta
probabilidad. Esta función se denomina función de probabilidad.
De una manera formal, diremos que la función de probabilidad, denotada

como f(x), hace referencia al procedimiento matemático que permite
determinar la probabilidad de que la variable X adopte un determinado
valor x. Si designamos P(X=x) a la probabilidad de que X valga x:
f(x) ' P(X ' x) (7.1)
Ejemplo 7.3.- Supongamos que definimos la variable aleatoria X="número

de hijos varones en familias compuestas por tres hijos". Determinar las
probabilidades asignadas a cada uno de los valores de la variable
aleatoria X.
SOL:
Hemos de calcular la función de probabilidad para los diferentes

valores de esta variable. En una familia de tres hijos podemos
encontrarnos con 0, 1, 2 o 3 varones. Si suponemos 0.51 la probabilidad
de nacer varón tendremos los siguientes casos posibles (Designemos
Mujer:M y Varón:V):
Probabilidad de tener 0 hijos varones. Equivale a la probabilidad de

tener 3 mujeres:
P(X'0) ' P(MMM) ' P(M)(P(M)(P(M) ' 0.49(0.49(0.49 ' 0.1176
Probabilidad de tener 1 hijo varón. Nos conformamos con cualquiera de

los tres sucesos siguientes: VMM, MVM o bien MMV. La probabilidad de
cada uno de ellos es:
29
P(VMM) ' 0.51(0.49(0.49 ' 0.1225
P(MVM) ' 0.49(0.51(0.49 ' 0.1225
P(MMV) ' 0.49(0.49(0.51 ' 0.1225
Por tanto, la probabilidad de tener 1 hijo varón será:

P(X'1) ' P(VMM) % P(MVM) % P(MMV) ' 0.1225(3 ' 0.3674
Probabilidad de tener 2 hijos varones. Igual que anteriormente, nos

conformamos con cualquiera de los tres sucesos siguientes: VVM, VMV o
bien MVV. Así pues:
P(VVM) ' 0.51(0.51(0.49 ' 0.1274

P(VMV) ' 0.51(0.49(0.51 ' 0.1274
P(MVV) ' 0.49(0.51(0.51 ' 0.1274
Luego la probabilidad de tener 2 hijos varones:
P(X'2) ' P(VVM) % P(VMV) % P(MVV) ' 0.1274(3 ' 0.3823
Probabilidad de tener 3 hijos varones:
P(X'3) ' P(VVV) ' P(V)(P(V)(P(V) ' 0.51(0.51(0.51 ' 0.1327
Por tanto, la distribución de probabilidad de la variable "número de

hijos varones en familias con 3 hijos" será:
X P(X=x)
)))))))))))))))))))))
0 ........ 0.1176
1 ........ 0.3674
2 ........ 0.3823
3 ........ 0.1327
))))))))))))))))))))
Tabla 7.4
30
Obsérvese que las probabilidades no se ofrecen directamente de los
datos de observación sino que han sido deducidas por procedimientos
matemáticos -función de probabilidad-. Normalmente en los censos no se
ofrece toda la casuística del numero de hijos varones o mujeres para
distintos tamaños de familia.
7.4.1.- Representación gráfica de la distribución de probabilidad
La forma gráfica de representar la distribuciones de probabilidad de

una variable aleatoria discreta es equivalente a su homónima a nivel
muestral. Recurriremos igualmente al diagrama de barras. En el eje de
las abscisas se representan los valores de la variable aleatoria y en
el eje de las ordenadas las probabilidades.
Ejemplo 7.4.- Representar gráficamente la distribución de probabilidad

del ejemplo 7.3.
SOL:
0,4
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
0 1 2 3
Figura 7.1
31
7.5.- Función de distribución
De la misma manera que en la estadística descriptiva se utilizaba el

diagrama de porcentajes acumulados para describir una variable
discreta, recurriremos en este caso a un concepto equivalente para
caracterizar el comportamiento de una variable aleatoria discreta.
Procederemos aquí, a determinar la función de distribución (también
denominada función de distribución acumulada o simplemente función de
probabilidad acumulada), que designaremos como F(x) y que se define en
cada punto xi, como la probabilidad de que la variable aleatoria X
adopte un valor menor o igual que xi. De una manera formal:
F(x i) ' P(X # xi) (7.2)
Obviamente, para calcular la función de distribución de un determinado

valor Xa tan sólo habremos de sumar las distintas probabilidades
correspondientes a ese valor y todos los anteriores. Esto es:
F(x a) ' P(X # xa) ' j P(X ' x i) (7.3)

x i#xa
Ejemplo 7.5.- Determinar la función de distribución para los diferentes

valores de la variable del ejemplo 7.3.
SOL:
Calculemos en primer lugar las distintas probabilidades acumuladas

asociadas a cada uno de los valores de la variable "número de hijos".
(0) ' f(0) ' 0.1176

(1) ' f(0) % f(1) ' 0.1176 % 0.3674 ' 0.485
(2) ' f(0) % f(1) % f(2) ' 0.1176 % 0.3674 % 0.3823 ' 0.8673
(3) ' f(0) % f(1) % f(2) % f(3) ' 0.1176 % 0.3674 % 0.3823 % 0.1327 '
Así pues:
32
X F(x)
)))))))))))))))))))))
0 ........ 0.1176
1 ........ 0.4840
2 ........ 0.8673
3 ........ 1
))))))))))))))))))))
7.5.1.- Representación gráfica de la función de distribución
Es un gráfico equivalente al polígono de frecuencias (o porcentajes)

acumulados tal como se estudió en los temas de Estadística descriptiva.
Sobre el eje de las abscisas se sitúan los valores de la variable, y
sobre el de las ordenadas, las distintas probabilidades acumuladas.
Ejemplo 7.6.- Representar el diagrama de probabilidades acumuladas del

ejemplo 7.3:
T +)))))))Q
* *
* *
* +)))))))-
* *
* *
* *
* *
* +)))))))-
* *
* *
* *
* *
/)))))))-
*
*
.)))))))))))))))))))))))))))))))))))Q
0 1 2 3
Figura 7.2
33
7.6.- Esperanza matemática de una variable aleatoria discreta
La esperanza matemática (también, denominada valor esperado o media

teórica) de una variable aleatoria discreta equivale a lo que en
Estadística descriptiva denominábamos como media o valor medio de una
distribución. Entonces se trataba de una medida de tendencia central
útil para describir una determinada muestra, y ahora, es igualmente una
media de tendencia central orientada a describir el comportamiento de
una determinada variable en la generalidad de los casos, o lo que es
lo mismo, en la población. En consecuencia, su formulación matemática
será equivalente. Como se recuerda, para una muestra el valor de la
media tenía por valor:
N
j fiX i
i'1
X‾ '
N
Se observa que esta expresión puede ser reescrita en los siguientes

términos:
N f
X‾ ' j i Xi
i'1 N
fi
donde hace referencia a las frecuencias relativas asociadas a
N
cada uno de los valores de la variable X. Si estamos operando en la

generalidad de los casos, estos valores -frecuencias relativas en la
población- nos indican precisamente, las probabilidades
correspondientes a los distintos valores de X. En este caso, el valor
obtenido será a la media poblacional (µ), o bien, la esperanza
matemática de la variable aleatoria X:
N
µ ' E(X) ' j p iXi (7.4)
i'1
34
Ejemplo 7.7.- Calcular la esperanza matemática del ejemplo 7.3.
SOL:
Configuremos la siguiente tabla:
Xi pi piXi
))))))))))))))))))))))))))))Q
0 ........ 0.1176 0
1 ........ 0.3674 0.3674
2 ........ 0.3823 0.7646
3 ........ 0.1327 0.3981
))))))))))))))))))))))))))))Q
1.5301
Aplicando (7.4):
N
µ ' E(X) ' j piX i ' 1.5301
i'1
Por término medio, el número de hijos varones que cabe esperar en

familias de 3 hijos es 1.5301.
El término "Esperanza matemática" (o también, "valor esperado") deriva

de los juegos de azar, donde surgió. Se quiere expresar con este
término las expectativas que se tienen a la larga, en términos de
ganancias o pérdidas.
En el siguiente ejemplo ilustramos una aplicación en el juego.
Ejemplo 7.8.- En la ruleta de la mala suerte cada boleto cuesta 100

pesetas. Si se gana recibe el jugador 500 pesetas, y en caso contrario,
nada. Sabiendo que tiene una probabilidad de ganar de 0.1, determinar
cual es su esperanza matemática.
SOL:
Cuando pierde, pierde las 100 pesetas invertidas (gana -100), y
cuando gana, gana la diferencia entre los invertido y lo conseguido
(500-100=400). Así pues, la distribución de probabilidad será:
35
Xi pi
)))))))))))))))))))))
-100 ....... 0.9
400 ....... 0.1
))))))))))))))))))))
Y su valor esperado:
N
E(X) ' j piX i ' 0.9((&100) % 0.1(400 ' &50
i'1
Puede ocurrir que si juega una única vez gane o incluso gane en unas
pocas jugadas, pero con toda seguridad, si juega muchas veces perderá.
En el límite, perderá 50 pesetas multiplicado por el numero de jugadas.
Esto es lo que sucede con bingos, tragaperras .. etc; si se juega
alguna vez, a lo mejor se gana, pero si se repite mucho, al final
siempre se pierde. Si se quiere ganar dinero con la lotería lo mejor
es montar una.
7.7.- Varianza de una variable aleatoria discreta
Tiene el mismo significado que el concepto de varianza utilizado en

Estadística descriptiva. Entonces nos indicaba el grado de dispersión
de los datos de una determinada muestra alrededor de su media, y ahora,
hace referencia al grado de dispersión de los valores que adopta una
determinada variable aleatoria en torno a su propia media -la media
poblacional-. Como se recuerda, la varianza de una muestra tiene por
expresión:
N
j f i Xi & X‾
2
i'1 (7.5)
s2 '
N
Lo que podemos reescribir de la siguiente forma:

N f
s 2 ' j i Xi & X‾ 2
i'1 N
Si operamos en la generalidad de los casos, entonces, fi/N se entiende
36
como una probabilidad (frecuencia relativa poblacional). Por otro lado,
la media será ahora la media poblacional µ. Si designamos la varianza
poblacional como σ2:
N
σ2 ' j pi X i & µ 2
(7.6)
i'1
Puede utilizarse una expresión más simplificada. De la misma manera que

en el caso de la varianza de la muestra, una fórmula más sencilla que
(7.5) era:
N
j X fi
2
s2 ' i'1
& X‾2
N
Igualmente, ahora:
N
σ2 ' j piX 2 & µ2 (7.7)
i'1
7.8.- Modelos de distribución discreta de probabilidad
Como hemos indicado, el concepto de variable aleatoria hace referencia

al comportamiento de una determinada variable a nivel poblacional.
También hemos dicho que toda variable aleatoria muestra el
comportamiento en la generalidad de los casos. Pero, a este respecto,
como ya se ha mencionado anteriormente, es preciso distinguir las
distribuciones empíricas cuyos datos corresponden a observaciones
reales, constatadas (estaturas, coeficientes intelectuales, opciones
políticas de una población...etc) de los modelos de distribución, donde
los datos son generados según ciertas reglas. Los datos, en este caso,
son consecuencia del supuesto establecido. Decimos modelos porque hacen
referencia a distribuciones ideales, o si se quiere a distribuciones
que obedecen a una cierta manera de conceptualizar la realidad. Así,
tiene sentido preguntarnos por la distribución teórica de las
puntuaciones del test ZETA, compuesto por 20 items de verdadero o
falso, cuando se aplica a sujetos que no tienen conocimiento alguno de
dicho test. Y todo ello sin necesidad de que exista ninguna población
empírica al respecto.
37
En este apartado trataremos algunas de los modelos de distribución
aplicables a variables aleatorias discretas. Nos centraremos sólo en
las dos que estimamos más relevantes, y no profundizaremos demasiado
en ellos; tan sólo nos referiremos a ciertos aspectos de interés de
cara a la investigación en ciencias humanas. Los dos modelos en
cuestión son: la distribución binomial y la distribución multinomial.
7.8.1.- Distribución binomial
La distribución binomial se utiliza en situaciones susceptibles de

plantearse de forma dicotómica, como por ejemplo, sexo (varón, mujer),
calificación (aprobado, suspenso), respuesta a una terapia (curación,
no curación)...etc. Nos proporciona la base matemática para conocer el
comportamiento de lo que hemos denominado variables cualitativas de dos
categorías.
Hemos dicho "susceptibles de plantearse de forma dicotómica" con lo

cual no estamos estableciendo restricciones sobre la naturaleza de la
variable en cuestión; puede tratarse de una variable (en sus orígenes)
cualitativa de varias categorías e incluso cuantitativa. En el caso de
variables como el sexo no hay problemas; se toman tal como se
presentan. Otras variables, como la opción política, (supongamos:
derecha, centro e izquierda), han de reconvertirse en dicotómicas (por
ejemplo, derechas y no derechas, incorporando en esta categoría
izquierda y centro). Otras, como la inteligencia, puede dicotomizarse,
marcando un valor en el continuum de la variable, y estableciendo dos
grupos de valores (inteligentes y no inteligentes).
La variable que estudiamos en una distribución binomial expresa el

número de veces que se presenta un determinado acontecimiento, sabiendo
que en cada observación hay dos situaciones posibles (presencia o
ausencia del acontecimiento en cuestión). Esto nos obliga a poner el
acento en una de las categorías de la variable dicotómica. Por ejemplo,
si estamos operando con la variable sexo, nos preguntaremos por el
número de mujeres que se presentan en una serie de observaciones. Esto
implica valorar como 1 el acontecimiento "mujer" y como 0, el
acontecimiento "hombre". El valor de la variable binomial corresponde
a a la suma de todos los acontecimientos. Así, si de 8 observaciones
hay 6 mujeres y 2 hombres en la forma: M,M,M,V,M,M,V,M, y definimos la
variable X como el número de mujeres observadas, tendremos que:
X = 1 + 1 + 1 + 0 + 1 + 1 + 0 + 1 = 6
Se observa que el resultado es una variable cuantitativa, aunque en su
38
base era dicotómica. En realidad es el número de veces que se presenta
algo. Es interesante hacerlo constatar porque en última instancia en
la naturaleza todo lo que hay es la suma de algo que bien se da o no
se da. Incluso las variables continuas lo son aparentemente, en el
límite de su resolución serán discretas: número de veces que se
presenta algo.
La distribución binomial, para su aplicación, exige la condición

fundamental que la probabilidad de ocurrencia del acontecimiento
estudiado se mantenga constante a lo largo de las pruebas, lo que
obliga a que éstas sean independientes entre sí. En la práctica la
distribución binomial se aplica bien cuando la población sobre la que
se realiza la extracción de elementos es infinita o bien cuando es
finita pero la extracción se realiza con reemplazamiento, con lo que
se garantiza la constancia en las probabilidades. No obstante, el
término infinito es relativo, y se acepta que es tal (no distorsiona
demasiado los resultados) cuando la población de donde se extrae la
muestra es por lo menos diez veces mayor que dicha muestra.
La probabilidad asociada a los distintos valores de una variable

binomial (su función de probabilidad) corresponde a la siguiente
expresión:
n n!
f(x) ' p xq n&x ' p xq n&x (7.8)
x x!(n&x)!
donde:
x: valor que adopta la variable aleatoria

n: número de pruebas realizadas
p: probabilidad de que en una prueba se de el suceso favorable
q: probabilidad de que en una prueba no se de el suceso favorable
De una manera menos formal, la ecuación anterior nos proporciona la

probabilidad de obtener x casos favorables de n observaciones sabiendo
que la probabilidad de que se de el suceso que nos interesa en una
observación es p.
Su deducción es relativamente sencilla. Supóngase que el suceso se da

x veces de n veces, de tal forma que las x primeras veces obtenemos tal
sucesos y el resto, (n-x) veces, no lo obtenemos. La probabilidad de
39
que tal cosa ocurra será:
P(X'x) ' p(p(p(p(q(q.....(q ' p x q n&x
Pero nos conformamos con obtener x veces dicho sucesos, sin importarnos
el orden. Entonces, las combinaciones posibles en las que se pueden
presentar x veces un determinado suceso entre un total de n
observaciones, es como se sabe:
n n!
Cnx ' '
x n!(n&x)!
Por tanto, la probabilidad de que obtengamos x sucesos de un total de

n observaciones; esto es, que se de cualquiera de las combinaciones
mencionadas será:
n!
P(X'x) ' p xq n&x
x!(n&x)!
tal como se indicó en (7.8).
Ejemplo 7.9.- Tomando como referencia el ejemplo 7.3, determinar la

probabilidad de que de 3 nacimientos obtengamos 2 varones:
SOL:
Apliquemos (7.8):
3!
P(X'2) ' 0.512 ( 0.493&2 ' 0.3823
2!(3&2)!
Obsérvese que es el mismo resultado que obtuvimos en el ejemplo 7.3.

Entonces hubimos de calcular por separado los distintos sucesos donde
se encontraban 2 varones y 1 mujer, para sumarlos posteriormente.
40
7.8.1.1.- Prueba binomial y toma de decisión estadística
En el capítulo anterior (ejemplo 6.10) utilizamos los mínimos

conocimientos adquiridos hasta entonces sobre teoría de probabilidad
para abordar un sencillo problema de investigación en el que debíamos
tomar la decisión sobre el aprendizaje de un sujeto en una determinada
materia. Ahora, con los bagajes que nos proporciona la distribución
binomial nos arriesgaremos a realizar investigaciones algo más
complejas.
Hemos de decir, no obstante, que será más adelante cuando se

desarrollarán in extenso los denominados contrastes de hipótesis. Por
el momento, nos limitamos a ofrecer algunas nociones que puede resultar
útiles en las tomas de decisiones en investigaciones psicológicas.
Como se recordará, cuando investigamos en psicología, nos preguntamos

por la incidencia de algo sobre un determinado aspecto de la conducta
(la droga X sobre la ansiedad, el método A sobre el aprendizaje, o la
terapia H sobre la depresión). El punto de partida siempre en la
ciencia (hay que ser lo más aséptico posible) para saber si ha ocurrido
algo en especial, es suponer que no ha ocurrido absolutamente nada, que
lo que ha sucedido se explica por el puro azar (la ansiedad del sujeto
permanece, en las lógicas fluctuaciones de un día para otro, igual que
siempre; el niño al que se le aplica el nuevo método de enseñanza sigue
sacando básicamente las mismas calificaciones (unos días mejor y otros
peor), y la depresión sigue más o menos como antes de la terapia). Y
desde esta hipótesis -lo observado no se debe a nada en particular,
sino simplemente al puro azar- se calcula la probabilidad de que suceda
lo observado. Si la probabilidad es relativamente grande (se toma por
convenio valores iguales o superiores a 0.05 y 0.01, según nuestro
grado de exigencia al respecto) suponemos que, efectivamente no ha
habido otra cosa que azar. En caso contrario, si la probabilidad de que
las cosas sucedan por azar es pequeña (inferior a 0.01 o 0.05)
concluiremos que ha habido algo diferente que el azar. Ese "algo
diferente" es, si se ha llevado correctamente el trabajo, lo que hemos
introducido en nuestra investigación y antes no estaba (la droga X, el
método A, o la terapia H).
A efectos ilustrativos, y con la intención de introducir la lector

(brevemente) en las pruebas de decisión estadística, tomaremos como
referencia un ejemplo extraído de los juegos de azar. Supongamos que
tenemos en nuestras manos una moneda, sobre la que efectuamos 10
lanzamientos) y deseamos saber si está o no sesgada. Está claro que
desde el supuesto que la moneda esté perfectamente equilibrada
esperaremos obtener un 50% de caras, o lo que es lo mismo, de 10
41
lanzamientos esperaremos lograr 5 caras. Pero es igualmente evidente
que no necesariamente tendremos que conseguir exactamente 5 caras. El
azar puede dar lugar a ciertas fluctuaciones. No nos sorprenderá, por
ejemplo, si obtenemos 6 o 4 caras, y aún con estos resultados
seguiremos pensando que nuestra moneda está equilibrada. Sin embargo,
si obtenemos 10 caras o bien 0 caras, empezaremos a pensar que quizás
la moneda no esté tan equilibrada como pensábamos. La razón estriba en
que consideramos que la obtención de 6 o 4 caras es bastante probable
en una moneda perfecta, mientras que obtener 10 o 0 caras ya es menos
probable en dicha moneda.
En términos algo más formales, al lanzar la moneda, podemos plantear

dos posibles hipótesis: a) la moneda está bien equilibrada o b) la
moneda no está equilibrada. La primera hipótesis, expresada como H0,
se denomina hipótesis nula y viene a decir que obtendremos 5 caras de
10 o bien un valor próximo que sea relativamente fácil de ser obtenido
por azar (como 4 o 6 caras). Se dice "hipótesis nula" en el sentido de
que no existe diferencia (diferencia nula) entre el valor de caras
obtenido y el valor 5 (sólo como fluctuación del azar). La hipótesis
contraria, expresada como H1, se denomina Hipótesis alternativa, y
viene a indicar que el valor obtenido no es probable que sea obtenido
por azar (por ejemplo, 10 caras).
Veamos, entonces, que ocurre en términos de probabilidad para cada uno

de los sucesos posibles al lanzar la moneda 10 veces.
42
10!
P(X'0) ' 0.500 ( 0.5010 ' 0.0010
0!10!
10!
P(X'1) ' 0.501 ( 0.509 ' 0.0098
1!9!
10!
P(X'2) ' 0.502 ( 0.508 ' 0.0439
2!8!
10!
P(X'3) ' 0.503 ( 0.507 ' 0.1172
3!7!
10!
P(X'4) ' 0.504 ( 0.506 ' 0.2051
4!6!
10!
P(X'5) ' 0.505 ( 0.505 ' 0.2461
5!5!
10!
P(X'6) ' 0.506 ( 0.504 ' 0.2051
6!4!
10!
P(X'7) ' 0.507 ( 0.503 ' 0.1172
7!3!
10!
P(X'8) ' 0.508 ( 0.502 ' 0.0439
8!2!
10!
P(X'9) ' 0.509 ( 0.501 ' 0.0098
9!1!
10!
P(X'10) ' 0.5010 ( 0.500 ' 0.001
10!0!
En la siguiente figura representamos las probabilidades asociadas a

los distintos valores de caras posibles:
43
0,25
0,2
0,15
0,1
0,05
0
0 1 2 3 4 5 6 7 8 9 10
Figura 7.3
En base a estos resultados hemos de decidir a partir de qué valor

consideraremos que la moneda no es correcta. En otros términos, hemos
de marcar la línea divisoria que nos permita decidir cuando aceptar la
hipótesis de que la moneda está bien equilibrada y cuando no. En este
sentido, podremos, por ejemplo, definir sobre este gráfico dos zonas
o regiones. Una primera región abarca los casos 2,3,4,5,6,7 y 8 caras.
Este conjunto comprende una probabilidad de 0.9784 cuando la moneda
está bien equilibrada. Una segunda región comprende el resto de casos,
esto es: 0,1,9 y 10 caras, cuya probabilidad total es 0.0216. Podemos,
entonces, en base a estos datos concluir que si realizásemos repetidos
experimentos de lanzar la moneda 10 veces obtendríamos de 2 a 8 caras
el 97.84% de las veces y 0,1,9 o 10 caras solamente el 2.16% de las
veces.
Supongamos, ahora, que tenemos una moneda en nuestras manos y no

sabemos si está bien o mal equilibrada. La lanzamos 10 veces y
obtenemos 9 caras. ¿Concluiremos que está bien o mal equilibrada?. Por
lo que acabamos de ver, desde el supuesto de que la moneda está
correcta solamente el 2.16% de las veces obtendremos alguno de los
valores 0,1,9 o 10. De cada 100 veces que realizásemos el experimento
de efectuar 10 lanzamientos de la moneda y tomásemos tal decisión
acertaríamos precisamente poco más de 2 veces (aquellas que la moneda
esté bien equilibrada). ¡Y fallaríamos las restantes!. Nos resulta más
rentable operar de manera contraria; si lanzamos 10 veces la moneda y
obtenemos cualquiera de estos valores indicados concluiremos que la
44
moneda está mal equilibrada. En este caso nos equivocaremos
precisamente las 2.16% de las veces que la moneda esté bien, pero
parece razonable que adoptemos esta decisión ya que el riesgo implicado
es considerablemente menor que si concluyésemos de forma contraria.
0,25
0,2
0,15
0,1
0,05
0
0 1 2 3 4 5 6 7 8 9 10
Figura 7.4
En consecuencia, si llegamos al acuerdo de considerar que una

probabilidad de 0.0216 es una probabilidad lo suficientemente pequeña,
aquellos valores obtenido que estén dentro de este ámbito serán
rechazado como debidos al azar. Y por el contrario, los que estén en
el ámbito de la probabilidad restante (0.9784), serán aceptados como
consecuencia del azar. De esta forma, tal como se observa en la figura
7.4, quedan delimitadas ambas zonas: la zona de aceptación de que la
moneda está bien equilibrada (hipótesis nula), y la zona de rechazo de
tal supuesto.
Esta misma lógica que hemos utilizado con la moneda puede ser
generalizado a otros contextos, de tal forma que acontecimientos cuya
probabilidades (por azar) fueran de una magnitud pequeña (normalmente
del 0.05 o 0.01), serán considerados, en caso de obtenerse, que su
ocurrencia no ha sido debida azar, sino por cualquier causa (que
habremos de determinar en función del control de variables habidas).
En caso contrario, cuando la probabilidad de la ocurrencia por azar sea
grande será aceptado el supuesto de azar, y si estamos realizando
alguna investigación concluiremos que no ha sucedido nada distinto al
45
azar, así si estudiásemos el efecto de una droga sobre la conducta
concluiríamos que ésta no ha sido efectiva.
A continuación ofrecemos algunos ejemplos ilustrativos de lo que

estamos comentando:
Ejemplo 7.10.- Una determinada empresa de detergentes desea

comercializar uno de los dos productos siguientes: Pulkrín o
Resplandor. A este respecto, elige una muestra de 10 mujeres y se les
ofrece ambos productos para ser usados durante una semana. Al cabo de
este tiempo se les pregunta qué producto prefieren. Las respuestas son:
+))))))))))))))))))))))))))))))))))))))))))))))))))))))))),
* Resplandor, Resplandor, Resplandor, Pulkrín, Pulkrín *
* Resplandor, Resplandor, Resplandor, Pulkrín, Resplandor *
.)))))))))))))))))))))))))))))))))))))))))))))))))))))))))-
¿Cual de los dos productos es el preferido por las amas de casa?
SOL:
Este problema es equivalente al de las monedas. Si no hay una

preferencia por ningún producto cabe esperar que las respuestas estén
repartidas equitativamente. Por tanto, en ausencia de preferencia las
probabilidades para elegir uno u otro producto serán 0.5. Se trata,
igual que antes, de delimitar dos zonas: la zona de aceptación de la
H0 y la de rechazo de ésta. Supongamos que tomamos como referencia las
regiones de aceptación y rechazo establecidas en el caso citado de las
monedas; estos es, aceptación de 2 a 8 caras y rechazo, de 8 para
arriba y de 2 para abajo. Si aquí definimos el número de veces que es
elegida Resplandor como la variable aleatoria a tratar, (podíamos haber
elegido igualmente Plukrín) comprobaremos que han sido 7 veces. Como
en el caso de la moneda, 7 está dentro de la zona de aceptación; en
consecuencia suponemos que no hay preferencia por ninguno de ambos
productos.
Podíamos haber resuelto igualmente este problema calculando la región,

en términos de probabilidad, que queda por encima de 7 elecciones de
Resplandor y por debajo de 3 elecciones de este producto. De esta forma
determinamos la probabilidad de que por azar -supuesta la misma
preferencia por ambos productos- obtengamos los valores 0,1,2,8,9 o 10.
Sabemos por el ejemplo de las monedas que P(X=9)=0.0098 y
46
P(X=10)=0.001. Nos falta calcular P(X=8):
10!
P(X'8) ' 0.58(0.52 ' 0.0439
8!2!
Entonces, la probabilidad de obtener por encima de 7 elecciones de

Resplandor será:
P(X>7) ' P(X'8) % P(X'9) % P(X'10) ' 0.0439 % 0.0098 % 0.001 ' 0.0547
Como la distribución de probabilidad para estos valores es simétrica,

la probabilidad de obtener por debajo de 3 será la misma:
P(X<3) ' 0.0547
Y en total:
P(X>7) o P(X<3) ' 0.0547(2 ' 0.1094
Esto es un 10.94% de las veces, desde el supuesto que no hay ningún

tipo de preferencia por alguna de estas marcas, se obtendrá valores por
encima de 7 o por debajo de 3. Si convenimos por ejemplo, en no aceptar
un riesgo mayor de 0.05 concluiremos que este riesgo del 0.1094 es
demasiado grande y por tanto que no hay ninguna preferencia por alguno
de estos productos.
En el ejemplo anterior hemos realizado una prueba bilateral o de dos

colas en el sentido de que rechazábamos la hipótesis de igualdad en las
preferencias tanto para valores en un extremo como en otro. Resplandor
podía ser mejor (estar en el extremo de la derecha) o podía ser peor
(estar en el extremo de la izquierda). Pero hay ciertas circunstancia
en lo que interesa contrastar no es si algo es diferente (mejor o peor)
sino exclusivamente si es mejor o bien si es peor. Este sería el caso,
si por ejemplo, el producto habitual de las amas de casa fuera Pulkrín
y la empresa sólo comercializase Resplandor en caso de que éste sea
manifiestamente mejor. Aquí la intención es conocer exclusivamente si
es mejor. En este supuesto sólo habríamos de calcular la probabilidad
de que hubiera 8 o más elecciones de Resplandor y comprobar si está por
debajo de un valor límite prefijado. Veamos un ejemplo.
Ejemplo 7.11.- Un determinado sujeto afirma poseer dotes telepáticas.
47
Para ello, se realiza un experimento con las cartas de la baraja
española, donde debe intentar adivinar la carta que extrae (con
reemplazamiento) un observador situado en un cuarto contiguo. De un
total de 6 cartas adivina 4. ¿Confirman estos datos la capacidad
telepática del sujeto?
SOL:
Se trata en este caso de una prueba unilateral. Consideraremos que

el sujeto está dotado parapsicológicamente cuando supera una cierta
cantidad de aciertos (no interesa aquí, cuando obtiene valores
inferiores a uno específico, es decir, cuando no presenta ninguna
capacidad especial). Hemos de definir en términos de probabilidad el
espacio superior a partir de 4 aciertos. Este espacio muestra la
probabilidad de ocurrencia de 4 o más aciertos.
La probabilidad de acertar por puro azar cada ensayo, esto es, cada
carta es 1/40, y en consecuencia, la de fallar 39/40. Así pues, la
probabilidades de acertar 4 o más cartas de un total de 6 será:
P(X$4) ' P(4) % P(5) % P(6)
Calculemos sus distintos valores:
4 2
6! 1 39
P(X'4) ' ' 5.57(10&6
4!2! 40 40
5 1
6! 1 39
P(X'5) ' ' 5.71(10&8
5!1! 40 40
6 0
6! 1 39
P(X'6) ' ' 2.44(10&10
6!0! 40 40
Por tanto:
P(X$4) ' P(4) % P(5) % P(6) ' 5.57(10&6 % 5.71(10&8 % 2.44(10&10 ' 5.62(10&6
Sólo 6 (aproximadamente) de cada 1000000 veces acertaría por puro azar.

Si suponemos que la casualidad no ha dado lugar de que sea ésta
precisamente, entonces afirmaremos (con un riesgo de 0.000006 de
48
probabilidad de equivocarnos) que ha habido algo más que azar. Ahora
sólo hace falta descartar la hipótesis de fraude y que el experimento
haya sido correctamente llevado para concluir que ha existido realmente
telepatía.
7.8.2.- Distribución multinomial
Puede considerarse la distribución multinomial como una extensión de

la distribución binomial. Si entonces trabajábamos con variables
dicotómicas, ahora lo hacemos con variables que presentan más de dos
categorías, como puede ser el estado civil (si entendemos las
siguientes categorías: soltero, casado, separado o divorciado y viudo),
la opción política (si se consideran los siguientes partidos:
conservador, moderado y progresista) .. etc.
No profundizaremos en la distribución multinomial de la misma manera

que lo hemos hecho con la binomial. Simplemente diremos que constituyen
la el punto de referencia para el desarrollo de la prueba de χ2 (léase
Chi-cuadrado), que es la prueba utilizada para el contraste de
hipótesis para variables cualitativas, y que se tratará más adelante
(en Amón (1980), págs:374-383 puede verse la relación entre la
distribución multinomial y χ2). Por el momento, nos limitaremos a
desarrollar el cálculo de probabilidades asociados a tales
distribuciones.
El planteamiento es muy parecido al expuesto para la distribución

binomial. Supongamos N pruebas independientes donde se presentan los
sucesos A1, A2,..., Ak cuyas probabilidades asociadas son p1, p2,...,
pk, entonces, la probabilidad de que el suceso A1 se presente n1 veces,
el suceso A2, n2 veces y el suceso Ak, nk veces será:
N! n n n
P ' p1 1p2 2...pk k (7.9)
n1!n2!...n k!
siendo:
n n n
p1 1p2 2...p k k
49
la probabilidad de que se presenten tales sucesos en un orden
determinado. Y siendo:
N!
n1!n2!...nk!
el número de combinaciones en las que pueden presentarse los sucesos

A1, A2,..., Ak el número de veces n1, n2,..., nk.
Ejemplo 7.12.- En una determinada comunidad el 20% son progresistas,

el 30% son conservadores y el 50% son moderados. Esto supuesto,
determinar la probabilidad de que de un grupo de 3 personas existan 1
moderado, 1 progresista y 1 conservador:
SOL:
Apliquemos (7.9):
N! n n n 3!
P ' p1 1p2 2...pk k ' 0.210.310.51 ' 0.18
n1!n2!...n k! 1!1!1!
48
Tema VIII. Variables aleatorias y modelos de probabilidad (II): El caso
continuo.
))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))Q
8.1.- Introducción
8.2.- Variable aleatoria continua
8.3.- Distribución de una variable aleatoria continua
8.4.- Función de densidad de probabilidad
8.5.- Media de una variable aleatoria continua
8.6.- Varianza de una variable aleatoria continua
8.7.- La distribución normal de probabilidad
8.7.1.- Cálculo de probabilidades en distribuciones normales
8.7.2.- Manejo de la tabla normal tipificada
8.7.3.- Ley normal y distribuciones afines
8.7.3.1.- Distribución muestral de medias
8.7.3.2.- Distribución muestral de proporciones
8.7.3.3.- Aplicaciones en la teoría de la decisión estadística
))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))Q
8.1.- Introducción
En este capítulo seguiremos la misma pauta marcada en el capítulo

anterior. Aquí haremos mención del comportamiento a nivel poblacional
de las variables aleatorias continuas. Mostraremos las distribuciones
de probabilidad asociadas a tales variables, e igualmente
determinaremos los parámetros que ofrecen una información sintética de
las mismas: media y varianza. Por otro lado, dedicaremos un apartado
especial a la distribución más característica de las variables
aleatorias continuas: la ley normal. Por último, tomaremos el modelo
normal como referente de otras distribuciones -distribuciones
muestrales- de gran utilidad en la teoría de la estimación y decisión
estadística.
8.2.- Variable aleatoria continua
El concepto de variable aleatoria continua es prácticamente el mismo

que el concepto de variable continua estudiada para una muestra. Tan
sólo que dicho concepto se aplica aquí a la generalidad de los casos
-población-, y como se ha indicado, hace referencia a toda variable
susceptible (en teoría) de adoptar infinitos valores entre dos
cualesquiera. Ejemplos de variables aleatorias continuas son el peso,
49
la estatura, la inteligencia, el tiempo en ejecutar una tarea ... etc.
Tomemos, a efectos ilustrativos, la estatura. Entre dos valores,
digamos 170 cms y 171 cms podremos encontrar tantos como deseemos.
Supongamos que afinamos más y nos situamos entre dos valores
extraordinariamente próximos como 170.13 y 170.14. Aquí también
podremos encontrar tantos valores como deseemos. Tan sólo hemos de
operar con una precisión infinita (infinitos decimales).
Obsérvese que hemos dicho "en teoría" ya que en la práctica está claro
que no es posible una precisión infinita (entre otras razones
necesitaríamos infinito tiempo). Por otro lado, el mismo instrumento
de medida nos marcará el límite en la precisión. Así, si un metro tiene
la escala en milímetros, esa será nuestra precisión; si la inteligencia
la medimos a través de una determinada prueba, el número de cuestiones
marcará igualmente el límite de medida. En definitiva, en la práctica
cualquier variable continua, por limitaciones del instrumento de
medida, resultará una variable discreta.
8.3.-Distribución de una variable aleatoria continua
En el capítulo 2 se expusieron las distribuciones de frecuencias para

variables continuas. Como se recuerda, por razones de eficacia en la
descripción de los datos, se procedía a agrupar los mismos en
intervalos de clase y se asignaban las frecuencias (o frecuencias
relativas) a tales intervalos. De esta forma, si retomamos el ejemplo
del epígrafe 2.2.3 observaremos que su distribución de frecuencias
relativas era:
X f p F P
))))))))))))))))))))))))))))))))
10-14 2 0.04 2 0.04
15-19 8 0.16 10 0.20
20-24 6 0.12 16 0.32
25-29 12 0.24 28 0.56
30-34 7 0.14 35 0.70
35-39 6 0.12 41 0.82
40-44 4 0.08 45 0.90
45-49 3 0.06 48 0.96
50-54 1 0.01 49 0.98
55-59 1 0.01 50 1
))))))))))))))))))))))))))))))))
Tabla 8.1
50
Y su correspondiente histograma:
Figura 8.1
Supongamos, por un momento, que la distribución mencionada hace

referencia a toda una población. Asimilaremos frecuencia relativa y
probabilidad, y en este caso la probabilidad de encontrar un sujeto con
puntuaciones comprendidas entre 14.5 y 19.5 será 0.16. Y la
probabilidad de que se encuentre entre 24.5 y 34.5 será la suma de las
frecuencias relativas de ambos intervalos, esto es: 0.24+0.14=0.38.
El recurso del histograma nos puede resultar útil. Si la altura de cada

rectángulo representa la frecuencia relativa asociada a cada intervalo,
y al mismo tiempo, convenimos en asignar a cada base de dichos
rectángulos el valor de la unidad, entonces podremos considerar el área
como una medida de probabilidad. Esto es:
Area = base*altura = 1*probabilidad = probabilidad
(8.1)
La suma de todas las probabilidades asociadas a los distintos

rectángulos valdrá 1 (100% de los sujetos). En consecuencia, podremos
determinar probabilidades calculando las áreas correspondientes a los
diferentes rectángulos. Este aspecto no tiene sentido para
distribuciones empíricas pero nos será especialmente útil cuando
operemos con modelos de probabilidad donde conocemos el proceso que
genera probabilidades pero desconocemos los valores empíricos de la
distribución.
Supongamos que aumentamos el número de observaciones del mencionado

ejemplo. Como la variable es continua podremos reducir el tamaño de los
intervalos, y por tanto, aumentar el número de los mismos. Tendremos,
51
ahora, un histograma de las siguientes características:
Figura 8.2
El procedimiento de cálculo de la probabilidad entre distintos valores

de la variable será la misma que antes: el área comprendida entre
dichos valores.
Supongamos ahora que trabajamos con todos los valores posibles de la

variable en cuestión mientras intentamos mantener al máximo la
continuidad de la variable. Tendremos en este caso infinitos
rectángulos infinitamente pequeños cada uno de ellos. El resultado será
una curva suave donde ha desaparecido el contorno escalonado de las
figuras 8.1 y 8.2. La probabilidad de que un sujeto se encuentre entre
dos valores cualesquiera será igualmente el área entre dichos valores:
Figura 8.3
52
Cómo calcular dicho área cuando disponemos del modelo de probabilidad
(pero no de datos concretos) será el objetivo del próximo apartado.
8.4.- Función de densidad de probabilidad
Digamos en primer lugar que cuando se trata de variables aleatorias

continuas no tiene sentido calcular la probabilidad para un valor
específico. Ya que tal valor en rigor ha de presentar una precisión
infinita será en consecuencia infinitamente pequeña la probabilidad
asociada a tal valor. Supongamos que nos preguntamos por la
probabilidad de encontrar un sujeto que mida 1.712345675432 metros. Es
evidente que será muy difícil encontrar sujetos que midan exactamente
esa cantidad. Y cuanto más aumentemos el número de decimales más
difícil lo tendremos. Cuando hablamos de la probabilidad de obtener un
sujeto, por ejemplo, de 1.70 metros (lo que nos parece más factible)
en realidad no nos referimos a 1.700000000000 metros, lo cual sería
igual de complicado que anteriormente. En realidad en este caso
queremos decir que estamos operando con una precisión de centímetros,
y que en consecuencia estamos dispuestos a admitir hasta un error de
1 centímetro. De esta forma, para sujetos de 1.70 metros aceptamos
personas entre 1.695 y 1.705 metros. Operamos para un intervalo de 1
centímetro.
Volvamos a la figura 8.3. Supongamos que disponemos de un número de

rectángulos suficientemente grande. Consideraremos que el área total
de la suma de todos estos rectángulos será una aproximación aceptable
al área correspondiente a la curva. Si cada rectángulo tiene una base
de longitud (xi-xi-1) y una altura f(xi), entonces, la suma de todas la
áreas de los diferentes rectángulos será:
n
Area total ' j f(x i)(xi & xi&1) (8.2)
i'1
Para el caso límite de figura 8.4 (infinitos rectángulos infinitamente

pequeños) esta expresión queda transformada de la siguiente manera:
53
n
lim j f(x i)(xi & xi&1) ' 4 f(x)dx
Area total ' n64 i'1 m&4 (8.3)
Se observa que las expresiones (8.2) y (8.3) son equivalentes. Hemos
sustituido el sumatorio j por el símbolo integral

m
, que es el
equivalente cuando operamos con funciones continuas. Igualmente hemos

sustituido el intervalo (xi-xi-1) por dx (léase diferencial de x) que es
precisamente ese intervalo cuando es infinitamente pequeño. Por otro
lado f(x) tiene el mismo sentido que anteriormente (ampliaremos este
concepto a continuación); esto es, hace referencia a la altura de cada
uno de estos infinitésismos rectángulos. Gráficamente:
Figura 8.4
Y de igual forma que anteriormente, si deseamos conocer la probabilidad

entre dos valores de la variable x, sea x1 y x2, tan sólo habremos de
determinar su área bajo la curva:
x2
mx1
P(x1# x # x2) ' f(x)d(x) (8.4)
54
Para el cálculo de las áreas correspondientes a funciones continuas se
hace necesario el recurso del cálculo integral. No obstante, hay que
decir que para las variables aleatorias más comunes, que son con las
que operaremos aquí (ley Normal, F de Snedecor, t de Student y Chi
cuadrado) ya vienen las áreas convenientemente tabuladas, por lo que
en la práctica no habremos de utilizar integrales.
Conviene, como nota final, hacer algunas consideraciones en torno a la

expresión f(x) que completen lo anteriormente expuesto. Esta expresión
f(x) se denomina función de densidad de probabilidad, por lo que
explicaremos. No es una probabilidad, como acabamos de comprobar. La
hemos considerado como la altura de los supuestos infinitos rectángulos
susceptibles de dividirse un determinado recinto curvo. También, si
respetamos la continuidad de la función es la ordenada para cada uno
de los valores de dicha función. Una interpretación factible, y que
aquí nos interesa, es entender, como hemos indicado, que el área bajo
la curva entre dos puntos dados -a y b- muestra la probabilidad entre
dichos valores. Hay contenida en ese recinto, digamos, una determinada
masa de probabilidad. Si dividimos toda esa masa de probabilidad por
la longitud de tal espacio obtendremos la densidad de dicha masa de
probabilidad en el intervalo definido por a y b; esto es, la masa de
probabilidad por unidad de longitud. Más precisamente, supongamos que
F(a) indica la probabilidad por debajo del punto a (su función de
distribución), e, igualmente, F(b), la probabilidad bajo el punto b.
Entonces, la masa de probabilidad por unidad de logitud será:
F(b) & F(a)

b&a
Hagamos ahora que a tienda hacia b, entonces:
lim F(b) & F(a)

a6b b&a
mostrará la densidad de probabilidad en el punto b. Obsérvese que este

valor es precisamente la derivada de la función F(b) en dicho punto;
esto es, f(b)=F'(b). Por tanto, f(b) hace referencia a la densidad de
probabilidad en el punto b. Y, en términos generales, para cualquier
valor de X, la expresión f(x) será precisamente la función de densidad
de probabilidad de la variable aleatoria X.
55
8.5.- Media de una variable aleatoria continua
Como se recuerda, la media (o esperanza matemática) de una variable

aleatoria discreta equivalía a la suma de todos sus valores por sus
probabilidades asociadas. Esto es:
N
µ ' E(X) ' j piX i
i'1
En el caso de las variables aleatorias continuas es exactamente igual.

Habremos de multiplicar los valores que adopte dicha variable por sus
probabilidades asociadas. Si operamos con la variable X cuyas
probabilidades asociadas son f(x)dx, tendremos:
4
m&4
µ ' E(X) ' f(x) x dx (8.5)
8.5.- Varianza de una variable aleatoria continua
Igual que anteriormente, hemos definido como varianza de una variable

aleatoria discreta el producto de las desviaciones cuadráticas respecto
a la media por su probabilidades correspondientes:
N
σ2 ' j p iXi2 & µ2
i'1
Sustituyendo las probabilidades p(xi) por f(x)dx, de significado

equivalente:
4
m&4
σ2 ' f(x)(x & µ)2 dx (8.6)
O bien la siguiente expresión alternativa, más sencilla:
4
m&4
σ2 ' E(X 2) & [E(X)]2 ' f(x)(x 2) dx & µ2 (8.7)
56
No obstante, como hemos indicado anteriormente, en este texto no
tendremos necesidad de utilizar integrales, por cuanto las variables
continuas que estudiaremos dispondrán de su correspondiente tabla donde
vendrán indicadas las funciones de densidad asociadas así como sus
medias y varianzas.
En sucesivos capítulos se irán tratando algunas de las distribuciones

de variable aleatoria continua más usuales en ciencias humanas. Por el
momento nos limitaremos a estudiar la distribución más conocida: la
distribución normal.
8.6.- La distribución normal de probabilidad
Como acabamos de indicar las variables aleatorias que siguen una ley
normal de probabilidad son las más frecuentemente utilizadas en
estadística. Hace referencia a multitud de fenómenos que presentan sus
máximas frecuencias en torno a los valores promedios de la
distribución, yendo tales frecuencias disminuyendo progresivamente
conforme se alejan sus valores de dichos promedios. Por ejemplo, la
mayor parte de las variables de tipo biológico (peso, estatura, presión
sanguínea ..etc), así como las variables de tipo psicológico (memoria,
inteligencia, tiempo de reacción ..etc) siguen distribuciones normales.
Tomemos, como referencia la estatura. La mayor parte de las personas
tienen valores próximos a la media, sea 1.70, siendo más infrecuentes
las estaturas cuanto más alegadas estén de dicho promedio. De una forma
gráfica la distribución normal tiene la siguiente configuración:
Figura 8.5
57
Esta distribución fue desarrollada por Carl Friedrich Gauss (1777-1855)
y por su forma acampanada es denominada frecuentemente como campana de
Gauss. Aunque en honor de la verdad hay que decir, que esta
distribución ya fue descrita gráficamente (sin su ecuación
correspondiente) con anterioridad por De Moivre estudiando algunos
juegos de azar.
Su función de densidad es:
1 x&µ 2
1 &
f(x) ' e 2 σ
(8.8)
σ 2π
Se observa que a excepción del número π y del número e que son valores
constantes en la ecuación, ésta depende de µ y σ que nos indican la
medida de posición y de dispersión respectivamente. Ya que estos valores
pueden variar de una distribución a otra más que hablar de la
distribución normal hemos de hacerlo de una familia de distribuciones
normales, cada una con su media y su varianza correspondiente. Así las
mostradas a continuación son todas distribuciones normales con distintas
medias y varianzas:
Figura 8.6
58
En consecuencia, cada distribución normal queda definida por su media
y su varianza. Son los parámetros (valores poblacionales) que
caracterizan dicha distribución. De esta forma, para indicar que una
determinada variable aleatoria X sigue una ley de distribución normal
de media µ y varianza σ2 lo expresaremos formalmente como:
X 0 N(µ,σ)
donde el símbolo 0 significa "pertenece a".
Por último, merece la pena dedicar algunas líneas a justificar la

configuración expuesta de la curva normal. De la ecuación (8.8) se
deduce que la curva normal ha de ser simétrica. Si observamos el valor
al que está elevado el número e veremos que es la constante -1/2
multiplicada por (X-µ)/σ elevado al cuadrado. De ello se deduce que los
valores en la ordenada son los mismos para equivalentes valores de (X-µ)
al margen del signo que tengan. De esta simetría se deduce que media y
mediana coinciden. Por otro lado, el número e está elevado a una
cantidad negativa. En consecuencia, el valor máximo de la ordenada será
cuando el exponente de e sea -0. Esto ocurre cuando X=µ. Este valor es
único y se encuentra en el centro de la distribución. Esta
consideración, junto a la comentada anteriormente, demuestra que media,
media y moda (valor máximo) coinciden. Podemos comprobar igualmente que
la curva es asintótica al eje de las abscisas. Cuanto mayor es la
distancia de X a la media mayor será el exponente de e, con el signo
negativo, y por tanto menor será la ordenada, sin llegar nunca a ser 0
por muy alejado que esté el valor de X de la media.
8.7.1.- Cálculo de probabilidades en distribuciones normales
Como se ha indicado podemos asimilar área a probabilidad. Si al total

del área bajo la curva le asignamos el valor de la unidad, el cálculo
de cualquier recinto comprendido entre dos valores cualesquiera
coincidirá con la probabilidad de obtener valores dentro de dicho
intervalo. Por ejemplo, supongamos que disponemos de la distribución de
las estaturas, que siguen una ley normal, cuya media sea 170 cms. El
gráfico tendrá las siguientes características:
59
170
Figura 8.7
Cualquier área solicitada podrá ser calculada, en principio, mediante

el recurso de las integrales. Supongamos que las estaturas se
distribuyen según una ley normal de media 170 cms y desviación tipo 6
cms. Si nos cuestionamos la probabilidad de que un sujeto mida entre 170
y 175 cms, podrá ser calculada aplicando la expresión (8.4). Así:
1 x&170 2
1 &
m170
175
P(170 # x # 175) ' e 2 6
dx
6 2π
Decimos "en principio" porque aunque nada impide utilizar este recurso,
es evidente que se trata de un procedimiento un tanto engorroso, por
cuanto el desarrollo de integrales no siempre es fácil. Más útil resulta
recurrir a unas tablas donde alguien se ha tomado la molestia de
calcular las áreas correspondientes a los diferentes recintos que se nos
pueden plantear en una curva normal.
Nos preguntaremos cuántas tablas y cómo deberán ser estas tablas.

Digamos, en relación a la primera pregunta que con una tabla es
suficiente. No es necesario una tabla para cada una de las potenciales
variables distribuidas según una ley normal, ya que si todas ellas, al
ser normales, tienen la misma configuración, con una de ellas que se
tome como referencia será suficiente. Tan sólo necesitaríamos conocer
las equivalencias entre las puntuaciones de la variable que se toma como
referencia y las restantes variables, lo cual puede realizarse mediante
la transformación correspondiente. Para aclarar estas ideas supongamos
que disponemos de las siguientes variables con sus respectivas medias
y desviaciones tipo:
60
Variable media des. tipo
S)))))))))))))))))))))))))))))))))))Q
Estatura 170 cms 4 cms
Peso 70 kgs 5 kgs
Inteligencia 100 C.I. 15 C.I.
T. Reacción 0.10 ss 0.02 ss
S)))))))))))))))))))))))))))))))))))
Tabla 8.2
Podemos tomar una de ellas como referencia, por ejemplo el peso.

Elaboraremos una tabla que nos relacione los pesos con sus
probabilidades asociadas y, a continuación, si deseamos conocer las
probabilidades referidas a cualquier otra variable tan sólo habremos de
transformar la variable en cuestión en la variable peso, y operar con
las tablas.
No obstante, más útil que tomar como referencia una variable específica
sobre la que se realiza la transformación, definiremos la tabla sobre
la variable que resulta de efectuar la siguiente transformación:
X&µ
Z '
σ
Como se sabe, la variable obtenida es la variable tipificada o

estandarizada. La transformación (restar una constante y dividir por
otra constante) no altera su configuración sino tan sólo la escala.
Dicha transformación, que denominaremos tipificación, al aplicarse sobre
cualquier variable, dará lugar a una nueva variable de media 0 y
varianza 1, como podemos comprobar:
X&µ 1 1
E (Z) ' E ' E(X) & µ ' (µ & µ) ' 0
σ σ σ
(8.9)
X&µ 1 1 2
var (Z) ' var ' var (X) ' σ ' 1
σ σ2
σ2
Como consecuencia, la nueva distribución N(0,1) seguirá una ley normal

que denominaremos reducida (estandarizada o tipificada). En el futuro
61
recurriremos a esta distribución como punto de referencia. Para ello,
transformaremos cualquier variable X en su Z correspondiente, y a
continuación, manejaremos la tabla sobre estos valores Z a sabiendas que
los recintos bajo la curva de la variable tipificada son los mismos que
los correspondientes valores de la variable original.
Tomemos como referencia, a este respecto, las distribuciones expuestas

en la tabla 8.2. Observamos que el recinto entre 170 y 174 cms es el
emismo que el existente entre 70 y 75 kilos, así como entre 100 y 115
puntos de C.I. y 0.10 y 0.12 segundos en tiempo de reacción. Es el mismo
recinto que entre 0 y 1 en puntuaciones tipificadas:
+)))))))))))))))))))))))))))))))))))))))))))))))))))))))),
* *
* *
* *
* *
* *
* *
* *
* *
* *
* *
* *
* *
* *
* *
* *
* *
* 170 174 *
* 70 75 *
* 100 115 *
* 0.10 0.12 *
.))))))))))))))))))))))))))))))))))))))))))))))))))))))))-
Figura 8.8
De hecho, si todas estas variables fueran tipificadas el resultado final

sería 0 y 1. Tomemos, por ejemplo, la inteligencia:
X1 &µ 100&100
Z1 ' ' ' 0
σ 15
X2 &µ 115&100
Z2 ' ' ' 1
σ 15
62
De esta forma, concluiremos que:
P(100 # x # 115) ' P(0 # Z # 1)
Una vez que sabemos que la probabilidad de que un sujeto obtenga

puntuaciones entre 100 y 115 en inteligencia equivale a la probabilidad
de obtener una puntuación tipificada comprendida entre 0 y 1, basta con
recurrir a la tabla de la ley normal tipificada. Comprobamos (lo
explicamos en el próximo aparatado) que el área contenida entre 0 y 1
es 0.3413. En consecuencia:
P(100 # x # 115) ' P(0 # Z # 1) ' 0.3413
8.7.2.- Manejo de la tabla normal tipificada
Digamos, en primer lugar, que existen numerosas tablas diferentes

utilizadas para el cálculo de probabilidades en distribuciones normales
tipificadas. Cada una de ellas se sirve de un criterio distinto en la
determinación de los intervalos a alegir. La tabla que expondremos aquí,
es la más conocida, y se caracteriza por ofrecer la probabiidad de que
la variable tipificada se encuentre comprendida entre su media y
cualquier valor positivo de ella:
0 Z
Figura 8.9
63
Por ejemplo, si nos preguntan por la probabilidad de obtener un valor
Z comprendido entre 0 y 1.23, buscaremos en las tablas y obtendremos el
valor 0.3906. Por tanto:
P(0 # Z # 1.23) ' 0.3906
0 1,23
Figura 8.10
Aunque dicha tabla no opera con valores negativos de la variable

tipificada (parte inferior de la curva), no es problema, ya que al ser
la curva simétrica el área comprndida entre 0 y cualquier valor -Zi es
la misma que entre 0 y el valor positivo Zi. Así, si nos preguntásemos
por la probabilidad de obtener valores comprendidos entre 0 y -1.23,
sería igual que anteriormente:
P(&1.23 # Z # 0) '
P(0 # Z # 1.23) ' 0.3906
-1,23 0
Figura 8.11
64
Y por la misma razón de simetría aludida sabremos que cada una de las
partes de la curva comprende un área cuyo valor es 0.5. Esta
característica la podemos aprovechar convenientemente para calcular
probabilidades por encima o por debajo de unos valores dados. Por
ejemplo, supongamos que nos solicitan la probabilidad de obtender una
valor de Z superior a 1.23:
P(Z $ 1.23) ' 0.5 & P(0 #Z # 1.23) '

' 0.5 & 0.3906 ' 0.1094
Figura 8.12
O bien la probabilidad de obtener una Z inferior a 1.23:
P(Z # 1.23) ' 0.5 % P(0 # Z # 1.23) '

' 0.5 % 0.3906 ' 0.8936
0 1,23
Figura 8.13
65
Veamos a continuación algunos ejemplos que ilustran lo expuesto.
Ejemplo 8.7.- Aplicada una prueba de reacciometría visual a una cierta

población, se ha obtenido (medida en centésimas de segundo), una media
de 18 puntos y una desviación tipo de 4. Suponiendo que dicha variable
se distibuye según una ley normal en la población, calcular:
a) Probabilidad de que un indivíduo obtenga una puntuación comprendida

entre 17 y 21 puntos.
b) Probabilidad de que un sujeto obtenga una puntuación igual o

superior a 20.
c) Probabilidad de que un sujeto obtenga una puntuación igual o

inferior a 23 puntos.
a) El área solicitada es:
17 18 21
Figura 8.14
Tipifiquemos ambas puntuaciones:
66
X1 &µ 17&18
Z1 ' ' ' &0.25
σ 4
X2 &µ 21&18
Z2 ' ' ' 0.75
σ 4
Por tanto:
P(17 # x # 21) ' P(&0.25 # Z # 0.75) ' 0.0987 % 0.27335 ' 0.37205
b) Nos piden:
18 20
Figura 8.15
Tipifiquemos:
X&µ 20 & 18
Z ' ' ' 0.5
σ 4
Luego:
P(20 # x # 4) ' P(0.5 # Z # 4) ' 0.5 & 0.19141 ' 0.30859
c) El área correspondiente es:
67
18 23
Figura 8.16
Tipificando la variable:
X&µ 23 & 18
Z ' ' ' 1.25
σ 4
En consecuencia:
P(4 # x # 23) ' P(4 # Z # 1.25) ' 0.5 % 0.3943 ' 0.8943
8.7.3.- Ley normal y distribuciones afines
El verdadero interés de la ley normal no reside en el hecho de que

algunas variables se distribuyan en la población de acuerdo con esta
ley. Su importancia radica fundamentalmente en que la mayor parte de
los estadísticos obtenidos de distintas variables (medias,
proporciones, diferencias de medias y diferencias de proporciones) se
distribuyen, en el muestreo, según leyes normales aunque tales
variables no lo hagan en la población. Esta circunstancia proporciona,
como tendremos ocasión de comprobar, una base sólida al problema de la
inferencia estadística.
Comencemos con las variables cuantitativas. Cualquier variable con la

que operemos, sea cuantitativa continua o bien, discreta, sea cual
fuere su distribución a nivel poblacional, si calculamos la media de
distintas muestras extraídas de la población origen, esta medias sí se
distribuirán según una ley normal (para un tamaño suficientemente
grande de n). Supongamos que en una determinada población la renta per
capita es claramente asimétrica (muchos con rentas bajas y pocos con
rentas altas) obteniendo la siguiente distribución:
68
Figura 8.17
Estraigamos muestras de tamaño n>30 de dicha población, y en cada una

de ellas calculemos la media de renta. Observaremos que la distribución
formada por estas medias seguirá una ley normal de media µ y varianza
σ2/n, como tendremos ocasión de demostrar. Así:
Distribución muestral
σ2=σ2pob/n
Población
Figura 8.18
Vayamos ahora al caso más desfavorable: las variables cualitativas.

Está claro que tales variables no se distribuyen según una ley normal.
Supongamos que elegimos la variable sexo. En la población tendremos la
siguiente distribución:
69
0,6
0,5
0,4
0,3
0,2
0,1
0
varon mujer
Figura 8.19
Pues bien, si definimos la variable proporción de varones (o de

mujeres), y elegimos muestras de tamaño n extraídas de dicha población,
calculando en cada una de estas muestras la proporción de varones
presentes, tendremos que la distribución (muestral) de estas
proporciones sí presentan una distribución normal (para un tamaño
suficiente de n), con media la proporción poblacional p y varianza
p*q/n, como comprobaremos más adelante. De esta forma:
Distribución muestral
Población
σ2=p*q/n
0,6
0,5
0,4
0,3
µ= p
0,2
0,1
0
varon mujer
Figura 8.20
Esta circunstancia -distribuciones normales a partir de poblaciones que
70
no lo son- es de extraordinario interés. Ha sido formulado
matemáticamente como el teorema central del límite o más sencillamente
teorema de la aproximación normal y puede expresarse en los siguientes
términos:
Toda población de media µ y varianza σ2 (finita), a medida que

aumenta el tamaño de las muestras la distribución muestral de
medias tenderá a una distribución normal con media µ y varianza
σ2/n
Tales consideraciones son válidas para el caso de las proporciones, ya

que éstas puden entenderse como variables con dos valores 0 y 1. Y por
otro lado, podremos generalizar este teorema para las distribuciones
muestral de diferencia de medias (y proporciones), de gran utilidad en
la teoria de la decisión estadística.
8.7.3.1.- Distribución muestral de medias
Tengamos una supuesta población de media µ y varianza σ2. Extraigamos

muestras de tamaño n y calculemos en cada una de ellas su media
correspondiente. La distribución muestral de las medias obtenidas
tendrá de media la media poblacional µ y por varianza σ2/n. Esto es,
en relación a la media (o esperanza matemática):
X1 % X2 % ÿ % Xn 1
‾ ' E
E(X) ' E (X1) % E (X2) % ÿ % E (X n) '
n n
(8.10)
1 1
' µ % µ % ÿ % µn ' (nµ) ' µ
n 1 2 n
Y en relación a la varianza:
X1 % X2 % ÿ % X n 1
‾ ' Var
Var (X) ' Var (X1) % (X2) % ÿ % (X n) '
n n2
(8.11)
1 1 Var (X)
' Var (X1) % Var (X2) % ÿ % Var (Xn) ' n ( Var (X) '
n2 n2 n
71
8.7.3.2.- Distribución muestral de proporciones
Comenzaremos considerando la proporción como una media cuando la

variable observada adopta dos valores: 0 y 1. De esta forma -las
variables cualitativas como cuantitativas- mostraremos con las
proporciones un tratamiento equivalente al expuesto en el apartado
anterior con respecto a las medias. Utilizaremos los mismos conceptos
para ambos tipos de variables, logrando con ello un planteamiento
único, y por tanto, más sencillo.
Supongamos que en una determinada muestra de 10 sujetos, a la pregunta:

¿Es usted fumador?, obtenemos las siguientes respuestas:
NO, SI, NO, SI, NO, NO, NO, NO, SI, SI
Observamos 4 fumadores. En consecuencia, la proporción de fumadores

será 0.4. Supongamos, ahora, que definimos la variable X en los
siguientes términos:
1: Fumador
0: No fumador
Esto es, en relación a la variable Fumar, el valor 1 indica presencia

y el valor 0, ausencia. Es una forma un tanto peculiar de cuantificar,
pero que tiene su lógica, ya que no fumar en términos cuantitativos
equivale al cero, y fumar, es ya una cierta cantidad, que en ausencia
de más información (cuanto fuma) le podemos dar un valor arbitrario,
como la unidad, aunque nada impediría darle cualquier otro valor.
Esta forma de codificación se denomina codificación dummy. El resultado

es una variable dummy, que podemos traducirla en castellano como
variable ficticia, por cuanto no es una variable genuinamente
cuantitativa, sino que se hace pasar por ella.
Pues bien, supongamos que en base a esta nueva codificación deseamos

calcular la media de esta variable. Tendremos que:
n
jX 0 % 1% 0 % 1 % 0 % 0 % 0 % 0 % 1 % 1
i'1
X‾ ' ' ' 0.4 ' p
n 10
Se comprueba que al cuantificar como 1 el hecho de ser fumador, en el
72
numerador de la expresión anterior, el valor total será el número de
fumadores. Como el denominador el es total de sujetos, el resultado
será precisamente la proporción de fumadores. En consecuencia, la media
equivale a la proporción. Veamos, ahora, que ocurre con la varianza:
n n
j X&X‾ jX
2 2
S2 ' i'1
' i'1
&X‾2 ' p&p 2 ' p(1&p) ' p(q
n n
(Obsérvese que los valores de X2 equivalen a los valores de X, ya que

12 y 02 permanecen iguales a 1 y 0 respectivamente).
Vayamos, ahora, al concepto de distribución muestral de proporciones.

En base a lo expuesto, y conviniendo en adoptar letras griegas para los
parámetros (π en lugar de p), la media y la varianza de dicha
distribución tendrán los siguientes valores:
E(X) ' µ ' π

σ2 π(1&π) (8.12)
Var(X) ' '
n n
8.7.3.3.- Aplicaciones en la teoría de la decisión estadística
Como se recordará, en el capítulo 7 hubo una primera aproximación a la

toma de decisiones estadísticas basadas en la distribución binomial.
Ahora, ampliaremos estas consideraciones al ámbito de la distribución
normal, de mayor aplicación. En este sentido, las ideas que
desarrollaremos aquí son básicamente las mismas que entonces. Si
retomamos la figura 7.4 observaremos que definimos dos zonas: una
primera zona de una gran probabilidad de ocurrencia (zona de aceptación
d la H0), y una segunda zona, con una escasa probabilidad de ocurrencia
(zona de rechazo de la H0). Una figura equivalente a ésta en el
contexto de la distribución normal será:
73
Rechazo H0 Aceptación H0 Rechazo H0
Figura 8.21
cuya interpretación es similar a la de entonces. Tiene especial

relevancia en su aplicación sobre las distribuciones muestrales (de
medias, proporciones, diferencia de medias y diferencia de
proporciones). Aquí nos limitaremos, por el momento, a operar en base
a los contenidos expuestos (distribuciones muestrales de medias y
proporciones). En los próximos capítulos (teoría de la estimación y de
cisión estadística) se generalizarán estas ideas a otros contextos.
En la figura 7.4 la zona de aceptación comprendía al 97.84% de los

casos, y la zona de rechazo al 2.16% restante. El riesgo asumido
entonces, era de 0.0216, ya que esta proporción de veces marcaba la
probabilidad de equivocarnos al rechazar la H0. Pero no hay ninguna
razón especial para asumir este riesgo. Otros riesgos posibles, como
0.03 o 0.04 podría igualmente ser válidos. Normalmente, por convenio,
se opera con dos tipos de riesgos: 0.05 o 0.01, según el grado de
certeza que deseemos adoptar. Por tanto, por el momento, podemos operar
con dos posibles valores de α; esto es, α=0.05 y α=0.01.
En lo que sigue desarrollaremos algunos ejemplos equivalentes a los

expuestos en el capítulo 7 (ejemplos 7.10 y 7.11) donde se resolvían
cuestiones de decisión estadística, aunque como ya hemos dicho, será
en los próximos capítulos donde se tratarán in extenso estos aspectos.
74
Ejemplo 8.1.- Supongamos que en la academia Fullinglis, con 40 años de
experiencia en la enseñanza del inglés, los 10000 alumnos matriculados
en ella obtuvieron en el examen de proficiency la calificación de 5.3
puntos por término medio, con una desviación tipo de 1.2 puntos. En el
presente curso se introduce un nuevo método de enseñanza en una de las
aulas, compuesta por 50 alumnos, logrando dichos alumnos en el examen
final, una puntuación de 5.6 puntos. ¿Qué puede decirse del nuevo
método de enseñanza?.
SOL:
Se supone que la media de 5.3 y la desviación tipo de 1.2 se

refieren a la población (los 10000 alumnos). Esto supuesto, la
distribución muestral de medias de muestras de tamaño 50, extraídas de
dicha población tendrá de media 5.3 y desviación tipo:
σ 1.2
σx‾ ' ' ' 0.21
n 50
Observamos, por otro lado, que el promedio obtenido mediante el nuevo

método de enseñanza, de 5.6 puntos, se aleja 0.3 puntos de la media
poblacional, de 5.3 puntos. En puntuaciones tipificadas:
5.6 & 5.3

Z ' ' 1.41
0.21
Suponiendo, de acuerdo con la H0, que la media observada en la muestra

pertenece a la población definida por 5.3 puntos, la probabilidad de
obtener valores que se alejen 0.3 puntos o más será:
P(5.3$X$5.6) ' P(&1.41$Z$1.41) ' 2(0.0793 ' 0.1586
Si tomamos como referencia un valor de α=0.05, observaremos que

0.1586>0.05. En consecuencia consideraremos que la probabilidad de
obtener una media muestral que se aleje de la media poblacional en 0.3
o más puntos es bastante probable. Por tanto, concluiremos que la media
obtenida por el nuevo método de enseñanza del inglés pertenece a la
población definida por el método tradicional impartido en los últimos
40 años. El nuevo método no es, pues, diferente al tradicional.
75
Ejemplo 8.2.- Un determinado sujeto afirma ser capaz de adivinar el
sexo de un niño antes del nacimiento. Supongamos que las probabilidades
de nacimiento de niño y de niña son iguales. Si dicho sujeto, operando
sobre una muestra de 100 embarazos acertó en 60 de ellos, ¿puede
afirmarse que dispone de tal capacidad?.
SOL:
Vamos a plantear esta prueba en términos unilaterales; esto es,

calcularemos la probabilidad de acertar 60 embarazos más de cada 100,
desde la hipótesis que el sujeto no acertaría más que lo que indicaría
el puro azar. En este supuesto la proporción de aciertos, por término
medio, será del 50%. Y la desviación tipo para muestras de tamaño 100:
π((1 & π) 0.5(0.5

σp ' ' ' 0.05
n 100
En la distribución muestral de proporciones, el valor 0.6 se encuentra

alejado de la media las siguientes desviaciones tipo:
0.6 & 0.5

Z ' ' 2
0.05
El área que queda por encima es:
P(Z $2 ) ' 0.028
Esto es, desde el supuesto que el sujeto responde por azar, la

probabilidad de que tuviera 60 aciertos de 100 es 0.0228. Si operamos
con un valor de α=0.05, tenemos que 0.0228<0.05, y en consecuencia,
podemos concluir que dicho sujeto es capar de acertar el sexo de los
niños (con un riesgo de 0.0228, que es la probabilidad de que acierte
tal cantidad por azar).
76

Teoria Probabilidad

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Teoria Probabilidad

Cargado por

Copyright:

Formatos disponibles

APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD

Tema VI. Introducción a la teoría de la probabilidad

6.1.- Introducción ................................................................................................................................. 1

Tema VII. Variables aleatorias y modelos de probabilidad (I): El caso discreto

7.1.- Introducción ............................................................................................................................... 25

Tema VIII. Variables aleatorias y modelos de probabilidad (II): El caso continuo

8.1.- Introducción ............................................................................................................................... 50

En los capítulos anteriores hemos ofrecido técnicas para estudiar de

Es evidente el interés de lo que estamos exponiendo. Supóngase que

Abundando en lo que estamos diciendo, y a título exclusivamente

Es importante destacar el papel primordial de la teoría de la

En los próximos apartados intentaremos ofrecer una visión comprensiva

6.2.- Concepto de probabilidad

Digamos en primer lugar que, aunque el término probabilidad es

La teoría de las probabilidades hunde sus raíces en los juegos de azar,

La primera definición de probabilidad, atribuida a Laplace (1749-1827),

Por ejemplo, si un dado tiene seis lados, la probabilidad de obtener

Esta definición implica algunos supuestos que pueden ser evidentes en

Pero esta definición de probabilidad puede resultar engañosa. Por las

La probabilidad de dicho acontecimiento es 0.51. No hay una gran

De una manera formal diremos que la probabilidad de un determinado

Debe entenderse que el concepto aquí utilizado de "límite" no es el

La característica fundamental de la definición empírica de la

La consideración de la probabilidad basada en la definición empírica

Supongamos que incrementamos ahora el número de observaciones, sean

Ahora, incrementamos esta cantidad hasta 3000, obteniendo 810 sujetos

La consideración empírica de la probabilidad mejora considerablemente

A pesar de ello, la definición empírica presenta algunos

Vistas estas deficiencias, hoy en día se ha propuesto una nueva

De cualquier manera, y al margen de los diferentes intentos por

En lo que sigue nos introduciremos en el manejo del cálculo de las

6.3.- Probabilidades simples

Ofreceremos algunas definiciones relacionadas con la probabilidad de

La frecuencia relativa de un suceso A oscila entre cero y uno. Esto es:

Esta propiedad es evidente si entendemos f(A) como NA/N. Como máximo

Por contra, si de N veces no se presenta ninguna, su cociente valdrá

Ejemplo 6.1.- Determinar la probabilidad al extraer una carta de la

a) Solo hay un único caso de los 40 posibles que cumpla esta

b) Hay cuatro caballos en la baraja española. Así pues:

Ejemplo 6.2.- Según datos de la Consejería de Educación y Ciencia, los

Esto supuesto, determinar la probabilidad: a) que un alumno

a) Su frecuencia relativa al nivel de la población andaluza será:

b) Y la probabilidad de que no sea malagueño:

6.4.- Probabilidades totales

Frecuentemente los sucesos no se presentan aislados sino que se

Ciertas cuestiones obedecen a la pregunta "probabilidad de suceder tal

Comencemos, pues, por la probabilidades totales. A este respecto,

Ejemplo 6.3.- Calcula la probabilidad de que al extraer una carta del

Se observa en este ejemplo que no se puede extraer una sota y un rey

En el caso que operemos con dos sucesos A y B, que no se excluyen

P(A o B) ' P(A) % P(B) & P(AB) (6.8)

donde P(AB) hace referencia a la probabilidad de que suceda A y B

Ejemplo 6.4.- Calcular la probabilidad de obtener al extraer una carta

Tenemos un rey de copas. Por tanto:

P(A ^ B) ' P(A) % P(B) & P(A _ B) (6.9)

Tiene interés plantearlo desde la perspectiva de la teoría de conjuntos

6.5.- Probabilidades compuestas

Hemos visto la probabilidades totales, donde se trata la probabilidad

Ahora nos preguntamos, genéricamente, por la probabilidad de ocurrencia

Las probabilidades compuestas obedece a preguntas donde se encuentra

6.5.1.- Sucesos independientes

P(AB) ' P(A) ( P(B) (6.10)

Ejemplo 6.5.- Calcular la probabilidad de obtener dos caras en el