TeoriaDeLaProbabilidad V2022

Teoría de la Probabilidad
en Ciencias del Comportamiento
Adolfo López Suárez
2022
2
Part of our knowledge we obtain direct; and part by argument. The

Theory of Probability is concerned with that part which we obtain by
argument, and it treats of the different degrees in which the results
so obtained are conclusive or inconclusive. In most branches of
academic logic, such as the theory of the syllogism or the geometry
of ideal space, all the arguments aim at demonstrative certainty.
They claim to be conclusive. But many other arguments are rational
and claim some weight without pretending to be certain. In
Metaphysics, in Science, and in Conduct, most of the arguments,
upon which we habitually base our rational beliefs, are admitted to
be inconclusive in a greater or less degree. Thus for a philosophical
treatment of these branches of knowledge, the study of probability
is required.
The course which the history of thought has led Logic to follow has
encouraged the view that doubtful arguments are not within its
scope. But in the actual exercise of reason we do not wait on
certainty, or doom it irrational to depend on a doubtful argument. If
logic investigates the general principles of valid thought, the study
of arguments, to which it is rational to attach some weight, is as
much a part of it as the study of those which are demonstrative1.
Keynes (2014)
Contacto
Adolfo López Suárez
Psicólogo, investigador titular del Instituto de
Estudios sobre la Universidad y profesor de la
Facultad de Ciencias de la Conducta de la
Universidad Autónoma del Estado de México.
adolfolopezsuarez@yahoo.com.mx
1
Una parte de nuestro conocimiento la obtenemos directamente y otra parte mediante argumentos.
La teoría de la probabilidad se interesa en aquella parte que obtenemos mediante argumentos y trata
de establecer el grado en que los resultados que obtenemos son o no concluyentes. En la mayoría
de las ramas de la lógica académica, tales como la teoría de silogismos o la geometría de espacios
ideales, todos los argumentos tienden a la certeza demostrativa. Afirman ser concluyentes. Pero
muchos otros argumentos son racionales y reclaman cierto peso, sin pretender la certeza. En
metafísica, en ciencia y en la conducta, la mayoría de los argumentos en los que habitualmente
basamos nuestras creencias racionales admiten ser inconcluyentes en mayor o menor medida. En
consecuencia, para tratar filosóficamente con estas ramas del conocimiento se requiere del estudio
de la probabilidad.
En el desarrollo histórico del pensamiento, la lógica ha tendido a privilegiar el punto de vista de que
los argumentos que no son seguros deben quedar fuera de su ámbito. Sin embargo, en el
razonamiento real no esperamos certeza ni condenamos como irracional confiar en un razonamiento
del que se puede dudar. Si la lógica investiga los principios generales del pensamiento válido,
entonces el estudio de los argumentos a los que se puede asignar algún peso es objeto de su estudio,
tanto como aquellos que son demostrativos. (Traducción del autor).
Teoría de la Probabilidad en Ciencias del Comportamiento Adolfo López Suárez

3
Contenido
Presentación........................................................................................................ 4
Objetivos de aprendizaje .................................................................................... 7
Estructura del banco de reactivos ....................................................................... 8
Evaluación del aprendizaje ................................................................................ 9
Sugerencias....................................................................................................... 10
Estructura conceptual ....................................................................................... 12
Términos clave ................................................................................................. 13
Lección 1. Historia del azar ............................................................................. 14
Lección 2. La definición de probabilidad ........................................................ 25
Lección 3. Axiomas.......................................................................................... 32
Lección 4. El espacio muestral......................................................................... 36
Lección 5. Técnicas de conteo ......................................................................... 43
Lección 6. Distribuciones de probabilidad ...................................................... 48
Lección 7. Probabilidad Condicional ............................................................... 59
Lección 8. Lo teórico y lo empírico ................................................................. 68
Lección 9. Distribución normal........................................................................ 75
Lección 10. Normalización psicométrica gaussiana ........................................ 81
Lección 11. Elementos de muestreo................................................................. 92
Epílogo ........................................................................................................... 103
Notación ......................................................................................................... 105
Tabla de la distribución normal...................................................................... 106
Respuestas a los ejercicios ............................................................................. 107
Bibliografía..................................................................................................... 142

4
Presentación
Desde los primeros acercamientos realizados a finales de la Edad Media hasta su
axiomatización en la primera mitad del siglo XX, la teoría de la probabilidad ha
evolucionado desde constituir una rareza matemática interesada en analizar los
juegos de azar hasta convertirse, ya en el siglo XXI, en una herramienta
indispensable para las ciencias, incluidas la física, la química y la biología,
disciplinas que alguna vez se pensó que podrían llegar a ser estrictamente
deterministas. Ahora, si pensamos en las ciencias del comportamiento, basta con
revisar el desarrollo histórico de la psicología, la sociología y la antropología −por
solo mencionar tres− para encontrar que fue la aplicación de la probabilidad y la
estadística lo que permitió a pioneros de los siglos XVIII y XIX y a sus sucesores
construir las ciencias del comportamiento, tal como hoy se las concibe.
De este modo, el estudio de la probabilidad −junto con la estadística− constituyen
hoy las bases matemáticas de la formación del científico de la conducta. Si se
acepta que no hay ciencia alguna que pueda prescindir del pensamiento
matemático, entonces habrá que concluir que el estudio científico del
comportamiento no puede prescindir de la estadística y de la probabilidad. Nos
atrevemos a decir más: ninguna ciencia contemporánea puede prescindir hoy de la
estadística y la probabilidad.
Sin embargo, décadas de experiencia docente nos han hecho ver la renuencia a un
estudio serio de estas ramas de la matemática en la formación de profesionales de
la conducta, resistencia que probablemente pueda explicarse por un temor
adquirido al pensamiento lógico-matemático (producto éste de una deficiente
didáctica en la educación básica) y de su consecuente desconocimiento. Basta con
revisar los planes de estudio vigentes en licenciatura para convencerse de que el
estudio de la probabilidad se limita a unos pocos temas agregados a un curso de
estadística, o de plano está ausente. Esto, por supuesto, es insuficiente para
desarrollar en el profesional de las ciencias del comportamiento un pensamiento
probabilista, indispensable para una concepción científica de su objeto de estudio,
más allá del paradigma teórico o filosófico que adopte. Así podría explicarse que,
por ejemplo, no pocos profesionales del comportamiento se limiten a utilizar las
tablas de normas incluidas en los instrumentos psicométricos para basar en ellas el
diagnóstico y la toma de decisiones, sin saber de dónde salieron y menos aún
atreverse a construir normas válidas para la población concreta con la que trabajan.
El propósito de este libro consiste en proponer una herramienta que permita al
maestro conducir, y al alumno estudiar, sistemáticamente un curso básico de
probabilidad aplicada las ciencias del comportamiento en el nivel profesional, de
forma que logre desarrollar las competencias necesarias para comprender e
interpretar medidas psicológicas y emitir diagnósticos fundamentados; en general,
para comprender al comportamiento de los organismos vivos como lo que es, como
un fenómeno aleatorio. Para ser congruente con este objetivo, en este libro se
reducen los formalismos matemáticos a lo estrictamente necesario, privilegiando la
claridad conceptual y la aplicabilidad, que es lo que más puede importar a los

5
especialistas en el comportamiento.
En principio, como complemento para facilitar el estudio de las lecciones, se
presentan cuatro secciones breves, pero de gran importancia. Primero se enuncian
los objetivos de aprendizaje que resumen las competencias que deberán evaluarse
luego del estudio de las lecciones. Después se presenta una serie de sugerencias
dirigidas tanto al maestro como a los alumnos para utilizar eficientemente este libro.
En tercer lugar, una estructura conceptual que puede ayudar a conformar
paulatinamente una Gestalt durante el estudio del curso. Por último, se presenta
una tabla de términos clave que el estudiante deberá ser capaz de definir con
precisión al término del curso.
El contenido propiamente dicho está organizado en once lecciones. En la primera
se revisa la historia de la concepción del azar desde el pensamiento primitivo,
pasando por las nociones que prevalecieron en la Grecia clásica, hasta el
surgimiento de la teoría de la probabilidad en el Renacimiento, para revisar su
aplicación en la ciencia contemporánea; todo ello, por supuesto, con trazos muy
gruesos que permiten, sin embargo, observar la íntima relación que existe entre el
estudio matemático de los fenómenos aleatorios y el origen de las ciencias del
comportamiento. A partir de aquí se inicia el estudio de los fundamentos de la teoría
de la probabilidad, estudiando en la segunda lección la definición de probabilidad y
en la tercera su estructura axiomática. Para el estudio sistemático de los fenómenos
aleatorios se requiere comenzar por conocer con claridad cuáles son los eventos
posibles que conforman el espacio muestral, lo que se estudia en la cuarta lección,
y en la quinta se revisan técnicas para contar el número de eventos posibles en un
fenómeno aleatorio. Con estos elementos se abordan las distribuciones de
probabilidad en la sexta lección. En la séptima se estudia la probabilidad
condicional, esencial para una comprensión profunda de las relaciones causa-
efecto. El vínculo entre lo teórico (la probabilidad a priori) y lo empírico (la frecuencia
observada) y el análisis matemático del error, concepto central en la predicción de
la conducta, se analiza en la lección ocho. En la novena lección se estudia el modelo
de distribución normal, básico para la medición e interpretación del comportamiento,
y en la décima la normalización psicométrica gaussiana, quizá la más importante de
sus aplicaciones a la medición en las ciencias del comportamiento. En la lección
once se estudian elementos de muestreo, con lo que se cierra este primer
acercamiento a la probabilidad.
Al final de cada lección se presentan ejercicios que deberán ser resueltos por el
estudiante y revisados en clase por el maestro para aclarar cualquier duda del
alumno y ampliar aquello que le parezca importante; los reactivos que se construyan
para evaluar el aprendizaje deberán ser equivalentes a los presentados en cada
lección. Se incluye, además, una sección denominada Para aprender más, que
presenta retos a los estudiantes que no quieran limitarse a lo visto en el curso.
En todo el libro, las fórmulas y demás expresiones matemáticas se presentan en
notación lineal, lo cual facilita su introducción directa a calculadoras, hojas de
cálculo y otros tipos de software. Se trata con esto de privilegiar la comprensión
sobre los simples ejercicios de cálculo, a los que a veces se reduce la enseñanza
de la matemática.

6
En las fichas de la bibliografía seleccionada para ampliar los temas del curso se
agrega un breve comentario que puede orientar al estudiante sobre algunas
características de cada obra.

7
Objetivos de aprendizaje
Al término del curso el alumno:
1. Conocerá el desarrollo histórico de la teoría de la probabilidad y su relación
con las ciencias del comportamiento.
2. Conocerá la definición de probabilidad, así como sus enfoques matemáticos.
3. Conocerá la estructura axiomática de la teoría de la probabilidad.
4. Analizará el espacio muestral de fenómenos aleatorios.
5. Calculará la cardinalidad de espacios muestrales.
6. Aplicará modelos teóricos de distribuciones de probabilidad a fenómenos
conductuales.
7. Aplicará la probabilidad condicional al análisis relaciones causales entre
variables conductuales.
8. Aplicará el concepto de error, la Ley de los grandes números y el Teorema
del límite central a la predicción de fenómenos conductuales.
9. Aplicará el modelo de distribución normal al análisis de fenómenos
conductuales.
10. Construirá tablas de normas de interpretación aplicando el modelo normal.
11. Diseñará muestras representativas de poblaciones dadas.

8
Estructura del banco de reactivos

Lección Peso
2. La definición de probabilidad 2
3. Axiomas 1
4. El espacio muestral 4
5. Técnicas de conteo 3
6. Distribuciones de probabilidad 4
7. Probabilidad condicional 4
8. Lo teórico y lo empírico 3
9. Distribución normal 4
10. Normalización psicométrica gaussiana 5
11. Elementos de muestreo 5

9
Evaluación del aprendizaje

1. Se sugiere no examinar la primera lección, Historia del azar, para que todos los
exámenes puedan realizarse a libro abierto. El profesor podrá evaluar la
comprensión de los conceptos de esta lección por las respuestas del estudiante
a los ejercicios.
2. De acuerdo con el ámbito de la evaluación (parcial o total), en cualquier prueba
se recomienda incluir un ejercicio por lección. En la sección anterior se propone,
conforme a la importancia relativa de cada temática, una tabla de pesos por
lección para componer la calificación en los exámenes.
3. Cuando la longitud de la prueba no permita incluir todas las lecciones, la muestra
se seleccionará aleatoriamente en dos etapas: 1) Selección de lecciones, y 2)
Selección de reactivos. En caso de que la longitud de la prueba no lo permita,
puede seleccionarse al azar un ejercicio de los siguientes estratos:
Temática Lecciones
Fundamentos teóricos 2y3
Espacio muestral 4y5
Distribuciones de probabilidad 6, 7, 8 y 9
Aplicaciones prácticas 10 y 11
4. En cualquier caso, los ejercicios que se diseñen para el examen deben ser
equivalentes (formas paralelas) a los que se enseñaron en clase. Desde luego,
no podrán utilizarse para la evaluación los ejercicios incluidos en este libro, pues
estos deberán ser resueltos en clase.
5. Además, los ejercicios deben adecuarse para que puedan resolverse en no más
de 15 minutos, lo que implica incluir reducir la exigencia de cálculos
proporcionando suficientes datos de entrada; por ejemplo, deben proporcionarse
parámetros y no exigir que el alumno los calcule previamente para poder
proceder a resolver los ejercicios propiamente dichos.
6. Para calcular el puntaje obtenido en la prueba, se obtendrá el promedio
ponderado de las calificaciones que el profesor asignó a cada ejercicio, por su
peso.

10
Sugerencias
1. Revise continuamente la Estructura conceptual y la Tabla de términos clave para
que vaya organizando paulatinamente los conceptos básicos del curso.
2. Observe que las secciones en que se dividen las lecciones están numeradas.
Esto nos permite dirigirnos de forma inequívoca a cualquier parte del texto. Por
ejemplo, para referirnos a la escuela subjetiva de la probabilidad daremos la
dirección: [2: 2].
3. En todos los algoritmos se numeran los pasos para facilitar la secuencia y
controlar errores por omisión. Al aplicarlos a la solución de un ejercicio conviene
anotar el número de cada paso de forma que cuando se tengan dudas o se cometan
errores, pueda revisarse sistemáticamente paso por paso.
4. Para escribir las fórmulas se utiliza una notación lineal que permite introducirlas
directamente en una calculadora común o en programas de computadora; la
estructura de paréntesis funcionará sin importar el sistema de precedencias de
cálculo que se utilice. Para lograr esto se utilizan paréntesis que en unas ocasiones
podrían eliminarse, pero en otras afectarían a los cálculos por lo que se prefirió
utilizar los paréntesis necesarios para que la fórmula funcione sin trastornos en
cualquier dispositivo de cálculo.
5. Las tablas estadísticas necesarias para obtener valores teóricos al estimar
parámetros o probar hipótesis se identifican con un número y se encuentran al final
del texto. Las tablas están normalizadas para usarse en conjunto con el algoritmo
que las invoca. Las tablas incluyen los niveles de significación (α) más usados; dada
su extensión, en el caso de la distribución F solo su incluye un nivel de significación
(α = 0.05). En cualquier caso, cuando se requiera trabajar con niveles de
significación que no se incluyen, podrán encontrarse en sitios en línea, ya sea en
forma tabular o bien las ecuaciones aplicables.
6. Es muy importante comprender que este material no pretende sustituir la lectura
de libros y otras fuentes documentales. En el mismo texto se hace referencia a
bibliografía especializada para tratar los temas en profuncidad, cuyas fichas se
presentan al final con un breve comentario anexo. Este texto resultará realmente útil
cuando impulse al alumno al estudio independiente, buscando en diversas fuentes
para obtener información y comprender críticamente los temas de estudio.
7. Conviene, lo antes posible, leer este material por completo. Con esta primera
lectura no se pretende lograr una comprensión cabal del contenido, sino más bien
integrar una visión preliminar, panorámica, que deberá ir ganando precisión
conforme se avance en el curso.
8. Posteriormente habrá que leer a fondo el material que se discutirá en la siguiente
clase, para lo cual puede apoyarse en diccionarios técnicos, enciclopedias y, sobre
todo, en las fuentes que se refieren aquí mismo. Debe observarse que casi cualquier
libro de probabilidad propone lo mismo sobre un tema dado, aunque desde luego
varían los enfoques y los matices; esto ampliará la comprensión del tema. De esta

11
forma el alumno estará desarrollando verdaderos hábitos de estudio independiente.

9. Una vez que el alumno, por sí mismo, haya estudiado el material, podrá aprove-
charse el tiempo dentro del aula para discusiones que aclaren dudas y profundicen
en los temas de interés para cada estudiante. Estaremos desterrando la exposición
rígida por parte del maestro y se podrá entrar a una auténtica dinámica de
enseñanza-aprendizaje.
10. Deben resolverse los reactivos de la Guía de evaluación que se presentan al
final de cada lección. Para ello hay que notar que también los reactivos se numeran
para que puedan contestarse por separado, identificarse por lección y confrontar las
respuestas en la sección correspondiente. De este modo el estudiante podrá
depurar sus respuestas.
11. En algunos ejercicios –por ejemplo, los de la Lección 10, AVAR- se presentan
masas de datos muy pequeñas. Esto se hace con el propósito de que los exámenes
(que deben construirse con ejercicios equivalentes) puedan ser resueltos con una
calculadora de bolsillo en el menor tiempo posible. De lo que se trata es de que el
alumno demuestre competencia para resolver los problemas y no de que sea capaz
de realizar cálculos largos y engorrosos (finalmente, de ello se ocupará la
computadora en casos reales). Es responsabilidad del maestro hacer ver esto al
alumno y facilitar su tránsito al uso de la computadora. El principio del que partimos
es simple: debe pensar el alumno, el trabajo de cálculo de deja a la máquina
(llámese calculadora o computadora).
12. Pero, lo más importante, como ocurre en cualquier curso de matemáticas, es
que el alumno deberá esforzarse en resolver los ejercicios, trabajando en forma
independiente fuera del aula, aun cuando pudiera tener dudas. Cuando
posteriormente se resuelvan en el aula con la presencia del maestro, podrá
confrontar y corregir sus respuestas, así como exponer cualquier duda. Esto será
decisivo para su aprendizaje y para su rendimiento en los exámenes de acreditación
de la asignatura.
13. La estrategia educativa que aquí se propone se orienta al desarrollo –y, por
supuesto, a la evaluación– de competencias, por lo cual todos los reactivos implican
la solución de problemas, estrictamente del tipo presentados en cada lección. Se
sugiere permitir que el alumno pueda consultar cualquier material durante los
exámenes, pero por supuesto deberá evitarse cualquier comunicación con sus
compañeros. La corrección de los procedimientos y la comprensión del problema
serán los criterios fundamentales para asignar la calificación; en este sentido, los
reactivos del tipo opción múltiple simplemente no permiten al maestro evaluar el
proceso cognoscitivo de cada alumno en particular y, posteriormente, hacerle ver
los eventuales errores que cometió y la forma de corregirlos.
14. Finalmente, en la sección Para aprender más se proponen algunas ideas y retos
para ampliar los contenidos del curso hasta el límite que marque el interés de cada
estudiante. Cuando un alumno presente eficazmente ante el grupo uno de estos
temas, podrá ganar un bono para su puntaje final.

12
Estructura conceptual
El pensamiento determinista
1. La historia del azar El pensamiento aleatorio
La matemática del azar
Determinista
Fenómenos naturales Aleatorio
Subjetiva
2. La definición de probabilidad Escuelas Objetiva
Principio de razón insuficiente

Definición matemática Probabilidad teórica
Principio de la frecuencia
Probabilidad empírica
Del límite
3. Axiomas Del espacio muestral
De la suma
Discretos / Continuos
Tipos de eventos Excluyentes / Incluyentes
Independientes / Dependientes
4. Espacio muestral
Gráfica
Representación Árboles
Principio fundamental del conteo

Principio de multiplicación
5. Técnicas de conteo Factorial
Combinaciones
Permutaciones
Uniforme
Bernoulli
Distribuciones teóricas Binomial
Poisson
6. Distribuciones de probabilidad 9. Normal
Distribuciones empíricas
Probabilidad directa
7. Probabilidad condicional
Probabilidad inversa
8. Lo teórico y lo empírico
10. Normalización psicométrica

Justificación
11. Muestreo Tipos
Representatividad

13
Términos clave
Determinismo Error
Aleatoriedad – Azar • Absoluto
Probabilidad • Relativo
• Objetiva >< Subjetiva • Ley de los grandes números
Probabilidad matemática Teorema del límite central
• Teórica >< Empírica Distribución normal
• Directa >< Inversa • Propiedades
Ensayo • Cálculo de áreas
Evento • Estandarización de variables
• Posibles >< Favorables • Puntaje bruto >< Puntaje
• Imposible >< Seguro normalizado
• Discretos >< Continuos • Calificaciones estándar
• Simples >< Compuestos • Normalización psicométrica
• Excluyentes >< Incluyentes gaussiana
o Interpretación de medidas:
• Independientes ><
Norma >< Criterio
Dependientes
o Modelos normativos
Axioma >< Principio
Probabilidad condicional
Equiprobabilidad
Principio de razón insuficiente • Relaciones causales
Principio de la frecuencia relativa o Antecedente (VI) ><
Cardinalidad de un conjunto Consecuente (VD)
Espacio muestral • Probabilidad conjunta
• Tamaño • Probabilidad total
• Finito >< Infinito • Probabilidad directa
• Numerable >< No numerable • Probabilidad inversa
• Representación Muestreo
o Gráfica • Universo >< Muestra
o Árboles • Intencionado >< Aleatorio
Técnicas de conteo • Error de muestreo >< Precisión
Principio fundamental del conteo de muestreo
Principio de la multiplicación • Representatividad
Factorial o Tamaño
Permutaciones o Estratificación
Combinaciones o Aleatoriedad
Distribución de probabilidad
• Teórica
o Función de distribución
o Discreta >< Continua
• Empírica
o Discreta >< Continua

Lección 1. Historia del azar
Comment oser parler des lois du hasard? Le hasard n'est-il pas l'antithèse de toute
loi? En repoussant cette definition, je n'en proposerai aucune autre. Sur un sujet
vaguement défini on peut raisonner sans équivoque. Faut-il distraire le chimiste de
ses fourneaux pour le presser sur l'essence de la matière? Commencee-t-on l'etude
du transport de la force par définir l' électricité?2
Bertrand [1889: pág. VI]
La inteligencia ante la naturaleza

1. La conducta de previsión se puede observar claramente en algunos animales
superiores, especialmente en mamíferos, pero hasta donde sabemos solo en el
humano logra extenderse incluso para rebasar su horizonte de vida. La capacidad
de predicción resulta vital para el hombre. En realidad, la historia del pensamiento
puede verse como una lucha interminable por predecir lo que ocurrirá en el futuro,
de manera que podamos prepararnos para ello.
2. Desde el surgimiento de la inteligencia humana se comenzaron a establecer
relaciones causales entre algunos fenómenos. Por ejemplo, al conocer las fases de
la luna el hombre primitivo fue capaz de predecir con seguridad las noches oscuras
y prepararse guareciéndose de los peligros que lo amenazaban. Pero había otros
fenómenos cuyo comportamiento no era tan regular, aunque podían ser igualmente
importantes; por ejemplo, encontrarse con nubes cerradas le permitía predecir
lluvia, aunque ésta no siempre se presentaba. El hombre descubrió así que existen
fenómenos deterministas y fenómenos aleatorios. Respecto a los segundos,
aunque no comprendiera su comportamiento siempre intrigaron al hombre primitivo,
como lo demuestran los juegos de azar, particularmente los dados, que han sido
practicados desde hace milenios según los descubrimientos de los arqueólogos que
han encontrado evidencia de ellos en sitios prehistóricos; pero tratar de entenderlos
fue otro asunto.
3. No fue poco lo que avanzó el conocimiento de diversos fenómenos deterministas
en la antigüedad, pero el conocimiento del azar resultó ser mucho más elusivo. En
el cuarto libro de El Órganon, llamado Segundos analíticos, Aristóteles (383-322
a.C.) observa que en la naturaleza existen tres tipos de fenómenos: 1) Aquellos que
ocurren necesariamente (a los que hoy llamamos deterministas); 2) Los que ocurren
en la mayoría de los casos; y 3) Aquellos que ocurren por mero azar y por tanto son
incognoscibles (Aristóteles, 2001). De esta forma, el gran compilador del
conocimiento, cuya influencia dominaría el pensamiento occidental hasta la llegada
del Renacimiento, dejó clara la renuncia a tratar de conocer los fenómenos
aleatorios.
4. Aunque varias ramas fundamentales de la matemática se desarrollaron desde la
más remota antigüedad y su primera gran formalización se realizó hace 25 siglos
2
¿Cómo nos atrevemos a hablar de las leyes del azar? ¿No es el azar la antítesis de toda ley? Al rechazar esta
posición, no propongo ninguna otra. Sobre un tema vagamente definido, aun podemos razonar sin equívocos.
¿Debe el químico descuidar sus hornos para insistir sobre la esencia de la materia? ¿Comenzamos por definir
la electricidad para estudiar la transmisión de la fuerza? (Trad. del autor).
15
con los griegos, el comportamiento del azar siempre quedó reservado para la
metafísica. Un ejemplo notable: Teeteto (417-369 a.C.) estudió los cinco sólidos
platónicos (tetraedro, hexaedro, octaedro, dodecaedro e icosaedro) y demostró
rigurosamente sus propiedades, entre las que se encuentra el hecho de que en cada
uno de ellos todas sus caras son iguales, pero nunca analizó matemáticamente su
comportamiento en el juego de dados, que como ya vimos se practicaba desde
hacía mucho tiempo.
5. El término con el que ahora nos referimos a los fenómenos que se comportan al
azar proviene del latín aleatorĭus, que hace referencia al juego de dados. Bastan
dos ejemplos para ver la forma en que se concebían los juegos de azar en la
antigüedad. Dice Suetonio que cuando Julio César, desobedeciendo al Senado,
ordenó a sus soldados cruzar el río Rubicón en 49 a.C. dijo alea jacta est, que puede
traducirse como “los dados están echados”, con lo que dejaba claro que su futuro
quedaba en manos de la fortuna. En el Nuevo Testamento se describe la forma en
que los soldados romanos que crucificaron a Jesús se dividieron sus ropas, pero
para no cortar su túnica se dijeron: "No la rompamos. Vamos a sortearla, para ver a
quién le toca" (Juan, 19: 23-24); dejaban a la divinidad la decisión. En ambos casos
puede observarse que el azar se consideraba como la manifestación de una
voluntad superior; por tanto, era imposible comprenderlo, había que someterse a él.
Lo más que podía hacerse era tratar de ganar la simpatía de los dioses mediante
sacrificios y otros rituales.
6. Con la caída del imperio Romano ante los bárbaros del norte y de oriente, Europa
entró en una época de oscurantismo que se extendería por mil años. Durante la Alta
Edad Media (476-1000), con el predominio de la iglesia y la filosofía idealista de
Platón, los juegos de azar pasaron a ser considerados un pecado, porque conducían
a la pereza y a la avaricia. En la Baja Edad Media (1000-1492) Santo Tomás de
Aquino promovió la filosofía de Aristóteles, que era más proclive a la ciencia, pero
aun así lógica y matemática se utilizaron únicamente para reforzar el dogma
religioso. Los fenómenos aleatorios, además del carácter incognoscible que les
asignó el estagirita, seguían considerándose como una manifestación de la voluntad
divina y debían aceptarse con humildad según el aquinate, pues tratar de
comprenderlos era un pecado de soberbia. Es así que no se han encontrado
pruebas de que el azar haya sido estudiado en forma objetiva y sistemática sino
hasta finales del Medioevo.
7. Sin embargo, con el incremento del comercio en esta época se volvió necesario
estudiar problemas relacionados con el cálculo y el control de riesgos, como los que
planteaban los desastres en que podían terminar los viajes ultramarinos y la forma
de distribuir equitativamente las pérdidas para que pudieran soportarse. De este
modo, vemos que el estudio científico del azar tiene apenas medio milenio de
haberse iniciado.
8. La inteligencia humana siempre fue capaz del razonamiento deductivo. Si
podemos asegurar que todos los elementos de un conjunto poseen cierta propiedad
(por ejemplo, todos los hombres son mortales) y tenemos un elemento que
pertenece a ese conjunto (Sócrates es un hombre), entonces podemos concluir sin
lugar a dudas que este elemento tiene la propiedad del conjunto al que pertenece
(Sócrates es mortal). La psicología del pensamiento ha propuesto, a partir de
múltiples pruebas, que esta capacidad es producto de la evolución, porque apoya

16
la supervivencia del individuo y aumenta sus posibilidades de reproducirse. Pero no

ocurrió así con el razonamiento probabilista que, en la escala histórica, apenas
recientemente se viene desarrollando. ¿Cómo explicar esto? Como respuesta se ha
propuesto que las capacidades de la mente humana son producto de la evolución;
pero, nuevamente a escala histórica, hace muy poco tiempo que la vida civilizada
ha convertido en un valor de supervivencia el pensamiento científico y el
razonamiento probabilista que produce la inferencia, capaz de comprender, predecir
y controlar los fenómenos aleatorios. Bajo este enfoque, el razonamiento
probabilista, que en muchos aspectos contraviene la intuición (una forma de
razonamiento prospectivo que también es producto de la evolución), se ha
desarrollado para enfrentar las necesidades que plantea la vida moderna, sujeta a
innumerables situaciones de incertidumbre. Así podría explicarse, además, que una
gran proporción de la especie, aferrada a conductas atávicas, aún aplica
deficientemente el pensamiento probabilista (cfr. Kahneman y Tversky, 1981).
9. Vemos que el estudio científico del azar es una de las mayores hazañas del
pensamiento humano. Podríamos pensar que constituye una nueva etapa del
desarrollo de la inteligencia. Conviene, por ello, dedicar un poco de espacio a
estudiar su surgimiento revisando los primeros intentos realizados en el
Renacimiento para comprender los juegos de azar.
La matemática del azar

10. Gerloamo Cardano (1501-1576) fue un médico y matemático italiano que hizo
múltiples contribuciones a la ciencia, desde la identificación de la fiebre tifoidea
hasta la invención del cardán que aún hoy utilizan los vehículos automotores para
trasmitir el movimiento del motor a las ruedas. En el tema que aquí nos interesa,
escribió el Liber de ludo aleae (Libro de los juegos de azar), obra en que analiza los
juegos con monedas, dados, cartas y el ajedrez y que sería publicada hasta 1663
casi nueve décadas después de su muerte; en ella se encuentran prefigurados los
conceptos de equiprobabilidad, esperanza matemática y regularidad estadística.
11. Galileo Galilei (1564-1642), aunque parece que no conoció el Liber de ludo aleae
(hasta su muerte no había sido publicado) analizó el lanzamiento de tres dados y
calculó su distribución de probabilidades.
12. El desarrollo de la geometría analítica por René Descartes (1596-1650) aportó
un instrumento inestimable para el análisis y el cálculo de probabilidades, tanto
gráfica como numéricamente.
El Problema del juego interrumpido

13. Parece que el caso más antiguo que se tiene documentado es el llamado
Problema del juego interrumpido o Juego de los puntos. Veamos su forma general:
Dos sujetos, A y B, participan en un juego que terminará cuando uno de ellos
gane un número determinado de puntos; ambos apuestan la misma cantidad
para formar la bolsa. Sin embargo, por causas externas el juego tiene que
interrumpirse antes de que alguno haya podido alcanzar los puntos pactados
para ganar la bolsa. En tales circunstancias, ¿cómo debe distribuirse la bolsa
entre los dos jugadores?

17
Aunque, desde luego, la solución es general, para facilitar la exposición tomaremos

el siguiente ejemplo:
Se juega a lanzar una moneda. Si cae cara A gana un punto, con cruz lo gana
B. Cada jugador aporta 25 pesos a la bolsa. El jugador que alcance 10 puntos
se queda con la bolsa completa. Cuando el juego se interrumpe, A lleva 8
puntos ganados y B lleva 7. ¿Cómo distribuir la bolsa?
14. La solución de Pacioli. El primero en proponer una solución a este problema fue
Luca Bartolome Pacioli, también conocido por su nombre religioso, Luca Bartolomeo
Di Borgo San Sepolcro (1446-1517), fraile franciscano, profesor de matemáticas y
amigo de Leonardo Da Vinci. En su obra Summa de arithmetica, geometria,
proportioni et proportionalita (Compendio de aritmética, geometría y
proporcionalidad, 14943) propuso que la bolsa debía repartirse en proporción a las
rondas ganadas por cada jugador. Puesto que al momento de suspender el juego
el resultado era 8:7, es decir, que A llevaba 8 rondas ganadas y B tenía 7, la
distribución sería:
A = 8/1550 = 26.67
B = 7/1550 = 23.33
Conviene observar que esta parece ser la primera aproximación conocida a la teoría
de los juegos de azar.
15. La solución de Tartaglia. Pero la solución de Pacioli muy pronto fue calificada
de insatisfactoria. Niccolo Fontana Tartaglia (1449-1557), otro matemático italiano,
abordó el problema en su Trattato generale de numeri e misuri (Tratado general de
números y medidas, 1556) donde observa que la solución de Pacioli “ni es buena ni
es conciliadora”, pues deben tomarse en cuenta todos los posibles resultados
cuando se interrumpe el juego4. Por ejemplo, si el juego se interrumpiera después
de terminada la primera ronda y la hubiera ganado A, el resultado sería 1:0 y toda
la bolsa sería de A por una sola ronda ganada, lo cual no parece justo. En
consecuencia, Tartaglia propone otras reglas.
Se calcula la proporción resultante de dividir la diferencia de puntos que lleva
ganados cada jugador entre el total de puntos pactados para ganar el juego y dicha
proporción se suma a la apuesta de cada jugador. Es claro que la diferencia positiva
aumenta la ganancia, mientras que la negativa la disminuye; en caso de empate la
diferencia es cero y los jugadores reciben su apuesta original. Esto es:
Sea:
A ≡ parte de la bolsa que corresponde a A,
B ≡ parte de la bolsa que corresponde a B,
M ≡ apuesta que aporta cada jugador, que es la mitad de la bolsa,
Pa ≡ puntos que llevaba ganados A hasta que se interrumpió el juego,
Pb ≡ puntos que llevaba ganados B,
Pt ≡ el total de puntos pactados para ganar el juego,
entonces:
A = M+(((Pa-Pb)/Pt)M)
B = M+(((Pb-Pa)/Pt)M)
3
Obsérvese que el libro se publica apenas dos años después del primer viaje de Colón a América, fecha que
se acepta convencionalmente como el fin de la Edad Media y el inicio del Renacimiento.
4
Nótese que estamos ante el concepto de espacio muestral, que estudiaremos más adelante,

18
Aplicando este enfoque al ejemplo que venimos analizando:

A = 25+(((8-7)/10)25) = 27.50 pesos
B = 25+(((7-8)/10)25) = 22.50 pesos
16. Aunque esta solución resulta mejor que la de Pacioli, también es cuestionable
porque si el juego se suspendiese cuando A tenía 5 juegos ganados y B tenía 4, es
claro que A recibiría el mismo premio que en el ejemplo anterior, pero ahora se
encontraba a solo un punto de obtener la bolsa total. ¿Entonces cómo resolver el
problema?
17. El origen de la confusión reside en que tanto Pacioli como Trataglia se limitaron
a un análisis aritmético que considera solo el pasado (los juegos que se han ganado)
pero no toca el futuro (los juegos faltantes para completar los pactados), que es lo
permite la predicción. Pero para dar este paso habría que esperar al nacimiento de
la teoría de la probabilidad.
18. Más tarde Pierre de Fermat (1601-1665), jurista y matemático, y Blaise Pascal
(1623-1662), matemático, físico y filósofo, ambos franceses, discutieron el problema
de los puntos y expusieron su solución mediante un intercambio epistolar. Digamos
que Fermat es el jugador A y Pascal es B.
19. La solución de Fermat. Fermat razonó como sigue: Yo necesitaba solo 2 puntos
(recuérdese que llevaba 8 puntos ganados a 10 pactados) para ganar la bolsa y
usted (es decir, Pascal, B) necesitaba 3, esto implica que en un máximo de 4
lanzamientos más, necesariamente se decidiría quién ganaba. Representemos cara
por H y cruz por T y con mayúsculas aquellos resultados con que A gana la bolsa y
con minúsculas los que le darían la bolsa a B. Entonces los posibles resultados en
4 lanzamientos son:
H, H, H, H. H, H, H, T. H, H, T, H. H, H, T, T.
H, T, H, H. H, T, H, T. H, T, T, H. h, t, t, t.
T, H, H, H. T, H, H, T. T, H, T, H. t, h, t, t.
T, T, H, H. t, t, h, t. t, t, t, h. t, t, t, t.
Hay 16 resultados posibles y todos son igualmente probables5. Puesto que 11 de
ellos me favorecen a mí y los restantes cinco a usted, tenemos que concluir que
11/16 de la bolsa, que son (11/16)50 = 34.38 pesos me corresponden, mientras
que los restantes (5/16)50 = 15.63 pesos le tocan a usted.
20. Debemos observar que en la solución de Fermat vuelve a aparecer el concepto
de espacio muestral y, además, el concepto de equiprobabilidad. Pero lo más
importante es que aquí el enfoque cambia radicalmente. Mientras que, como vimos,
Pacioli y Tartaglia se enfocaron en el pasado, en los resultados que habían obtenido
al momento de interrumpir el juego, ahora Fermat y Pascal se enfocan al futuro, a
los resultados que podían haber ocurrido de continuar el juego hasta su conclusión.
21. La generalización de Pascal. Pascal encuentra satisfactoria la solución
propuesta por Fermat, pero la generaliza a cualquier número de puntos, monto de
apuestas y resultados obtenidos al momento de interrumpir el juego. Más aún, la
formaliza matemáticamente para evitar la necesidad de construir gráficamente el
5
He aquí el concepto de equiprobabilidad, que se formalizaría más tarde. Lo importante es que al decir que
son “igualmente probables” Fermat se refiere al futuro, a eventos que aún no ocurren y que en este ejemplo
nunca ocurrieron, pues el juego se interrumpió.

19
espacio muestral como lo hizo Fermat. El resultado es que analizó las

combinaciones posibles mediante coeficientes binomiales que están dados por
nCr = n!/(r!(n-r)!)
y que estudiaremos más adelante. Al definir todas las combinaciones posibles, se
construye el que se conoce como Triángulo de Pascal6.
0C0
1C1 1C0
2C2 2C1 2C0
3C3 3C2 3C1 3C0
4C4 4C3 4C2 4C1 4C0
5C5 5C4 5C3 5C2 5C1 5C0
Que puede crecer agregando filas hasta donde se desee.

Calculando los valores de las combinaciones se obtiene:
1
1 1
1 2 1
1 3 3 1
1 4 6 4 1
1 5 10 10 5 1
Con negritas se señala la fila que corresponde al ejemplo que recién vimos.
A partir de este triángulo puede resolverse cualquier caso particular del Problema
del juego interrumpido, aplicando el siguiente
ALGORITMO
Sea
m ≡ Número de puntos que faltan a A,
n ≡ Número de puntos que faltan a B.
Comienza
1. Ubicar en el triángulo la fila correspondiente a m+n.
2. Sumar las primeras m entradas en la fila y dividir el resultado entre la suma
total de la fila; multiplicar el cociente por el total de la bolsa. El resultado es la
parte de la apuesta que corresponde a B.
3. Sumar las n entradas restantes en la fila y dividir el resultado entre la suma
total de la fila; multiplicar el cociente por el total de la bolsa. El resultado es la
parte de la apuesta que corresponde a A.
Termina
En el ejemplo que estamos analizando, recordemos que se pactaron 10 puntos para
ganar la bolsa de $50; el jugador A llevaba ganados 8 puntos, por lo que le faltaban
m = 2; el jugador B había ganado 7 puntos, por lo que le faltaban n = 3. Ahora
podemos aplicar el algoritmo que acabamos de ver:
Comienza
1. m+n = 2+3 = 5, por lo que tomamos la quinta fila del Triángulo de Pascal:
1 4 6 4 1
2. B = ((1+4)/(1+4+6+4+1))50 = 15.63
3. A = ((1+4+6)/(1+4+6+4+1))50 = 34.37
Termina
6
Observe que la cúspide de la pirámide es la fila cero, pues 0! = 1.

20
Que es la misma solución que encontró Fermat.

22. Estamos ante el primer análisis estrictamente matemático del comportamiento
futuro de un fenómeno aleatorio. Al analizar los juegos de apuesta, Pacioli y
Tartaglia iniciaron el desarrollo de la teoría de la probabilidad. Fermat y Pascal
lograron combinar dos cosas aparentemente irreconciliables: el rigor de la
demostración matemática y la incertidumbre del azar.
23. Aunque aún faltaban dos siglos para que naciera la psicología científica, y
aunque este tipo de análisis hoy nos pudiera parecer muy lejano, tenemos que ver
que aquí está el fundamento del estudio científico del comportamiento.
24. A partir de los trabajos de Fermat y Pascal, Christiaan Huygens (1629-1695)
matemático holandés amigo de los dos anteriores, en Ratiociniis de ludo alea
(Razonamiento sobre los juegos de azar, 1657), primera obra en que se trata en
forma metódica el estudio de la probabilidad, define a la esperanza matemática (o
valor esperado) como el promedio de los valores que puede asumir la variable
aleatoria y con ello establece el principio que permite predecir el comportamiento de
un fenómeno aleatorio.
25. Con los enormes logros de Isaac Newton (1643-1727) al formular la teoría de la
gravedad, se llegó a soñar que la ciencia terminaría llevándonos a un universo
determinista en el que todo se podría predecir con exactitud. Que consideremos
aleatorios a algunos fenómenos se debe –se pensaba entonces- a que no hemos
podido descubrir las leyes que los rigen, pero la ciencia puede descubrirlos.
26. Jakob Bernoulli (1654-1705), matemático y científico suizo, en su obra Ars
conjectandi (Arte de la conjetura, 1713) razona que cuando aumenta el número de
veces que se ejecuta un fenómeno aleatorio sus eventos se acercan a la
equiprobabilidad, con lo que plantea la primera aproximación a la Ley de los grandes
números. Define matemáticamente a la probabilidad de un evento, formula la
Distribución binomial (derivada de la llamada, en su honor, Distribución de Bernoulli)
y propone por primera vez el axioma de los límites. Todos estos conceptos se verán
más adelante.
27. Abraham de Moivre (1667-1754), matemático francés, partiendo de la
Distribución binomial formuló por primera vez la Distribución normal en el artículo
The doctrine of chances (Doctrina del azar, 1718).
28. Thomas Bayes (1702-1761), matemático inglés, en Essay towards solving a
problem in the doctrine of chances (Ensayo para resolver un problema en la doctrina
del azar, 1763) plantea el teorema que lleva su nombre, el cual permite el cálculo
de probabilidades condicionales. Este teorema es fundamental en ciencia y
tecnología porque permite calcular la probabilidad de que una hipótesis sea cierta;
en consecuencia, constituye la base de la ingeniería inversa, que ayuda a descubrir
cómo funciona un sistema complejo partiendo del conocimiento de unas cuantas de
sus salidas.
29. Pafnuti Chebyshev (1821-1894), matemático ruso, demostró la Desigualdad de
Chebyshev (también llamada Teorema de Chebyshev) que permite establecer el
límite inferior de la probabilidad de que una variable se encuentre a cierta distancia
de su esperanza matemática, lo que permite medir el error de predicción.
30. Ronald Aylmer Fisher (1809-1962), matemático inglés, fue autor de múltiples
desarrollos estadísticos de gran importancia en la inferencia estadística. Formuló la
Distribución F (llamada así en su honor).

21
31. Andréi Kolmogorov (1903-1987), matemático ruso, formalizó los procesos

estocásticos (o Procesos de Kolmogorov) que permiten analizar procesos aleatorios
que cambian con el tiempo.
32. Maurice G. Kendall (1907-1983), matemático inglés, hizo múltiples
contribuciones a la estadística. En el campo de la probabilidad desarrolló
generadores de aleatorios y una batería de pruebas de aleatoriedad para evaluar el
grado en que una muestra es realmente aleatoria.
33. Con el impresionante desarrollo que ha tenido la computación desde la segunda
mitad del siglo XX, han ido desapareciendo las limitaciones que imponían los
cálculos excesivamente largos o complejos. Hoy, disponiendo de la función de
distribución, así como de conocimientos básicos de programación, cualquier
estudiante de pregrado puede calcular una distribución de probabilidad, tarea que
hace unas décadas se reservaba a centros de investigación de alta especialidad.
La teoría de la probabilidad y la ciencia contemporánea
34. Las ciencias del comportamiento nacieron aplicando la teoría de la probabilidad
y su carácter aleatorio hizo que se les llamara ciencias "blandas", para distinguirlas
de las ciencias "duras" que promovían los modelos deterministas. Sin embargo,
realmente hace muchos años que esto dejó de ser cierto. Veamos qué ha ocurrido
con tres de los prototipos de ciencias duras.
35. Biología. Para formular las leyes de la herencia, Gregor Mendel (1822-1884)
partió de tres supuestos: 1) La mitad de los gametos masculinos posee un alelo y la
otra mitad el segundo alelo; 2) Lo mismo ocurre con los gametos femeninos y; 3)
Los gametos masculinos y femeninos se combinan al azar.
Sean a1, a2 los alelos de un gen. Entonces se construye la siguiente tabla:
Masculino
a1 a2
a1 a1,a1 a1,a2
Femenino
a2 a2,a1 a2,a2
Que constituye la base del análisis científico de los caracteres heredados.
Posteriormente se probó que los eventos no necesariamente son equiprobables
(como lo supuso Mendel) pero eso, aunque aumenta la complejidad de los cálculos,
no invalida el hecho de que herencia debe estudiarse como un fenómeno aleatorio.
Desde su nacimiento, la genética partió de un enfoque probabilista.
36. Física. Ya vimos que a partir de Newton la física aspiró a ser una ciencia
completamente determinista, que llegaría a ser capaz de predecir con precisión el
estado futuro de un sistema a partir del conocimiento del estado que guarda en un
momento dado. Pero con el surgimiento de la mecánica cuántica en la segunda
década del siglo XX, sobre todo con la formulación en 1927 del Principio de
Heisenberg que estableció un límite absoluto a la precisión de las mediciones,
terminó la pretensión de que el estado físico de un sistema podía medirse con
exactitud y, en consecuencia, se estableció la imposibilidad de hacer predicciones
deterministas de sus estados futuros. Esto requiere reflexión para comprender su
impacto en el pensamiento científico actual
Quizá fue Erwin Schrödinger quien puso los clavos en el ataúd de la concepción
determinista en física cuando afirmó en What is life (Qué es la vida), libro publicado

22
en 1944 como compilación de una serie de conferencias dictadas el año anterior en

el Instituto de Estudios Avanzados de Dublin: “La suposición del físico clásico7, lejos
de ser trivial, es errónea” (Schrödinger, 1997).
37. Química. Aquí no hay mucho que agregar, el surgimiento de la química cuántica
fue consecuencia natural de la aceptación por los físicos de la mecánica cuántica,
con lo cual cambió por completo el enfoque para estudiar los enlaces químicos y las
estructuras cristalinas. Nuevamente se impusieron los modelos probabilistas.
38. Para terminar esta breve revisión histórica del estudio del azar, debemos ver
que la teoría de la probabilidad se ha convertido en un recurso matemático
indispensable para toda la ciencia contemporánea, sin distinguir entre ciencias
duras y ciencias blandas.
Guía de evaluación
1. ¿Cómo concebía el hombre primitivo a los fenómenos aleatorios?
2. ¿Conocía el hombre primitivo los juegos de azar?
3. Según Aristóteles, ¿cuáles son los tres tipos de fenómenos naturales, conforme
a la posibilidad de que ocurran?
4. ¿Cuál es la etimología del término aleatorio?
5. En el siglo I d.C., cuando Julio César cruzó el Rubicón dijo: “Los dados están
echados.” En el contexto del estudio histórico del azar, explique el significado de
esta frase.
6. ¿Cómo concebían los romanos al azar?
7. ¿Cómo se concebía al azar en la Europa del Medioevo?
8. ¿Cuál fue el motivo para comenzar a estudiar objetivamente los fenómenos
aleatorios al fin de la Edad Media?
9. ¿Cómo explica la psicología evolucionista que el azar no haya sido estudiado en
la antigüedad ni en el Medioevo?
10. Explique conceptualmente en qué consiste el Problema del juego interrumpido.
11. ¿Cuál es el significado histórico del Problema del juego interrumpido?
12. ¿Cómo propone Pacioli dividir la bolsa en el Problema del juego interrumpido?
13. ¿Cómo propone Tartaglia dividir la bolsa en el Problema del juego interrumpido?
14. ¿Cómo propone Fermat dividir la bolsa en el Problema del juego interrumpido?
15. ¿Cómo propone Pascal dividir la bolsa en el Problema del juego interrumpido?
16. ¿Cuál es diferencia esencial entre las soluciones de Pacioli/Tartaglia y
Fermat/Pascal al Problema del juego interrumpido?
17. ¿Cuál es diferencia esencial entre las soluciones de Fermat y de Pascal al
Problema del juego interrumpido?
7
Léase determinista.

23
18. ¿Cuál es el significado histórico del Liber de ludo aleae escrito por Cardano?
19. ¿Cuál fue la aportación de Galileo Galilei al desarrollo de la teoría de la
probabilidad?
20. ¿Cuál es la aportación de Descartes al desarrollo de la teoría de la probabilidad?
21. ¿Cuál es la aportación de Huygens al desarrollo de la teoría de la probabilidad?
22. En el contexto del desarrollo histórico de la teoría de la probabilidad, ¿cuál fue
el efecto de la teoría de la gravedad de Newton?
23. Cite dos aportaciones fundamentales de Jakob Bernoulli al desarrollo de la teoría
de la probabilidad.
24. ¿Cuál fue la aportación principal de De Moivre al desarrollo de la teoría de la
probabilidad?
25. ¿Cuál fue la aportación principal de Bayes al desarrollo de la teoría de la
probabilidad?
26. ¿Cuál fue la aportación principal de Chebyshev al desarrollo de la teoría de la
probabilidad?
27. ¿Cuál fue la aportación principal de Fisher al desarrollo de la teoría de la
probabilidad?
28. ¿Cuál fue la aportación principal de Kolmogorov al desarrollo de la teoría de la
probabilidad?
29. ¿Cuál fue la aportación principal de Kendall al desarrollo de la teoría de la
probabilidad?
30. ¿Cuál ha sido el efecto principal de la computación sobre el desarrollo de la
teoría de la probabilidad?
31. En la actualidad las ciencias duras pueden ser deterministas. Discuta esta
proposición.
32. Proponga un ejemplo de leyes aleatorias en la biología.
33. Proponga un ejemplo de leyes aleatorias en la física.
34. Proponga un ejemplo de leyes aleatorias en la química.
Para aprender más
1. Considere el Problema del juego interrumpido bajos las siguientes condiciones:
Se juega a lanzar una moneda; cada jugador apuesta 30 pesos; si cae cara gana
A, si cae cruz gana B; la bolsa completa será para el jugador que gane 5
lanzamientos; cuando el juego se interrumpe A lleva 4 ganados y B lleva 3.
Calcule la distribución de la bolsa aplicando la solución que propone: 1) Pacioli;
2) Tartaglia y; 3) Fermat/Pascal. Construya una tabla comparativa.
2. Sabemos que es muy grande la variedad de colores que pueden tener los ojos
humanos; incluso existen casos atípicos, como que un mismo sujeto tenga los

24
ojos de diferente color, o que en un mismo ojo coexistan dos colores, o bien ojos
de color violeta o rojo (como en el albinismo). Sin embargo. suponga que solo
nos interesan los colores de los ojos oscuro, verde o azul.
Entonces, conocido el color de ojos de cada uno de los dos progenitores: ¿De
qué color serán los ojos del hijo? Conteste esta interrogante en términos
probabilísticos y explique el fundamento de la respuesta.

25
Lección 2. La definición de probabilidad

La teoría del azar consiste en reducir todos los acontecimientos del mismo
tipo a un cierto número de casos igualmente posibles, es decir, tales que
estemos igual de indecisos respecto a su existencia, y en determinar el
número de casos favorables al acontecimiento cuya probabilidad se busca.
La proporción entre este número y el de todos los casos posibles es la
medida de esta probabilidad, que no es, pues, más que una fracción cuyo
numerador es el número de casos favorables y cuyo denominador el de
todos los posibles.
[Laplace, 1995: 28]
Primera edición: 1814
Fenómenos de la naturaleza
1. Los fenómenos que se presentan en la naturaleza pueden clasificarse en dos
tipos:
a) Fenómenos deterministas. Son aquellos que al ocurrir ofrecen uno y solo
un resultado posible. Por ejemplo, una bola de acero soltada a cierta altura
del suelo caerá. No importa cuántas veces se repita el experimento, el
resultado siempre será el mismo: la bola describirá una trayectoria dirigida
hacia el centro de la tierra; por tanto, el comportamiento de la bola de acero
dentro del campo gravitatorio resulta completamente previsible, no importa el
número de veces que repitamos el experimento.
b) Fenómenos aleatorios. Son aquellos que ofrecen dos o más resultados
posibles. Por ejemplo, si se lanza una moneda existen dos resultados
posibles: puede quedar hacia arriba la cara o bien puede hacerlo la cruz. Si
se repite el lanzamiento, pueden variar los resultados.
Son los fenómenos del segundo tipo los que interesan a la teoría de la probabilidad.
Dos escuelas de la probabilidad

La probabilidad puede estudiarse desde dos escuelas o corrientes de pensamiento
radicalmente diferentes.
2. La escuela subjetiva parte del principio de que los individuos, al menos algunos
de ellos, tienen la capacidad –producto de la experiencia o de un don especial al
que podemos llamar intuición- para evaluar la probabilidad de determinados
eventos, a partir exclusivamente de su criterio.
Por ejemplo, si se planea lanzar un nuevo producto al mercado, algunos expertos
pueden asignar valores a las probabilidades de éxito y de fracaso.
Aunque a primera vista podría resultar difícil aceptar esta escuela, no debe perderse
de vista que la metodología científica permite evaluar a posteriori el grado de acierto
de un experto dado, con lo cual estaríamos evaluando objetivamente su capacidad
de predicción.
3. La escuela objetiva parte de un análisis matemático combinado con datos
teóricos o empíricos para calcular la probabilidad de cualquier evento.

26
4. No es posible, ni deseable, descalificar por completo a la escuela subjetiva. Pero

queda muy expuesto a la charlatanería quien la acepte sin prueba rigurosa en cada
caso particular. Es fundamental entender esto: la prueba aquí siempre es casuística,
aplica solo en el caso que se está probando y no puede generalizarse.
En la escuela objetiva, en cambio, aplica el análisis matemático y, en consecuencia,
sus resultados son generalizables.
En cualquier caso, debemos tener claro es que en este curso centraremos la
atención en la escuela objetiva. Adoptaremos, en consecuencia, un enfoque
científico que permite la generalización.
La definición matemática de probabilidad

5. La teoría de la probabilidad es una rama de la matemática pura que tiene por
objeto el estudio de la noción de azar.
6. Llamaremos ensayo a la ejecución de un fenómeno aleatorio. Por ejemplo,
cuando se lanza al aire una moneda, cada lanzamiento es un ensayo. A veces a los
ensayos se les llama experimentos aleatorios.
7. Llamaremos evento a cada uno de los resultados que pueden ocurrir al ejecutar
un ensayo de un fenómeno aleatorio. Por ejemplo, en el lanzamiento de la moneda
existen dos eventos posibles: cara y cruz.
8. Bajo estas definiciones, al ejecutar un ensayo solo puede ocurrir uno, y solo uno,
de los eventos posibles; pero al realizarse un nuevo ensayo no necesariamente se
presentará el mismo resultado, puede presentarse cualquiera otro de los eventos
posibles. Esto es, en diferentes ensayos de un fenómeno aleatorio los resultados
pueden variar; esta es una característica fundamental de los fenómenos aleatorios,
la variabilidad.
Por ejemplo, si lanzamos una moneda (primer ensayo) y el resultado es que arriba
quedó la cara, en un segundo ensayo puede ocurrir cualquiera de los dos eventos
posibles, cara o cruz; y lo mismo ocurrirá en cada ensayo subsecuente.
9. La probabilidad de un evento se define como:
Sea:
X ≡ un evento
P(X) ≡ la probabilidad de que ocurra X
f ≡ el número de veces que puede ocurrir X
u ≡ el número de veces que puede ocurrir un evento diferente de X (esto es, su
complemento, Xc)
n ≡ el número total de eventos posibles
entonces
n = f+u
y por tanto
P(X) = f/n
Esto es, la probabilidad matemática de cualquier evento está dada por el número
de veces que éste puede ocurrir, dividido entre el total de eventos posibles.
La definición teórica de probabilidad
10. La definición matemática de probabilidad, que acabamos de ver, es una sola y
aplica en cualquier tipo de análisis científico de los fenómenos aleatorios. Sin

27
embargo, para el estudio del comportamiento resulta fundamental distinguir dos

momentos en los que se puede calcular la probabilidad de eventos.
11. Desde el enfoque a priori, la probabilidad teórica de un evento se define así:
En un ensayo que no ha sido ejecutado:
Sea:
f ≡ el número de eventos favorables a X
n ≡ el número total de eventos posibles
entonces
P(X) = f/n
12. Se le llama teórica a este tipo de probabilidad porque se calcula antes de que
se ejecute el ensayo. Obsérvese que este enfoque implica la predicción.
Por ejemplo, en un dado de 6 caras la probabilidad de que caiga un número mayor
a 4 está dada por:
f=2 porque existen dos casos favorables, el 5 y el 6
n=6 que son los eventos posibles, las 6 caras del dado
entonces
P(X) = 2/6 = 0.3333 = 33.33%
Hemos calculado la probabilidad del evento antes lanzar el dado; en consecuencia,
tenemos una probabilidad teórica.
13. Debemos observar que al calcular esta probabilidad aceptamos que todas las
caras del dado (sus eventos posibles) tienen la misma probabilidad de ocurrir, 1/6.
¿Pero por qué asumimos que todos los eventos tienen la misma probabilidad? Esta
no es una pregunta trivial. De hecho, veremos que su respuesta constituye la base
conceptual que permite calcular cualquier probabilidad teórica. Además, según
vimos en la Lección 1, es uno de los conceptos científicos que más tiempo ha
tomado a la humanidad en formar.
En fin, para contestar la pregunta debemos estudiar uno de los fundamentos de la
teoría de la probabilidad: El Principio de razón insuficiente.
14. Pero antes, debemos recordar un concepto antecedente. En la ciencia un
principio es una proposición que debe aceptarse sin prueba empírica. La ciencia,
cualquier ciencia, se construye sobre proposiciones fundamentales cuya verdad
solo puede conocerse por intuición; estas proposiciones se llaman principios de la
ciencia.
Los principios no deben confundirse con los axiomas (de los que hablaremos más
adelante). Aunque ambos comparten el hecho de que deben aceptarse sin prueba
alguna, difieren en que los principios son proposiciones empíricas que hacen
referencia al mundo perceptible (mundo real, a veces preferimos llamarlo), mientras
que los axiomas son proposiciones lógicas, que se refieren al mundo de las ideas
(mundo ideal).
Ahora si veamos uno de los fundamentos de la teoría de la probabilidad.
El Principio de razón insuficiente

15. El Principio de razón insuficiente (también llamado Principio de indiferencia),
puede plantearse en una forma sencilla como sigue:
Cuando un fenómeno aleatorio está libre de sesgo (truco o carga), entonces
no existe razón suficiente para preferir a un evento cualquiera sobre los demás

28
eventos posibles. Esto es, a todos los eventos posibles debe asignársele la
misma probabilidad
16. Es decir, conforme a este principio, todos los eventos de un fenómeno aleatorio
son equiprobables.
Por ejemplo, si un dado de 6 caras no está sesgado, entonces todos sus eventos
tienen la misma probabilidad de ocurrir: P(X) = 1/6.
17. Este principio puede parecer demasiado simple, pero es una de bases sobre las
que construye toda la ciencia moderna. Conviene repetirlo una vez más: Como
vimos en la primera lección, le llevó miles de años a la humanidad llegar a formular
El Principio de razón insuficiente en forma matemática.
Digámoslo con claridad: el Principio de razón insuficiente es una de las fortalezas
que nos defienden de la superstición y de la magia.
La definición empírica de probabilidad
18. Pasemos ahora a estudiar la segunda forma de definir a la probabilidad. Desde
el enfoque a posteriori, la probabilidad empírica se define como:
En una serie real de ensayos de un fenómeno aleatorio, sea
f ≡ El número de veces que ocurrió el evento X
n ≡ El número total de ensayos ejecutados
entonces
P(X) = f/n
Ahora vemos que de lo que se trata es de calcular la probabilidad después de
ejecutar un determinado número de veces el fenómeno aleatorio.
19. Aunque las fórmulas para calcular la probabilidad teórica y la probabilidad
empírica son matemáticamente iguales (y así tiene que ser, porque la definición
matemática de probabilidad es una sola), al observar la definición de términos queda
claro que este enfoque es diametralmente opuesto al anterior.
20. Como se verá al avanzar en el curso, la definición empírica resulta fundamental
para el estudio científico del comportamiento.
Por ahora veamos un ejemplo. Supongamos que Juan es un empleado de cierta
empresa y nos interesa estudiar la probabilidad de que asista a su trabajo en días
laborables. Ante todo, tenemos que ver a la conducta de asistencia de Juan como
un fenómeno aleatorio, pues es evidente que no puede predecirse con certeza como
ocurre con los fenómenos deterministas.
Entonces, definimos los eventos posibles como: "asiste" y "no asiste". Ahora, si
intentáramos calcular la probabilidad teórica, tendríamos que aplicar el Principio de
razón insuficiente y, en consecuencia, aceptaríamos que la probabilidad de asistir
es la misma que la probabilidad de no asistir; por tanto, ambos eventos tendrían una
probabilidad del 50%.
Pero, con un conocimiento elemental de psicología, sabemos que esto es absurdo.
La conducta de asistencia al trabajo está fuertemente sesgada por el
condicionamiento a que son sometidos los trabajadores (de hecho, todos los seres
humanos). En consecuencia, no se cumple el insesgo, que es condición
indispensable del Principio de razón insuficiente. No podemos asumir
equiprobabilidad.
Tenemos que acudir a la segunda definición, la empírica. Supongamos que
revisamos las listas de asistencia del último año y encontramos que, de 187 días

29
registrados, Juan asistió en 182 y solo tuvo 5 faltas.

Obsérvese que estos son datos empíricos, provenientes de observaciones de la
realidad. Entonces:
Sea
X ≡ asistencia de Juan al trabajo
tenemos que
f = 182 eventos favorables, que es el número de veces que asistió;
n = 187 el total de ensayos realizados (días observados)
por tanto
P(X) = 182/187 = 0.9733
Es decir, Juan tiene una probabilidad del 97.33% de asistir a su trabajo. Un resultado
muy diferente al 50.00% que obtendríamos si calculásemos la probabilidad teórica.
21. Es claro que la probabilidad empírica nos permite predecir el comportamiento
de asistencia al trabajo de Juan. Aún más importante, a partir de este conocimiento
podemos generalizar: el enfoque a posteriori nos permite predecir comportamientos
a partir de la frecuencia con que han ocurrido en el pasado.
¿Pero cuál es el fundamento teórico de tal capacidad predictiva? Para contestar a
esta pregunta tenemos que estudiar otro principio básico.
El Principio de la frecuencia relativa

22. El cálculo de la probabilidad empírica se basa en el Principio de la frecuencia
relativa, que puede plantearse como sigue:
Dada una serie suficientemente grande de ensayos de un fenómeno aleatorio,
tiende a presentarse una regularidad estadística que permite estimar la
probabilidad de cualquiera de sus eventos posibles.
23. Una observación importante: en ciencias del comportamiento, cualquier línea
base en pretest es una aplicación directa del Principio de la Frecuencia Relativa.
24. Terminemos esta lección con otra pregunta fundamental, el Principio de la
frecuencia relativa supone un número suficientemente grande de ensayos. ¿Pero,
en términos operacionales, qué significa “suficientemente grande”? Para contestar
esta pregunta estudiaremos más adelante la Ley de los grandes números, un
constructo tan importante que requiere de una lección completa.
1. ¿Qué es un fenómeno determinista?
2. ¿Qué es un fenómeno aleatorio?
3. ¿Cuál es el principio en que se fundamenta la escuela subjetiva de la
probabilidad?
4. ¿Cuáles son los fundamentos de la escuela objetiva de la probabilidad?
5. ¿Qué es la teoría de la probabilidad?
6. ¿Qué es un ensayo?
7. ¿Qué es un evento?
8. Defina matemáticamente la probabilidad de un evento.

30
9. La definición matemática de probabilidad es una sola. Discuta esta proposición.

10. Defina matemáticamente la probabilidad teórica de un evento.
11. ¿Qué plantea el Principio de Razón Insuficiente?
12. El Principio de razón insuficiente es una fortaleza que defiende al pensamiento
humano de la superstición. Discuta esta afirmación.
13. Defina matemáticamente la probabilidad empírica de un evento.
14. ¿Qué plantea el Principio de la frecuencia relativa?
15. El Principio de la frecuencia relativa es una de las bases para el estudio científico
de la conducta. Discuta esta proposición.
16. Toda línea base conductual se fundamenta en el Principio de la frecuencia
relativa. Discuta esta proposición.
17. La definición matemática de probabilidad es una sola. Discuta esta proposición.
18. ¿Cuándo aplica el Principio de razón insuficiente y cuándo el Principio de la
frecuencia relativa?
Para aprender más
1. Entre los primeros estudios realizados para establecer el estado del arte en la
teoría de la probabilidad está el Ensayo filosófico sobre las posibilidades de
Laplace [1996], el cual fue publicado por primera vez en 1814. En este trabajo el
autor formula diez “Principios generales del cálculo de probabilidades”. Estudie
el segundo principio y explique por qué se le considera una de las primeras
formulaciones tanto del Principio de razón insuficiente, así como del Principio de
la frecuencia relativa, los cuales, según vimos en esta lección, constituyen bases
científicas para el estudio de la probabilidad.
2. Suponga que en una escuela nos interesa seleccionar una muestra de alumnos
para evaluar el funcionamiento del servicio de biblioteca.
a) ¿Cómo lo haría desde la escuela subjetiva?
b) ¿Cómo lo haría desde la escuela objetiva?
3. Desarrolle un ejemplo en el que se demuestre que la formación aleatoria de
grupos en un diseño experimental aplica el Principio de razón insuficiente.
4. Desarrolle un ejemplo en el que se demuestre que cualquier línea base utilizada
para el estudio del comportamiento está basada en el Principio de la frecuencia
relativa.
Ejercicios
2.1. La baraja española tiene 4 familias (oros, copas, espadas y bastos); cada
familia tiene 12 cartas. Suponga un mazo insesgado.
a) ¿Cuál es la probabilidad de extraer un 3 de espadas?
b) ¿Cuál es la probabilidad de extraer un oro?
c) ¿Qué principio se aplicó? Justifique su respuesta.
2.2. Después de un proceso de condicionamiento operante en un laberinto T, el
sujeto se somete a 87 ensayos y se encuentra que 81 veces va a la izquierda.

31
a) ¿Cuál es la probabilidad de que tome el camino de la derecha?

b) ¿Qué principio se aplicó? Justifique su respuesta.
c) En términos psicológicos, ¿cómo explicaría este resultado?

32
Lección 3. Axiomas
The theory of probability, as a mathematical discipline, can and should be
developed from axioms in exactly the same way as Geometry and Algebra.
This means that after we have defined the elements to be studied and their
basic relations, and have stated the axioms by which these relations are to
be governed,all further exposition must be based exclusively on these
axioms,independent of the usual concrete meaning of these elements and
their relations.8
Kolmogorov [1950: 1]
1. Ya vimos que un axioma es una proposición lógica o matemática que resulta

imposible de probar y debe aceptarse como verdadera solamente por intuición. Los
axiomas son verdades incuestionables dentro de cualquier teoría matemática y
constituyen su base última.
Una característica esencial de los axiomas es que son proposiciones muy simples,
es por ello que por pura intuición podemos aceptarlos como evidentemente
verdaderos.
2. Los axiomas constituyen los puntos iniciales y son, al mismo tiempo, los
fundamentos últimos para construir cualquier teoría matemática y establecen los
límites del conocimiento que ésta puede abarcar.
Decimos que son los puntos iniciales de cualquier teoría, porque es a partir de los
axiomas que deberán probarse las primeras proposiciones para construir la teoría;
en este sentido, son los fundamentos últimos, los cimientos más profundos de la
teoría matemática.
Por otra parte, decimos que establecen los límites de la teoría porque cualquier
proposición que contradiga un axioma debe inmediatamente desecharse como una
proposición falsa. Ninguna teoría matemática puede avanzar más allá de sus
axiomas. Cuando se presenta contradicción entre una proposición y los axiomas, o
la proposición es falsa o los axiomas deben revisarse; el segundo caso implicaría
revisar toda la teoría.
Tal es la importancia de los axiomas.
Los axiomas de la probabilidad

3. Fue Kolmogorov (1950) quien en 1933 formalizó los axiomas sobre los que se
construye la teoría de la probabilidad. En Landro y González [2011] puede
encontrarse un buen estudio sobre el tema.
4. Aquí los presentamos en forma sencilla.
AXIOMA 1. Si X es un evento cualquiera, entonces
P(X) ≥ 0
8
La teoría de la probabilidad, como disciplina matemática, puede y debe ser desarrollada a partir de axiomas,
exactamente de la misma forma en que ocurre con la Geometría y el Álgebra. Esto significa que, una vez que
se han definido los elementos que serán estudiados, así como sus relaciones básicas, y que se han establecido
los axiomas que gobernarán dichas relaciones, todo desarrollo posterior deberá basarse exclusivamente en tales
axiomas, independientemente del significado concreto que habitualmente demos a dicho elementos y a sus
relaciones. (Traducción del autor).

33
Este axioma establece que el límite inferior de cualquier probabilidad es cero; no

existen probabilidades negativas.
AXIOMA 2. Si S es el conjunto formado por todos los eventos posibles, entonces
P(S) = 1
Este axioma puede interpretarse de la siguiente manera: la suma de las
probabilidades de todos los eventos posibles de un fenómeno aleatorio es uno; en
términos más simples, al ejecutarse un ensayo necesariamente ocurrirá uno de sus
eventos posibles.
AXIOMA 3. Si X1, X2, ••• son eventos mutuamente excluyentes, entonces
P(X1X2•••) = P(X1)+P(X2)+•••
Este axioma establece que la probabilidad de que ocurra uno de varios eventos
mutuamente excluyentes es igual a la suma de las probabilidades de dichos
eventos. También se le conoce como Principio de la suma.
Corolarios
5. Un corolario es una proposición lógica o matemática que no requiere
demostración particular, porque su verdad se deriva directamente de otra
proposición que se acepta como válida; la proposición de la que se deriva un
corolario puede ser un axioma o un teorema.
De los tres axiomas anteriores podemos obtener dos corolarios importantes.
6. El COROLARIO DE LOS LÍMITES DE LA PROBABILIDAD
0 ≤ P(X) ≤ 1
Esto es, el valor que puede asumir cualquier probabilidad se encuentra entre cero y
uno.
Es claro que este corolario se deriva directamente de los axiomas 1 y 2.
Este corolario implica que, sin importar que sea lo que estemos haciendo en el
cálculo de probabilidades, si obtenemos como producto una probabilidad negativa
o bien una que exceda a la unidad, debe desecharse como errónea sin mayor
trámite.
Debe observarse que las probabilidades usualmente se procesan como
proporciones. Si se utilizan porcentajes, entonces naturalmente los límites de la
probabilidad estarán entre cero y cien.
7. El COROLARIO DEL COMPLEMENTO
Si X es cualquier evento y XC (que se lee "X-complemento") es el subconjunto de
eventos posibles diferentes de X, entonces
P(XC) = 1 – P(X)
Es decir, conocida la probabilidad de un evento X, entonces la probabilidad de que
ocurra cualquier otro evento posible, diferente a X, es su complemento a 1.
Este corolario de deriva de los axiomas 2 y 3.
Definiciones
8. Diremos que X es un evento imposible cuando
P(X) = 0
Lo cual es congruente con el concepto de cero, interpretado como ausencia de
aquello que se mide. Si la probabilidad de X es cero, entonces el evento X no tiene
probabilidad de ocurrir.
9. Diremos que X es un evento seguro cuando
P(X) = 1

34
Es decir, si el valor de la probabilidad de un evento es uno, entonces ese evento

necesariamente ocurrirá.
Este es un caso que presenta mayor complejidad conceptual. En la primera lección
de este curso revisamos los conceptos de determinismo versus probabilismo. Aquí
vemos con claridad que "evento seguro" realmente es un sinónimo de "fenómeno
determinista".
Este no es un concepto simple. Para comprenderlo realmente se requiere de mucha
reflexión, porque sus implicaciones filosóficas son enormes, sobre todo para la
epistemología de la ciencia.
Piénsese simplemente en lo siguiente: para que un evento sea seguro es necesario
que sea un evento compuesto por dos o más eventos simples; un evento simple no
puede ser un evento seguro porque se estaría contradiciendo la definición de
fenómeno aleatorio como aquel que ofrece dos o más eventos posibles. Solo los
fenómenos deterministas permiten hablar de un evento seguro.
10. En resumen, la probabilidad oscila en el rango de cero (evento imposible) a uno
(fenómeno determinista).
Sin embargo, la probabilidad es asintótica, porque en condiciones reales (y más allá
de casos de reducción al absurdo) nunca alcanza los límites, por más que se
aproxime a ellos. En otras palabras, si evitamos cae en falacias, un evento nunca
podrá tener probabilidad de cero o de uno.
*
Estos son los cimientos sobre los que se construye la teoría de la probabilidad.
Estudiarlos a fondo nos permitirá comprender las siguientes lecciones y, mucho más
importante, entender el estudio científico del comportamiento. Ninguna ciencia
puede prescindir de la matemática y estas son las bases mismas de la matemática
del comportamiento.
1. ¿Qué es un axioma?
2. ¿Qué establece el primer axioma de la probabilidad?
3. ¿Qué establece el segundo axioma de la probabilidad?
4. ¿Qué establece el tercer axioma de la probabilidad?
5. ¿Qué es un corolario?
6. ¿Qué establece el corolario de los límites de la probabilidad?
7. ¿Qué establece el corolario del complemento?
8. Defina evento imposible.
9. Defina evento seguro.
Para aprender más
1. Ninguna teoría matemática puede ir más allá de sus axiomas. escriba un ensayo
discutiendo esta proposición.
2. Podemos interpretar a la probabilidad como un espacio acotado a la izquierda
por cero y a la derecha por uno. Escriba un ensayo analizando esta proposición.

35
3. Explique conceptualmente por qué en ningún caso real un evento puede

alcanzar los límites de la probabilidad y relaciónelo con el concepto de asintotía.
Ejercicios
3.1. Suponga que realizamos un complejo cálculo y llegamos al punto en que
P(X) = 0.6521 – 0.7416
¿Qué debería concluir con base en los axiomas de la probabilidad? Justifique su
respuesta.
3.2. En una encuesta, definimos al estado civil como una variable nominal con las
categorías:
C = {soltero, casado, otro}
y encontramos las siguientes probabilidades:
P(soltero) = 0.4231
P(casado) = 0.4283
P(otro) = 0.3256
¿Qué debería concluir con base en los axiomas de la probabilidad? Justifique su
respuesta.
3.3. Cierta fábrica tiene los siguientes trabajadores por sección:
Producción: 89
Mantenimiento: 36
Vigilancia: 18
Transporte: 10
Se sorteará un premio. ¿Cuál es la probabilidad de que lo gane un trabajador que
no sea de producción?

36
Lección 4. El espacio muestral

Et ainsi les actions de la vie ne souffrant souvent aucun délai, c’est une
vérité très certaine que, lorsqu’il n’est pas en notre pouvoir de discerner les
plus vraies opinions, nous devons suivre les plus probables 9...
Descartes [1824: 149]
1. Ya vimos que a los posibles resultados de un fenómeno aleatorio se les llama

eventos. También se les conoce como sucesos o acontecimientos, pero en este
curso seguiremos llamándolos eventos.
Para analizar cualquier fenómeno aleatorio lo primero que debe hacerse es definir
con claridad los eventos que pueden ocurrir cuando se realiza un ensayo. Veamos
una tipología que resultará necesaria más adelante.
Tipos de eventos
Los eventos se pueden clasificar en tipos conforme a diversos criterios. Veamos
algunos que serán importantes para este curso.
2. Eventos discretos y eventos continuos:
Un fenómeno aleatorio tiene eventos discretos cuando, dados dos eventos
cualesquiera, no pueden realizarse subdivisiones entre sus valores.
Por ejemplo, en el lanzamiento de una moneda existen dos eventos, cara y cruz,
tales eventos no pueden subdividirse; ocurre uno o bien ocurre el otro; no hay
valores intermedios.
Un fenómeno aleatorio tiene eventos continuos cuando, dados dos valores
cualesquiera, pueden realizarse entre ellos un número infinito de subdivisiones.
En consecuencia, para poder medirlo un evento continuo siempre es un intervalo,
no importa lo pequeño que pueda ser.
Por ejemplo, si nos interesa el momento en que se presenta una persona a su
trabajo, podemos definir la medida en minutos, o en segundos, o en décimas de
segundo y así sucesivamente, sin más límite que la precisión del instrumento de
medición que utilicemos. Aquí lo que debe entenderse claramente es que cualquier
unidad de medida que elijamos es realmente un intervalo; un minuto constituye un
intervalo de sesenta segundos, un segundo es un intervalo de diez décimas de
segundo, etc.
3. Eventos simples y eventos compuestos:
Un evento simple, también llamado elemental, es aquel que no puede
descomponerse en otros eventos.
Por ejemplo, si luego de lanzar un dado ocurre la cara 4, este es un evento simple
porque no puede descomponerse en más eventos.
Un evento compuesto es aquel que puede descomponerse en eventos más
simples.
9
Y así, como las acciones de la vida a menudo no toleran demora, es una verdad muy cierta que cuando no
está en nuestro poder determinar lo que es cierto, debemos seguir lo más probable... (traducción del autor).

37
Por ejemplo, en un juego de póquer una mano es un evento compuesto, porque

puede descomponerse en las cinco cartas que componen la mano; cada carta es
un evento simple.
4. Eventos excluyentes y eventos incluyentes.
Dos o más eventos son excluyentes (a veces se dice que son mutuamente
excluyentes) si en un ensayo la ocurrencia de uno cualquiera impide
necesariamente la ocurrencia del resto. En otras palabras, los eventos excluyentes
no pueden ocurrir simultáneamente.
Por ejemplo, al lanzar un dado los eventos son excluyentes porque cualquier cara
que ocurra necesariamente excluye al resto de caras.
Dos o más eventos son incluyentes si la ocurrencia de uno implica necesariamente
la ocurrencia de otro u otros.
Por ejemplo, si la lanzar dos dados la suma de sus caras es 8 y un dado cayó 6,
entonces necesariamente el segundo dado debe haber caído 2.
5. Eventos independientes y eventos dependientes.
Dos o más eventos son independientes cuando la ocurrencia de uno no afecta en
forma alguna a la ocurrencia del otro.
Por ejemplo, si lanzamos una moneda y la volvemos a lanzar, el segundo
lanzamiento es independiente del primero: no hay ninguna razón para que lo que
haya ocurrido en el primer lanzamiento afecte a lo que ocurra en el segundo.
Dos o más eventos son dependientes cuando la ocurrencia de uno es afectada por
la ocurrencia del otro.
Por ejemplo, si en un juego de póquer sale un rey, para la segunda extracción se
habrá reducido la probabilidad de que salga otro rey.
El espacio muestral
6. Al espacio muestral a veces se le llama espacio de sucesos, espacio de eventos,
universo de eventos o espacio de probabilidad. Aquí lo llamaremos espacio
muestral.
El espacio muestral de un fenómeno aleatorio es el conjunto formado por todos los
eventos posibles.
Este es un concepto fundamental. Para analizar científicamente cualquier fenómeno
aleatorio, lo primero que debe hacerse es precisar cuáles son los eventos que
pueden ocurrir.
7. Todo espacio muestral se construye a partir de la definición operacional de la
variable eventos.
Veamos un ejemplo sencillo de lo que esto significa. Supongamos el lanzamiento
de un dado de seis caras y consideremos dos distintas definiciones del espacio
muestral.
a) Definimos como evento al número de la cara que quede arriba. Entonces
S = {1, 2, 3, 4, 5, 6}
b) Nos interesa que el número de la cara que quede arriba sea par o impar. Entonces
S = {Par, Impar}
Vemos que cambiando la definición de los eventos cambia radicalmente la
naturaleza del fenómeno aleatorio.
El tamaño del espacio muestral

38
8. El espacio muestral es un conjunto. Su cardinal, es decir, el número de elementos

que lo componen, es su tamaño, un término básico en la definición de probabilidad,
como ya vimos en [2: 9] donde lo llamamos n.
Así, en los ejemplos del párrafo anterior:
S = {1, 2, 3, 4, 5, 6} y por tanto n = 6
S = {Par, Impar} y por tanto n = 2
Lo que determinará cualquier análisis que se realice posteriormente.
Es claro que la definición del espacio muestral determina todo el proceso de
razonamiento para calcular probabilidades.
En cualquier caso, el tamaño de un espacio muestral es afectado por el tipo de
variable que conforma sus eventos. Con este criterio, pueden identificarse tres tipos
de espacio muestral.
9. Un espacio muestral finito numerable está formado por eventos que constituyen
una variable discreta y, además, podemos determinar cuántos elementos lo forman.
Su representación general sería:
S = {X1, X2, X3, •••, Xn}
Por ejemplo, una baraja española tiene 48 cartas; por tanto, existen n = 48 eventos
posibles.
10. Un espacio muestral es infinito numerable cuando los eventos constituyen una
variable discreta, por lo que podemos contar sus elementos asignando a cada uno
un número natural; pero es infinito porque no podemos establecer el cardinal del
conjunto, es decir, no podemos decir cuál es su número de elementos. Su
representación general sería:
S = {X1, X2, X3, •••}
Por ejemplo, en un puesto de observación podemos contar el número de personas
que pasarán por una puerta de acceso al tren subterráneo, pero no podemos decir
cuál será el número de personas que pasarán. Estamos ante un conjunto numerable
porque podemos contar a las personas, pero para fines prácticos tenemos que
considerarlo infinito porque no podemos establecer su cardinal.
11. Un espacio numeral es infinito no numerable cuando los eventos constituyen
una variable continua y por tanto no podemos contar los elementos asignándoles
un número natural.
S = {X | X es un número real}
Para poder trabajar con espacios infinitos no numerables la variable continua debe
transformarse en discreta construyendo una escala intervalar. Por supuesto, al
convertir una variable continua en discreta se introduce un error, lo cual reduce la
precisión al bajar del nivel de razón al nivel intervalar. Realmente esto es lo que
siempre hacemos al medir variables continuas.
Por ejemplo, al medir estatura en centímetros, aunque no lo parezca estamos
construyendo una escala intervalar porque cada unidad de medida, cada
centímetro, realmente es un intervalo de diez milímetros. Cuando decimos que Juan
mide 173 cm de estatura, lo que realmente decimos es que su estatura está entre
172.5 cm y 173.4 cm, sin que podamos precisar qué valor adopta dentro del
intervalo.
Desde luego, lo mismo ocurre con muchas otras variables como el tiempo, el
cociente intelectual (CI), el cociente de memoria (CM) y muchas otras que son de
naturaleza continua.

39
Representación de los espacios muestrales

El espacio muestral de un fenómeno aleatorio puede representarse de varias
formas. Veremos tres de las más usadas.
12. La notación de conjuntos, presenta una lista ordenada de los eventos posibles
encerrada entre llaves. Es particularmente útil cuando el espacio muestral se
compone de pocos eventos.
Por ejemplo, suponga el lanzamiento de una moneda, entonces:
S = {H, T}
13. La representación gráfica utiliza espacios cartesianos y se aplica
principalmente cuando el espacio muestral se compone de eventos compuestos.
Los eventos simples que integran cada evento compuesto constituyen dimensiones
en el espacio de representación. En tal caso cada eje de la gráfica representa a uno
de los eventos simples que integran el evento compuesto que se representa.
Por ejemplo, suponga el lanzamiento de dos monedas, entonces:
m2
T HT TT
H HH TH
m1
H T
4.1 El espacio muestral del

lanzamiento de dos monedas
En este ejemplo solo tenemos dos dimensiones, pero es claro que conforme
aumenta el número de eventos simples que integran cada evento compuesto
aumentará también el número de ejes en la gráfica, con lo que este tipo de
representación resulta excesivamente complicada cuando se trabaja con más de
tres dimensiones.
14. La representación por árboles es, probablemente, la más poderosa para
analizar espacios muestrales. Es particularmente útil cuando se representan
eventos compuestos, cuyos eventos simples se presentan en etapas sucesivas. Los
árboles se construyen de izquierda a derecha, comenzando en la raíz y terminando
en el último nivel de hojas.
Tres propiedades de los árboles de eventos resultan de gran importancia para
comprender y utilizar adecuadamente esta forma de representación cuando se
analizan espacios muestrales:
a) La raíz tiene un valor de n.
b) Cualquier nivel de ramas suma n.
c) La suma de los nodos-hijo es igual al valor del nodo-padre.
Es obvio que tales propiedades se ajustan al axioma del espacio muestral.
Por ejemplo, suponga que en una escuela preparatoria en primer grado hay 38

40
hombres y 40 mujeres; en segundo hay 29 hombres y 34 mujeres; en tercer grado

hay 30 hombres y 36 mujeres. Entonces, el espacio muestral es:
Hombre
38
Primero
78
Mujer
40
Hombre
29
Escuela Segundo
207 63
Mujer
34
Hombre
30
Tercero
66
Mujer
36
4.2. El espacio muestral de la matrícula de una escuela
Más adelante se utilizarán estos tipos de representación en aplicaciones prácticas.

Desde luego, existen otras formar de representar espacios muestrales, pero las
que vimos aquí probablemente son las más usuales
1. ¿Cuándo se dice que los eventos son discretos?
2. ¿Cuándo se dice que los eventos son continuos?
3. ¿Cómo se mide en la práctica cualquier variable continua?
4. Es imposible eliminar por completo el error al medir variables continuas. Discuta
esta proposición.
5. ¿Qué es un evento simple?
6. ¿Qué es un evento compuesto?
7. ¿Cuándo se dice que dos eventos son excluyentes?
8. ¿Cuándo se dice que dos eventos son incluyentes?
9. ¿Cuándo se dice que dos eventos son independientes?

41
10. ¿Cuándo se dice que dos eventos son dependientes?

11. ¿Qué es un espacio muestral?
12. Explique el papel de la definición operacional en la construcción del espacio
muestral.
13. ¿Qué es el tamaño de un espacio muestral?
14. ¿Qué es un espacio muestral finito numerable?
15. ¿Qué es un espacio muestral infinito numerable?
16. ¿Qué es un espacio muestral infinito no numerable?
17. ¿Cuándo resulta más útil la notación de conjuntos para representar espacios
muestrales?
18. ¿Cuándo resultan más útiles las gráficas para representar espacios muestrales?
19. ¿Cuándo resultan más útiles los árboles para representar espacios muestrales?
20. ¿En qué dirección se construyen los árboles para representar un espacio
muestral?
21. ¿Cuánto vale la raíz en un árbol que represente un espacio muestral?
22. ¿Cuánto vale cualquier nivel de ramas en un árbol que represente un espacio
muestral?
23. ¿Cuánto suma cualquier subconjunto de nodos-hijo en un árbol que represente
un espacio muestral?
Para aprender más
1. Existen cinco poliedros convexos regulares a los que se llama sólidos platónicos
o, más comúnmente, dados. Explique cuáles son, construya sus espacios
muestrales y, aplicando el Principio de Razón Insuficiente, demuestre que en los
cinco casos los espacios muestrales son equiprobables.
2. Demuestre que las tres propiedades vistas en [14] cumplen el axioma del
espacio muestral.
3. Explique la relación entre cardinalidad de un espacio muestral y el árbol que lo
representa.
Ejercicios
4.1. Suponga una botella con ocho bolillas numeradas.
Utilice la notación de conjuntos para representar el espacio muestral.
4.2. Suponga una fila de clientes que pasa por el control de acceso a un estadio
deportivo.
4.3. Suponga que en un programa de reforzamiento el tiempo de respuesta se
define en intervalos de 90 segundos.
4.4. Suponga el lanzamiento simultáneo de dos dados de ocho caras.
a) Represente gráficamente el espacio muestral.

42
b) ¿Cuál es la probabilidad de que la suma de las caras sea 6? Aplique el principio

de la suma.
4.5. Una empresa cervecera tiene un total de 294 empleados, distribuidos en cuatro
secciones como sigue: 1) Administración tiene un total de 21 empleados; 2)
Producción tiene 123 obreros y 20 supervisores; 3) Suministros tiene 12 empleados
en almacén, 21 en distribución y 5 en transporte; y 4) Ventas tiene 92 empleados,
81 de los cuales son de campo y el resto son coordinadores. Represente con un
árbol el espacio muestral.
a) Represente el espacio muestral mediante un árbol.
b) ¿Cuál es la probabilidad de extraer al azar a un empleado de Almacén o de
Transporte?

43
Lección 5. Técnicas de conteo

The formalists have forgotten that numbers are needed, not only for doing
sums, but for counting10.
Russell [1938: vi]
1. Hemos visto que la definición de probabilidad se basa en el número de eventos

posibles [2:9]. Esto implica que para calcular una probabilidad se requiere contar
dos conjuntos:
a) El tamaño del espacio muestral (N); es decir, el número de eventos posibles en
el fenómeno aleatorio.
b) El número de eventos favorables (f); esto es, el número de veces que puede
ocurrir el evento de interés.
Es importante observar que los eventos favorables constituyen un subconjunto del
espacio muestral, es decir: fN.
En los espacios muestrales finitos numerables [4: 9], tanto N como f son cardinales
y, por tanto, números naturales en el subconjunto N = {2, 3, •••}, que se obtienen
contando los elementos que los componen.
2. Cuando se trabaja con eventos simples, en la mayoría de los casos el conteo es
directo. Pero cuando se tienen eventos compuestos, determinar el número de
eventos posibles (N) y el número de eventos favorables (f) puede llegar a ser tan
complicado que ya no resulte factible representarlos y simplemente contar evento
por evento; entonces se requiere de análisis.
3. Como vimos en la lección anterior, un espacio muestral formado por eventos
compuestos, los cuales pueden descomponerse en dos o más eventos simples,
puede representarse mediante conjuntos, gráficas o árboles [4:12 – 4:14] y a partir
de ahí contar los eventos posibles.
La representación gráfica es sencilla cuando los eventos se componen por dos
eventos simples, es decir, cuando tienen 2 dimensiones. Pero cuando se tiene un
espacio muestral de 3 dimensiones aumenta considerablemente la dificultad de
representarlo. A partir de 4 dimensiones las representaciones gráficas
sencillamente dejan de ser útiles. Por ejemplo, intente representar gráficamente el
espacio muestral del lanzamiento simultaneo de 4 dados de 6 caras; pronto se dará
cuenta de que resulta demasiado complicado. Ya no hablemos de lanzar 8 dados.
Con la representación por árboles, tarde o temprano ocurre algo similar. Intente
representar un espacio muestral con 8 dimensiones en el primer nivel de ramas y
verá que resulta muy poco práctico.
4. Sin embargo, los problemas que se enfrentan en el cálculo de probabilidades en
situaciones reales, con frecuencia requieren tratar con muchas más de 8
dimensiones. Por ejemplo, si se tiene una población con 100 alumnos y se quieren
tomar muestras de 12 alumnos, cada muestra sería un evento compuesto y por
tanto el espacio muestral tendría 12 dimensiones. Intentar su representación
10
Los formalistas han olvidado que los números son necesarios no solo para hacer sumas, sino también para
contar. (Trad. del autor)

44
mediante un conjunto, una gráfica o un árbol simplemente no tiene sentido. Y debe

considerarse que en condiciones reales las poblaciones suelen tener mucho más
de 100 elementos y las muestras más de 12.
5. Sin embargo, debe quedar claro que para calcular probabilidades no necesitamos
representar el espacio muestral formado por eventos compuestos, para
identificarlos uno por uno. Lo que necesitamos es saber cuántos son. Es decir, se
trata de contarlos. En consecuencia, lo que necesitamos son formas eficientes para
contar.
6. Las técnicas de conteo, son procedimientos matemáticos derivados del análisis
combinatorio que permiten contar los eventos compuestos que integran un espacio
muestral.
Estas técnicas permiten calcular la cardinalidad de cualquier conjunto y son
particularmente poderosas cuando se trabaja con eventos compuestos. Las
técnicas de conteo permiten establecer N o f, independientemente del tamaño del
espacio muestral y del número de eventos simples que compongan a cada evento
compuesto, y no requieren de elaborar listas o representaciones gráficas.
Existen muchas técnicas de conteo, tantas como formas de arreglar los elementos
de un conjunto hay. Veamos las que aplicaremos en este curso.
Principio fundamental del conteo
7. Si tenemos eventos compuestos por r eventos simples, donde el primer evento
simple puede ocurrir n1 veces, el segundo puede ocurrir n2 veces y así
sucesivamente hasta nr, entonces el número de eventos compuestos N del espacio
muestral está dado por:
N = n1n2•••nr
Por ejemplo, en el lanzamiento de 2 monedas hay r = 2 eventos simples; la primera
moneda tiene n1 = 2 eventos simples (H, T) y la segunda moneda tiene el mismo
número de eventos simples, n2 = 2; por tanto, el número de eventos compuestos es
N = n1n2 = 22 = 4
lo que puede confrontarse con [4:13].
Principio de la multiplicación
8. Del Principio fundamental del conteo se deriva el Principio de la multiplicación de
probabilidades.
Si se tienen n eventos independientes entre sí, la probabilidad de que ocurra un
evento compuesto por los n eventos está dada por su multiplicación. Esto es:
P(X1X2•••Xr) = P(X1) P(X2)•••P(Xr)
Por ejemplo, si se lanza dos veces una moneda, la probabilidad de que ocurra el
evento compuesto (H, H) está dada por:
P(HH) = P(H)P(H) = 1/21/2 = 1/4 = 0.25
Factorial
9. Recordemos el concepto de factorial. El factorial de un número entero positivo,
denotado por N!, está dado por:
N! = N(N-1)(N-2)•••1
se definen como casos particulares

45
0! = 1! = 1.
Por ejemplo, el factorial de 6 es
6! = 654321 = 720.
Permutaciones
10. Las permutaciones son subconjuntos ordenados de un espacio muestral. Las
permutaciones pueden verse como eventos compuestos en los que importa el orden
que ocupan los eventos simples.
El número total de permutaciones de tamaño r que pueden obtenerse de un espacio
muestral de tamaño N está dado por:
Sea
NPr ≡ N objetos permutados de r en r
entonces
NPr = N!/(N-r)!
Por ejemplo, si tenemos un grupo de 4 alumnos y tomaremos muestras de tamaño
2, tendríamos
4P2 = 4!/(4-2)! = 24/2 = 12
que serían las muestras
(1,2)(1,3)(1,4)(2,1)(2,3)(2,4)(3,1)(3,2)(3,4)(4,1)(4,2)(4,3)
donde observamos que (1,2)  (2,1) porque en las permutaciones importa el orden.
Es claro que, en este ejemplo, 12 es la cardinalidad del espacio muestral donde
N = 12 y cada pareja es un evento compuesto. Además, puesto que X i representa
a cada elemento del espacio muestral (a cada pareja), entonces P(X i) = 1/12.
Combinaciones
11. Las combinaciones son subconjuntos no ordenados de un espacio muestral.
El concepto es similar al de permutaciones, excepto que aquí no importa el orden.
12. El número total de combinaciones está dado por
NCr = N!/((N-r)!r!)
Con el mismo ejemplo de [8], pero ahora sin orden, tenemos
4C2 = 4!/((4-2)!2!) = 24/(22) = 6
que ahora serían las muestras
(1,2)(1,3)(1,4)(2,3)(2,4)(3,4)
se observa que ahora eliminamos (2,1) porque es igual a (1,2), puesto que en las
combinaciones no importa el orden; del mismo modo eliminamos todas las que
parejas (en general, los eventos compuestos) que se repiten.
Ahora, puesto que N = 12, la probabilidad de cada evento es P(Xi) = 1/6.
*
Ahora disponemos de las técnicas básicas para calcular el número de eventos en
fenómenos aleatorios.
1. El espacio muestral y los eventos favorables son conjuntos. ¿Cuáles son sus
cardinales?
2. El espacio muestral y los eventos favorables son conjuntos. ¿Cómo se

46
relacionan?
3. Las representaciones por conjuntos, gráficas o árboles son útiles para
conceptuar un fenómeno aleatorio formado por eventos compuestos, pero
resultan ineficaces conforme crece el tamaño y la complejidad del espacio
muestral. Discuta esta proposición.
4. Para calcular probabilidades no se requiere representar los espacios muestrales.
Discuta esta proposición.
5. ¿Qué son las técnicas de conteo?
6. ¿Para qué se aplican las técnicas de conteo en la teoría de la probabilidad?
7. ¿Tendría sentido aplicar las técnicas de conteo a espacios muestrales formados
por eventos simples?
8. Explique el Principio fundamental del conteo.
9. Explique el Principio de la multiplicación en la teoría de la probabilidad.
10. Explique el concepto de factorial de un número.
11. Explique el concepto de permutaciones en el análisis combinatorio.
12. Explique el concepto de combinaciones en el análisis combinatorio.
13. Explique la diferencia conceptual entre permutaciones y combinaciones.
Para aprender más
1. Dijimos en [5:1] que “…los eventos favorables constituyen un subconjunto del
espacio muestral es decir: fS.” Demuestre que esta proposición es cierta.
2. También dijimos en [5:1] que el tamaño del espacio muestral es un número
natural en el subconjunto N = {2, 3, •••}. ¿Por qué no inicia en un número menor?
3. Una cuestión más sobre [5:1]. ¿Qué ocurre cuando se trabaja con espacios
muestrales infinitos no numerables, es decir, con variables continuas?
4. Cuando revisamos antecedentes históricos de la teoría de la probabilidad, vimos
que una de las primeras grandes formalizaciones matemáticas cristalizó en el
Triángulo de Pascal [1:18]. Aplicando lo visto en [5: 9-10] muestre cómo calcular
las primeras 5 filas de dicho triángulo utilizando Excel.
5. Explique por qué aplican combinaciones y no permutaciones para construir el
Triángulo de Pascal.
Ejercicios
5.1. Se lanza un dado de seis caras y una moneda:
a) Represente gráficamente el espacio muestral y determine N.
b) Determine N aplicando el Principio fundamental del conteo.
5.2. Se lanzan simultáneamente 3 monedas. Aplique el Principio fundamental del
conteo para calcular el número de eventos compuestos que pueden ocurrir.
5.3. Calcule el factorial de 47. Escriba el resultado con notación exponencial.
5.4. Tenemos un grupo de 7 alumnos. Para un experimento extraeremos
aleatoriamente muestras de 2 alumnos, en las que el primero será asignado a la

47
condición experimental y el segundo será control. Calcule el número de muestras

que pueden formarse. Aplique las permutaciones y justifíquelo.
5.5. Tenemos el mismo espacio muestral que en el Ejercicio 5.4, pero ahora la
pareja se asignará a la condición experimental. Calcule el número de muestras que
pueden formarse. Aplique las combinaciones y justifíquelo.

48
Lección 6. Distribuciones de probabilidad

Nada es más práctico que una buena teoría.
Frase popularizada por Kurt Lewin
1. Para construir el concepto de distribución de probabilidad se requieren tres

conceptos antecedentes, que ya hemos visto: evento, espacio muestral y
probabilidad de un evento.
A partir de estos conceptos, definimos a una distribución de probabilidad como el
conjunto formado por todos los eventos del espacio muestral, indicando la
probabilidad asociada a cada uno de los eventos; esto es, una distribución de
probabilidad es el conjunto de n-adas [Xi, P(Xi)].
Toda distribución de probabilidad debe cumplir dos condiciones:
a) Para todo Xi se cumple que [0<P(Xi)<1].
b) ∑P(Xi) = 1
Observe que, conforme a los axiomas de la probabilidad, la primera condición exige
que P(Xi) no sea cero, pues en tal caso estaríamos ante un evento imposible;
tampoco puede alcanzar el valor de uno porque en este caso estaríamos ante un
evento determinista.
La segunda condición cumple con el axioma del espacio muestral [3:4].
2. Existen dos tipos de distribuciones de probabilidad, según el tipo de variable
aleatoria involucrada:
a) Distribuciones discretas
b) Distribuciones continuas
Para recordar la diferencia entre variable discreta y variable continua puede
consultarse a López (2013).
3. Respecto a los datos con que se construyen, las distribuciones de probabilidad
pueden clasificarse en dos tipos:
a) Distribuciones empíricas, también llamadas distribuciones libres, son
aquellas que se construyen con datos obtenidos por medición directa de una
variable. Las distribuciones empíricas de probabilidad se construyen
dividiendo la frecuencia de cada evento (que es el número de eventos
favorables observados) entre el total de eventos (n, la suma de frecuencias,
el total de eventos posibles), lo cual es una aplicación de la definición
matemática de probabilidad.
b) Distribuciones teóricas, también llamadas modelos de distribución: Son
modelos matemáticos que, a partir de parámetros determinados, permiten
calcular la probabilidad de cualquier evento en el espacio muestral. Las
distribuciones teóricas son de gran importancia para la inferencia estadística,
pero debe tenerse claro que solo son aproximaciones a la realidad, solo la
modelan; sin embargo, su aproximación puede ser tan buena que permite
hacer predicciones y suposiciones con un margen de error suficientemente
pequeño para que resulten aceptables. Las distribuciones teóricas de
probabilidad se construyen a partir de una función de distribución.

49
Veamos ejemplos de ambos tipos.

Distribuciones empíricas discretas
4. Toda distribución empírica discreta tiene la forma general:
X P(Xi) P acum
X1 P(X1)
X2 P(Xi)+P(Xi-1)
... P(Xi)+P(Xi-1)
Xn 1.0000
5. Un ejemplo. Suponga que se ha aplicado un examen de admisión durante cinco
años y el dictamen obtenido es la variable de estudio, medida en tres categorías:
1 ≡ No aceptado
2 ≡ Suficiente
3 ≡ Sobresaliente
Se aceptará a los candidatos que obtengan dictamen mínimo de 2. Los resultados
acumulados que se han obtenido son:
Dictamen Frecuencia
1 2 939
2 941
3 52
¿Cuál es la probabilidad de que un aspirante sea aceptado?
Primero construyamos la distribución de probabilidad. Vemos que la suma de
frecuencias es n = 3 932; por tanto, la probabilidad de cada dictamen es su
frecuencia entre n. Por ejemplo,
P(1) = 2939/3932 = 0.7475
calculando así, se obtiene la siguiente distribución de probabilidad:
X P(X) P acum
1 0.7475 0.7475
2 0.2393 0.9868
3 0.0132 1.0000
Utilizando la distribución, contestemos la pregunta ¿cuál es la probabilidad de que
un estudiante sea aceptado?
P(23) = P(2)+P(3) = 0.2393+0.0132 = 0.2525 = 25.25%
Observaciones:
a) Tenemos una distribución empírica, porque los datos son producto de la
medición de la variable en casos reales.
b) Es, también, una distribución discreta porque los valores de X no pueden
subdividirse.
c) Se cumplen las condiciones vistas en [6:1].
d) Como se vio en [2:7], P(X) = f/n.
6. En resumen, para construir una distribución de probabilidad empírica se parte de
datos obtenidos de medir una variable y, a partir de su distribución de frecuencias,
se calcula la probabilidad de cada evento.
Esto es, toda distribución de probabilidad empírica se obtiene a partir de una

50
distribución de frecuencias. Por cierto, esto es lo mismo que se hace para construir
una distribución de proporciones, lo que implica que toda probabilidad es una
proporción, y viceversa.
Distribuciones empíricas continuas
7. Debe partirse del principio de que, en la realidad, en la práctica, es imposible
medir una variable continua como tal. Toda variable continua necesariamente tiene
que ser transformada en discreta mediante una definición operacional
Piénsese, por ejemplo, que se trata de medir el cociente intelectual definido como:
CI = EdadMental / EdadCronológica.
Claramente, se trata de una variable continua. Sin embargo, en la práctica el CI se
mide en enteros, lo que significa que cualquier puntaje en realidad es un intervalo
cuyos límites se definen operacionalmente. Por ejemplo, el CI=121 se define como:
Si [120.5CI121.4] entonces CI = 121
Suponiendo que redondeamos el CI a un dígito decimal; sin embargo, cualquiera
que fuera el número de decimales que quisiéramos tomar, el principio sería el
mismo.
En consecuencia, una distribución empírica continua se construye con los mismos
criterios que se aplican a una distribución empírica discreta, pero los eventos son
intervalos y el espacio muestral está dado por el conjunto de intervalos definidos en
la población medida.
8. Por tanto, una distribución empírica continua toma la forma general:
X P(Xi) P acum
X1 p(X1)
X2 P(Xi)+P(Xi-1)
... P(Xi)+P(Xi-1)
Xn 1.0000
La estructura es análoga a la que vimos en el caso discreto, pero existe una
diferencia conceptual de gran importancia: En el caso continuo todo X i es un
intervalo limitado por la izquierda por el límite inferior exacto y por la derecha por el
límite superior exacto.
No debe olvidarse que, conforme a la teoría de la medición, todos los intervalos
deben ser distancias numéricamente iguales; además, para ser operacionales, debe
practicarse entre ellos una cortadura como la vista en el párrafo anterior, de manera
que la variable continua se transforma en discreta y cualquier valor real queda en
un intervalo o en el siguiente, pero nunca en ambos.
Distribuciones teóricas
9. Toda distribución teórica es realmente un modelo matemático abstraído de la
realidad. Este modelo se utiliza para confrontarlo con casos reales, es decir, con
distribuciones empíricas.
Debe observarse que una distribución empírica concreta, obtenida de mediciones
en la realidad, casi nunca es idéntica a un modelo de distribución determinado.
Vemos que toda medida obtenida en la realidad se aproxima, pero no suele ser igual
a los modelos matemáticos.
Sin embargo, en muchos casos el ajuste entre ciertos fenómenos conductuales y

51
ciertas distribuciones teóricas es tan bueno que podemos utilizar el modelo (con el
enorme poder de cálculo que éste conlleva) para realizar operaciones sobre datos
empíricos, lo que permite solucionar no pocos casos de gran utilidad práctica.
Este es el enfoque con el que se abordan las distribuciones teóricas de probabilidad
en este curso: más que profundizar en los aspectos matemáticos, nos centraremos
en sus aplicaciones prácticas.
10. Una distribución teórica queda definida por:
a) La definición de la variable aleatoria.
b) La función de distribución que permite el cálculo de la probabilidad de
cualquier evento o grupo de eventos.
c) Sus parámetros, que generalmente son media y varianza.
No obstante, la función de distribución puede resultar tan compleja que resulte difícil
calcular probabilidades, por lo cual se pueden calcular sus valores y presentarlos
en forma de tablas que permiten facilitar cálculos en la práctica. Pero actualmente
se dispone de software que permite el cálculo directo y elimina la necesidad de
consultar tablas.
11. Existe una gran cantidad de distribuciones teóricas o modelos de probabilidad.
En este curso solo veremos algunas de las más utilizadas en las ciencias del
comportamiento. Si se logra comprender la naturaleza de estos modelos, podrán
comprenderse cualesquiera otras distribuciones teóricas.
Comencemos por ver el caso más elemental, la distribución uniforme, y veámosla
en sus versiones discreta y continua. Aunque realmente tiene poco interés práctico,
su estudio puede facilitar la comprensión de las distribuciones teóricas de
probabilidad.
Distribución uniforme discreta

12. La distribución uniforme discreta modela fenómenos aleatorios con n eventos
discretos y equiprobables. Entonces:
S = {X1,X2,...,Xn}
y se cumple que:
P(X1) = P(X2) = ... = P(Xn)
como sabemos que P(S)=1, la probabilidad de cualquier evento está dada por:
P(Xi) = 1/n
Sus parámetros son:
 = (n+1)/2 (Observe que es equivalente a la mediana)
 = (n -1)/12
2 2
13. Veamos el ejemplo más simple. Sea el lanzamiento de una moneda, entonces:
S = {H,T}
n=2
P(Xi) = P(X2) = 1/2 = 0.5000
 = (2+1)/2 = 1.50
2 = (22-1)/12 = 0.25
Distribución uniforme continua
14. La distribución uniforme continua es homóloga a la anterior, pero aquí los
eventos son continuos y constituyen intervalos. Entonces, si la variable aleatoria X

52
es continua en el rango (a,b), donde a y b son los límites del rango de variación:
S = {Xi | a≤Xi≤b}
Cualquier evento X es un intervalo que tiene como límites a X 1 y X2, por lo que su
probabilidad está dada por:
P(X1≤X≤ X2) = (X2-X1)/(b-a)
 = (a+b)/2 (Observe que es el punto medio o marca de clase)
 = (b-a) /12
2 2
15. Veamos un ejemplo. En cierta caja de un banco, el tiempo que toma a un cajero
atender a un cliente se distribuye uniformemente y varía en el rango de 1.5 a 2.9
minutos. Se desea conocer la probabilidad de que un cliente espere entre 2.0 y 2.5
minutos.
Tenemos que
a = 1.5
b = 2.9
X1 = 2.0
X2 = 2.5
Por tanto:
P(2.0≤X≤2.5) = (2.5-2.0)/(2.9-1.5) = 0.3571
Es decir, la probabilidad de que un cliente espere entre 1.5 y 2.9 minutos es del
35.71%.
Los parámetros de esta distribución son:
 = (1.5+2.9)/2 = 2.20
2 = (2.9-1.5)2/12 = 0.16
Distribución Bernoulli
16. Comencemos por ver que el ensayo de Bernoulli constituye la forma más
elemental del espacio muestral de un experimento aleatorio. Un ensayo Bernoulli
es todo experimento aleatorio que cumple las siguientes condiciones:
i. La variable aleatoria es discreta.
ii. Existen dos, y solo dos, resultados posibles, a los que llamaremos éxito (p) y
fracaso (q).
Por tanto:
S = {p,q}
y, en consecuencia,
p = 1-q
q = 1-p
Por lo que basta con conocer la probabilidad de uno, cualquiera, de los eventos para
tener completamente definida la distribución Bernoulli.
=p
2 = p(1-p)
17. Es importante observar que cualquier variable, sea discreta o continua, puede
convertirse en una variable dicotómica y tratarse como una distribución Bernoulli, lo
que le da a ésta un gran poder de aplicación a diversos casos prácticos. Veamos

53
dos ejemplos:
Un ejemplo de variable discreta. En el lanzamiento de un dado se apuesta a la cara
“1”, entonces:
p = P(1) = 1/6 = 0.1667
q = 1-p = 1-0.1667 = 0.8333, que es la probabilidad de que no caiga “1”,
Y puede verse que se trata de un experimento Bernoulli, pues se cumplen las
condiciones establecidas.
Ahora veamos un ejemplo de variable continua transformada a discreta. Un examen
se califica con puntajes en el rango de 0 a 100 y se define como puntaje aprobatorio
X ≥ 60. En el grupo aprobaron 21 sustentantes y fueron suspendidos 7.
Entonces, la distribución es:
p = 21/28 = 0.7500
q = 7/28 = 0.2500
Y sus parámetros son:
 = 0.7500
2 = 0.75000.2500 = 0.1875
Observe que las condiciones se cumplen, toda vez que estamos ante un
experimento Bernoulli porque la variable, que es continua, fue discretizada; con más
precisión, fue dicotomizada.
Distribución binomial
18. La distribución binomial es una expansión de la distribución Bernoulli, pues
mientras que en esta se asume un solo ensayo, en la binomial se generaliza a un
número determinado de ensayos.
Para que sea aplicable el modelo binomial deben cumplirse tres condiciones:
a) Como en todo ensayo de Bernoulli, S = {p,q}.
b) Todos los ensayos deben ser independientes.
c) La probabilidad de éxito es constante en todos los ensayos.
Bajo estas condiciones, sea:
n ≡ número de ensayos
X ≡ número de éxitos
p ≡ probabilidad de éxito
Entonces, la función de distribución binomial está dada por
P(X) = (n!/((n-X)!X!))pX(1-p)n-X
Observe que en esta fórmula
(n!/((n-X)!X!) = nCX que es el número de combinaciones [5:11-12].
(1-p) = q que es la probabilidad de fracaso.
Toda distribución binomial completa tendrá la forma general:
X P(X) Pacum
0
1
---
n
 = np Observe que es homóloga al modelo Bernoulli.
2 = np(1-p)

54
Que, como puede verse en [6:17] es precisamente una extensión de la distribución

Bernoulli.
19. Un ejemplo de construcción de una distribución binomial con aplicación al
cálculo de probabilidades. Suponga que en cierta asignatura la probabilidad de
aprobar es de 0.8315. Dado un grupo de 4 alumnos que presentan el examen, ¿cuál
es la probabilidad de que aprueben menos de dos alumnos?
Comencemos por construir la distribución binomial completa:
n=4
p = 0.8315
X P(X) Pacum
0 0.0008 0.0008
1 0.0159 0.0167
2 0.1178 0.1345
3 0.3875 0.5220
4 0.4780 1.0000
 = np = 40.8315 = 3.33
2 = np(1-p) = 40.8315(1-0.8315) = 0.56
Observe que estos parámetros pueden interpretarse de la siguiente manera:
Realizando una serie de 4 ensayos; en nuestro ejemplo, aplicando el examen a un
grupo de 4 alumnos, se espera que 3.33 lo aprueben, con una varianza de 0.56.
Estos parámetros, que podrían parecer poco útiles y aún difíciles de interpretar,
resultan fundamentales cuando el número de ensayos crece lo suficiente para
aplicar el teorema del límite central y utilizar la distribución normal, lo que simplifica
mucho los cálculos.
Ahora, a partir de esta distribución podemos calcular cualquier probabilidad. Por
ejemplo, la que se nos pide, ¿cuál es la probabilidad de que aprueben menos de
dos alumnos? La respuesta es:
P(X<2) = P(X=0)+P(X=1) = 0.0008+0.0159 = 0.0167 = 1.67%
Observe que utilizando la columna de probabilidades acumuladas (Pacum)
podemos obtener directamente este resultado.
Pero más aún, con razonamientos apropiados, a partir de la distribución podemos
contestar cualquier pregunta sobre el caso de que se trate.
20. Es claro que toda distribución teórica puede tabularse, y así ocurre con la
distribución binomial. Sin embargo, en las tablas de la distribución binomial que se
encuentran en los libros se presentan solo ciertos valores de p, por ejemplo {0.05,
0.10, 0.15,...}. Debe observarse que utilizar tablas, en muchos casos (como el
ejemplo que acabamos de ver), supone hacer aproximaciones y, en consecuencia,
reducir la precisión de los resultados.
Debe insistirse en que con el poder de las actuales calculadoras, y sobre todo de la
computadora, realmente ya no se justifica el uso de tablas en este tipo de
distribuciones.
Distribución de Poisson
21. La distribución Poisson queda definida por una variable aleatoria discreta cuyos
eventos ocurren en un medio continuo, por ejemplo, el tiempo, una superficie o un

55
volumen.
Una característica de las distribuciones continuas de probabilidad que hemos visto
hasta aquí es que sus espacios muestrales están acotados por los dos extremos y
al discretizarlos son finitos, de la forma S = {1,2,...,n}; es decir, se puede establecer
n, el número de eventos posibles. A diferencia de esto, el espacio muestral de la
distribución Poisson no tine límite superior y, por tanto, conforma una serie no
numerable de eventos posibles, por lo que su espacio muestral tiene la forma
general S = {0,1,2,...}; es decir, la variable aleatoria no está acotada por la derecha.
Esto implica que no puede establecerse el número de eventos posibles, aquí no
existe n; en otros términos, X es un conjunto infinito no numerable y la distribución
de Poisson es una serie asintótica.
Para que sea aplicable el modelo Poisson deben cumplirse tres condiciones:
a) Se define un intervalo de tiempo, área o volumen dentro del cual ocurren los
eventos.
b) Los eventos son independientes de cualquier otro intervalo de ocurrencia.
c) La probabilidad de ocurrencia de un evento debe ser pequeña; en general,
se establece P<0.10.
Entonces, sea:
e = 2.7182... (El número de Euler).
λ ≡ Número de éxitos en el intervalo.
X ≡ Número de éxitos que se espera obtener.
Entonces, la distribución Poisson está dada por:
P(X) = ((e-λ)(λX))/X!
Toda distribución Poisson tendrá la forma:
X P(X) Pacum
0
1
2
...
En la práctica, X deja de incrementarse cuando Pacum alcanza un valor
suficientemente alto, el cual puede definirse por un nivel de significación.
=λ
2 = λ
22. Un ejemplo de distribución Poisson. Se sabe que en cierta empresa se
presentan en promedio 2 accidentes catastróficos por año. ¿Cuál es la probabilidad
de que el siguiente año ocurran de 1 a 3 accidentes catastróficos?
Primero observemos que se cumplen las condiciones: i) El intervalo de tiempo es
un día; ii) Los accidentes son independientes, el hecho de que un día ocurra o no
un accidente no tiene por qué afectar a cualquier otro día, y; iii) La probabilidad de
que ocurra un accidente por día es P = 2/365.25 = 0.0055, menor al 1%.
Entonces, tenemos que λ=2. Con esto podemos calcular las probabilidades de
Poisson. Asumiremos un nivel de significación de 0.05, por lo que nos detendremos
cuando Pacum≥0.9500. Entonces:
X P(X) Pacum

56
0 0.1353 0.1353
1 0.2707 0.4060
2 0.2707 0.6767
3 0.1804 0.8571
4 0.0902 0.9473
5 0.0361 0.9834
Con parámetros:
=2
2 = 2
Ahora, la probabilidad de que ocurran entre 1 y 3 accidentes catastróficos está dada
por:
P(1≤X≤3) = P(X=3)-P(X=0) = 0.0.8571-0.1353 = 0.7218 = 72.18%
Y, en forma análoga, con la distribución que construimos puede calcularse la
probabilidad de cualesquiera eventos, ya sean simples o compuestos.
*
Con esto terminamos los ejemplos de distribuciones de probabilidad.
Intencionalmente no tocamos la distribución normal porque, dada la enorme
importancia que tiene en las ciencias del comportamiento, le dedicaremos una
lección completa.
1. ¿Qué es una distribución de probabilidad?
2. ¿Cuáles son las condiciones que debe cumplir una distribución de probabilidad?
3. ¿Cuáles son los dos tipos de distribuciones de probabilidad, según el tipo de
variable involucrada?
4. ¿Qué es una distribución de probabilidad empírica, también llamada distribución
libre?
5. ¿Qué es una distribución de probabilidad teórica, también llamada modelo de
distribución?
6. ¿A partir de qué se construye una distribución de probabilidad empírica?
7. Una distribución de probabilidad empírica es homóloga a una distribución de
proporciones. Discuta esta proposición.
8. ¿Cuántas distribuciones de probabilidad teórica o modelos de distribución
existen?
9. ¿A partir de qué se construye o se define una distribución de probabilidad
teórica?
10. ¿De qué depende la elección de un modelo de distribución de probabilidad para
aplicarse a un caso concreto?
Para aprender más
1. Explique el procedimiento operacional para discretizar una variable continua en
una escala intervalar.
2. Cuando se trabaja con variables discretas, quizá la familia más importante de
distribuciones teóricas de probabilidad sean los modelos: a) Bernoulli;
b) Binomial; c) Geométrica; d) Binomial negativa; e) Hipergeométrica; f) Polya.
Explique conceptualmente:

57
i. Por qué se dice que forman una familia; es decir, qué elementos básicos
comparten.
ii. Cuál es la característica propia de cada una.
Ejercicios
Distribuciones empíricas discretas
6.1. Un banco de reactivos tiene la siguiente estructura:
Unidad Número de reactivos
1 38
2 52
3 65
4 25
5 52
6 31
a) Construya la distribución de probabilidad.
Se aplicará un reactivo elegido aleatoriamente:
b) ¿Cuál es la probabilidad de que pertenezca a la unidad 3 o a la unidad 6?
c) ¿Cuál es la probabilidad de que pertenezca a alguna de las primeras tres
unidades?
d) ¿Cuál es la probabilidad de que no pertenezca a la unidad 3 ni a la 5?
Distribuciones empíricas continuas
6.2. Se midió memoria icónica en un grupo de estudiantes de geografía; el cociente
de memoria (M) se transformó a intervalos y se obtuvo:
M Frecuencia
56-60 9
61-65 18
66-70 25
71-75 42
76-80 54
81-85 39
86-90 18
91-95 8
Se elegirá al azar a un estudiante:
b) ¿Cuál es la probabilidad de que tenga M≤70?
c) ¿Cuál es la probabilidad de que tenga M≥81?
d) ¿Cuál es la probabilidad de que tenga 76≤M≤95?
e) ¿Cuál es la probabilidad de que tenga M≤72?
6.3. En un piso de hospital se midió el tiempo que tardan las enfermeras en atender
a una señal de urgencia (T) y se obtuvo:

58
T Frecuencia
T≤1 12
1<T≤2 34
2<T≤3 49
3<T≤4 21
4<T≤5 4
b) ¿Cuál es la probabilidad de que una enfermera tarde hasta dos minutos en
atender la señal de urgencia?
c) ¿Cuál es la probabilidad de que tarde más de 2 minutos y hasta 4 minutos?
d) ¿Cuál es la probabilidad de que tarde menos de 3 minutos?
6.4. Suponga el lanzamiento de un dado de seis caras
a) Construya la distribución de probabilidad uniforme discreta.
b) ¿Cuál es su media?
c) ¿Cuál es su varianza
d) ¿Cuál es la probabilidad de que caiga una cara impar?
Distribución uniforme continua
6.5. En una línea de producción industrial, cierta operación toma al operario entre
2.7 y 3.5 minutos y se distribuye en forma uniforme continua.
a) ¿Cuál es su media?
b) ¿Cuál es su varianza?
c) ¿Cuál es la probabilidad de que dicha operación tome entre 3.2 y 3.5 minutos?
6.6. En cierta empresa de transporte se reporta una probabilidad de daño menor a
la carga de 16.23% en cada viaje.
a) Construya la distribución de Bernoulli.
c) ¿Cuál es su varianza?
6.7. En un proceso industrial, la probabilidad de que cierta operación rebase el
tiempo límite es de 34.56%.
6.8. Suponga que cierto operador tiene p = 0.15 de cometer error al capturar datos
en un formulario. Se realizarán 5 ensayos, es decir, capturará cinco formularios.
a) Construya la distribución binomial y compare sus resultados contra una tabla.
b) ¿Cuál es la probabilidad de que existan errores en 3 o menos formularios?
c) ¿Cuál es su media?
d) ¿Cuál es su varianza?
6.9. Una línea base conductual representativa produjo que un paciente fuma 3.4
cigarrillos en promedio por día.
a) Construya la distribución de Poisson
b) Calcule la media.
c) Calcule la varianza
d) ¿Cuál es la probabilidad de que fume al menos 2 cigarrillos por día?

59
Lección 7. Probabilidad Condicional

No hace falta ser un seguidor de ninguna de las seudociencias corrientes
para hacer falsas afirmaciones o deducciones incorrectas. Muchos de los
errores habituales en el método de razonamiento se deben a una mala
comprensión del concepto de probabilidad condicional. A menos que A y
B sean dos hechos independientes, la probabilidad de que ocurra A es
distinta de la probabilidad de que ocurra A sabiendo que ha ocurrido B.
¿Qué significa esto?
Paulos [1990: 59]
El paradigma antecedente-consecuente
1. En las relaciones causales, por lo general se parte del principio de que una
condición antecedente (la variable independiente) es la causa, mientras que la
condición consecuente (variable dependiente) es el efecto. De este modo, en la
investigación experimental lo que se hace es manipular el antecedente para
observar los cambios que se producen en el consecuente.
Este tipo de relaciones suelen ser sometidas a prueba en estadística inferencial.
Desde este enfoque estudiaremos la probabilidad condicional.
2. Pero también existe la situación inversa: cuando conocemos un consecuente y
se tienen dos o más antecedentes con los cuales tal consecuente puede estar
relacionado. ¿Qué ocurre en estos casos?
Estos casos son de gran importancia cuando se estudia el comportamiento. En la
vida real existen múltiples casos en los que conocemos los efectos, pero no
conocemos las causas: solo podemos formular hipótesis sobre ellas.
Existen técnicas para evaluar la probabilidad de que cada hipótesis sea cierta, con
lo que dispondremos de elementos de juicio racionales para tomar decisiones sobre
la causa más probable de un efecto observado. Este tipo de relaciones las estudia
la probabilidad condicional, que constituye una poderosa herramienta para la toma
de decisiones.
Sin embargo, estamos ante uno de los conceptos más complejos en la teoría de la
probabilidad, porque ciertamente contraviene la intuición. Comprenderlo
correctamente no es fácil y con frecuencia se cometen errores de interpretación que
conducen a falsas conclusiones. Para facilitar la comprensión del concepto de
probabilidad condicional, partiremos de algunos conceptos elementales.
Análisis con árboles
3. Consideremos una secuencia de dos ensayos relacionados por sucesión. Dada
una secuencia de eventos que interesa analizar, llamaremos “A” al evento
antecedente y “B” al evento consecuente.
4. Entonces, si se tiene un ensayo antecedente cuyo espacio muestral es
A = {A1,...,An} y, para cada uno de los eventos Ai se tiene un espacio muestral de

60
eventos consecuentes B = {B1,...,Bm}, podemos representar los conjuntos sucesivos

mediante un árbol, que toma la siguiente forma:
5. Pongamos un ejemplo sencillo. Se tienen dos urnas, la primera tiene una bolita
B1
A1 ...
Bm
...
S
B1
An ...
Bm
roja y dos verdes y la segunda tiene tres rojas y una verde. Se elegirá al azar una
urna y, en un segundo ensayo, se extraerá una bolita de la urna elegida. Entonces,
en este ejemplo tenemos dos ensayos:
A ≡ Ensayo antecedente, elección de una urna. En el ejemplo, A = {A1,A2}
B ≡ Ensayo consecuente, extracción de una bolita de la urna elegida en el primer
ensayo. En el ejemplo, los espacios muestrales se forman por el conjunto de
las Bi: para A1 = {R,V,V} y para A2 = {R,R,R,V}
Y su árbol de probabilidades es:
Rojas (1)
P(B1) = 0.3333
Urna 1 (3)
P(A1) = 0.5000
Verdes (2)
P(B2) = 0.6667
S (2)
Rojas (3)
P(B1) = 0.7500
Urna 2 (4)
P(A2) = 0.5000
Verdes (1)
P(B2) = 0.2500
Entre paréntesis se indica la cardinalidad de cada conjunto.

6. En este ejemplo vemos que el primer nivel de ramas representa al antecedente,
que consiste en la selección aleatoria de una urna. El segundo nivel de ramas

61
representa al consecuente, que consiste en extraer una bolita de la urna elegida en

el ensayo antecedente.
En otras palabras, cada urna elegida en el ensayo antecedente (A) es el nodo padre
y los eventos posibles, las bolitas de colores en el ensayo consecuente (B)
constituyen los nodos hijo.
De este modo, en nuestro ejemplo:
A1 ≡ Urna 1
A2 ≡ Urna 2
B1 ≡ Bolita roja
B2 ≡ Bolita verde
7. Ahora, conforme al segundo axioma, es claro que las probabilidades de los
eventos consecuentes Bj de cada ensayo Ai deben sumar 1, porque constituyen un
espacio muestral. En nuestro ejemplo, puesto que tenemos 2 urnas y se elegirá una
al azar, es claro que:
P(A1) = P(A2) = 1/2 = 0.50000
P(S) = P(A1)+P(A2) = 0.5000+0.5000 = 1.0000.
8. Identifiquemos las probabilidades que conocemos hasta aquí:
P(A1) = 0.5000, la probabilidad de elegir la urna 1; dentro de esta urna:
P(B1) = 1/3 = 0.3333, la probabilidad de extraer bolita roja de la urna 1
P(B2) = 2/3 = 0.6667, la probabilidad de extraer bolita verde de la urna 1
P(A2) = 0.5000, la probabilidad de elegir la urna 2; dentro de esta otra urna:
P(B1) = 0.7500, la probabilidad de extraer bolita roja de la urna 2
P(B2) = 0.2500, la probabilidad de extraer bolita verde de la urna 2
9. Pero aquí surge el concepto de probabilidad condicional. Debe quedar claro que
el ensayo B (extracción de una bolita) no puede analizarse sin considerar al ensayo
A (de qué urna fue elegida). En el árbol P(B1) = 0.3333 corresponde a una bolita
roja hija de A1, mientras que para la bolita roja hija de A2 se tiene P(B1) = 0.7500.
Es claro que el ensayo B están condicionado por el antecedente A.
De este modo, A y B son eventos relacionados, y B está condicionado a A.
Probabilidad conjunta
10. En [5:8] vimos que cuando se tienen eventos independientes, la probabilidad de
su conjunción está dada por P(X1X2) = P(X1)P(X2).
Para comprenderlo realmente, esto requiere reflexión: Las probabilidades de los
eventos en el ensayo A (elección de una urna) son independientes de las
probabilidades en el ensayo B (extracción de una bolita); las probabilidades de los
eventos en B no tienen por qué ser afectadas por lo que ocurra en A. Sin embargo,
vistos como una sucesión, las probabilidades de B están condicionadas por el
resultado en el ensayo A, y viceversa.
Entonces, aplicando el Principio de la multiplicación al caso que aquí estudiamos,
la probabilidad de la conjunción de dos eventos condicionados A y B está dada por:
P(AB) = P(A)P(B)
Por ejemplo, si se busca la probabilidad de extraer una bolita roja de la urna 1,
tendríamos:
P(A1B1) = P(A1)P(B1) = 0.50000.3300 = 0.1667

62
En cambio, si buscamos la probabilidad de extraer bolita roja de la urna 2,

tendríamos:
P(A2B1) = P(A2)P(B1) = 0.50000.7500 = 0.3750
Y vemos que las probabilidades son claramente diferentes. Aunque ambas bolitas
son rojas, no es lo mismo que la extraída provenga de la urna 1 que de la urna 2.
11. Para comprender claramente la probabilidad conjunta con eventos
condicionados, debe verse que las intersecciones convierten al segundo nivel de
ramas del árbol en un solo espacio muestral. Por tanto,
P(AiBj) = P(S) = 1.
En nuestro ejemplo, aplicando la fórmula que acabamos de ver:
P(S) = (A1B1)+(A1B2)+(A2B1)+(A2B2)
P(S) = 0.1667+0.3333+0.3750+0.1250 = 1
Para aclarar aún más el concepto, veamos las probabilidades conjuntas como una
tabla de contingencias:
Roja Verde (AiBj)
Urna 1 P(A1B1) = 0.1667 P(A1B2) = 0.3333 0.5000
Urna 2 P(A2B1) = 0.3750 P(A2B2) = 0.1250 0.5000
(AiBj) 0.5417 0.4583 1.0000
Aunque resulta obvio, para prevenir confusiones en lo que sigue observemos que
(AB) = (BA).
Probabilidad condicional
12. En una secuencia de eventos, sea:
P(Ai|Bj) ≡ La probabilidad de Ai dado Bj. Aquí se busca la probabilidad de que
ocurra el evento A (antecedente) con la condición de que después ocurra el
evento B (consecuente); en otras palabras, estamos ante una secuencia
directa: primero debe ocurrir el antecedente y después el consecuente.
entonces
P(Ai|Bj) = P(AiBj)/P(Bj)
Por ejemplo, si queremos conocer la probabilidad de seleccionar la urna 2, con la
condición de que posteriormente se extraiga bolita roja, tendríamos:
P(A2|B1) = P(A2B1)/P(B1)
En la sección anterior encontramos que la probabilidad de elegir la urna 2 y además
extraer bolita roja está dada por:
P(A2B1) = 0.3750
Ahora, del árbol sabemos que la probabilidad de obtener bolita roja de la urna 2 es:
P(B1) = 0.7500
Por tanto, aplicando la fórmula tenemos:
P(A2|B1) = 0.3750/0.7500 = 0.5000
Hemos calculado la probabilidad de A2 dado B1, que no es más que la probabilidad
de elegir la urna 2, el 50.00%, según se ve en el primer nivel de ramas del árbol de
probabilidades.
Ahora, es claro que la probabilidad de A2 dado B2 es la misma que la de A2 dado
B1, pues estamos hablando de la misma urna. Veamos:
P(A2|B2) = P(A2B2)/B2 = 0.1250/0.2500 = 0.5000 = P(A2|B1)

63
En realidad, lo que hemos hecho en esta sección es un proceso de cálculo circular:

multiplicamos Ai por Bj y después lo dividimos entre Bj. Naturalmente, nos regresa
a obtener Ai. Podría parecer una ociosidad y una pérdida de tiempo, pero con esto
se verá al final de esta lección la razón por la que al Teorema de Bayes a veces se
le llama probabilidad inversa, y nos daremos cuenta de que dista mucho de ser
ocioso.
Una falacia que debe prevenirse

13. En este punto debe advertirse sobre un error que se comete con mucha
frecuencia (como lo hace ver Paulos en el epígrafe de esta lección) cuando se
calculan probabilidades condicionales. Este error consiste en asumir que
P(A|B) = P(B|A). Esta igualdad es una falacia.
En general, se cumple que P(A|B)  P(B|A). La igualdad solo se da en casos
excepcionales.
De hecho, en el campo de la probabilidad condicional a P(A|B) a veces se le llama
probabilidad directa, porque involucra la secuencia antecedente-consecuente; en
cambio, a P(B|A) se le llama probabilidad inversa porque involucra la relación
consecuente-antecedente. De hecho, el Teorema de Bayes establece la relación
entre P(A|B) y P(B|A).
Pero antes de ver este teorema aún debemos ver otro concepto, aunque ya
sabemos de él.
Teorema de la probabilidad total

14. Sea B una partición de un espacio muestral de eventos condicionados Bj,
entonces, la probabilidad de B está dada por
P(B) = ∑(P(Ai)P(Bj))
No perdamos de vista que P(AiBj) = P(Ai)P(Bj) por lo que:
∑(P(Ai)P(Bj)) = ∑(P(AiBj))
Volvamos al ejemplo que venimos trabajando, tenemos dos particiones en B,
B1 ≡ bolita roja y B2 ≡ bolita verde. ¿Cuál es la probabilidad de extraer una bolita
roja? Recordemos que tenemos los siguientes eventos:
Ai ≡ La urna de la que salió la bolita
B1 ≡ Bolita roja
Entonces, aplicando el Teorema de la probabilidad total:
P(Bj) = ∑(P(Ai)P(Bj))
a nuestro ejemplo:
P(B1) = (P(A1)P(B1))+(P(A2)P(B1))
P(B1) = (0.50000.3333)+(0.50000.7500)
P(B1) = 0.5417
Es decir, la probabilidad de extraer una bolita roja es del 54.17%.
Ahora, para completar el espacio muestral, calculemos la probabilidad de extraer
una bolita verde. En este caso tenemos:
Ai ≡ La urna de la que salió la bolita
B2 ≡ Bolita verde
Volvemos a aplicar el Teorema de la probabilidad total:

64
P(B2) = (P(A1)P(B2))+(P(A2)P(B2))
P(B2) = (0.50000.6667)+(0.50000.2500)
P(B2) = 0.4584
Es decir, la probabilidad de extraer una bolita verde es del 45.84%.
Puesto que en el ejemplo que venimos trabajando solo hay bolitas rojas y verdes,
entonces es claro que
S = {Roja,Verde}
y por tanto:
P(S) = P(Roja)+P(Verde)
P(S) = 0.5417+0.4584 = 1
Observe que el Teorema de la probabilidad total nos condujo a los resultados que
ya habíamos encontrado en la tabla de contingencias de la sección 11.
Todo el desarrollo de esta sección podría parecer trivial, pero no lo es. Con él se
termina de demostrar que entre los eventos antecedentes A i y los eventos
consecuentes Bj existe una condición de dependencia y no pueden ser tratados por
separado. Es en esta relación donde se origina la complejidad del análisis de
eventos condicionados, que con demasiada frecuencia conduce a errores de
interpretación.
Finalmente llegamos a la parte más interesante e importante de la lección.
El Teorema de Bayes
15. En una secuencia de ensayos condicionados, en la que se conocen las
probabilidades de sus eventos, sea
P(Bj|Ai) ≡ La probabilidad de Bj dado Ai. En otras palabras, aquí se trata de
calcular la probabilidad de que, habiendo ocurrido B, lo haya antecedido A.
Como ya se dijo, estamos ante una secuencia inversa; conocido el
consecuente Bj, se trata de calcular la probabilidad de que A i sea su
antecedente. entonces
P(Bj|Ai) = (P(Ai)P(Bj))/(P(Ai)P(Bj))
Observe que en la fórmula:
a) El dividendo P(Ai)P(Bj) es la probabilidad conjunta P(AiBj) que ya vimos;
constituye el número de eventos favorables.
b) El divisor ∑(P(Ai)P(Bj)) es la probabilidad total, que también vimos y no es
más que la suma de las probabilidades conjuntas; éste es el número de
eventos posibles.
El Teorema de Bayes, no podía ser de otra forma, se ajusta a la definición
matemática de probabilidad [2:9].
16. Volvamos una vez más al ejemplo de la sección 5. Supongamos que tenemos
una bolita roja, pero ahora nos preguntamos: ¿De qué urna proviene? Es claro que
la bolita roja puede haber salido de la urna 1 o bien de la urna 2. Este es el enfoque
del Teorema de Bayes que aquí nos interesa.
Calculemos la probabilidad de que provenga de la urna 1:
P(B1|A1) = (P(A1)P(B1))/(P(A1)P(B1))
P(B1|A1) = (0.50000.3333)/((0.50000.3333)+(0.50000.7500))
P(B1|A1) = 0.3077 = 30.77%

65
Ahora la probabilidad de que provenga de la urna 2:

P(|B1|A2) = (P(A2)P(B1))/(P(A2)P(B1))
P(|B1|A2) = (0.50000.7500)/((0.50000.3333)+(0.50000.7500))
P(|B1|A2) = 0.6923 = 69.23%
Lo que indica que lo más probable es que la bolita roja provenga de la urna 2. Es
fácil entender el resultado si vemos en el árbol de probabilidades que en la urna 2
hay 3 bolitas de un total de 4, mientras que en la urna 1 solo hay una roja de un total
de 3.
17. Apliquemos lo que hemos estudiado en esta lección para evaluar objetivamente
el juego de hipótesis, es decir, todas las hipótesis posibles dada una interrogante
de investigación. De paso, veremos que -si lo hemos comprendido- el Teorema de
Bayes es más fácil de aplicar que de explicar.
Veamos un algoritmo para evaluar todas las hipótesis en una relación causal.
Comienza
Paso 1. Formular el problema.
Paso 2. Formular el juego de hipótesis.
Paso 3. Definir la simbología de eventos.
Paso 4. Construir el árbol de probabilidades.
Paso 5. Calcular las probabilidades de las hipótesis.
Paso 6. Concluir con el orden de prioridades.
Termina
Para concluir la lección, apliquemos al algoritmo al ejemplo que ya hemos resuelto,
volvemos a tomar las bolitas rojas.
Comienza
Paso 1. Problema:
Se tiene una bolita roja. ¿De qué urna proviene?
Paso 2. Hipótesis
H1: La bolita roja proviene de la urna 1
H2: La bolita roja proviene de la urna 2.
Paso 3. Simbología:
A1 ≡ Urna 1
A2 ≡ Urna 2
B1 ≡ Bolita roja
B2 ≡ Bolita verde
Ya los construimos en la sección 5, no lo repetiremos aquí.
Paso 5. Cálculo de probabilidades de las hipótesis
P(|B1|A1) = (P(A1)P(B1))/(P(A1)P(Bi))
P(|B1|A1) = (0.50000.3333)/((0.50000.3333)+(0.50000.7500))
P(B1|A1) = 0.3077 = 30.77%
P(|B1|A2) = (P(A2)P(B1))/(P(A2)P(Bi))
P(|B1|A2) = (0.50000.7500)/((0.50000.3333)+(0.50000.7500))
P(|B1|A2) = 0.6923 = 69.23%
Paso 6. Conclusión: El orden de prioridades es:

66
P(H2) = 69.23%, la bolita roja proviene de la urna 2.

P(H1) = 30.77%, la bolita roja proviene de la urna 1.
Termina
De este modo, conocemos las probabilidades de las hipótesis y podemos decidir
racionalmente.
1. ¿Cómo puede aplicarse el análisis de probabilidad condicional a una relación
causal?
2. ¿Por qué se afirma que la probabilidad condicional es contraintuitiva?
3. ¿Qué contiene el primer nivel de ramas, cuando se utiliza un árbol para
representar una secuencia de eventos condicionados?
4. ¿Qué contiene el segundo nivel de ramas, cuando se utiliza un árbol para
representar una secuencia de eventos condicionados?
5. ¿Cuál es el espacio muestral del antecedente en un árbol de probabilidades
condicionadas?
6. Explique la intersección de eventos en un árbol de probabilidades
condicionadas.
7. Explique la secuencia P(A|B).
8. Discuta la siguiente proposición: P(A|B) = P(B|A).
9. Explique la secuencia P(B|A).
10. ¿Cómo se prueban hipótesis con el Teorema de Bayes?
Para aprender más
1. En algunos libros a P(A|B) se le llama “probabilidad a priori” y a P(B|A) se le
llama “probabilidad a posteriori”. Discuta esta proposición en términos de lo que
se estudió en la lección 2.
2. Vemos que cuando se opera con números reales y se aplica un criterio de
redondeo pueden aparecer pequeños errores, generalmente en el orden de uno
o dos diezmilésimos. Suponga que está construyendo una distribución de
probabilidades para uso estandarizado en psicometría, donde tales errores, por
pequeños que sean, pueden alterar una decisión cuando se trabaja con
poblaciones de miles de testados, como ocurre en los exámenes de admisión a
las grandes universidades. ¿Cómo deben tratarse estos errores para tomar
decisiones indubitables?
3. Aplicando la teoría de conjuntos, demuestre que P(Xc) = 1-P(X).
Ejercicios
7.1. Registros históricos indican que de 12 324 sujetos a los que se aplicó una
prueba antidoping, 222 fueron diagnosticados positivo en consumo de cocaína. Por
estudios confirmatorios se sabe que de los sujetos que fueron diagnosticados

67
positivo, 2 no habían consumido cocaína; por otra parte, de los sujetos que tuvieron
diagnóstico negativo, 131 sí habían consumido.
a) Defina una simbología general para el caso de estudio.
b) Construya el árbol de probabilidades.
c) ¿Cuál es la probabilidad de encontrar un diagnóstico positivo y un sujeto que no
consuma cocaína?
d) ¿Cuál es la probabilidad de obtener diagnóstico positivo?
e) ¿Cuál es la probabilidad de encontrar un sujeto que haya consumido cocaína de
entre los que fueron diagnosticados negativo (falso negativo)?
f) ¿Cuál es la probabilidad de encontrar un sujeto que no haya consumido cocaína
entre los que fueron diagnosticados positivo (falso positivo)?
7.2. La estadística sobre seguridad en cierta zona metropolitana registra la siguiente
distribución:
Eventos Total Incidentes graves
Deportivos 87 15
Manifestaciones sociales 19 8
Violencia criminal 12 10
c) ¿Cuál es la probabilidad de que se presente una manifestación social?
d) ¿Cuál es la probabilidad de que ocurran incidentes graves?
e) ¿Cuál es la probabilidad de que ocurra violencia criminal y no haya incidentes
graves?
f) Se proyecta formar Grupos de Reacción Inmediata para intervenir en incidentes
graves, especializados en cada tipo de eventos. Dado que se presenta un incidente
grave, ¿A qué tipo de evento puede corresponder?
7.3. La estadística histórica indica que en cierto examen de admisión a una carrera
universitaria se han presentado 11 314 aspirantes, de los cuales 4 495 tomaron un
curso previo de preparación. De los aspirantes que tomaron el curso, 1 528 fueron
admitidos; de los aspirantes que no tomaron el curso, 4 774 no fueron admitidos.
c) ¿Cuál es la probabilidad de que un aspirante haya tomado el curso de
preparación?
d) ¿Cuál es probabilidad de que un aspirante no haya tomado el curso de
preparación y haya sido admitido?
e) Se tiene un estudiante admitido. ¿De qué grupo proviene, del que tomó el curso
de preparación o del que no lo tomó?

68
Lección 8. Lo teórico y lo empírico

Esto, finalmente, nos conduce a un aparentemente excepcional corolario:
si las observaciones de todos los eventos se continúan realizando hasta el
infinito (con una probabilidad que finalmente se convierte en certeza
absoluta), se observará que todas las cosas del mundo se gobiernan por
proporciones precisas y por una ley constante de cambios, de manera que
incluso en lo que es casual y fortuito en el más alto grado estaríamos
obligados a admitir que existe una necesidad y, podría decir, un destino.
Yo no sé si esto es lo que Platón tenía en mente al formular su doctrina
sobre la restauración de todas las cosas, según la cual todo volverá a su
estado anterior después de una serie innumerable de siglos 11.
Jacobi Bernoulli, Ars Conjectandi
El concepto de error
1. La Ley de los grandes números y el Teorema del límite central constituyen dos
constructos fundamentales en la teoría de la probabilidad. Para acercarnos a ellos,
comenzaremos por revisar algunas nociones básicas sobre teoría del error, una
rama de la matemática que tiende uno de los puentes más importantes para unir lo
teórico con lo empírico, el modelo matemático con la realidad observable.
La teoría del error va mucho más allá de los aspectos que revisaremos, aquí nos
limitaremos a aquellos aplicables al estudio de la probabilidad y, en particular, a las
nociones que nos permitan aproximarnos al estudio de la Ley de los grandes
números y el Teorema del límite central.
2. En términos conceptuales, definimos al error como la distancia que existe entre
una probabilidad teórica y una probabilidad empírica. En otras palabras, el error es
la diferencia entre lo que, según la teoría, debió pasar y lo que la realidad empírica
nos muestra que ocurrió en una serie real de ensayos.
3. Formalizando el concepto anterior, veamos una definición matemática de error:
Sea:
EA ≡ Error absoluto
ER ≡ Error relativo
VR ≡ Valor real o verdadero
VM ≡ Valor observado o medido
entonces
EA = |VR−VM|
ER = EA/VR
4. Ahora, aplicando esta definición al estudio de los fenómenos aleatorios, solo
tenemos que cambiar dos literales:
Sea:
PT ≡ La probabilidad teórica de un evento (valor real o verdadero)
PO ≡ La probabilidad empírica del mismo evento (valor observado o medido)
entonces:
EA = |PT−PO|
11
Traducido por el autor a partir de la versión en inglés de Sheynin (2005).

69
ER = EA/PT
5. Esto es, hemos definido al error absoluto como la diferencia absoluta entre lo que
debió ocurrir según la teoría (PT) y lo que realmente ocurrió al realizar una serie de
ensayos (PO).
Por otra parte, el error relativo no es más que la proporción entre el error absoluto y
la probabilidad teórica, a la que a veces se le llama valor verdadero y, en otras
ocasiones, valor esperado.
Habría que estudiar mucho más sobre teoría del error, pero la definición anterior,
por sí misma, tiene un gran poder para vincular teoría y práctica, como lo veremos
en el resto de esta lección.
6. Veamos un ejemplo elemental. Supongamos que lanzamos cuatro veces una
moneda y encontramos que ocurrió una cara y tres cruces. Conforme a la definición
a priori de probabilidad, tenemos que
PT(H) = 2/4 = 0.5000
esto es, se espera que dos de los cuatro lanzamientos caiga cara. Ahora, al realizar
efectivamente los cuatro ensayos, encontramos que se obtuvo solo una cara, por lo
que la probabilidad empírica fue
PO(H) = 1/4 = 0.2500.
Podemos ahora calcular el error:
EA = |PT−PO| = |0.5000-0.2500| = 0.2500 = 25.00%.
ER = |EA/PT| = 0.2500/0.5000 = 0.5000 = 50.00%
Centremos la atención en el valor absoluto. Con lo que encontramos en este
ejemplo, comparando lo que debía haber ocurrido según la teoría contra lo que
realmente ocurrió en la práctica, encontramos una diferencia del 25.00%. Esta
diferencia constituye el error entre lo que predice la probabilidad teórica y lo que
realmente ocurrió en cuatro ensayos reales. ¿Cómo interpretar la diferencia que se
encontró entre teoría y práctica? ¿Puede controlarse este error?
La Ley de los Grandes Números

7. A finales del siglo XVII Jacob Bernoulli demostró que la probabilidad a posteriori
(que él llamaba frecuencial) se acerca a la probabilidad teórica conforme aumenta
el número de ensayos. En términos de lo que acabamos de ver en la sección
anterior, hoy decimos que el error disminuye conforme aumenta el número de
ensayos.
Este constructo constituyó una sólida base para el desarrollo del Teorema del límite
central y, más allá, para el desarrollo de la teoría de la probabilidad en su conjunto.
8. Actualmente, la Ley de los grandes números puede verse desde diversos
enfoques. Las versiones más conocidas son:
a) Ley de los grandes números débil, que se formula en términos de
probabilidades.
b) Ley de los grandes números fuerte, formulada en términos de estadígrafos y
parámetros, generalmente la media y la varianza.
Realmente no existe diferencia entre ambos casos en cuanto al planteamiento
general, sino solo en que la ley fuerte se formula en términos de la aproximación de
medias muestrales al valor de su media poblacional. La veremos más adelante en
esta misma lección. Por lo pronto, veamos su versión en términos de probabilidades.

70
9. La Ley de los grandes números afirma que:

Sea
E = |PT-PO| como lo vimos en la sección 3, se trata del error absoluto.
N ≡ Número de ensayos reales de un fenómeno aleatorio
entonces
E→0 conforme N→
Aplicando lo que hemos visto en esta lección, podemos leer esta ley como sigue:
La probabilidad empírica se aproxima a la probabilidad teórica conforme aumenta
el número de ensayos.
10. Con esta ley podemos responder las dos preguntas que formulamos al final de
la sección 4:
a) Al ejecutarse ensayos en la realidad, lo fenómenos aleatorios no suelen
comportante exactamente igual a lo que plantea la teoría.
b) Sin embargo, la diferencia entre teoría y práctica puede controlarse; podemos
reducir el error, es decir, la diferencia entre la probabilidad teórica y la
probabilidad empírica, aumentando el número de ensayos. Por cierto, esto
es lo que dice Bernoulli en el epígrafe de esta lección.
El inciso (b) tiene aplicaciones enormes en las ciencias de la conducta. Van desde
el cálculo del tamaño de la muestra, hasta la longitud de un test (su número de
reactivos), la longitud de un cuadro de entrevista o el número de observaciones al
construir una línea base conductual.
11. Veamos un ejemplo sencillo de la forma en que se cumple la Ley de los grandes
números. Sea el fenómeno aleatorio el lanzamiento de una moneda legal; se
realizaron cuatro series de ensayos (ni es el número de lanzamientos en cada serie)
y se registró la frecuencia con que cayó cara (H). En la tabla siguiente se presentan
los cálculos:
Serie ni f(H) PT(H) PO(H) EA ER
1 10 3 0.5000 0.3000 0.2000 0.4000
2 20 8 0.5000 0.4000 0.1000 0.2000
3 50 28 0.5000 0.5600 0.0600 0.1200
4 100 46 0.5000 0.4600 0.0400 0.0800
Centremos ahora la atención en el error absoluto, graficando:
Es clara la tendencia al decremento del error absoluto conforme aumenta el número

de ensayos. Eso es lo que postula la Ley de los grandes números.

71
Lo que no debe perderse de vista es que las series de ensayos fueron reales; los
datos son empíricos, porque realmente se lanzó una moneda y se registraron las
ocurrencias del evento cara.
12. Una breve observación epistemológica para terminar esta primera aproximación
a la Ley de los grandes números. Una ley científica es una proposición cuya validez
debe demostrarse empíricamente. Esto hace que una ley tenga una naturaleza muy
diferente a la de un teorema, pues los teoremas son proposiciones matemáticas que
se demuestran lógicamente.
En consecuencia, la Ley de los grandes números debe demostrarse empíricamente,
y esto implica obtener probabilidades a posteriori y compararlas con probabilidades
a priori.
El Teorema del Límite Central

13. Hemos visto que la Ley de los grandes números permite entender la forma en
que se comportan las diferencias entre probabilidad teórica y probabilidad empírica:
conforme aumenta el número de ensayos, decrece el error; esto es, P T y PO
convergen hacia un mismo valor.
Para dar un paso adelante, ahora preguntémonos cómo se comportan las
distribuciones de probabilidad. En lecciones anteriores vimos que existen múltiples
modelos teóricos de probabilidad. Pues bien, bajo ciertas condiciones, el Teorema
del límite central12 permite trabajar con cualquier distribución de probabilidad
aplicando un solo modelo teórico: la distribución normal.
Es difícil exagerar la importancia de este teorema. Puede considerársele una de las
proposiciones más importantes de la teoría de la probabilidad, de la estadística e
incluso, según algunos autores, de toda la matemática. Esto se debe a que permite,
repetimos, bajo ciertas condiciones que veremos enseguida, tratar con cualquier
distribución empírica sin necesidad de preguntarnos a qué modelo teórico se ajusta.
14. En su forma más general, el Teorema del límite central puede plantearse de la
siguiente forma:
Sea
Ď ≡ Una distribución de probabilidad cualquiera con  y 2 conocidas,
Ň ≡ La distribución normal,
n ≡ Número de ensayos reales e independientes de un fenómeno aleatorio, en
otras palabras, el tamaño de una muestra cuyos elementos fueron elegidos
al azar,
entonces
Ď→Ň conforme n→
Que puede leerse de la siguiente forma: Cualquier distribución de probabilidad se
aproxima a la distribución normal, conforme aumenta el número de ensayos.
15. Veamos un ejemplo con una distribución teórica. Tomemos el modelo binomial
con probabilidad de éxito P=0.40 y cuatro series de ensayos: n 1=2, n2=10, n3=20 y
12
Algunos autores lo llaman “Teorema central del límite”. Consideramos que este es un error producto de
traducciones descuidadas. El adjetivo central aplica al sustantivo límite y no a teorema; es así porque la
convergencia se da en el centro de la distribución, el límite está en el centro. En consecuencia, aquí lo llamamos
teorema del límite central.

72
n4=30.
Distribución binomial (n=2,P=0.40) Distribución binomial (n=10,P=0.40
0.6000 0.3000
Probabilidad
Probabilidad
0.4000 0.2000
0.2000 0.1000
0.0000 0.0000
0 1 2 0 2 4 6 8 10
Número de éxitos Número de éxitos
Distribución binomial (n=20,P=0.40)

0.2000
Probabilidad
0.1500
0.1000
0.0500
0.0000
0 3 6 9 12 15 18
Número de éxitos
Si se observan con cuidado las gráficas puede apreciarse que la primera, donde
n=2, claramente está sesgada a la derecha, la asimetría entre las dos barras
laterales es evidente. La tendencia se conserva conforme aumenta n, hasta que, en
la cuarta gráfica donde n=40, ya se aprecia una mayor simetría, aunque en las
barras vecinas al modo sigue apreciándose (aunque muy leve) la misma tendencia:
tomando como referencia la barra modal, que está en el centro, vemos que la que
se encuentra a su izquierda es mayor que la que está a su derecha. No perdamos
de vista que apenas llegamos a 40 ensayos. Según el Teorema del límite central, la
aproximación a una curva perfectamente simétrica –característica que, según
veremos, tiene la distribución normal- aumentará conforme aumente n, el número
de ensayos.
Por supuesto, el Teorema del límite central también se cumple con distribuciones
empíricas.
16. Aparte de la que acabamos de ver, existen muchas otras formas de plantear el
Teorema del límite central. Una de las más útiles es la que se formula en términos
de medias muestrales. En este caso tendríamos:
Sea
≡ Media muestral de una variable aleatoria
 ≡ Media poblacional
2 ≡ Varianza poblacional
n ≡ Tamaño de la muestra
entonces
[( -)/((2/n))]→Ň conforme n→

73
En este caso, en el término de la izquierda el denominador ( -) expresa la

diferencia entre el estimador y su parámetro verdadero , lo que puede verse
como un error13; el denominador ((2/n)) estandariza el error.
Aunque aún no estudiamos la distribución normal, adelantemos que su media es
cero. Entonces, una consecuencia del Teorema del límite central es que ( -)→0,
lo que significa que la diferencia entre el estimador y su parámetro verdadero
, que no es más que una forma del error de inferencia14 que tiende a reducirse
conforme aumenta el número de ensayos. Vemos que aquí se vuelve evidente la
Ley de los grandes números en su versión fuerte.
Esta forma de presentación del Teorema del límite central es la base de múltiples
aplicaciones en estadística, entre las que destacan los intervalos de confianza para
la estimación de parámetros, las pruebas de hipótesis y la estimación del tamaño
de la muestra.
17. En resumen, el Teorema del límite central plantea que las distribuciones de
probabilidad se aproximan a la distribución normal conforme aumenta el número de
ensayos. Una consecuencia de esta proposición es que cuando tenemos un número
suficientemente grande de ensayos la distribución normal puede utilizarse como
modelo para cualquier distribución teórica o empírica.
En este punto, inevitablemente surge una pregunta: ¿Qué tamaño debe tener n para
que podamos aplicar el modelo normal? Se ha sugerido que con n=30 ya se alcanza
un ajuste aceptable, pero puede no ser tan sencillo. Cuando nos acerquemos al
estudio de la muestra volveremos a esta pregunta.
En todo caso, existen pruebas de bondad de ajuste que permiten medir cuánto se
aproximan entre sí dos distribuciones, es decir, qué tan bueno es su ajuste. Si
tomamos una distribución empírica y probamos su ajuste a la distribución normal,
podremos decidir cuánto se aproximan. Pero en el curso no profundizaremos en
este tema.
En la próxima lección estudiaremos la distribución normal.
1. Explique el concepto de error en el contexto de la teoría de la probabilidad.
2. ¿Qué es el error absoluto?
3. ¿Qué es el error relativo?
4. ¿En qué consiste la versión débil de la Ley de los grandes números?
5. ¿En qué consiste la versión fuerte de la Ley de los grandes números?
6. Explique conceptualmente la Ley de los grandes números en términos de error.
7. ¿Cómo explica la Ley de los grandes números las diferencias que se observan
al comparar la probabilidad teórica con la probabilidad empírica?
8. La Ley de los grandes números es una ley científica. Discuta esta proposición.
13
Debe observarse que ( -) es un error porque es la distancia entre que es un valor empírico y  que es un
valor teórico.
14
Conforme a lo que vimos al principio de esta lección, podemos decir que - = EA.

74
9. El Teorema del límite central puede presentarse como “Ď→Ň conforme n→”.
¿Qué versión de la Ley de los grandes números se aplica aquí?
10. El Teorema del límite central también puede presentarse en la forma
“[( -)/((2/n))]→Ň conforme n→”. ¿Qué versión de la Ley de los grandes
números se aplica aquí?
11. Explique la relación entre la Ley de los grandes números y el Teorema del límite
central.
Para aprender más
1. Construya un ejemplo de aplicación de la Ley de los grandes números al diseño
de una encuesta.
de una entrevista.
de un test de memoria.
4. Suponga que medimos la conducta de fumar cigarrillos. Defina
operacionalmente a una población y proponga un esquema metodológico para
construir una tabla de normas.
Ejercicios
7.1. Por registros confiables se sabe que el promedio de edad en una población
estudiantil universitaria es de 19.36 años. Para medir el falseamiento de respuestas
en una encuesta realizada en dicha población, se incluyó como un reactivo de
control la fecha de nacimiento y se calculó la media muestral de edad a la misma
fecha en que se calculó para la población; se obtuvo una media muestral de 18.87
años
a) ¿Cuál es el error absoluto?
b) ¿Cuál es el error relativo?
7.2. Se realizaron cuatro series de lanzamientos de un dado de 6 caras y se registró
la frecuencia de ocurrencia de la cara 4. Se obtuvieron los siguientes resultados:
Serie n f(4)
1 1 0
2 25 7
3 50 3
4 100 23
a) Construya una tabla para calcular el error absoluto y el error relativo en cada
serie
b) Grafique los resultados con ambos tipos de error.
c) Analice los resultados a la luz de la Ley de los grandes números.
7.3. Sea una distribución binomial con p = 0.1321.
a) Construya las distribuciones para n1=1; n2=10, n3=25.
b) Construya las tres gráficas.
c) Discuta los resultados obtenidos a la luz del Teorema del límite central.

75
Lección 9. Distribución normal

Las preguntas más importantes de la vida, de hecho, no son en su mayoría
más que problemas de probabilidad.
Pierre Simon Laplace (1749-1827)
1. La distribución normal, también llamada distribución gaussiana o curva de

campana, es una distribución de probabilidad continua.
Como vimos en la lección anterior, la distribución normal constituye el límite de las
distribuciones de probabilidad, ya sean teóricas o empíricas; sean continuas o
discretas. En consecuencia, este es el modelo de distribución más utilizado en
estadística para modelar fenómenos naturales que van desde la física hasta el
comportamiento de los organismos vivos.
2. Algunas de las propiedades de la distribución normal son:
a) Tiene forma de campana.
b) Es simétrica.
c) El origen de la distribución se ubica en el centro.
d) En consecuencia, de las tres propiedades anteriores, las medidas de
tendencia central se ubican en el centro de la distribución. Por tanto:
 = Md = Mo = 0. Veamos cada caso. La media (), el punto de equilibrio de
la distribución, queda en el centro porque es simétrica y ambas mitades
alrededor de ella tienen áreas iguales. Lo mismo aplica a la mediana (Md),
pues la simetría implica que el 50% del área queda a la izquierda del origen
y el otro 50% se sitúa a la derecha. Por su forma de campana y por la
simetría, el modo (Mo) también queda en el centro de la distribución.
e) Por su simetría, la distribución normal tiene un sesgo de cero (So=0), es
decir, es una distribución insesgada.
f) Es asintótica en ambos extremos. Esto significa que, en ambas direcciones,
conforme se aleja del centro el techo se aproxima indefinidamente a la
abscisa (es decir, P(X)→0) sin que lleguen a tocarse. Es una distribución no
acotada por la izquierda ni por la derecha.
g) Las áreas bajo la distribución normal no se pueden calcular analíticamente.
Por esta razón se utiliza una tabla para encontrar probabilidades con el
modelo normal.
h) El espacio muestral es toda el área bajo la curva; por tanto, su valor es 1.
i) Entre [-3, +3] se encuentra el 99.73% del espacio muestral. Esta es la
razón por la que generalmente las tablas de distribución normal llegan solo
hasta 3.
j) La desviación estándar se mide por la calificación z, la cual gradúa la abscisa.
Por la propiedad (c) a la derecha del centro z asume valores positivos y a la
izquierda, negativos; ya vimos que en ambos sentidos es asintótica y, por
tanto, se extiende indefinidamente.

76
La distribución normal estándar

3. El modelo teórico de la distribución normal queda definido por la siguiente función
ordenada:
f(z) = (1/((2))) (e^-((z^2)/2))
El área bajo la curva normal no se puede calcular analíticamente; cualquier área
debe obtenerse por integración de los valores ordenada. Por ello, para facilitar la
obtención de probabilidades normales se utiliza la tabla de áreas. Las tablas
usualmente presentan las probabilidades (con cuatro dígitos decimales) asociadas
con los valores de z (con dos dígitos decimales)15.
Cálculo de probabilidades en la distribución normal estándar

4. La tabla que más simplifica el cálculo de áreas bajo la curva normal es la que
corresponde a la distribución acumulativa. Dada una z, esta tabla proporciona el
área a su izquierda. Al final del libro se presenta esta tabla.
En el caso inverso, cuando está dada una probabilidad, la tabla proporciona la z
asociada con ella.
5. Cuando se calculan probabilidades en la distribución normal estándar pueden
darse cuatro casos:
i. P(Xz), es decir se busca el área a la izquierda de z. La probabilidad la
proporciona directamente la tabla: P(Xz) = P(z).
ii. P(Xz), se busca el área a la derecha de z. La probabilidad es el
complemento de z, es decir: P(Xz) = 1−P(z)
iii. P(z1Xz2) se busca un área entre dos valores de z. La probabilidad se
obtiene restando al valor de z2 el de z1, es decir: P(z1Xz2) = P(z2)−P(z1).
iv. Cuando se buscan áreas para z negativas se calcula el área para su valor
simétrico, pues la tabla solo incluye valores positivos. Puesto que la
distribución normal es simétrica, dado un valor de z, su área hacia el extremo
es la misma, ya sea que z tenga signo positivo o negativo.
Veamos ejemplos típicos de cálculo de áreas bajo la distribución normal estándar:
a) ¿Cuál es la probabilidad de hallar un puntaje menor o igual a z = 1.65?
Este caso se obtiene directamente de la tabla:
P(z1.65) = 0.9505
15
Una alternativa a las tablas es el uso de software. Un buen ejemplo de software son las funciones que
incorpora Excel. En este caso los cálculos son más directos, porque Excel acepta valores de z positivos y
negativos; además, como Excel no limita a dos el número de decimales, permite cálculos más precisos.

77
b) ¿Cuál es la probabilidad de hallar un puntaje menor o igual a z = −1.65?

Tenemos el mismo valor de z que en (a), pero negativo; por tanto, buscamos su
complemento:
P(z−1.65) = 1− P(z1.65) = 1−0.9505 = 0.0495
c) ¿Cuál es la probabilidad de hallar un puntaje mayor o igual a z=1.65?

Puesto que la distribución normal es simétrica, este caso es equivalente a (b):
P(z−1.65) = 1− P(z1.65) = 1−0.9505 = 0.0495
d) ¿Cuál es la probabilidad de hallar un puntaje entre z=−0.47 y z=1.26?

Primero encontramos
P(z1.26) = 0.8962
Después encontramos
P(z−0.47) = 1−P(z0.47) = 1−0.6808 = 0.3192
Un último ejemplo, encontramos la diferencia entre las dos anteriores:
P(−0.47z1.26) = P(z1.26)−P(z−0.47) = 0.8962−0.3192 = 0.5770

78
6. Hemos visto cómo se calculan probabilidades a partir de una z dada. Ahora

veamos el caso inverso: dada una probabilidad, encontrar el valor de z asociado
con ella.
En este caso se busca en el cuerpo de la tabla el valor más cercano a la probabilidad
dada y z se obtiene cruzando el valor de la columna izquierda con el del renglón
superior de la tabla.
En casos especiales en que el valor de la probabilidad dada se encuentre
exactamente entre dos valores del cuerpo de la tabla, pueden encontrarse los
valores de ambas z y se promedian16.
Veamos tres ejemplos:
a) Dada una probabilidad de 0.6549, ¿cuál es la z que la limita?
Antes de buscar el valor de z, debemos observar que la probabilidad es mayor a
0.5000 y eso implica que el signo de z es positivo (z>0). Ahora, buscando en la
tabla, vemos que el valor más cercano a 0.6549 es 0.6554, por lo cual: z = 0.40.
b) Dada una probabilidad de 0.2383, ¿cuál es la z que la limita?
Ahora tenemos una probabilidad menor a 0.5000 y, por tanto, el valor de z es
negativo (z<0). Puesto que la tabla solo tiene valores positivos, tenemos que buscar
el complemento: 1−0.2383 = 0.7617; buscando este valor en el cuerpo de la tabla
tenemos que el más cercano es 0.7611 y está asociado con z = −0.71 (negativo,
como ya lo explicamos).
c) Dada una probabilidad de 0.5000, ¿cuál es la z que la limita?
En este caso no se requiere utilizar la tabla, porque sabemos que P(z≤0) = 0.5000
Repitamos una observación importante: Cuando se calcula a partir de la tabla, casi
siempre se involucran aproximaciones; en cambio, cuando se calcula con algún
programa como Excel el cálculo puede ser más preciso.
La estandarización de distribuciones empíricas

7. En casos reales disponemos de datos empíricos en los que conocemos  y .
Conviene recordar que, en una distribución empírica, la media es el factor de
traslación (determina la posición de la distribución sobre la abscisa), mientras que
la desviación estándar es el factor de dispersión (determina la amplitud de la
distribución).
16
Nuevamente, cuando se utiliza software como Excel esto no es necesario; puede buscarse directamente
cualquier valor y esto hace que el cálculo sea más preciso.

79
8. Toda estandarización es una aproximación y supone un error, que es la medida

en que el modelo normal se aleja del caso real con el que trabajamos. Repetimos
que el grado en que un caso de estudio real se aleja del modelo teórico (en nuestro
caso es el normal, pero puede tratarse de cualquier modelo) puede medirse con una
prueba de bondad de ajuste, aunque este tema sale del alcance de este curso.
9. Como se vio en la lección anterior, dadas las condiciones adecuadas, la
distribución normal puede utilizarse como aproximación a cualquier distribución
empírica con la que se trabaje. En consecuencia, si se demuestra que la distribución
empírica se ajusta suficientemente bien al modelo estándar, podemos utilizar
válidamente este último para cualquier cálculo de probabilidades. El proceso de
estandarización es realmente simple.
10. Cuando tenemos una distribución empírica en la que se conocen  y , cualquier
valor de X puede obtenerse transformándolo a su correspondiente z. En tales casos
z está dada por:
z = (X-)/
En el caso inverso, cuando conocemos z y queremos calcular X:
X = (z×)+
Con este sencillo proceso hemos estandarizado la distribución empírica. A partir del
valor de z podemos utilizar la tabla como se vio en la sección 6.
11. Veamos un ejemplo de estandarización. Supongamos que medimos inteligencia
y se ha probado que la población con la que se trabaja se ajusta a la distribución
normal. La población tiene una media de 112.27 y una desviación estándar de
10.98. ¿Cuál es la probabilidad de hallar un sujeto con un CI menor o igual a 120?
Primero estandarizamos el puntaje:
z = (120−112.27)/10.98 = 0.70
Observe que el valor es positivo porque el CI del sujeto es mayor que la media de
su población. Ahora, buscando en la tabla:
P(z0.70) = 0.7580  P(X120) = 75.80%
En resumen, el procedimiento de estandarización consiste en transformar una
distribución empírica al modelo teórico de la distribución normal. A partir de tal
transformación, puede utilizarse la distribución normal estándar para hacer
cualquier cálculo.
1. ¿Con qué otros nombres se conoce a la distribución normal?
2. ¿Cuál es la importancia teórica y práctica de la distribución normal?
3. Explique la propiedad de simetría de la distribución normal.
4. ¿Por qué se dice que la distribución normal tiene forma de campana?
5. ¿Por qué en la distribución normal  = Md = Mo = 0?
6. Explique la propiedad de insesgo de la distribución normal.
7. ¿Por qué la tabla de la distribución normal suele llegar a 3z?
8. ¿Por qué se utiliza una tabla y no una fórmula para calcular áreas en la
distribución normal?

80
9. ¿Qué es la estandarización, en el contexto de la teoría de la distribución normal?

10. ¿Cómo se puede probar si una distribución empírica concreta se aproxima lo
suficiente al modelo normal, de manera que la estandarización sea válida?
Para aprender más
1. Para tomar decisiones debe establecerse un límite al grado de error que
podemos aceptar. Este es el concepto de nivel de significación, al que en la
prueba de hipótesis se representa por . En ciencias del comportamiento el valor
más comúnmente utilizado es  = 0.05. ¿De dónde surge esta convención?
¿Cuál es su relación con el concepto de error y con la distribución normal?
Escriba un ensayo contestando estas preguntas, y otras que usted quiera
agregar para ampliar el tema. Puede Consultar a Cowles y Davis (1982).
2. Explique con un ejemplo cómo puede el medirse el grado en que una distribución
empírica se ajusta a la distribución normal mediante una prueba de bondad de
ajuste.
Ejercicios
9.1. ¿Cuál es la probabilidad de hallar un puntaje mayor o igual a z=0.69?
9.2. ¿Cuál es la probabilidad de hallar un puntaje mayor o igual a z=−0.69?
9.3. ¿Cuál es la probabilidad de hallar un puntaje menor o igual a z=2.01?
9.4. ¿Cuál es la probabilidad de hallar un puntaje menor o igual a z=−2.01?
9.5. ¿Cuál es la probabilidad de hallar un puntaje entre z=0.76 y z=2.13?
9.6. ¿Cuál es la probabilidad de hallar un puntaje entre z=−1.23 y z=0.59?
9.7. ¿Cuál es la probabilidad de hallar un puntaje entre z=−1.89 y z=−0.24?
9.8. ¿Cuál es la z que limita al 65.12% de los casos?
9.9. Suponga que tenemos una población en la que el cociente de memoria (CM)
se distribuye con =67.31 y =7.23; se ha probado que se ajusta a la distribución
normal. Se extraerá al azar un sujeto de la población:
a) ¿Cuál es la probabilidad de que el sujeto tenga CM mayor o igual a 70?
b) ¿Cuál es la probabilidad de que el sujeto tenga CM menor o igual a 59?
c) ¿Cuál es la probabilidad de que el sujeto tenga CM entre 48 y 71?
d) ¿Cuál es el puntaje que limita al 72% de los sujetos con menor CM?

81
Lección 10. Normalización psicométrica

gaussiana
To my way of thinking, knowing an object does not mean copying it −it
means acting upon it. It means constructing systems of transformations that
can be carried out on or with this object. Knowing reality means
constructing systems of transformations that correspond, more or less
adequately, to reality. They are more or less isomorphic to transformations
of reality. The transformational structures of which knowledge consists are
not copies of the transformations in reality; they are simply possible
isomorphic models among which experience can enable us to choose.
Knowledge, then, is a system of transformations that become progressively
adequate17.
Piaget, [1971: 15]
La interpretación de medidas psicométricas

1. El proceso de medición de variables en las ciencias del comportamiento, ya sean
éstas psicológicas, sociológicas, antropológicas o de otras disciplinas, produce
medidas. En estadística se llama dato a la medida de una variable en un sujeto; en
psicometría se le llama puntaje.
Una vez que se dispone de puntajes, surge el problema de la interpretación.
Pensemos en un ejemplo: medimos inteligencia en Pedro y obtenemos un puntaje
de 108. ¿Qué nos dice ese puntaje? ¿Cómo interpretarlo?
Es la interpretación la que finalmente conduce al diagnóstico y a la toma de
decisiones. Existen dos tipos de interpretación de puntajes psicométricos: la
interpretación por criterio y la interpretación por norma
2. La interpretación por criterio supone un punto de corte, al que se llama
precisamente criterio; este punto dicotomiza la variable que se está midiendo y
permite ubicar a cualquier puntaje en uno de dos grupos: No suficiente (no alcanza
el criterio) y Suficiente (cumple el criterio). Desde luego, pueden establecerse más
de un punto de corte, lo que implica discretizar la variable en más de dos categorías.
Por ejemplo, supongamos que en un examen de una asignatura escolar, el cual se
puntúa en escala de 0 a 100, se establece como criterio de promoción un puntaje
igual o mayor a 60 puntos. Entonces, cualquier puntaje menor que 60 puntos se
interpreta como “No suficiente” y cualquier puntaje de 60 puntos o superior se
interpreta como “Suficiente”; de este modo se dispone de una definición operacional
que permite tomar la decisión de promover o suspender a cualquier sujeto evaluado.
3. La interpretación por norma suele ser más compleja, consiste en encontrar la
17
Desde mi punto de vista, conocer un objeto no significa copiarlo, sino actuar sobre él. Significa construir
sistemas de transformaciones que puedan ejecutarse con dicho objeto o sobre él. Conocer la realidad significa
construir sistemas de transformaciones que se correspondan, en mayor o menor medida, con la realidad. Tales
sistemas son más o menos isomórficos a las transformaciones de la realidad. El conocimiento consiste en
estructuras de transformaciones que no son copias de las transformaciones de la realidad; son simplemente
posibles modelos isomórficos y la experiencia nos permite elegir entre ellos. El conocimiento, entonces, es un
sistema de transformaciones que progresivamente deviene más adecuado. (Traducción del autor).

82
posición relativa de un sujeto dentro de su grupo. En consecuencia, supone

necesariamente interpretar el puntaje de un sujeto en relación con un grupo de
referencia; en términos estadísticos, supone ubicar un puntaje individual (un dato)
dentro de una distribución. Es el grupo de referencia, en consecuencia, quien
determina la interpretación del puntaje de un individuo.
Este es el tipo de interpretación que nos interesa en esta lección.
4. Las normas de interpretación constituyen una serie de rangos, que forman
categorías mutuamente excluyentes. El modelo normativo resultante generalmente
se presenta como una Tabla de normas. Interpretar por norma consiste, entonces,
en ubicar a un puntaje individual en la categoría a la que corresponde (la cual debe
ser una, y solo una). En el caso de la interpretación por norma, es precisamente la
ubicación del sujeto en su grupo lo que conduce a un diagnóstico operacional.
5. De este modo, es el grupo de referencia el que determina toda interpretación por
norma. Según el criterio de inclusión con el que se integre el grupo de referencia,
pueden definirse normas por edad (etarias), por género o por otras variables; por su
alcance geográfico pueden ser institucionales, locales, regionales, nacionales,
etcétera. En términos del tiempo, las tablas de normas suelen construirse para un
momento determinado; por ejemplo, en un concurso de admisión a la universidad
para cada promoción (ya sea anual o semestral) se construye una tabla de normas
y, en función de ella, se diagnostica a cada sujeto concursante y se decide el
resultado del concurso.
6. Para comprender mejor los conceptos anteriores, conviene distinguir dos tipos de
puntajes:
Se llama puntaje bruto, o simplemente puntaje, al que se obtiene como producto del
proceso de medición. Por ejemplo, la calificación obtenida en un examen de
aprovechamiento o bien el CI alcanzado en un test de inteligencia.
Por otra parte, el puntaje estandarizado, al que a veces también se le llama
calificación estándar, se obtiene cuando se posiciona al individuo respecto al grupo
al que pertenece. Para estandarizar puntajes es muy frecuente utilizar el modelo de
la distribución normal, por lo que al proceso suele llamársele normalización. La
posición del individuo se obtiene tomando como referencia la media del grupo y
calculando la desviación por lo que, en principio, siempre se parte de la desviación
media, que está dada por DM = X−, la cual indica la distancia entre el sujeto y su
grupo; posteriormente se procede a obtener el puntaje estándar, que como ya se
vio en la lección anterior está dado por z = (X−)/. En consecuencia, estandarizar
un puntaje consiste en ubicarlo dentro del modelo de la distribución normal.
7. Debe observarse que se pueden obtener puntajes estandarizados a partir de
cualquier población, independientemente de que se ajuste o no al modelo de la
distribución normal. Sin embargo, cuando se prueba que es válido utilizar el modelo
gaussiano aumenta notablemente el poder de interpretación y de comparación al
interior de una misma población o entre poblaciones diferentes.
Modelos normativos gaussianos

8. Para aplicar un modelo normativo gaussiano a una población de interés deben
cumplirse cuatro condiciones:
a) Debe probarse que la distribución empírica se ajusta al modelo normal, con

83
un nivel de significación convencionalmente aceptado.

b) Deben conocerse los parámetros  y  de la población.
c) Debe establecerse el número de normas (también llamadas categorías) que
tiene el modelo y el área que contiene cada una.
d) El modelo debe ser simétrico.
9. Veamos el ejemplo más simple de un modelo normativo. Dividiremos a la
población en solo dos normas “Bajo” y “Alto”, el punto de corte es la media.
Es claro que este modelo normativo es excesivamente rudimentario, pues se limita

a dicotomizar a la población. Debe observarse que, al no incluir una categoría
central, no contempla la noción de normalidad entendida como la categoría central,
que no es alta ni baja; en consecuencia, aplicando este modelo dicótomo cualquier
sujeto tendría que ser diagnosticado como Alto o Bajo.
En todo caso, para aplicar este modelo a una distribución empírica cualquiera
bastaría con conocer su media poblacional.
Veamos un ejemplo. Se mide razonamiento viso-espacial en una población con
=113.21 y =12.87. La tabla de normas sería:
Norma Límite inferior Límite superior
Bajo 0 113
Alto 114 
Observe que este es un caso especial en que la desviación estándar no se ocupa.
Observe también que las categorías son mutuamente excluyentes; dado un puntaje
cualquiera, éste se ubicará en una y solo en una categoría, debido a que la variable,
que originalmente es continua fue discretizada.
Observe, además, que el límite inferior de la primera norma, así como el límite
superior de la última norma de la tabla se asignan conforme a la definición
operacional de la variable. En el ejemplo que tratamos, es claro que el razonamiento
viso-espacial es una variable acotada por la izquierda; por tanto, el límite inferior de
la categoría Bajo es cero y no existe límite superior de Alto, lo que se acostumbra
representar con el símbolo de infinito.
Suponga que Pedro obtuvo un puntaje de razonamiento viso-espacial de 125. Con
este modelo, a Pedro se le asigna la norma Alto... y no se puede decir más.
10. Veamos cómo se discretizó la variable. Una vez establecido el punto de corte,
se establece el número de decimales significativos. Entonces, para discretizar la
variable se aplica el siguiente procedimiento:
Sea C ≡ puntaje bruto, entonces:

84
Límite superior de la norma antecedente  TRUNCAR(C)

Límite inferior de la norma consecuente  TRUNCAR(C)+1
Tomando el ejemplo anterior, se establece  = 113.21 como el punto de corte y los
puntajes se medirán en enteros (cero decimales), entonces:
Límite superior de la norma Bajo  TRUNCAR(113.21) = 113
Límite inferior de la norma Alto  TRUNCAR(113.21)+1 = 114
De este modo, puesto que los puntajes se expresan en enteros, cualquier puntaje
se ubica en una y solo una categoría. Sin embargo, el procedimiento anterior puede
adaptarse estableciendo un número cualquiera de dígitos decimales significativos.
11. Veamos ahora un caso que incluya una categoría central. Supongamos que
definimos un modelo con tres normas:
En consecuencia, establecemos los límites exactos de norma como sigue:

Norma Límite inferior exacto Límite superior exacto
Bajo − −z
Medio −z z
Alto z 
Tomemos nuevamente el ejemplo de la sección 9. Para construir la tabla de normas
debemos observar que solo se involucra el valor de z=1. Aplicando lo que
estudiamos en la lección anterior, comenzamos por estandarizar los puntos de
corte:
Para z=−1: X = (z)+ = (−112.87)+113.21 = 100.34
Para z=1: X = (z)+ = (112.87)+113.21 = 126.08
Por tanto, aplicando este modelo, la tabla de normas para la población de estudio
sería:
Norma Límite inferior Límite superior
Bajo 0 100
Medio 101 126
Alto 127 
Sabemos que el puntaje de razonamiento viso-espacial de Pedro es de 125, con
este modelo será diagnosticado como Medio; es decir, Pedro tiene un razonamiento
viso-espacial normal.
En el discurso cotidiano, a la categoría Medio suele llamársele “Normal”. La
normalidad, un concepto central en las ciencias del comportamiento, aquí queda

85
operacionalizado.
Es claro que la distribución gaussiana puede aplicarse a cualquier modelo
normativo, siempre que se cumplan las condiciones señaladas en la sección 8.
Veamos dos de los modelos más utilizados en psicometría.
12. El modelo estanina establece nueve normas y queda definido porque cada una
de ellas abarca 0.5 z. El nombre del modelo en inglés es stanine, contracción de
standard nine. De este modo, en términos de porcentajes, el modelo estanina tiene
la siguiente distribución
Estanina Límite superior (z) Área En enteros (%)
1 −1.75 0.0401 4
2 −1.25 0.0656 7
3 −0.75 0.1210 12
4 −0.25 0.1747 17
5 0.25 0.1974 20
6 0.75 0.1747 17
7 1.25 0.1210 12
8 1.75 0.0656 7
9  0.0401 4
Observe que en la cuarta columna se presenta el valor en porcentaje, redondeado
a enteros. Este es el valor que suele presentarse en las tablas de estaninas. Sin
embargo, no debería perderse de vista que el redondeo a enteros reduce la
precisión; para evitarlo pueden utilizarse los valores más precisos de z que se
muestran en la segunda columna, aunque esto siempre puede ser convencional.
En este modelo, la estanina 5 es la zona de normalidad.
Continuemos utilizando el ejemplo de la sección 9; sabemos que =113.21 y
=12.87. Entonces, utilizando los límites de z, para obtener los puntos de corte, que
son valores de X, aplicamos
X = (z)+
Para la estanina 1:
X = (−1.7512.87)+113.21 = 90.69
repitiendo para las estaninas restantes, tenemos que los puntos de corte son:
Estanina Punto de corte (X)
1 90.69
2 97.12
3 103.56
4 109.99
5 116.43
6 122.86
7 129.30
8 135.73
9 
Y discretizando la variable como se vio en la sección 9, la tabla de normas es:

86
Estanina Rango
1 0 90
2 91 97
3 98 103
4 104 109
5 110 116
6 117 122
7 123 129
8 130 135
9 136 
Dijimos que Pedro tenía un puntaje de 125. Con este modelo se le asigna la estanina
7; Pedro tiene un razonamiento viso-espacial dos categorías por encima de lo
normal.
13. El modelo estén (del inglés sten, contracción de standard ten), como su nombre
lo indica, tiene diez categorías y presenta la siguiente distribución:
Estén Límite superior (z) Área En enteros (%)
1 −2.00 0.0228 2
2 −1.50 0.0441 4
3 −1.00 0.0918 9
4 −0.50 0.1499 15
5 0.00 0.1915 19
6 0.50 0.1915 19
7 1.00 0.1499 15
8 1.50 0.0918 9
9 2.00 0.0441 4
10  0.0228 2
Aplicamos ahora el modelo estén al ejemplo de la sección 9, con =113.21 y
=12.87. Calculando los puntos de corte:
Punto de corte
Estén (límite superior)
1 87.47
2 93.91
3 100.34
4 106.78
5 113.21
6 119.65
7 126.08
8 132.52
9 138.95
10 
Y la tabla de normas es:
Estén Rango
1 0 87
2 88 93
3 94 100

87
Estén Rango
4 101 106
5 107 113
6 114 119
7 120 126
8 127 132
9 133 138
10 139 
Ahora encontramos que el puntaje de 125 que obtuvo Pedro lo ubica en el estén 7.
En consecuencia, se diagnostica que Pedro queda en la segunda de las cinco
categorías superiores (en este modelo no hay normalidad) del grupo de referencia.
Es claro que aplicando el modelo estén, ningún sujeto puede ser diagnosticado
como normal.
Comparar variables de diferente naturaleza

14. Otra aplicación del modelo gaussiano, de gran simplicidad, pero de enorme
importancia en ciencias del comportamiento, es el uso de calificaciones estándar
para comparar, en un mismo sujeto, dos variables de naturaleza completamente
diferente. Por ejemplo, suponga que estudiamos a Pedro y queremos comparar su
estatura contra su inteligencia.
Ya vimos que cuando se asume el modelo de la distribución normal estándar, para
estandarizar cualquier puntaje bruto basta con conocer la media y la desviación
estándar de su población de referencia para obtener z, la calificación estándar de la
distribución normal, aplicando la fórmula z = (X−)/.
Aquí aparece un concepto de gran profundidad. Lo que importa en este momento
es que el valor de z es un valor estadístico, independiente de la naturaleza original
de la variable a que corresponde el puntaje bruto del que proviene. En
consecuencia, dos o más valores de z pueden ser directamente comparados, sin
importar a qué tipo de variables corresponden. Si esto no se comprende cabalmente
cualquiera podría quedar confundido al comparar la estatura con la inteligencia, la
memoria con el ingreso económico mensual o cualquier otro par de variables de
diferente naturaleza
15. Veamos un ejemplo. Suponga que Pedro tiene una estatura de 164 cm. y en su
población la media es de 172.21 cm. con una desviación estándar de 18.33 cm.; por
otra parte, su cociente intelectual es de 116, mientras que en su población el
promedio es de 114.21 y la deviación estándar de 13.98. ¿Cómo es la estatura de
Pedro respecto a su inteligencia?
Para contestar la pregunta, estandarizamos ambos puntajes brutos:
Sea:
zE ≡ Calificación estándar de la estatura
zI ≡ Calificación estándar de la inteligencia
entonces
zE = (164−172.21)/18.33 = −0.45
zI = (116-114.21)/13.98 = 0.13
Puesto que zI > zE, concluimos que la inteligencia de Pedro es mayor que su

88
estatura. De este modo comparamos dos variables de naturaleza muy diferente. En

realidad, no hemos hecho más que aplicar el proceso básico de estandarización
que ya conocíamos, pero ahora vimos que permite comparar variables de diferente
naturaleza.
16. Sin embargo, puesto que la calificación z es una magnitud signada, en algunos
casos suele presentar dificultades comparar dos valores con signos diferentes,
sobre todo para quienes están acostumbrados a manejar solo valores positivos.
Volviendo al ejemplo, vemos que la calificación estandarizada de estatura en Pedro
tiene signo negativo, mientras que la inteligencia tiene signo positivo; desde luego,
esto significa que su estatura se encuentra bajo la media de su grupo, mientras que
con la inteligencia ocurre lo contrario. Pero para algunas personas no familiarizadas
con la teoría de la distribución normal podrían preguntarse: ¿Cómo puede haber
una estatura negativa? Para resolver esta dificultad se utilizan calificaciones
estándar que eliminan los signos.
17. Veamos algunas de las calificaciones estándar más utilizadas en el campo de
la psicometría.
Nombre   Transformación
T (a veces llamada Z) 50 10 T=(z10)+50
NCE (Normal Curve Equivalent) 50 21 NCE=(z21)+50
Estanina (Standard Nine) 5.0 1.96 Sn=(z1.96)+5
Estén (Standard Ten) 5.5 1.96 St=(z1.96)+5.5
CEEB (College Entrance Examination Board) 500 100 CEEB=(z100)+500
AGCT (Army General Clasiffication Test) 100 20 AGCT=(z20)+100
CI de desviación en la Escala Wechsler 100 15 W=(z15)+100
CI de desviación en la Escala Catell 100 24 C=(z24)+100
Recordemos ahora que para transformar una calificación z a su correspondiente
puntaje bruto se aplica:
X = (z)+
Esta fórmula es precisamente la que aparece en la cuarta columna. Pero ahora
tenemos CE=(z×)+, donde CE es la calificación estándar de que se trate,
mientras que media y desviación estándar toman valores establecidos por dicho
modelo, según se muestra en la propia tabla anterior. Así, lo que estamos haciendo
realmente es una segunda transformación: ahora tomamos un puntaje z (producto
de una primera transformación) y lo convertimos ahora en una calificación estándar.
Entonces, viendo las fórmulas de la tabla anterior queda claro que toda calificación
estándar que asuma el modelo de la distribución normal, no es más que una
segunda transformación que transforma un puntaje z normalizado a un modelo
definido de calificación estándar.
18. Terminemos con un ejemplo. Suponga que Luis es un estudiante de preparatoria
y obtuvo una calificación de Matemáticas de 7.0, mientras que su población de
referencia tiene una media de 6.89 y una desviación estándar de 0.61. Por otra
parte, en Historia el propio Luis obtuvo 7.5 y en su población la media es de 7.79 y
la desviación estándar de 1.02. En la región escolar se Luis se aplica el modelo
NCE. ¿En qué asignatura obtuvo mayor aprovechamiento académico?
Primero transformamos los puntajes brutos a calificaciones z:

89
zM = (7.0−6.89)/0.61 = 0.18
zH = (7.5−7.79)/1.02 = −0.28
Ahora transformamos a calificaciones NCE:
NCEM = (0.1821)+50 = 53.78
NCEH = (−0.2821)+50 = 44.12
Es claro que, utilizando la calificación estándar -en este caso NCE- Luis tuvo mayor
aprovechamiento en Matemáticas (NCEM=53.78) que en Historia (NCEH=44.12). En
cambio, utilizando puntajes brutos llegamos a la interpretación contraria: Luis obtuvo
menor calificación en Matemáticas (XM=7.0) que en Historia (XH=7.5). Puede
comprobar que utilizando cualquier otra calificación estándar llega a la misma
interpretación.
Desde luego, la calificación estándar permite interpretaciones más válidas que el
puntaje bruto, porque al comparar contra el grupo controla factores como la
dificultad de la asignatura. Es por esto que en la práctica lo más común es que se
utilicen calificaciones estándar derivadas de z; prácticamente se ha abandonado el
uso directo de puntajes brutos en la interpretación psicométrica.
1. ¿Qué es un puntaje psicométrico?
2. ¿Cuál es el propósito principal de la interpretación psicométrica?
3. ¿En qué consiste la interpretación por criterio?
4. ¿Afecta el grupo a la interpretación por criterio? Justifique su respuesta.
5. ¿En qué consiste la interpretación por norma?
6. ¿Qué son las normas de interpretación?
7. ¿Cuáles son las cuatro condiciones que deben satisfacerse para aplicar
válidamente el modelo gaussiano a una población concreta?
8. ¿Qué es un puntaje bruto?
9. ¿Qué es un puntaje estandarizado?
10. ¿Cuántas normas debe tener un modelo normativo?
11. ¿Qué implica que un modelo normativo tenga un número par de categorías?
12. Analice los modelos estanina y estén en función del concepto de normalidad.
Para aprender más
1. La diferencia fundamental entre las calificaciones estándar T y NCE consiste en
que el rango de T va aproximadamente de 20 a 80, mientras que el rango de
NCE va de 0 a 100. Demuestre esta proposición y discuta sus implicaciones para
la interpretación psicométrica.
2. Investigue qué aplicaciones se ha dado en la práctica a cada uno de los modelos
de normalización que se presentan en la tabla de la sección 17 de esta lección.
3. Como se vio en esta lección, las calificaciones estándar permiten comparar dos
variables de naturaleza diferente, medidas en un mismo sujeto. Pero tienen otras

90
aplicaciones en las ciencias del comportamiento. Investigue y exponga algunas

de tales aplicaciones.
4. Explique la forma en que el Centro Nacional de Evaluación para la Educación
Superior en México (CENEVAL) estandariza los resultados de los Exámenes
Generales de Egreso de la Licenciatura (EGEL).
Ejercicios
10.1. En cierta región escolar el aprovechamiento escolar se mide en escala de 0 a
100. Se ha encontrado que en los niños que egresan de sexto grado de primaria, la
media en matemáticas es de 70.22 con una desviación estándar de 9.83. Se probó
que la variable estudiada se ajusta a la distribución normal.
a) Construya la tabla de normas con el modelo estanina.
b) José es integrante de la población y tiene un puntaje de aprovechamiento
escolar en matemáticas de 83.85. Diagnostíquelo.
10.2. En cierta población de empleados bancarios de ventanilla se ha encontrado
que en el factor Expresividad emocional (sociabilidad) del 16PF la media es de
10.02 con una desviación estándar de 3.83. Se ha probado que la distribución se
ajusta a la normal.
a) Construya la tabla de normas con el modelo esten.
b) José es un empleado que pertenece a la población de estudio y obtuvo un
puntaje de sociabilidad de 9. Diagnostíquelo.
10.3. En cierta región escolar se han encontrado los siguientes parámetros de
aprovechamiento escolar en niños que egresan de secundaria:
Área curricular  
Español 83.34 8.96
Matemáticas 68.12 7.59
Ciencias 77.34 7.81
Geografía 75.65 7.91
Historia 72.21 7.74
Formación cívica y ética 86.14 8.92
Se ha probado que las distribuciones se ajustan a la normal.
Juan es egresado de secundaria en dicha región y en su certificado de estudios se
registra el siguiente aprovechamiento escolar.
Área curricular Aprovechamiento escolar
Español 78.25
Matemáticas 72.01
Ciencias 78.22
Geografía 72.14
Historia 78.23
Formación cívica y ética 85.14
Construya el perfil de aprovechamiento escolar de Juan utilizando el modelo NCE.
10.4. En cierta universidad el CI se distribuye con media de 106.27 y desviación
estándar de 9.97. Se ha probado que la distribución se ajusta a la normal. José es
estudiante de dicha universidad y su CI es de 115.

91
a) ¿Cuál es su CI de desviación en la Escala de Wechsler?

b) ¿Cuál es su CI de desviación en la Escala de Catell?

92
Lección 11. Elementos de muestreo

Therefore the true Logic of this world is in the Calculus of Probabilities, wich
takes account of the magnitude of the probability (which is, or which ought
to be in a reasonable man´s mind)18.
James Clerk Maxwell [en Harman, 1990: 197]
Conceptos básicos
1. En teoría del muestreo, el universo o población es el conjunto completo de
elementos que interesa estudiar.
Este es el concepto fundamental para analizar el muestreo y, por tanto, debe
definirse operacionalmente, de manera que cualquier investigador pueda replicar un
estudio particular.
La forma más eficaz de definir operacionalmente un universo de estudio es
estableciendo criterios de inclusión, los cuales indican de manera inequívoca las
condiciones que deben cumplirse para que un elemento cualquiera pueda o no
considerarse como integrante del universo de estudio.
Un ejemplo simple: supongamos que nos interesa estudiar el universo de electores
en el Estado de México para cierta fecha. Entonces, definimos como criterio de
inclusión la existencia de una persona en el padrón del Instituto Nacional Electoral,
siempre que su domicilio registrado se encuentre en el territorio del Estado de
México. Con este criterio podemos decidir inequívocamente si una persona dada es
o no elector en el Estado de México. Observe que con una definición como esta se
obvian criterios como edad, nacionalidad, residencia, estatus legal, etcétera.
Ciertamente el ejemplo anterior es bastante simple y, sin embargo, resulta
operativo; nos permite decidir inequívocamente y con confianza cuándo un individuo
es un elector en la población de interés. Pero también es cierto que existen casos
en los que resulta mucho más complejo establecer los criterios de inclusión. Sin
embargo, la metodología científica exige que las poblaciones se definan
operacionalmente.
2. Podemos dividir a los universos de estudio en dos clases:
a) Finitos. Se conoce el número de elementos que integra el universo de
estudio. Un ejemplo de esta clase es el padrón electoral citado.
b) Infinitos. No se puede establecer el número de elementos que integran el
universo de estudio. Un ejemplo de universo infinito es el conjunto de
personas que asistirá en cierta fecha a una feria del libro; en este caso no
podemos conocer el número de elementos que forma el universo de estudio
y tampoco pueden identificarse los individuos concretos que la componen.
Debe observarse que el término “infinito”, en el sentido en que lo aplicamos a la
segunda clase de poblaciones, no significa que pueda crecer indefinidamente, sino
simplemente que se desconoce la cardinalidad del conjunto. Esta distinción
resultará fundamental más adelante.
18
Por lo tanto, la verdadera lógica de este mundo es el cálculo de probabilidades, que toma en cuenta la
magnitud que la probabilidad tiene (o debería tener para un hombre razonable).

93
3. Una muestra es un subconjunto del universo de estudio. Es claro que todo

elemento de la muestra necesariamente es también un elemento del universo de
estudio.
4. El muestreo, entonces, es el proceso mediante el cual se extrae una muestra del
universo de estudio.
5. El universo establece el poder de inferencia en cualquier estudio muestral. Toda
conclusión debe limitarse al universo de estudio y nunca puede excederlo. Por
ejemplo, si definimos como universo de estudio a los electores del Estado de México
en las elecciones de 2015, entonces cualquier conclusión que se alcance
estudiándolo, no podrá abarcar más allá de este universo; no será válido aplicar la
conclusión al Estado de Jalisco, por ejemplo; incluso no será válido aplicarlo al
Estado de México en otro año.
Veamos las principales razones para estudiar muestras.
¿Por qué muestrear?

6. Viabilidad. Existen muchos casos en que las poblaciones son tan grandes que
sencillamente no resulta posible realizar un censo estudiando a todos los elementos
de la población. Por ejemplo, si queremos estudiar la intención de voto en una
elección presidencial en México y el padrón se compone de más de 80 millones de
electores; entonces, en términos prácticos, es claro que estudiar a todos y cada uno
de los elementos resulta sencillamente inviable. Una muestra reduce el número de
elementos a un tamaño viable, que pueda abordarse en la práctica.
7. Precisión. Mientras menos elementos se incluyan, más riguroso puede ser el
control del proceso de medición y esto permite aumentar la confiabilidad y la
precisión de los datos que se obtengan. Se ha observado que muestras
seleccionadas con una metodología rigurosa conducen a conclusiones más
precisas que otras muestras muchas más grandes, pero cuyo tamaño obligó a
utilizar métodos menos rigurosos.
Al error que introduce el muestreo generalmente se le llama e y debe distinguirse
del nivel de significación o error , que mide el riesgo de rechazar la hipótesis nula
cuando realmente es verdadera; el nivel de significación es la probabilidad de
aceptar conclusiones espurias; el complemento a uno del nivel de significación es
el nivel de confianza, el cual indica la probabilidad de que las conclusiones sean
ciertas. En cambio, el error de muestreo, e, mide el riesgo contrario: aceptar la
hipótesis nula cuando realmente es falsa, es decir, mide el riesgo de no detectar lo
que realmente existe; el complemento a uno del error de muestreo es el nivel de
precisión. Para contrastar los errores  y  puede consultarse a López (2014, 31-
33). Cuando veamos las fórmulas para calcular el tamaño de la muestra se
encontrará que aparecen ambos tipos: el nivel de significación y el error de
muestreo.
8. Costo. Es claro que el costo de cualquier investigación está correlacionado
directamente con el número de elementos muestrales. Mientras menor sea el
tamaño de la muestra, menor será el costo de la investigación.
9. Tiempo. La rapidez con la que se realice un estudio y se entreguen resultados
suele ser un factor crucial en muchos estudios sobre poblaciones. El tiempo
requerido para estudiar una población depende de dos factores principales: el

94
primero es el tamaño de la muestra y el segundo es la tecnología utilizada en la

captura de datos, procesamiento y elaboración del reporte. El muestreo es,
entonces, un recurso metodológico fundamental para estudiar poblaciones, sean
grandes o pequeñas, con rapidez.
Generalmente, el reto consiste en buscar el punto de equilibrio entre costo y
precisión, se trata de estudiar la muestra más pequeña, pero que permita un nivel
de precisión aceptable. Veremos más adelante que esto es justamente lo que hace
el cálculo del tamaño de la muestra.
Dos tipos de muestreo

10. Conviene distinguir entre dos grandes tipos de muestreo.
i. El muestreo intencionado consiste en seleccionar a los elementos
poblacionales que integrarán la muestra buscando en ellos una característica
de interés. Por ejemplo, si queremos aplicar un programa de remedio para
deficiencias en el aprovechamiento escolar, se buscará a los estudiantes con
más bajos puntajes de aprendizaje para conformar la muestra. Es claro que
la teoría de la probabilidad no tiene aplicación en este tipo de muestreo y, por
tanto, no es el que nos interesa en este curso.
ii. El muestreo aleatorio consiste en seleccionar a los elementos que
integrarán la muestra de manera que todos tengan la misma probabilidad de
ser elegidos. Todos los elementos de la población son equiprobables. El
muestreo aleatorio elimina los sesgos de investigación. Este es el tipo de
muestreo que nos interesa en este curso.
Desde luego, existen modalidades intermedias y otras que combinan estas dos
formas de muestreo; pero puede verse que, en cualquier caso, los dos tipos
mencionados son los básicos. Existen, además, otros tipos de muestreo derivados,
pero estos dos son los que interesan en este curso.
Error muestral y propósitos del muestreo
11. Cuando se trabaja con preguntas de investigación que no relacionan variables,
sino solo las miden (a veces se les llama estudios descriptivos), se trata de obtener
los estadígrafos (que pueden ser proporciones o bien media y desviación estándar
muestrales, según el nivel en que se midieron las variables) con el propósito de
estimar sus respectivos parámetros (proporciones o media y desviación estándar
poblacionales).
La precisión, entonces, consiste en reducir la distancia entre el estadígrafo y el
parámetro (proporción muestral contra poblacional, o bien entre y ). A esta
distancia también se le llama error muestral o error de inferencia y a partir de él se
calculan los intervalos de confianza, tema que se estudia en estadística inferencial.
12. Cuando se trabaja con problemas de investigación que relacionan variables (a
veces se les llama estudios explicativos), entonces se trata de comparar o
correlacionar dos grupos. En este caso el propósito consiste en encontrar
diferencias (rechazar la hipótesis nula) y la precisión consiste en la capacidad de
encontrar tales relaciones. A la falta de sensibilidad de la muestra para encontrar
relaciones −cuando realmente existen− se le llama error de Tipo II o error ; a su
complemento (1−) se le llama potencia de la prueba de hipótesis.

95
13. En consecuencia, para calcular el tamaño de una muestra se requiere establecer

el nivel de significación (), pero también se requiere establecer el nivel del error de
muestreo (e). En estudios rigurosos, generalmente se establece primero e y a partir
de él se establece .
14. Además, para seleccionar una fórmula para calcular el tamaño muestral debe
considerarse si se trabaja con variables cualitativas, que solo permiten calcular
proporciones, o con variables cuantitativas que permiten calcular media y
desviación estándar.
Teniendo claros estos conceptos se podrá entender el problema de seleccionar una
muestra.
Representatividad
15. No debemos perder de vista que en cualquier estudio muestral los únicos datos
de que realmente disponemos son los correspondientes a la muestra. Pero los
elementos muestrales constituyen solo una parte del universo; la parte restante,
generalmente mucho más grande que la muestra, formada por aquellos elementos
de la población que no participaron en la muestra, es completamente desconocida
para el investigador porque nunca estudió a sus elementos.
Volvamos al ejemplo anterior. El padrón electoral federal en México tuvo
aproximadamente 83.6 millones de personas al corte del 15 de abril de 2015.
Suponga que realizamos una encuesta de intención de voto y que la muestra tuvo
2 300 elementos. Realmente, solo medimos la intención de voto de los elementos
muestrales, mientras que desconocemos al resto del universo de estudio; esto es
no estudiamos al 99.997% del universo.
Sin embargo, el propósito final del estudio consiste en concluir sobre la población y
no sobre la muestra. ¿Cómo puede ser esto?
La respuesta a esta pregunta es una de las mayores aportaciones de la teoría de la
probabilidad a las ciencias del comportamiento. Por desgracia, no es una respuesta
sencilla. Sin embargo, trataremos de aproximarnos a ella.
16. Se dice que una muestra es representativa cuando posee las mismas
características del universo del que fue extraída; a veces a esta característica se le
llama homomorfismo entre muestra y universo de estudio.
De este modo, conociendo las características de la muestra, podemos realizar una
inferencia estadística de las características de la población, ya sea con fines de
estimación o de comparación.
17. El problema, entonces, consiste en saber cómo lograr la representatividad de la
muestra. Existen tres condiciones fundamentales que deben considerarse para que
una muestra sea representativa del universo de estudio del que se extrae:
Suficiencia, estratificación y aleatoriedad. Veamos cada una de ellas.
Primera condición: La suficiencia de muestreo
18. Aplicada al estudio del error muestral, la Ley de los grandes números puede
expresarse así:
Sea
e ≡ Error muestral
n ≡ Tamaño de la muestra
entonces

96
e→0 conforme n→.

Vemos que el error de muestreo se reduce conforme aumenta el tamaño de la
muestra y viceversa.
En consecuencia, como ya se vio, calcular el tamaño de la muestra requiere de
establecer un margen de error muestral que será aceptable cuando se formulen las
conclusiones del estudio.
Recordemos que el tamaño de la muestra implica un costo de investigación, por lo
que se trata de reducirlo en busca de la eficiencia. Pero ahora vemos que también
ocurre que mientras más pequeñas sean las muestras, es mayor el error de
muestreo. En estas condiciones, el investigador tiene que establecer un límite
máximo de error aceptable que tendrán sus conclusiones.
Por tanto, calcular el número de elementos que debe tener la muestra supone
buscar un equilibrio entre el costo (tamaño muestral) y el beneficio (precisión del
muestreo).
19. Resumiendo lo dicho hasta aquí, para calcular el tamaño de la muestra podemos
identificar tres condiciones generales:
a) El tipo de inferencia estadística que se va a realizar. Existen dos casos
I. Estimación de parámetros.
II. Prueba de hipótesis.
b) El tipo de variable que se estudia. También se identifican dos casos:
I. La variable es cualitativa, lo que implica que no pueden realizarse
operaciones aritméticas sobre los datos y solo procede contar
frecuencias; entonces se trabaja con proporciones.
II. La variable es cuantitativa y permite calcular media y varianza.
c) El tamaño de la población. Solo aplica en la estimación de parámetros y
podemos identificar dos casos:
I. Población finita, se conoce el número de elementos que tiene.
II. Población infinita. No puede determinarse su tamaño.
En consecuencia, para calcular el tamaño de la muestra se pueden identificar seis
casos generales:
Proporciones y
Estimación de Población infinita Caso 1 Caso 3
parámetros Población finita Caso 2 Caso 4
Prueba de hipótesis Caso 5 Caso 6
20. Veamos ahora las fórmulas para calcular el tamaño de la muestra en cada uno
de los casos identificados.
Caso 1. Estimación de proporciones, población infinita.
n = (z2p(1-p)) / e2
Donde:
n ≡ Tamaño de la muestra.
e ≡ Error de muestreo asociado con la precisión en prueba bilateral:
e = (1−Precisión)/2.
z ≡ Calificación estándar asociada con el nivel de significación en prueba
bilateral: 1−(/2).
p ≡ Proporción del estrato de interés para el estudio que se realiza.

97
Caso 2. Estimación de proporciones, población finita.

n = (Nz2p(1-p)) / (((N-1)e2)+(z2p(1-p)))
N ≡ Tamaño de la población
p ≡ Proporción del estrato de interés para el estudio que se realiza.
Caso 3. Estimación de la media, población infinita.
n = (z22) / d2
Donde:
d ≡ Error medio: d = e. Observe que se está calculado para prueba bilateral.
Caso 4. Estimación de media y desviación estándar, población finita.
n = (Nz22) / ((d2(N−1))+(z22))
N ≡ Tamaño de la población
d ≡ Error medio: e Observe que e está calculado para prueba bilateral
Caso 5. Prueba de hipótesis con proporciones.
n = ((z(2p(1−p)))+(z((p1(1−p1))+(p2(1-p2)))))2 / (p1−p2)2
p1 ≡ Proporción del estrato de interés para el Grupo 1.
p2 ≡ Proporción del estrato de interés para el Grupo 2.
p ≡ Proporción promedio de ambos grupos: p = (p1+p2)/2.
e ≡ Error de muestreo asociado con la precisión en prueba unilateral:
e = 1−Precisión.
unilateral: 1−.
z ≡ Calificación estándar de la distribución normal asociada con el error de
muestreo en prueba unilateral: 1−e. (Es la potencia de la prueba).
Caso 6. Prueba de hipótesis con media y desviación estándar.
n = ((2(z+z)2)2) / d2

98
e ≡ Error de muestreo asociado con la precisión en prueba unilateral:

e = 1−Precisión.
unilateral: 1−.
z ≡ Calificación estándar de la distribución normal asociada con el error de
muestreo en prueba unilateral: 1−e. (Es la potencia de la prueba).
d ≡ Error medio: e
Observaciones:
a) En todos los casos de estimación de parámetros las fórmulas asumen que
se realizará una prueba bilateral (también llamada no direccionada). Esto se
debe a que cuando se calculan intervalos de confianza el error es también
bilateral (e). En cambio, las pruebas de hipótesis para comparación o
correlación son unilaterales porque cualquiera que sea el signo de la
diferencia suele asumirse que se ubica en un solo extremo de la distribución.
b) Cuando se trabaja con pruebas de hipótesis no aplica el tamaño de la
población; en otras palabras, la población siempre se asume infinita.
c) En los casos de estimación de proporciones en que no se dispone de
información sobre las proporciones poblacionales puede asignarse como
valores p = q = 0.50. Sin embargo, debe tenerse presente que con este
recurso se maximiza la varianza y, en consecuencia, también se maximiza el
tamaño de la muestra.
Con estas fórmulas puede calcularse el tamaño de la muestra en la mayoría de los
casos que se presentan en la investigación en ciencias del comportamiento.
Segunda condición: La estratificación

21. En muchos casos conviene dividir la población de estudio en subconjuntos
conforme a una o más variables que resulten importantes para la investigación que
se esté realizando: a tales subconjuntos se les llama estratos.
Por ejemplo, en una encuesta nacional sobre intención de voto un primer criterio de
estratificación podrían ser las entidades federativas, otro criterio sería el género,
otro el grupo etario, etcétera. Cuando se define más de una variable para estratificar
una población, puede utilizarse un árbol para representar la estructura de los
estratos poblacionales.
Pero también existen casos en los que la población no se divide en estratos;
entonces se omite esta condición.
En los casos en que aplica la estratificación, debe cumplirse esta condición para
controlar la representatividad del muestreo. Debe asegurarse que la estructura de
los estratos poblacionales y la proporción de cada uno de ellos se preserven en la
muestra.
22. Conocida la estructura de estratos en la población y la proporción de cada
estrato, y habiendo calculado el tamaño de la muestra, se calcula el tamaño de cada
estrato muestral con una simple proporción:
Sea:
Pi ≡ proporción del estrato poblacional i-ésimo. Cuando se tiene una población
finita, entonces Pi = Ni/N; cuando la población es infinita debe disponerse de

99
un estimador de Pi.
ni ≡ Tamaño del estrato muestral i-ésimo.
entonces
ni = Pin
De este modo puede asegurarse que en la muestra se preserva la estructura de
estratos poblacionales, lo que contribuye a su representatividad.
Ahora ya se sabe de qué tamaño será la muestra, qué estratos la integran y de qué
tamaño es cada estrato muestral.
Para elegir los elementos poblacionales que formarán la muestra debe muestrearse
por estrato.
Tercera condición: La aleatoriedad

23. Entendamos por marco muestral el conjunto sobre el cual se muestreará.
Así, por ejemplo, si una población no está estratificada, la población en su conjunto
constituye el marco muestral. En cambio, si la población está estratificada, cada
estrato en el último nivel de ramas del árbol de estratificación constituye un marco
muestral diferente pues, como dijimos, debe muestrearse de cada estrato.
24. Con el fin de eliminar cualquier sesgo del investigador que pueda contaminar la
muestra, la selección de los elementos muestrales debe realizarse al azar. La
selección aleatoria asegura la equiprobabilidad: Cualquier elemento muestral tiene
la misma probabilidad de ser elegido para la muestra.
25. Anteriormente, cuando se trabajaba con grandes poblaciones la selección
aleatoria solo podía realizarse utilizando tablas de números aleatorios. Esto
planteaba serias limitaciones teóricas, pues dada una tabla, los números siempre
eran los mismos, aun cuando se definieran distintas rutas para leerlos. En la
actualidad esta limitación ha desaparecido con los generadores electrónicos de
números aleatorios, sobre todo con la computadora.
26. Cuando se trabaja con poblaciones finitas, un algoritmo eficiente para
seleccionar muestras aleatorias consiste en ordenar aleatoriamente el marco
muestral y simplemente, a partir del primer elemento tomar los que sean necesarios
para completar la muestra. Supongamos que tenemos en una hoja electrónica de
cálculo el marco muestral, los pasos para generar una muestra aleatoria serían:
Comienza
Paso 1. A la derecha de la última columna, genere un número aleatorio para
cada elemento del marco muestral.
Paso 2. Convierta los números aleatorios en valores, para evitar que cambien.
Paso 3. Ordene toda la tabla en función de la columna de números aleatorios.
Paso 4. Vaya al primer renglón y, en el nuevo orden que ya tiene el marco
muestral, comience a elegir los elementos que conformarán la muestra.
Observe que, si se requieren elementos de sustitución, simplemente
debe seguir seleccionando elementos consecutivamente.
Termina
27. Cuando las poblaciones son infinitas se requiere de más imaginación para
diseñar una estrategia de selección de elementos muestrales. Pongamos solo un
ejemplo, supongamos que queremos obtener una muestra aleatoria de los clientes

100
que compran en un supermercado y definimos como criterio de inclusión que el

cliente pague en cajas una compra mínima de 50 pesos. Podemos ver a cada caja
activa como un estrato; entonces la cola de clientes sería el marco muestral y podría
generarse un número aleatorio entre un rango conveniente, digamos 10 clientes; si
el primer número aleatorio fuera el 6, el sexto cliente que pase por la caja y cumpla
el criterio de inclusión sería elegido para la muestra, y así se continuaría hasta
completar el tamaño de la muestra.
28. En fin, las posibilidades son muchas y la imaginación del investigador es la que
debe diseñar la estrategia de muestreo más adecuada.
Lo que no debe perderse de vista es que cualquiera que sea la estrategia adoptada,
debe asegurarse que todos los elementos de la población tengan la misma
probabilidad de ser elegidos para la muestra; en otras palabras, debe asegurarse la
equiprobabilidad. Realmente, las tres condiciones de representatividad que vimos
atienden a este fin.
1. ¿Qué es un universo o población, en el contexto del muestreo?
2. ¿Cómo se puede definir operacionalmente a un universo de estudio?
3. ¿Qué es una población finita, en el contexto del muestreo?
4. ¿Qué es una población infinita, en el contexto del muestreo?
5. ¿Qué es una muestra?
6. ¿Qué es el muestreo?
7. Establezca el poder de inferencia en un estudio muestral.
8. Proponga un ejemplo en el que resulte inviable estudiar a toda la población.
9. ¿Qué es un intervalo de confianza en la estimación de parámetros?
10. ¿Qué es la potencia en la prueba de hipótesis?
11. ¿Cómo se relaciona el intervalo de confianza con el diseño muestral?
12. ¿Cómo se relaciona la potencia de una prueba de hipótesis con el diseño
muestral?
13. ¿Cómo se relaciona el costo con el tamaño de la muestra?
14. ¿Cómo se relaciona el tiempo con el muestreo?
15. ¿Cuándo se dice que una muestra es representativa de la población?
16. ¿Qué es el muestreo aleatorio?
17. ¿Qué es el muestreo intencionado?
18. ¿Cuáles son las tres condiciones que deben cumplirse para que una muestra
sea representativa?
19. ¿Cómo se relaciona el tamaño de la muestra con la Ley de los grandes
números?
20. ¿Cuáles son las tres condiciones que determinan la selección de una fórmula
para calcular el tamaño de la muestra?
21. ¿Cuál es el propósito de la estratificación en el muestreo?
22. ¿Cuál es el propósito de la aleatoriedad en el muestreo?
Para aprender más
1. Demuestre que la Ley de los grandes números se cumple en cada una de las
fórmulas presentadas para calcular la muestra.

101
2. Proponga un ejemplo, diferente al visto en el curso, de selección aleatoria de los

elementos muestrales en una población infinita.
Ejercicios
11.1. Se instalará un punto de control carretero para evaluar fatiga perceptual en
conductores de autobuses. Se establece un nivel de significación del 95% y un nivel
de precisión del 90%.
a) Se estima que la proporción de conductores que manejan con fatiga es del
12%. Calcule el tamaño de la muestra.
b) No se dispone de estimación alguna sobre la proporción de conductores que
manejan con fatiga. Calcule el tamaño de la muestra.
c) Para seleccionar aleatoriamente a los elementos muestrales se dividirá a la
cola de autobuses en grupos de 20, de cada grupo se seleccionará un
elemento muestral. Seleccione los primeros 10 elementos muestrales.
11.2. Se aplicará una encuesta de actitud hacia programas antitabaquismo en una
empresa que tiene 5 386 empleados operativos, 456 de oficina y 112 directivos. Se
sabe que el 23% de la población fuma. Se establece un nivel de significación del
7% y un margen de error muestral también del 7%.
a) Calcule el tamaño de la muestra.
b) Estratifique la muestra por tipo de empleo.
c) Seleccione los primeros cinco elementos muestrales de cada estrato.
10.3. Para estandarizar un test de inteligencia en la población de un municipio, con
adultos con edades entre 20 y 60 años, se tomará una muestra representativa con
un error muestral del 5% y un nivel de confianza del 95%. La media en dicha
población se ha estimado en 104.23 y la desviación estándar en 15.38. La población
se estratifica por nivel educativo en las categorías Bajo (primaria terminada o menor)
que representa el 26%; Medio (estudios de secundaria hasta preparatoria completa)
el 45 % y (estudios de licenciatura o superior) 29%. Se muestreará por área
geoestadística básica (AGEB), manzana, predio y habitante.
b) Estratifique la muestra por nivel educativo.
c) Diseñe un algoritmo de selección aleatoria de la muestra.
11.4. En cierta universidad hay 7 421 alumnos. Se desea estandarizar un test de
memoria. Por estudios previos se estima una media de 76.21 y una desviación
estándar de 9.83. El 69.31% de la matrícula es de disciplinas humanísticas y el resto
de ciencia y tecnología. Se establece una precisión del 95% y un nivel de
significación del 5%.
b) Estratifique la muestra por tipo de disciplina.
c) Seleccione los elementos muestrales.
11.5. Se estudiará la confesión religiosa en dos centros de convivencia social, A y
B. Se sabe que la proporción de asistentes que confiesan alguna religión en la
comunidad A es del 55% y en la B del 72%. Se establece un nivel precisión de 90%
y un nivel de significación del 5%. El estudio se realizará en un fin de semana y se
tiene un aforo promedio de 1 700 asistentes en el centro A y de 2 150 en el B.

102

b) Diseñe un procedimiento para la selección aleatoria de la muestra.
11.6. En cierta universidad se sabe que la media de aprovechamiento escolar es de
75.09 y la desviación estándar de 8.19; la matrícula masculina es de 64.12% y la
femenina de 35.88%. Se aplicará un diseño experimental con un grupo de control
para evaluar cierta técnica de estudio. Se establece un nivel de significación del
95% y un margen de error muestral del 5%.

103
Epílogo
Hemos revisado aspectos básicos de la teoría de la probabilidad aplicada a las
ciencias del comportamiento. Sin duda se puede, y se debería, profundizar en
muchos de los temas estudiados y no son pocos los que no fueron abordados, pero
si los temas trabajados fueron comprendidos, es razonable esperar que el
estudiante haya iniciado la construcción de una estructura conceptual que le
permitirá estudiar científicamente la conducta de los organismos vivos, en particular
−pero no exclusivamente− la conducta humana. Por sí mismo, esto no es poco.
Recapitulemos, en líneas muy generales, lo que se estudió en este curso.
La historia de la probabilidad permite recorrer la historia del pensamiento científico,
desde las concepciones mágico-animistas que atribuían a la divinidad el gobierno
de los fenómenos de la naturaleza que se comportan al azar, hasta la comprensión
y formalización matemática del azar mismo y su aplicación a la predicción y control
de los fenómenos aleatorios. La ciencia actual, cualquiera que sea su campo
disciplinario, no se comprende sin la teoría de la probabilidad y su complemento, la
estadística. En particular, podemos ver que las ciencias de la conducta no pudieron
nacer sino hasta que la humanidad desarrolló una nueva rama de la matemática,
encargada del estudio del azar. Hoy, si se quiere estudiar el comportamiento de los
organismos vivos, no puede prescindirse de la teoría de la probabilidad.
Un fenómeno aleatorio es un fenómeno natural que al ocurrir ofrece dos o más
resultados posibles. Cualquier análisis elemental demuestra que no es cierto que,
ante un estímulo específico, un organismo emitirá una y solo una respuesta posible.
El comportamiento que emiten los organismos vivos es, en consecuencia, un
fenómeno aleatorio porque, dada una situación-estímulo, el organismo puede emitir
una variedad de comportamientos. En consecuencia, el comportamiento que un
organismo emitirá ante una situación-estímulo (lo que constituye un objetivo central
de las ciencias de la conducta) no puede predecirse en forma determinista.
Digámoslo con claridad: toda predicción científica del comportamiento de los
organismos vivos es una predicción probabilista y ha de formularse a partir de
análisis matemáticos. Tal es la importancia de la teoría de la probabilidad para las
ciencias de la conducta.
Frecuencia, definida como el número de veces que aparece un dato en una masa
de datos, es un concepto fundamental de la estadística descriptiva. Evento, definido
como uno de los resultados posibles de un fenómeno aleatorio, es un concepto
fundamental en probabilidad; si podemos identificar el conjunto completo de eventos
posibles en un fenómeno aleatorio, tenemos entonces el espacio muestral.
Llamamos eventos favorables a aquellos que nos interesa estudiar. A partir de aquí
no es difícil establecer una analogía -bastante directa- entre eventos favorables y
frecuencia, por una parte, y tamaño del espacio muestral y tamaño de la masa de
datos, por otra. La teoría de la probabilidad, por tanto, toma a la estadística
descriptiva como base; posteriormente, ocurre que la teoría de la probabilidad es
base de la estadística inferencial.

104
A partir de estos conceptos se define a la probabilidad de un evento como la

proporción de los eventos favorables respecto al total de eventos posibles. Esta
definición, tan simple como poderosa, se aplica a cualquier fenómeno aleatorio, no
importa lo complejo que éste sea. Por ejemplo, cuando se calculan probabilidades
condicionales (quizá el caso más complejo conceptualmente del análisis de
probabilidades), aunque en cierto punto resulte difícil de identificar, lo que se hace
realmente es aplicar la definición de probabilidad en diversas etapas del análisis. Lo
atractivo de la matemática es cómo conceptos tan simples pueden permitir análisis
tan complejos.
Es interesante observar que los axiomas de la probabilidad, que son los
fundamentos mismos de la teoría, no fueron formalizados por Kolmogorov sino
hasta bien entrado el siglo XX. Es interesante, porque nos permite apreciar lo
reciente que es el pensamiento probabilista situado en la escala histórica; bastaría
recordar que más de dos milenios antes Euclides ya había sistematizado la
geometría griega, formulando definiciones, axiomas y teoremas.
El cálculo de probabilidades depende de establecer el número de eventos
favorables y el número de eventos posibles y aquí reside, precisamente, la mayor
dificultad. Se requiere conocer la cardinalidad tanto del conjunto de eventos posibles
como del subconjunto de eventos favorables, y son las técnicas de conteo lo que
nos permite calcular ambos tamaños. Vimos en la primera lección que el Problema
del juego interrumpido fue resuelto definitivamente por algunos de los más grandes
matemáticos de su época aplicando el análisis combinatorio para contar los eventos
posibles y de ahí identificar los eventos favorables. Cuando se trata de analizar
científicamente el comportamiento que emitirá un organismo vivo ante una situación
determinada, se debe proceder del mismo modo: Lo primero que hay que hacer es
determinar los eventos posibles (todas las respuestas que puede emitir el
organismo) así como los eventos favorables (la respuesta del organismo que nos
interesa). A partir de aquí podrán calcularse probabilidades, ya sea aplicando la
definición teórica o la empírica. Esto es lo que realmente hacemos cuando
construimos distribuciones de probabilidad empírica o cuando aplicamos modelos
de distribución teórica. Así puede analizarse científicamente el comportamiento.
Quizá lo anterior podría resultar abstracto para algunos. Sin embargo, desde
cualquier punto de vista es de enorme importancia práctica el uso de distribuciones
de probabilidad para establecer líneas base, repertorios conductuales, estructuras
de hábitos, efectos de los tratamientos y muchas otras tareas del profesional del
comportamiento; las calificaciones estándar resultan indispensables para cualquier
tipo de interpretación y diagnóstico; el diseño de muestras representativas para
estudiar poblaciones en casos que van desde la consulta ciudadana hasta el análisis
de mercados o la normalización de variables conductuales.
En fin, sería difícil discutir la importancia que tiene la teoría de la probabilidad para
la aplicación de las ciencias de la conducta a la solución de problemas reales,
concretos. Podríamos concluir con una frase que se cita en este trabajo: Nada es
más práctico que una buena teoría.

105
Notación
+ Suma
− Resta
 Multiplicación
/ División
 Raíz cuadrada
 Significa, denota, representa
= Igual a
 Menor que
 Menor o igual que
 Mayor que
 Mayor o igual que
X Evento
P(X) Probabilidad del evento X
XC Complemento de X, todos los eventos del espacio muestral diferentes de X.
H Hipótesis de investigación
H0 Hipótesis nula
H1 Hipótesis alternativa 1
H2 Hipótesis alternativa 2
HT Hipótesis de trabajo
N Tamaño de la población o universo
n Tamaño de la muestra
f Frecuencia con que aparece un dato
X! Factorial de X
 Sumar todos los operandos
% Porcentaje
 Media aritmética poblacional
Media aritmética muestral
 Desviación estándar poblacional
S Desviación estándar muestral
2 Varianza poblacional
S2 Varianza muestral
[a,b] Intervalo entre a y b

106
Tabla de la distribución normal

P(z  1.81) = 0.9649
P(z  1.81) = 1–0.9649 = 0.0351
P(z  -1.81) = 1–P(z  -1.81) = 1- 0.0351 = 0.9649 = 0.0351 = P(z  1.81)
P(z  -1.81) = 1–0.9649 = 0.0351 = P(z  1.81)
P(-1.81  z  1.81) = P(z  1.81) - P(z  -1.81) = 0.9649 – 0.0351 = 0.9298
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
3.6 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
3.7 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999

107
Respuestas a los ejercicios

Lección 2. La definición de probabilidad
Ejercicio 2.1.
La baraja española tiene 4 familias (oros, copas, espadas y bastos); cada familia tiene 12 cartas.
Respuestas
En toda la baraja solo existe un 3 de espadas y hay un total de 48 cartas. Por tanto,
f=1
n = 48
entonces
P(3Espadas) = 1/48 = 0.0208 = 2.08%
En la baraja existen 12 cartas de oros (del 1 al 9, sota caballo y rey de oros) y hay
un total de 48 cartas. Por tanto, f = 12 y n = 48, entonces
P(Oros) = 12/48 = 0.2500 = 25%
c) ¿Qué principio se aplicó? Justifique su respuesta.
Se aplicó el Principio de Razón Insuficiente porque suponemos un mazo insesgado;
en consecuencia, tenemos que asumir que todas las cartas tienen la misma
probabilidad de aparecer, es decir, son equiprobables.
Ejercicio 2.2.
Después de un proceso de condicionamiento operante en un laberinto T, el sujeto se somete a 87
ensayos y se encuentra que 81 veces va a la izquierda.
Respuestas
Puesto que fue 81 ensayos a la izquierda, el resto fue a la derecha. por lo que
f = 87-81 = 6; ahora, n = 87, entonces
P(derecha) = 6/87 = 0.0690 = 6.90%
Se aplicó el Principio de la Frecuencia Relativa, desde un enfoque a posteriori, toda
vez que los datos provienen de una serie real de ensayos. No puede aplicarse el
Principio de Razón Insuficiente porque el condicionamiento operante, por definición,
sesga la conducta de dirección de la rata.
Desde luego, los resultados se deben al proceso de condicionamiento operante.
Más aún, podemos afirmar que el procedimiento de condicionamiento tuvo un
margen de error del 6.90%, pues se esperaría que en todos los ensayos el sujeto
fuera a la izquierda, mientras que en la prueba empírica fue 93.10% de los ensayos
en la dirección esperada. En estadística inferencial se diría que el nivel de
significación es  = 0.07, mientras que el nivel de confianza es C = 0.93.

108
Lección 3. Axiomas
Ejercicio 3.1.
Suponga que realizamos un complejo cálculo y llegamos al punto en que
P(X) = 0.6521- 0.7416
¿Qué debería concluir con base en los axiomas de la probabilidad? Justifique su respuesta.
Respuesta
En el punto del proceso es que estamos tendríamos que P(X) = -0.0895 y tal valor
negativo contradice el primer axioma de la teoría de la probabilidad. En
consecuencia, es indudable que se ha cometido un error y debe revisarse todo el
procedimiento.
Ejercicio 3.2.
En una encuesta, definimos al estado civil como una variable nominal con las categorías:
C = {soltero, casado, otro}
y encontramos las siguientes probabilidades:
P(soltero) = 0.4231
P(casado) = 0.4283
P(otro) = 0.3256
¿Qué debería concluir con base en los axiomas de la probabilidad? Justifique su respuesta.
Respuesta
Al sumar las probabilidades de los tres eventos se obtiene P(S) = 1.1770 y este
resultado contradice al segundo axioma. En consecuencia, tiene que revisarse todo
el proceso que condujo a estas probabilidades.
Ejercicio 3.3.
Cierta fábrica tiene los siguientes trabajadores por sección:
Producción: 89
Mantenimiento: 36
Vigilancia: 18
Transporte: 10
Se sorteará un premio. ¿Cuál es la probabilidad de que lo gane un trabajador que no sea de
producción?
Respuestas
Podemos resolver este ejercicio de dos formas.
Primera
Los trabajadores que no son de Producción corresponden a {Mantenimiento,
Vigilancia, Transporte}. Entonces, sea
X1 ≡ Mantenimiento
X2 ≡ Vigilancia
X3 ≡ Transporte
Aplicando el tercer axioma de la teoría de la probabilidad
P(X1X2X3) = P(X1)+P(X2)+ P(X3)
Aquí aplicamos la definición a posteriori de probabilidad P(X) = f/n, para lo que
primero calculamos
n = 89+36+18+10 = 153
Por lo que
P(X1X2X3) = (36/153)+(18/153)+(10/153) = 0.4183
Es decir, la probabilidad que de gane el sorteo un trabajador de Mantenimiento o de
Vigilancia o de Transporte es del 41.83%.
Segunda
Ahora calculamos la probabilidad de que gane un trabajador de Producción, para lo

109
que volvemos a aplicar la definición a posterior de probabilidad:

P(X) = f/n
Ahora, X ≡ Producción, por lo que
P(X) = 89/153
P(X) = 0.5817
Pero lo que nos piden es la probabilidad de que no sea de Producción, es decir, su
complemento. Por tanto, aplicando el Corolario del Complemento tenemos:
P(XC) = 1-P(X) = 1-0.5817 = 0.4183
Es decir, la probabilidad que el sorteo sea ganado por un trabajador que no
pertenezca a producción es del 41.83%. Obviamente, el resultado es igual al
anterior.
Lección 4. El espacio muestral
Ejercicio 4.1.
Suponga una botella con ocho bolillas numeradas.
Respuesta
Sea bi ≡ Bolilla i-ésima, entonces:
S = {b1,b2,b3,b4,b5,b6,b7,b8}
Ejercicio 4.2.
Suponga una fila de clientes que pasa por el control de acceso a un estadio deportivo.
Respuesta
Sea Xi ≡ Cliente en la posición i-ésima de la fila, entonces:
S = {X1,X2,X3,}
Ejercicio 4.3.
Suponga que en un programa de reforzamiento el tiempo de respuesta se define en intervalos de 90
segundos.
Respuesta
S = {(0-90),(91-180),(181-270),}
Ejercicio 4.4.
Suponga el lanzamiento simultáneo de dos dados de ocho caras.
a) Represente gráficamente el espacio muestral.
b) ¿Cuál es la probabilidad de que la suma de las caras sea 6? Aplique el principio de la suma.
Respuestas
a) Representación gráfica del espacio muestral del lanzamiento de dos dados de
ocho caras:

110
D2
8 (1,8) (2,8) (3,8) (4,8) (5,8) (6,8) (7,8) (8.8)
7 (1,7) (2,7) (3,7) (4,7) (5,7) (6,7) (7,7) (8,7)
6 (1,6) (2,6) (3,6) (4,6) (5,6) (6,6) (7,6) (8,6)
5 (1,5) (2,5) (3,5) (4,5) (5,5) (6,5) (7,5) (8,5)
4 (1,4) (2,4) (3,4) (4,4) (5,4) (6,4) (7,4) (8,4)
3 (1,3) (2,3) (3,3) (4,3) (5,3) (6,3) (7,3) (8,3)
2 (1,2) (2,2) (3,2) (4,2) (5,2) (6,2) (7,2) (8,2)
1 (1,1) (2,1) (3,1) (4,1) (5,1) (6,1) (7,1) (8,1)

D1
1 2 3 4 5 6 7 8
Ejercicio 4.3. Espacio muestral del lanzamiento simultáneo de

dos dados de 8 caras
b) Probabilidad de obtener 6 como suma de las caras:

P((1,5)(2,4)(3,3)(4,2)(5,1)) = P(1,5)+P(2,4)+P(3,3)+P(4,2)+P(5,1)
=1/64+1/64+1/64+1/64+1/64 = 5/64 = 0.0781 = 7.81%
Ejercicio 4.5.
Una empresa cervecera tiene un total de 294 empleados, distribuidos en cuatro secciones como
sigue: 1) Administración tiene un total de 21 empleados; 2) Producción tiene 123 obreros y 20
supervisores; 3) Suministros tiene 12 empleados en almacén, 21 en distribución y 5 en transporte; y
4) Ventas tiene 92 empleados, 81 de los cuales son de campo y el resto son coordinadores.
Represente con un árbol el espacio muestral.
a) Represente el espacio muestral mediante un árbol.
b) ¿Cuál es la probabilidad de extraer al azar a un empleado de Almacén o de Transporte?
Respuestas
a) Representación del espacio muestral mediante un árbol:

111
Administración Administración
21 21
Obreros
123
Producción
143
Supervisores
20
Almacén
12
Administración
294
Suministros Distribución
38 21
Transporte
5
Campo
81
Ventas
92
Coordinadores
11
Ejercicio 4.4. Árbol del espacio muestral
b) Probabilidad de extraer al azar a un empleado de Almacén o de Transporte:

P(AlmacénTransporte) = (12/294)+(5/294) = (17/294) = 0.0578 = 5.78%
Lección 5. Técnicas de conteo
Ejercicio 5.1.
Se lanza un dado de seis caras y una moneda:
a) Represente gráficamente el espacio muestral y determine N.
b) Determine N aplicando el Principio fundamental del conteo.
Respuestas
a) Representación gráfica:

112
T (1,T) (2,T) (3,T) (4,T) (5,T) (6,T)
H (1,H) (2,H) (3,H) (4,H) (5,H) (6,H)

D
1 2 3 4 5 6
Ejercicio 5.1.Espacio muestral del lanzamiento simultáneo de un

dado de seis caras y una moneda
b) Conteo de N:
Tenemos dos eventos simples: r1 ≡ lanzamiento del dado y r2 ≡ lanzamiento de la
moneda; sus espacios muestrales son r1 = {1,2,3,4,5,6} y r2 = {H,T}; sus cardinales
son: n1 = 6 y n2 = 2. Entonces, si N ≡ el número de eventos compuestos, es decir,
la cardinalidad del espacio muestral del lanzamiento simultáneo del dado y de la
moneda, tenemos que
N = n1n2 = 62 = 12
Que es lo mismo que se observa en la gráfica del espacio muestral.
Ejercicio 5.2.
Se lanzan simultáneamente 3 monedas. Aplique el Principio fundamental del conteo para calcular el
número de eventos compuestos que pueden ocurrir.
Respuesta
En cada una de las monedas Si = {H,T} y ni = 2, por tanto tenemos
N = n1n2n3 = 222 = 8
Es decir, existen 8 eventos compuestos, que serían S = {HHH,HHT,...,TTT}
Ejercicio 5.3.
Calcule el factorial de 47. Escriba el resultado con notación exponencial, truncando en 4 decimales.
¿Cuántos dígitos tendría en número resultante?
Respuesta
47! = 2.5862E+59
El número resultante tiene 60 dígitos, 2 más 59 posiciones enteras a la derecha
Ejercicio 5.4.
Tenemos un grupo de 7 alumnos. Para un experimento extraeremos aleatoriamente muestras de 2
alumnos, en las que el primero será asignado a la condición experimental y el segundo será control.
Calcule el número de muestras que pueden formarse. Aplique las permutaciones y justifíquelo.
Respuesta
Comencemos por justificar el uso de permutaciones. Puesto que cada muestra tiene
2 elementos y el primero va a la condición experimental y el segundo a control,
entonces importa el orden: por ejemplo, (1,2)  (2,1) porque el cada sujeto queda
en una condición diferente. Entonces, el número de muestras posibles es:
7P2 = 7!/(7-2)! = 42
Existen 42 muestras posibles. En otras palabras, los sujetos se pueden asignar de
42 formas diferentes en el experimento.
Ejercicio 5.5.
Tenemos el mismo espacio muestral que en el Ejercicio 5.4, pero ahora la pareja se asignará a la
condición experimental. Calcule el número de muestras que pueden formarse. Aplique las

113
combinaciones y justifíquelo.
Respuesta
Este caso es diferente. Ahora ya no importa el orden porque, por ejemplo,
(1,2) = (2,1) pues ambos sujetos serán sometidos a la misma condición
experimental. En consecuencia, aplican las combinaciones y tenemos
7C2 = 7!/((7-2)!2!) = 21
Como no importa el orden, se reduce el número de muestras posibles.
Lección 6. Distribuciones de probabilidad
Ejercicio 6.1.
Un banco de reactivos tiene la siguiente estructura:
Unidad Número de reactivos
1 38
2 52
3 65
4 25
5 52
6 31
c) ¿Cuál es la probabilidad de que pertenezca a alguna de las primeras tres unidades?
d) ¿Cuál es la probabilidad de que no pertenezca a la unidad 3 ni a la 5?
Respuestas
a) Distribución de probabilidad
n = 263
Unidad P(X) Pacum
1 0.1445 0.1445
2 0.1977 0.3422
3 0.2471 0.5893
4 0.0951 0.6844
5 0.1977 0.8821
6 0.1179 1.0000
Observe que no hubo necesidad de ajustar los valores de P(X).
P(36) = P(3)+P(6) = 0.2471+0.1179 = 0.3650 = 36.50%
c) ¿Cuál es la probabilidad de que pertenezca a alguna de las primeras tres unidades?
P(123) = 0.5893
Que puede obtenerse directamente en Pacum hasta la unidad 3.
e) ¿Cuál es la probabilidad de que no pertenezca a la unidad 3 ni a la 5?

114
P(1246) = P(S)-P(3)-P(5) = 1.0000-0.2471-0.1977 = 0.5552 = 55.52%

Ejercicio 6.2.
Se midió memoria icónica en un grupo de estudiantes de geografía; el cociente de memoria (M) se
transformó a intervalos y se obtuvo:
M Frecuencia
55-60 9
61-65 18
66-70 25
71-75 42
76-80 54
81-85 39
86-90 18
91-95 8
Respuestas
n = 213
M P(X) Pacum
56-60 0.0423 0.0423
61-65 0.0845 0.1268
66-70 0.1174 0.2442
71-75 0.1972 0.4414
76-80 0.2534 0.6948
81-85 0.1831 0.8779
86-90 0.0845 0.9624
91-95 0.0376 1.0000
En este caso fue necesario ajustar P(76-80) = 0.2535 a P(76-80) = 0.2534
Se elegirá al azar a un estudiante:
P(M≤70) = 0.2442 = 24.42%
Que se obtiene directamente de Pacum
P(M81) = 1-P(M≤80) = 1.0000-0.6948 = 0.3052 = 30.52%
P(76≤M≤95) = P(S)-P(M≤75) = 1.0000-0.4414 = 0.5586 = 55.86%

115
No se puede contestar porque 72 no es límite de intervalo.

Ejercicio 6.3.
En un piso de hospital se midió el tiempo que tardan las enfermeras en atender a una señal de
urgencia (T) y se obtuvo:
T Frecuencia
T≤1 12
1<T≤2 34
2<T≤3 49
3<T≤4 21
4<T≤5 4
b) ¿Cuál es la probabilidad de que una enfermera tarde hasta dos minutos en atender la señal de
urgencia?
c) ¿Cuál es la probabilidad de que tarde más de 2 minutos y hasta 4 minutos?
Respuestas
n = 120
T P(X) Pacum
T≤1 0.1001 0.1001
1<T≤2 0.2833 0.3834
2<T≤3 0.4083 0.7917
3<T≤4 0.1750 0.9667
4<T≤5 0.0333 1.0000
Observe que en este caso hubo ajustar P(T1)=0.1000 a P(T1)=0.1001.
b) ¿Cuál es la probabilidad de que una enfermera tarde hasta dos minutos en
atender la señal de urgencia?
P(T≤2) = 0.3834 = 38.34%
c ¿Cuál es la probabilidad de que tarde más de 2 minutos y hasta 4 minutos?
P(2<T≤4) = P(2<T≤3)+P(3<T≤4) = 0.4083+0.1750 = 0.5833 = 58.33%
No se puede contestar porque la condición queda dentro de un intervalo (3<T≤4)
Ejercicio 6.4.
Suponga el lanzamiento de un dado de seis caras
Respuestas
X P(X)
1 1/6
2 1/6
3 1/6

116
4 1/6
5 1/6
6 1/6
 = (n+1)/2 = (6+1)/2 = 3.5
2 = (n2-1)/12 = (62-1)/12 = 2.92
P(123) = P(1)+P(2)+P(3) = (1/6)+(1/6)+(1/6) = 3/6 = 0.5000 = 50.00%
Ejercicio 6.5.
En una línea de producción industrial, cierta operación toma al operario entre 2.7 y 3.5 minutos y se
distribuye en forma uniforme continua.
Respuestas
Sabemos que el límite inferior del rango es a = 2.7 y el superior b = 3.5, entonces:
 = (a+b)/2 = (2.7+3.5)/2 = 3.10
2 = (b-a)2/12 = (3.5-2.7)2/12 = 0.05
Aquí, sabemos que el límite inferior es X1 = 3.2 y X2 = 3.5, entonces:
P(3.2≤X≤3.5) = (X2-X1)/(b-a) = (3.5-3.2)/(3.5-2.7) = 0.3750 = 37.50%
Ejercicio 6.6.
En cierta empresa de transporte se reporta una probabilidad de daño menor a la carga de 16.23%
en cada viaje.
Respuestas
Primero observemos que en este ejemplo tenemos una variable discreta. Ahora, el
cálculo es directo:
p = 0.1623
q = 1-0.1623 = 0.8377
Y así queda definida toda la distribución.
 = p = 0.1623
2 = p(1-p) = 0.1623(1-0.1623) = 0.1360
Ejercicio 6.7.
En un proceso industrial, la probabilidad de que cierta operación rebase el tiempo límite es de
34.56%.
Respuestas

117

En este ejemplo observamos que la variable (tiempo que tarda el proceso)
realmente es continua, pero se transformó en discreta y se midió en dos categorías:
p ≡ Rebasa el tiempo límite, q ≡ No rebasa el tiempo límite. Entonces, la distribución
es:
p = 0.3456
q = 1-0.3456 = 0.6544
 = p = 0.3456
2 = p(1-p) = 0.3456(1-0.3456) = 0.2262
Ejercicio 6.8.
Suponga que cierto operador tiene p = 0.15 de cometer error al capturar datos de un formulario. Se
realizarán 5 ensayos, es decir, cinco formularios.
d) ¿Cuál es su desviación estándar?
Respuestas
Tenemos:
n=5
p = 0.15
La función de distribución binomial es:
P(X) = (n!/((n-X)!X!))pX(1-p)n-X
Aplicándola a la primera fila tenemos:
P(0) = (5!/((5-0)!0!))0.150(1-0.15)5-0
y replicándola para las filas restantes:
X P(X) Pacum
0 0.4437 0.4437
1 0.3915 0.8352
2 0.1382 0.9734
3 0.0244 0.9978
4 0.0022 0.9999
5 0.0001 1.0000
Comparando esta distribución con tablas de la distribución binomial vemos que,

como tenía que ser porque se trata de un modelo, son iguales.
P(X≤3) = 0.9978 = 99.78%
 = np = 50.15 = 0.75
2 = np(1-p) = 50.15(1-0.15) = 0.6375
Ejercicio 6.9.
Una línea base conductual representativa produjo que un paciente fuma 3.4 cigarrillos en promedio
por día.

118
Respuestas
Tenemos =3.4. La función de la distribución Poisson es:
P(X) = ((e-λ)(λX))/X!
Aplicada a la primera fila:
P(X=0) = ((e-3.4)(3.40))/0!
Completando las filas restantes tenemos:
X P(X) Pacum
0 0.0334 0.0334
1 0.1135 0.1468
2 0.1929 0.3397
3 0.2186 0.5584
4 0.1858 0.7442
5 0.1264 0.8705
6 0.0716 0.9421
7 0.0348 0.9769
8 0.0148 0.9917
9 0.0056 0.9973
10 0.0019 0.9992
Observe que nos detuvimos en Pacum = 0.9992
 = λ = 3.4
2 = λ = 3.4
P(X≤2) = 0.3397 = 33.97%
Lección 7. Probabilidad condicional
Ejercicio 7.1.
Registros históricos indican que de 12 324 sujetos a los que se aplicó una prueba antidoping, 222
fueron diagnosticados positivo en consumo de cocaína. Por estudios confirmatorios se sabe que de
los sujetos que fueron diagnosticados positivo, 2 no habían consumido cocaína; por otra parte, de
los sujetos que tuvieron diagnóstico negativo, 131 sí habían consumido.
c) ¿Cuál es la probabilidad de encontrar un diagnóstico positivo y un sujeto que no consuma

cocaína?
e) ¿Cuál es la probabilidad de encontrar un sujeto que haya consumido cocaína de entre los que
fueron diagnosticados negativo (falso negativo)?
f) ¿Cuál es la probabilidad de encontrar un sujeto que no haya consumido cocaína entre los que
fueron diagnosticados positivo (falso positivo)?
Respuestas

119
A1 ≡ Diagnóstico positivo (Dx+)

A2 ≡ Diagnóstico negativo (Dx-)
B1 ≡ El sujeto había consumido cocaína (C)
B2 ≡ El sujeto no había consumido cocaína (CC)
C (220)
P(B1) = 0.9910
Dx+ (222)
P(A1) = 0.0180
CC (2)
P(B2) = 0.0090
S (12 324)
C (131)
P(B1) = 0.0108
DX- (12 102)
P(A2) = 0.9820
CC (11 971)
P(B2) = 0.9892
c) ¿Cuál es la probabilidad de encontrar un diagnóstico positivo y un sujeto que no

consuma cocaína?
P(A1B2) = P(A1)P(B2) = 0.01800.0090 = 0.0002 = 0.02%
P(A1) = 0.0180 = 1.80%
e) ¿Cuál es la probabilidad de encontrar un sujeto que haya consumido cocaína de
entre los que fueron diagnosticados negativo (falso negativo)?
P(B1|A2) = (P(A2)P(B1))/(P(Ai)P(B1))
P(B1|A2) = (0.98200.0108)/((0.0180×0.9910)+(0.98200.0108))
P(B1|A2) = 0.3729 = 37.29%
f) ¿Cuál es la probabilidad de encontrar un sujeto que no haya consumido cocaína
entre los que fueron diagnosticados positivo (falso positivo)?
P(B2|A1) = (P(A1)P(B2))/(P(Ai)P(B2))
P(B2|A1) = (0.0180×0.0090)/((0.0180×0.0090)+(0.9820/0.9892))
P(B2|A1) = 0.0002 = 0.02%
*
Ahora podemos completar la Tabla de Verdad para el diagnóstico, en el ejemplo
que analizamos:
Consumió cocaína No consumió cocaína
B1 B2
Diagnóstico positivo Verdadero positivo Falso positivo
A1 P(B1|A1) = 62.71% P(B2|A1) = 0.02%
Diagnóstico negativo Falso negativo Verdadero negativo
A2 P(B1|A2) = 37.29% P(B2|A2) = 98.92%

120
Esta tabla de contingencias nos permite evaluar la prueba antidoping con un criterio
científico. Regrese a ver el árbol de probabilidades y se dará cuenta de que, aunque
se parte estrictamente de los datos de entrada, la aplicación del Teorema de Bayes
cambia radicalmente su interpretación. Por ejemplo, es cierto que la probabilidad de
acusar falsamente a un sujeto de consumir cocaína (un diagnóstico falso positivo)
es de apenas 2 diezmilésimos; pero también es cierto que la probabilidad de
detectar efectivamente a un consumidor es de apenas el 62.79%. Como puede
verse, se requiere una interpretación compleja.
Ejercicio 7.2.
La estadística sobre seguridad en cierta zona metropolitana registra la siguiente distribución:
Eventos Total Incidentes graves
Deportivos 87 15
Manifestaciones sociales 19 8
Violencia criminal 12 10
e) ¿Cuál es la probabilidad de que ocurra violencia criminal y no haya incidentes graves?
f) Se proyecta formar Grupos de Reacción Inmediata para intervenir en incidentes graves,
especializados en cada tipo de eventos. Dado que se presenta un incidente grave, ¿a qué tipo de
evento puede corresponder?
Respuestas
A1 ≡ Que ocurra un evento deportivo
A2 ≡ Que ocurra una manifestación social
A3 ≡ Que ocurra un evento con violencia criminal
B1 ≡ Que se presenten incidentes graves en el evento
B2 ≡ Que no se presenten incidentes graves en el evento

121
G (15)
P(B1) = 0.1724
D (87)
P(A1) = 0.7373
GC (72)
P(B2) = 0.8276
G (8)
P(B1) = 0.4211
M (19)
S (118)
P(A2) = 0.1610
GC (11)
P(B2) = 0.5789
G (10)
P(B1) = 0.8333
V (12)
P(A3) = 0.1017
GC (2)
P(B2) = 0.1667

P(M) = 16.10%
P(AiB1) = P(A1B1)+P(A2B1)+P(A3B1)
P(AiB1) = (0.73730.1724)+(0.1610+0.4211)+(0.10170.8333)
P(AiB1) = 0.2797 = 27.97%
e) ¿Cuál es la probabilidad de que ocurra violencia criminal y no haya incidentes
graves?
P(A3B2) = P(A3)P(B2)
P(A3B2) = 0.10170.1667
P(A3B2) = 0.0170 = 1.70%

122
f) Se proyecta formar Grupos de Reacción Inmediata para intervenir en incidentes

graves, especializados en cada tipo de eventos. Dado que se presenta un incidente
grave, ¿a qué tipo de evento puede corresponder?
Aquí aplica el Teorema de Bayes:
P(Bj|Ai) = (P(Ai)P(Bj))/(P(Ai)P(Bj))
Entonces, la probabilidad de que haya incidentes graves dado un evento deportivo
es:
P(B1|A1) = (P(A1)P(B1))/(P(Ai)P(B1))
P(B1|A1) = (0.73730.1724)/((0.73730.1724)+(0.16100.4211)+(0.1017
0.8333))
P(B1|A1) = 0.4545 0 45.45%
Que haya incidentes graves en una manifestación social:
P(B1|A2) = (P(A2)P(B1))/(P(Ai)P(B1))
P(B1|A2) = (0.16100.4211)/((0.73730.1724)+(0.16100.4211)+(0.1017
0.8333))
P(B1|A2) = 0.2424 = 24.24%
Finalmente, la probabilidad de incidentes graves en un caso de violencia criminal:
P(B1|A3) = (P(A3)P(B1))/(P(Ai)P(B1))
P(B1|A3) = (0.10170.8333)/((0.73730.1724)+(0.16100.4211)+(0.1017
0.8333))
P(B1|A3) = 0.3030 = 30.30
Pongamos en una tabla estos resultados para analizar su significado:
Incidentes graves
B1
Evento deportivo
A1 P(B1|A1) = 45.45%
Manifestación social
A2 P(B1|A2) = 24.24%
Evento con violencia criminal
A1 P(B1|A3) = 30.30%
Intencionalmente no aplicamos el algoritmo que se presentó en la sección 17 de

esta lección. Sin embargo, es claro que puede aplicarse (sin necesidad de hacer
más cálculos) para establecer prioridades en tácticas de seguridad pública para
intervenir en casos de incidentes graves.
Terminemos este ejercicio con una observación que refuerce la comprensión del
Teorema de Bayes: En el caso que nos ocupa, un incidente grave (B1)
necesariamente es consecuente de que ocurra un evento antecedente cuyo espacio
muestral es S = {A1,A2,A3}. Esto significa que, si ocurre un incidente grave,
necesariamente será como consecuencia de un evento deportivo (A1), de una
manifestación social (A2) o de un evento de violencia criminal (A3). Por tanto:
(P(B1|Ai)) = 0.4545+0.2424+0.3030 = 1 = P(S)
Es claro que la suma da 0.9999 y no 1.0000 por efecto de redondear los cálculos a
cuatro decimales.
Ejercicio 7.3.
La estadística histórica indica que en cierto examen de admisión a una carrera universitaria se han
presentado 11 314 aspirantes, de los cuales 4 495 tomaron un curso previo de preparación. De los

123
aspirantes que tomaron el curso, 1 528 fueron admitidos; de los aspirantes que no tomaron el curso,
4 774 no fueron admitidos.
c) ¿Cuál es la probabilidad de que un aspirante haya tomado el curso de preparación?
d) ¿Cuál es probabilidad de que un aspirante no haya tomado el curso de preparación y haya sido
admitido?
e) Se tiene un estudiante admitido. ¿De qué grupo proviene, del que tomó el curso de preparación o
del que no lo tomó?
Respuestas
A1 ≡ Tomó el curso
A2 ≡ No tomó el curso
B1 ≡ Admitido
B2 ≡ No admitido
A (1 528)
P(B1) = 0.3399
C (4 495)
P(A1) = 0.3973
AC (2 967)
P(B2) = 0.6601
S (11 314)
A (2 045)
P(B1) = 0.2999
CC (6 819)
P(A2) = 0.6027
ACB2 (4 774)
P(B2) = 0.7001
c) ¿Cuál es la probabilidad de que un aspirante haya tomado el curso de preparación?

P(A1) = 39.73%
d) ¿Cuál es probabilidad de que un aspirante no haya tomado el curso de preparación y haya sido
admitido?
P(A2B1) = P(A2)×P(B1)
P(A2B1) = 0.6027×0.2999
P(A2B1) = 0.1807 = 18.07%
e) Se tiene un estudiante admitido. ¿De qué grupo proviene, del que tomó el curso de preparación o
del que no lo tomó?
Apliquemos el algoritmo para probar hipótesis:
Comienza
Paso 1. Formular el problema.
¿De qué grupo proviene el estudiante seleccionado al azar?

124
Paso 2. Formular el juego de hipótesis.

H1: Proviene del grupo que tomó el curso.
H2: Proviene del grupo que no tomó el curso.
Paso 3. Definir la simbología de eventos.
A1 ≡ Tomó el curso
A2 ≡ No tomó el curso
B1 ≡ Admitido
B2 ≡ No admitido
Ya se construyó en el inciso (b).
Paso 5. Calcular las probabilidades de las hipótesis.
Para H1: El estudiante admitido proviene del grupo que tomó el curso.
P(B1|A1) = (P(A1)P(B1))/(P(Ai1)P(B1))
P(B1|A1) = (0.39730.3399)/((0.39730.3399)+(0.60270.2999))
P(B1|A1) = 0.4276 = 42.76%
Para H2: El estudiante admitido proviene del grupo que no tomó el curso.
P(B1|A2) = (P(A2)P(B1))/(P(Ai)P(B1))
P(B1|A2) = (0.60270.2999)/((0.39730.3399)+(0.60270.2999))
P(B1|A2) = 0.5724 = 57.24%
Paso 6. Concluir con el orden de prioridades.
i. La probabilidad de que el estudiante provenga del grupo que no tomó el
curso es del 57.24%.
ii. La probabilidad de que el estudiante provenga del grupo que tomó el curso
es del 42.76%.
Termina
Analicemos el resultado de la prueba de hipótesis. Encontramos que, si se elige al
azar a un estudiante admitido, es más probable que pertenezca al grupo que no
tomó el curso de preparación para el examen de admisión.
Insistamos para terminar la lección, debemos evitar falacias: no dijimos nada sobre
la eficacia del curso de preparación para el examen; una lectura equivocada de los
resultados diría que puesto que es más probable que el estudiante admitido
provenga del grupo que no tomó el curso, entonces conviene no tomar el curso.
Pero ocurre que son más los alumnos que no tomaron el curso (6 819) que los que
lo tomaron (4 495) y por tanto es más probable que pertenezca al primer grupo. Si
se quisiera probar la eficacia del curso habría que plantear el problema de forma
diferente a como lo hicimos en este ejemplo.
Lección 8. Lo teórico y lo empírico
Ejercicio 8.1.
Por registros confiables se sabe que el promedio de edad en una población estudiantil universitaria
es de 19.36 años. Para medir el falseamiento de respuestas en una encuesta realizada en dicha
población, se incluyó como un reactivo de control la fecha de nacimiento y se calculó la media
muestral de edad a la misma fecha en que se calculó para la población; se obtuvo una media
muestral de 18.87 años

125
Respuestas
En este ejemplo tenemos VR=19.36 y VM=18.87. Por tanto:
EA = |19.36-18.87| = 0.49.
ER = 0.49/19.36 = 0.0253 = 2.53%
Ejercicio 8.2.
Se realizaron cuatro series de lanzamientos de un dado de 6 caras y se registró la frecuencia de
ocurrencia de la cara 4. Se obtuvieron los siguientes resultados:
Serie n f(4)
1 1 0
2 25 7
3 50 3
4 100 23
a) Construya una tabla para calcular el error absoluto y el error relativo en cada serie
Respuestas
a) Construya una tabla para calcular el error absoluto y el error relativo en cada serie
Serie n f(4) Po(4) Pt(4) Ea Er
1 1 0 0.0000 0.1667 0.1667 1.0000
2 25 7 0.2800 0.1667 0.1133 0.6797
3 50 3 0.0600 0.1667 0.1067 0.6401
4 100 23 0.2300 0.1667 0.0633 0.3797

Error absoluto. Se observa una clara tendencia a decrecer conforme aumenta el
número de ensayos al pasar de una serie a la siguiente. Esta tendencia puede verse
como una reducción de la distancia entre la probabilidad teórica y la probabilidad
empírica. Esto implica que en el ejemplo que aquí se analizó el dado se comportó
conforme a lo que establece la Ley de los grandes números.
Error relativo. Obviamente, se observa exactamente lo mismo.

126
Ejercicio 8.3.
Sea una distribución binomial con p = 0.1321.
Respuestas
n=1 n=10 n=25
X P(X) X P(X) X P(X)
0 0.8679 0 0.2425 0 0.0290
1 0.1321 1 0.3691 1 0.1102
2 0.2528 2 0.2012
3 0.1026 3 0.2348
4 0.0273 4 0.1966
5 0.0050 5 0.1257
6 0.0006 6 0.0638
7 0.0001 7 0.0263
8 0.0000 8 0.0090
9 0.0000 9 0.0026
10 0.0000 10 0.0006
11 0.0001
12 0.0000
13 0.0000
14 0.0000
15 0.0000
16 0.0000
17 0.0000
18 0.0000
19 0.0000
20 0.0000
21 0.0000
22 0.0000
23 0.0000
24 0.0000
25 0.0000
c) Discuta los resultados obtenidos a la luz del Teorema del límite central.
Primero, en las tres distribuciones se observa un claro sesgo derecho. Esta es una
característica de la distribución binomial. Sin embargo, cuando P→0.5000 el sesgo

127
tiende a decrecer y la simetría aumenta.

Segundo, Sin embargo, a pesar del ya citado sesgo derecho, al observar las tres
gráficas es clara la tendencia a adoptar una forma de campana, característica de la
distribución normal, conforme aumenta el número de ensayos. Esto es, finalmente
lo que establece el Teorema del límite central: la distribución se aproxima a la
normal.
Lección 9. Distribución normal
Ejercicio 9.1.
¿Cuál es la probabilidad de hallar un puntaje mayor o igual a z=0.69?
Respuesta
P(z≥0.69) = 1-(P(z≤0.69) = 1-0.7549 = 0.2451 = 24.51%
Ejercicio 9.2.
¿Cuál es la probabilidad de hallar un puntaje mayor o igual a z=−0.69?
Respuesta
P(z≥-0.69) = 0.7549 = 75.49%.
Observe que es el complemento del Ejercicio 2 y se obtiene aplicando la propiedad
de simetría.
Ejercicio 9.3.
¿Cuál es la probabilidad de hallar un puntaje menor o igual a z=2.01?
Respuesta
P(z≥2.01) = 0.9778 = 97.78%
Ejercicio 9.4.
¿Cuál es la probabilidad de hallar un puntaje menor o igual a z=−2.01?
Respuesta
P(z≤-2.01) = 1-P(z≤2.01) = 1-0.9778 = 0.0222
Nuevamente aplicamos la propiedad de simetría porque el valor de z es negativo.
Ejercicio 9.5.
¿Cuál es la probabilidad de hallar un puntaje entre z=0.76 y z=2.13?
Respuesta
P(0.76≤z≤2.13) = P(z≤2.13)-p(z≤0.76) = 0.9834-0.7764 = 0.2066 = 20.70%
Ejercicio 9.6.
¿Cuál es la probabilidad de hallar un puntaje entre z=−1.23 y z=0.59?
Respuesta
P(-1.23≤z≤0.59) = P(z≤0.59)-(1-P(z≤1.23)) = 0.7224-(1-0.8907) = 0.6131 = 61.31%
Ejercicio 9.7.
¿Cuál es la probabilidad de hallar un puntaje entre z=−1.89 y z=−0.24?
Respuesta
P(-1.89≤z≤-0.24) = (1-P(z≤-0.24)-(1-P(z≤-1.89)) = (1-0.5948)-(1-0.9706)
P(-1.89≤z≤-0.24) = 0.3758
Ejercicio 9.8.
¿Cuál es la z que limita al 65.12% de los casos?
Respuesta
Buscamos en el cuerpo de la tabla P=0.6512 y encontramos que el valor más
cercano es P=0.6517, el cual corresponde a z=0.39. Ahora, como el valor buscado
P=0.6512 es superior a P=0.5000, significa que está a la derecha de la media y por
tanto el valor de z en positivo. En consecuencia:
P(z=0.39) = 0.6517

128
Y este es el valor más preciso que puede dar la tabla. Si calculamos el valor
aplicando directamente la función de distribución en Excel obtenemos:
P=0.6512 corresponde a z=0.38856225...
Es claro que al redondear a dos decimales tenemos z=0.39, que el valor que
obtuvimos de tablas. Pero no debemos menospreciar la precisión, en la práctica
profesional se presentan muchos casos en que la diferencia (que es un error) puede
cambiar decisiones importantes.
En todo caso, la teoría y el procedimiento matemático es el mismo, lo que cambia
es la precisión del cálculo.
Ejercicio 9.9.
Suponga que tenemos una población en la que el cociente de memoria (CM) se distribuye con
=67.31 y =7.23; se ha probado que se ajusta a la distribución normal. Se extraerá al azar un sujeto
de la población:
Respuestas
Comencemos por estandarizar el puntaje:
z = (X-µ)/σ
z = (70.00-67.31)/7.23
z = 0.37 Observe que el valor es positivo.
Ahora podemos encontrar el área:
P(z≥0.37) = 1-P(z≤0.37) = 1-0.6433 = 0.3567 = 35.67%
Esto es, hay una probabilidad de 35.67% de encontrar a un elemento de la población
estudiada con un cociente de memoria de 70 0 mayor.
z = (59.00-67.31)/7.23
z = -1.15 Observe que ahora el valor es negativo.
Por tanto:
P(z≤-1.15) = 1-P(z≤1.15) = 1-0.8749 = 0.1251 = 12.51%
La probabilidad de extraer al azar a un sujeto con CM menor o igual a 59 es del
12.51%.
Estandarizamos ambos valores:
z1 = (48.00-67.31)/7.23
z1 = -2.67
z2 = (71.00-67.31)/7.23)
z2 = 0.51 Observe que z1 es positivo mientras z2 es negativo.
Para calcular el área:
P(-2.67≤z≤0.51) = P(z1≤0.51)-(1-P(z2≤2.67))
P(-2.67≤z≤0.51) = 0.6950-(1-0.9962)
P(-2.67≤z≤0.51) = 0.6912 = 69.12%
La probabilidad de hallar un CM entre 48 y 71 es del 69.12%
Ahora partimos de una probabilidad, P=0.7200, y queremos conocer el puntaje que
la limita. Tenemos el caso inverso a los anteriores.

129
Para conocer la z asociada a P=0.7200 buscamos en el cuerpo de la tabla y

encontramos que el valor más cercano es 0.7190, el cual corresponde a un valor de
z=0.58. Ahora, como P=0.7200 es mayor que P=0.5000, sabemos que el valor de z
es positivo. Por tanto:
z = 0.58
Transformando z a X tenemos:
X = (z×σ)+μ
X = (0.58×7.23)+67.31
X = 71.50
Lo que significa que a la izquierda de X=71.50 se encuentra el 72.00% de los casos.
En otras palabras, en la población estudiada el 72.00% de los sujetos tienen un
cociente de memoria menor o igual a 71.50.
Por cierto, si utilizamos las funciones de Excel obtendríamos un CM = 71.52.
Compruébelo.
Lección 10. Normalización psicométrica gaussiana
Ejercicio 10.1
En cierta región escolar el aprovechamiento escolar se mide en escala de 0 a 100. Se ha encontrado
que en los niños que egresan de sexto grado de primaria, la media en matemáticas es de 70.22 con
una desviación estándar de 9.83. Se probó que la variable estudiada se ajusta a la distribución
normal.
b) José es integrante de la población y tiene un puntaje de aprovechamiento escolar en matemáticas
de 83.85. Diagnostíquelo.
Respuestas
Sabemos que las z que limitan a cada estanina son:
Estanina Límite superior (z)
1 −1.75
2 −1.25
3 −0.75
4 −0.25
5 0.25
6 0.75
7 1.25
8 1.75
9 
Para calcular los puntos de corte en puntajes brutos:
X = (z)+
Por ejemplo, en la estanina 1:
X = (-1.759.83)+70.22 = 53.02
Calculando los puntos de corte restantes:

130
Estanina Punto de corte (X)

1 53.02
2 57.93
3 62.85
4 67.76
5 72.68
6 77.59
7 82.51
8 87.42
9 100.00
Finalmente, discretizando la variable tenemos la tabla de normas:
Estanina Rango
1 0 53
2 54 57
3 58 62
4 63 67
5 68 72
6 73 77
7 78 82
8 83 87
9 88 100
b) José es integrante de la población y tiene un puntaje de aprovechamiento escolar
en matemáticas de 83.85. Diagnostíquelo.
José se ubica en la estanina 7.
Ejercicio 10.2
En cierta población de empleados bancarios de ventanilla se ha encontrado que en el factor
Expresividad emocional (sociabilidad) del 16PF la media es de 10.02 con una desviación estándar
de 3.83. Se ha probado que la distribución se ajusta a la normal.
a) Construya la tabla de normas con el modelo estén.
b) José es un empleado que pertenece a la población de estudio y obtuvo un puntaje de sociabilidad
de 9. Diagnostíquelo.
Respuestas
a) Construya la tabla de normas con el modelo estén.
Los límites de norma en el modelo estén son:
Estén Límite superior (z)
1 −2.00
2 −1.50
3 −1.00
4 −0.50
5 0.00
6 0.50
7 1.00
8 1.50
9 2.00
10 

131
Para calcular los puntos de corte en puntajes brutos:

X = (z)+
Aplicando al estén 1:
X = (-2.003.83)+10.02 = 2.36
Completando los cálculos, tenemos
Estén Límite superior (z)
1 2.36
2 4.28
3 6.19
4 8.11
5 10.02
6 11.94
7 13.85
8 15.77
9 17.68
10 20.00
Observe que 20 es el puntaje máximo en el factor estudiado. Discretizando, la tabla
de normas es:
Estén Rango
1 0 2
2 3 4
3 5 6
4 7 8
5 9 10
6 11 11
7 12 13
8 14 15
9 16 17
10 18 20
b) José es un empleado que pertenece a la población de estudio y obtuvo un puntaje
de sociabilidad de 9. Diagnostíquelo.
José queda en la estén 5, su sociabilidad puede leerse como normal alto o bien
como alto fronterizo; el hecho es que queda en el estén 6.
Ejercicio 10.3
En cierta región escolar se han encontrado los siguientes parámetros de aprovechamiento escolar
en niños que egresan de secundaria:
Área curricular  
Español 83.34 8.96
Ciencias 77.34 7.81
Historia 72.21 7.74
Se ha probado que las distribuciones se ajustan a la normal.
Juan es egresado de secundaria en dicha región y en su certificado de estudios se

132
registra el siguiente aprovechamiento escolar.

Área curricular Aprovechamiento escolar
Español 78.25
Matemáticas 72.01
Ciencias 78.22
Geografía 72.14
Historia 78.23
Formación cívica y ética 85.14
Construya el perfil de aprovechamiento escolar de Juan utilizando el modelo NCE.
Veamos el caso de Español, primero calculamos:
z = (X−)/ = (78.25−83.34)/8.96 = −0.57
Después calculamos la calificación NCE. Para Español:
NCE = (z21)+50 = (−0.5721)+50 = 38.07
Calculando para las restantes áreas curriculares tenemos:
Área curricular   Juan z NCE(Juan)
Español 83.34 8.96 78.25 -0.57 38.03
Matemáticas 68.12 7.59 72.01 0.51 60.71
Ciencias 77.34 7.81 78.22 0.11 52.31
Geografía 75.65 7.91 72.14 -0.44 40.76
Historia 72.21 7.74 78.23 0.78 66.38
Formación cívica y ética 86.14 8.92 85.14 -0.11 47.69
Para facilitar la comprensión graficaremos los resultados de la estandarización,
comencemos por reunir en una sola tabla los puntajes brutos y los estandarizados
ordenados en forma descendente por puntaje NCE:
Área Puntaje bruto Norma NCE
Historia 78.23 66.38
Ciencias 78.22 52.31
Español 78.25 38.03
Finalmente, podemos graficar el perfil de aprovechamiento, comparando los
puntajes brutos y normalizados:

133
Esta gráfica permite apreciar el poder de la interpretación psicométrica gaussiana.

Los puntajes NCE permiten comparar los puntajes brutos en términos de la
población de referencia, independientemente de otras variables que puedan afectar,
como podría ser la dificultad de la disciplina, la aptitud del sujeto u otras.
Ejercicio 10.4
En cierta universidad el CI se distribuye con media de 106.27 y desviación estándar de 9.97. Se ha
probado que la distribución se ajusta a la normal. José es estudiante de dicha universidad y su CI es
de 115.
Respuestas
Primero convertimos el puntaje bruto a calificación z:
z = (X−)/ = (115−106.27)/9.97 = 0.88
Ahora transformamos al CI de desviación en la escala de Wechsler:
CIW = (0.8815)+100 = 113
Obviamente z es la misma. Entonces, el CI de desviación en la Escala Catell:
CIC = (0.8824)+100 = 121
Esto es, el CI de desviación en la escala de Wechsler de José es de 113, mientras
que en la escala de Catell es de 121. Para profundizar un poco en la comprensión
de estos puntajes estandarizados conviene considerar algunos puntos:
i. Antes que nada, debe observarse que en los modelos de Wechsler y de
Catell la media es de 100; en cambio, en el ejemplo que vimos la media de
la población es de 106.27. Esto significa que la población de estudio tiene
mayor nivel de inteligencia que las normas Wechsler y Catell. Si un puntaje
bruto se interpreta directamente, se estará sesgando más de 6 puntos a la
derecha (106.27−100=6.27). En nuestro ejemplo, si interpretamos
directamente el puntaje bruto CI de Juan diríamos que está 15 puntos por
encima de la media (porque en Wechsler y Catell la media es 100); en
cambio, si lo interpretamos respecto a su grupo, que es lo más adecuado,
Juan solo tiene 9 puntos por encima de la media (115−106.27=8.73). Como
se observa, no es sencillo interpretar en ciencias del comportamiento.
ii. Por otro lado, la desviación estándar en la norma Wechsler es de 15 y en la
Catell de 24; en cambio, en la población que tomamos de ejemplo es de 9.97.
Esto significa que la población que estudiamos es más compacta (menos

134
dispersa) que la población normativa; el menor tamaño de la desviación

estándar empírica disminuye a su vez el valor de z.
iii. El valor de la desviación estándar en Catell es 9 unidades mayor que en
Wechsler (24-15=9). Esta diferencia hace que el CI de desviación sea
siempre mayor que en Catell respecto a Wechsler. Es obvio que no pueden
compararse directamente.
Lección 11. Elementos de muestreo
Ejercicio 11.1.
a) Se instalará un punto de control carretero para evaluar fatiga perceptual en conductores de
autobuses. Se establece un nivel de significación del 95% y un nivel de precisión del 90%. Se
estima que la proporción de conductores que manejan con fatiga es del 12%. Calcule el tamaño
de la muestra.
b) No se dispone de estimación alguna sobre la proporción de conductores que manejan con fatiga.
Calcule el tamaño de la muestra.
c) Para seleccionar aleatoriamente a los elementos muestrales se dividirá a la cola de autobuses en
grupos de 20, de cada grupo se seleccionará un elemento muestral. Seleccione los primeros 10
elementos muestrales.
Respuestas
a) Se instalará un punto de control carretero para evaluar fatiga perceptual en
conductores de autobuses. Se establece un nivel de significación del 95% y un
nivel de precisión del 90%. Se estima que la proporción de conductores que
manejan con fatiga es del 12%. Calcule el tamaño de la muestra.
Puesto que no se puede saber el tamaño de la población, es decir cuántos
autobuses pasarán por el punto de control, y se busca estudiar una proporción,
tenemos el Caso 1 estimación de proporciones con población infinita. Los valores
son:
z = 1.96, que es la z asociada con 1−(/2) = 1−(0.05/2) = 0.9750.
e = (1−precisión)/2 = (1-0.90)/2 = 0.05
p = 0.12
sustituyendo en la fórmula:
n = (z2p(1-p)) / e2 = (1.9620.12(1−0.12)) / 0.052 = 162.27
redondeando a enteros, debemos estudiar 162 autobuses en la muestra.
b) No se dispone de estimación alguna sobre la proporción de conductores que
manejan con fatiga. Calcule el tamaño de la muestra.
En este caso debemos tomar p = 0.50. Sustituyendo en la fórmula:
n = (1.9620.50(1−0.50)) / 0.052 = 384.16
ahora debemos tomar 384 autobuses para la muestra.
Es claro que al no disponer de un estimador de la proporción nos vemos obligados
a tomar el valor máximo p=0.50, lo cual aumenta notablemente el tamaño de la
muestra. Esto implica que conviene disponer de estimaciones de p porque permite
aumentar la eficiencia en el muestreo, pues se requieren menos elementos.
c) Para seleccionar aleatoriamente a los elementos muestrales se dividirá a la cola
de autobuses en grupos de 20, de cada grupo se seleccionará un elemento
muestral. Seleccione los primeros 10 elementos muestrales.
Debemos seleccionar un número aleatorio entre 1 y 20 para decidir que autobús
será elegido de cada grupo.

135
Grupo 1 2 3 4 5 6 7 8 9 10
Elemento 2 18 17 13 11 16 8 6 14 9
Del primer grupo de 20 autobuses estudiaremos al número 2, del segundo grupo al
18 y así hasta completar la muestra. Tendremos una muestra aleatoria, sin sesgo
de investigación.
Observe que se puede considerar a cada grupo de 20 autobuses como un estrato
poblacional.
Ejercicio 11.2.
Se aplicará una encuesta de actitud hacia programas antitabaquismo en una empresa que tiene
5 386 empleados operativos, 456 de oficina y 112 directivos. Se sabe que el 23% de la población
fuma. Se establece un nivel de significación del 7% y un margen de error muestral también del 7%.
Respuestas
Aplica el Caso 2. Identificamos valores:
N = 5386+456+112 = 5954
p = 0.23
e = (1−precisión)/2 = (1−0.93)/2 = 0.035
z = 1.81, que es la z asociada con 1−(0.07/2) = 0.9650.
calculando:
n = (Nz2p(1-p)) / (((N-1)e2)+(z2p(1-p)))
n = (59541.8120.23(1-0.23)) / (((5954-1)0.0352)+(1.8120.23(1-0.23)))
n = 438.80
debemos tomar 439 elementos para integrar la muestra.
Estrato Ni (Ni/N)n ni
Operativo 5 386 397.12 397
Oficina 456 33.62 34
Directivo 112 8.26 8
Total 5 954 439
Para integrar la muestra debemos tomar 397 empleados operativos, 34 de oficina y
8 directivos.
Suponemos que tenemos la base de datos en una hoja de Excel. Entonces,
aplicamos el siguiente procedimiento:
Ordenamos la población por estrato y se crea una columna con un número aleatorio.

136
Elemento Estrato Datos Num. Aleat.

1 Operativo xxxxxxx 0.34060502
... ... ... ...
1 Oficina xxxxxxx 0.40624825
... ... ... ...
1 Directivo xxxxxxx 0.64182478
... ... ... ...
Cada estrato, por separado, se ordena aleatoriamente y los números aleatorios se
convierten en números para que no se modifiquen. Después se seleccionan los
primeros elementos hasta completar el tamaño del estrato. El Resultado es la tabla
siguiente:

137
Elemento Elemento
muestral Estrato poblacional Datos Num. Aleat.
1 Operativo 790 xxxxxxx 6.817E-05
2 Operativo 2161 xxxxxxx 0.0005204
... Operativo ... ... ...
1 Oficina 423 xxxxxxx 0.0013277
... Oficina ... ... ...
1 Directivo 106 xxxxxxx 0.00801697
... ... ... ... ...
Se ha completado una muestra representativa.
Debe observarse que en caso de que se requiera sustituir algún elemento por baja
en la investigación, basta con tomar el elemento poblacional que sigue al último
elemento muestral seleccionado.
Ejercicio 11.3.
Para estandarizar un test de inteligencia en la población de un municipio, con adultos con edades
entre 20 y 60 años, se tomará una muestra representativa con un error muestral del 5% y un nivel
de confianza del 95%. La media en dicha población se ha estimado en 104.23 y la desviación
estándar en 15.38. La población se estratifica por nivel educativo en las categorías Bajo (primaria
terminada o menor) que representa el 26%; Medio (estudios de secundaria hasta preparatoria
completa) el 45 % y (estudios de licenciatura o superior) 29%. Se muestreará por área geoestadística
básica (AGEB), manzana, predio y habitante.
Respuestas
Se trata de conocer media y desviación estándar en una población infinita, por lo
que aplica el Caso 3. Identificamos valores:
 = 104.23
 = 15.38
e = (1−precisión)/2 = (1−0.95)/2 = 0.025

138
d = e = 104.230.025 = 2.61 Observe que e está calculado para prueba

bilateral.
sustituyendo en la fórmula:
n = (z22) / d2
n = (1.96215.382) / 2.612 = 133.40
debemos tomar 133 elementos para la muestra.
Nivel educativo (Ni/N) (Ni/N)n ni
Bajo 0.2600 34.58 35
Medio 0.4500 59.85 59
Alto 0.2900 38.57 39
Total 1.0000 133
Observe que se restó 1 a Medio para ajustar la suma.
Comienza
Paso 1. Obtener la cartografía censal del municipio.
Paso 2. Seleccionar aleatoriamente una AGEB
Paso 3. Seleccionar aleatoriamente una manzana
Paso 4. Seleccionar aleatoriamente un predio dentro de la manzana. Si el
predio es multifamiliar entonces seleccionar aleatoriamente una vivienda
dentro del predio; si es unifamiliar continuar con el siguiente paso.
Paso 5. Identificar a los habitantes de la vivienda que cumplan los criterios de
inclusión e invitarlos a participar en la investigación. Si no aceptan, desechar
la vivienda; si aceptan, realizar la aplicación del test.
Paso 6. Regresar al paso 2 y repetir el procedimiento hasta completar todos los
estratos muestrales.
Termina
Ejercicio 11.4.
En cierta universidad hay 7 421 alumnos. Se desea estandarizar un test de memoria. Por estudios
previos se estima una media de 76.21 y una desviación estándar de 9.83. El 69.31% de la matrícula
es de disciplinas humanísticas y el resto de ciencia y tecnología. Se establece una precisión del 95%
y un nivel de significación del 5%.
Respuestas
Aplica el Caso 4 porque se conoce el tamaño de la población y se desea encontrar
media y desviación estándar. Entonces, identificamos valores:
N = 7421
 = 76.21
 = 9.83
e = (1−precisión)/2 = (1−0.95)/2 = 0.025
d = e = 76.210.025 = 1.91 Observe que e está calculado para prueba
bilateral.

139

aplicando la fórmula:
n = (Nz22) / ((d2(N−1))+(z22))
n = (74211.9629.832) / ((1.912(7421-1))+(1.9629.832)) = 100.39
la muestra debe tener 100 elementos.
Disciplina (Ni/N) (Ni/N)n ni
Humanística0.6931 69.31 69
Ciencia y tecnología 0.3069 30.69 31
Total 1.0000 100
Apliquemos ahora un procedimiento diferente al del ejercicio 2. Ordenamos la
población por estrato. Si el 0.6931 de estudiantes es de humanísticas, entonces son
5 143; de ciencia y tecnología es el resto, 2 278. La base de datos queda como
sigue:
Elemento Estrato Datos
1 Humanísticas xxxxxxx
... ... ...
1 Ciencia y tecnología xxxxxxx
... ... ...
Para seleccionar por estrato se genera un número aleatorio entre 1 y el tamaño del
estrato; por ejemplo, en humanísticas el rango es 1 a 5143 y en ciencia y tecnología
1 a 2278. Se repite el procedimiento hasta completar el número de elementos
necesarios.
En este caso conviene generar un excedente para cada estrato muestral, que
permita al investigador sustituir a elementos que sean seleccionados y no puedan
participar por cualquier razón; generaremos 15 elementos adicionales a cada
estrato.
Elemento muestral Elemento poblacional Estrato Datos
1 204 Humanísticas xxxxxxx
... ... ... ...
1 1987 Ciencia y tecnología xxxxxxx
... ... ...
Cuando se realice la investigación se abordará a los estudiantes por el orden
señalado para cada elemento muestral; en caso de que alguno no se encuentre o

140
no quiera participar, se buscará al siguiente. Por supuesto, solo se aplicará a 69

elementos de humanísticas y a 31 de ciencia y tecnología, que son los tamaños de
estrato.
Ejercicio 11.5.
Se estudiará la confesión religiosa en dos centros de convivencia social, A y B. Se sabe que la
proporción de asistentes que confiesan alguna religión en la comunidad A es del 55% y en la B del
72%. Se establece un nivel precisión de 90% y un nivel de significación del 5%. El estudio se realizará
en un fin de semana y se tiene un aforo promedio de 1 700 asistentes en el centro A y de 2 150 en
el B.
Respuestas
Se trata de comparar dos proporciones y se desconoce el tamaño de las
poblaciones, tenemos el Caso 5. Identificamos los valores:
z = 1.645, que es la z asociada con 1−0.05 = 0.9500. Observe que en este
caso  no se divide en dos porque se trata de una prueba unilateral.
z = 1.28, que es la z asociada con 1−0.10 = 0.9000 Con  ocurre lo mismo
que en el caso de .
P1 = 0.5500
P2 = 0.7200
P = (0.5500+0.7200)/2 = 0.6350
sustituyendo valores en la fórmula:
n = ((z(2p(1−p)))+(z((p1(1−p1))+(p2(1-p2)))))2 / (p1−p2)2
n = ((1.645(20.6350(1-0.6350)))+(1.28((0.5500(1−0.5500)+
(0.7200(1−0.7200)))))2 / (0.5500-0.7200)2
n = 135.35
Se requiere una muestra de 135 elementos para cada comunidad.
Deben seleccionarse 135 personas del centro A e igual número del centro B.
Sabemos que el aforo en el centro A es de 1 700 personas, como necesitamos 135
elementos muestrales podemos formar 1700/135 = 12.59 personas por unidad de
muestreo. Entonces, para controlar eventuales ausencias, se formarán 170 grupos
de 10 personas cada uno y se elegirá aleatoriamente un elemento muestral de cada
grupo, en forma similar a como se hizo en el ejemplo 1 hasta completar 135, que es
el tamaño de la muestra. Observe que solo se requieren 135 grupos, los restantes
pueden utilizarse como alternativa para sustituir a quienes no acepten participar.
En el centro B grupos de 2150/135 = 15.93, por lo que se formarán de 12 y se
procederá del mismo modo.
Ejercicio 11.6.
En cierta universidad se sabe que la media de aprovechamiento escolar es de 75.09 y la desviación
estándar de 8.19; la matrícula masculina es de 64.12% y la femenina de 35.88%. Se aplicará un
diseño experimental con un grupo de control para evaluar cierta técnica de estudio. Se establece un
nivel de significación del 95% y un margen de error muestral del 5%.
b) Estratifique la muestra por sexo.
c) Diseñe un procedimiento para la selección aleatoria de la muestra.
Respuestas

141
En este ejemplo se busca comparar dos grupos en términos de media y desviación

estándar, por lo que aplica el Caso 6. Identificamos valores:
 = 75.09
 = 8.19
e = 0.05
d = e = 75.090.05 = 3.75. Observe que se trata de prueba unilateral.
z = 1.645, que es la z asociada con 1−0.05 = 0.9500.
z = 1.645, que se encuentra igual que la anterior.
entonces, sustituyendo valores en la fórmula:
n = ((2(z+z)2)2) / d2
n = ((2(1.645+1.645)28.192) / 3.752 = 103.26
Se requieren 103 elementos para cada grupo.
b) Estratifique la muestra por sexo.
Sexo (Ni/N) (Ni/N)n ni
Masculino 0.6412 66.04 66
Femenino 0.3588 36.96 37
Total 1.0000 103
La estratificación es la misma para el grupo experimental y para el control, lo que
contribuye a la comparabilidad.
c) Diseñe un procedimiento para la selección aleatoria de la muestra.
Se obtendrán las listas de alumnos de control escolar y, para cada uno de los dos
grupos, se procederá como en el ejercicio 1, o bien como en el ejercicio 3.

142
Bibliografía
Anastasi, A & Urbina, S. (1998). Tests psicológicos. Prentice Hall, México, 1998.
(729 pp.)
Texto clásico cuya primera edición se remonta a 1968 y que ha evolucionado a lo largo de múltiples
ediciones. La edición 1998 incorpora el impacto de la computadora y las influencias políticas sobre
la psicometría. Fundamental en las ciencias del comportamiento para comprender los aspectos
conceptuales que subyacen a todo el proceso psicométrico.
Aristóteles (2001). Tratados de lógica. Ed. Porrúa, Colección Sepan cuantos,
número 124. México. (534 pp.)
Poco se puede agregar a lo que se ha dicho sobre un clásico, en el sentido más estricto del término.
Se le cita en este trabajo para recordar que no siempre es cierto que nada hay nuevo bajo el sol: los
griegos no lograron siquiera atisbar a la probabilidad matemática.
Bertrand, J. (1889). Calcul des probabilités. Gauthier-Villars et Fils, Imprimeurs-
Libraires, France. (332 pp.) Disponible en
http://bibliotecadigital.uca.edu.ar/repositorio/investigacion/acerca-fundamentos-
teoria-probabilidad.pdf. Consultado el 6 de agosto de 2013.
Obra pionera en la teoría de la probabilidad. Cuando se lee este tipo de trabajos se recibe una
verdadera lección sobre historia de la ciencia.
Cochran, W. (1980). Técnicas de muestreo. Ed. C.E.C.S.A., México. (513 pp.)
Un tratado de muestreo amplio y cuidadoso, para quien quiera realmente profundizar en el problema
del muestreo, sus alcances y limitaciones.
Cochran W. y Cox, G. (1980). Diseños experimentales. Trillas, México. (661 pp.).
Es un libro más orientado a la metodología que a la estadística, sin embargo ofrece una muy buena
alternativa para comprender el estrecho vínculo que une a ambas disciplinas. No habría que olvidar
que el experimento es el tipo de investigación científica por excelencia.
Cowles, M. & Davis, C. (1982). “On the origins of the .05 level of statistical
significance”. American Psychologist, May 1982, Vol. 37, No. 5, 553-558.
Un artículo para entender el concepto de nivel de significación −fundamental en la psicología
científica− y su historia; un trabajo desmitificador.
Harman, P. (1990). The scientific letters and papers of James Clerk Maxwell. Vol. I
1846-1862. Cambridge University Press, N. Y. (748 pp.)
Este epistolario de James Clerk Maxwell permite ver la concepción no determinista de uno de los
físicos más importantes del siglo XIX, quien fue precursor nada menos que de Einstein.
Kerlinger, F. & Lee, H. (2001). Investigación del comportamiento: Métodos de
investigación en ciencias sociales. McGraw-Hill, México. (810 pp.).
Un tratado amplio de metodología indispensable para cualquier estudiante de ciencias del
comportamiento. Trata desde las bases de la epistemología científica, probabilidad y muestreo,
análisis e interpretación, prueba de hipótesis, diseño de investigación, medición y métodos de
observación y recolección, hasta la elaboración del reporte; en fin, un recorrido amplio y sistemático
por los temas que dan estatus científico al estudio del comportamiento.
Keynes, J. (2014). A Treatise of Probability. Project Gutenberg´s, Release Date:
February 9, 2014 [EBook #32625]. (Primera edición 1921).
Es un tratado que conjuga el rigor de las formulaciones matemáticas con los fundamentos filosóficos
de la probabilidad. El enfoque keynesiano sostiene que existe una relación estrictamente lógica entre
hipótesis y evidencia que abrió el camino a la lógica probabilista.
Tversky, A. & Kahneman, D. (1981). “The framing of decisions and the psychology
of choice”. Science, Vol. 211, 30 January 1981, 453-458.
Este artículo muestra la importancia de la matemática en el estudio de la conducta y hace un análisis
evolucionista que propone explicaciones sobre la renuencia a adoptar el pensamiento probabilista.

143
Kahneman, psicólogo norteamericano, compartió el Premio Nobel de Economía en 2002 “...por haber
integrado aspectos de la investigación psicológica en la ciencia económica, especialmente en lo que
respecta al juicio humano y la toma de decisiones bajo incertidumbre.” Debería leerlo todo estudiante
de psicología.
Landro, A. y González, M. (2011). “Acerca de los Fundamentos de la Teoría de la
Probabilidad de A. N. Kolmogorov”. Universidad Católica de Argentina. Disponible
en: http://www.uca.edu.ar/uca/common/grupo83/files/33-_Landro-Gonz-lez.pdf.
Un artículo que ayuda a comprender una de las aportaciones fundamentales a la formalización
matemática de la teoría de la probabilidad: su axiomatización.
Laplace, P. (1996). Ensayo filosófico sobre las posibilidades. Ediciones Altaya,
Barcelona. (142 pp.)
Publicado originalmente en 1814, es una obra pionera en la que Laplace aplica las matemáticas y,
en particular la geometría, al estudio del azar. Por supuesto, actualmente su interés es histórico.
Russell, B. (1938). The principles of mathematics. W. W. Norton & Company, Inc.
Publishers, New York. (534 pp.)
Russsell propone en este libro que todo lo que llamamos matemática se deriva de premisas lógicas
y, por tanto, lógica y matemática son, esencialmente, lo mismo. Más tarde se demostraría que esto
no es completamente cierto, pero la obra hizo aportaciones que impactaron profundamente al
pensamiento matemático dl siglo XX.
Schrödinger, E. (1997). ¿Qué es la vida? Tusquets Editores, Barcelona, España.
(144 pp.)
Texto de divulgación científica de gran utilidad para desengañar a quienes siguen pensando que la
física es una ciencia estrictamente determinista.
Kolmogorov, A. (1950). Foundations of the theory of probability. Chelsea Publishing
Company, New York. (71 pp.)
Lo interesante de esta obra, al menos para el curso, es que en ella se presenta la formalización de
la axiomática de la probabilidad. El solo año de su edición deja ver la juventud de la teoría de la
probabilidad.
Descartes, R. (1824). Discours de la méthode, Tomo I, Levrault, Paris. (212 pp.)
No pocas personas afirman que con esta obra nació el método de la ciencia. ¿Qué más se puede
decir sobre ella?
López A. (2011). Estadística descriptiva en ciencias del comportamiento.
Universidad Autónoma del Estado de México. (138 pp.)
Crestomatía para un primer curso universitario de estadística descriptiva.
López, A. (2013). El método en ciencias del comportamiento. Universidad Autónoma
del Estado de México. (142 pp.)
Crestomatía para un primer curso universitario de metodología científica.
López A. (2014). Estadística inferencial en ciencias del comportamiento.
Universidad Autónoma del Estado de México. (133 pp.)
Crestomatía para un primer curso universitario de estadística inferencial.
Meredith, W. (1977). Manual de tablas estadísticas con aplicación a las ciencias de
la conducta. Trillas, México. (345 pp.).
Como su nombre lo indica, se trata de un compendio de tablas, aunque no solo son estadísticas sino
que también incluye algunas tablas matemáticas. En los años 1970s este libro fue muy popular, de
consulta obligada para estudiantes y profesores, pero con la tecnología computacional actual ha
quedado obsoleto, pues todas las tablas que incluye han sido incorporadas en diversos software de
uso común, como Excel. Sin embargo, La estructura misma del libro, así como muchas de las notas
técnicas que incluye, pueden ser de gran utilidad para quien quiera profundizar en el estudio de la
probabilidad y la estadística.
Paulos, J. A. (1990). El hombre anumérico: El analfabetismo matemático y sus
consecuencias. Tusquets Editores, España. (216 pp.)
Un ensayo sobre las relaciones entre ciencia y matemática y sobre su importancia para entender el

144
mundo.
Piaget, J. (1971). Genetic Epistemology. English traslation by Eleanor Duckworth.
The Norton Library, New York. (84 pp.)
Cuatro conferencias que Jean Piaget dicta en la Universidad de Columbia. En lo que aquí interesa,
permiten ver el papel fundamental que la matemática juega en la teoría piagetiana.
Sheynin, O. (2005). Bernoulli, Jakob: On the law of large numbers, Part four of ars
conjectandi. English translation by Oscar Sheynin (1713/2005). Berlin, NG Verlag.
Disponible en http://www.sheynin.de/download/bernoulli.pdf. Consultado el 2 de
junio de 2015.
Este trabajo es un extracto de la traducción de una obra fundamental en la historia de la teoría de la
probabilidad.
Winkler, R. & Hays, W. (1970). Statistics, probability, inference and decision. Holt,
Rinehart and Winston, USA. (889 pp.)
Quizá lo más notable de esta obra sea la importancia que da a los conceptos. Lo más frecuente en
libros de estadística es que se presenten desarrollos matemáticos y fórmulas, sin que se discutan y
expliquen los conceptos que están bajo los procedimientos y fórmulas matemáticas. No es el caso
con esta obra, que analiza y discute ampliamente los conceptos antes de pasar a la formulación
matemática en un amplio recorrido por el campo de la probabilidad y la estadística.
Yamane, T. (1990). Estadística. Ed. Harla, México. (771).
Es un libro que da importancia a la aplicación, pero también muestra, desde el origen, de dónde
salen algunas de las fórmulas que aplicamos cotidianamente; se recomienda para quienes están
interesados en las demostraciones matemáticas. Está orientado a la economía y, por lo tanto, es
aplicable a las ciencias de la conducta.

TeoriaDeLaProbabilidad V2022

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

TeoriaDeLaProbabilidad V2022

Cargado por

Copyright:

Formatos disponibles

Teoría de la Probabilidad

en Ciencias del Comportamiento

Adolfo López Suárez

Part of our knowledge we obtain direct; and part by argument. The

Teoría de la Probabilidad en Ciencias del Comportamiento Adolfo López Suárez

Teoría de la Probabilidad en Ciencias del Comportamiento Adolfo López Suárez

Teoría de la Probabilidad en Ciencias del Comportamiento Adolfo López Suárez

Teoría de la Probabilidad en Ciencias del Comportamiento Adolfo López Suárez

Teoría de la Probabilidad en Ciencias del Comportamiento Adolfo López Suárez

Teoría de la Probabilidad en Ciencias del Comportamiento Adolfo López Suárez

Estructura del banco de reactivos

Teoría de la Probabilidad en Ciencias del Comportamiento Adolfo López Suárez

Evaluación del aprendizaje

Teoría de la Probabilidad en Ciencias del Comportamiento Adolfo López Suárez

Teoría de la Probabilidad en Ciencias del Comportamiento Adolfo López Suárez

forma el alumno estará desarrollando verdaderos hábitos de estudio independiente.

Teoría de la Probabilidad en Ciencias del Comportamiento Adolfo López Suárez

Principio de razón insuficiente

Principio fundamental del conteo

10. Normalización psicométrica

Teoría de la Probabilidad en Ciencias del Comportamiento Adolfo López Suárez

Teoría de la Probabilidad en Ciencias del Comportamiento Adolfo López Suárez

La inteligencia ante la naturaleza

Teoría de la Probabilidad en Ciencias del Comportamiento Adolfo López Suárez

la supervivencia del individuo y aumenta sus posibilidades de reproducirse. Pero no

La matemática del azar

El Problema del juego interrumpido

Teoría de la Probabilidad en Ciencias del Comportamiento Adolfo López Suárez

Aunque, desde luego, la solución es general, para facilitar la exposición tomaremos

Teoría de la Probabilidad en Ciencias del Comportamiento Adolfo López Suárez

Aplicando este enfoque al ejemplo que venimos analizando:

Teoría de la Probabilidad en Ciencias del Comportamiento Adolfo López Suárez

espacio muestral como lo hizo Fermat. El resultado es que analizó las

Que puede crecer agregando filas hasta donde se desee.

Teoría de la Probabilidad en Ciencias del Comportamiento Adolfo López Suárez

Que es la misma solución que encontró Fermat.

Teoría de la Probabilidad en Ciencias del Comportamiento Adolfo López Suárez

31. Andréi Kolmogorov (1903-1987), matemático ruso, formalizó los procesos

Teoría de la Probabilidad en Ciencias del Comportamiento Adolfo López Suárez

en 1944 como compilación de una serie de conferencias dictadas el año anterior en

Teoría de la Probabilidad en Ciencias del Comportamiento Adolfo López Suárez

Teoría de la Probabilidad en Ciencias del Comportamiento Adolfo López Suárez

Teoría de la Probabilidad en Ciencias del Comportamiento Adolfo López Suárez

Lección 2. La definición de probabilidad

Dos escuelas de la probabilidad

Teoría de la Probabilidad en Ciencias del Comportamiento Adolfo López Suárez

4. No es posible, ni deseable, descalificar por completo a la escuela subjetiva. Pero

La definición matemática de probabilidad

Teoría de la Probabilidad en Ciencias del Comportamiento Adolfo López Suárez

embargo, para el estudio del comportamiento resulta fundamental distinguir dos

El Principio de razón insuficiente

Teoría de la Probabilidad en Ciencias del Comportamiento Adolfo López Suárez

Teoría de la Probabilidad en Ciencias del Comportamiento Adolfo López Suárez

registrados, Juan asistió en 182 y solo tuvo 5 faltas.

El Principio de la frecuencia relativa

Teoría de la Probabilidad en Ciencias del Comportamiento Adolfo López Suárez

9. La definición matemática de probabilidad es una sola. Discuta esta proposición.

Teoría de la Probabilidad en Ciencias del Comportamiento Adolfo López Suárez

a) ¿Cuál es la probabilidad de que tome el camino de la derecha?

Teoría de la Probabilidad en Ciencias del Comportamiento Adolfo López Suárez

1. Ya vimos que un axioma es una proposición lógica o matemática que resulta

Los axiomas de la probabilidad

Teoría de la Probabilidad en Ciencias del Comportamiento Adolfo López Suárez