Ética: Probabilidad y Estadística

P r o b ÉTICA
abilidad y
Estadística
Á rea d e Co no cimi e nto | Ci en cias Ex ac tas

Probabilidad.
TABLA DE CONTENIDOS
Esquema ........................................................................................................................... 3
Breve Descripción del Capítulo......................................................................................... 4
Objetivos ........................................................................................................................... 5
Probabilidad........................................................................................................................ 6
1.1. Leyes de conjuntos y Diagramas de Venn................................................................ 6
1.2 Espacio muestral y Eventos.................................................................................. 10
1.2.1 Conteo de puntos de la muestra ................................................................... 11
1.3 Probabilidad de ocurrencia de un evento aleatorio................................................ 13
1.3.1 Reglas aditivas ............................................................................................. 15
1.4 Probabilidad condicional ..................................................................................... 16
1.4.1 Regla multiplicativa...................................................................................... 16
1.4.2 Teorema de Bayes ....................................................................................... 17
Bibliografía ...................................................................................................................... 18
Universidad Politécnica Salesiana

Página No. 2
Probabilidad.
Esquema
Operaciones entre conjuntos
Conjuntos numéricos
Conteo de elementos de un
conjunto
Definiciones de probabilidad
Probabilidad Probabilidad
Leyes aditivas
Ley o regla multiplicativa
Probabilidad condicional
Teorema de Bayes

Página No. 3
Probabilidad.
Breve Descripción del Capítulo
Desde que tenemos uso de razón, como personas, también tenemos la tendencia a la
asociación. Ello es algo que nos facilita reconocer cosas en general: detalles comunes,
rasgos, propiedades, etc. Así construimos nuestro propio reservorio de conocimientos,
aprendemos, ganamos experiencia. Y como parte de este proceso cognitivo, también
tenemos la tendencia a agrupar. Es decir, a colocar en una misma categoría “objetos” que
presente algo en común. Por ejemplo, individuos (de un mismo país, con el mismo color
de piel, que profesan la misma religión, etc.); libros (de pasatiempos, novelas, poemarios,
etc.); problemas de las ingenierías (eléctrica, electrónica, computación,
telecomunicaciones, mecatrónica, etc.); números (pares, naturales, complejos, reales,
etc.)
Para concretar, imaginemos que estudiamos la carrera de Computación, y obtenemos
datos (un conjunto de números) que representan mediciones del tiempo que demora en
completarse la descarga de ciertos archivos en un determinado tipo de ordenador
conectado a una red: 𝑆 = {2, 3.1, 2.02,3, 1.2, 1.45, 0.38, … … . . } . Este conjunto de
números reales positivos tiene una significación concreta. Cada uno de sus elementos
representa un “tiempo”. Específicamente, el tiempo que demoró la descarga de un
archivo en específico. ¿Pero, conocíamos con antelación el tiempo que tardaría en
descargarse el archivo H? ¿Cuál es el valor de la posibilidad de que el archivo H se
descargue en un tiempo menor a 1,5 s?
Las interrogantes anteriores tienen sentido por cuanto el proceso de descarga de un
archivo, por ejemplo, desde una página de Google, depende de varios factores: tamaño

Página No. 4
Probabilidad.
del archivo, ancho de banda de la conexión de internet, prestaciones del computador,
otros. En definitiva, los elementos del conjunto S están influenciados por la
incertidumbre, la aleatoriedad, la casualidad (¿qué tal si, en medio del proceso de
descarga del archivo H, ocurre un corte de energía eléctrica?). Es decir, la dependencia
del azar.
En esta primera unidad aprenderemos cómo cuantificar la incertidumbre; es decir, la
posibilidad de que ocurra un fenómeno, proceso o suceso que esté regido por la
aleatoriedad.
Objetivos
• Describir el espacio muestral de un evento, experimento o fenómeno aleatorio.
• Determinar la probabilidad de ocurrencia de un evento o fenómeno aleatorio.

Página No. 5
Probabilidad.
Probabilidad
1.1. Leyes de conjunto y diagramas de Venn.
Aunque la definición de conjunto resulta un tanto repetitiva (grupo, colección,

conglomerado), todos tenemos claridad cuando, por ejemplo, se nos habla sobre un
grupo de estudiantes, una colección de obras de arte o una base de datos.
En nuestra materia estaremos trabajando con conjuntos numéricos fundamentalmente.

Y tales conjuntos representarán datos, registros, mediciones de alguna característica o
propiedad.
Si pensamos desde el punto de vista de la respuesta que debe proporcionar cierto sistema
ingenieril, entonces es importante que el sistema “actúe” de forma “coherente” ante la
presencia de esa “perturbación o ruido” que tiene, tal vez, esencia desconocida y por ello
incierta.
Consideremos las siguientes situaciones relacionadas con algunas especialidades dentro

de las ingenierías.
Computación: la duración de las descargas de archivos en un computador. Cuando

“solicitamos” a nuestro computador que descargue un archivo, el tiempo que demora en
completarse el proceso, cuánto es, de qué depende.
Telecomunicaciones: ¿en qué momento se reciben llamadas, por ejemplo, a un teléfono

móvil, cuánto tiempo se extiende cada llamada?
Electrónica y Automatización: cuando se diseña un circuito, se espera que el mismo

responda a las prestaciones exigidas siempre; pero ¿está exento de fallos?
Eléctrica: cuando se realizan mediciones de voltajes, corrientes, resistencias; los

resultados de estas estarán influenciados por factores humanos y no humanos. Por tanto,
es inevitable la presencia de errores (incertidumbre) en ellas. Vale la pena realizar un
muestreo de señales.
Mecatrónica: cuando se construye un Robot, es parte muy importante del mismo el

sistema de control que permite que la máquina ejecute bien la actividad para la que fue
diseñada, y para ello el Robot necesitará “reconocer ciertos patrones”, como, por
ejemplo, dónde termina un pasillo cuando de desplazamientos lineales se trate. ¿Con qué
frecuencia el sistema de control del Robot identifica los patrones que le “orientan”
detenerse?
Todas las situaciones anteriores pueden ser estudiadas a través del análisis de una
variable, y los valores que esa variable puede tomar, que están influenciados por la
aleatoriedad debido a la propia naturaleza de esta, se pueden agrupar en un conjunto.
Por ejemplo:
a) Los tiempos de descargas de 100 archivos diferentes a nuestro computador. La

variable la definiríamos como t: tiempo de descarga de un archivo, medido en

Página No. 6
Probabilidad.
segundos. Los valores de t se pueden agrupar en el conjunto 𝑆𝑡 =

{𝑡1 , 𝑡2 , ⋯ , 𝑡100 }.
b) Cantidad de llamadas telefónicas que recibe José a su celular durante un día. La
variable sería X: número de llamadas que recibe José a su celular en un día
determinado (de la semana, del mes, del año): 𝑆𝑋 = {𝑥1 , 𝑥2 , ⋯ , 𝑥𝑛 }.
c) Frecuencia de fallo de un circuito eléctrico que está conformado por 3
componentes. Imaginemos, hipotéticamente, que el componente 1 falla después
de 1600 horas de trabajo; el componente 2 falla después de 1200 horas de
trabajo; y componente 3 falla después de 1000 horas de trabajo. En este caso el
problema podría ser analizado de forma global; pero pensemos en la
particularidad de cada componente del circuito. Así, definamos la variable 𝑳𝒊 :
instante en que falla el componente i del circuito; 𝑖 = 1,2,3. Para esta variable
𝑆𝐿 = {𝐿1 > 1600, 𝐿2 > 1200, 𝐿3 > 1000}.
d) La Empresa Eléctrica de cierta ciudad está analizando por qué se presenta
inestabilidad en el Voltaje en cierto barrio residencial. Para arribar a una
conclusión orienta a sus técnicos realizar mediciones de Voltaje en la zona,
diferentes días, en diferentes puntos del barrio y a horas distintas. Los resultados
obtenidos se guardan en la variable V: mediciones de Voltaje, en Voltios. En este
caso 𝑆𝑉 = {𝑉1 , 𝑉2 , ⋯ , 𝑉𝑛 }.
e) Sea que determinado Robot es capaz de desplazarse en línea recta, hacia delante
o hacia atrás. Y que su sistema de control basado en “inteligencia artificial”,
necesita identificar como mínimo tres patrones, de un máximo de ocho
características diferentes (por ejemplo, forma, luminosidad, distancia, etc.) que
es capaz de reconocer, para cambiar de sentido de movimiento; o sea, si se mueve
hacia adelante, al “descubrir” al menos tres de esas “señales”, se detendría e
iniciaría un desplazamiento hacia atrás. En este caso se podría definir la variable
Y: cantidad de patrones de cambio de sentido del movimiento que identifica el
Robot, y 𝑆𝑦 = {𝑦1 = 3, 𝑦2 = 4, 𝑦3 = 5, 𝑦4 = 6, 𝑦5 = 7, 𝑦6 = 8 }
Todas las variables definidas en los ejemplos anteriores tienen carácter aleatorio, es
decir, para ellas no es posible determinar con absoluta certeza cuál de los posibles valores
que cada una de ellas puede tomar, será en definitiva el que tome. Pero como todas ellas
se representan a través de un conjunto de números, que cumplen con determinada
“propiedad” común a todos ellos, entonces vale la pena primero estudiar, en general
cómo se manejan los conjuntos.
Los conjuntos numéricos con que trabajaremos de forma directa serán siempre el
resultado o la forma de “observar, registrar, medir” fenómenos, sucesos o procesos que
se rigen por el azar o la casualidad. Y justamente ello les confiere (a esos conjuntos y a
las variables que los representan o describen) un carácter aleatorio o estocástico.
Definición 1: se llama espacio muestral al conjunto de todos los posibles resultados de un

fenómeno o experimento aleatorio.
Comúnmente, al conjunto espacio muestral, se le denota 𝑆.
Por tanto, 𝑆𝑡 , 𝑆𝑋 , 𝑆𝐿 , 𝑆𝑉 , 𝑆𝑌 son espacios muestrales.
Si los espacios muestrales son conjuntos, entonces es provechoso conocer algunas

propiedades de ellos y las operaciones (las básicas) que podemos realizar con estos. De

Página No. 7
Probabilidad.
forma general, en Probabilidades, el conjunto S es considerado el “Conjunto Universo”,

el “TODO”. Y es lógico, porque se trata de la colección de todos los posibles resultados
de un suceso que puede “terminar” de más de una forma posible.
Lo clásico, cuando de estudiar probabilidades de trata, es partir de uno de los ejemplos

más simples: el lanzamiento de una moneda. Considerando que es muy raro, rarísimo,
que, al lanzar una moneda al piso, esta se mantenga de canto; entonces tal experimento
o suceso tiene dos (más de uno) resultados posibles: o cara o cruz. Tal variedad de
posibilidades le confiere a tal acción (lanzar la moneda) un carácter aleatorio. Así, el
espacio muestral de este suceso o fenómeno aleatorio es 𝑆 = {𝑐𝑎𝑟𝑎, 𝑐𝑟𝑢𝑧}.
De forma general, podemos considerar que el espacio muestral es un conjunto de

tamaño (la cantidad de elementos que posee) arbitrario. Y que con esos elementos
podemos formar otros conjuntos, es decir, subconjuntos:
𝑆 = {𝐴, 𝐵, 𝐶, 𝐷, ⋯ }
Los subconjuntos de un conjunto también son conjuntos.
Ejemplo 1: consideremos el siguiente conjunto.
𝑆1 = {−4, −3, 1.5, −2, −0.5, 0,1,2,4,10, 20}

Son subconjuntos de 𝑆1, por ejemplo, los conjuntos
𝐴 = {−0.5,20}; 𝐵 = {−4, −3, −2, −0.5}; 𝐶 = {−4, −3, −2,0,1,2,4,10,20};
𝐷 = {1,2,4}
Operaciones básicas entre conjuntos.
Nos centraremos en las operaciones entre conjuntos que luego utilizaremos con
frecuencia para algo más. A saber, la unión y la intersección entre conjuntos. Y también
el complemento o negación de un conjunto.
Definición 2: sean dos conjuntos arbitrarios, no vacíos 𝐴 y 𝐵.
- Se llama unión de esos conjuntos (y se denota con el símbolo ∪) a otro conjunto

cuyos elementos son elementos de 𝐴, o son elementos de 𝐵, o son elementos
que pertenecen tanto a 𝐴 como a 𝐵 a la vez.
- Se llama intersección de esos conjuntos (y se denota con el símbolo ∩) a otro
conjunto cuyos elementos pertenecen tanto a 𝐴 como a 𝐵 a la vez.
- Imaginemos que 𝐴 y 𝐵 son subconjuntos de un conjunto universal (al que ahora
denotaremos por 𝐹 ). Se llama complemento o negación del conjunto 𝐴 (y se
denota como 𝐴𝐶 o 𝐴̅ ) al conjunto cuyos elementos pertenecen a 𝐹 y no
pertenecen al conjunto 𝐴.
Así, por ejemplo, si 𝐹 = {1,2,3, 4,5, 6,7}, 𝐴 = {1,2,3}, 𝐵 = {3, 4,5}; entonces:
𝐴 ∪ 𝐵 = {1,2,3,4,5}; 𝐴 ∩ 𝐵 = {3}; 𝐴𝐶 = { 4,5, 6,7}.

Página No. 8
Probabilidad.
¿Puede existir un conjunto que no contenga elementos? Esta interrogante podría resultar
absurda si tenemos en cuenta la propia definición de conjunto; sin embargo, desde una
óptica matemática abstracta, la respuesta a ella es sí. Resulta que, dentro de la Teoría de
Conjuntos, se define y desempeña un rol relevante, el Conjunto Vacío (notación: ∅) que,
por definición, es el conjunto que no contiene elemento alguno.
La abstracción del vacío permite comprender, por ejemplo, que el resultado de la

intersección entre dos conjuntos puede no conducir a nada (obtener un resultado “cero”
si establecemos una analogía con una operación aritmética común).
Sea 𝐷 = {6,7}. Es evidente que 𝐷 también es subconjunto de 𝐹. Además 𝐴 ∩ 𝐷 = ∅ (no

se tienen elementos que estén en 𝐴 y 𝐷)
Definición 3: porque su intersección es vacía (nula, no contienen elementos), los

conjuntos 𝐴 y 𝐷 se llaman mutuamente excluyentes.
Diagramas de Venn
Las tres operaciones descritas arriba admiten una representación gráfica. Esta forma
gráfica de representar operaciones entre conjuntos es útil en algunas situaciones en que
se requiere cuantificar la incertidumbre. Y se denomina diagramación de Venn.
Utilicemos diagramas de Venn para representar los conjuntos y las tres operaciones entre
ellos. Ver las figuras 1 y 2:
FIGURA 1: Conjunto Universo y Subconjuntos FUENTE: AUTOR

Página No. 9
Probabilidad.
a b
c d
FIGURA 2: a) Unión de conjuntos. b) Intersección de conjuntos. c) Complemento de un conjunto. d) Conjuntos

mutuamente excluyentes. FUENTE: AUTOR
Entonces, téngase presente que, cuando se midan variables se obtendrá un conjunto de

datos, y a esos conjuntos es posible aplicar las operaciones anteriores (y otras). La Teoría
de Conjuntos es una rama más de la Matemática. Para mayor profundización en ella, y
desde la perspectiva de este curso, estudiar en el libro de texto (de Oteyza, Lam,
Hernández, Carrillo, 2015, p. 2), el Capítulo 1 “Conjuntos”; los epígrafes desde el 1.1 hasta
el 1.5, a partir de la página 2.
1.2. Espacio muestral y eventos

Ya conocemos que se denomina espacio muestral al conjunto de todos los posibles
resultados de un experimento o fenómeno aleatorio (Definición 1), y a partir de los
problemas ejemplos planteados, es factible apreciar que la naturaleza y diversidad de
estos conjuntos es arbitraria y amplia, respectivamente.
En el ámbito de la Teoría de las Probabilidades, el espacio muestral es el conjunto

UNIVERSO para cierto proceso o fenómeno regido por el azar (porque se consideran
TODOS los resultados, o efectos, o derivaciones posibles de ese hecho). Así, los conjuntos
𝑆𝑡 , 𝑆𝑋 , 𝑆𝐿 , 𝑆𝑉 , 𝑆𝑌 representan el TODO para: el tiempo que demora en descargarse cada
uno de los 100 archivos que nos interesa guardar en nuestro computador (¿todas y cada
una de las personas que navegan por internet desean descargar los mismos archivos, y la
misma cantidad de ellos?); la cantidad (todas) de llamadas telefónicas que recibe José
durante un día (¿José recibe la misma cantidad de llamadas todos los días?); la

Página No. 10
Probabilidad.
regularidad con que falla (o con que no falla) un cierto tipo de circuito eléctrico
conformado por tres componentes (¿todos los circuitos de este tipo específico se
comportan siempre de la misma forma?); los registros de mediciones de voltaje que se
toman en determinada zona de un país, de una ciudad, de un barrio (cada vez que
medimos el voltaje, en un mismo “punto” de una red, durante varios días, a horas
diferentes, ¿siempre, siempre observaremos exactamente los mismos resultados?);
cantidad de patrones que identifica el Robot, de entre 3 y 8, que le provocan realizar un
cambio de dirección (y está claro que unas veces reconocerá 3 , otras 4, etc. Y no
reconoce solo dos, entonces mantiene la dirección “actual”)
A los elementos de estos espacios muestrales, se les denomina eventos. Entonces, la

cantidad de llamadas telefónicas que recibió José ayer (supongamos que hayan sido 10),
es un evento. Y si antier José recibió una única llamada telefónica durante todo el día,
también tenemos un evento. Por tanto, podría escribirse que:
𝑆𝑋 = {⋯ 𝑆𝑎𝑦𝑒𝑟 = {𝑙𝑙𝑎𝑚𝑎𝑑𝑎1 , 𝑙𝑙𝑎𝑚𝑎𝑑𝑎2 , ⋯ 𝑙𝑙𝑎𝑚𝑎𝑑𝑎10 , }, 𝑆𝑎𝑛𝑡𝑖𝑒𝑟 = {𝑙𝑙𝑎𝑚𝑎𝑑𝑎1 }, ⋯ }
El conjunto 𝑆𝑎𝑛𝑡𝑖𝑒𝑟 es un evento simple porque solo contiene un elemento (antier José
solo recibió una llamada a su móvil). El conjunto 𝑆𝑎𝑦𝑒𝑟 no es un evento simple porque
contiene diez elementos. Sí está claro que, tanto 𝑆𝑎𝑦𝑒𝑟 , como 𝑆𝑎𝑛𝑡𝑖𝑒𝑟 son subconjuntos
del conjunto universal 𝑆𝑋 (universal para el problema o la variable que estamos
observando o midiendo en este caso)
¿Y qué tan grande puede ser un espacio muestral? Por la estructura que presenta el
conjunto 𝑆𝑋 , es claro que, si consideramos todos los días de una semana, obtendremos
un espacio muestral más pequeño que si consideramos todos los días del pasado mes al
que pertenece la semana analizada. Entonces, en teoría, pueden existir espacios
muestrales tan grandes, que nos resulte casi imposible poder “contar” a simple vista, la
cantidad de elementos que contiene.
En muchas situaciones de la práctica real, es provechoso auxiliar de las técnicas

matemáticas de conteo para conocer la composición de un conjunto, en este caso, de un
espacio muestral.
1.2.1. Conteo de puntos de la muestra
En este caso, entenderemos por muestra como la cantidad de elementos de un espacio

muestral. Retomemos el ejemplo del Robot.
Ya se conoce que el espacio muestral para esta “situación” (entendiendo por situación al
problema, el fenómeno, el experimento). A saber, 𝑆𝑦 = {𝑦1 = 3, 𝑦2 = 4, 𝑦3 = 5, 𝑦4 =
6, 𝑦5 = 7, 𝑦6 = 8 }. Sin embargo, la materialización de un espacio muestral no es única,
ello va a depender de lo que interese observar y estudiar.
Supongamos que el Robot es capaz de identificar los siguientes patrones que,

combinados (al menos 3 a la vez), implican que el artefacto cambie de sentido en su
movimiento en línea recta: distancia hasta un objeto en su camino, cambio de pendiente
del recorrido, sonidos con intensidades 1, 2, 3; luz con intensidades 1, 2, 3. Para
simplificar, denotemos estos 8 patrones de la forma siguiente: distancia, pendiente,
sonido 1, sonido 2, sonido 3, luz 1, luz 2 y luz 3.

Página No. 11
Probabilidad.
Entonces podría interesar conocer de cuántas maneras diferentes (cuántas son las
combinaciones diferentes de 3 de los 8 patrones, que se pueden formar) podría lograrse
que el Robot cambie el sentido de su movimiento (no se pierda de vista que se hace
referencia a un movimiento en línea recta)
Ante tal interés, para conocer la cantidad de posibilidades o combinaciones de tamaño

tres (es decir, considerando que el sistema de control del Robot necesita identificar 3
patrones), de la totalidad de 8 que es capaz de “identificar”, se forman esos subconjuntos
distintos: {𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑖𝑎, 𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒, 𝑠𝑜𝑛𝑖𝑑𝑜 1} , {𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑖𝑎, 𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒, 𝑠𝑜𝑛𝑖𝑑𝑜 2} ,
{𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑖𝑎, 𝑙𝑢𝑧 1, 𝑠𝑜𝑛𝑖𝑑𝑜 1} ….. Es que, siguiendo tal procedimiento surgen varias
situaciones que pueden conducir a error: es un proceso que puede ser engorroso, se
puede pasar por alto alguna de las combinaciones posibles, etc.
Mas en situaciones como la anterior es factible y necesario recurrir a la ayuda de las

técnicas de conteo (en Matemáticas, Teoría Combinatoria).
En el caso del movimiento del Robot, se trata de conocer cuál es la cantidad de

combinaciones diferentes, de tamaño tres, que se pueden formar con 8 elementos de un
conjunto (el conjunto de patrones que es capaz de “ver” el Robot)
Está demostrado que ese número de combinaciones se puede hallar de forma sencilla
aplicando la siguiente fórmula:
𝑛 𝑛!
( )=
𝑚 𝑚! (𝑛 − 𝑚)!
𝑛: cantidad de elementos del conjunto.
𝑚: cantidad de elementos o tamaño de los subconjuntos que se desea formar.
Recordemos que la operación factorial de un número entero positivo es: 𝑛! =
𝑛 × (𝑛 − 1) × (𝑛 − 2) × ⋯ × 2 × 1
Entonces
8 8! 8! 5! × 6 × 7 × 8
( )= = = = 48
3 3! (8 − 3)! 3! × 5! 3 × 2 × 1 × 5!
En el cálculo anterior se ha utilizado el hecho que 𝑛! = 𝑛 × (𝑛 − 1)!
Así, existen 48 formas o combinaciones diferentes, que incluyen 3 de los 8 patrones. Por
tanto, 48 situaciones o escenarios que provocarían cambio de sentido del movimiento
del Robot. 𝑆𝑦 = {48 𝑝𝑜𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒𝑠}, es decir, este conjunto o espacio muestral, para esta
situación específica, contiene 48 elementos o puntos muestrales. No estamos viendo
todos esos puntos muestrales, pero, muy importante, conocemos su cantidad. Y es
suficiente para muchas aplicaciones, y en particular para lo que interesa más adelante.
De manera general, si se desea conocer todas las posibilidades o combinaciones de

factores que hacen cambiar la dirección del Robot, faltaría por considerar las opciones

Página No. 12
Probabilidad.
que este “vea” 4, 5, 6, 7 o los 8 patrones a la vez. Evidentemente, el tamaño del espacio
muestral se incrementa considerablemente; pero igual, es posible conocerlo.
Observación: el espacio muestral de algunos fenómenos o procesos aleatorios puede ser

un conjunto que contenga infinitos elementos.
Existen varias formas de realizar combinaciones con los elementos de un conjunto. Para
profundizar sobre ellas, estudiar en el libro de texto (de Oteyza, Lam, Hernández, Carrillo,
2015, p. 48), el Capítulo 3 “Cálculo Combinatorio”; los epígrafes desde el 3.1 hasta el 3.4,
a partir de la página 48.
1.3. Probabilidad de ocurrencia de un evento aleatorio

¿Qué es la probabilidad?
En la presente sección empezaremos a responder esta interrogante.
Retomemos el ejemplo de estudio a): Los tiempos de descargas de 100 archivos

diferentes a nuestro computador. La variable la definiríamos como t: tiempo de descarga
de un archivo, medido en segundos. Los valores de t se pueden agrupar en el conjunto
𝑆𝑡 = {𝑡1 , 𝑡2 , ⋯ , 𝑡100 }.
Supongamos que, entre los 100 archivos descargados (para contextualizar el problema,
imaginemos que estudiamos matemáticas y todos los archivos están relacionados con la
integración definida; es decir, para estudiar nos hemos descargado libros, artículos,
videos de YouTube; relacionados con el cálculo integral definido). Supongamos también
que estas descargas las realizamos durante 5 días sucesivos; mientras nos preparábamos
para un examen global.
Si transcurrido cierto tiempo, enfrentamos una situación similar, pero esta vez
corresponde preparar un examen sobre métodos de solución de sistemas de ecuaciones
en general, entonces, para una mejor organización del estudio, podríamos decidir buscar
y descargar primero videos, porque tenemos la percepción o la idea que la descarga de
este tipo de materiales demora menos, y tenemos curiosidad por ver cuanto antes algo
relacionado con el tema. Igual, todos los videos no son de la misma extensión. Podríamos
preguntarnos cuál es la posibilidad (probabilidad) de que seleccionemos un determinado
video de Internet, y la descarga de este dure menos de 10 segundos.
Probabilidad es la forma de cuantificar la posibilidad de que algo ocurra (un proceso, un

suceso, un fenómeno natural o de otro tipo). Es decir, ese “algo” debe tener carácter
aleatorio, probabilístico. Por ejemplo, de la materia de Química del colegio conocemos
que si hacemos reaccionar (si “sumamos”) dos moléculas de Hidrógeno con una molécula
de Oxígeno, en condiciones normales de presión y temperatura; el resultado será agua.
Para este experimento se conoce, antes de llevarlo a cabo, el resultado final. Tales
experimentos se denominan determinísticos (sabemos con antelación lo que va a ocurrir)
En el caso de la descarga de un archivo de Internet, el proceso no puede ser considerado

determinístico en cuanto al tiempo que va a demorar esa descarga, porque depende de
muchos factores, como no es difícil de imaginar. Es decir, el mismo archivo va a tener
tiempos diferentes de descarga porque ese tiempo va a depender de las prestaciones del

Página No. 13
Probabilidad.
ordenador, del tráfico que haya en la red en cada momento, de la calidad de la conexión,
entre otros aspectos. Este proceso es estocástico, probabilístico.
De forma general, sea S el espacio muestral de cierto suceso, fenómeno o experimento

aleatorio. Y sea A un evento de S (en términos matemáticos: 𝐴 ⊂ 𝑆. Esto significa que A
es un subconjunto de S; en otras palabras, que todos los elementos que pertenecen al
conjunto A, también pertenecen al conjunto S. Pero todos los elementos del conjunto S
no pertenecen al conjunto A)
Definición 4: la probabilidad de que el evento aleatorio A ocurra (notación 𝑃(𝐴)) es:

𝑁(𝐴)
𝑃(𝐴) = ;
𝑁(𝑆)
𝑁(𝐴): cantidad de elementos del subconjunto A (es decir, cantidad de realizaciones del
proceso, ocurrencias del fenómeno o resultados del experimento, que son favorables al
evento A)
𝑁(𝑆): cantidad de elementos del conjunto Universo (es decir, cantidad de elementos del
espacio muestral, cantidad de resultados posibles del proceso, fenómeno o del
experimento aleatorio)
Esta definición, conocida como clásica, tiene una restricción. No es posible aplicarla si el
espacio muestral es infinito, porque no habría cómo contar sus elementos.
Para el ejemplo de la descarga de archivos, podría considerarse que el espacio muestral

es infinito porque, aunque en la realidad todos los archivos que están “colgados” en la
nube es una cantidad finita, es número bien grande y medio complicado conocerlo con
exactitud.
Para evadir esta dificultad es posible aplicar la definición frecuencial de probabilidad.
Definición 5: la probabilidad de que el evento aleatorio A ocurra (notación 𝑃(𝐴)) es:

𝑓𝑟 (𝐴)
𝑃(𝐴) = ;
𝑛
𝑓𝑟 (𝐴): cantidad de veces que el evento A se “presenta” (ocurre, sucede).
𝑛: cantidad de veces que se “realiza o repite” el proceso o experimento.
Supongamos que, de los 100 archivos descargados de Internet la vez anterior, 28, entre
los que están todos los videos bajados, tuvieron un tiempo de descarga menor a 10
segundos. Entonces, para esta vez, considerando que estamos utilizando el mismo
computador, y con las mismas condiciones de conectividad, podríamos esperar que el
primer video que encontremos sobre el tema buscado demore menos de 10 s en
descargarse con una posibilidad (probabilidad) que se cuantifica en un 0.28 (o 28%). ¿Por
qué?
Teniendo en cuenta que el espacio muestral de este suceso, en la vez anterior, es 𝑆𝑡 =

{𝑡1 , 𝑡2 , ⋯ , 𝑡100 }; y que las condiciones del experimento o proceso no han cambiado, al
menos de forma “visible”, entonces podemos proceder como sigue:

Página No. 14
Probabilidad.
Sea C el evento que definimos como cantidad de archivos que se descargan en un tiempo
inferior a 10 s. Como fueron realizadas, en total, 100 descargas (el proceso se repitió 100
veces), entonces:
𝐶 = {𝑡1 , 𝑡2 , ⋯ , 𝑡28 }
𝑓𝑟 (𝐶) 28
𝑃(𝐶) = = = 0.28 = 28%
𝑛 100
La probabilidad puede ser expresada en términos porcentuales. Ello, para el ejemplo
anterior, significa que, si se mantienen invariables las condiciones de ejecución (la
descarga de archivos), entonces es de esperar que, de la totalidad de archivos que se
descarguen, el 28% de ellos va a demorar un tiempo inferior a los 10 s para completarse
esa descarga.
Además, como se aprecia en las definiciones 4 y 5, siempre será un número que está en
el intervalo [0,1]. Este detalle permite también pensar en probabilidad como si se tratara
de una función o correspondencia entre dos conjuntos; el espacio muestral del
experimento y el intervalo real [0,1].
1.3.1. Reglas aditivas.
Imaginemos en este momento que necesitamos estimar o cuantificar la posibilidad de

que, al descargar un archivo de Internet, el proceso demore menos de 10 s o menos de
5 s. En término de conjuntos y las operaciones que podemos realizar con ellos, esto
significaría que nos interesa hallar la probabilidad de que ocurra uno de los siguientes
resultados: o que el archivo se descargue en menos de 10 s, o que el archivo se descargue
en monos de 5 s. Pero esto equivale a la unión de dos eventos o conjuntos:
𝐶 = {𝑡1 , 𝑡2 , ⋯ , 𝑡28 }
𝐷: cantidad de archivos que se descargan en menos de 5 s (supongamos que fueron 11

los que cumplieron con esta condición)
𝐷 = {𝑡1 , 𝑡2 , ⋯ , 𝑡11 }
Habría que aplicar una propiedad de la probabilidad que pertenece a un tipo conocido
como reglas aditivas, para expresar y hallar la probabilidad deseada:
𝑃(𝐶 ∪ 𝐷) =?
Y en este caso, cobra valor la clasificación de eventos como excluyentes o simultáneos.
Hay que recordar que dos eventos son mutuamente excluyentes si, 𝐴 ∩ 𝐷 = ∅; mientras
que se denominan simultáneos, si 𝐴 ∩ 𝐷 ≠ ∅.
Para ampliar los conocimientos sobre las definiciones de probabilidad, cómo se utilizan,
cómo se caracteriza esta función a la que se ha hecho alusión, y qué otras propiedades
de la definición de probabilidad se verifican (otras reglas aditivas), estudiar en el libro de
texto (de Oteyza, Lam, Hernández, Carrillo, 2015, p. 78), el Capítulo 4 “Probabilidad
simple y compuesta”; los epígrafes desde el 4.1 hasta el 4.3, a partir de la página 78.

Página No. 15
Probabilidad.
1.4. Probabilidad condicional

La definición de probabilidad condicional, como lo dice su nombre, se diferencia de la
definición (y la aplicación) de la definición no condicional, solo por la presencia de una
condición. Continuando con el ejemplo de la descarga de archivos, supongamos que se
desea conocer cuál es la probabilidad de que la descarga de un archivo en menos de 5 s,
si antes se descargó otro, y demoró un tiempo menor a 10 s.
Así, queremos conocer la probabilidad de que ocurra el suceso D bajo la condición que
ya ocurrió el evento C.
Definición 6: se denomina probabilidad condicional de que ocurra un evento B, dado otro

evento A (que ya ocurrió), a la probabilidad de que ocurra la intersección de ambos
eventos, dividida para entre la probabilidad del evento que ya ocurrió. Esta probabilidad
se denota y se calcula según la siguiente expresión:
𝑃(𝐵 ∩ 𝐴)
𝑃(𝐵|𝐴) =
𝑃(𝐴)
Desde luego, debe exigirse que 𝑃(𝐴) ≠ 0.
1.4.1. Regla multiplicativa.
En la fórmula de la probabilidad condicional, en el numerador, se aprecia la presencia de

la intersección de dos conjuntos (eventos). Recordemos que la intersección de conjuntos
es también un conjunto, al que pertenecen los elementos que están a la vez en las dos
colecciones iniciales. Se trata de cuantificar la probabilidad de que esos dos eventos
ocurran al mismo tiempo.
¿Y cómo calcular esa probabilidad? Pensemos esta vez en el ejemplo relacionado con las
llamadas telefónicas:
Cantidad de llamadas telefónicas que recibe José a su celular durante un día. La variable
sería X: número de llamadas que recibe José a su celular en un día determinado (de la
semana, del mes, del año): 𝑆𝑋 = {𝑥1 , 𝑥2 , ⋯ , 𝑥𝑛 }.
Pensemos que queremos saber la probabilidad de que José reciba mañana una llamada
telefónica, si en el día de ayer recibió 5 llamadas.
Si denotamos los eventos 𝐿𝐿𝑎𝑦𝑒𝑟 : cantidad de llamadas que José recibió ayer; 𝐿𝐿𝑚𝑎ñ𝑎𝑛𝑎 :
cantidad de llamadas que José recibirá mañana. Entonces el evento 𝐿𝐿𝑎𝑦𝑒𝑟 ya ocurrió,
además 𝐿𝐿𝑎𝑦𝑒𝑟 = {5 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 (𝑙𝑎𝑠 5 𝑙𝑙𝑎𝑚𝑎𝑑𝑎𝑠 𝑟𝑒𝑐𝑖𝑏𝑖𝑑𝑎𝑠 𝑝𝑜𝑟 𝐽𝑜𝑠é 𝑎𝑦𝑒𝑟)}.
El evento 𝐿𝐿𝑚𝑎ñ𝑎𝑛𝑎 no ha ocurrido, así que tiene sentido intentar cuantificar la

posibilidad de que ocurra. Pero está claro que 𝐿𝐿𝑎𝑦𝑒𝑟 ∩ 𝐿𝐿𝑚𝑎ñ𝑎𝑛𝑎 = ∅, por una simple
razón temporal. No es posible que las llamadas de ayer José las reciba al mismo tiempo
que las de mañana. Los eventos 𝐿𝐿𝑎𝑦𝑒𝑟 , 𝐿𝐿𝑚𝑎ñ𝑎𝑛𝑎 son mutuamente excluyentes. Y como
tal, el evento 𝐿𝐿𝑎𝑦𝑒𝑟 ∩ 𝐿𝐿𝑚𝑎ñ𝑎𝑛𝑎 es un evento imposible (no puede ocurrir)

Página No. 16
Probabilidad.
Pero ¿cómo calculamos la probabilidad de ocurrencia de la intersección de dos eventos?
En tal situación se aplican las denominadas reglas multiplicativas. Y para conocer sobre
ellas estudia, en el libro de texto (Obando López, J., Arango Londoño, N., 2019, p. 9), el
Capítulo 1 “Probabilidades”; los epígrafes desde el 1.1 hasta el 1.3, a partir de la página
9.
1.4.2. Teorema de Bayes.
En el presente apartado se aborda una generalización de la definición de probabilidad

condicional.
Todo espacio muestral (conjunto) se puede representar como la unión disjunta de

eventos (subconjuntos). Y esto es lo que en Teoría de Conjuntos lleva el nombre de
partición de un conjunto (del espacio muestral). La siguiente figura brinda claridad en
cuanto a esta idea:
FIGURA 3: Espacio Muestral S dividido en varios subconjuntos (𝐴1 , ⋯ 𝐴9 ) FUENTE: AUTOR
Desde el punto de vista matemático de los conjuntos, en la figura 3 se aprecia que:
𝑆 = 𝐴1 ∪ 𝐴2 ∪ ⋯ ∪ 𝐴9 .
Además, 𝐴i ∩ 𝐴j = ∅, ∀ 𝑖 ≠ 𝑗
Es decir, la unión de todos los eventos 𝐴i da como resultado el espacio muestral S; y la

intersección, dos a dos, de todos los eventos 𝐴i es vacía. Esta definición de partición de
un conjunto puede ser extendida a cualquier cantidad n de subconjuntos o eventos de
un conjunto o espacio muestral.
Dado cualquier otro evento B, subconjunto de S; pero que no forma parte de la partición
de S, es posible hallar la probabilidad de que este ocurra con la ayuda de la fórmula de la
Probabilidad Total. Sea B el evento que se representa en la figura 4.
Entonces, según la fórmula de la Probabilidad Total:
𝑃(𝐵) = 𝑃(𝐴1 )𝑃(𝐵|𝐴1 ) + 𝑃(𝐴2 )𝑃(𝐵|𝐴2 ) + ⋯ + 𝑃(𝐴9 )𝑃(𝐵|𝐴9 )
Si la partición del espacio muestral está formada por n eventos, entonces la fórmula
anterior se generaliza a:

Página No. 17
Probabilidad.
𝑃(𝐵) = 𝑃(𝐴1 )𝑃(𝐵|𝐴1 ) + 𝑃(𝐴2 )𝑃(𝐵|𝐴2 ) + ⋯ + 𝑃(𝐴𝑛 )𝑃(𝐵|𝐴𝑛 )
FIGURA 4: Evento B en relación con los subconjuntos de la partición de S (𝐴1 , ⋯ 𝐴9 ) FUENTE: AUTOR
Asimismo, podría interesar conocer cuál es la probabilidad de ocurrencia de uno de los

eventos 𝐴i de la partición, dado que ya ocurrió el evento B.
𝑃(𝐴𝑖 |𝐵) =?
Y ello es posible con la aplicación de la Regla o Teorema de Bayes.
Para conocer más sobre la Probabilidad Condicional y el Teorema de Bayes, estudiar, en

el libro de texto (Islas Salomón, C. A., Colín Uribe, M. P., Morales Téllez, F., 2018, p. 77),
el Capítulo 2 “Probabilidad”; los epígrafes desde el 2.9 hasta el 2.12, a partir de la página
77.
También puede ser consultado el texto (Islas Salomón, C. A., Colín Uribe, M. P., Morales
Téllez, F., 2018, p. 57) para reforzar todas las definiciones y propiedades del cálculo de
probabilidades, estudiando toda la Unidad II, a partir de la página 57.
Bibliografía
de Oteyza, E., Lam, E., Hernández, C., Carrillo, A. (2015). Probabilidad y estadística. Pearson
Educación, México.
https://bibliotecas.ups.edu.ec:3488/es/ereader/bibliotecaups/38015
Obando López, J., Arango Londoño, N. (2019). Probabilidad y Estadística. Fondo Editorial EIA.
Islas-Salomón, C. A., Colín Uribe, M. P., Morales Téllez, F. (2018). Probabilidad y Estadística.
Grupo Editorial Éxodo, México.

Página No. 18
Probabilidad.

Página No. 19
P r o b ÉTICA
abilidad y
Estadística

Introducción a la Estadística
TABLA DE CONTENIDOS
Esquema ........................................................................................................................................ 3
Breve Descripción del Capítulo ...................................................................................................... 4
Objetivos........................................................................................................................................ 4
Introducción a la Estadística .......................................................................................................... 5
2.1. Introducción. ................................................................................................................. 5
2.1.1. Datos discretos y continuos ...................................... ¡Error! Marcador no definido.
2.2. Características numéricas .............................................................................................. 7
2.2.1. Medidas de posición .............................................................................................. 8
2.2.2. Medidas de variabilidad ......................................................................................... 9
2.3. Distribución empírica ................................................................................................... 11
Bibliografía ................................................................................................................................. 17

Página No. 2
Esquema
Datos discretos
Introducción
Datos continuos
Introducción a la Estadística Medidas de posición
Características numéricas
Medidas de variabilidad
Distribución empírica

Página No. 3
¿Qué es la Estadística?
La anterior interrogante resultará familiar a todos. En cada país, por lo general, existe un
instituto de estadísticas. Y allí se conserva un gran volumen de información relacionada
con las actividades económicas, sociales, y de otra índole; que describen cómo es el país
y cuál es su desenvolvimiento y actividad, en todas las esferas humanas.
Según la Wikipedia (https://es.wikipedia.org/wiki/Estad%C3%ADstica), “la Estadística es
la rama de las matemáticas que estudia la variabilidad, colección, organización, análisis,
interpretación, y presentación de los datos, así como el proceso aleatorio que los genera
siguiendo las leyes de la Probabilidad”.
Cuando medimos, observamos o registramos hechos, fenómenos, sucesos,
experimentos; la información que se obtiene es guardada en variables. Es decir,
generamos datos. Y si contamos con datos, entonces se justifica la aplicación de las
herramientas estadísticas para poder extraer conclusiones de esos datos y,
posteriormente, tomar decisiones.
Objetivos
• Calcular e interpretar las medidas de posición y de dispersión.
• Establecer la diferencia entre datos discretos y continuos.
• Organizar y representar datos para obtener más información de ellos.
• Caracterizar la tendencia de un conjunto de datos.

Página No. 4
2.1. Introducción.
En los cinco ejemplos o casos de estudio que fueron abordados en la Unidad 1, es
evidente que se genera información: registros de tiempos de descarga de archivos de
Internet; cantidad de llamadas telefónicas; frecuencias (instantes de tiempo) de fallo de
un circuito eléctrico conformado por tres elementos; mediciones de voltajes; cantidad de
patrones que “reconoce” cierto Robot.
Toda esta información se guarda en cierto objeto, que denominamos comúnmente como
variable: t: tiempo de descarga de un archivo de Internet; X: número de llamadas que se
reciben en un día determinado; 𝑳𝑳𝒊 : instante en que falla el componente i del circuito;
𝑖 = 1,2,3; V: mediciones de Voltaje, en Voltios; Y: cantidad de patrones de cambio de
sentido del movimiento que identifica el Robot.
Las variables anteriores, además de ser estocásticas o probabilísticas por la incertidumbre

que rodea la medición de ellas, también son variables numéricas. Es decir, la información
que “guardan” es en forma de número (real en general). Este tipo de variables constituye
el principal objeto de estudio de esta materia. Pero existen variables que guardan
información de otra manera (no en forma de número). Por ejemplo, como todos los
estudiantes de la universidad no tienen exactamente el mismo color de ojos, porque
existen diferentes tonalidades para un mismo color, además de diferentes colores;
entonces podría definirse la siguiente variable. J: color de los ojos de un estudiante de la
UPS. Algunos de los “valores” (en este caso, atributos o cualidades) que puede tomar esta
variable, escritos en forma de conjunto, son:
𝐽 = {𝐶𝑎𝑓é, 𝑉𝑒𝑟𝑑𝑒, 𝑉𝑒𝑟𝑑𝑒 𝑐𝑎𝑙𝑟𝑜, 𝐴𝑧ú𝑙 𝑡𝑢𝑟𝑞𝑢𝑒𝑠𝑎, 𝑁𝑒𝑔𝑟𝑜 𝑜𝑠𝑐𝑢𝑟𝑜, 𝑁𝑒𝑔𝑟𝑜 𝑐𝑙𝑎𝑟𝑜, ⋯ }
La variable J es cualitativa (no numérica) o categórica.
Existen varias formas de clasificar una variable estocástica o probabilística. Pondremos

especial atención a la naturaleza matemática de la variable. Y en tal sentido, estas se
clasifican en discretas o continuas.
2.1.1. Datos discretos y datos continuos
Definición 1: una variable se llama continua si los valores que ella puede tomar completan
o llenan un intervalo real. En caso contrario, la variable se denomina discreta.
Los datos que correspondan a una variable continua serán datos continuos; mientras que
los datos que correspondan a una variable discreta serán discretos.
La definición 1 encierra una sutileza muy importante. En ocasiones se comete el error de

prestar atención a los números del conjunto de valores o mediciones de una determinada
variable (que carecen de continuidad) y se clasifica de forma errada.

Página No. 5
Para no cometer tal error se debe poner atención a la naturaleza de la variable, es decir,
qué tipo de información estamos guardando en ella: física, química, temporal, de conteo.
En la tabla 1, a seguir, se presenta la clasificación de las variables (datos) definidas para

guardar la información o medición en los cinco ejemplos de la sección 2.1.
Variable Continua Discreta

Sí. El tiempo nunca para,
t -
nunca deja de transcurrir
Sí. Número de llamadas.
Entre la llamada primera y la
llamada segunda hay un
X -
“espacio” vacío. De lo
contrario la llamada dos no
sería la segunda.
Sí. Instante de fallo (es
𝑳𝒊 justamente un instante de -
tiempo)
Sí. Toda magnitud física es
𝑽 -
continua.
Sí. Cantidad de patrones, los
𝒀 -
contamos.
TABLA 1: Clasificación de datos (variables) en continuos o discretos FUENTE: AUTOR
Para tratar de tener mejor claridad en cuanto a la diferenciación entre datos discretos y
continuos, analicemos la siguiente variable: E- edad de una persona. Conocemos, casi
seguro, la edad de nuestros padres, hermanos, familiares cercanos en general. Pero si se
va a realizar una investigación, por ejemplo, en el ámbito de la salud; seguramente que
no conoceremos con exactitud las edades de las personas seleccionadas dentro de la
muestra para llevar adelante la investigación. Por tal motivo E es una variable, y en ella
vamos a guardar información que, hasta tanto no sea aclarada, presenta incertidumbre
(no conoceremos la edad concreta de una persona hasta tanto no le consultemos al
respecto). Ahora bien, cuando nos preguntan nuestra edad en una consulta médica, o en
cualquier otro ámbito, la respuesta siempre es una cantidad de años representada por
un número entero (años cumplidos, ya vividos por la persona): 17, 80, 55, 32, etc. Desde
el punto de vista práctico, la variable E se asume como discreta.
Sin embargo, el tiempo de vida de una persona empieza con el nacimiento y para
(termina) cuando esa persona muere. Y está muy claro, ya hemos advertido que el tiempo
no deja de transcurrir, de avanzar o pasar. Entonces, por su naturaleza matemática, E es
una variable continua.
Desde el punto de vista de nuestro trabajo en la materia Probabilidad y Estadística,

insistimos en que no podemos clasificar una variable, en cuanto a su naturaleza
matemática, solo observando la clase de número (entero, real, racional, etc.) que
representa los valores que ella puede tomar.
Si una determinada variable estocástica puede tomar TODOS los valores de un intervalo,
entonces es continua. En caso contrario, discreta.

Página No. 6
Imaginemos que, en cuanto a la variable V: mediciones de Voltaje, en Voltios, en cierto
barrio de cierta ciudad; los técnicos de la Empresa Eléctrica encuentran que la menor
medición registrada de la variable V en esa área fue de 108.56 Voltios. En tanto que el
mayor registrado fue de 112.31 Voltios. Entonces, la variable V cambia en el intervalo
[108.56, 112.31] en ese barrio. Pero ¿podría medirse un voltaje de 110 Voltios? Sí.
¿Podría medirse un voltaje de 108.5600000001 Voltios? Desde luego que sí. ¿Podría
medirse un valor cualquiera de voltaje entre los valores extremos del intervalo? Por
supuesto. La variable es continua.
Por otro lado, en cuanto a la variable Y: cantidad de patrones de cambio de sentido del
movimiento que identifica el Robot, es claro que si el Robot identificó 3 patrones de
cambio y modificó el sentido de su desplazamiento, entonces fueron 3 y no 4. Y entre el
valor 3 y el valor 4 no cabe ningún otro número que represente otra cantidad de patrones
de cambio. Es decir, entre el valor 3 y el valor 4, la variable Y no puede tomar ningún otro
valor. Entre esos valores existe un espacio vacío, un hueco. Ella es discreta, pues no puede
llenar todo el intervalo [3, 8] (recordemos que la cantidad mínima de patrones que
puede identificar el Robot es 3; mientras que la cantidad máxima es 8)
2.2. Características numéricas

Trabajaremos con la variable V: mediciones de Voltaje, en Voltios, en cierto barrio de
cierta ciudad. Supongamos que los técnicos, en sus mediciones de voltajes en diferentes
puntos de la zona, en horas y días diferentes, obtienen el siguiente conjunto de datos:
112.29 108.6 109 110 110 112 112.1 109

109.2 112.01 108.8 110 110 111.98 108.99 108.57
112 110 109 109 110 112.3 109 108.56
111 110 110 111 109 112.301 112 112.31
112 109.5 112 111.76 112 109 110 110
Téngase presente que se ha realizado un experimento aleatorio o estocástico, porque

ninguno de los técnicos, antes de realizar la medición de voltaje, conocía qué valores o
registros iba a obtener. Además, en alguno de los momentos de medición puede que el
técnico no haya visto el valor correcto; es decir, que en vez de registrar o anotar 112.05,
haya escrito 112.5. O también podría ocurrir que el voltímetro hubiese perdido su
calibración en algún momento. Todos estos factores son fuente de incertidumbre, error;
le otorgan el carácter aleatorio o probabilístico a la variable V.
Bien, se cuenta con un conjunto de datos que representan valores de voltaje en esa zona.
Pero qué nos dicen esos datos continuos. ¿Es posible tomar alguna decisión a partir de
esta información? Poco factible.
De momento, lo que se podría afirmar es que, por ejemplo, en uno de los puntos de
medición del barrio, en cierto día y a determinada hora, se registró un voltaje de 112.301
Voltios. Y que otra medición arrojó un valor de 112 Voltios; y así 40 veces, porque el
conjunto de datos contiene 40 elementos (40 mediciones de voltaje).
Ah, también podríamos decir que varios valores de voltaje se repiten varias veces.

Página No. 7
Pero todo esto no basta para poder llegar a una conclusión sólida sobre, por ejemplo, si
el voltaje en la zona alcanza el valor mínimo estipulado por las características de la red
eléctrica y sus prestaciones, declaradas por la Empresa.
¿Cómo sería posible extraer mayor cantidad de información de un conjunto de datos?
La respuesta a la anterior interrogante la brinda las denominadas características

numéricas de una variable estocástica, y una forma de organización de los datos del
conjunto, denominada distribución empírica.
Las características numéricas de una variable probabilística se agrupan en dos tipos:

medidas de posición y medidas de variabilidad.
2.2.1. Medidas de posición
Las principales medidas de posición de una variable son la media, la mediana, la moda.
Sea que tenemos un conjunto de datos o mediciones de cierta variable Z.
𝑍 = {𝑧1 , 𝑧2 , ⋯ , 𝑧𝑛 }
Definición 2: sea una variable probabilística Z.
- Se llama media, promedio, valor esperado o esperanza matemática de Z al

número que se denota como 𝑍̅, y calcula según la fórmula:
𝑛
1
𝑍̅ = ∑ 𝑧𝑖
𝑛
𝑖=1
La Media de una variable estadística es un valor que tiende a ocupar o acercarse
al punto medio del intervalo de definición de la variable.
- Se llama Mediana, y lo denotaremos como 𝑍𝑚𝑒𝑑 , al valor que se calcula, después
de haber organizado el conjunto de datos en orden creciente o decreciente,
según:
𝑍𝑛+1 𝑠𝑖 𝑛 𝑒𝑠 𝑖𝑚𝑝𝑎𝑟
2
𝑍𝑚𝑒𝑑 = {1
(𝑍𝑛 + 𝑍𝑛+1 ) 𝑠𝑖 𝑛 𝑒𝑠 𝑝𝑎𝑟
2 2 2
- Se llama Moda al valor de la variable que más se repite dentro del conjunto. Lo
denotaremos 𝑍𝑚𝑜𝑑𝑎𝑙 . Una variable puede tener más de una moda.
Ejemplo 1: Calcular la media, mediana y moda de la variable V.

𝑛 40
1 1 1
𝑉̅ = ∑ 𝑣𝑖 = ∑ 𝑣𝑖 = (112.29 + 108.6 + ⋯ + 110) ≈ 110.407
𝑛 40 40
𝑖=1 𝑖=1
Para calcular la mediana de V, al organizar los datos en forma creciente, se
obtiene:

Página No. 8
108.56 108.57 108.60 108.80 108.99 109.00 109.00
109.00 109.00 109.00 109.00 109.00 109.20 109.50
110.00 110.00 110.00 110.00 110.00 110.00 110.00
110.00 110.00 110.00 111.00 111.00 111.76 111.98
112.00 112.00 112.00 112.00 112.00 112.00 112.01
112.10 112.29 112.30 112.30 112.31
Como 𝑛 = 40 , número par, entonces tenemos que tomar los valores de la

𝑛 40 𝑛
anterior sucesión que están en las posiciones 2 = 2 = 20; 2 + 1 = 21 . Esas
posiciones se identifican en color rojo en la sucesión creciente de datos:
1 1 1
𝑉𝑚𝑒𝑑 = (𝑉𝑛 + 𝑉𝑛+1 ) = (𝑉20 + 𝑉21 ) = (110 + 110) = 110
2 2 2 2 2
Finalmente, como se observa en los propios datos ordenados, en valor que más se repite
es 110 que aparece 10 veces, así 𝑉𝑚𝑜𝑑𝑎𝑙 = 110.
Conocemos que los valores medidos de voltajes pertenecen al intervalo

[108.56, 112.31], cuyo punto medio es 110.435. En la figura 1 es posible apreciar que
̅, 𝑉𝑚𝑒𝑑 , 𝑉𝑚𝑜𝑑𝑎𝑙 son todos cercanos al punto medio del intervalo. Por tal
los valores de 𝑉
razón estas características numéricas se denominan medidas de posición o de tendencia
central.
FIGURA 1: COLOCACIÓN DE LAS MEDIDAS DE POSICIÓN SOBRE EL INTERVALO DE DEFINICIÓN O VARIACIÓN DE LA

VARIABLE V. FUENTE: AUTOR
2.2.2. Medidas de dispersión o variabilidad
Pondremos atención sobre las dos principales medidas de dispersión o variabilidad, que
son la varianza y la desviación estándar o típica.
Definición 3: sea una variable probabilística Z.
- Se llama varianza de Z al número que se denota como 𝑆 2 y que se calcula según

la expresión:
𝑛
1
𝑆𝑍2 = ∑(𝑧𝑖 − 𝑍̅ )2
𝑛−1
𝑖=1

Página No. 9
- Se llama desviación estándar o típica de Z, y se denota como 𝑆𝑍 , al número que

es la raíz cuadrada positiva de la varianza de Z:
𝑆𝑍 = √𝑆𝑍2
Ejemplo 2: Calcular desviación estándar de la variable V.
Para calcular esta característica numérica primero se necesita hallar la varianza de la

variable. Y para hallar la varianza, antes hay que calcular la media de ella; algo que ya
tenemos del ejemplo 1: 𝑉 ̅ = 110.407. Entonces,
𝑛 40
1 1
𝑆𝑉2 = ̅) 2 =
∑(𝑉𝑖 − 𝑉 ∑(𝑉𝑖 − 110.407)2 =
𝑛−1 39
𝑖=1 𝑖=1
1
= [(112.29 − 110.407)2 + (108.6 − 110.407)2 + ⋯ + (110 − 110.407)2 ]
39
≈ 1.811
𝑆𝑉 = √𝑆𝑉2 = √1.811 ≈ 1.346
¿Qué representan los valores encontrados?
En el caso de la desviación estándar, nos explica en qué medida el conjunto de

observaciones o mediciones de la variable se separa o desvía (a la derecha o a la
izquierda, porque estamos sobre la recta, en una dimensión) respecto del valor medio o
promedio de esta. Pero antes de llegar a obtenerlo, esas diferencias o desviaciones
respecto al promedio de la variable, se calculan elevadas al cuadrado (y después
tomamos la raíz cuadrada de ese número) para evitar así posibles cancelaciones y con
ello la pérdida de información.
Imaginemos que, dentro del conjunto de datos de la variable voltaje, tenemos las
observaciones 109.207 y 111.607. Estas dos mediciones están a la misma distancia
respecto del promedio o media de la variable V. Y como estamos considerando las
distancias desde esos puntos sobre la recta real que representa las mediciones de
̅, entonces tendríamos
voltajes; y un valor está a la izquierda y el otra a la derecha de 𝑉
que tomarlos con signos contrarios en esa suma general en que estaríamos considerando
esas “separaciones” o errores respecto de la media. Y es aquí donde ocurriría la
cancelación de esos dos números. En otras palabras, estaríamos dejando de considerar
un error, y por tanto, perdiendo información relevante para lo que se analiza.
Es así como, considerando esas distancias al cuadrado, evitamos posibles cancelaciones

a pesar de que se tengan pares de mediciones a la misma distancia y a lados opuestos del
punto que representa la madia de la variable.
¿Qué ventajas hemos obtenido con el cálculo de las características numéricas de la

variable V?

Página No. 10
Pues claramente ahora conocemos que el voltaje promedio en la zona o barrio en el que
se hace el estudio es de aproximadamente 110.407 Voltios. Y también conocemos que
las oscilaciones del voltaje en la zona se desvían en un valor aproximado de 1.346 Voltios
(a la izquierda y a la derecha del valor medio). Es decir, que con esta nueva información
extraída de los datos, la directiva de la Empresa Eléctrica ha podido conocer el valor
promedio aproximado con que se manifiesta esa variable (el voltaje) y que por lo general,
el mismo no baja de los 109.061, ni supera los 111.753 Voltios.
En resumen, con esta nueva información es posible estimar si el funcionamiento y

algunos parámetros de la red eléctrica en ese barrio, son los correctos. Y a partir de allí,
tomar decisiones.
¿Y qué tal si esto no fuese suficiente para la toma de decisiones? ¿Habrá más información
oculta en el “interior” de ese conjunto de datos que son mediciones de voltaje?
2.3. Distribución empírica

El cálculo de las características numéricas de una variable probabilística no depende de
su naturaleza matemática, es decir, utilizamos las mismas fórmulas independientemente
de si el conjunto de datos que deseamos analizar corresponde a una variable discreta o
continua.
La respuesta a la interrogante con que hemos terminado la sección 2.2 es sí. Para conocer
más sobre la variable en análisis, basta construir una tabla de frecuencias y unos gráficos
asociados a ella. Y 𝑡𝑎𝑏𝑙𝑎 + 𝑔𝑟á𝑓𝑖𝑐𝑜𝑠 conforman lo que se conoce como distribución
empírica de la variable.
Construyamos la tabla de frecuencias para la variable V.
La tabla de frecuencias, como lo indica su nombre, es una tabla cuyas filas hacen
referencia a cierta caracterización de un subintervalo de variación de la variable en
estudio. Es decir, el intervalo de variación de la variable V es [108.56, 112.31]. Este
intervalo será dividido en subintervalos que llamaremos clases. Las clases ocuparán la
primera columna de la tabla.
Existen varias formas de determinar la cantidad de clases que conforman una tabla de
frecuencias. En el presente curso utilizaremos la Regla de Sturges para determinar esa
cantidad, que denotaremos como K:
𝐾 = 1 + 3.322 𝑙𝑜𝑔10 (𝑛)

n: tamaño de la muestra, es decir, cantidad de datos del conjunto de mediciones de la
variable (que no tiene que ser necesariamente el espacio muestral. Es claro que el espacio
muestral que corresponde a la variable V es infinito)
Para conocer de dónde y cómo se deriva la fórmula anterior, visitar por ejemplo el sitio
web https://www.lifeder.com/regla-sturges/
Para V:

Página No. 11
𝐾 = 1 + 3.322 𝑙𝑜𝑔10 (𝑛) = 1 + 3.322 𝑙𝑜𝑔10 (40) ≈ 6.32
Significa que tendremos una tabla de frecuencias con 7 intervalos o clases (en el caso de
este valor, es aconsejable aproximar por exceso. Por ese motivo el 6.37 lo hemos
redondeado a 7)
¿De qué tamaño será cada uno de los 7 intervalos o clases de la tabla de frecuencias?
Para responder la interrogante anterior necesitamos hallar el recorrido de la variable, que

denotaremos como R, y no es más que la diferencia entre el mayor valor y el menor valor
que toma la variable:
𝑅 = 𝑍𝑚𝑎𝑥 − 𝑍𝑚𝑖𝑛
Para la variable voltaje:
𝑅 = 𝑉𝑚𝑎𝑥 − 𝑉𝑚𝑖𝑛 = 112.31 − 108.56 = 3.75
Y ahora hallamos la amplitud de cada clase (C)

𝑅
𝐶=
𝐾
Para la variable voltaje:
𝑅 3.75
𝐶= = ≈ 0.54
𝐾 7
La amplitud de cada intervalo también la redondearemos por exceso, así 𝐶 = 1.
Vayamos, de una, construyendo nuestra tabla de frecuencias:
Nro. Clases
1 [108.5,109.5)
2 [109.5,110.5)
3 [110.5,111.5)
4 [111.5,112.5)
5 [112.5,113.5)
6 [113.5,114.5)
7 [114.5,115.5)
Observación: notemos varias cosas. Hemos tomado los valores de K y C redondeando por
exceso. Y además, la primera clase o intervalo no inicia con el valor 𝑉𝑚𝑖𝑛 = 108.56. Estas
no son condiciones necesarias para construir la tabla de frecuencias, pero lo que se
consigue siguiendo este criterio, es que todos los valores de la variable (mediciones de
voltaje) estén considerados (evitamos la pérdida de algún dato, es decir, de información).
¿Qué inconvenientes se podrían tener procediendo de esta forma?
Por ejemplo, para el caso que analizamos, el hecho de tomar 𝐶 = 1 provoca que el último
intervalo se vaya hasta 115.5. Y el valor 𝑉𝑚𝑎𝑥 = 112.31; es decir, las clases 5, 6 y 7
estarán vacías, no contendrán información.
También prestar atención sobre la forma en que se han tomado los intervalos. Cerrados a
la izquierda, abiertos a la derecha; de forma continua.

Página No. 12
Que no haya espacios vacíos entre dos intervalos consecutivos también evita que algún
dato pueda “caer” en ese espacio y perderse. También para evitar contar un mismo dato
dos veces es que se toman clases cerradas a la izquierda y abiertas a la derecha (podría
ser a la inversa)
En este caso, para evitar clases vacías, no aproximaremos el valor de C, por lo que
tomaremos 𝐶 = 0.54 y el primer intervalo lo iniciamos desde 𝑉𝑚𝑖𝑛 = 108.56
Nro. Clases 𝑛𝑗 𝑓𝑗 𝑁𝑗 𝐹𝑗
1 [108.56,109.10)
2 [109.10,109.64)
3 [109.64,110.18)
4 [110.18,110.72)
5 [110.72,111.26)
6 [111.26,111.80)
7 [111.80,112.34)
Esta vez no tendremos clases vacías y se garantiza que todas las observaciones estén
incluidas en una única clase. En el resto de las columnas de la tabla tenemos:
𝑛𝑗 : frecuencia absoluta de la clase 𝑗; 𝑗 = 1,2, ⋯ , 𝐾 (representa la cantidad de datos que

pertenecen al intervalo o clase j)
𝑁𝑗 : frecuencia absoluta acumulada de la clase 𝑗; 𝑗 = 1,2, ⋯ , 𝐾 (para obtener los valores

de 𝑁𝑗 solo se necesita ir sumando los valores de 𝑛𝑗 a medida que j aumenta. Además
𝑁1 = 𝑛1 )
𝑛𝑗
𝑓𝑗 : frecuencia relativa de la clase 𝑗; 𝑗 = 1,2, ⋯ , 𝐾 (𝑓𝑗 = ).
𝑛
𝐹𝑗 : frecuencia relativa acumulada de la clase 𝑗; 𝑗 = 1,2, ⋯ , 𝐾 (estos valores se obtienen
de forma análoga que los valores de 𝑁𝑗 . Y también 𝐹1 = 𝑓1 )
Para completar la tabla, miremos nuevamente sobre los datos (y por comodidad
aprovechando el hecho de que los tenemos ordenados de manera creciente):
108.56 108.57 108.60 108.80 108.99 109.00 109.00

109.00 109.00 109.00 109.00 109.00 109.20 109.50
110.00 110.00 110.00 110.00 110.00 110.00 110.00
110.00 110.00 110.00 111.00 111.00 111.76 111.98
112.00 112.00 112.00 112.00 112.00 112.00 112.01
112.10 112.29 112.30 112.30 112.31
Entonces:

Página No. 13
Nro. Clases 𝑛𝑗 𝑓𝑗 𝑁𝑗 𝐹𝑗
1 [108.56,109.10) 12 0.3 12 0.3
2 [109.10,109.64) 2 0.05 14 0.35
3 [109.64,110.18) 10 0.25 24 0.6
4 [110.18,110.72) 0 0 24 0.6
5 [110.72,111.26) 2 0.05 26 0.65
6 [111.26,111.80) 1 0.025 27 0.675
7 [111.80,112.34) 13 0.325 40 1
𝑛1 = 12 (en el conjunto de datos, entre 108.56 y 109.10 tenemos 12 valores, resaltados

en color azul). Y así sucesivamente. En el conjunto ordenado de datos se han
diferenciado, con colores, la cantidad que pertenece a cada clase.
12
𝑓1 = 40 = 3.33 y así sucesivamente.
𝑁2 = 𝑁1 + 𝑛2 = 12 + 2 = 14 y así sucesivamente.
𝐹2 = 𝐹1 + 𝑓2 = 0.3 + 0.05 = 0.35 y así sucesivamente.
Téngase presente que siempre se deberá cumplir que ∑𝐾 𝐾

𝑗=1 𝑛𝑗 = 𝑛; ∑𝑗=1 𝑓𝑗 = 1 .
Además, 𝑁𝐾 = 𝑛; 𝐹𝐾 = 1.
Todas estas condiciones se cumplen para nuestra tabla de frecuencias.
¿Y qué más en este momento, en cuanto a nueva información que brindada por los
datos?
Veamos:
𝑛4 = 0: hubo cero mediciones de voltaje entre los 110.18 y los 110.72 Voltios.
𝑛3 = 10: significa que 10 mediciones de voltaje están entre los 109.64 y los 110.18
Voltios.
𝑓3 = 0.25: significa que el 25% de las 40 mediciones de voltaje, están entre los 109.64 y
los 110.18 Voltios.
𝑁3 = 24: significa que 24 mediciones de voltaje están entre los 108.56 y los 110.18
Voltios (en este caso, el dato se acumula desde el extremo izquierdo de la primera clase
hasta el extremo derecho de la clase 3)
𝐹3 = 0.6: significa que el 60% de las mediciones de voltaje están entre los 108.56 y los
110.18 Voltios (otra vez se acumula el valor)
Con las interpretaciones realizadas de diferentes valores de frecuencias no acumuladas y

acumuladas se evidencia qué información adicional brinda la tabla de frecuencias.
Ahora, para el ejemplo que se analiza, la Empresa Eléctrica cuenta con mayor cantidad
de información, extraída de los datos recopilados (características numéricas y tabla de
frecuencias), para apoyar la toma de decisiones.

Página No. 14
Para completar la distribución empírica, nos preguntamos si será posible tener alguna
idea más sobre el comportamiento de la variable V.
En la Unidad 3 de la asignatura estudiaremos las variables estocásticas o aleatorias desde

otro punto de vista. Concretamente, tales variables también pueden ser tratadas como
funciones matemáticas. Esas funciones, en Teoría de Probabilidades, se denominan
distribuciones. Considerando, y asumiendo de antemano como cierta esta posibilidad, los
gráficos principales asociados a una tabla de frecuencias: el histograma y el polígono de
frecuencias, permiten tener una idea aproximada sobre el comportamiento de una
variable aleatoria, vista desde la óptica de una función. O sea, se tendrá una idea sobre
el comportamiento gráfico de esa función (desconocida de momento)
El histograma de frecuencias es un gráfico de barras. Para construirlo se colocan los

distintos intervalos de la tabla de frecuencias sobre el eje de las abscisas (la variable se
coloca en el eje horizontal del sistema de coordenadas). Mientras que en el eje de las
ordenadas podemos escoger, colocando los valores de las frecuencias absolutas o los
valores de las frecuencias relativas (estos últimos son preferibles por cuanto siempre
serán menores que uno, lo que simplifica la escala de medición que utilicemos sobre ese
eje). En definitiva, sobre cada clase situada sobre el eje horizontal se construye un
rectángulo de altura igual a 𝑓𝑗 (o a 𝑛𝑗 )
En la gráfica 1 se observa, en el eje horizontal, el valor que corresponde al punto medio

de cada intervalo o clase. Ese punto se denomina marca de clase (que denotaremos como
𝜆𝑗 )
Para construir el polígono de frecuencias se marca el punto medio de cada intervalo en

el lado superior de cada rectángulo; y esos puntos se unen con segmentos de rectas (línea
quebrada en color azul celeste)
Histograma y Polígono de Frecuencias

0.35 0.325
0.3 0.325
0.3 0.3
0.25
Frecuencias relativas
0.25 0.25
0.2
0.15
0.1
0.05 0.05
0.05 0.05 0.05 0.025
0 0.025
0 0
108.83 109.37 109.91 110.45 110.99 111.53 112.07
Clases (puntos medios de los intervalos de voltajes)
GRÁFICA 1: Histograma (barras) y Polígono (línea quebrada) de frecuencias FUENTE: AUTOR

Página No. 15
Observando la forma del polígono de frecuencias, es decir, la línea quebrada, podemos

compararla con otros gráficos de funciones conocidas y entonces tener una aproximación
al comportamiento de la variable en términos de función.
Pero esta idea quedará más clara cuando estudiemos las distribuciones.
Retomando las características numéricas de una variable, tales valores se pueden calcular
también a partir de la información resumida en la tabla de frecuencias. Y en este caso se
debe incluir, en la tabla, la columna que corresponde a las marcas de clase.
Para la variable V tendremos:
Nro. Clases 𝜆𝑗 𝑛𝑗 𝑓𝑗 𝑁𝑗 𝐹𝑗
1 [108.56,109.10) 108.83 12 0.3 12 0.3
2 [109.10,109.64) 109.37 2 0.05 14 0.35
3 [109.64,110.18) 109.91 10 0.25 24 0.6
4 [110.18,110.72) 110.45 0 0 24 0.6
5 [110.72,111.26) 110.99 2 0.05 26 0.65
6 [111.26,111.80) 111.53 1 0.025 27 0.675
7 [111.80,112.34) 112.07 13 0.325 40 1
Consideraremos las tres principales características numéricas (tanto de posición como de

dispersión)
𝐾 7
1 1
̅=
𝑉 ∑ 𝜆𝑗 𝑛𝑗 = ∑ 𝜆𝑗 𝑛𝑗 =
𝑛 40
𝑗=1 𝑗=1
1
= [108.83 × 12 + 109.37 × 2 + ⋯ + 112.07 × 13] ≈ 110.356
40
𝐾 𝐾
1 2 1 2
𝑆𝑉2 = ̅) =
∑ 𝑛𝑗 (𝜆𝑗 − 𝑉 ∑ 𝑛𝑗 (𝜆𝑗 − 110.356) =
𝑛−1 39
𝑗=1 𝑗=1
1
= [(108.83 − 110.356)2 + (109.37 − 110.356)2 + ⋯ + (112.07 − 110.356)2 ] ≈
39
≈ 1.853
𝑆𝑉 = √𝑆𝑉2 = √1.853 ≈ 1.361
Si comparamos los resultados de las principales características numéricas de la variable

V, calculadas con las fórmulas que corresponden a datos no agrupados, y calculadas para
datos agrupados (en la tabla de frecuencias), se aprecia una variación o diferencia:

Página No. 16
Característica Datos no agrupados Datos agrupados

Media 110.407 110.356
Varianza 1.811 1.853
Desviación típica 1.346 1.361
¿Qué explica tales diferencias? Sencillamente cuando se aplican las fórmulas para datos
no agrupados, se utilizan todos los valores de la variable. Mientras que las fórmulas para
datos agrupados utilizan aproximaciones de esas mediciones, porque solo se considera
el punto medio de los intervalos donde se ubican esos datos.
Para profundizar en cuanto a la organización de un conjunto de datos, estudiar en el libro

de texto (Llinás Solano, H., Rojas Álvarez, C., 2017, p. 2), el Capítulo 1 “Estadística
Descriptiva”, epígrafes del 1.1 al 1.7, a partir de la página 2.
Consulta también el material de YouTube sobre la construcción de tablas de frecuencias:
https://www.youtube.com/watch?v=cyXenZEbGz4
Bibliografía
Llinás Solano, H., Rojas Álvarez, C. (2017). Estadística Descriptiva y distribuciones de

probabilidad. Editorial Universidad del Norte. Colombia.

Página No. 17
P r o b ÉTICA
abilidad y
Estadística

Variables aleatorias, distribuciones de probabilidad y esperanza matemática.
TABLA DE CONTENIDOS
Esquema ........................................................................................................................... 3
Objetivos ........................................................................................................................... 4
Variables aleatorias, distribuciones de probabilidad y esperanza matemática ..... ¡Error!
Marcador no definido.
3.1. Definición de variable aleatoria. ......................... ¡Error! Marcador no definido.
3.1.1. Distribución discreta de probabilidad ........................................................ 7
3.1.2. Distribución continua de probabilidad ..................................................... 11
3.1.3. Distribución conjunta de probabilidad ..................................................... 14
3.2 Características numéricas de una variable aleatoria1¡Error! Marcador no
definido.
3.2.1 Media y varianza de una variable aleatoria ............................................. 16
3.2.2 Covarianza de dos variables aleatorias .................................................... 18
3.2.3 Media y varianza de combinaciones lineales de variables aleatorias ...... 19
3.3 Teorema de Chevyshev .................................................................................... 19
Bibliografía ...................................................................................................................... 20

Página No. 2
Esquema
Distribución discreta de
probabilidad
Definición de variable Distribución continua de

aleatoria probabilidad
Distribución conjunta de
probabilidad
Variables aleatorias,
Media y varianza de una
distribuciones de probabilidad
variable aleatoria
y esperanza matemática
Características numéricas de Covarianza de dos variables

una variable aleatoria aleatorias
Media y varianza de
combinaciones lineales de
variables aleatorias
Teorema de Chevyshev

Página No. 3
En las Unidades 1 y 2 de nuestro curso ya han sido abordadas las variables aleatorias. Se
ha visto que, asociado a todo fenómeno, suceso o experimento estocástico o
probabilístico, es posible definir un conjunto de todos los resultados posibles de este (el
espacio muestral S). Los elementos de S pueden presentar cualquier naturaleza; sin
embargo, se continuará analizando los ejemplos de la vida real que han sido discutidos
en los capítulos anteriores. Y en ellos, los conjuntos de posibles resultados del
experimento o fenómeno aleatorio están conformados por números que representan
mediciones u observaciones de una variable. Es así como, de forma indirecta podría
afirmarse, se ha llegado a una definición de variable aleatoria.
Resulta que una variable aleatoria también puede ser definida, desde un punto de vista
matemático-formal y matemático-riguroso, como una función.
Y es lo que se aborda en el presente Capítulo de este curso. En este se estudia cómo se
construye esa función y cuáles son sus propiedades.
Objetivos
• Identificar variables aleatorias discretas y continuas.
• Identificar las distribuciones de probabilidad.
• Calcular la media, varianza y covarianza de variables aleatorias utilizando la
distribución correspondiente.

Página No. 4
Variables aleatorias, distribuciones de probabilidad
y esperanza matemática
3.1. Definición de variable aleatoria

Para retomar la definición de variable aleatoria, desde un punto de vista formal, se
retoman los dos primeros ejemplos o casos de estudio que se han venido utilizando:
a) Los tiempos de descargas de 100 archivos diferentes a nuestro computador. La

variable la definiríamos como t: tiempo de descarga de un archivo, medido en
segundos. Los valores de t se pueden agrupar en el conjunto 𝑆𝑡 =
{𝑡1 , 𝑡2 , ⋯ , 𝑡100 }.
b) Cantidad de llamadas telefónicas que recibe José a su celular durante un día. La
variable sería X: número de llamadas que recibe José a su celular en un día
determinado (de la semana, del mes, del año): 𝑆𝑋 = {𝑥1 , 𝑥2 , ⋯ , 𝑥𝑛 }.
La variable t es continua; mientras que la variable X es discreta. Y son conocidas las

razones por las cuales pueden ser clasificadas así. ¿Pero, qué es una variable aleatoria
matemáticamente hablando?
Definición 1: se llama variable aleatoria a la función que establece una correspondencia

entre los elementos del espacio muestral de cierto experimento aleatorio y el conjunto
de los números reales:
𝑉𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑎𝑙𝑒𝑎𝑡𝑜𝑟𝑖𝑎: 𝑆𝑒𝑥𝑝𝑒𝑟𝑖𝑚𝑒𝑛𝑡𝑜 𝑜 𝑠𝑢𝑐𝑒𝑠𝑜 → ℝ
Para mostrar la definición 1, será utilizado un ejemplo bastante clásico dentro de la Teoría
de las Probabilidades. A saber, el lanzamiento de un dado legal. Cada vez que se lanza un
dado, hecho que puede estar asociado el desarrollo de algún juego de azar, se está
realizando una acción que tiene carácter estocástico, porque antes de que se haya
ejecutado el lanzamiento no es posible conocer, con absoluta certeza, cuál de los posibles
resultados de la acción es el que va a ocurrir. Entonces, tiene sentido preguntar cuál es
el espacio muestral de este fenómeno o suceso aleatorio.
Es evidente que, para el experimento del dado, el espacio muestral contiene seis
elementos: las cantidades estampadas, en forma de puntos generalmente, en cada una
de las seis aristas o caras del dado.
𝑆𝐷𝑎𝑑𝑜 = {∎, ∎∎, ∎∎∎, ∎∎∎∎, ∎∎∎∎∎, ∎∎∎∎∎∎}

Página No. 5
Para reflejar los mismos resultados del experimento, es factible hacerlo con ayuda de una
variable aleatoria (función). Sea M la cantidad de puntos que muestra el dado, después
del lanzamiento, en su cara superior. Entonces:
𝑀(∎) = 1, 𝑀(∎∎) = 2, 𝑀(∎∎∎) = 3, 𝑀(∎∎∎∎) = 4
𝑀(∎∎∎∎∎) = 5, 𝑀(∎∎∎∎∎∎) = 6
La relación entre los conjuntos 𝑆𝐷𝑎𝑑𝑜 y el subconjunto de números naturales Q (números

del 1 al 6), subconjunto de ℕ, que a su vez es subconjunto de ℝ, se muestra en la figura
1.
FIGURA 1: Visualización de la variable aleatoria M. FUENTE: AUTOR
Es evidente que los valores que puede tomar la variable aleatoria M son 1,2,3,4,5,6.
Para los casos de estudio a) y b), queda claro que:
T- tiempo de descarga de un archivo de internet es una variable aleatoria continua,

porque los valores de tiempo pueden llenar cualquier intervalo de cualquier longitud.
𝑻: 𝑡1 , 𝑡2 , ⋯ , 𝑡100
𝑡1 : tiempo que demoró en descargarse el primer archivo.
𝑡2 : tiempo que demoró en descargarse el segundo archivo.
𝑡100 : tiempo que demoró en descargarse el archivo cien.

Página No. 6
X: cantidad de llamadas que recibe José a su celular en un día determinado (por ejemplo,
los lunes) es una variable aleatoria discreta, porque José no puede saber con antelación,
antes que terminen los lunes, cuántas llamadas recibirá esos días. Supongamos que
interesa estudiar este fenómeno estocástico durante los próximos 10 lunes del presente
año, a partir de hoy.
𝑿: 𝑥1 , 𝑥2 , ⋯ , 𝑥10
𝑥1 : cantidad de llamadas que recibirá José el primer lunes.
𝑥2 : cantidad de llamadas que recibirá José el segundo lunes.
𝑥10 : cantidad de llamadas que recibirá José el décimo lunes.
Bien, si se tienen ahora variables aleatorias, entonces cabe preguntarse si será posible
“armar” o definir funciones que dependan de ellas (en este caso se trataría de una
función de otra función, porque se ha visto que las variables aleatorias son funciones.
Pero no podrían ser clasificadas o consideradas como las funciones compuestas que se
definen en Cálculo Diferencial)
Ciertamente, las funciones que se definen para variables aleatorias de denominan

distribuciones. En las siguientes secciones serán abordadas las distribuciones que se
pueden asociar a variables aleatorias discretas y continuas, respectivamente.
Antes hay que aclarar que tales distribuciones expresan la probabilidad de que una
variable aleatoria, discreta o continua, tome uno de los valores que ella podría tomar. Por
ejemplo, para la variable X, podría desearse conocer la probabilidad de que 𝑥1 = 5 (es
decir, cuál es la probabilidad de que José reciba, el lunes siguiente, exactamente 5
llamadas telefónicas)
3.1.1. Distribución discreta de probabilidad
A una variable aleatoria discreta se asocian dos funciones. La función de probabilidad y la

función de distribución (o probabilidad acumulada)
Definición 2: sea M una variable aleatoria discreta, y 𝑚1 , 𝑚2 , ⋯ valores que esta puede
tomar. La función 𝑓(𝑚) se llama función de probabilidad para la variable M si ella asocia
a cada valor m que puede tomar la variable, la probabilidad de que esto ocurra (que la
variable tome justamente ese valor: 𝑓(𝑚) = 𝑃(𝑀 = 𝑚); P representa probabilidad), y
cumple las propiedades siguientes:
1. 0 ≤ 𝑓(𝑚) ≤ 1, ∀𝑚.
2. ∑∀𝑚∈𝑀 𝑓(𝑚) ≡ 1.

Página No. 7
Ejemplo 1: volviendo al caso de estudio sobre la cantidad de llamadas telefónicas que

recibe José los lunes, tal situación podría considerarse de forma atemporal. Supongamos
que, luego de hacer un análisis histórico (por ejemplo, se consultan, con la debida
autorización, los registros de llamadas recibidas por José durante los pasados 50 lunes).
Y se observa que lo más frecuente es que José ha recibido, esos lunes revisados: 3, 4, 5,
7 u 11 llamadas telefónicas. Además, recibió tres llamadas en 15 de los 50 lunes
revisados. Recibió 4 llamadas en 8 de los 50 lunes; 5 llamadas en 20 lunes; 7 llamadas en
5 lunes y, finalmente, recibió 11 llamadas en dos de los lunes.
Obsérvese que 15 + 8 + 20 + 5 + 2 = 50, los 50 lunes analizados.
Este análisis empírico (observación histórica) permite llegar a la conclusión que es factible
aceptar que la variable X: cantidad de llamadas que recibe José a su celular los lunes, es
aleatoria (porque no sabemos de antemano si el próximo lunes, a partir de hoy, José
recibirá 3, 4, 5, 7 u 11 llamadas). Pero también se puede asumir que los valores que puede
tomar la variable X son, precisamente: 3, 4, 5, 7 u 11.
Y aplicando la definición frecuencial de probabilidad para las 50 realizaciones del

experimento; es decir, los 50 lunes pasados analizados (no es posible aplicar la definición
clásica porque cabe la posibilidad de que José reciba, un lunes, 15 llamadas, o 100, o un
millón de llamadas. O sea, en teoría, el espacio muestral de este suceso aleatorio puede
ser infinito contable), queda establecido que:
15 8 20
𝑃(𝑋 = 3) = ; 𝑃(𝑋 = 4) = ; 𝑃(𝑋 = 5) = ;
50 50 50
5 2
𝑃(𝑋 = 7) = ; 𝑃(𝑋 = 11) =
50 50
Para la variable aleatoria discreta X, su función de probabilidad queda establecida así:
𝑿 3 4 5 7 11
15 8 20 5 2
𝒇(𝒙) 50 50 50 50 50
TABLA 1: Función de probabilidad, variable X FUENTE: AUTOR
Evidentemente, f(x) es una función de probabilidad porque a cada valor de la variable X

le hace corresponder un número real, y cumple con las dos propiedades que debe
satisfacer:
Todos los valores que ella toma son positivos y menores que 1.
15 8 20 5 2
∑ 𝑓(𝑥) = + + + + ≡1
50 50 50 50 50
∀𝑥∈𝑋
El gráfico de este tipo de función no es una línea o curva, en general continua, como
ocurre cuando se abordan funciones no estocásticas (determinísticas). O sea, las
funciones que se estudian en Cálculo Diferencial. El gráfico de la función f(x) se aprecia a
continuación.

Página No. 8
Función de probabilidad
0.45
0.40
0.35
0.30
Valores de f(x)
0.25
0.20
0.15
0.10
0.05
0.00
0 2 4 6 8 10 12
Valores de la variable X
GRÁFICA 1: Función de probabilidad para la variable X: cantidad de llamadas que recibe José los
lunes a su celular. FUENTE: AUTOR
Definición 3: sea M una variable aleatoria discreta, y 𝑚1 , 𝑚2 , ⋯ valores que esta puede
tomar. La función 𝐹𝑀 (𝑛) (o F(n)) se llama función de distribución o de probabilidad
acumulada para la variable M si ella asocia a cada valor real que puede tomar la variable,
un número del intervalo [0,1], y es definida por:
𝐹𝑀 (𝑛) = 𝑃[{𝑚 ∈ 𝑆: 𝑀(𝑚) ≤ 𝑛}] = 𝑃(𝑀 ≤ 𝑛).

S es el conjunto de valores que puede tomar la variable M (el espacio muestral del
correspondiente fenómeno aleatorio)
Y cumple las condiciones siguientes:
1. lim 𝐹(𝑛) = 0; lim 𝐹(𝑛) = 1

𝑛→−∞ 𝑛→∞
2. Es continua a tramos.
3. Es monótona no decreciente (es decir, constante o creciente)
La forma de definir a esta función (de probabilidad acumulada) es clara por cuanto lo que
refleja es la probabilidad que se acumula para los valores de la variable aleatoria que
están a la izquierda de uno concreto. Ello es lo que se expresa en 𝐹𝑀 (𝑛) = 𝑃(𝑀 ≤ 𝑛)
Continuando con el ejemplo 1, construyamos la función de distribución para la variable

X. Como esta variable puede tomar los valores 3, 4, 5, 7 u 11; entonces lo que se debe
hacer es acumular toda la probabilidad en dependencia de la “ubicación” del punto
considerado, atendiendo al correspondiente intervalo, luego de dividir el eje numérico

Página No. 9
(el intervalo (−∞, ∞)) en los subintervalos definidos por los valores que puede tomar la
variable.
En este caso (−∞, ∞) ≅ (−∞, 3) ∪ [3,4) ∪ [4,5) ∪ [5,7) ∪ [7,11) ∪ [11,+∞) . En el

primer subintervalo, desde menos infinito hasta 3, sin incluir el 3, la variable no toma
ningún valor, por ello, la probabilidad de que lo haga es cero. Es decir, la función de
distribución vale cero en ese intervalo. En el siguiente intervalo, desde 3 hasta 4,
incluyendo el extremo izquierdo del mismo, pero el derecho no; el único valor que puede
15
tomar la variable X es 3 y lo hace con una probabilidad de 50 = 0.3. Significa que el gráfico
de la función de distribución en ese intervalo es un segmento de recta, paralelo al eje de
las abscisas, a la altura de 0.3 unidades. Y así sucesivamente, acumulando o sumando la
probabilidad. El gráfico de esta función es el 2 y su expresión analítica es:
0; −∞ < 𝑥 < 3
0.30; 3 ≤ 𝑥 < 4
0.46; 4 ≤ 𝑥 < 5
𝐹(𝑥) =
0.86; 5 ≤ 𝑥 < 7
0.96; 7 ≤ 𝑥 < 11
{ 1; 𝑥 ≥ 11
GRÁFICA 2: Función de probabilidad acumulada, variable X. FUENTE: AUTOR
La función F(x) cumple con las condiciones. Tiene puntos de discontinuidad evitable para
los valores 3, 4, 5, 7 y 11; en cada uno de los subintervalos, en el interior de estos, es
continua; es monótona no decreciente porque en cada subintervalo es constante y al
pasar de un subintervalo al siguiente, crece. Además, es evidente que cumple con los dos
límites.
3.1.2. Distribución continua de probabilidad

Página No. 10
De forma similar a lo analizado para variable aleatoria discreta, a una variable aleatoria
continua se asocian dos funciones. La función de densidad y la función de distribución (o
probabilidad acumulada).
Definición 4: sea T una variable aleatoria continua, y 𝑡1 , 𝑡2 , ⋯ valores que esta puede
tomar. La función 𝑔(𝑡) se llama función de densidad para la variable T y es aquella que
expresa cómo se reparten las probabilidades de ocurrencia de un evento o experimento
aleatorio, en relación con el resultado de este. Entonces, una función g(t) es una función
de densidad si cumple con las siguientes propiedades:
1. 𝑔(𝑡) ≥ 0; ∀𝑡.
∞
2. ∫−∞ 𝑔(𝑡)𝑑𝑡 = 1 (el área de la región del plano, bajo la curva, en todo el eje real,
es igual a la unidad)
Además, como fórmula para calcular probabilidades, también se verifica que:

𝑡𝑏
𝑃(𝑡𝑎 ≤ 𝑇 ≤ 𝑡𝑏 ) = ∫ 𝑔(𝑡)𝑑𝑡
𝑡𝑎
Ejemplo 2: volviendo al caso de estudio sobre los tiempos de descarga de archivos de

internet, imaginemos que por alguna razón, con mucha frecuencia necesitamos
descargar específicamente un mismo archivo de Internet a nuestro computador. Y ese
archivo, por los variados factores ya mencionados, no siempre demora en descargarse el
mismo tiempo; la descarga demora entre medio segundo y 1.5 segundos. Sea que esos
tiempos se reparten, en términos probabilísticos, según la siguiente función:
1 3
𝑔(𝑡) = { 𝑡; 2 < 𝑡 < 2
0; 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
¿Es 𝑔(𝑡) una función de densidad para la variable T? veamos si se cumplen las
propiedades.
La primera propiedad es válida, porque la función toma valores entre 0.5 y 1.5 o cero.
Verifiquemos la segunda propiedad.

∞ 0.5 1.5 ∞
∫ 𝑔(𝑡)𝑑𝑡 = ∫ 𝑔(𝑡)𝑑𝑡 + ∫ 𝑔(𝑡)𝑑𝑡 + ∫ 𝑔(𝑡)𝑑𝑡 =

−∞ −∞ 0.5 1.5
0.5 1.5 ∞ 1.5 1.5

𝑡2
∫ 0 𝑑𝑡 + ∫ 𝑡 𝑑𝑡 + ∫ 0 𝑑𝑡 = ∫ 𝑡 𝑑𝑡 = | =1
2 0.5
−∞ 0.5 1.5 0.5
Entonces, 𝑔(𝑡) es una función de densidad de probabilidad para la variable T.
El gráfico de la función de densidad se aprecia en la siguiente figura (gráfica 3)

Página No. 11
GRÁFICA 3: Función de densidad, variable T. FUENTE: AUTOR (CONSTRUIDO CON GEOGEBRA)
Definición 5: sea T una variable aleatoria continua, y 𝑡1 , 𝑡2 , ⋯ valores que esta puede
tomar. La función 𝐺𝑇 (𝑡), o sencillamente G(t), se denomina función de distribución o de
probabilidad acumulada para la variable T si ella asocia a cada valor real que puede tomar
la variable, un número del intervalo [0,1], y es definida por:
𝐺𝑇 (𝑡) = 𝑃[{𝜏 ∈ 𝑆: 𝑇(𝜏) ≤ 𝑡}] = 𝑃(𝑇 ≤ 𝑡).

Y cumple las condiciones siguientes:
1. lim 𝐺(𝑡) = 0; lim 𝐺(𝑡) = 1

𝑡→−∞ 𝑡→∞
2. Es continua a tramos.
3. Es monótona no decreciente (es decir, constante o creciente)
La función de distribución para variable continua se define de la misma forma que para
variable discreta, claro, salvando las distancias en cuanto al comportamiento o la cantidad
de valores que puede tomar una variable continua.
El proceso de “construcción” de la función de distribución para variable continua, es

análogo a lo que se hecho para la variable discreta. En este caso en lugar de ir sumando
valores de probabilidad, lo que se hace es integrar la función de densidad sobre cada uno
de los intervalos sobre el que la misma está definida.

Página No. 12
Continuando con el ejemplo 2, construyamos la función de distribución para la variable
T. La función de densidad para esta variable es distinta de cero solo en el intervalo desde
0.5 hasta 1.5. Por tanto, la recta real queda dividida de la siguiente forma:
1 1 3 3
(−∞, ∞) ≅ (−∞, ) ∪ ( , ) ∪ ( , ∞)
2 2 2 2
Observación: en la anterior división de la recta real en subintervalos, no se han incluido
los extremos de estos. Y ello está relacionado con el hecho de que la probabilidad puntual
para una variable aleatoria continua es cero. Y es que, si queremos calcular la
probabilidad de que el tiempo de descarga del archivo sea exactamente un segundo,
entonces, según la expresión de cálculo:
1
𝑃(𝑡𝑎 ≤ 𝑇 ≤ 𝑡𝑏 ) = 𝑃(1 ≤ 𝑇 ≤ 1) = ∫ 𝑔(𝑡)𝑑𝑡 = 0

1
Es evidente que si 1 ≤ 𝑇 ≤ 1, entonces no le queda alternativa a la variable que ser igual

a uno (un punto), y un punto carece de área. Por tal razón las siguientes probabilidades
son iguales: 𝑃(𝑡𝑎 ≤ 𝑇 ≤ 𝑡𝑏 ) = 𝑃(𝑡𝑎 < 𝑇 ≤ 𝑡𝑏 ) = 𝑃(𝑡𝑎 ≤ 𝑇 < 𝑡𝑏 ) = 𝑃(𝑡𝑎 < 𝑇 < 𝑡𝑏 ) ; pero
se cumple solo para el caso continuo.
Continuando con el ejemplo,

𝑡1 𝑡 𝑡2
𝐺(𝑡) = ∫ 𝑔(𝜏)𝑑𝜏 + ∫ 𝑔(𝜏)𝑑𝜏 + ∫ 𝑔(𝜏)𝑑𝜏

−∞ 0.5 1.5
1 1 3 3
En la expresión anterior, 𝑡1 ∈ (−∞, 2) ; 𝑡 ∈ (2 , 2) ; 𝑡2 ∈ (2 , ∞). Las tres integrales son
paramétricas, porque el límite superior de integración, en cada una de ellas, es una
variable que se mueve en los intervalos indicados respectivamente.
1 3
La función 𝑔(𝑡) = 0 para 𝑡 ∈ (−∞, 2) y para 𝑡 ∈ (2 , ∞) . Pero al sobrepasar el valor de
1.5, ya se ha acumulado toda la probabilidad. Entonces:
𝑡 𝑡 𝑡
1 1 𝜏2
∫ 𝑔(𝜏)𝑑𝜏 = ∫ 𝜏 𝑑𝜏 = | = (𝑡2 − )
2 0.5 2 4
0.5 0.5
Y
1
0; 𝑡<
2
1 2 1 1 3
𝐺(𝑡) = (𝑡 − ) ; < 𝑡 <
2 4 2 2
3
{ 1; 𝑡>
2

Página No. 13
El gráfico de la función de distribución para la variable T se aprecia en la siguiente figura
(gráfica 4)
GRÁFICA 4: Función de distribución, variable T. FUENTE: AUTOR (CONSTRUIDO CON GEOGEBRA)
3.1.3. Distribución conjunta de probabilidad
Para abordar las distribuciones conjuntas de probabilidad es necesario definir un vector

aleatorio. En este caso las coordenadas de este vector son variables aleatorias. Así, sea el
vector (𝑋1 , 𝑋2 , ⋯ 𝑋𝑛 ). Si cada coordenada de este vector es una variable aleatoria (todas
de la misma naturaleza, discretas o continuas), entonces se está en presencia de un
vector aleatorio, discreto o continuo.
Las definiciones 2 y 3 para variable aleatoria discreta; 4 y 5 para variable aleatoria

continua pueden ser generalizadas a vectores aleatorios discretos y continuos
respectivamente.
Por ejemplo, para un vector bidimensional discreto (𝑋, 𝑌) que puede tomar los valores
(𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), ⋯ Entonces la función 𝑓: ℝ2 → [0,1] es una función de probabilidad
conjunta para este vector, si cumple las siguientes propiedades:
𝑓(𝑥𝑖 , 𝑦𝑗 ) ≥ 0, ∀ 𝑥𝑖 ∈ 𝑋, ∀ 𝑦𝑗 ∈ 𝑌
∑ ∑ 𝑓(𝑥𝑖 , 𝑦𝑗 ) = 1
∀ 𝑥𝑖 ∈𝑋 ∀ 𝑦𝑗 ∈𝑌
Además, por definición 𝑓(𝑥𝑖 , 𝑦𝑗 ) = 𝑃(𝑋 = 𝑥𝑖 , 𝑌 = 𝑦𝑗 )

Página No. 14
Si (𝑋, 𝑌) es un vector aleatorio continuo (ambas variables aleatorias, coordenadas del

vector, son continuas), entonces la función 𝑓: ℝ2 → [0,1] es una función de densidad
conjunta, si cumple las siguientes propiedades:
𝑓(𝑥, 𝑦) ≥ 0, ∀ 𝑥 ∈ 𝑋, ∀ 𝑦 ∈ 𝑌
∞ ∞
∫ ∫ 𝑓(𝑥, 𝑦)𝑑𝑥 𝑑𝑦 = 1
−∞ −∞
Además,
𝑏 𝑑
𝑃(𝑎 < 𝑥 < 𝑏, 𝑐 < 𝑦 < 𝑑) = ∫ ∫ 𝑓(𝑥, 𝑦)𝑑𝑥 𝑑𝑦

𝑎 𝑐
De manera similar pueden también pueden ser extendidas las definiciones de las
funciones de distribución para ambos tipos de variables. Y teniendo en cuenta que el
vector considerado es de dos dimensiones, entonces se pueden definir también
funciones que explican el comportamiento de una de las variables cuando la otra está fija
(las llamadas distribuciones marginales). Y también cobra sentido la idea de
independencia entre variables aleatorias.
Para profundizar sobre todo lo abordado en esta sección 3.1, estudiar, en el libro de texto
(Llinás Solano, H., Rojas Álvarez, C., 2017, p. 184), el Capítulo 3 “Variables aleatorias
discretas y distribuciones de probabilidad”, epígrafes del 3.1 y 3.2, a partir de la página
184. También en el texto (Llinás Solano, H., Rojas Álvarez, C., 2017, p. 258), el capítulo 4
“Variables aleatorias continuas y distribuciones de probabilidad”, epígrafe 4.1, a partir de
la página 258. Y en el mismo texto (Llinás Solano, H., Rojas Álvarez, C., 2017, p. 318), el
Capítulo 5 “Distribución Conjunta” (en su totalidad), epígrafes del 5.1 al 5.4, a partir de la
página 318.
3.2. Características numéricas de una variable aleatoria

Las características numéricas de una variable aleatoria ya han sido definidas en la Unidad
2 de este curso. Y se hizo de forma empírica o experimental. ¿Cómo definir las
características numéricas de forma teórica, teniendo en cuenta que ya es posible
describir las funciones asociadas a una variable aleatoria?
Sobre ello se aborda en la presente sección.
Para una variable aleatoria X, se había utilizado la notación 𝑋̅, 𝑆𝑋2 , 𝑆𝑋 para identificar su
media, varianza y desviación estándar o típica. Pero entonces utilizamos algunos de los
valores que podían tomar las variables de los casos de estudio que se han considerado.
Por tal razón, en esta situación se habla de muestra (no la totalidad) de los valores que
puede tomar una variable aleatoria. En general, y en Estadística en particular, las
características numéricas así halladas llevan el apellido muestral: media muestral (𝑋̅ ),
varianza muestral (𝑆𝑋2 ), desviación típica muestral (𝑆𝑋 )

Página No. 15
Pero ya son conocidas las funciones que describen el comportamiento general (para
todos los valores que ellas puedan tomar) de las variables aleatorias. Significa que se
estaría en condiciones de hallar sus características numéricas también de forma general,
utilizando unas “fórmulas teóricas para ello”.
3.2.1. Media y varianza de una variable aleatoria
Definición 6: sea X una variable aleatoria discreta, y 𝑥1 , 𝑥2 , ⋯ valores que esta puede
tomar, y sea f(x) la función de probabilidad de esta variable.
- Se llama esperanza matemática de la variable aleatoria (media, valor medio,

promedio), y se denota como 𝜇 ≡ 𝐸[𝑋], a:
𝜇 ≡ 𝐸[𝑋] = ∑ 𝑥𝑖 𝑓(𝑥𝑖 )
𝑖
- Se llama varianza de la variable aleatoria, y se denota como 𝜎 2 , a:
𝜎 2 ≡ 𝑉[𝑋] ≡ 𝐸[(𝑋 − 𝜇)2 ] = ∑(𝑥𝑖 − 𝜇)2 𝑓(𝑥𝑖 )
𝑖
- Se llama desviación estándar de la variable aleatoria, y se denota como 𝜎, a:
𝜎 = √𝜎 2
Para la variable X del ejemplo 1, se tiene que:

5
15 8 20 5 2
𝜇 = ∑ 𝑥𝑖 𝑓(𝑥𝑖 ) = 3 × +4× +5× +7× + 11 × = 4.68
50 50 50 50 50
𝑖=1
𝜎 = ∑(𝑥𝑖 − 𝜇)2 𝑓(𝑥𝑖 ) =

2
𝑖=1
15 8 20
= (3 − 4.68)2 × + (4 − 4.68)2 × + (5 − 4.68)2 ×
50 50 50
5 2
+ (7 − 4.68)2 × + (11 − 4.68)2 × = 3.0976
50 50
𝜎 = √𝜎 2 = √3.0976 = 1.76
Los valores obtenidos significan que, cuando se considere una cantidad suficiente de
lunes, se espera que José reciba, como promedio 4.68 llamadas a su móvil por día (lunes).
Además, la dispersión del número de llamadas los lunes, respecto al promedio es de 1.76;
ello que significa que podrá haber algunos días en los que José reciba 4.68 − 1.76 = 2.92
llamadas y otros en los que reciba 4.68 + 1.76 = 6.44 llamadas a su móvil.
Definición 7: sea T una variable aleatoria continua, 𝑡1 , 𝑡2 , ⋯ valores que esta puede tomar
y 𝑔(𝑡) su función de densidad.
- Se llama esperanza matemática de la variable aleatoria (media, valor medio,

promedio), y se denota como 𝜇 ≡ 𝐸[𝑋], a:

Página No. 16
𝜇 = ∫ 𝑡 𝑔(𝑡)𝑑𝑡
−∞
- Se llama varianza de la variable aleatoria, y se denota como 𝜎 2 , a:

∞
𝜎 = ∫ (𝑡 − 𝜇)2 𝑔(𝑡)𝑑𝑡
2
−∞
- Se llama desviación estándar de la variable aleatoria, y se denota como 𝜎, a:

𝜎 = √𝜎 2
De forma análoga, para la variable T del ejemplo 2, se tiene que:

∞ 1.5 1.5 1.5
2
𝑡3 13
𝜇 = ∫ 𝑡 𝑔(𝑡)𝑑𝑡 = ∫ 𝑡 𝑡 𝑑𝑡 = ∫ 𝑡 𝑑𝑡 = | = ≈ 1.08
3 0.5
12
−∞ 0.5 0.5
∞ 1.5 1.5
𝜎 2 = ∫ (𝑡 − 𝜇)2 𝑔(𝑡)𝑑𝑡 = ∫ (𝑡 − 1.08)2 𝑡 𝑑𝑡 = ∫ (𝑡 2 − 2.17𝑡 + 1.082 ) 𝑡 𝑑𝑡 =

−∞ 0.5 0.5
1.5 1.5
𝑡4 𝑡3 𝑡2
= ∫ (𝑡 3 − 2.17𝑡 2 + 1.082 𝑡) 𝑑𝑡 = [ − 2.17 + 1.082 ]| ≈ 0.07
4 3 2 0.5
0.5
𝜎 = √𝜎 2 = √0.07 ≈ 0.26
Las características numéricas de las variables aleatorias discretas y continuas satisfacen

las siguientes propiedades.
Sean a, b números fijos (constantes), entonces:
1. 𝐸[𝑎𝑋 + 𝑏] = 𝑎𝐸[𝑋] + 𝑏
2. 𝐸[𝑎] = 𝑎
3. 𝑉[𝑎] = 0
4. 𝑉[𝑎𝑋 + 𝑏] = 𝑎2 𝑉[𝑋]
Estas propiedades y las definiciones de las características numéricas conducen a la

siguiente interrogante. ¿Se podrán establecer características numéricas análogas para
funciones que dependen de variables aleatorias?
Es decir, si X es una variable aleatoria, discreta o continua, con función de probabilidad o

de densidad f(x), según corresponda. Si se define cierta función H(X), ¿cómo encontrar
𝐸[𝐻(𝑋)] y 𝑉[𝐻(𝑋)]?

Página No. 17
Las respuestas a la interrogante formulada, y para profundizar en cuanto a lo analizado
en esta sección, se puede encontrar en el libro de texto (Llinás Solano, H., Rojas Álvarez,
C., 2017, p. 199), el Capítulo 3 “Variables aleatorias discretas y distribuciones de
probabilidad”, epígrafe 3.3, a partir de la página 199. También en el texto (Llinás Solano,
H., Rojas Álvarez, C., 2017, p. 272), el capítulo 4 “Variables aleatorias continuas y
distribuciones de probabilidad”, epígrafe 4.2, a partir de la página 272.
3.2.2. Covarianza de dos variables aleatorias
Las definiciones teóricas de las características numéricas pueden ser extendidas, también
de forma natural, a vectores aleatorios. Lo más interesante, desde el punto de vista de
las aplicaciones, es contar con una medida de la relación entre dos variables aleatorias
dependientes. Esa medida de denomina covarianza.
Definición 8: sea un vector bidimensional discreto (𝑋, 𝑌) que puede tomar los valores
(𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), ⋯ y la función 𝑓: ℝ2 → [0,1] su función de probabilidad conjunta o de
densidad conjunta, según corresponda. Sea también que las varianzas de ambas variables
es un valor finito. Entonces, se llama covarianza de las variables aleatorias, y se denota
como 𝐶𝑜𝑣(𝑋, 𝑌), a:
𝐶𝑜𝑣(𝑋, 𝑌): = 𝐸[(𝑋 − 𝐸(𝑋))(𝑌 − 𝐸(𝑌))]
En otras palabras, las fórmulas de cálculo serían:
∑ ∑[𝑥 − 𝐸[𝑋]][𝑦 − 𝐸[𝑌]]𝑓(𝑥, 𝑦); 𝑠𝑖 𝑋, 𝑌 𝑠𝑜𝑛 𝑑𝑖𝑠𝑐𝑟𝑒𝑡𝑎𝑠

𝑥 𝑦
𝐶𝑜𝑣(𝑋, 𝑌) = ∞ ∞
∫ ∫ [𝑥 − 𝐸[𝑋]][𝑦 − 𝐸[𝑌]]𝑓(𝑥, 𝑦)𝑑 𝑥𝑑𝑦; 𝑠𝑖 𝑋, 𝑌 𝑠𝑜𝑛 𝑐𝑜𝑛𝑡𝑖𝑛𝑢𝑎𝑠

{−∞ −∞
Además, como fórmula de cálculo de mayor sencillez en cuanto a su aplicación, se verifica
que:
𝐶𝑜𝑣(𝑋, 𝑌) = 𝐸[𝑋𝑌] − 𝐸[𝑋]𝐸[𝑌]
Si las variables aleatorias son independientes, entonces 𝐸 [𝑋𝑌] = 𝐸 [𝑋]𝐸 [𝑌]; en este caso
𝐶𝑜𝑣(𝑋, 𝑌) = 0.
Para profundizar en este tema, consultar, en el libro de texto (Llinás Solano, H., Rojas
Álvarez, C., 2017, p. 345), el capítulo 5 “Distribución Conjunta”, epígrafes del 5.5 al 5.7, a
partir de la página 345.

Página No. 18
3.2.3. Media y varianza de combinaciones lineales de variables aleatorias
Se ha hablado en la presente sección, sobre funciones que dependen de una o varias

variables aleatorias (y que no son precisamente distribuciones). Una de esas posibles
funciones es la función lineal de dos variables aleatorias; es decir, una combinación lineal
de esas variables: 𝛼𝑋 + 𝛽𝑌 , 𝛼 , 𝛽 son constantes. ¿Cómo hallar las características
numéricas de esta función?
En la sección 3.2.1 se vieron algunas propiedades de la media y la varianza. Como

continuación de esas propiedades se incluyen aquellas relacionadas con el objetivo de
esta sección. Para la combinación de dos variables aleatorias de la misma naturaleza, se
verifica que:
1. 𝐸[𝛼𝑋 ± 𝛽𝑌] = 𝛼𝐸[𝑋] ± 𝛽𝐸[𝑌]

2. 𝑉[𝛼𝑋 ± 𝛽𝑌] = 𝛼 2 𝑉[𝑋] + 𝛽 2 𝑉[𝑌] ± 2𝛼𝛽 𝐶𝑜𝑣(𝑋, 𝑌)
Ejemplo 3: sean las variables aleatorias continuas 𝑍1 , 𝑍2 tales que 𝜇(𝑍1 ) = 2; (𝑍2 ) =
−1; 𝜎 2 (𝑍1 ) = 0.25; 𝜎 2 (𝑍2 ) = 0.49 . Además, se conoce que tales variables son
independientes. Hallar la esperanza matemática y la varianza de la variable aleatoria
𝑍 = 3𝑍1 − 𝑍2
Como la variable Z es una combinación lineal de las variables 𝑍1 , 𝑍2 , entonces:
𝐸[𝑍] = 𝐸[3𝑍1 − 𝑍2 ] = 3𝐸[𝑍1 ] − 𝐸[𝑍2 ] = 3 × 2 − (−1) = 7
𝑉[𝑍] = 𝑉[3𝑍1 − 𝑍2 ] = 9𝑉[𝑍1 ] + 𝑉[𝑍2 ] − 2(3)(−1)𝐶𝑜𝑣(𝑍1 , 𝑍2 ) =
= 9 × (0.25) + 0.49 = 2.74
(en el ejemplo, como las variables son independientes, 𝐶𝑜𝑣(𝑍1 , 𝑍2 ) = 0)
Para una mayor profundización sobre los temas combinaciones de variables aleatorias y
funciones de varias variables aleatorias, estudiar en el texto (Obando López, J., Arango
Londoño, N., 2019, p. 39), el Capítulo 3 “Estadística Multivariada”, a partir de la página
39.
3.3. Teorema de Chevyshev

Al estudiar las características numéricas y la distribución de probabilidad de una variable
aleatoria, se está caracterizando esa variable. Es decir, se está explicando el
comportamiento de una función (la variable aleatoria) a través de otra función (la
distribución que sigue la variable aleatoria) y a través de propiedades, se podría decir,
directamente relacionadas con los valores que la variable, sea discreta o continua, puede
tomar (sus características numéricas)
Recordemos que la media de una variable aleatoria es una medida de posición que se
ubica hacia el centro del intervalo de variación de la variable; mientras que la desviación
estándar es una medida de dispersión que explica o cuantifica la diferencia entre los
valores que puede tomar la variable y la media de esta. El resultado teórico conocido
como teorema o desigualdad de Chevyshev, sin embargo, analiza lo referido a la

Página No. 19
dispersión de una variable desde otra óptica. A saber, este resultado permite estimar la
probabilidad de que un valor específico de la variable esté a una distancia determinada
(k) de la media de la variable. Veamos la formulación del Teorema.
Teorema de Chevyshev: sea X una variable aleatoria, discreta o continua, con media 𝜇 y
varianza finita 𝜎 2 . Entonces, para todo valor 𝑘 > 1, se verifica que:
1
𝑃(|𝑋 − 𝜇| < 𝑘𝜎) ≥ 1 −
𝑘2
La desigualdad anterior es equivalente a:
1
𝑃(|𝑋 − 𝜇| ≥ 𝑘𝜎) ≤
𝑘2
Para profundizar sobre este resultado, estudiar, en el libro de texto (de Oteyza, Lam,
Hernández, Carrillo, 2015, p. 246), el Capítulo 8 “Medidas de Dispersión”; el epígrafe 8.4,
a partir de la página 246.
Además, para ver ejemplos prácticos de aplicación de la desigualdad, asistir al material

de YouTube:
https://www.youtube.com/watch?v=CkJ67vziT6U
Bibliografía
Llinás Solano, H., Rojas Álvarez, C. (2017). Estadística Descriptiva y distribuciones de

probabilidad. Editorial Universidad del Norte. Colombia.
de Oteyza, E., Lam, E., Hernández, C., Carrillo, A. (2015). Probabilidad y estadística. Pearson
Educación, México.

Página No. 20
P r o b ÉTICA
abilidad y
Estadística

Distribuciones discretas de probabilidad
TABLA DE CONTENIDOS
Esquema ........................................................................................................................... 3
Objetivos ........................................................................................................................... 4
Distribuciones discretas de probabilidad ......................................................................... 5
4.1. Distribución Binomial ......................................................................................... 5
4.1.1 Distribución Multinomial ................................................................................... 7
4.1.2 Distribución Geométrica .................................................................................... 9
4.1.3 Distribución Binomial Negativa........................................................................ 11
4.2 Distribución Hipergeométrica.......................................................................... 12
4.3 Distribución de Poisson.................................................................................... 15
Bibliografía ...................................................................................................................... 17

Página No. 2
Esquema
Distribución Multinomial
Distribución
Distribución Binomial
Geométrica
Distribuciones discretas de Distribución

Distribución Hipergeométrica
probabilidad Binomial Negativa
Distribución de Poisson

Página No. 3
Como se ha observado en el estudio de la Unidad 3 de esta materia, la función de
distribución, asociada a una variable aleatoria discreta o continua, asigna a cada valor que
pueda tomar la variable, la probabilidad de que la variable tome ese valor. En otras
palabras, teniendo en cuenta que el hecho que una variable aleatoria tome cierto valor,
de entre sus posibles, representa que ocurrió alguno de los posibles resultados de un
fenómeno, suceso o experimento estocástico descrito o registrado por esa variable. Por
tanto, la función de distribución asigna un valor entre cero y uno a la posibilidad de que
ocurra ese posible resultado del fenómeno, suceso o experimento aleatorio.
En la Unidad 3 se estudiaron las distribuciones en sentido general. En la presente unidad
serán abordas unas distribuciones teóricas que describen el comportamiento de ciertas
variables aleatorias discretas que, a su vez, se caracterizan por representar fenómenos o
experimentos aleatorios con unas características bien definidas. Es así como se
estudiarán las principales distribuciones discretas de probabilidad (o sea, distribuciones
definidas para ciertas variables aleatorias discretas)
Objetivo
• Representar problemas de ingeniería mediante distribuciones discretas de
probabilidad, e interpretar su solución.

Página No. 4
4.1. Distribución Binomial.
Para introducir la Distribución Binomial, debe partirse del tipo de fenómeno o

experimento aleatorio conocido como proceso de Bernoulli.
Un proceso de Bernoulli es un experimento aleatorio que tiene dos resultados posibles.

A uno de esos resultados se le denomina éxito, y al otro resultado de le llama fracaso. Por
ejemplo, algo muy clásico también en la Teoría de las Probabilidades, es el experimento
estocástico que consiste en el lanzamiento de una moneda. El espacio muestral de tal
experimento es 𝑆 = {𝐶𝑎𝑟𝑎, 𝐶𝑟𝑢𝑧}. Este conjunto solo contiene dos elementos, llamados
“cara” y “cruz” porque son los dos únicos resultados posibles del experimento. Y como
de antemano no es posible saber con total certeza qué lado de la moneda quedará hacia
arriba, una vez lanzada y que se detenga sobre el suelo, entonces es evidente el carácter
probabilístico de la acción de lanzar la moneda.
En este caso estamos en presencia de un proceso de Bernoulli. Y dependiendo del

resultado que interese estudiar, podría considerarse que el “éxito” es que caiga “cara”
(el resultado que caiga cruz sería el “fracaso”), o al revés.
De forma general, en un proceso de esta naturaleza, la probabilidad de que ocurra el

éxito se denota como p; mientras que la probabilidad de que ocurra el fracaso se le
denota como q. Además, siempre se cumple que 𝑝 + 𝑞 = 1.
Este tipo de análisis puede ser aplicado a diferentes situaciones de la ingeniería. Así que,
retomando el caso de estudio relacionado con la Electrónica y Automatización, se
considera la siguiente situación:
Ejemplo 1: cierto electrodoméstico contiene 25 circuitos; supóngase que se ha podido

determinar de alguna forma, que la probabilidad de que uno de estos circuitos falle es
0.001, además, que los circuitos son independientes; es decir, que el hecho de que uno
de ellos falle no incide sobre el comportamiento de los demás. Finalmente, sea que el
electrodoméstico funciona solo si los 25 circuitos están operativos. ¿Cómo proceder si se
desea conocer cuál es la probabilidad de que el electrodoméstico deje de funcionar o
simplemente falle?
En el ejemplo 1 se tienen 25 repeticiones de un proceso de Bernoulli (o lo que es lo

mismo, 25 procesos de Bernoulli), pues cada circuito se comporta como tal: falla, con
probabilidad de “éxito” 𝑝 = 0.001; o no falla con probabilidad de “fracaso” 0.001 + 𝑞 =
1 ⇒ 𝑞 = 1 − 0.001 = 0.999.
Cuando se realiza un experimento o proceso de Bernoulli repetidas veces, entonces es

posible guardar o registrar en una variable aleatoria (que será discreta) la cantidad de
éxitos o la cantidad de fracasos que ocurren en n repeticiones del experimento. Tal

Página No. 5
variable va a comportarse según una distribución conocida que se denomina Distribución

Binomial.
Definición 1: sea que se repite n veces un experimento de Bernoulli, y sea X el número de

éxitos que ocurren en esas n repeticiones. Además, sea que la probabilidad de éxito p se
mantiene constante durante las n repeticiones, y los resultados de cada repetición son
independientes. Bajo las condiciones anteriores, la variable aleatoria discreta X sigue
Distribución Binomial con función de probabilidad:
𝑛
𝑓 (𝑥 ) = ( ) 𝑝 𝑥 𝑞 𝑛−𝑥 ; 𝑥 = 0,1, ⋯ 𝑛
𝑥
Notación: 𝑋~𝐵 (𝑥; 𝑝, 𝑛)
𝑛 𝑛!
Recordemos que ( ) =
𝑥 𝑥!(𝑛−𝑥)!
Con ayuda de esta distribución (función) es posible responder la interrogante formulada:
¿cuál es la probabilidad de que el electrodoméstico deje de funcionar o falle?
Como se ha visto, en el ejemplo 1 se tiene un proceso que se comporta como una

Distribución Binomial. Prestar atención al hecho de que los 25 circuitos de los que
depende el funcionamiento del electrodoméstico están siendo considerados como 25
repeticiones simultaneas del proceso de Bernoulli, es decir, que cada uno de los circuitos
falle o no.
Entonces, si como se ha afirmado, el equipo funciona, lo que equivale a que no falle, si

todos los 25 circuitos funcionan. Por tanto, si con la variable aleatoria se cuenta la
cantidad de circuitos que fallan, el equipo no fallará si esa variable toma el valor de cero.
Interesa, por tanto, hallar la probabilidad de que esto ocurra: 𝑃(𝑋 = 0). Aplicando la
función de probabilidad de la Distribución Binomial, para 𝑥 = 0, con 𝑛 = 25, 𝑝 = 0.001:
25
𝑃(𝑋 = 0) = 𝑓(0) = ( ) 0.0010 0.99925−0 = 0.99925
0
≈ 0.9752
Es decir, si el equipo electrodoméstico es utilizado 100 veces, en el 97.52 de esas veces
no habrá fallo.
Esta función de probabilidad que responde al comportamiento de una variable aleatoria

que se comporta en forma binomial, ofrece otras posibilidades. Por ejemplo, con su
ayuda sería posible responder interrogantes tales como:
¿Cuál es la probabilidad de que fallen más de tres circuitos, cuál es la probabilidad de falle
a lo sumo 2 circuitos, etc.?
Para conocer la probabilidad de que fallen más de tres circuitos habría que realizar una
cantidad de cálculos que podría representar un trabajo engorroso, porque habría que
hallar la probabilidad de que fallaran 4, 5, 6, …, 25 circuitos (más de tres). Es decir, hallar
el valor de la función de distribución para los valores de la variable 4, 5, 6, …, 25; y luego

Página No. 6
sumar todos los resultados. Una variante más rápida sería aplicar la propiedad del
complemento (la definición de probabilidad total) para la variable aleatoria discreta X,
porque:
𝑃(𝑋 > 3) = 1 − 𝑃(𝑋 ≤ 3) = 1 − [𝑃(𝑋 = 0) + 𝑃(𝑋 = 1) + 𝑃(𝑋 = 2) + 𝑃(𝑋 = 3)]

Es claro que por esta vía habrá que evaluar la función de probabilidad 4 veces, muchas
menos que las 22 veces que implicaría hacerlo de forma directa. O, teniendo en cuenta
que 𝑃(𝑋 ≤ 3) equivale a la probabilidad acumulada hasta 3, podría utilizarse la función
de distribución o probabilidad acumulada para la Distribución Binomial y evaluarla una
única vez, en tres. La ventaja es que los valores de esta función, como para algunas otras
distribuciones, están tabulados.
Para conocer cómo aplicar la Tabla de la Distribución Binomial, visitar:

Distribución Binomial con tabla | Ejemplo 1 - YouTube
Además, una versión de la Tabla de la Distribución Binomial, con 𝑛 = 1, ⋯ ,10, se puede

encontrar en:
Tablas.pdf (ugr.es)
Para profundizar sobre esta distribución, estudiar en el libro de texto (Obando López, J.,
Arango Londoño, N., 2019, p. 57), el Capítulo 4 “Distribuciones de probabilidad”, los
epígrafes 4.1 y 4.2, a partir de la página 57.
Otra ventaja de las distribuciones teóricas es que, para las variables cuyo
comportamiento describen, se cuenta con expresiones específicas para hallar sus
características numéricas. En el caso de la Distribución Binomial, si 𝑋~𝐵(𝑥; 𝑝, 𝑛)
entonces:
𝐸 [𝑋] ≡ 𝜇𝑋 = 𝑛𝑝; 𝑉 [𝑋] ≡ 𝜎𝑋2 = 𝑛𝑝𝑞

Para el ejemplo 1:
𝜇𝑋 = 25 × 0.001 = 0.025;
𝜎𝑋 = √25 × 0.001 × 0.999 ≈ 0.24975
Estos resultados expresan que, la cantidad de circuitos del electrodoméstico, que se
espera que falle, es 0.025 (es decir, que se espera que ni un solo circuito falle). Ello hace
pensar que este equipo presenta una fiabilidad alta, una muy buena calidad.
Existen otras distribuciones teóricas relacionadas con el proceso de Bernoulli y, por tanto,
con la Distribución Binomial. Esas distribuciones se abordan a continuación.
4.1.1. Distribución Multinomial
La Distribución Multinomial es una generalización de la Distribución Binomial. Un

experimento o proceso aleatorio binomial se transforma en multinomial, si cada prueba
tiene más de dos resultados posibles.

Página No. 7
Entonces, sea un experimento o suceso aleatoria que pueda tener los resultados
𝐴1 , 𝐴2 , ⋯ 𝐴𝑘 (k resultados posibles diferentes), con probabilidades de ocurrir 𝑝1 , 𝑝2 , ⋯ 𝑝𝑘
respectivamente. La Distribución Multinomial cuantifica la posibilidad de que el resultado
𝐴1 ocurra 𝑥1 veces, de que el resultado 𝐴2 ocurra 𝑥2 veces, etc., que el resultado 𝐴𝑘
ocurra 𝑥𝑘 veces; esto en n repeticiones del experimento o fenómeno. De tal suerte que
debe cumplirse que 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑘 = 𝑛. Y en este caso no se tiene independencia
entre los resultados.
Definición 2: sea que se repite n veces un experimento estocástico que puede tener k
resultados diferentes 𝐴1 , 𝐴2 , ⋯ 𝐴𝑘 con probabilidades 𝑝1 , 𝑝2 , ⋯ 𝑝𝑘 respectivamente. Se
llama Multinomial a la distribución de probabilidades del vector aleatorio discreto
(𝑋1 , 𝑋2 , ⋯ , 𝑋𝑘 ), cuyas coordenadas representan la cantidad de veces que ocurre cada
posible resultado 𝐴𝑖 , 𝑖 = 1,2, ⋯ , 𝑘. La función de probabilidad de esta distribución es:
𝑛 𝑥 𝑥 𝑥
𝑓(𝑥1 , 𝑥2 , ⋯ , 𝑥𝑘 ; 𝑝1 , 𝑝2 , ⋯ 𝑝𝑘 ; 𝑛) = (𝑥 , 𝑥 , ⋯ , 𝑥 ) 𝑝1 1 × 𝑝2 2 × ⋯ × 𝑝𝑘 𝑘 ,
1 2 𝑘
Y se satisface que: ∑𝑘𝑖=1 𝑥𝑖 = 𝑛; ∑𝑘𝑖=1 𝑝𝑖 = 1 .

𝑛 𝑛!
En la función anterior el número combinatorio (
𝑥1 , 𝑥2 , ⋯ , 𝑥𝑘 ) = 𝑥1!×𝑥2!×⋯×𝑥𝑘 !
Ejemplo 2: (ejemplo 1 modificado) suponga que el equipo electrodoméstico contiene,

para el funcionamiento de su sistema electrónico, 8 circuitos de tipo I, 3 circuitos de tipo
II, 5 circuitos de tipo III, 3 circuitos de tipo IV y 6 circuitos de tipo V. Los fabricantes de
este electrodoméstico a su vez adquieren los circuitos a la empresa productora “YL”, cuyo
departamento de control de la calidad garantiza que la probabilidad de que un circuito
de tipo I falle es 0.1, la probabilidad de que falle un circuito de tipo II es 0.2, la
probabilidad de fallo de un circuito de tipo III es 0.4, mientras que de 100 circuitos de tipo
IV probados, fallaron 2.
¿Cuál es la probabilidad de que en un equipo electrodoméstico de estos, fallen dos
circuitos tipo I, uno de tipo II, uno de tipo III, ninguno de tipo IV y dos de tipo V?
Tal situación puede ser modelada como un proceso multinomial con posibles resultados
𝐴1 , 𝐴2 , ⋯ 𝐴5 . Cada 𝐴𝑖 , 𝑖 = 1, ⋯ ,5, representa el hecho o suceso estocástico “que un
circuito de tipo i falle. Así, se puede definir el vector aleatorio (𝑋1 , 𝑋2 , ⋯ , 𝑋5 ), donde
𝑋𝑖, 𝑖 = 1, ⋯ ,5 representa la cantidad de circuitos de tipo i que fallan en el equipo
electrodoméstico. Además, 𝑛 = 6
Interesa hallar 𝑃(𝑋1 = 2, 𝑋2 = 1, 𝑋3 = 1, 𝑋4 = 0, 𝑋5 = 2) . Además, 𝑝1 = 0.1, 𝑝2 =
2
0.2, 𝑝3 = 0.4, 𝑝4 = = 0.02. Y como tiene que cumplirse que 𝑝1 + 𝑝2 + 𝑝3 +
100
𝑝4 + 𝑝5 = 1, entonces 𝑝5 = 0.28.
Entonces:
𝑃(𝑋1 = 2, 𝑋2 = 1, 𝑋3 = 1, 𝑋4 = 0, 𝑋5 = 2) =
= 𝑓(2,1,1,0,2; 0.1, 0.2,0.4,0.02,0.28; 6) =
6
=( ) (0.1)2 × (0.2)1 × (0.4)1 × (0.02)0 × (0.28)2 =
2,1,1,0,2

Página No. 8
6!
= (0.1)2 × (0.2)1 × (0.4)1 × (0.02)0 × (0.28)2 =
2! × 1! × 1! × 0! × 2!
≈ 0.0113
Así, la probabilidad de que fallen dos circuitos tipo I, uno de tipo II, uno de tipo III, ninguno
de tipo IV y dos de tipo V es 0.0113. Y aquí se admite la posibilidad simultánea de fallo de
circuitos de varios tipos (no existe independencia entre los eventos)
Para profundizar sobre esta distribución ver los materiales de YouTube:

- 0626 distribución multinomial - Bing video
- Distribución Multinomial - Bing video
En cuanto a las características numéricas de la Distribución Multinomial, estas se

establecen para cada evento por separado. Es decir:
𝐸 [𝑋𝑖 ] = 𝑛𝑝𝑖
𝑉 [𝑋𝑖 ] = 𝑛𝑝𝑖 (1 − 𝑝𝑖 )
𝑖 = 1, ⋯ , 𝑘
4.1.2. Distribución Geométrica
En esta subsección se retoma el proceso de Bernoulli. Hay que recordar que el rasgo
distintivo de este tipo de evento aleatorio es que tiene solo dos posibles resultados. Si
este tipo de experimento se repite varias veces, y cada realización de este es
independiente de las demás, entonces tenemos la Distribución Binomial. Pero supóngase
que lo que interesa esta vez es contar la cantidad de veces que se repite el proceso de
Bernoulli hasta que ocurra el resultado “éxito” por primera vez.
Regresando al experimento aleatorio que consiste en el lanzamiento de moneda,
supongamos se lanza una vez y cae “cara”. Se vuelve a lanzar la moneda y otra vez cae
“cara”. El tercer lanzamiento arroja el mismo resultado: “cara”. Y a la cuarta, el resultado
es “cruz”. Si se hubiese definido como éxito que el lado de la moneda que quede hacia
arriba sea “cruz”; en el caso hipotético descrito hubo que repetir el experimento cuatro
veces (lanzar la moneda cuatro veces) hasta que ocurrió el “éxito” por primera vez.
Si se define una variable aleatoria que registre la cantidad de veces que se repite un
proceso de Bernoulli, hasta que ocurra “éxito” por vez primera; entonces esa variable
aleatoria es discreta (se cuentan las realizaciones completas del suceso o experimento) y
tiene un comportamiento teórico conocido como Distribución Geométrica.
Definición 3: sea X una variable aleatoria discreta. X sigue Distribución Geométrica si ella
cuenta el número de veces que tiene que repetirse un proceso de Bernoulli hasta que
ocurra el resultado identificado como “éxito” la primera vez.
Notación: 𝑋~𝐺(𝑝); p: probabilidad de que ocurra el éxito del experimento de Bernoulli.
La función de probabilidad de esta distribución es:

Página No. 9
𝑓 (𝑦) ≡ 𝑃(𝑋 = 𝑦) = 𝑝(1 − 𝑝)𝑦−1 ; 𝑦 = 1,2,3, ⋯
Las características numéricas de esta distribución son:
1 1−𝑝
𝐸 [ 𝑋 ] ≡ 𝜇𝑋 = ; 𝑉[𝑋] ≡ 𝜎𝑋2 =
𝑝 𝑝2
Además, el experimento o proceso termina cuando ocurre éxito por primera vez.
Ejemplo 3: suponga que se está montando una red de comunicación en una zona
apartada del país, y por las características topográficas del terreno, se ha determinado
que la probabilidad de que a un punto específico de la zona (llamado punto A) llegue la
señal de telefonía celular es 0.32. La empresa de telecomunicaciones que se encarga del
proyecto ha estimado colocar una antena repetidora en un punto estratégico, para
solucionar esta dificultad.
¿Cuál es la probabilidad de que, con tres repeticiones de la señal se logre establecer
comunicación de telefonía celular con el punto A? ¿Cuál es el número promedio de
repeticiones de la señal, que se espera sean receptadas en el punto A?
Es claro que la situación que plantea el Ejemplo 3 es un proceso de Bernoulli: un pulso de

la señal de telefonía celular llega, se recepta en el punto A; o no. Evidentemente, el éxito
es que el pulso sea receptado, y la probabilidad 𝑝 = 0.32. Si se define la variable discreta
X: cantidad de pulsos que debe enviar la antena repetidora, hasta que sea detectado el
primero de ellos por el receptor situado en A; entonces esta variable sigue Distribución
Geométrica.
Así,
𝑃(𝑋 = 3) = 𝑓 (3) = 0.32(1 − 0.32)3−1 = 0.32 × 0.682

≈ 0.1480
Es decir, la probabilidad de que la antena repetidora tenga que enviar tres pulsos para
que l tercero de ellos sea el primero en ser receptado en el punto A, es 0.1480. O lo que
es equivalente, en el 14.8% de las veces, desde la antena repetidora habrá que enviar
tres pulsos para que el tercero sea recibido en A.
1 1
𝜇𝑋 = = = 3.125
𝑝 0.32
O sea, la cantidad promedio de pulsos, que se espera sean receptados en A, es 3.125.
Para profundizar sobre aplicaciones de la Distribución Geométrica, estudiar, en el libro

de texto (Obando López, J., Arango Londoño, N., 2019, p. 61), el Capítulo 4
“Distribuciones de probabilidad”, el epígrafe 4.2.2, a partir de la página 61.
También ver los materiales de YouTube (ejemplos de aplicación) disponibles en:
- Distribución geométrica con calculadora, problema aplicando la distribución

geométrica - YouTube

Página No. 10
- DdP -18. Distribución geométrica. Ejercicio práctico - YouTube
4.1.3.Distribución Binomial Negativa
La Distribución Binomial Negativa es una generalización de la Distribución Geométrica.

Este modelo es adecuado para describir los procesos aleatorios en los que se repite
determinado experimento o suceso hasta conseguir determinado número de resultados
deseados, de forma sucesiva, por primera vez.
Y como las anteriores distribuciones, se deriva de la Distribución de Bernoulli.
Definición 4: sea X una variable aleatoria discreta. X sigue Distribución Binomial Negativa
si ella cuenta el número de veces que tiene que repetirse un proceso de Bernoulli hasta
que ocurra el suceso “éxito” k veces sucesivas por primera vez.
La función de probabilidad de esta distribución es:
𝑥 − 1 𝑘 𝑥−𝑘
𝑓(𝑥 ) = ( )𝑝 𝑞 ; 𝑥 ∈ (𝑘, 𝑘 + 1, 𝑘 + 2, ⋯ )
𝑥−𝑘
𝑘 2
𝑘(1 − 𝑝)
𝐸 [ 𝑋 ] ≡ 𝜇𝑋 = [ ]
; 𝑉 𝑋 ≡ 𝜎𝑋 =
𝑝 𝑝2
Observación: si en las expresiones para la función de distribución y las características
numéricas de la Distribución Binomial Negativa, se reemplaza el valor 𝑘 = 1, se puede
verificar que se obtienen las correspondientes expresiones para la Distribución
Geométrica. Verificarlo.
Para mostrar las posibilidades de aplicación de la Distribución Binomial Negativa se

retoma el ejemplo del Robot.
Ejemplo 4: supongamos que cierto Robot es capaz de identificar los siguientes patrones
que, combinados, al menos 3 a la vez, “indican” al artefacto que cambie de sentido en su
movimiento en línea recta. Esos patrones son distancia hasta un objeto en su camino,
cambio de pendiente del recorrido, sonidos con intensidades 1, 2, 3; luz con intensidades
1, 2, 3. En aras de la simplicidad, se denotan estos 8 patrones de la forma siguiente:
distancia, pendiente, sonido 1, sonido 2, sonido 3, luz 1, luz 2 y luz 3. Si la probabilidad de
que el Robot detecte cualquiera de esos patrones es 0.56, ¿cuál es la probabilidad de que
cambie de sentido de movimiento por haber detectado los patrones siguientes en el
orden especificado: luz 2, sonido 3, pendiente, sonido 1; con 6 activaciones de su sistema
de detección (inteligencia artificial)? Se asume que cuando el sistema de inteligencia
artificial del Robot detecta al menos tres patrones, se desactiva automáticamente.
En este caso, que el Robot detecte o no un determinado patrón es un proceso de

Bernoulli, y como son ocho los patrones que puede determinar, entonces el proceso de
Bernoulli puede ser repetido ocho por n veces; hasta que la detección de los patrones
sea la cantidad y orden deseado: luz 2, sonido 3, pendiente, sonido 1. Es decir, interesa
determinar la probabilidad de que ocurran cuatro éxitos de forma consecutiva (los éxitos
anteriores en el orden descrito, porque el hecho de que el Robot identifique los demás

Página No. 11
patrones, en cualquier orden, también son éxitos). Así, interesa cuantificar la posibilidad
de que ocurran cuatro éxitos (detectar la sucesión de patrones luz 2, sonido 3, pendiente,
sonido 1) en exactamente seis activaciones del sistema de detección.
Para este ejemplo 𝑋 = 6; 𝑘 = 4 (que sean necesarias seis repeticiones, en este caso,
activaciones del sistema de detección; para que ocurra la sucesión de los cuatro éxitos:
luz 2, sonido 3, pendiente, sonido 1)
6−1 4 6−4
Entonces: 𝑃 (𝑋 = 6) = 𝑓 (6) = ( ) 0.32 0.68 =
6−4
5 4 2 5!
= ( ) 0.32 0.68 = 0.324 0.682 ≈ 0.0485
2 2! × 3!
Es decir, en el 4.85% de las veces que el Robot cambia de dirección porque el sistema de
detección ha identificado la sucesión de patrones luz 2, sonido 3, pendiente, sonido 1;
han sido necesarias seis activaciones de ese sistema de inteligencia artificial.
Se hace notar que la Distribución Binomial Negativa se caracteriza por el hecho de que el
experimento de Bernoulli se compone de un número no definido de repeticiones
(pruebas) y concluye con la ocurrencia de determinado número de resultados favorables
k. Todas las pruebas son independientes y las probabilidades de éxito y fracaso se
mantienen constantes para todas las pruebas.

- Distribución Binomial Negativa - YouTube

- Distribución binomial negativa, ejemplo. como reconocer a una distribución
binomial negativa - YouTube
4.2. Distribución Hipergeométrica

Las distribuciones estudiadas en las secciones anteriores tienen en común que su base es
el proceso de Bernoulli, en su versión simple o compuesta (en este último caso está la
Distribución Multinomial, para la cual la cantidad de resultados posibles es mayor que
dos)
En la presente sección se aborda otra distribución que admite la posibilidad de

dependencia entre las repeticiones del experimento o las pruebas. Este es el rasgo
distintivo entre la distribución que se estudia en esta sección y las estudiadas en las
anteriores.
La Distribución Hipergeométrica se manifiesta en problemas estocásticos de selección en

los que no hay reposición. ¿Esto qué significa?

Página No. 12
Imagínese un conjunto de N elementos de cualquier naturaleza, y del mismo se desea

seleccionar, a ciegas, n de esos elementos (𝑛 ≤ 𝑁). En muchas situaciones reales puede
ocurrir que la selección de los n elementos del conjunto se haga con reemplazo o
reposición; es decir, si es necesario repetir la prueba varias veces, entonces se podría
realizar una primera selección. Luego se caracterizan o analizan los elementos
seleccionados del subconjunto (los n), y posteriormente esos elementos se devuelven o
reintegran al conjunto universal (el de tamaño N). Y solo después se realiza la segunda
prueba o selección, también a ciegas, de otro subconjunto del mismo tamaño n. Y así
todas las veces que sea necesario repetir el experimento.
Nótese que realizar la selección de las muestras como se ha explicado garantiza que el
resultado de la segunda prueba no dependa de lo ocurrido en la primera, porque se ha
reestablecido el espacio muestral S del experimento (se han reintegrado al conjunto
universal los n elementos del subconjunto seleccionado en la prueba anterior. Por tanto,
para la prueba siguiente se cuenta con los mismos resultados posibles)
Entonces, el anterior proceso de selección garantiza independencia, lo que no ocurre si

del conjunto universal de tamaño N se realiza una extracción de un subconjunto de
tamaño n, y esos elementos no se reintegran al conjunto universal para realizar la
siguiente extracción o selección estocástica. Evidentemente el espacio muestral para esa
siguiente selección será diferente porque el conjunto que ahora es el universal contiene
una menor cantidad de elementos.
Es así como, para procesos o experimentos de selección sin reemplazo, no es posible

garantizar la independencia entre los resultados de cada repetición del experimento. Y
cuando no hay independencia se pone de manifiesto la Distribución Hipergeométrica.
Además, la utilidad de esta distribución discreta es que a través de ella es posible describir
tales procesos de selección de elementos de un conjunto, cuando estos pueden ser
reagrupados en dos categorías o subconjuntos: A: elementos del conjunto universal que
poseen cierta característica; 𝐴𝐶 : (negación o complemento de A) elementos del conjunto
universal que no poseen esa característica.
Definición 5: sea un conjunto universal de N elementos divididos en dos categorías

mutuamente excluyentes 𝐴, 𝐴𝐶 . Sea 𝑁1 la cantidad de elementos del subconjunto o
evento A; mientras que 𝑁2 es la cantidad de elementos del subconjunto o evento 𝐴𝐶 , de
forma tal que 𝑁1 + 𝑁2 = 𝑁. Si del conjunto universal se seleccionan de forma aleatoria
n elementos sin reemplazo (𝑛 ≤ 𝑁), entonces, la variable aleatoria discreta X: cantidad
de elementos, de los seleccionados, que pertenecen a la categoría A, sigue un
comportamiento conocido como Distribución Hipergeométrica (notación: 𝑋~ℎ(𝑡; 𝑁, 𝑛))
cuya función de probabilidad es:
𝑁1 𝑁
)( 2 ) (
𝑓(𝑡) ≡ 𝑃(𝑋 = 𝑡) = 𝑡 𝑛−𝑡 ;
𝑁
( )
𝑛
𝑚á𝑥 {0; 𝑛 − 𝑁2 } ≤ 𝑡 ≤ 𝑚í𝑛{𝑁1 , 𝑛}

Página No. 13
t representa la cantidad de elementos, de los seleccionados, que pertenecen a la

categoría A; es decir, el valor que toma, de todos los posibles, la variable X.
Nótese que en el denominador de la función de probabilidad hipergeométrica se tiene el

tamaño del espacio muestral. O sea, la cantidad de combinaciones que se pueden formar,
de tamaño n, con los N elementos del conjunto universal (𝑛 ≤ 𝑁). En el numerador de la
fracción aparece el producto de las combinaciones que se pueden formar, de tamaños t
y n-t con los 𝑁1 y 𝑁2 elementos de los conjuntos 𝐴 y 𝐴𝐶 respectivamente.
Las características numéricas de la Distribución Hipergeométrica son:
𝑛𝑁1 𝑛𝑁1 𝑁2 (𝑁 − 𝑛)
𝐸 [ 𝑋 ] ≡ 𝜇𝑋 = ; 𝑉 [𝑋] ≡ 𝜎𝑋2 =
𝑁2 𝑁2 (𝑁 − 1)
Ejemplo 5: supongamos que un trabajador está realizando el montaje del sistema de

iluminación de un nuevo bloque residencial, y debe colocar interruptores de dos tipos
diferentes, denominados A y B respectivamente. En determinado tipo de habitación el
técnico debe colocar 5 interruptores de tipo B, y los demás de tipo A. Y porta una caja de
interruptores en la que lleva 10 interruptores de tipo A y 8 de tipo B. Según le han
orientado al técnico, para que el flujo de trabajo esté acorde a lo planificado por los
ingenieros, él debe primero colocar en cada habitación todos los interruptores de tipo B.
Sin embargo, debido al estrés laboral, el técnico en ocasiones no se percata si está
colocando el interruptor correcto, porque ambos tipos son bien parecidos. Si el técnico,
para agilizar su trabajo, selecciona de su caja 9 interruptores, de forma aleatoria, cada
vez que comienza la instalación de estos en una nueva habitación. ¿Cuál es la
probabilidad de que el técnico coloque, en la habitación actual, los interruptores en el
orden indicado?
El técnico cuenta en su caja con 18 interruptores (𝑁 = 18). Que sean de tipo A o B implica
que estos tipos son mutuamente excluyentes (un interruptor es de un tipo o del otro).
Además, los de tipo B son 8 (𝑁1 = 8); mientras que los de tipo A son 10 (𝑁2 = 10)
Es costumbre del técnico, en cada habitación en la que va a empezar a colocar los

interruptores, seleccionar a ciegas 9 de su caja (𝑛 = 9). Lo que se desea conocer es cuál
es la probabilidad de que entre esos 9 haya al menos 5 de tipo B.
Entonces, si con la variable X se cuenta la cantidad de interruptores que hay en la muestra

de tamaño 9, lo que interesa es hallar la probabilidad de que la variable sea igual a 5, pues
ello garantizaría que el técnico tiene a la mano los 5 interruptores de tipo B, que son los
que debe colocar primero en cada habitación. Por tanto:
8 10
( )( )
𝑃(𝑋 = 5) = 𝑓(5) = 5 4 ≈ 0.2073
18
( )
9
La probabilidad de que el técnico no cometa un error a la hora de colocar los
interruptores en la habitación actual es de 0.2073 aproximadamente. O, en otras
palabras, en el 20.73 % de las habitaciones en las que hace la instalación, el técnico no se
equivoca.

Página No. 14
Pero en el restante 79.27 % de las habitaciones en las que instala, debe repetir el trabajo
en alguna medida, porque se equivoca en el orden de colocación de los interruptores.
¿Tal vez necesite algún tipo de capacitación para reducir las pérdidas de tiempo por
repetición del trabajo?

- Cómo desarrollar la distribución hipergeométrica Estadistica - YouTube

- Distribución Hipergeométrica - YouTube
4.3. Distribución de Poisson
Para concluir con el estudio de las distribuciones discretas de probabilidad, en la presente

sección se aborda la Distribución de Poisson. Esta función, a partir del conocimiento de la
frecuencia media de ocurrencia de un fenómeno aleatorio, cuantifica la posibilidad de
que el mismo se manifieste una determinada cantidad de veces en un intervalo de tiempo
(o en un segmento de longitud dada, o en cierta región del plano o del espacio). También
se plantea que esta distribución describe la probabilidad de ocurrencia de eventos con
probabilidades muy pequeñas, o eventos “raros”.
Sea que 𝜆 > 0 representa el número de veces que se espera que ocurra cierto evento o
fenómeno aleatorio en un intervalo de tiempo dado. Por ejemplo, retomando la situación
relacionada con la cantidad de llamadas que recibe José a su celular los lunes,
supongamos que lo normal es que esto ocurra a un promedio de 2 llamadas cada 15
minutos.
Ejemplo 6: se conoce que José recibe a su celular los lunes, un promedio de 2 llamadas
cada 15 minutos. ¿Cuál es la probabilidad de que José reciba, el próximo lunes, 4 llamadas
en 10 minutos?
Definición 6: sea X una variable aleatoria discreta con la que se cuenta la cantidad de
eventos de un mismo tipo (la frecuencia promedio de ocurrencia de este suceso es 𝜆 >
0, conocida) que tienen lugar en un intervalo de tiempo de longitud t. Entonces el
comportamiento de la variable se describe por una función llamada Distribución de
Poisson (notación 𝑋~𝑃(𝑥; 𝜆)), con función de probabilidad:
𝑒 −𝜆 𝜆𝑘
𝑓(𝑘) ≡ 𝑃(𝑋 = 𝑘) = ; 𝑘 = 0,1,2, ⋯
𝑘!
k- número de veces que ocurre el evento.

Página No. 15
𝐸 [𝑋] ≡ 𝜇𝑋 = 𝑉 [𝑋] ≡ 𝜎𝑋2 = 𝜆

Para resolver el ejemplo 6, se conoce que el número promedio de llamadas que recibe
José los lunes cada 15 minutos es 2 (en un intervalo de 15 minutos, lo frecuente es que
el suceso ocurra 2 veces: 𝜆 = 2). Pero interesa hallar la probabilidad de que José reciba
4 llamadas a su celular en 10 minutos el próximo lunes.
Para calcular la probabilidad requerida, es decir, 𝑃(𝑋 = 4) pero en 10 minutos, es claro

que se necesita recalcular el valor de la frecuencia de ocurrencia del fenómeno para el
nuevo intervalo de tiempo. Entonces basta con aplicar una elemental regla de tres:
𝑝𝑎𝑟𝑎 15 𝑚𝑖𝑛𝑢𝑡𝑜𝑠 ↦ 𝜆 = 2
𝑝𝑎𝑟𝑎 10 𝑚𝑖𝑛𝑢𝑡𝑜𝑠 ↦ 𝜆 =?
𝜆 ≈ 1.33
𝑒 −1.33 (1.33)4
𝑃(𝑋 = 4) = 𝑓(𝑘) = ≈ 0.0345
4!
La probabilidad de que José reciba, el próximo lunes, cuatro llamadas en un intervalo de
10 minutos, es 0.0345 aproximadamente.
Asimismo, podría ser de interés conocer las probabilidades de que José reciba más de 8
llamadas en un intervalo de una hora (𝑃(𝑋 > 8); 𝜆 =?), o que reciba a lo sumo una
llamada en un intervalo de 5 minutos ( 𝑃(𝑋 ≤ 1); 𝜆 =? ). En casos como estos nos
enfrentamos a situaciones similares descritas para la Distribución Binomial, y otra vez la
ventaja es que también está tabulada la función de probabilidad acumulada de la
Distribución de Poisson.
Para conocer cómo aplicar la Tabla de la Distribución Poisson, visitar:

Distribución de Poisson con tabla | Ejemplo 1 - YouTube
Además, una versión de la Tabla de la Distribución de Poisson se puede encontrar en:

TablasEstadisticas_SoloValoresUTN.xls (uv.es)
Arango Londoño, N., 2019, p. 66), el Capítulo 4 “Distribuciones de probabilidad”, el
epígrafe 4.2.4, a partir de la página 66.
- Distribución de Poisson Ejemplos resueltos - YouTube

- Distribución de Poisson | Teoría y ejercicio resuelto - YouTube

Página No. 16
Bibliografía

Página No. 17
P r o b ÉTICA
abilidad y
Estadística

Distribuciones continuas de probabilidad
TABLA DE CONTENIDOS
Esquema ........................................................................................................................... 3
Objetivos ........................................................................................................................... 4
Distribuciones continuas de probabilidad ........................................................................ 5
5.1. Distribución Normal. Aplicaciones. .................................................................... 5
5.1.1. Aproximación de la Distribución Binomial a la Normal .............................. 9
5.1.2. Distribución LogNormal ............................................................................ 10
5.2 Distribución Gamma ........................................................................................ 11
5.2.1. Distribución Exponencial .......................................................................... 13
5.3 Distribución Ji-Cuadrada .................................................................................. 14
Bibliografía ...................................................................................................................... 15

Página No. 2
Esquema
Aproximación de la
Distribución Normal Distribución Binomial a la Distribución Log-Normal
Distribución Normal
Distribuciones
Distribución
continuas de Distribución Gamma
exponencial
probabilidad
Distribución Chi-
Cuadrado

Página No. 3
Como se ha observado en el estudio de la Unidad 3 de esta materia, la función de
distribución, asociada a una variable aleatoria discreta o continua, asigna a cada valor que
pueda tomar la variable, la probabilidad de que la variable tome ese valor. En otras
palabras, teniendo en cuenta que el hecho que una variable aleatoria tome cierto valor,
de entre sus posibles, representa que ocurrió alguno de los posibles resultados de un
fenómeno, suceso o experimento estocástico descrito o registrado por esa variable. Por
tanto, la función de distribución asigna un valor entre cero y uno a la posibilidad de que
ocurra ese posible resultado del fenómeno, suceso o experimento aleatorio.
En la Unidad 3 se estudiaron las distribuciones en sentido general. En la presente unidad
serán abordas unas distribuciones teóricas que describen el comportamiento de ciertas
variables aleatorias continuas que, a su vez, se caracterizan por representar fenómenos
o experimentos aleatorios con unas características bien definidas. Es así como se
estudiarán las principales distribuciones continuas de probabilidad (o sea, distribuciones
definidas para ciertas variables aleatorias continuas)
Objetivo
• Representar problemas de ingeniería mediante distribuciones continuas de
probabilidad, e interpretar su solución.

Página No. 4
5.1. Distribución Normal.

La Distribución Normal es la reina de las distribuciones. Es la que más se presenta desde
el punto de vista de las aplicaciones y, aunque se define de forma natural para una
variable aleatoria continua; también puede aplicarse a variables aleatorias discretas
(cuestión que será analizada más adelante)
Definición 1: sea X una variable aleatoria continua. Se dice que esta variable sigue
Distribución Normal con media 𝜇 y varianza 𝜎 2 , y se denota 𝑋~𝑁(𝜇, 𝜎 2 ), si su función de
densidad es:
1 (𝑥−𝜇)2
2) −
𝑓(𝑥; 𝜇, 𝜎 = 𝑒 2𝜎 2 ; −∞ < 𝑥 < ∞
𝜎√2𝜋
𝜇; 𝜎 2 son respectivamente, la media y la varianza de la distribución.
Como la variable es continua, entonces recordemos que en tal caso la probabilidad

puntual es cero. Así, para hallar la probabilidad de que la variable X tome valores en un
determinado intervalo, por ejemplo, 𝑃(𝑎 < 𝑥 < 𝑏), tendríamos que hallar la integral
definida de la función de densidad sobre ese intervalo. Es decir:
𝑏
1 (𝑥−𝜇)2
−
𝑃 (𝑎 < 𝑥 < 𝑏 ) = ∫ 𝑒 2𝜎 2 𝑑𝑥 =
𝜎√2𝜋
𝑎
𝑏
1 (𝑥−𝜇)2
−
= ∫𝑒 2𝜎 2 𝑑𝑥
𝜎 √2𝜋
𝑎
Para cada variable aleatoria continua que siga Distribución Normal habrá un valor de
media 𝜇 ∈ ℝ, y un valor de desviación estándar 𝜎 > 0. Ello significa que estos valores
son parámetros para esta distribución.
Características de la Distribución Normal.
El gráfico de la función de densidad de la distribución se aprecia en la Gráfica 1.

Página No. 5
GRÁFICA 1: Curva de la función de densidad de la variable 𝑋~𝑁(𝜇, 𝜎 2 ) FUENTE: REPOSITORIO DE

IMÁGENES EN LÍNEA
La curva que se aprecia en el gráfico anterior también es conocida como Campana de

Gauss; así la Distribución Normal también es conocida con el nombre de Distribución
Gaussiana.
Evidentemente, como la probabilidad total es 1, entonces:

∞ 2
− 𝑥−𝜇2
( )
1
∫ 𝑒 2𝜎 𝑑𝑥 ≡ 1
−∞ 𝜎 2𝜋
√
El área total bajo la Campana de Gauss, sobre toda la recta real, es una unidad de área.
También se aprecia, en el gráfico de la función de densidad, que el eje de las abscisas es

asíntota horizontal para la curva. Esta tiene un máximo local en el punto 𝑥 = 𝜇; la recta
con esta ecuación es eje de simetría de la curva y los puntos 𝑥 = 𝜇 + 𝜎, 𝑥 = 𝜇 − 𝜎 son
puntos de inflexión para la curva.
Como también se aprecia en el gráfico, la función de distribución (o probabilidad

acumulada) no es más que el área bajo la curva normal hasta un valor determinado de la
variable, es decir:
𝑥𝑖
1 (𝑥−𝜇)2
−
𝐹 (𝑥𝑖 ) = 𝑃(−∞ < 𝑋 < 𝑥𝑖 ) = ∫ 𝑒 2𝜎 2 𝑑𝑥
𝜎√2𝜋
−∞
Es muy importante hacer notar que la probabilidad acumulada es el área bajo la Campana
de Gauss, desde menos infinito hasta un cierto valor 𝑥𝑖 de la variable. Es decir, “área
bajo la curva a la izquierda del punto 𝑥𝑖 ”
Entonces, supóngase que se tiene una variable aleatoria continua Y, tal que:
𝑌~𝑁(𝜇 = −1, 𝜎 2 = 5)

Página No. 6
¿Cómo hallar 𝑃(𝑌 > 3.2)?
Evidentemente, utilizando la propiedad del complemento (el intervalo complementario,

o la negación del intervalo 𝑌 > 3.2 es el intervalo 𝑌 ≤ 3.2):
3.2 2
(𝑦+1)
1 −
𝑃(𝑌 > 3.2) = 1 − 𝑃(𝑌 ≤ 3.2) = 1 − ∫ 𝑒 2(5) 𝑑𝑦 =
√5√2𝜋
−∞
3.2
(𝑦+1)
2
1 −
=1− ∫ 𝑒 10 𝑑𝑦
√10𝜋 −∞
Notar que, si 𝜎 2 = 5, entonces 𝜎 = √5.
La función integrando que aparece en la expresión anterior no integra en término de

funciones elementales. Ello significa que no valen, en este caso, ninguno de los métodos
analíticos de integración estudiados en la materia Cálculo Integral. Existen otras
alternativas, tales como resolver la integral definida (impropia) de forma aproximada con
ayuda de algún método numérico. O aplicar funciones especiales, que es otra vía
analítica. Sin embargo, para evadir este escollo, lo que se hace es realizar un proceso de
estandarización o cambio de variable. La técnica consiste en introducir una nueva
variable, comúnmente denominada Z, tal que:
𝑋−𝜇
𝑍=
𝜎
Con tal sustitución cualquier variable normalmente distribuida, con valores conocidos de
media y varianza, se transforma en una variable también normalmente distribuida; pero
con unos valores fijos de media y varianza. A saber, 𝜇 = 0, 𝜎 2 = 1.
Es decir, si 𝑋~𝑁(𝜇, 𝜎 2 ), con ayuda del proceso de estandarización se convierte en

𝑍~𝑁(𝜇 = 0, 𝜎 2 = 1)
Y la gran ventaja de tal transformación es que los valores de la Distribución Normal

estandarizada están tabulados.
Ahora, si se conoce la variable aleatoria continua Y, que sigue Distribución Normal:
𝑌~𝑁(𝜇 = −1, 𝜎 2 = 5),
e interesa conocer 𝑃(𝑌 > 3.2), realizando el proceso de estandarización tendremos:
𝑌 − 𝜇 3.2 − 𝜇
𝑃(𝑌 > 3.2) = 1 − 𝑃(𝑌 < 3.2) = 1 − 𝑃 ( < )=
⏟𝜎 𝜎
𝑍
3.2 + 1
1 − 𝑃 (𝑍 < ) = 1 − 𝑃(𝑍 < 2.2361) =
√5

Página No. 7
2.2361 2
1 𝑧
= 1− ∫ 𝑒− 2 𝑑𝑧
√2𝜋 −∞
Se insiste que sigue siendo una dificultad calcular la anterior integral impropia; pero ello
no es necesario porque se cuenta con la Tabla de la Distribución Normal Estandarizada.
Para aprender a utilizar la referida tabla, visitar la página interactiva de Internet:

Tabla de Distribución Normal Estándar (disfrutalasmatematicas.com)
En el anterior vínculo se podrá “jugar” con los valores de la variable Z y los

correspondientes valores de áreas bajo la Campana de Gauss, con dos lugares decimales
de aproximación. Las probabilidades o áreas bajo la curva se expresan en porcientos.
¿Qué modificaciones, desde el punto de vista gráfico, provoca la estandarización? La

respuesta a esta interrogante está en la Gráfica 2 a continuación:
GRÁFICA 2: Curva de la función de densidad de la variable 𝑍~𝑁(𝜇 = 0, 𝜎 2 = 1) FUENTE:

REPOSITORIO DE IMÁGENES EN LÍNEA
Como se observa, el eje de simetría de la curva ahora coincide con el eje de las ordenadas.
El máximo local se alcanza en el punto 𝑧 = 𝜇 = 0; mientras que los puntos de inflexión
de la curva están en 𝑧 = 𝜇 + 𝜎 = 1, 𝑧 = 𝜇 − 𝜎 = −1.
Ejemplo 1: retomando el problema referido al tiempo que demora la descarga de archivos

de Internet a nuestro computador, considérese la siguiente situación. Sea T la variable
aleatoria continua “tiempo de descarga de archivos de Internet a nuestro computador”,
tal que 𝑇~𝑁(𝜇 = 1.08, 𝜎 2 = 0.07) (se están usando los valores de media y varianza que
fueron calculados en el correspondiente ejemplo, en la Unidad 3. El tiempo se mide en
segundos). Hallar la probabilidad de que determinado archivo demore entre 1 y 1.5
segundos en ser descargado.

Página No. 8
En este caso se desea calcular 𝑃(1 < 𝑇 < 1.5) . Para conocer esta probabilidad no
necesitamos calcular la correspondiente integral, sino que estandarizamos:
1 − 𝜇 𝑇 − 𝜇 1.5 − 𝜇 1 − 1.08 1.5 − 1.08
𝑃(1 < 𝑇 < 1.5) = 𝑃 ( < < ) = 𝑃( <𝑍< )=
𝜎 𝜎 𝜎 0.26 0.26
= 𝑃(−0.31 < 𝑍 < 1.62)
Utilizando la tabla interactiva de Internet, se obtiene que:
𝑃(−0.31 < 𝑍 < 1.62) = 0.3257

Es decir, la probabilidad de que la descarga de un archivo dure entre 1 y 1.5 segundos, es
0.3257. O lo es que es lo mismo, el 32.57% de los archivos que descarguemos de Internet
a nuestro computador se va a tomar entre 1 y 1.5 segundos en el proceso (¡nuestro
computador es muy bueno, vuela!)
Observación: para llegar a la respuesta anterior se ha aplicado la propiedad siguiente:
𝑃(𝑧1 < 𝑍 < 𝑧2 ) = 𝑃(𝑍 < 𝑧2 ) − 𝑃(𝑍 < 𝑧1 )
Además, consultar los materiales de YouTube:
- Distribución Normal. Cálculo de probabilidades usando la tabla de la distribución

normal tipif | UPV - YouTube
- 04 Cómo usar la tabla de distribución normal - YouTube
5.1.1. Aproximación de la Distribución Binomial a la Distribución Normal
En la Unidad 4 se estudió la Distribución Binomial, que es una de las principales

distribuciones para variable aleatoria discreta. Sin embargo, bajo ciertas condiciones esta
distribución puede ser asumida como una Distribución Gaussiana. Ello es algo bastante
relevante porque se daría tratamiento continuo a una variable que, por su naturaleza, es
discreta. Y el secreto para que esto sea posible es un resultado de la Teoría de las
Probabilidades conocido como Teorema Central del Límite. A grandes rasgos, este
teorema plantea que si se tienen n variables aleatorias independientes, discretas o
continuas, todos siguiendo igual distribución con media conocida y varianza diferente
cero, finita; entonces todas esas variables se pueden sumar y el resultado será una nueva
variable que se comportará como Normal, con la misma media que las iniciales, y varianza
igual a 𝜎⁄ . Este resultado teórico tiene muchas implicaciones o aplicaciones en los
√𝑛
métodos de Inferencia Estadística. En el caso de esta materia, permite que, para una
cantidad suficientemente grande de repeticiones de un experimento de Bernoulli, la

Página No. 9
variable aleatoria que cuenta la cantidad de éxitos en esas repeticiones, y que sigue
Distribución Binomial, puede ser asumida como una variable aleatoria que sigue
Distribución Normal. Concretamente:
Sea X una variable aleatoria discreta, tal que 𝑋~𝐵(𝑛, 𝑝). Si n es suficientemente grande
(𝑛 → ∞), entonces el comportamiento de la variable X puede ser asumido como Normal,
con media 𝜇 = 𝑛𝑝 y 𝜎 2 = 𝑛𝑝𝑞.
Es decir: 𝑋~𝐵(𝑛, 𝑝) ≅ 𝑁(𝜇 = 𝑛𝑝 , 𝜎 2 = 𝑛𝑝𝑞)
En este momento podríamos preguntarnos cuándo tal aproximación es buena y cuándo

utilizarla. En tal sentido podemos utilizar el siguiente criterio empírico: la aproximación
brinda buenos resultados si se cumple que 𝑛𝑝 ≥ 5 y 𝑛𝑞 ≥ 5. Además, vale la pena
utilizar esta variante cuando las repeticiones del experimento son muchas (n grande), lo
que volvería tedioso y largo el trabajo con las funciones asociadas a la variable discreta
que sigue Distribución Binomial.
Para profundizar sobre esta distribución, estudiar en el libro de texto (Devore, J. L., 2012,
p. 160), el Capítulo 4 “Variables aleatorias continuas y distribuciones de probabilidad”, el
epígrafe “Distribución Normal y poblaciones discretas”, a partir de la página 160.
También consultar el sitio de Internet:
- Microsoft Word - 028_SIGMA_2006.doc (aulamatematica.com)
Además, ver los materiales prácticos de YouTube:
- 04 Aproximación de la binomial a la normal - YouTube
- 05 Problemas de aproximación de la binomial a la normal - YouTube
5.1.2.Distribución Log- Normal
En ocasiones podemos tener mediciones de una variable aleatoria continua que no se

comporten de forma Normal, es decir, que no sigan Distribución Normal. Pero todos los
valores que puede tomar esa variable aleatoria son positivos, entonces es posible que
realizando alguna transformación de los datos, estos “alcancen” un comportamiento en
forma de Campana de Gauss.
Definición 2: sea X una variable aleatoria continua positiva. Tal variable sigue Distribución
Log-Normal con media 𝜇 y varianza 𝜎 2 , y se denota 𝑋~𝐿𝑜𝑔𝑁𝑜𝑟𝑚𝑎𝑙(𝜇, 𝜎 2 ), si al tomar
el logaritmo natural de los valores de X se obtiene una variable que sigue Distribución
Normal con media 𝜇 y varianza 𝜎 2 (es decir, ln (𝑋)~𝑁(𝜇, 𝜎 2 )).
Para esta distribución la función de densidad es:

Página No. 10
1 (ln (𝑥)−𝜇)2
−
𝑓 (𝑥; 𝜇, 𝜎 2 ) = 𝑒 2𝜎 2
𝜎𝑥 √2𝜋
Mientras que sus características numéricas son:
𝜎2 2 2
𝜇+ 2
𝐸 [𝑋 ] = 𝑒 ; 𝑉[𝑋] = (𝑒 𝜎 − 1)𝑒 2𝜇+𝜎
Ejemplo 2: sea que el tiempo de procesamiento de un microprocesador de una
computadora es una variable aleatoria que sigue Distribución Log-normal, con media 2
segundos y varianza 0.25 segundos cuadrados. Hallar la probabilidad de que el
procesador demore más de 3 minutos en correr cierto algoritmo.
Si denotamos por T: velocidad del microprocesador, entonces se tiene que:
𝑇~𝐿𝑜𝑔𝑁𝑜𝑟𝑚𝑎𝑙(𝜇 = 2, 𝜎 2 = 0.25)
Ello implica que existe una variable Y, tal que:
𝑌~𝑁(𝜇 = 2, 𝜎 2 = 0.25)
Entonces,
𝑃(𝑇 > 3 𝑚𝑖𝑛𝑢𝑡𝑜𝑠) = 𝑃(𝑇 > 180 𝑠) = 1 − 𝑃(𝑇 < 180) = 1 − 𝑃[ln(𝑇) < ln(180)] =
5.19 − 2
= 1 − 𝑃[𝑌 < 5.19] = 1 − 𝑃 (𝑍 < ) = 1 − 𝑃(𝑍 < 6.38) = 0
0.5
Por lo visto, el procesador es muy rápido, porque la probabilidad de que demore más de
tres minutos en correr cierto algoritmo es cero.
Consultar los materiales de YouTube:
- Probabilidad | Distribución lognormal - YouTube
- Distribución lognormal | Ejemplo 1 - YouTube
5.2. Distribución Gamma

Si una variable aleatoria continua presenta asimetría positiva; es decir, la probabilidad de
que la variable tome más valores a la izquierda de la media que a la derecha de ese valor;
entonces el comportamiento de esta se describe mejor con una distribución conocida
como Gamma. Tal distribución se caracteriza por dos parámetros positivos, normalmente
denotados 𝛼 y 𝛽. El primero de los parámetros varía la forma de la distribución; mientras
que el segundo varía la escala de esta.

Página No. 11
Definición 3: sea X una variable aleatoria continua. Esta variable sigue Distribución
Gamma, y se denota 𝑋~𝐺𝑎𝑚𝑚𝑎(𝛼, 𝛽), si su función de densidad es de la forma:
1 𝑥
𝛼−1 −
𝑓 (𝑥; 𝛼, 𝛽 ) = 𝛼 𝑥 𝛽
𝑒 ; 𝑥≥0
𝛽 Γ(𝛼 )
Sus características numéricas son:
𝐸 [𝑋] = 𝛼𝛽; 𝑉 [𝑋] = 𝛼𝛽 2
En la expresión de la función de densidad aparece la función especial Gamma Γ(𝛼 ),

que se define a través de una integral impropia:
+∞
Γ(𝛼 ) = ∫ 𝑡 𝛼−1 𝑒 −𝑡 𝑑𝑡
0
Y satisface las siguientes propiedades
- Γ(2) = Γ(1) = 1
- Γ(𝛼 + 1) = 𝛼Γ(𝛼 ), 𝛼 > 0
- Γ(𝑛 + 1) = 𝑛!; 𝑛 ∈ ℤ+
1
- Γ ( ) = √𝜋
2
𝑛 √𝜋(𝑛−1)!
- Γ( ) = 𝑛−1 , ∀𝑛 ∈ ℤ+
2 2𝑛−1 ( 2 )!
Ejemplo 3: sea que cierto circuito electrónico integrado por cuatro componentes
necesita, para completar su función, un tiempo (en segundos) que sigue Distribución
Gamma con 𝛼 = 2, 𝛽 = 4. Hallar la probabilidad de que el circuito demore un tiempo de
entre dos y tres segundos para completar una operación. Calcular el tiempo promedio
que se espera que demore el circuito para funcionar, y la variabilidad de ese tiempo.
En este caso 𝑇~𝐺𝑎𝑚𝑚𝑎(𝛼 = 2, 𝛽 = 4)

3 3
1 𝑥 1 𝑥
𝑃(2𝑠 < 𝑇 < 3 𝑠) = ∫ 2 𝑥 2−1 𝑒 −4 𝑑𝑥 = ∫ 𝑥𝑒 −4 𝑑𝑥 ≈ 0.0832
4 Γ(2) 16
2 2
La probabilidad de que el circuito complete una operación en un tiempo de entre 2 y 3

segundos es igual a 0.0832. O lo que es lo mismo, en el 8.32% de las veces, el circuito
completa una operación entre 2 y 3 segundos.

Página No. 12
𝐸 [𝑋] = 𝛼𝛽 = 8; 𝑉 [𝑋] = 𝛼𝛽 2 = 2 × 16 = 32
𝜎 = √32 ≈ 5.66
Es decir, el tiempo medio en que se espera que el circuito complete una operación es de
8 segundos, con una desviación estándar de 5.66 s aproximadamente.
Consultar también los siguientes enlaces a Internet:
- distribucion-gamma.pdf (webnode.com.ve)
- Distribución Gamma | Aplicación (Problemas Resueltos) – YouTube
Una tabla de la Distribución Gamma, y cómo usarla, puede encontrarse en:
- Libros Caracterización Agroclimática de las Provincias Españolas (mapa.gob.es)
5.2.1. Distribución Exponencial
La Distribución Exponencial es un caso particular de la Distribución Gamma, y se

manifiesta cuando el parámetro de forma de esta última es igual a la unidad (𝛼 = 1).
La Distribución Exponencial es de utilidad para modelar fenómenos relacionados con el

tiempo de espera para que ocurra cierto evento, proceso o experimento.
Definición 4: sea X una variable aleatoria continua. Esta variable sigue Distribución
1 1
Exponencial, y se denota 𝑋~𝐸𝑥𝑝 (𝛽), o también 𝑋~𝐸𝑥𝑝(𝜆), 𝜆 = 𝛽, con parámetro 𝜆 >
0, si su función de densidad es:
𝑓(𝑥; 𝜆) = 𝜆𝑒 −𝜆𝑥 ; 𝑥 ≥ 0
Evidentemente, otra variante de la función de densidad es:
1 −𝛽𝑥
𝑓(𝑥; 𝛽) = 𝑒 ; 𝑥≥0
𝛽
Las características numéricas de la distribución son:
1 1
𝐸 [𝑋 ] = 𝛽 = ; 𝑉 [𝑋 ] = 𝛽 2 =
𝜆 𝜆2
Ejemplo 4: sea que el tiempo que transcurre entre dos instantes en que un Robot detecta
diferentes combinaciones de parámetros para ejecutar una acción de su brazo, es una
1
variable aleatoria que sigue Distribución Exponencial, con 𝜆 = 4. Hallar la probabilidad de
que el Robot detecte dos combinaciones diferentes de parámetros en un tiempo entre 2
y 3 segundos. Hallar las características numéricas de esta variable.

Página No. 13
𝑇~𝐸𝑥𝑝(𝛽 = 4)
1
𝑇~𝐸𝑥𝑝 (𝜆 = )
4
3
1 𝑥
𝑃(2𝑠 < 𝑇 < 3 𝑠) = ∫ 𝑒 −4 𝑑𝑥 ≈ 0.1342
4
2
1 1
𝐸 [𝑋 ] = = 4; 𝑉[𝑋] = = 16
𝜆 𝜆2
Consultar también los siguientes enlaces a Internet:
- Distribución Exponencial - YouTube

- Distribución exponencial, ejemplo aplicando la distribución exponencial -
YouTube
5.3. Distribución Chi-Cuadrado

En ocasiones podría darse el caso de que sea necesario estudiar el comportamiento de varias
variables aleatorias de forma simultánea. Si esas variables que se desea observar, todas, se
caracterizan por seguir Distribución Normal, entonces se podría conformar una única variable,
cuyo comportamiento se caracteriza de la forma que se describe a continuación.
Sean las variables aleatorias continuas 𝑍1 , 𝑍2 , ⋯ , 𝑍𝐿 tales que 𝑍𝑖 ~𝑁(𝜇 = 0, 𝜎 2 = 1); 𝑖 =

1, ⋯ , 𝐿; es decir, se tienen L variables que siguen Distribución Normal estandarizada. Con ellas es
posible definir una nueva variable aleatoria continua, a saber:
𝐿
𝑋 = 𝑍12 + 𝑍22 + ⋯ + 𝑍𝐿2 = ∑ 𝑍𝑖 2

𝑖=1
Definición 4: sea X una variable aleatoria continua que representa la suma de los
cuadrados de L variables que siguen Distribución Normal estándar. La variable X sigue
Distribución Chi-Cuadrado con L grados de libertad, y se denota 𝑋~𝜒𝐿2 , si su función de
densidad es de la forma:

Página No. 14
𝐿
1 2
(2) 𝐿 𝑥
−1 −
𝑓(𝑥 ) = (𝑥) 𝑒 2 ;
2 𝑥>0
𝐿
Γ (2)
En la expresión de la función de densidad aparece la función especial Gamma Γ(𝛼 ) vista
anteriormente.
𝐸 [𝑋] = 𝐿; 𝑉[𝑋] = 2𝐿
Esta distribución también es conocida como Distribución de Pearson y tiene muchas
aplicaciones en la Inferencia Estadística.
Desde el punto de vista de la aplicación, la Distribución de Pearson es más utilizada a

partir de los valores tabulados de su función de probabilidad acumulada. Y por su propia
definición, no puede tomar valores negativos (las variables normales primero se elevan
al cuadrado y luego se suman)
Una tabla de la Distribución Chi-Cuadrado, y cómo utilizarla, puede consultarse en el sitio

de Internet:
- Tablas estadísticas/Distribución chi-cuadrado - Wikilibros (wikibooks.org)

- Chi Cuadrado | Distribución de Probabilidad - YouTube
Bibliografía
Devore, J. L. (2012). Probabilidad y Estadística para ingeniería y ciencias. Cengage Learning.

Octava edición.

Página No. 15
Datos del alumno Fecha
Nombres: César Esteban

21/10/2022
Apellidos: Sarmiento Coronel
Desarrollo de la Actividad
1) Utilizar diagramas de Venn para verificar las siguientes igualdades:

a. (C∩F) C=CC U FC ESTA CONDICION SI CUMPLE
S = {1,2,3,4,5,6,7,8,9,10}
C = {1,2,4,7,9}
F= {3,5,7,8,10}
S C∩F
C
1 10
1 9 1 9
10 2 7
2 2 7 3 8
7 3 4 4
5
8 9 6
F =
4
5 3 10
7
8
5
(C∩F) C
1
4
2 3
5 6
8 9 10
CC
FC CC U FC
3 5 1 2
6 10 4
6 =
8 9
ESTA CONDICION SI CUMPLE

b. (E∩G) U (E∩GC) =E ESTA CONDICION NO CUMPLE

E = {1,2,4,7,9}
G= {3,5,7,8,10}
(E∩G)
E∩GC
(E∩G) U (E∩GC)
7
9
2) ¿De cuantas maneras diferentes se pueden parquear autos en 10 un parqueadero si este

cuenta con espacios disponibles en un lateral 6 y 4 espacios disponibles en el otro lateral?
Para este problema se tiene dos soluciones teniendo en cuenta la formula de conteo de puntos de
la muestra.
Para el caso donde existen 6 espacios disponibles es:
𝑛 𝑛! 10 10 ∗ 9 ∗ 8 ∗ 7 ∗ 6 ∗ 5 ∗ 4 ∗ 3 ∗ 2 ∗ 1
( )= =( )= = 210
𝑚 𝑚! (𝑛 − 𝑚)! 6 6 ∗ 5 ∗ 4 ∗ 3 ∗ 2 ∗ 1(4 ∗ 3 ∗ 2 ∗ 1)
Para el caso donde existen 4 espacios disponibles es:
𝑛 𝑛! 10 10 ∗ 9 ∗ 8 ∗ 7 ∗ 6 ∗ 5 ∗ 4 ∗ 3 ∗ 2 ∗ 1
( )= =( )= = 210
𝑚 𝑚! (𝑛 − 𝑚)! 4 4 ∗ 3 ∗ 2 ∗ 1(6 ∗ 5 ∗ 4 ∗ 3 ∗ 2 ∗ 1)
Existe otra forma de análisis para este problema y es sacar la factorial solo de los espacios
disponibles, es decir:
𝑛! = 10 ∗ 9 ∗ 8 ∗ 7 ∗ 6 ∗ 5 ∗ 4 ∗ 3 ∗ 2 ∗ 1 = 3628800
3) Supóngase que cierto especialista, en sus días laborales, trabaja en el proyecto A durante
2/3 de las veces; trabaja en el proyecto B en la mitad de las veces; mientras que trabaja en

2
ambos proyectos 1/3 de las veces. Si se selecciona un día laboral de este especialista, al
azar:
a. ¿Cuál es la probabilidad de que trabaje, ese día, solo en el proyecto B?
2
𝑃 (𝐴 ) = = 0.6666 = 66.66%
3
1
𝑃 (𝐵 ) = = 0.5 = 50%
2
2 1 1
𝑃 (𝐴 ∩ B ) = − = = 0.3333 = 33.33%
3 3 3
𝑃 (𝐵) − 𝑃(𝐴 ∩ B) = 50% − 33.33% = 16.67%
b. ¿Cuál es la probabilidad de que se dedique a otra actividad?
1 1 1
𝑃 (𝐶 ) = 1 − − = = 0.1666 = 16.66%
2 3 6
4) Según cierta información de una casa de Software, de sus tres programadores estelares, el
Programador A escribe más líneas de código diarias que el Programador B en el 35% de
las veces. Mientras que el mismo Programador A escribe más líneas de código que el
Programador C en el 55% de las veces. Si se selecciona un día laboral cualquiera, de
forma aleatoria, ¿cuál es la probabilidad de que el Programador A hubiese escrito, ese día,
más líneas de código que los otros dos programadores estelares de la empresa?
𝑃(𝐵) = 35%
𝑃 (𝐶 ) = 55%
𝑃 (𝐶 ) = 𝑃 (𝐵 ∩ C) = 0.35 ∗ 0.55 = 0.1925 = 19.25%
La probabilidad de que el programador escriba más líneas de código es de 19.25%

3
Nombres: César Sarmiento 28/10/2022
Problemas
1. Para los clientes que adquieren dispositivos de comunicación, sean los eventos:
- A: que el dispositivo sea manufacturado en algún país de la Unión Europea.
- B: que el dispositivo tenga un radio de alcance de al menos 10Km
- C: que el dispositivo sea multipropósito
Se conoce la siguiente información probabilística: P(A) = 0.7; P(B/A) = 0.85; P(B/Ac) = 0.75;
P(C/A∩B) = 0.8; 𝑃 (𝐶/𝐴 ∩ 𝐵c) = 0.55; 𝑃(𝐶/𝐴c∩𝐵) = 0.65; 𝑃 (𝐶/𝐴c ∩ 𝐵c) = 0.25
a. Construya el correspondiente diagrama de árbol para todas las relaciones entre los
distintos eventos
P(B ∩ A)
𝑃(𝐵/𝐴) =
𝑃 (𝐴 )
P(B ∩ A)
0.85 =
0.7
P(B ∩ A) = 0.85 ∗ 0.7 = 0.595
𝐴𝐶 = 0.3
P(B ∩ 𝐴𝐶 )
P(B/𝐴𝐶 ) =
𝑃(𝐴𝐶 )
P(B ∩ 𝐴𝐶 )
0.75 =
0.3
P(B ∩ 𝐴𝐶 ) = 0.75 ∗ 0.3 = 0.225
P(B ∩ A) = P(A ∩ B) = 0.595
P(C ∩ A ∩ B)
P(C/A ∩ B) =
P(A ∩ B)
P(C ∩ A ∩ B)
0.8 =
0.595
0.8 ∗ 0.595 = 0.476
P(B) = P(A ∩ B) + B ∩ 𝐴𝐶
P(B) = 0.595 + 0.225 = 0.82
P(C ∩ A ∩ 𝐵𝐶 )
P(C/A ∩ 𝐵𝐶 ) =
P(A ∩ 𝐵𝐶 )
P(A ∩ 𝐵𝐶 ) = 0.7 − 0.595 = 0.105
P(C ∩ A ∩ 𝐵𝐶 )
0.55 =
0.105
P(C ∩ A ∩ 𝐵𝐶 ) = 0.55 ∗ 0.105 = 0.05775
P(A ∩ C) − 𝑃 (A ∩ B ∩ C) = P(C ∩ A ∩ 𝐵𝐶 )
P(A ∩ C) = P(C ∩ A ∩ 𝐵𝐶 ) + 𝑃(A ∩ B ∩ C)
P(A ∩ C) = 0.05775 + 0.476 = 0.53375
P(C ∩ 𝐴𝐶 ∩ B)
P(C/𝐴𝑐 ∩ B) =
P(B ∩ 𝐴𝐶 )
P(C ∩ 𝐴𝐶 ∩ B)
P(C/𝐴𝑐 ∩ B) =
P(B ∩ 𝐴𝐶 )
P(C ∩ 𝐴𝐶 ∩ B)
0.65 =
0.225
P(C ∩ 𝐴𝐶 ∩ B) = 0.225 ∗ 0.65 = 0.14625
𝑃(𝐶 ∩ 𝐴𝑐 ∩ 𝐵𝑐 )
P(C/𝐴𝑐 ∩ 𝐵𝑐 ) =
𝑃(𝐴𝑐 ∩ 𝐵𝑐 )
𝑃(𝐴𝑐 ∩ 𝐵𝑐 ) = 1 − 𝑃(A ∩ B)
𝑃 (𝐴𝑐 ∩ 𝐵𝑐 ) = 1 − 0.595 = 0.405
𝑃(𝐶 ∩ 𝐴𝑐 ∩ 𝐵𝑐 )
0.25 =
0.405
𝑃(𝐶 ∩ 𝐴𝑐 ∩ 𝐵𝑐 ) = 0.25 ∗ 0.405 = 0.10125
𝑃(𝐶 ) = P(C ∩ A ∩ B) + P(C ∩ A ∩ 𝐵𝐶 ) + 𝑃(𝐶 ∩ 𝐴𝑐 ∩ B) + 𝑃(𝐶 ∩ 𝐴𝑐 ∩ 𝐵𝑐 )
𝑃 (𝐶 ) = 0.476 + 0.05775 + 0.14625 + 0.101525
𝑃(𝐶 ) = 0.781525

2
Universidad Politécnica Salesiana C
B
FIN
P(A∩B)
B P(A∩BC)
C
A
FIN
P(A∩C)
FIN
FIN
C
P(A∩C∩B)
Total B
C A
FIN
P(B∩AC)
FIN
B
P (C∩ A ∩ B)
A
FIN
C
B
FIN
P(C∩ AC ∩ BC )

3
b. Calcular 𝑃(𝐶).
𝑃(𝐶 ) = 0.781525
c. Calcular 𝑃 (𝐴 ∩ 𝐵 ∩ 𝐶).
P(C ∩ A ∩ B) = 𝑃 (𝐴 ∩ B ∩ C) = 0.476
d. Calcular 𝑃 (𝐶 ∩ 𝐵).
P(C ∩ B) = P(C ∩ 𝐴𝐶 ∩ B) + P(C ∩ A ∩ B)
P(C ∩ B) = 0.14625 + 0.476
P(C ∩ B) = 0.62225
e. Calcular 𝑃 (𝐴/𝐶 ∩ 𝐵).
P(C ∩ A ∩ B)
P(A/C ∩ B) =
P(C ∩ B)
0.476
P(𝐴/𝐶 ∩ B) =
0.62225
P(𝐴/𝐶 ∩ B) = 0.7649658497
2. Tres máquinas de troquelado A, B y C producen el 35%, 55% y 10% respectivamente, de
la producción de cierta industria. Además, las probabilidades de que de cada máquina
salga un producto defectuoso es, respectivamente, 0.2; 0.3 y 0.15. Si se selecciona un
producto de esta industria, de forma aleatoria:
a. Calcular la probabilidad de que el producto sea defectuoso.

𝑃 (𝐴) = 35%; 𝑃 (𝐵) = 55%; 𝑃(𝐶 ) = 10%
𝑃(𝐷𝑒𝑓𝑒𝑐𝑡𝑢𝑜𝑠𝑜); 𝑃(𝐴𝐷 ) = 0.2; 𝑃(𝐵𝐷 ) = 0.3; 𝑃 (𝐶𝐷 ) = 0.15
𝑃(𝐷𝑒𝑓𝑒𝑐𝑡𝑢𝑜𝑠𝑜) = (0.35 ∗ 0.2) + (0.55 ∗ 0.3) + (0.10 ∗ 0.15) = 0.25 = 25%
b. Si se escoge un producto y se constata que es defectuoso, ¿cuál es la probabilidad de que
haya salido de la máquina C?
𝑃 (𝐶 ) 0.10 ∗ 0.15
= = 0.06 = 6%
𝑃(𝐷𝑒𝑓𝑒𝑐𝑡𝑢𝑜𝑠𝑜) 0.25
3. En una tienda de telefonía celular, el 35% de los clientes adquieren equipos de marca
IPhone, el 35% de los clientes compran equipos de marca Samsung; mientras que el 30%
de los clientes prefieren equipos marca Huawei. De los clientes que gustan del IPhone, el

4
25% generalmente adquieren más capacidad de memoria de la que dispone el equipo; de

los que prefieren la marca Samsung, el 20% compran memoria adicional; mientras que los
clientes que gustan de la marca Huawei, el 55% compran también memoria adicional.
a. ¿Cuál es la probabilidad de que el siguiente cliente que llegue a esta tienda a comprar pida
un equipo marca Huawei y compre memoria adicional?
𝑃(𝐶𝑒𝑙𝑢𝑙𝑎𝑟𝐻𝑢𝑎𝑤𝑒𝑖 ) = 30%; 𝑃(𝑀𝑒𝑚𝑜𝑟𝑖𝑎𝐻𝑢𝑎𝑤𝑒𝑖 ) = 55%
𝑃(𝐻𝑢𝑎𝑤𝑒𝑖𝑀𝑒𝑚𝑜𝑟𝑖𝑎) = 𝑃(𝐶𝑒𝑙𝑢𝑙𝑎𝑟𝐻𝑢𝑎𝑤𝑒𝑖 ) ∗ 𝑃(𝑀𝑒𝑚𝑜𝑟𝑖𝑎𝐻𝑢𝑎𝑤𝑒𝑖 )
𝑃 (𝐻𝑢𝑎𝑤𝑒𝑖𝑀𝑒𝑚𝑜𝑟𝑖𝑎) = 0.30 ∗ 0.55 = 0.165 = 16.5%
b. ¿Cuál es la probabilidad de que el siguiente cliente que entre a esta tienda compre
memoria adicional?
𝐶𝑒𝑙𝑙𝐼𝑝ℎ𝑜𝑛𝑒 𝐶𝑒𝑙𝑙𝑆𝑎𝑚𝑠𝑢𝑛𝑔 𝐶𝑒𝑙𝑙𝐻𝑢𝑎𝑤𝑒𝑖
𝑃(𝑀𝑒𝑚𝑜𝑟𝑖𝑎) = 𝑃 ( )+ 𝑃( )+ 𝑃( )
𝑀𝑒𝑚𝑜𝑟𝑖𝑎𝐼𝑝ℎ𝑜𝑛𝑒 𝑀𝑒𝑚𝑜𝑟𝑖𝑎𝑆𝑎𝑚𝑠𝑢𝑛𝑔 𝑀𝑒𝑚𝑜𝑟𝑖𝑎𝐻𝑢𝑎𝑤𝑒𝑖
𝑃(𝑀𝑒𝑚𝑜𝑟𝑖𝑎) = (0.35 ∗ 0.25) + (0.35 ∗ 0.20) + (0.30 ∗ 0.55)
𝑃(𝑀𝑒𝑚𝑜𝑟𝑖𝑎) = 0.3225 = 32.25%
c. Si el siguiente cliente que llega a esta tienda a comprar pidió memoria adicional, ¿cuál es
la probabilidad de que haya comprado en equipo marca Samsung?
𝐶𝑒𝑙𝑙𝑆𝑎𝑚𝑠𝑢𝑛𝑔 𝑃 (𝐶𝑒𝑙𝑙𝑆𝑎𝑚𝑠𝑢𝑛𝑔 ∩ Memoria) 0.07

𝑃( )= =
𝑀𝑒𝑚𝑜𝑟𝑖𝑎 𝑃 (𝑀𝑒𝑚𝑜𝑟𝑖𝑎) 0.3225
𝐶𝑒𝑙𝑙𝑆𝑎𝑚𝑠𝑢𝑛𝑔
𝑃( ) = 0.217 = 21.7%
𝑀𝑒𝑚𝑜𝑟𝑖𝑎

5
Nombres: César Esteban 03/11/2022
1. El conjunto de datos a continuación representa la duración, en minutos, de las llamadas

telefónicas recibidas por 120 personas durante cierto día de la semana pasada:
Para poder resolver este ejercicio lo primero que se tiene que hacer es ordenar los valores de menor
a mayor.
4,6 1 2,2
11,2 2 2,3
7,5 3 3,3
8,3 4 3,4
5,4 5 3,4
7,6 6 3,5
5,4 7 3,6
8,4 8 3,7
5,1 9 3,7
10,8 10 3,9
7,8 11 4
9,3 12 4,1
12,3 13 4,3
10,5 14 4,5
6,2 15 4,6
6,5 16 4,8
4,8 17 4,8
3,9 18 5
5,5 19 5
7,3 20 5
6,7 21 5,1
15,5 22 5,1
7 23 5,1
9,6 24 5,4
7,1 25 5,4
14,3 26 5,5
5,8 27 5,5
7,6 28 5,6
7,5 29 5,6
11,9 30 5,6
4,3 31 5,7
10,3 32 5,8
10,2 33 5,9
7,5 34 6
6,9 35 6
10,4 36 6,1
7 37 6,2
8 38 6,2
2,3 39 6,2
9,3 40 6,2
6 41 6,3

2
2,2 42 6,4
9 43 6,4
11,9 44 6,4
6,2 45 6,5
6,4 46 6,6
4,1 47 6,6
9,3 48 6,6
4 49 6,7
8,8 50 6,7
3,4 51 6,8
9,2 52 6,9
6,9 53 6,9
15 54 6,9
12,7 55 6,9
6 56 7
8,4 57 7
3,4 58 7
3,6 59 7,1
6,9 60 7,2
9,2 61 7,2
6,4 62 7,3
10,4 63 7,3
7,3 64 7,4
10,8 65 7,5
7,2 66 7,5
11,3 67 7,5
5,6 68 7,5

3
7 69 7,5
5,5 70 7,6
11,9 71 7,6
9,8 72 7,8
6,7 73 8
5,1 74 8,2
9,8 75 8,3
5 76 8,4
7,5 77 8,4
6,1 78 8,8
7,4 79 9
9,5 80 9,1
4,8 81 9,2
6,6 82 9,2
3,7 83 9,3
9,1 84 9,3
6,9 85 9,3
5,6 86 9,3
6,6 87 9,5
6,3 88 9,6
6,6 89 9,6
15,3 90 9,6
5 91 9,7
9,3 92 9,8
5,6 93 9,8
5,9 94 10,2
5,7 95 10,3

4
10,6 96 10,4
11,5 97 10,4
9,6 98 10,4
3,7 99 10,5
13,8 100 10,5
5 101 10,6
18,9 102 10,8
3,5 103 10,8
10,4 104 11,2
10,5 105 11,3
15 106 11,3
6,8 107 11,5
4,5 108 11,9
5,1 109 11,9
7,5 110 11,9
6,4 111 12,3
6,2 112 12,7
3,3 113 13,8
7,2 114 14,3
8,2 115 14,6
9,7 116 15
14,6 117 15
9,6 118 15,3
11,3 119 15,5
6,2 120 18,9

5
a. Construir un gráfico de tallos y hojas para estos datos.

1
2 2 3 3
3 4 4 5 6 7 7 9
4 0 1 3 5 6 8 8
5 0 0 0 1 1 1 4 4 5 5 6 6 6 7 8 9
6 0 0 1 2 2 2 2 3 4 4 4 5 6 6 6 7 7 8 9 9 9 9
7 0 0 0 1 2 2 3 3 4 5 5 5 5 5 6 6 8
8 0 2 3 4 4 8
9 0 1 2 2 3 3 3 3 5 6 6 6 7 8 8
10 2 3 4 4 4 5 5 6 8 8
11 2 3 3 5 9 9 9
12 3 7
13 8
14 3 6
15 0 0
18 9
b. ¿Cuál es la duración representativa de las llamadas telefónicas?
Para calcular la duración representativa de las llamadas, se tiene que calcular el promedio
de todas las 120 llamadas.
𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑚𝑖𝑛𝑢𝑡𝑜𝑠 942.6
𝑃𝑟𝑜𝑚𝑒𝑑𝑖𝑜 = = = 7.855𝑚𝑖𝑛𝑢𝑡𝑜𝑠
𝑁𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 120
c. Indicar, de haberlo, cuál es el valor extremo.
El valor extremo de esta muestra de datos es de 18.9
d. Construir un diagrama de cajas y bigotes para estos datos. Valorar la dispersión de los datos
sobre la base del gráfico obtenido.

6
Lo primero que se tiene que hacer para poder hacer el diagrama de cajas y bigotes se tiene
que tener en cuenta los cuartiles, siendo un total de 3, para poder calcular los cuartiles se
usa la siguiente formula.
𝑘∗𝑁
= 1,2,3.
4
K= numero de cuartil que quiero obtener.

N= número total de datos
Una ver encontrado los cuartiles se tiene que tener en cuenta el número total de datos, ya
que si se tiene un número par se tiene que tomar el siguiente valor y sacar un promedió, de
lo contrario si es par se toma el valor redondeado al numero superior.
𝑘 ∗ 𝑁 1 ∗ 120
𝑄1 = = = 30
4 4
El valor en la posición 30 es 5.6 pero como el número total de números es de 120 se tendría
que sacar un promedio de la posición 30 mas la 31 que sería:
𝑃30 + 𝑃31 5.6 + 5.7

𝑄1 = = = 5.65
2 2
Calculamos el cuartil dos y tres de la misma manera:
𝑘 ∗ 𝑁 2 ∗ 120
𝑄2 = = = 60
4 4
𝑃60 + 𝑃61 7.2 + 7.2

𝑄2 = = = 7.2
2 2
𝑘 ∗ 𝑁 3 ∗ 120
𝑄3 = = = 90
4 4
𝑃90 + 𝑃91 9.6 + 9.7

𝑄3 = = = 9.65
2 2
Los cuartiles quedan de la siguiente manera:

Cuartil Posición Valor
1 30 5.65
2 60 7.2
3 90 9.65

7
Entonces el grafico de cajas y bigotes queda de la siguiente manera.
2. Para los siguientes datos, que representan mediciones de las distancias recorridas por un
robot, expresadas en metros, mientras se verifica un nuevo dispositivo de control para
activar y desactivar la marcha del robot. Los valores positivos y negativos significan que el
avance del robot se produjo hacia adelante o hacia atrás, respectivamente:

8
Ordenamos los datos de la muestra de menor a mayor.

1,06 1 -1,42
-1,42 2 -1,35
0 3 -1,34
0,98 4 -1,28
-1,28 5 -1,26
0,44 6 -1,02
-1,02 7 -0,58
0,38 8 -0,35
0,4 9 -0,24
-0,58 10 -0,03
-1,35 11 0
2,13 12 0,38
1,36 13 0,40
-0,24 14 0,44
2,05 15 0,98
-0,03 16 1,06
-0,35 17 1,06
-1,34 18 1,36
1,06 19 2,05
-1,26 20 2,13
a. Construir, para estos datos, una distribución empírica, es decir, la tabla de frecuencias y los
gráficos asociados (histograma y polígono de frecuencias)
Lo primero que vamos a hacer es sacar los datos de la muestra planteada.

Numero de datos 20
Valor Máximo 2.13
Valor Mínimo -1.42
Rango (R) 3.55
Numero de intervalos (K) 5.32202165=5
Amplitud (A) 0.71=0.8
Para calcular el Rango se restó el valor máximo del valor mínimo.

El numero de intervalos se encontró con la Regla de Sturges:
𝑘 = 1 + 3.322𝑙𝑜𝑔𝑛
La amplitud se encontró dividiendo el rango para el numero de intervalos: R/K
Entonces una ves con todos los valores empezamos a armar la tabla, desde su mínimo valor
sumando mas la amplitud que cada intervalo va a tener.

9
Lim Lim Marca Frec Frecuencia Frecuencia Frecuencia Numero

Inf Sup de Absoluta Acumulada Relativa Relativa de
Clase (n) (N) (f) Acumulada Intervalo
(F)
-1.42 -0.62 -1.02 6 6 0.30 0.30 1
-0.62 0.18 -0.22 5 11 0.25 0.55 2
0.18 0.98 0.58 4 15 0.20 0.75 3
0.98 1.78 1.38 3 18 0.15 0.90 4
1.78 2.58 2.18 2 20 0.10 1.00 5
b. Calcular la media muestral, la mediana muestral, la varianza muestral y la desviación

estándar muestral; utilizando siempre las expresiones de cálculo para datos agrupados.
𝑆𝑢𝑚𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 0.99

𝑀𝐸𝐷𝐼𝐴 = = = 0.0495
𝑁𝑢𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 20
𝐷𝑎𝑡𝑜 9 + 𝐷𝑎𝑡𝑜 12 0 + 0.03

𝑀𝐸𝐷𝐼𝐴𝑁𝐴 𝑃𝐴𝑅 = = = 0.015.
2 2
Para calcular la varianza muestral se aplica la siguiente formula.
∑(𝑋𝑖 − 𝑋)2
𝑆2 =
𝑛−1
En cambio para la desviación estándar es la siguiente formula.
∑(𝑋𝑖 − 𝑋)2
𝑆=√
𝑛−1

10
(Xi-X) (Xi-X)2
1 -1,47 2,16
2 -1,40 1,96
3 -1,39 1,93
4 -1,33 1,77
5 -1,31 1,71
6 -1,07 1,14
7 -0,63 0,40
8 -0,40 0,16
9 -0,29 0,08
10 -0,08 0,01
11 -0,05 0,00
12 0,33 0,11
13 0,35 0,12
14 0,39 0,15
15 0,93 0,87
16 1,01 1,02
17 1,01 1,02
18 1,31 1,72
19 2,00 4,00
20 2,08 4,33
Suma Total de (Xi-X)2 = 24.66
Varianza muestral 1.233

Desviación estándar 1.110

11
c. Hallar el primer cuartil, el tercer cuartil y el intervalo intercuartílico.
Numero total de datos: 20 PAR
Cuartil Posición Valor

1 5 -1.14
2 10 -0.015
3 15 1.02
El intervalo intercuartílico se encuentra de las restas entre Cuartiles = 5
d. ¿Cuál es la estimación de 𝐹 (3)?
75% de los robots recorren de 1.42m en reversa a 0.98m hacia adelante.
e. Interprete los valores de 𝑛2; 𝑓2.
1. Hubo 5 mediciones entre el intervalo [-0.68;0.18) (n2)

2. El 25% de las mediciones esta entre el intervalo [-0.68;0.18) (f2)

12
Problemas:
1. Los siguientes datos representan mediciones de resistencia a la fractura de muestras de un
material polimérico utilizado en la manufactura de cierto tipo de robot. Las mediciones
están dadas en Mega Pascales (MPa).
85; 96; 99; 101; 108; 117; 131; 134; 145; 160.
a. Calcule los valores de la mediana y la media muestrales.
Resistencia a la fractura
Muestra MPa
1 85
2 96
3 99
4 101
5 108
6 117
7 131
8 134
9 145
10 160
- Media:
𝑛
1
𝑧 = ∑ 𝑧𝑖
𝑛
𝑖=1
85 + 96 + 99 + 101 + 108 + 117 + 131 + 134 + 145 + 160

𝑧= = 117.6𝑀𝑃𝑎
10
- Mediana:
𝑛 10
𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = = = 5 (𝑃𝑎𝑟)
2 2
El numero de la muestra en la posición 5 más la 6 dividido ya que es un numero par en el

total de datos.
𝑉𝑎𝑙𝑜𝑟 5 + 𝑉𝑎𝑙𝑜𝑟 6 108 + 117

𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = = = 112.5𝑀𝑃𝑎
2 2
b. Interprete cada uno de los resultados obtenidos.
Tomando en cuenta que la diferencia es del 4% entre sus valores extremos, y teniendo
en cuenta que los valores son heterogéneos y por esta variación es la que no se tiene
valores extremos encontrados como en tareas anteriores.
2. Los datos del siguiente conjunto representan mediciones del tiempo, en segundos, que demoran los
mensajes de SMS en ser receptados por los dispositivos móviles de cierto número de personas, en
un día específico. La distancia entre equipos emisores y equipos receptores es considerablemente
grande:
Para empezar con la resolución de este ejercicio, tenemos que ordenar de menor a mayor
los valores de la muestra.
Cuanto se demora en Seg un

mensaje SMS en ser
Receptado.
Muestra seg
1 87
2 87
3 93
4 99
5 103
6 105
7 119
8 129
9 130
10 132
11 138
12 145
13 145
14 152
15 153
16 160
17 180
18 195
19 211

2
a. Calcular la varianza muestral y la desviación estándar muestral.

Lo primero que hacemos es calcular el promedio de la muestra.
87 + 87 + 93 + 99 + 103 + 105 + 119 + 124 + 130 + 132 + 138 + 145 + 145 + 152 + 153 + 160 + 180 + 195 + 211
𝑃𝑟𝑜𝑚𝑒𝑑𝑖𝑜 =
19
𝑃𝑟𝑜𝑚𝑒𝑑𝑖𝑜 = 134.9𝑆𝑒𝑔
Después utilizamos las respectivas fórmulas para el cálculo de la varianza y desviación
estándar.
Muestra (i) seg (Zi) (Zi-Zm) (Zi-Zm)^2
[seg] [seg^2]
1 87 -47,9 2293,9
2 87 -47,9 2293,9
3 93 -41,9 1755,2
4 99 -35,9 1288,4
5 103 -31,9 1017,3
6 105 -29,9 893,7
7 119 -15,9 252,6
8 129 -5,9 34,7
9 130 -4,9 24,0
10 132 -2,9 8,4
11 138 3,1 9,6
12 145 10,1 102,1
13 145 10,1 102,1
14 152 17,1 292,6
15 153 18,1 327,8
16 160 25,1 630,3
17 180 45,1 2034,5
18 195 60,1 3612,6
19 211 76,1 5792,0
Sumatoria total de (Zi-Zm)^2 [seg^2] = 22765.8 seg2

- Varianza:
𝑛
1 22765.8
𝑆𝑍2 = ∑(𝑧𝑖 − 𝑍𝑚)2 = = 1264.8 𝑠𝑒𝑔2
𝑛−1 18
𝑖=1
- Desviación estándar:
𝑆𝑧 = √𝑆𝑍2 = √1264.8 = 35.56 𝑠𝑒𝑔

3
b. Interpretar el valor de S obtenido.
La desviación de cuanto se demora en segundos un mensaje SMS en ser recibido es respecto

a su promedio de 35.56seg en promedio.
c. Si los valores se expresaran en minutos, ¿cuáles serían los resultados para ambas medidas
de dispersión?
Para esta pregunta se hace una regla de 3 con respecto a los minutos.
- Varianza:
1𝑚𝑖𝑛2
1264.8 𝑠𝑒𝑔2 = = 0.35𝑚𝑖𝑛2
(60𝑠𝑒𝑔)2
- Desviación estándar:
1𝑚𝑖𝑛
35.56 𝑠𝑒𝑔 = = 0.59𝑚𝑖𝑛
60𝑠𝑒𝑔
La desviación de cuanto se demora en minutos un mensaje SMS en ser recibido es respecto

a su promedio de 0.59min en promedio.
d. Calcular el recorrido de los datos y el valor de K a utilizar si se fuese a construir, para esta
variable, una distribución empírica.
Se sabe que k es el numero de intervalos que se irán a crear, se calcula con la Regla de Sturges.
𝑘 = 1 + 3.322 log 𝑛
𝑘 = 1 + 3.322 log 19
𝑘 = 5.24 ≈ 5 𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜𝑠 𝑎 𝑐𝑟𝑒𝑎𝑟.
Para el calculo del recorrido se tiene que tener en cuenta el valor máximo y mínimo siendo 211
y 87 segundos respectivamente.
El rango es la resta del valor máximo y mínimo.
𝑅𝑎𝑛𝑔𝑜 𝑜 𝑅𝑒𝑐𝑜𝑟𝑟𝑖𝑑𝑜 = 𝑉𝑎𝑙𝑜𝑟 𝑀𝑎𝑥 − 𝑉𝑎𝑙𝑜𝑟 𝑀𝑖𝑛 = 211 − 87 = 124𝑠𝑒𝑔
Podemos calcular algo más que sería la amplitud de cada rango que sería:
𝑅 124
𝐴= = = 24.8 ≈ 25
𝐾 5

4
1. Un establecimiento de comidas rápidas que brinda servicio por teléfono, tiene 5 canales
destinados a la atención a las solicitudes de los clientes. Sea que se registra la cantidad de
canales en uso en un instante específico, y la función de probabilidad para esta variable es
la siguiente:
Calcular la probabilidad de que, en cierto instante de un día laboral:

a. Por lo menos cuatro canales no estén en uso.
𝑃̅̅̅̅̅̅̅̅̅̅
(𝑥 ≥ 4) = 1 − 𝑃 (𝑥 ≥ 4)
𝑃̅̅̅̅̅̅̅̅̅̅
(𝑥 ≥ 4) = 1 − [𝑃(𝑥 = 4) + 𝑃(𝑥 = 5)]
𝑃̅̅̅̅̅̅̅̅̅̅
(𝑥 ≥ 4) = 1 − [0.07 + 0.03]
𝑃̅̅̅̅̅̅̅̅̅̅
(𝑥 ≥ 4) = 1 − [0.10]
̅̅̅̅̅̅̅̅̅̅
𝑃 (𝑥 ≥ 4) = 0.90 = 90%
b. Que entre dos y cuatro canales estén en uso.
𝑃(2 ≤ 𝑥 ≤ 4) = 𝑃(𝑥 = 2) + 𝑃(𝑥 = 3) + 𝑃 (𝑥 = 4)

𝑃(2 ≤ 𝑥 ≤ 4) = 0.15 + 0.10 + 0.07
𝑃(2 ≤ 𝑥 ≤ 4) = 0.32 = 32%
c. Que menos de tres canales estén en uso.
𝑃 (𝑥 < 3) = 𝑃 (𝑥 = 2) + 𝑃(𝑥 = 1) + 𝑃(𝑥 = 0)

𝑃(𝑥 < 3) = 0.15 + 0.30 + 0.35
0.8 = 80%
d. Que a lo sumo un canal esté ocupado.

𝑃(𝑥 ≤ 1) = 𝑃 (𝑥 = 0) + 𝑃(𝑥 = 1)
𝑃(𝑥 ≤ 1) = 0.35 + 0.30
𝑃 (𝑥 ≤ 1) = 0.65 = 65%
2. El tiempo que demora en descargarse un archivo de internet con un peso de hasta 60 MB, en cierto
ordenador, está entre cero y dos segundos. Sea que este tiempo es guardado en la variable Y, que
está representada por la siguiente expresión analítica:
𝑐𝑦 2 ; 0 < 𝑦 < 2
𝑓 (𝑦 ) = {
a. ¿Cuál debe ser el valor de la constante c para que la función anterior sea la función de densidad
de probabilidad de la variable Y.
𝑓 (𝑦 ) ≥ 0 ∀ 𝑦
b. ¿Cuál es la probabilidad de que un archivo con un peso de 45 MB demore en descargarse, en

este ordenador, a lo sumo 1,25 segundos?
∞
∫ 𝑓 (𝑦) ∗ 𝑑𝑦 = 1
−∞
0 2 ∞
∫ 𝑓 (𝑦) ∗ 𝑑𝑦 + ∫ 𝑓 (𝑦) ∗ 𝑑𝑦 + ∫ 𝑓 (𝑦) ∗ 𝑑𝑦 = 1
−∞ 0 2
0 2 ∞
∫ 0 ∗ 𝑑𝑦 + ∫ 𝑐𝑦 2 ∗ 𝑑𝑦 + ∫ 0 ∗ 𝑑𝑦 = 1
−∞ 0 2
2
∫ 𝑐𝑦 2 ∗ 𝑑𝑦 = 1
0
2
𝑐𝑦 3
[ ] =1
3 0
𝑐(2)3 𝑐(0)3
[ ]−[ ]=1
3 3
8𝑐
=1
3
3
𝑐=
8
3 2
𝑓 (𝑦) = {8 𝑦 ; 0 < 𝑦 < 2
1.25
3 2
𝑓 (𝑦 ) = ∫ 𝑦 ∗ 𝑑𝑦
−∞ 8

2
0 1.25 1.25
3 2
∫ 𝑓 (𝑦) ∗ 𝑑𝑦 + ∫ 𝑓 (𝑦) ∗ 𝑑𝑦 = ∫ 𝑦 ∗ 𝑑𝑦
−∞ 0 0 8
1.25 3 1.25
3 2 3 𝑦
∫ 𝑦 ∗ 𝑑𝑦 = [ ∗ ]
0 8 8 3 0
1.25 1.25
3 2 𝑦3
∫ 𝑦 ∗ 𝑑𝑦 = [ ]
0 8 8 0
1.25 (1.25)3 (0)3
3 2
∫ 𝑦 ∗ 𝑑𝑦 = [ ]−[ ]
0 8 8 8
1.25
3 2
∫ 𝑦 ∗ 𝑑𝑦 = 0.244
0 8
c. ¿Cuál es la probabilidad de que un archivo con un peso adecuado MB demore en descargarse,

en este ordenador, entre 0,5 y dos segundos?
2 2
3 𝑦3
∫ 𝑦 2 ∗ 𝑑𝑦 = [ ]
0.5 8 8 0.5
2 (2)3 (0.5)3
3 2
∫ 𝑦 ∗ 𝑑𝑦 = [ ]−[ ] = 0.98
0.5 8 8 8
d. Construir la función de probabilidad acumulada para la variable Y. Graficar la función obtenida.
𝑦 𝑦
3 𝑦3
∫ 𝑦 2 ∗ 𝑑𝑦 = [ ]
0 8 8 0
0; 𝑦 < 0
3
𝑦
𝑓 (𝑦 ) = { ; 0 < 𝑦 < 2
8
1; 𝑦 = 2

3
3. Cierto circuito está conformado por dos transistores, denominados A y B. Sea X la cantidad
de milisegundos que demora en activarse el dispositivo A; mientras que Y es la cantidad de
milisegundos que demora en activarse el dispositivo B. La función de masa de probabilidad
conjunta de las variables X, Y se refleja a continuación:
a. El tiempo esperado de activación del circuito está en función del tiempo de activación
de cada transistor. Hallar entonces 𝐸 (𝑋 + 𝑌).
𝐸 (𝑋 + 𝑌) = ∑(𝑥 + 𝑦)𝑓(𝑥𝑖; 𝑦𝑗)

𝑥;𝑦
𝐸 (𝑋 + 𝑌) = (0 + 0)(0.02) + (1 + 0)(0.04) + (2 + 0)(0.01) + (0 + 1)(0.06) + (1 + 1)(0.15)

+ (2 + 1)(0.15) + (0 + 2)(0.02) + (1 + 2)(0.20) + (2 + 2)(0.14)
+ (0 + 3)(0.10) + (1 + 3)(0.10) + (2 + 3)(0.01)
𝐸 (𝑋 + 𝑌) = 2.82
b. Si cada transistor se activa en el tiempo máximo posible, cuál será el valor esperado
de activación del circuito.
∑ 𝑥𝑓 (𝑥𝑖)
𝑓 (𝑥𝑖) = 𝑃(𝑥 = 2|𝑦 = 3)
𝑃(𝑥 = 2|𝑦 = 3)
𝑓 (𝑥𝑖) =
𝑃(𝑦 = 3)
0.01
𝑓(𝑥𝑖) =
0.10 + 0.10 + 0.01
𝑓(𝑥𝑖) = 0.05
𝑥 ∗ 𝑃(𝑥 = 2|𝑦 = 3)
2 ∗ 0.05 = 0.0952

4
4. La demanda diaria de energía eléctrica (H) del dispositivo de control de un equipo

automatizado está dada por la función de densidad:
1
(1 )
𝑓 (ℎ) = {3 − ℎ2 ; 1 ≤ 𝑦 ≤ 3
a. Hallar la función de distribución de la demanda de energía eléctrica del dispositivo de
control.
𝑃 (𝑀 = 𝑚 ) = 𝑓 (𝑚 )
ℎ ℎ ℎ
∫ 𝑓 (ℎ) ∗ 𝑑ℎ + ∫ 𝑓 (ℎ) ∗ 𝑑ℎ + ∫ 𝑓 (ℎ) ∗ 𝑑ℎ
−∞ 1 3
ℎ ℎ
1
∫ 3 (1 − ) ∗ 𝑑ℎ = ∫ (3 − 3ℎ−2 ) ∗ 𝑑ℎ
1 ℎ2 1
ℎ
−2 )
3ℎ
(
∫ 3 − 3ℎ ∗ 𝑑ℎ = [3ℎ + ]
1 ℎ1
3ℎ 3
[3ℎ + ] = 3ℎ + − (3 + 3)
ℎ1 ℎ
3 ℎ 3
[3ℎ + ] = 3ℎ + − 6
ℎ1 ℎ
0;ℎ < 1
3
𝐹 (ℎ) = {3ℎ + −6 ;1 ≤ 𝑦 ≤ 3
ℎ
1; ℎ > 3
b. Hallar el valor esperado y la varianza de H.
∞ 3
3
∫ ℎ ∗ 𝑓 (ℎ) ∗ 𝑑ℎ = ∫ ℎ (3 − ) ∗ 𝑑ℎ
0 1 ℎ2
3 3
3 3
∫ ℎ (3 − 2 ) ∗ 𝑑ℎ = ∫ (3ℎ − ) ∗ 𝑑ℎ
1 ℎ 1 ℎ
3 3
3 3ℎ2
∫ (3ℎ − ) ∗ 𝑑ℎ = [ − 3 ln(ℎ)]
1 ℎ 2 1

5
3
3ℎ2 3(3)2 3(1)2
[ − 3 ln(ℎ)] = − 3 ln(3) − − 3 ln(1) = 8.70 𝑉𝑎𝑙𝑜𝑟 𝐸𝑠𝑝𝑒𝑟𝑎𝑑𝑜.
2 1
2 2
∞
𝜎 2 = ∫ (ℎ − 𝑢)2 ∗ 𝑓(ℎ) ∗ 𝑑ℎ
−∞
3
3
𝜎 2 = ∫ (ℎ − 8.70)2 ∗ (3 − ) ∗ 𝑑ℎ
1 ℎ2
3
3
𝜎 2 = ∫ (ℎ2 − 17.4ℎ + 75.69) ∗ (3 − 2 ) ∗ 𝑑ℎ
1 ℎ
3
17.4 ∗ 3 75.69 ∗ 3
𝜎 2 = 3 ∫ ℎ2 − 17.4ℎ + 75.69 − 3 + − ∗ 𝑑ℎ
1 ℎ ℎ2
3
2
ℎ3 17.4ℎ2 227.08
𝜎 = 3[ − + 72.69 + 52.2 ln(ℎ) − ]
3 2 −ℎ 1
𝜎 2 = 171.31 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒 ℎ

6
1. Dada la siguiente función de probabilidad conjunta:
Como ayuda para esta pregunta construimos el siguiente cuadro.
X/Y -2 -1 1 2 15
-2 0 0.2 0 0 0
-1 0.2 0 0 0 0
1 0 0 0 0.2 0
2 0 0 0.2 0 0
13 0 0 0 0 0.2
a. Calcular 𝑃 (𝑋 = 𝑌).
𝑃 (𝑋 = 𝑌 ) = 0 + 0 + 0 + 0 = 0
b. Calcular 𝑃 (𝑋 < 𝑌).
𝑃(𝑋 = 𝑌) = 0.2 + 0 + 0 + 0 + 0 + 0 + 0 + 0.2 + 0 + 0 + 0.2 = 0.6 = 60%
c. Calcular 𝑃 (𝑋𝑌 < 0).
𝑃 (𝑋 = 𝑌 ) = 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 = 0
2. En cierto circuito eléctrico hay dos resistencias que pueden estar conectadas en paralelo o
en línea. Sea 𝑋1 la cantidad de resistencias que encuentra el flujo de electrones cuando las
mismas están conectadas en línea; mientras que sea 𝑋2 la cantidad de resistencias que
encuentra el flujo de electrones cuando las mismas están conectadas en paralelo.
Supongamos que estas variables son independientes, con función de probabilidad
conjunta según la tabla a continuación:
También se conoce que 𝜇 = 1.23; 𝜎2 = 0.36.

Sea la variable 𝐻 = 𝑋1 + 𝑋2.
a. Hallar la función de probabilidad conjunta de la variable H.
X1) X2)
Variables Independientes. H(X;Y)=H(X)*H(Y)

H (X1;X2) 0 1 2
0 0.09 0.12 0.09
1 0.12 0.16 0.12
2 0.09 0.12 0.09
b. Calcular 𝜇H; σ2𝐻 . ¿Cómo se relacionan estos valores con la media y la varianza de la
población, respectivamente?
𝑛=2
𝜇𝐻 = 𝑛 ∗ 𝜇 = 1.23 ∗ 2 = 2.46
𝑣𝑎𝑟𝐻 = σ2 ∗ 𝑛 = 0.36 ∗ 2 = 0.72
3. Sea tres variables aleatorias 𝑌1; 𝑌2¸𝑌3 que representan los tiempos necesarios para que
un robot realice tres actividades sucesivas respectivamente. Además, las tres variables son
independientes entre sí y siguen distribución normal con 𝜇1 = 𝜇2 = 𝜇3 = 35; 𝜎21 =
𝜎22 = 𝜎23 = 9.
a. Si 𝐻 = 𝑌1 + 𝑌2 + 𝑌3, calcular 𝑃(60 < 𝐻 < 109).
𝑛=3
𝜇𝐻 = 3 ∗ 3.35 = 105
𝑣𝑎𝑟𝐻 = 27 = 𝑠 2
𝑠 = √27 = 5.2
𝜇𝐻 − 𝐾𝜎 = 60
105 − 𝐾(5.2) = 60
105 − 60
𝐾= = 8.65
5.2
1
𝑃 (60 < 𝑥 < 109) ≥ 1 −
𝐾2
1
𝑃(60 < 𝑥 < 109) ≥ 1 −
8.652
( )
𝑃 60 < 𝑥 < 109 ≥ 0.98

2
b. Con las medias y las varianzas dadas, hallar 𝑃(𝑌̅ > 33).
1
𝑃(𝑋 ≥ 𝐾 ) = 𝑃(𝑌 ≥ 𝐾 ∗ 𝜇) ≤
𝐾
𝜇 = 35
𝐾 ∗ 𝜇 = 33
𝐾 ∗ 35 = 33
33
𝐾= = 0.94
35
𝐾>0
1
𝑃(𝑌 ≥ 33) ≤
0.94
𝑃(𝑌 ≥ 33) ≤ 1.06

3

22/12/2022
Problemas.
1. Cierto emprendedor se dedica a la instalación, a domicilio, de nuevos programas computacionales.
Se ha comprobado que en el 15% de las instalaciones nuevas, es necesario reinstalar actualizaciones.
Si se considera que las instalaciones son independientes entre sí, y en determinada semana el
emprendedor realizó 8 instalaciones:
a. ¿Cuál es la probabilidad de que el técnico tenga regresar a tres de los sitios donde instaló nuevos
programas?
𝑋 = 1 0.15; 𝑋 = 0 0.85
𝑛
𝑓(𝑥) = ( ) ∗ 𝑝 𝑥 ∗ 𝑞 𝑛−𝑥
𝑥
𝑛 = 8; 𝑥 = 3; 𝑝 = 0.15
8
𝑓 (𝑥) = ( ) ∗ 0.153 ∗ 0.858−3
3
8!
𝑓(𝑥) = ( ) ∗ 0.153 ∗ 0.858−3
3! (8 − 3)!
𝑓(𝑥) = 0.838 = 8.38%
b. ¿Cuál es la probabilidad de que el técnico tenga regresar a por lo menos cinco de los sitios
donde instaló nuevos programas?
𝑋 = 1 0.15; 𝑋 = 0 0.85
𝑃(𝑋 > 4) = 1 − 𝑃(𝑋 ≤ 4)
𝑃(𝑋 > 4) = 𝐹 (𝑋 = 4) = 𝑓(0) + 𝑓(1) + 𝑓 (2) + 𝑓 (3) + 𝑓 (4)
𝑛
𝑓(𝑥) = ( ) ∗ 𝑝 𝑥 ∗ 𝑞 𝑛−𝑥
𝑥
𝑛 = 8; 𝑥 = 0; 1; 2; 3; 4; 𝑝 = 0.15
𝑃(𝑋 > 4) = 0.272 + 0.384 + 0.237 + 0.083 + 0.018 = 0.994
𝑃(𝑋 > 4) = 1 − 𝑃(𝑋 ≤ 4)
𝑃 (𝑋 > 4) = 1 − 𝑃(𝑋 ≤ 4) = 1 − 0.996 = 0.004 = 0.4%
c. ¿Cuál es la probabilidad de que el técnico tenga regresar a lo sumo a dos de los sitios
dondeinstaló nuevos programas.
𝑋 = 1 0.15; 𝑋 = 0 0.85
𝑛
𝑓(𝑥) = ( ) ∗ 𝑝 𝑥 ∗ 𝑞 𝑛−𝑥
𝑥
𝑛 = 8; 𝑥 = 3; 𝑝 = 0.15
𝐹 (𝑋 ≤ 2) = 𝑓 (0) + 𝑓(1) + 𝑓(2)
𝑓(0) + 𝑓(1) + 𝑓 (2) = 0.272 + 0.384 + 0.237 = 0.893 = 89.3%
2. Sea que el número de mensajes de correo electrónico que intercambian dos usuarios de Gmail, en
determinado lapso de tiempo a la semana, es una variable aleatoria que sigue distribución de Poisson
con 𝜇 = 11.
a. ¿Cuál es la probabilidad de que el número de mensajes intercambiados sea a lo sumo 6?
𝜆 = 11
𝐹 (6) = 𝑃 (𝑋 ≤ 6) = 𝑓(0) + 𝑓(1) + 𝑓 (2) + 𝑓 (3) + 𝑓 (4) + 𝑓(5) + 𝑓(6)
𝑘=𝑥
𝑒 −𝜆 ∗ 𝜆𝑘
𝑓 (𝑔) =
𝑘!
𝐹(6) = 0.0000167 + 0.0001837 + 0.0010104 + 0.003704 + 0.010188 + 0.022415 + 0.04109 = 0.0786 = 7.86%
b. ¿Cuál es la probabilidad de que el número de mensajes intercambiados esté entre 10 y 13, ambos
inclusive?
𝜆 = 11
𝑃(10 ≤ 𝑋 ≤ 13) = 𝑓(10) + 𝑓 (11) + 𝑓(12) + 𝑓 (13)
𝑘=𝑥
𝑓 (𝑔) =
𝑘!
𝑃(10 ≤ 𝑋 ≤ 13) = 0.119 + 0.119 + 0.109 + 0.0925 = 0.4395 = 43.95%
c. ¿Cuál es la probabilidad de que el número de mensajes intercambiados sea por lo menos 4?
𝜆 = 11
𝑃(4 ≤ 𝑋) = 𝑓 (0) + 𝑓(1) + 𝑓(2) + 𝑓 (3) + 𝑓(4)
𝑘=𝑥
𝑓 (𝑔) =
𝑘!
𝑃(4 ≤ 𝑋) = 0.000167 + 0.0001837 + 0.0010104 + 0.003704 + 0.010188 = 0.01509 = 1.509%

2
3. A una fábrica de radio receptores han sido devueltos 10 aparatos. De ellos 4 tienen problemas de
recepción de la señal y los demás han sufrido alteraciones estéticas por mala manipulación. Si los
radios se examinan de forma aleatoria, sea que la variable L representa el número de aparatos, entre
los 5 primeros examinados, que tienen problemas de recepción de la señal.
a. Calcular 𝑃(𝐿 = 2).
𝑁 = 10; 𝑛 = 5; 𝑘 = 4; 𝑥 = 2
(42) ∗ (10−4
5−2
) (42) ∗ (63) 6 ∗ 20
𝑃(𝐿 = 2) = = = = 0.4761 = 47.61%
(10
5
) (10
5
) 252
b. Calcular 𝑃(𝐿 ≥ 1).
𝑁 = 10; 𝑛 = 5; 𝑘 = 4; 𝑥 = L ≥ 1
𝑃(𝐿 ≥ 1) = 1 − 𝑃(𝐿 = 0)
(40) ∗ (10−4
5−0
) (40) ∗ (65) 6
𝑃(𝐿 = 2) = = = = 0.0238 = 2.38%
(10
5
) (10
5
) 252
𝑃(𝐿 ≥ 1) = 1 − 0.0238 = 0.9762 = 97.62%

c. Calcular la probabilidad de que L no supere su valor medio por más de una desviación estándar.
𝑛 ∗ 𝑁1
μ=
𝑁2
5∗4
μ= = 3.33333
6
𝑛𝑁1𝑁2(𝑁 − 𝑛)
𝜎= √
𝑁2(𝑁 − 1)
(5)(4)(6)(10 − 5)
𝜎=√
(6)(10 − 1)
𝜎 = 3.3333
Para poder hacer que no sobrepase su media aplicamos:
𝑃(𝑋 ≤ 3) = 1 − 𝑃(𝑋 = 4)
(44)
∗ (10−4
5−4
) 1(61) 6
𝑃 (𝑋 = 4) = = = = 0.0238 = 2.38%
(10
5
) (10
5
) 252
( )
𝑃 𝑋 ≤ 3 = 1 − 0.0238 = 0.9762 = 97.62%

3

06/01/2023
Problemas
1. En una industria de fabricación de equipos robóticos se conoce que se manufacturan

componentes defectuosos, en promedio, a razón de 25 por cada 15 000 componentes
fabricados. Calcular la probabilidad de que, en un lote de 30 000 componentes fabricados, se
encuentren 43 defectuosos.
𝑛
𝑓(𝑥) = ( ) ∗ 𝑝 𝑥 ∗ 𝑞 𝑛−𝑥
𝑥
𝑛 𝑛!
( )=
𝑥 𝑥! (𝑛 − 𝑥)!
𝑛!
𝑓(𝑥) = ∗ 𝑝 𝑥 ∗ 𝑞 𝑛−𝑥
𝑥! (𝑛 − 𝑥)!
15000 100
25 𝑝 = 0.167%
𝑝 = 0.00167 ; 𝑛 = 30000 ; 𝑥 = 43
30000!
𝑓(43) = ∗ 0.0016743 ∗ 0.99830000−43
43! (30000 − 43)!
𝑓(43) = 0.03629 = 3.629%
2. Investigadores de cierta universidad presentan 25 nuevos proyectos relacionados con las

energías renovables. De ellos 13 están relacionados con la energía eólica, y el resto con la
energía geotérmica. De la totalidad de los proyectos, 4 seleccionados al azar no son aprobados
por problemas de presupuesto.
a. ¿Cuál es la probabilidad de que dos de los proyectos no aprobados sean sobre energía
geotérmica?
𝑥 = 2 ; 𝐴 = 12 ; 𝐴𝑐 = 13 ; 𝑛 = 4 ; 𝑡 𝑜 𝑥 = 2
(𝑁1
𝑡
𝑁2
)(𝑛−𝑡 )
𝑓(𝑥) =
(𝑁1
𝑛
)
𝑁1! 𝑁2!
( )( )
𝑡! (𝑁1 − 𝑡)! (𝑛 − 𝑡)! (𝑁2 − 𝑛 − 𝑡)!
𝑓(𝑥) =
𝑁!
( )
𝑛! (𝑁 − 𝑛)!
12! 13!
( )( )
4! (12 − 4)! (4 − 2)! (13 − 4 + 2)!
𝑓(2) =
25!
( )
4! (25 − 4)!
12! 13!
( )( )
4! (10)! (2)! (11)!
𝑓(2) =
25!
( )
4! (21)!
𝑓(2) = 0.407 = 40.7%
b. ¿Cuál es la probabilidad de que a lo sumo uno de los proyectos no aprobados sea sobre
energía eólica?
𝐴 = 𝐵 = 𝑁1 = 13 ; 𝐴𝑐 = 𝑁2 = 132; 𝑁 = 4 ; 𝑡 𝑜 𝑥 = 4
13! 12!
( )( )
4! (13 − 4)! (0)! (12)!
𝑓(𝑡) =
25!
( )
4! (21)!
𝑓(𝑡) = 0.056 = 5.6%
3. En una central de telecomunicaciones se reciben llamadas de emergencia a razón de 2 cada 30

minutos. ¿Cuál es la probabilidad de que transcurran al menos 11 minutos hasta la siguiente
llamada de emergencia?
𝑘=𝑥=1
2 30𝑚𝑖𝑛
𝜆 = 0.733 11𝑚𝑖𝑛
𝑘
𝑒 −𝜆 ∗ 𝜆
𝑓(𝑘) =
𝑘!
𝑒 −0.733 ∗ 0.7331
𝑓(𝑘) =
11
𝑓(𝑘 ) = 0.3521 = 35.21%

2

16/01/2023
Problemas
1. Cierto equipo de medición de corriente tiene una sensibilidad promedio de 1.5 miliamperios, con
una desviación típica de 0.03 miliamperios. Para cierto tipo de investigaciones se consideran
apropiadas las mediciones que están en un rango de entre 1.48 y 1.52 miliamperios. ¿Cuántas
mediciones realizadas con este equipo se espera que sean rechazadas, de un total de 328
realizadas, si se asume que las mediciones siguen distribución normal?
𝜇 = 1.5𝑚𝐴; 𝜎 = 0.03𝑚𝐴
1.48𝑚𝐴 ≤ 𝑃 ≤ 1.52𝑚𝐴
Tipificar
𝑃 ≥ 1.48𝑚𝐴
𝑥 − 𝜇 (1.48𝐸 − 3) − (1.5𝐸 − 3)
𝑧= = = −0.667
𝜎 0.03𝐸 − 3
𝑧 ≥ −0.667 = 0.7454
(𝑃 < 1.52𝑚𝐴) = 1 − (𝑃 ≥ 1.52𝑚𝐴)
𝑥 − 𝜇 (1.52𝐸 − 3) − (1.52𝐸 − 3)
𝑧= = = 0.667
𝜎 0.03𝐸 − 3
𝑧 ≥ 0.667 = 0.7454
(𝑃𝑅𝑒𝑐ℎ𝑎𝑧𝑎𝑑𝑎𝑠) = +(1 − 0.7454) + (1 − 0.7454) = 0.5092
0.5092 ∗ 328 = 167

2. Los drones fabricados por cierta industria alcanzan una velocidad máxima en ascenso que sigue
distribución normal con media 150 Km/h y desviación estándar de 2 Km/h. Si se selecciona,
aleatoriamente, uno de estos drones:
a. ¿Cuál es la probabilidad de que el mismo alcance una velocidad máxima en ascenso mayor a
151,5 Km/h?
b. ¿Cuál es la probabilidad de que el mismo alcance una velocidad máxima en ascenso inferior
a 147 Km/h?
c. ¿Cuál es la probabilidad de que el mismo alcance una velocidad máxima en ascenso que
difiera, en dos desviaciones típicas, de la media?
𝜇 = 150𝐾𝑚; 𝜎 = 2𝐾𝑚/ℎ
Solución a)
𝑥 − 𝜇 (151.5) − (150)
𝑧= = = 0.75
𝜎 2
𝑃(𝑧 ≥ 0.75) = 0.2266 = 22.66%
Solución b)
𝑥 − 𝜇 (147) − (150)
𝑧= = = −1.5
𝜎 2
𝑃(𝑧 < −1.5) = 0.0668 = 6.68%
Solución c)
𝑥 − 𝜇 (152) − (150)
𝑧= = =1
𝜎 2
𝑃(𝑧 < 1) = 0.8413
𝑥 − 𝜇 (148) − (150)
𝑧= = = −1
𝜎 2
𝑃(𝑧 ≥ 1) = 0.8413
𝑃 = 1 − (1 − 0.8413) − (1 − 0.08416) = 0.6826 = 68.26%

3. Sea que la dureza del acero utilizado para fabricar algunos componentes de exoesqueletos sigue
una distribución normal con media 20 Rockwell y desviación estándar de 0,36 Rockwell.
a. ¿Cuál deberá ser el valor de cierta constante K, tal que el intervalo (20 − 𝑘, 20 + 𝑘) contenga
el 94% de todas las durezas de los aceros utilizados?
𝜇 = 20; 𝜎 = 0.36
1 − 0.94 = 0.06
0.06
𝛼 = 0.94 +
2
𝑃(𝑧 < 𝑘) = 97%
𝑃(𝑍 < 1.88) = 97%
𝑥 − 𝜇 𝑋 − 20
1.88 = = = 20.6768
𝜎 0.36
𝑘 = 20.6768 − 20 = 0.6768 = 67.68%

2
b. Si se seleccionan 6 de estos componentes de exoesqueleto, ¿cuál es la probabilidad de que

por lo menos dos hayan sido fabricados con un carbono de dureza de más de 18 Rockwell?
𝑃(𝑋 ≥ 18) = 97
𝑥 − 𝜇 (18) − (20)
𝑧= = = −5.556
𝜎 0.36
𝑃(𝑍 ≥ −5.556) ≈ 1 ≈ 100%
𝑝 ≈ 100%; 𝑞 ≈ 0%
𝑃(𝑌 ≥ 2) = 1 − 𝑃(𝑌 = 1) − 𝑃(𝑌 = 0)
𝑃(𝑌 ≥ 2) ≈ 100%

3

24/01/2023
Problemas
1. El tiempo que permanece en uso cierto terminal de un sistema de cómputo en la nube es

una variable aleatoria que sigue distribución Ganma con media 25 min y varianza 64
𝑚𝑖𝑛2.
𝜇 = 25𝑚𝑖𝑛; 𝜎 2 = 64min2
a. Determinar los valores de los parámetros de la distribución (𝛼, 𝛽).
𝜇 = 𝛼𝛽 ; 𝜎 2 = 𝛼𝛽2 ; 25 = 𝛼𝛽
64 = 𝛼𝛽𝛽
64 = 25𝛽
64
𝛽= = 2.56 ≈ 3
25
25 = 𝛼 (2.56)
25
𝛼= = 9.77 ≈ 10
2.56
b. ¿Cuál es la probabilidad de que el terminal esté en uso 11 min cuanto mínimo?
1 𝑥
𝛼−1 −𝛽
𝑥 𝑒
𝛽 𝛼 𝜏 (𝛼 )
1 11
1110−1𝑒 − 3 = 2.812𝐸 − 3 = 0.002812 = 0.281%
310 (362880)
∞
1 𝑥
10−1 −3
𝑃(11 < 𝑇 < 𝑖𝑛𝑓𝑖𝑛𝑖𝑡𝑜) = ∫ 𝑥 𝑒
11 310 (362880)
𝑃(11 < 𝑇 < 𝑖𝑛𝑓𝑖𝑛𝑖𝑡𝑜) = 0.0995 = 9.95%
c. ¿Cuál es la probabilidad de que el terminal esté entre 20 y 27 min en uso?
Γ(α) = (α − 1)!
9! = 362880
27
1 𝑥
10−1 −3
𝑃 (20 < 𝑇 < 27) = ∫ 𝑥 𝑒 𝑑𝑥
20 310 (362880)
27 𝑥
𝑃(20 < 𝑇 < 27) = 4.67𝑥10 −11
∫ 𝑥 10−1 𝑒 −3 𝑑𝑥
20
𝑃(20 < 𝑇 < 27) = 0.2752 = 27.52%

d. ¿Cuál es la probabilidad de que el terminal este 18 min a lo sumo en uso?
1 18
10−1 − 3
18 𝑒 = 0.2294 = 2.29%
310 (362880)
2. Se ha investigado cierto material para la construcción de partes robóticas, y se ha podido
concluir que la resistencia Y de tal material a la compresión es una variable aleatoria que
sigue distribución Lognormal, con 𝜇 = 4; 𝜎 = 0.3.
a. Hallar 𝑃(100 ≤ 𝑌 ≤ 135).
𝑅𝑒𝑠𝑖𝑠𝑡𝑒𝑛𝑐𝑖𝑎 = 𝑌 ; μ = 4 ; σ = 0.3
135 (𝑥−4)2
1 −
P(100 ≤ Y ≤ 135) = ∫ 𝑒 20.32 𝑑𝑥 =0
100 0.3√2𝜋
b. Si se ensayan 25 probetas del referido material, cuantas se esperaría que tengan una
resistencia a la compresión de por lo menos 120 unidades de resistencia.
𝑃 (𝑇 ≥ 120) = 1 − 𝑃(𝑇 ≤ 120) = 1 − 𝑃 (𝑙𝑛(𝑇) ≤ ln(120)) = 1 − 𝑃 (𝑌 ≤ 4.78)

4.78 − 4
= 1 − 𝑃 (𝑍 ≤ ) = 1 − 𝑃 (𝑍 ≤ 2.62) = 1 − 0.9956 = 0.0044
0.3
25𝑥𝑃 (𝑇 ≥ 120) = 25(0.0044) = 0.11
c. Hallar la varianza de la variable Y.
2 2
𝑉(𝑦) = (𝑒 𝜗 − 1)𝑒 2𝜇+𝜗
2 2
𝑉(𝑦) = (𝑒 0.3 − 1)𝑒 2(4)+0.3
𝑉 (𝑦) = 307.167

2
3. Sea que el tiempo hasta que se presenta una falla en cierto circuito es una variable exponencial
con media igual a 16000 horas.
𝜇 = 𝛽 = 16000
1
𝛽2 =
𝜆2
a. ¿Cuál es la probabilidad de que uno de estos circuitos dure como mínimo 18000 horas?
1 −𝛽𝑥 1 18000
𝑓 (𝑥; 𝛽) = 𝑒 = 𝑒 −16000 = 2.0290𝐸 − 5 = 0.0029%
𝛽 16000
b. ¿Cuál es la probabilidad de que uno de estos circuitos dure entre 14000 y 15000 horas?
15000 𝑥
−
∫ 𝜆𝑒 𝛽 𝑑𝑥
14000
1
𝜆=√ = 6.25𝐸 − 5
𝛽2
15000 𝑥
∫ 6.25𝐸 − 5𝑒 −16000 𝑑𝑥 = 0.0252 = 2.52%
14000

3

Ética: Probabilidad y Estadística

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ética: Probabilidad y Estadística

Cargado por

Copyright:

Formatos disponibles

P r o b ÉTICA

Á rea d e Co no cimi e nto | Ci en cias Ex ac tas

Universidad Politécnica Salesiana

Operaciones entre conjuntos

Ley o regla multiplicativa

Universidad Politécnica Salesiana

Breve Descripción del Capítulo

rasgos, propiedades, etc. Así construimos nuestro propio reservorio de conocimientos,

aprendemos, ganamos experiencia. Y como parte de este proceso cognitivo, también

etc.); problemas de las ingenierías (eléctrica, electrónica, computación,

telecomunicaciones, mecatrónica, etc.); números (pares, naturales, complejos, reales,

Para concretar, imaginemos que estudiamos la carrera de Computación, y obtenemos

completarse la descarga de ciertos archivos en un determinado tipo de ordenador

representa un “tiempo”. Específicamente, el tiempo que demoró la descarga de un

archivo en específico. ¿Pero, conocíamos con antelación el tiempo que tardaría en

descargarse el archivo H? ¿Cuál es el valor de la posibilidad de que el archivo H se

descargue en un tiempo menor a 1,5 s?

Las interrogantes anteriores tienen sentido por cuanto el proceso de descarga de un

Universidad Politécnica Salesiana

del archivo, ancho de banda de la conexión de internet, prestaciones del computador,

otros. En definitiva, los elementos del conjunto S están influenciados por la

incertidumbre, la aleatoriedad, la casualidad (¿qué tal si, en medio del proceso de

descarga del archivo H, ocurre un corte de energía eléctrica?). Es decir, la dependencia

En esta primera unidad aprenderemos cómo cuantificar la incertidumbre; es decir, la

• Describir el espacio muestral de un evento, experimento o fenómeno aleatorio.

• Determinar la probabilidad de ocurrencia de un evento o fenómeno aleatorio.

Universidad Politécnica Salesiana

1.1. Leyes de conjunto y diagramas de Venn.

Aunque la definición de conjunto resulta un tanto repetitiva (grupo, colección,

En nuestra materia estaremos trabajando con conjuntos numéricos fundamentalmente.

Consideremos las siguientes situaciones relacionadas con algunas especialidades dentro

Computación: la duración de las descargas de archivos en un computador. Cuando

Telecomunicaciones: ¿en qué momento se reciben llamadas, por ejemplo, a un teléfono

Electrónica y Automatización: cuando se diseña un circuito, se espera que el mismo

Eléctrica: cuando se realizan mediciones de voltajes, corrientes, resistencias; los

Mecatrónica: cuando se construye un Robot, es parte muy importante del mismo el

a) Los tiempos de descargas de 100 archivos diferentes a nuestro computador. La

Universidad Politécnica Salesiana

segundos. Los valores de t se pueden agrupar en el conjunto 𝑆𝑡 =

Definición 1: se llama espacio muestral al conjunto de todos los posibles resultados de un

Comúnmente, al conjunto espacio muestral, se le denota 𝑆.

Por tanto, 𝑆𝑡 , 𝑆𝑋 , 𝑆𝐿 , 𝑆𝑉 , 𝑆𝑌 son espacios muestrales.

Si los espacios muestrales son conjuntos, entonces es provechoso conocer algunas

Universidad Politécnica Salesiana

forma general, en Probabilidades, el conjunto S es considerado el “Conjunto Universo”,

Lo clásico, cuando de estudiar probabilidades de trata, es partir de uno de los ejemplos

De forma general, podemos considerar que el espacio muestral es un conjunto de

Los subconjuntos de un conjunto también son conjuntos.

Ejemplo 1: consideremos el siguiente conjunto.

𝑆1 = {−4, −3, 1.5, −2, −0.5, 0,1,2,4,10, 20}

𝐴 = {−0.5,20}; 𝐵 = {−4, −3, −2, −0.5}; 𝐶 = {−4, −3, −2,0,1,2,4,10,20};

Operaciones básicas entre conjuntos.

Definición 2: sean dos conjuntos arbitrarios, no vacíos 𝐴 y 𝐵.

- Se llama unión de esos conjuntos (y se denota con el símbolo ∪) a otro conjunto

𝐴 ∪ 𝐵 = {1,2,3,4,5}; 𝐴 ∩ 𝐵 = {3}; 𝐴𝐶 = { 4,5, 6,7}.

Universidad Politécnica Salesiana

La abstracción del vacío permite comprender, por ejemplo, que el resultado de la

Sea 𝐷 = {6,7}. Es evidente que 𝐷 también es subconjunto de 𝐹. Además 𝐴 ∩ 𝐷 = ∅ (no

Definición 3: porque su intersección es vacía (nula, no contienen elementos), los

FIGURA 1: Conjunto Universo y Subconjuntos FUENTE: AUTOR

Universidad Politécnica Salesiana

FIGURA 2: a) Unión de conjuntos. b) Intersección de conjuntos. c) Complemento de un conjunto. d) Conjuntos

Entonces, téngase presente que, cuando se midan variables se obtendrá un conjunto de