1.capitulo 1 A 9

Capítulo 1 Conceptos básicos
INTRODUCCION
Estadística
Es una disciplina tecnológica que engloba varias herramientas (mayormente
matemáticas) para la toma de decisiones a partir de información generada a través de
datos.
DATO INFORMACION DECISION
A esta disciplina podemos dividirla en dos ramas: la Estadística descriptiva por un lado,
y la Estadística inferencial por el otro.
Ejemplo: Un profesor de historia calcula la calificación promedio de uno de sus grupos.
Como la estadística describe el desempeño del grupo pero no hace ninguna
generalización acerca de los diferentes grupos podemos decir que el profesor está
utilizando estadística descriptiva. Los gráficos, tablas y diagramas que muestran los
datos de manera más clara y elocuente son ejemplos de estadística descriptiva. Ahora
bien, si el profesor decide utilizar el promedio de calificación obtenido por uno de sus
grupos en una unidad para estimar la calificación promedio del grupo en las 10 unidades
del curso, se trataría de estimación concerniente a la estadística inferencial. Cualquier
conclusión a la que llegue sobre el grupo de las 10 unidades estará basada en una
generalización que va más allá de los datos en la unidad evaluada, y esta puede ser no
completamente valida, de modo que el profesor debe establecer que probabilidad hay
de que sea cierta.
Dato
Son los valores asociados con un rasgo o con una propiedad que sirven para distinguir la
ocurrencia de algo. Un valor se convierte en un dato siempre y cuando yo lo relacione
con la variable que estoy estudiando, es decir, siempre y cuando lo contextualice en el
experimento.
Ejemplo: “Levine” y “Krehbiel” son valores que ayudan a distinguir un autor de un libro
de otro autor. Si la variable de estudio de mi experimento está definida como “Nombres
de autores de libros” estos valores son datos, pero, si en cambio mi experimento es
sobre la edad de los alumnos del curso de estadística de la UBA estos valores, Levine y
Krehbiel, no son datos.
Variable
Es una característica de un objeto o individuo.
Ejemplo: “Levine” y “Krehbiel” son valores para una variable que podría denominarse
nombre o nombre del autor.
Página 1|5
Una variable puede ser cualitativa o cuantitativa:

Las variables cualitativas o categóricas son aquellas que expresan características y que
no pueden ser expresadas con números. Por ejemplo: series de Netflix más vistas en
Argentina, El color de ojos de los actores de una película, etc. Sin embargo, puede ocurrir
que una respuesta categórica se disfrace de una respuesta numérica: a veces aparecen
“números”. Por ejemplo: al momento de realizar una encuesta se debe responder con 0
para muy malo, 1 para bueno y 2 para muy bueno. Esos aparentan ser números pero no
se los puede operar numéricamente, por eso, en el caso del ejemplo, la variable seria
cualitativa ordinal.
Las variables cuantitativas o numéricas son aquellas variables que se expresan mediante
un número, por lo tanto se pueden realizar operaciones matemáticas con ellas. Por
ejemplo: El peso de las vacas de un campo, La estatura de los ciudadanos, El número de
personas que visitan una página web en un día.
A su vez, dependiendo de qué tipo de escala de medición puede utilizarse para la
variable de estudio, podemos clasificar a las variables en:
➢ Variables cualitativas medibles en escala nominal: Cuando los datos cualitativos

se presentan por como esta dada la respuesta se mide en escala nominal. Son
aquellas variables que presentan valores no numéricos y en las que no existe un
orden. Ejemplo: El estado civil de una persona; los valores serian: soltero, casado,
divorciado, viudo. Otro ejemplo podría ser el lugar de nacimiento de tus amigos.
➢ Variables cualitativas medibles en escala ordinal: Cuando los datos cualitativos

pueden ser ordenados, a dichos datos les corresponde la escala ordinal de
medición. Ejemplo: La encuesta de un local de comida rápida: ¿Qué te pareció la
comida? Muy mala, mala, regular, buena, muy buena.
➢ Variables cuantitativas medibles en escala de intervalo: Cuando los datos

provienen de procesos de medición, donde los elementos forman un conjunto
infinito no numerable, a la variable cuantitativa se la denomina continua y se la
puede medir en escala de intervalo. Ejemplo: temperatura medida en grados
centígrados, altura en centímetros de una persona.
➢ Variables cuantitativas medibles en escala de razón: Cuando los datos provienen

de procesos de conteo, y el cero significa ausencia de valor, a la variable
cuantitativa se la denomina discreta y se la puede medir en escala de razón. No
necesariamente los valores de una variable discreta son números enteros (o
naturales), sino que lo que importa es que todos los resultados constituyan un
conjunto numerable (finito o infinito).
Página 2|5
Las propiedades de las escalas de medición mencionadas son acumulativas; es

decir, las propiedades de la escala nominal las tiene la ordinal, las tiene la de
intervalo y todas las de intervalo las tiene la de razón.
Escala nominal Etiqueta datos.

Escala ordinal Etiqueta y ordena datos.
E. de intervalo Etiqueta, ordena y opera matemáticamente datos, pero
no puede establecer proporción entre ellos.
Escala de razón Etiqueta, ordena, opera matemáticamente y establece
proporción entre los datos.
Observan
Investigadores
fenómenos Todo aquello que se pueda investigar
Variable de
estudio
Experimento Acción de investigar un fenómeno
Conjunto de Unid.
Experimentales (población)
Sujeto físico o mental Unidad
Extraídas de...
sobre el cual se va a Experimental
experimentar. Subconjunto Aleatorio
(Muestra)
RESPUESTA
(Resultado)
Va a ser un Continuo
Numérico
Discreto
VALOR
DATO
ALEATORIO
Ordinal
No
Numérico Nominal
Página 3|5
La estadística descriptiva se ubica en la última parte del diseño del experimento y nos brinda
herramientas para recolectar, presentar y resumir datos. Se aplica tanto a la población (censo)
como a la muestra (encuesta muestral).
Población Muestra
Es la colección de toda la
posible información que Es un subconjunto representativo
caracteriza a un fenómeno. seleccionado de una población. Una
Consta de todos los objetos buena muestra es aquella que refleja
o individuos sobre los que el las características esenciales de la
población de la cual se obtuvo. Tales
investigador desea obtener
procesos de muestro conducen a una
conclusiones.
Muestra Aleatoria (al azar)
Cuando aplicamos estadística inferencial, las

observaciones de la muestra aleatoria se utilizan
para calcular ciertas características de la
muestra denominadas estadísticas, estadígrafos
o estimadores. Esos estadígrafos, que nos
devolverán una estimación, luego se usan como
base para hacer inferencias acerca de ciertas
características de la población que reciben el
nombre de parámetros.
Espacio de Variabilidad
Es el conjunto de todos los distintos valores que puede tomar la variable, tanto sea
numérica como no numérica. Este espacio de variabilidad lo puedo definir ex post (a
posteriori), o ex ante (a priori), dependiendo de las características físicas del
experimento.
Ex post Una vez que se tienen los valores se modifica el experimento. Ejemplo:
estoy haciendo un experimento en el que veo el color de los autos que pasan. Luego de
ver los autos que pasaron, y de anotar sus respectivos colores, como investigador decido
agrupar los autos que eran azul oscuro y azul claro en una sola categoría; azul. En ese
caso modifique el espacio de variabilidad ex post, realizando una reconfiguración del
experimento.
Página 4|5
Ex ante No modifico el experimento o lo modifico antes de tener los datos. Ejemplo:

Las caras de un dado son 6, tengo un espacio de variabilidad dado donde no puedo sacar
ni poner nada.
SIMBOLOGIA
X Variable de estudio (se representa con cualquier letra mayúscula).
xi Observación i-esima (la misma letra con la que definí la variable de estudio pero en
minúscula y un subíndice i).
N Tamaño poblacional.
n Tamaño muestral.
Ω Espacio de variabilidad.
#Ω Cardinal del espacio de variabilidad. (Cantidad de elementos que tiene el espacio

de variabilidad).
Página 5|5
Capitulo 2 Distribuciones de frecuencia
DISTRIBUCIONES DE FRECUENCIA
Cuando el tamaño muestral (n) o el tamaño poblacional (N) es muy grande, se dificulta
extraer información de la serie de datos no agrupados, denominados datos crudos o
raw data.
Los datos crudos suelen tener habitualmente la unidad experimental y el valor que
toma esa unidad experimental, por ejemplo:
x1 = 10 x8 = 13 x15 = 7 x22 = 11
x2 = 8 x9 = 8 x16 = 7 x23 = 10
x3 = 14 x10 = 12 x17 = 10 x24 = 12
x4 = 13 x11 = 13 x18 = 11 n=24
x5 = 7 x12 = 10 x19 = 11
x6 = 9 x13 = 9 x20 = 9
x7 = 8 x14 = 9 x21 = 7
Para que los datos sean útiles, necesitamos organizar nuestras observaciones de modo
que podamos distinguir patrones y llegar a conclusiones lógicas, es por eso que, en
esos casos (por convención n>20, pero puede variar según la bibliografía), lo
conveniente es realizar un Agrupamiento en distribuciones de frecuencia.
¿Qué hace una distribución de frecuencia?

Una distribución de frecuencias resume valores numéricos y no numéricos
organizándolos en un conjunto de clases.
Dicho de otra forma, una distribución de frecuencias muestra el número de
observaciones del conjunto de datos que caen en cada una de las clases. Si se puede
determinar la frecuencia con la que se presentan los valores en cada clase de un
conjunto de datos, se puede construir una distribución de frecuencia.
¿Qué debemos tener en cuenta a la hora de realizar distribución

de frecuencia?
Se debe tener en cuenta:
Página 1
- Tamaño de la muestra o de la población: Debido a que si sus tamaños son

pequeños no tiene sentido estadístico realizar una distribución de
frecuencias.
- Qué tipo de variable se está estudiando: El tipo de frecuencia que se pueda
llegar a realizar dependerá del tipo de datos con los que estamos
trabajando, es decir, no será lo mismo si estamos agrupando por ejemplo
datos cuantitativos continuos que datos cualitativos.
- El cardinal del espacio muestral: Su tamaño nos indicara, también, que tipo
de distribución podemos utilizar y si, en algunos casos, debemos
reconfigurar el experimento.
PUNTUALES Variables cualitativas

nominales
Variables cualitativas TIPO I
ordinales
Variables cuantitativas
discretas
DISTRIBUCION
DE FRECUENCIAS
POR
INTERVALOS Variables cuantitativas
discretas TIPO II
DE CLASE
Variables cuantitativas
continuas
ACLARACION: En el caso de que se esté trabajando con

variables cualitativas (ya sean ordinales o nominales) cuyo
TIPO I #Ω ≤ 15 cardinal del espacio muestral sea mayor a 15, se deberá
TIPO II #Ω > 15 reconfigurar el experimento, a fines de disminuir dicho #Ω y,
de esa forma, poder realizar una distribución de frecuencia
puntual.
Página 2
TIPOS DE DISTRIBUCIONES DE FRECUENCIA

Frecuencia Absoluta:
Se trata de contar la cantidad de veces que se repite un valor en una variable. Al sumar
las frecuencias absolutas se obtiene un resultado idéntico a la cantidad total de datos
(n).
K=10
∑i=1
f1 + f2 + f3 + f4 + f5 + f6 + f7 + f8 + f9 + f10 = n
Ejemplo:
Un alumno secundario, a lo largo de su ciclo lectivo, se saca en las evaluaciones
diferentes notas: 5, 8, 6, 10, 7, 9, 10, 8, 7.50, 8, 7. Frente a estos valores se puede decir
que la frecuencia absoluta de 8 es 3, debido a que se repite en 3 oportunidades.
El número de veces que aparece un valor se representa con fi, donde el subíndice i
representa cada uno de los valores.
Frecuencia Relativa:
Te da la proporción de la clase respecto al total observado.
La proporción o frecuencia relativa es igual al número de datos en cada clase dividido
entre el número total de datos:
fri = fi
n
Ejemplo: Si existen 80 datos y la frecuencia de cierta clase es de 20, la proporción de
datos en esa clase es: 20/80 = 0,25
Cuando se comparan dos o más grupos, es más útil conocer la proporción o el
porcentaje del total de cada grupo que conocer el conteo de frecuencia de cada uno.
En estos casos se crea una distribución de frecuencia relativa o una distribución
porcentual.
Si los dos o más grupos tienen muestras de tamaños diferentes se debe utilizar una
distribución de frecuencia relativa o una distribución porcentual.
Página 3
Frecuencia Porcentual:
Se obtiene multiplicando la proporción (frecuencia relativa) en cada clase por 100%.

Siguiendo el ejemplo anterior, el porcentaje seria 0.25 x 100% = 25%
Frecuencia Absoluta o Porcentual Acumulada:
Es la cantidad de veces que se repite una frecuencia absoluta, o porcentual, simple

hasta cierto tipo de clase. Es decir, es la suma de las frecuencias simples y se simboliza
Fi .
Solo podemos realizar frecuencias acumuladas con datos numéricos. Con datos
cualitativos nominales no tiene sentido realizar una frecuencia acumulada, mientras
que, con datos cualitativos ordinales existe una discusión al respecto, pero en el curso
no los acumularemos. Dicho de otra forma, para cualquier tipo de datos categóricos
solo se pueden realizar distribuciones de frecuencia simples.
Ejemplo aplicando todas las frecuencias:

Consideremos las notas de los exámenes finales de la Materia Estadística de un curso
hipotético de la universidad de Buenos Aires
1 4 5 6 8
2 4 5 6 8
#ΩX = 10
2 4 5 7 8
N = 50 3 4 5 7 8
3 4 5 7 8
3 5 5 7 8
4 5 6 7 9
4 5 6 7 9
4 5 6 8 9
4 5 6 8 10
Página 4
Con la información de los “datos de notas” podemos armar la distribución de

frecuencias.
XI fi fri fri x 100% Fi

1 1 0,02 2% 1
2 2 0,04 4% 3
3 3 0,06 6% 6
4 9 0,18 18% 15
5 11 0,22 22% 26
6 6 0,12 12% 32
7 6 0,12 12% 38
8 8 0,16 16% 46
9 3 0,06 6% 49
10 1 0,02 2% 50
Página 5
Capítulo 3 Medidas de Resumen
MEDIDAS DE RESUMEN
En estadística son valores numéricos que representan una característica determinada

de la población (conjunto) o de la muestra (subconjunto aleatorio)
Cada unidad experimental tiene su característica, su valor, su dato; pero en el conjunto
o subconjunto aleatorio comparten un valor que resume esa característica. Por
ejemplo: Los alumnos de la clase tienen una edad promedio.
MEDIDAS DE RESUMEN
Población Muestra
Aplico un
Parámetro Estimador
O
Estadígrafo
O
Estadístico
Generan
una
Estimación
Parámetro: Es una medida que describe una variable que utiliza datos de una
población
Estadígrafos / Estadísticos / Estimadores: Es una medida que describe una variable
que utiliza datos de una muestra. Los estadígrafos, estadísticos o estimadores son el
algoritmo matemático a partir del cual, al aplicarlo a una muestra, obtengo un valor
que será denominado estimación.
Por ejemplo: El promedio. La acción de sumar todo y dividirlo por la cantidad de
elementos, cuando lo estoy realizando sobre una muestra, es el estimador; y el
resultado que me devolverá ese algoritmo será la estimación. Si calculamos el
promedio sobre la población, tanto el algoritmo matemático como el resultado son el
parámetro. No hay diferencia para la población ya que la población es una, y cuando
Página 1
aplico el parámetro, ejemplo el concepto media poblacional, voy a tener un solo valor.
No hay diferencia entre estimador y estimación.
Estas medidas de resumen, que explican determinada característica, van a tener
distintos nombres dependiendo de lo que expliquen:
MEDIDAS DE TENDENCIA Estas medidas indican como se

CENTRAL agrupan los datos alrededor de un
valor central
Indican de qué manera se diseminan los

datos a lo largo de la distribución MEDIDAS DE VARIACION
MEDIDAS DE POSICION
Estas medidas no toman en cuenta todos los
valores de la variable en estudio sino que
tienen en cuenta la posición de los mismos
Indican que tipo de concentración (sesgada o

no) sigue los datos. Es el patrón de la MEDIDAS DE FORMA
distribución de valores, desde el más bajo
hasta el más alto.
Todas esas medidas mencionadas, cuando las aplicamos a muestras, son estimadores, que nos
van a arrojar un valor, ese valor va a ser la estimación.
Página 2
Medidas de Tendencia Central
1. Modo o Moda (Mo): Indica el valor al que le corresponde la

máxima frecuencia absoluta simple, es decir, el valor que más se
repite.
Ejemplo: Realizo una encuesta: ¿Te gusto la clase? SI – NO – NO SE. Lo único que
puedo hacer con ese tipo de encuesta es contar cual dato (si – no – no se) se
repitió más. Es decir, lo único que puedo hacer es calcular la moda. Si la
respuesta “si” fue la que más se repitió, entonces la moda va a ser “si”.
Algunas consideraciones importantes:
 A la moda no le interesa cuantas veces se repite el valor que más se repite.

No te da esa información.
 Las variables cualitativas nominales solo aceptan la moda como medida de
tendencia central; pero la moda también se puede aplicar a variables
cuantitativas.
 En ocasiones no existe una moda en un conjunto de datos, o bien tienen
más de una moda (bimodal, multimodal). Ejemplo: considere los siguientes
datos sobre el tiempo, en minutos, que le toma a una persona prepararse
para salir: 29 31 35 39 39 40 43 44 44 52. Se observan dos modas: 39
minutos y 44 minutos, ya que cada uno de esos valores se presenta dos
veces.
Un conjunto de datos no tiene moda si ninguno de los valores es “el más
común”, es decir, si todos los valores se repiten la misma cantidad de
veces.
 Los valores extremos no afectan a la moda.
2.1. La Mediana (Me): Es el valor que separa el 50% inferior de los

datos del 50% superior de los datos.
Datos 50% Me 50% datos
Ejemplo: Se realiza una encuesta en la que se debe

Xi fi
seleccionar alguna de las siguientes opciones: Malo –
Malo 20
Regular – Bueno
Regular 10
Regular seria la mediana (vale lo Bueno 20
mismo lo que esta abajo y lo que está
arriba)
Página 3

 Te da el valor de variable que acumula la misma cantidad por debajo y por
encima, no te informa cuanto acumula el valor.
 Se puede utilizar a partir de escala ordinal.
2.2. La Mediana con Variables Numéricas: Es aquella posición,

aquel valor, que acumula la misma cantidad de datos por un lado y
la misma cantidad de datos por el otro, sin importar cuánto valen
los datos.
Ejemplo: 1 1 1 2 3 4 5 6 7 n impar
En la posición 5 tengo 4 datos para un lado y

4 datos para el otro.
Mediana: 3 Posición Mediana: 5
1 1 1 1 2 3 4 5 6 7 n par
Cuando el conjunto o subconjunto es par, tomo esos dos valores, los sumo y los divido por
dos para obtener la mediana.
Para obtener la posición mediana: n + 1 Mediana: 2,5 Posición mediana: 5,5
2

 A la mediana, para variables cuantitativas, no le importa cuánto valen los
valores que están por debajo o por encima de ella. Solo le importa cuántos
son.
 Si el conjunto de datos contiene un número impar de valores, la mediana es
el valor asociado con el dato ubicado a la mitad.
 Si el conjunto de datos contiene un número par de valores, la mediana es el
valor asociado con el promedio de los datos ubicados a la mitad.
3.1. La Media Aritmética: La media aritmética (generalmente

denominada media) sirve como un “punto de equilibrio” en un
conjunto de datos (como el punto de apoyo en un sube y baja)
Página 4
La media es el centro de gravedad

de la distribución

 La media se calcula sumando todos los valores en
un conjunto de datos y luego dividiendo el resultado de
esa suma por el número de valores en dicho conjunto.
 Solamente se puede utilizar para variables
Numéricas.
 Debemos diferenciar si es un parámetro o un estadígrafo.
Media aritmética poblacional: µx

Media aritmética muestral: X
Media Aritmética poblacional para datos desagrupados:
𝑁
µx = ∑ 𝑥𝑖 = 𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑁
𝑖=1 𝑁
N
Referencias:
(Letra minúscula)
∑ Suma i=1 desde la primer observación xi observación i-esima
Lo resaltado con rosa me indica que estoy calculando la media de una población.
N Tamaño poblacional.
*En la parte superior del símbolo de suma va la cantidad de sumandos que tengo.
Página 5
Media Aritmética Muestral para datos desagrupados:
𝑛
𝑋̅ = ∑ 𝑥𝑖 = 𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑛
𝑖=1 𝑛
n
Referencias:
∑ Suma i=1 desde la primer observación xi observación i-esima
Lo resaltado con amarillo me indica que estoy calculando la media de una muestra.
n Tamaño muestral.
Media Aritmética poblacional para datos agrupados: Referencias:
K Clases
𝑘 𝑘
µ =∑ 𝑥𝑖 × 𝑓𝑖 = ∑ 𝑥𝑖 × 𝑓𝑟𝑖 fi Frec. Abs. Simple
𝑖=1 𝑖=1
fri frec. Relativa simple
N
Me indica que los datos
están agrupados.
Me indica que estoy

trabajando con una
Media Aritmética muestral para datos agrupados:
población.
𝑘 𝑘
𝑋̅ = ∑ 𝑥𝑖 × 𝑓𝑖 = ∑ 𝑥𝑖 × 𝑓𝑟𝑖 Me indica que estoy

trabajando con una
𝑖=1 𝑖=1
muestra.
n
Página 6
3.2. Media Resumida: Se utiliza con datos continuos. Se calcula como

la sumatoria de las Marcas de Clase, donde M representa el
intervalo, por (×) la frecuencia relativa simple.
𝑀
𝑀𝑖𝑘𝑠 + 𝑀𝑖𝑘𝑖
𝑀𝑒𝑑𝑖𝑎 𝑅𝑒𝑠𝑢𝑚𝑖𝑑𝑎 = ∑ ( ) ∗ 𝑓𝑟𝑖
2
𝑖=1
Recordatorio: No existe la exactitud en los datos continuos, entonces,

necesariamente cuando tengo que agrupar los datos continuos debo hacerlo en
distribuciones de frecuencia por intervalos de clase.
Miks M i-esima k superior Es la clase superior del intervalo.
Miki M i-esima k inferior Es la clase inferior del intervalo.
𝑀𝑖𝑘𝑠+𝑀𝑖𝑘𝑖
Esa suma está siendo dividida por 2 porque supone que
2 todos los datos se concentran el valor medio del
intervalo. Esa suposición es justamente el problema de la
media resumida
Así calculo las Marcas

Ejemplo: Tengo el intervalo [0;10) con una
de Clase o Punto
frecuencia relativa de 0,2. Esto solo me da
medio del intervalo
información que entre 0 y 10 hay un 20% de las
observaciones. No me dice dónde están dentro
de ese intervalo. Lo que voy a suponer (ya que
no tengo esa información) es que ese 0.2
sucede en la mitad del intervalo (en este caso
ocurriría en 5).
Histograma
Página 7
A partir de esa media resumida generalizamos a una cantidad infinita de

intervalos y suponemos que cada intervalo mide un infinitesimal. Al suponer
eso suponemos que ese intervalo es el valor puntual de la variable continua.
𝑀
∑( ) × 𝑓𝑟𝑖 =
2
𝑖=1
𝐾𝑠𝑢𝑝 𝑀→∞ 100
= ∫ 𝑥𝑖 × 𝑓𝑟𝑖 𝑑𝑥 = ∑ ( ) × 𝑓𝑟𝑖 = ∫ 𝑥𝑖 × 𝑓𝑟𝑖 𝑑𝑥
2
𝐾𝑖𝑛𝑓 𝑖=1 0
La integral nos indica eso. La diferencia

entre Miks y Miki tiende a cero.
Referencias:
Ksup El máximo valor de la distribución: El mayor valor del mayor intervalo.
Kinf El minimo valor de la distribución: El menor valor del menor intervalo.
Xi Valor de la clase: Son las marcas de clase de cada intervalo.
fri Frecuencia Relativa Simple.
Esa integral definida la realizo con el objetivo de perder cada vez menos
información.
Para perder cada vez menos información o, dicho de otra manera, tener cada
vez más información de cada intercalo, tengo que lograr que estos sean cada vez más
chicos. Podemos tomar infinitos intervalos para eso. Si los intervalos son cada vez más
chicos también lo va a ser la diferencia entre la clase superior y la clase inferior: así nos
vamos acercando a una medida más exacta de resumen.
Si trazamos una línea que pase

por las marcas de clase
podemos observar unos
“triangulitos” que quedan por
fuera de la línea, y que
representan la información
que perdemos.
Página 8
Para solucionar ese problema,

tendemos a infinito la cantidad de
intervalos (haciéndolos muy muy
chicos). De esa forma podemos
observar que perdemos mucha
menos información,
prácticamente nula, y así
minimizo la posibilidad de
cometer errores al suponer que el
valor se encuentra en la mitad del
intervalo.
Haciendo los intervalos tan chicos como yo quiera puedo llegar al valor de la variable.
Si hago tender a cero la diferencia que hay entre el límite inferior y el límite superior
del intervalo, el resultado va a ser muy parecido a esos límites.
Por ejemplo:
10,001+10,002 Podemos observar que el
= 10,0015 resultado es muy parecido al
2
límite inferior y superior.
Entonces es por eso que en el límite en donde yo tengo infinitos intervalos, en lugar de
poner las marcas de clase ((Miks + Miki)/2) pongo directamente el valor de la variable;
es decir; puedo asociar a cada marca de clase con el punto en sí.
De esta forma si queremos calcular la media resumida de f(x) (que representa los datos
de nuestra variable en observación) lo podríamos hacer a través del cálculo de áreas
con la siguiente integral:
𝐾𝑠𝑢𝑝
∫ 𝑥𝑖 × 𝑓𝑟𝑖 𝑑𝑥
𝐾𝑖𝑛𝑓
Es f(x)
ACLARACIONES:
-Podemos tomar infinitos intervalos porque la variable es continua, y eso significa que
entre un valor y el otro existen infinitos valores.
-Los limites van a depender del fenómeno que se esté estudiando. Pueden tomar
cualquier valor desde -∞ a +∞
Página 9
Medidas de Posición
1. Los Cuartiles (Q): Representan valores de la variable que dividen
a la distribución en cuartos.
Es una medida de posición ya que no toma en cuenta los valores de la variable

en estudio sino que tienen en cuenta la posición de los mismos.
-Cuartil 1 (Q1) Es el valor de variable hasta el cual se acumula la primer cuarta

parte de las observaciones (25%)
-Cuartil 2 (Q2) Es el valor de variable hasta el cual se acumula las dos cuartas
partes de las observaciones (50%) (Coincide con la mediana).
-Cuartil 3 (Q3) Es el valor de variable hasta el cual se acumula las tres cuartas
partes de las observaciones (75%).
-Cuartil 4 (Q4) Es el valor de variable hasta el cual se acumula el total de las

observaciones (100%). Coincide con el último valor de variable.
También hay otras medidas de posición como los deciles (que

dividen los datos en 10 partes iguales) y los percentiles también
conocidos como centiles (que dividen los datos en 100 partes
idénticas)
Medidas de Dispersión o Variación

Las medidas de variación las utilizo para saber qué pasa con la distancia
entre el menor valor y el mayor valor, con datos desagrupados. Es decir, la
variación mide la dispersión de los valores en un conjunto de datos.
1. Rango (Rx) Es una medida de dispersión total (es decir, toma el

total de la distribución y se fija cuanto varia punta a punta), medida
en términos absolutos. El rango es igual al valor más grande menos
el valor más pequeño.
𝑅𝑎𝑛𝑔𝑜 = 𝑥𝑚𝑎𝑠 𝑔𝑟𝑎𝑛𝑑𝑒 − 𝑥𝑚𝑎𝑠 𝑝𝑒𝑞𝑢𝑒ñ𝑜
𝑅𝑎𝑛𝑔𝑜 = 𝑄4 − 𝑄0
P á g i n a 10
Problemas del Rango:
1) Ignora lo que pasa dentro de la distribución (porque solo toma

en cuenta las puntas)
El rango es igual siendo
Ejemplo: 1 – 2 – 3 – 4 – 5 – 6 Rango = 5
distintas las
1–1–1–1–1–6 Rango = 5 distribuciones
2) Es sensible a grandes dispersiones en sus límites (es decir a

grandes cambios en los valores de los limites).
El rango es muy distinto

Ejemplo: 1 – 1 – 1 – 1 – 1 – 106 Rango = 105 y las distribuciones son
1–1–1–1–1–6 Rango = 5 casi iguales. Solo cambia
un valor
Estos problemas podemos solucionarlos construyendo medidas de

variabilidad promedio, que evalúen el comportamiento respecto a la dispersión de
todos los valores de la distribución. El problema va a ser que, como podremos
observar, dichas medidas traerán aparejadas sus propios problemas.
Ejemplo disparador:
Se tienen dos distribuciones de datos, correspondientes a la variable “X” y a la

variable “Y” respectivamente. Dichos valores se exponen a continuación:
(Posterior a los cuadros se encuentran sus desarrollos paso a paso)
𝒙𝒊 (𝒙𝒊 − 𝝁𝑿 ) |𝒙𝒊 − 𝝁𝑿 | (𝒙𝒊 − 𝝁𝑿 )𝟐

15 -5 5 25
18 -2 2 4
20 0 0 0
20 0 0 0
20 0 0 0
22 2 2 4
25 5 5 25
E(X) = 20 𝑬(𝒙𝒊 − 𝝁𝑿 ) = 𝟎 𝑬|𝒙𝒊 − 𝝁𝑿 | = 𝟐 𝟓𝟖
𝑬[(𝒙𝒊 − 𝝁𝑿 )𝟐 ] =
𝟕
P á g i n a 11
𝑵𝑿 = 𝟕 𝑵𝒀 = 𝟕
𝑹𝑿 = 𝟏𝟎 𝑹𝒀 = 𝟏𝟎
𝒚𝒊 (𝒚𝒊 − 𝝁𝒀 ) |𝒚𝒊 − 𝝁𝒀 | (𝒚𝒊 − 𝝁𝒀 )𝟐

15 -5 5 25
19 -1 1 1
19 -1 1 1
20 0 0 0
21 1 1 1
21 1 1 1
25 5 5 25
E(Y) = 20 𝑬(𝒚𝒊 − 𝝁𝒀 ) = 𝟎 𝑬|𝒚𝒊 − 𝝁𝒀 | = 𝟐 𝟓𝟒
𝑬[(𝒚𝒊 − 𝝁𝒀 )𝟐 ] =
𝟕
Objetivo: Quiero encontrar una medida de variabilidad que siempre, pase

lo que pase, me muestre que esas dos distribuciones son diferentes (si es
que lo son).
Procedimiento paso a paso del cuadro:
1. El Rango
Rango de X 25 – 15 = 10 Mi medida de variabilidad en

Rango de Y 25 – 15 = 10 términos absolutos es 10.
Ahora voy a calcular distintos tipos de promedio para mensurar la variabilidad dentro
de la distribución y no solo ver qué pasa con las puntas.
2. La media o Esperanza Matemática
E(X) = (15 + 18 + 20 + 20 + 20 + 22 + 25) / 7 = 20

E(Y) = 15 × 1/7 + 19 × 2/7 + 20 × 1/7 + 21 × 2/7 + 25 × 1/7 = 20
3. La Esperanza de las dispersiones respecto del valor medio:

Calculo el promedio de las comparaciones de cada observación con
respecto a la media.
P á g i n a 12
(𝒙𝒊 − 𝝁𝑿 ) 15 – 20 = -5 (𝒚𝒊 − 𝝁𝒀 ) 15 – 20 = -5
18 – 20 = -2 19 – 20 = -1
20 – 20 = 0 19 – 20 = -1
20 – 20 = 0 20 – 20 = 0
20 – 20 = 0 21 – 20 = 1
22 – 20 = 2 21 – 20 = 1
25 – 20 = 5 25 – 20 = 5
(−𝟓) + (−𝟐) + 𝟎 + 𝟎 + 𝟎 + 𝟐 + 𝟓
𝑬(𝒙𝒊 − 𝝁𝑿 ) = = 𝟎
𝟕
(−𝟓) + (−𝟏) + (−𝟏) + 𝟎 + 𝟏 + 𝟏 + 𝟓

𝑬(𝒚𝒊 − 𝝁𝒀 ) = = 𝟎
𝟕
La media es el valor que compensa las dispersiones menores a ese valor con las
dispersiones mayores a ese valor. Por eso siempre va a dar cero, razón por la cual esta
medida no me sirve como medida promedio de variabilidad.
Como el problema es que tengo valores negativos y positivos que se compensan y por
eso me da cero, para solucionar ese problema voy a aplicar el modulo.
4. La esperanza del módulo de las comparaciones: El promedio

de los valores absolutos de las dispersiones respecto del valor
medio.
|𝒙𝒊 − 𝝁𝑿 | l 15 – 20 l = 5 |𝒚𝒊 − 𝝁𝒀 | l 15 – 20 l = 5
l 18 – 20 l = 2 l 19 – 20 l = 1
l 20 – 20 l = 0 l 19 – 20 l = 1
l 20 – 20 l = 0 l 20 – 20 l = 0
l 20 – 20 l = 0 l 21 – 20 l = 1
l 22 – 20 l = 2 l 21 – 20 l = 1
l 25 – 20 l = 5 l 25 – 20 l = 5
P á g i n a 13
𝟓+𝟐+𝟎+𝟎+𝟎+𝟐+𝟓 𝟓+𝟏+𝟏+𝟎+𝟏+𝟏+𝟓
𝑬|𝒙𝒊 − 𝝁𝑿 | = = 𝟐 |𝑬(𝒚𝒊 − 𝝁𝒀 )| = = 𝟐
𝟕 𝟕
Este problema surge a veces: cuando calculo la esperanza de los valores absolutos de las
diferencias de las observaciones con respecto a la media puede pasar que siendo distintas
distribuciones me den iguales. Entonces, esta medida tampoco me sirve, porque no me
garantiza que siempre que sean diferentes las distribuciones esta medida me dé diferente
también.
Esto ocurre porque no castiga a las variabilidades más grandes: para que no valga lo mismo
una variabilidad de dos que dos variabilidades de uno. Por eso, para solucionar este problema,
voy a elevar al cuadrado las diferencias entre las observaciones y el valor medio.
NOTA:
En estadística se prefiere tener más cantidad de variabilidades pero de una menor

magnitud que menos cantidad de variabilidades de mayor magnitud.
En este caso, voy a

preferir los puntos rosa.
5. La Varianza: El promedio de los valores cuadráticos de las

dispersiones respecto al valor medio
(𝒙𝒊 − 𝝁𝑿 )𝟐 15 – 20 = (−𝟓)𝟐 = 25 (𝒚𝒊 − 𝝁𝒀 )𝟐 15 – 20 = (−𝟓)𝟐 = 25

18 – 20 = (−𝟐)𝟐 = 4 19 – 20 = (−𝟏)𝟐 = 1
20 – 20 = 𝟎𝟐 = 0 19 – 20 = (−𝟏)𝟐 = 1
20 – 20 = 𝟎𝟐 = 0 20 – 20 = 𝟎𝟐 = 0
20 – 20 = 𝟎𝟐 = 0 21 – 20 = 𝟏𝟐 = 1
22 – 20 = 𝟐𝟐 = 4 21 – 20 = 𝟏𝟐 = 1
25 – 20 = 𝟓𝟐 = 25 25 – 20 = 𝟓𝟐 = 25
P á g i n a 14
𝟐𝟓 + 𝟒 + 𝟎 + 𝟎 + 𝟎 + 𝟒 + 𝟐𝟓 𝟓𝟖 Esta medida de variabilidad castiga a

𝑬(𝒙𝒊 − 𝝁𝑿 )𝟐 = = los valores que valen más con
𝟕 𝟕 respecto a los que valen menos y me
informa así que pasa con las
variabilidades dentro de la
distribución. Además, al elevar las
𝟐𝟓 + 𝟏 + 𝟏 + 𝟎 + 𝟏 + 𝟏 + 𝟐𝟓 𝟓𝟒
𝑬(𝒚𝒊 − 𝝁𝒀 )𝟐 = = comparaciones al cuadrado también
𝟕 𝟕 impide que se compensen las
variabilidades menores con las
variabilidades mayores a la media.
Varianza poblacional VAR (X) 𝜎 2𝑋

Varianza muestral VAR (X) 𝑆 2𝑋
Varianza poblacional para datos desagrupados:

𝑁
2 )2
VAR(X) = 𝜎 𝑋 = 𝐸 (𝑥𝑖 − 𝜇𝑋 = ∑(𝑥𝑖 − 𝜇𝑋 )2
𝑖=1
Varianza muestral para datos desagrupados:
𝑛 𝑛
𝑁 (𝑥𝑖 − 𝑋̅)2 𝑁 (𝑥𝑖 − 𝑋̅)2
𝑉𝐴𝑅(𝑋) = 𝑆 2
𝑋 = 𝐸(𝑥𝑖 − 𝑋̅)2 = ∑ × =∑
𝑛−1 𝑁 𝑛−1 𝑛−1
𝑖=1 𝑖=1
En lugar de comparar las Factor de

observaciones con corrección por
respecto a la media finitud
poblacional se compara las
observaciones de la
muestra con respecto a la
media de esa muestra
Siempre que utilizo un estimador para reemplazar a un parámetro desconocido pierdo un

grado de libertad. Como yo no conozco el valor de la media poblacional y la reemplazo por el
valor de esa media muestral estoy utilizando en la construcción de la varianza un estimador
reemplazando a un parámetro. En ese caso en el denominador le tengo que restar 1.
Hay medidas en las que utilizo más de un estimador para reemplazar a más de un parámetro.
En ese caso por cada estimador que uso pierdo un grado de libertad.
P á g i n a 15
Si el tamaño muestral es grande entonces el grado de libertad que se pierde se vuelve

“despreciable” (que reste o no ese 1 no genera cambios grandes en el resultado).
Entonces si n tiende a un número grande voy a calcular la varianza muestral de la
siguiente manera:
𝑛
(𝑥𝑖 − 𝑥̅ )2
𝑉𝐴𝑅(𝑋) = 𝑆 2 𝑋 = ∑
𝑛
𝑖=1
Varianza poblacional para datos agrupados:

𝐾
2
VAR(X) = 𝜎 𝑋 = ∑(𝑥𝑖 − 𝜇𝑋 )2 × 𝑓𝑟(𝑥𝑖 )
𝑖=1
Esto se lee: La suma de las diferencias entre las

observaciones con respecto al valor medio elevados
al cuadrado, multiplicado por la frecuencia relativa
simple.
5.1. Varianza para variables continuas: Voy a dejar de comparar

clases para pasar a comparar marcas de clase (el supuesto de que
todos los datos del intervalo se concentran en la mitad del
intervalo)
𝐾 +∞
𝑉𝐴𝑅 (𝑋) = ∑(𝑥𝑖 −𝜇𝑋 )2 × 𝑓𝑟(𝑥𝑖 ) → ∫ ( 𝑥𝑖 −𝜇𝑋 )2 × 𝑓𝑟(𝑥𝑖 ) 𝑑𝑥

𝑖=1 −∞
Media resumida
que calcule
utilizando la
La marca de clase integral
2
Va a ser el valor de la
variable continua cuando
tengo infinitos intervalos.
P á g i n a 16
Problema de la varianza:
Su gran problema es que esta expresada en medidas cuadráticas, por lo tanto, no
puedo compararla con otras unidades de medida como la media, ya que se encuentran
en distintas dimensiones. Ejemplo: No puedo comparar un metro cuadrático con un
metro lineal. De la misma forma la varianza esta en unidades cuadráticas
(pertenecientes al espacio bidimensional) mientras que la media está en unidades
lineales (pertenecientes al espacio unidimensional).
Para solucionar este problema utilizo el…
6. Desvío estándar Solucionamos el problema poniéndole la raíz

cuadrada a la varianza.
𝐾
2
𝜎𝑥 = √∑(𝑥𝑖 − 𝜇𝑋 ) × 𝑓𝑟(𝑥𝑖 )
𝑖=1
7. Coeficiente de variabilidad Lo que hace es comparar el desvío

con respecto al valor medio. Es una medida de variabilidad relativa
con respecto al valor medio y es adimensional.
𝝈𝒙
𝒑𝒐𝒃𝒍𝒂𝒄𝒊𝒐𝒏𝒂𝒍 → 𝑪𝑽 =
𝝁𝒙
𝑺𝒙
𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒍 → 𝑪𝑽 =
̅
𝒙
Ejemplo: Tengo una distribución que tiene un desvío igual a 3 años y una media igual a
1 año. Por otro lado tengo otra distribución que tiene un desvío igual a 12 meses y una
media igual a 6 meses.
𝜎𝑥 = 3 𝑎ñ𝑜𝑠 ∧ 𝜇𝑥 = 1 𝑎ñ𝑜 → 𝐶𝑉 = 3
𝜎𝑦 = 12 𝑚𝑒𝑠𝑒𝑠 ∧ 𝜇𝑦 = 6 𝑚𝑒𝑠𝑒𝑠 → 𝐶𝑉 = 2
Esos valores no usan una unidad de medida de dimensión, entonces los puedo
comparar: 3 tiene mayor variabilidad relativa con respecto a la media.
P á g i n a 17
Momentos Estadísticos
Pueden utilizarse tanto para datos discretos como para datos continuos.
Momentos Estadísticos Absolutos
Para variables
discretas de orden K Centrales o Centrados
- Un momento para variables discretas es un promedio de cosas.

- Los momentos tienen orden 1, orden 2, orden 3, orden k. Son discretos, es
decir, no existe un orden ½.
- No todos los momentos son asociables a medidas de estadística.
Momentos Absolutos: El momento de orden k absoluto es la suma de los valores

de variable elevado a la k sobre N:
𝑁 𝑁
𝑋𝑖 𝑘 𝑋𝑖
∑ → ∑
𝑁 𝑁
𝑖=1 𝑖=1
Momento absoluto de
orden 1 es la media
(poblacional en este
caso)
Momentos Centrales:
𝑵 𝑵
(𝒙𝒊 − 𝝁𝒙 )𝑲 (𝒙𝒊 − 𝝁𝒙 )𝟐
∑ → ∑
𝑵 𝑵
𝒊=𝟏 𝒊=𝟏
Momento central de
𝑵 orden 2 es la varianza.
(𝒙𝒊 − 𝝁𝒙 )𝟏 SIEMPRE
∑ =𝟎
𝑵
𝒊=𝟏
P á g i n a 18
Medidas de Forma
1. Simetría: Coeficiente de asimetría de Fisher.
En una distribución simétrica los valores que están por debajo de la media se
distribuyen exactamente de la misma forma que los valores que están por arriba de
esta. Así los valores altos y bajos se neutralizan.
En una distribución sesgada o asimétrica se produce un desequilibrio entre los valores
altos y los bajos. Los valores no se distribuyen de manera simétrica alrededor de la
media.
Sesgados hacia la izquierda: La mayoría de los valores se encuentran en la parte
superior de la distribución. Estos valores hacen que la media se deslice hacia abajo,
provocando que esta sea menor que la mediana.
Sesgados hacia la derecha: La mayoría de los valores se encuentran en la parte inferior
de la distribución. Estos valores hacen que la media se deslice hacia arriba, provocando
que esta sea mayor que la mediana.
𝑁 𝑁 𝑁
1 (𝑥𝑖 − 𝜇𝑥 )3 1 (𝑥𝑖 − 𝜇𝑥 )3 (𝑥𝑖 − 𝜇𝑥 )3 1 𝑚𝑐 (3)
𝐴𝐹 = ∑ ⟹ 𝐴 𝐹 = ∑ = ∑ × =
𝑁 𝜎3 𝑁 𝜎3 𝑁 𝜎3 𝜎3
𝑖=1 𝑖=1 𝑖=1
La asimetría de Fisher
es un promedio de Momento Centrado
comparaciones con de Orden 3 dividido el
respecto a la media desvío al cubo
P á g i n a 19
elevado al cubo.
2. Coeficiente de Curtosis Compara la altura de la función con

respecto a la distribución normal.
𝑁
(𝑥𝑖 − 𝜇𝑥 )4 1 𝑚𝑐 (4)
𝐶=∑ × 4=
𝑁 𝜎 𝜎4
𝑖=1
Momento Centrado de
Orden 4 dividido el desvío
a la cuarta (curtosis
poblacional)
𝑛
(𝑥𝑖 − 𝑥̅ )4 1 𝑚𝑐 (4)
𝐶=∑ × 4=
𝑛 𝑠 𝑆4
𝑖=1
Momento Centrado de
Orden 4 dividido el desvío
a la cuarta (curtosis
muestral)
P á g i n a 20
Capítulo 4 Probabilidad
PROBABILIDAD
Algunos conceptos introductorios:

 Un fenómeno es determinístico si se sabe con toda certeza cuál será su
comportamiento.
 Un fenómeno es aleatorio cuando no podemos afirmar con certeza cuál será su
comportamiento.
Por ejemplo: Si lanzamos una piedra al aire, podemos afirmar con certeza que volverá
a caer a la superficie de la tierra, pero no podemos saber con precisión el punto en el
cual caerá. Así, la caía es un fenómeno determinístico, mientras que el lugar en el que
se producirá dicha caída es aleatorio, ya que existe incertidumbre respecto del punto
preciso en el que caerá.
 La estadística utiliza la probabilidad como herramienta.
 Utilizan cosas similares que las llaman de diferente manera…
Estadística Probabilidad
Variable de Estudio Variable Aleatoria
Espacio de variabilidad Espacio muestral
Clase Suceso o Evento
Distribución de frecuencias Distribución teórica de probabilidad
Ejemplo: Tiro un dado 60 veces. No siempre va a pasar que vaya a caer 10 veces en 1,
10 veces en 2, 10 veces en 3, 10 veces en 4 y así sucesivamente, pero si ese
experimento lo repito infinitas veces y las promedio se va a acercar mucho a que 10
veces haya caído el 1, 10 veces el 2, 10 veces el 3…
A eso lo voy a poder saber después de realizar infinitas veces el experimento (ex-post).
También podemos saber, conociendo las características físicas del dado, que si lo
tiramos infinitas veces 1/6 de las veces va a caer el 1, 1/6 de las veces va a caer el 2, y
así sucesivamente.
 Al cálculo probabilístico le interesa el comportamiento que van a tener los
distintos eventos que pertenecen al espacio muestral de una determinada
variable aleatoria.
Página 1
Definición de probabilidad.
La primera definición de probabilidad fue como la posibilidad de ocurrencia de un
evento. El tema fue que esta era una definición recursiva.
Por este motivo posteriormente se la definió a la probabilidad como un número, que
va del cero al uno y que mide el riesgo de ocurrencia. Ese número me indica el grado
de riesgo que existe acerca de la ocurrencia de un suceso o evento, donde el valor cero
indica imposibilidad de ocurrencia y el numero 1 indica absoluta certeza acerca de la
ocurrencia de ese suceso o evento. Ese número va a ser siempre un número Real.
Imposibilidad de ocurrencia → 0
P(SUCESO) Incertidumbre Laplaciana → 0,5
Absoluta certeza de ocurrencia → 1
En 0, 1 y en la Incertidumbre Laplaciana no hay riesgo. Riesgo es por ejemplo 0,40.

Aclaración: No se debe pensar al riesgo como algo malo sino como la posibilidad de
ocurrencia de un evento.
Incertidumbre Laplaciana: Cuando ocurre la equiprobabilidad eventual

(la probabilidad de que ocurra cualquier evento) me encuentro en el caso de
incertidumbre Laplaciana. No siempre ocurre en 0,50. Ocurre cuando tengo la misma
distancia para llegar a la imposibilidad que para llegar a la absoluta certeza. Es en el
recorrido medio.
Página 2
Por ejemplo:
Llueve
2 Eventos → 50% Incertidumbre
No llueve Laplaciana.
Pelota roja
4 eventos → 25%
Pelota azul
Incertidumbre
Pelota verde
Laplaciana.
Pelota amarilla
Tenemos, finalmente, una tercera definición que plantea que la probabilidad es la

frecuencia relativa, que se le puede dar a priori, es decir, que se espera respecto a la
ocurrencia de un evento.
Formas de Asignación o Tipos de Probabilidad.
1. Probabilidad Clásica o Laplaciana: Requiere que yo tenga conocimiento

de cuales son todos los sucesos que forman parte del espacio muestral. Por
ejemplo: Lanzamiento de un dado: tengo conocimiento de cuales son todos los
posibles valores.
Sea Ω un espacio muestral finito que contiene N eventos (simples o
compuestos), y sea A un evento que puede darse de n maneras distintas, es
decir, que al realizar el experimento hay N resultados posibles de los cuales n
son favorables al evento A. La probabilidad de que ocurra el evento A esta dada
por:
𝐶𝑎𝑠𝑜𝑠 𝐹𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠 𝑛
𝑃(𝐴) = =𝑁
𝐶𝑎𝑠𝑜𝑠 𝑃𝑜𝑠𝑖𝑏𝑙𝑒𝑠
Página 3
Ejemplo:
Un individuo esta por jugar un juego en el que se lanzan dos dados, gana si el resultado
de la suma de los números obtenidos en ambos dados es 7. La cantidad de resultados
posibles es 36 (estos resultados son igualmente probables). Luego deberíamos
determinar la cantidad de resultados favorables al evento “la suma de los dados sea
7”. Esto puede darse de 6 maneras distintas (1 y 6, 2 y 5, 3 y 4, 4 y 3, 3 y 2, 6 y 1). Así la
probabilidad de que el apostador gane está dada por el cociente del número de
favorables resultados al suceso, y el número de resultados posibles.
P(A) = 6/36 = 1/6 = 0,1667
Características de este ejemplo:
- Los 36 posibles resultados son mutuamente excluyentes, debido a que no
puede aparecer más de un par en forma simultánea.
- Loa 36 resultados son igualmente probables.
2. Probabilidad empírica o frecuentista: En muchas situaciones prácticas

los posibles resultados de un experimento no son igualmente probables. Por
ejemplo: En una fábrica las posibilidades de observar un artículo defectuoso
normalmente serán mucho más bajas que observar un artículo bueno. En este
caso no es correcto calcular la probabilidad de encontrar un artículo defectuoso
mediante el empleo de la definición clásica.
(Nosotros vamos a utilizar este tipo de probabilidad).
𝐶𝑎𝑠𝑜𝑠 𝐹𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠
𝑃(𝐴) =
𝐶𝑎𝑠𝑜𝑠 𝑂𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑜𝑠
Ejemplo:
Consideremos un control de calidad de una empresa, en el cual se desea saber la
probabilidad de que un artefacto tenga una vida útil superior a 1200 hs. Para ello el
departamento de control de calidad separa 500 unidades de la producción y mide la
vida útil de cada unidad. Los resultados los observamos en la siguiente tabla:
Página 4
Duración en hs Frecuencia Absoluta Frecuencia Porcentual

Menos de 800 10 2%
800 a 899 40 8%
900 a 999 55 14%
1000 a 1099 70 11%
1100 a 1199 85 17%
1200 a 1299 115 23%
1300 a 1399 84 17%
1400 o mas 41 8%
500 100%
La probabilidad de que la vida útil sea mayor o igual a 1200 hs es:

P(A) = (115 + 84 + 41) / 500 = 0,23 + 0,17 + 0,8 = 0,38
3. Probabilidad Subjetiva: Lo que la gente considere razonable para la

probabilidad.
𝑃(𝐴) = 𝐺𝑟𝑎𝑑𝑜 𝑟𝑎𝑧𝑜𝑛𝑎𝑏𝑙𝑒 𝑑𝑒 𝑐𝑟𝑒𝑒𝑛𝑐𝑖𝑎𝑠
Ejemplo: al lanzar un nuevo producto al mercado, el gerente de ventas puede

creer que el mismo tendrá un 70% de aceptación en el público, es decir, que la
probabilidad (subjetiva) de que un individuo acepte el producto es de 0,7.
Eventos o Sucesos
Simples Compuestos
Definen una sola característica del Es un conjunto de eventos simples.

evento. Ocurren cuando solamente Estoy componiendo espacios
miro un espacio muestral. muestrales.
Página 5
Un evento simple seria por ejemplo solo observar

el palo de las cartas.
A= Palo de la baraja española de naipes.
Voy a tener 4 eventos: ΩA = {Palo, Basto, Espada,
Oro}
#ΩA = 4
Un evento compuesto seria por ejemplo

observar el palo y el número de las cartas.
A= Palo de la baraja española de naipes.
B= Numero que corresponde a la carta de la
baraja española de naipes.
ΩA = {Palo, Basto, Espada, Oro} #ΩA = 4
ΩB = {B Є R / 1 ≤ B ≤ 12} #ΩB = 12
Nomenclatura:
A, B (letras mayúsculas) → Eventos
Ω ≡ S → Espacio Muestral
P(A) → Probabilidad de ocurrencia del evento A (marginal o simple)
P(A = a) → Probabilidad de que el evento A sea igual al valor a
P(B) → Probabilidad de ocurrencia del evento B (marginal o simple)
P(AՈB) ≡ P(AyB) → Probabilidad de ocurrencia conjunta del evento A y B
P(AՍB) ≡ P(AoB) → Probabilidad de ocurrencia de la unión inclusiva de eventos A y B
P(AՍB) → Probabilidad de ocurrencia de la unión exclusiva de eventos A y B
P(A l B) → Probabilidad de ocurrencia del evento A dado que ha ocurrido B
Página 6
Partición de un espacio muestral

Son todas aquellas divisiones mutuamente excluyentes y colectivamente exhaustivas
que se pueden realizar sobre un espacio muestral. Es por este motivo que puedo tener
como máximo tantas particiones como eventos tenga el espacio muestral.
Ejemplo: En la baraja española de naipes cada número es la partición mínima que
puede tomar el espacio muestral (no puedo dividir ese espacio muestral en 24 partes,
como máximo puedo dividirlo en 12. Cada parte es un número). Esto es así porque
tiene que ser colectivamente exhaustiva (es decir, tengo que tener todos los pedacitos
del espacio muestral) y mutuamente excluyente (es decir, no puede haber un pedacito
que corresponda a más de una partición).
Podría tomar, en vez de 12, 2 particiones, por ejemplo numero par y numero par, pero
en este caso no podría tomar más de 12 particiones (teniendo en cuenta que es un
evento simple, es decir, estoy trabajando con un solo espacio muestral, y la unidad
mínima de análisis, el evento mínimo en este espacio muestral es el número de la
carta).
Entonces...
Dos eventos son mutuamente excluyentes cuando esos eventos son particiones de un
mismo espacio muestral. En otras palabras, dos eventos A y B son mutuamente
excluyentes si la ocurrencia de uno implica la no ocurrencia del otro.
Dos eventos son colectivamente exhaustivos cuando en conjunto involucran a la
totalidad del espacio muestral. Es decir, la unión de los conjuntos que los representan
conforman el espacio muestral.
Probabilidad Marginal
La probabilidad marginal es simplemente la probabilidad de ocurrencia de un evento
A, sin pensar en la existencia de otro evento B que suceda de modo simultaneo con A.
Ejemplo: consideremos el lanzamiento de un dado. Podemos definir un evento simple
como A = El resultado sea mayor o igual a dos. La probabilidad marginal de ese evento
será P(A) = 5/6
Diagramas de Venn
Ejemplo 1
Complemento
ESPADA COPA ΩA = {A1 , A2 , A3 , A4}
A1 A3 Complemento de A1 → A’1 = A2 Ս A3 Ս A4
Realice una partición en “espada y no espada”. También
ORO BASTO
podría particionar en oro y no oro si quisiese. Pero
A2 A4 puedo realizar como máximo 4 particiones.
Página 7
Ejemplo 2
Complemento
N (NUMEROS
A = Números impares NATURALES)
A’ = Todo lo que no sea A

Impares
ΩA = Números impares
N = Números naturales
A
N - ΩA = Ω’A ≡ ΩA
C
N- A = A’ ≡ A ≡ A
El complemento de un conjunto (A’) es el conjunto de todos los elementos del espacio

muestral que no pertenecen al evento A.
Ejemplo 3
Eventos compuestos:
B Si quiero contar la cantidad de
A elementos que tiene A o la cantidad
de elementos que tiene B lo que
tengo que hacer simplemente es
sumar (porque en este caso no hay
ningún elemento de A que sea
también de B).
A = {1 ; 3 ; 5 ; 7 ; 9}
Entonces por más que estén
B = {2 ; 4 ; 6 ; 8}
separados los voy a ver como un
AՍB = {1 ; 2 ; 3 ; 4 ; 5 ; 6 ; 7 ; 8 ; 9} conjunto.
Ejemplo 4
Unión inclusiva:
La unión de dos conjuntos (AUB) está dada
por el conjunto de todos los resultados que
B
pertenecen al evento A, todo lo que A
pertenece a B, y todo lo que pertenece a A y B
Cuando me interesa definir una unión
inclusiva no me interesan los valores
repetidos, entonces los saco del conjunto A o
del conjunto B (En este ejemplo los saque de
Página 8
A).
Múltiplos de 2 A = { 2 , 4 , 6 , 8 , 10 , 12 }
Múltiplos de 3 B = { 3 , 6 , 9 , 12 , 15 }
Esos elementos que están repetidos, es

decir, que pertenecen a A y a B los quito de
uno de los dos conjuntos para evitar la
doble contabilización:
AUB = { 2 , 3 , 4 , 6 , 8 , 9 , 10 , 12 , 15 }
AUB
Entonces, si quiero unir dos conjuntos:
AՍB = A + B - AՈB
En probabilidad:
Unión Inclusiva P(AOB) = P(A) + P(B) – P(AyB)
Ejemplo 5
Unión Exclusiva:
B
En este caso solo nos van a interesar los
A elementos que pertenecen a A o que
pertenecen a B. Aquellos que pertenezcan
a A y a B a la vez no los vamos a
contabilizar.
En nuestro ejemplo nos va a interesar los
AՍB
números múltiplos de 2 o los números
P(AUB) = P(A) + P(B) – 2P(AyB) múltiplos de 3. No cuento los que son
múltiplos de 2 y de 3.
Unión Exclusiva AUB = { 2 , 3 , 4 , 8 , 9 , 10 , 15 }
Ejemplo 6
Intersección:
B
La intersección de dos conjuntos (AՈB)
está dada por el conjunto de los resultados
A
que pertenecen tanto a A como a B
simultáneamente.
A = Múltiplos de dos
B = Múltiplos de tres
(AՈB) = (AyB) = { 6 , 12 }
Entonces, la probabilidad conjunta de dos
eventos, A y B, es simplemente la
probabilidad de que ambos sucedan al Página 9
mismo tiempo.
Conclusiones
ΩA = { A1 , A2 , A3 , …. , AK }
1- La cantidad máxima de particiones es igual al valor K. Podría hacer menos
particiones pero no más.
2- ⋁𝑖,𝑗 ∴ 𝑃 (𝐴𝑖 ∩ 𝐴𝑗 ) = 0 Significa: Para todo par de A sub algo, por ejemplo
A1 con A5, A4 con A6, es decir, para toda
A1 A2 A3 A4 comparación de a pares, la probabilidad conjunta
A5 A6 A7 A8 entre cualquier partición A subalgo con cualquier
A9 A10 A11 A12 A subalgo es Nula. No puede haber ningún
Son particiones disjuntas que entre elemento que pueda pertenecer a dos
todas forman el espacio muestral. particiones a la vez. Sino no serían particiones.
Ejemplo: si una carta es par no puede ser impar.
Si quiero trabajar con las Por ejemplo, si realizo una partición

particiones como si fueran mini definida en Par e Impar, es decir, realizo
conjuntos se formalizaría así: dos particiones, estas serán
subconjuntos. Un subconjunto tendrá
𝐴𝑖 ∩ 𝐴𝑗 = ⊘ todos los elementos pares y el otro
tendrá todos los elementos impares.
Me estoy Cuando opero con

preguntando conjuntos obtengo
cuantos elementos conjuntos. Por eso la
en común tienen respuesta es el
estos dos conjuntos: conjunto vacío.
¿Cómo está
formado el conjunto
que incluye
elementos de Ai con
elementos de Aj?
𝐾 𝐾
3- ⋂ 𝐴𝑖 = ⊘ ⇒ 𝐴1 ∩ 𝐴2 ∩ 𝐴3 ∩. . .∩ 𝐴𝑘 = ⊘ ⟹ 𝑃(⋂ 𝐴𝑖 ) = 0
𝑖=1 𝑖=1
La probabilidad de que
haya elementos que Formalizado como una
pertenezcan a más de un probabilidad: la
conjunto es igual a cero. probabilidad de que
ocurran intersecciones.
P á g i n a 10
4- 𝐾 𝐾
Me está diciendo que
⋃ 𝐴𝑖 = Ω𝐴 ⟹ 𝑃 (⋃ 𝐴𝑖 ) = 1 cuando uno todas las
𝑖=1 𝑖=1 particiones obtengo
como resultado el
espacio muestral.
Entonces la probabilidad
de la unión de todas las
particiones va a ser igual
a 1.
Axiomas de Andrei Kolmogorov

Andrei Kolmogorov definió la medida o función de probabilidad mediante una serie de
axiomas.
Dado un espacio muestral Ω, llamamos Medida de probabilidad a una función P que
tiene como conjunto de salida al espacio muestral (el dominio) y que tiene como
conjunto de llegada a los números reales, siendo su imagen los números reales que
pertenecen al intervalo [0,1] si satisface los siguientes axiomas:
A) Si A es un evento cualquiera, entonces P(A) ≥ 0
B) P(Ω) = 1
C) Si A1 ( i = 1,2…) son eventos mutuamente excluyentes entonces:
P(A1 U A2 U …) = P(A1) + P(A2) + …
A partir de esos axiomas se puede llegar a las siguientes conclusiones:

c
 Conocida la probabilidad de un evento A, se puede conocer su complemento A
mediante la siguiente relación:
𝑃(𝐴𝐶 ) = 1 − 𝑃(𝐴)
 La función de probabilidad está incluida en el intervalo real [0;1], es decir:

0 ≪ 𝑃(𝐴) ≪ 1
 La probabilidad del evento vacío es nula, es decir

𝑃(⊘) = 0
 Si A y B son dos eventos cualesquiera, entonces la probabilidad de su unión es:

𝑃(𝐴⋃𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴⋂𝐵)
 Si A, B y C son 3 eventos cualesquiera, entonces la probabilidad de su unión es:

𝑃(𝐴 ∪ 𝐵 ∪ 𝐶) = 𝑃(𝐴) + 𝑃(𝐵) + 𝑃(𝐶) − 𝑃(𝐴 ∩ 𝐵) − 𝑃(𝐵 ∩ 𝐶) + 𝑃(𝐴 ∩ 𝐵 ∩ 𝐶)
P á g i n a 11
 Si A está incluida en B, entonces la probabilidad de A es menor o igual a la

probabilidad de B.
𝐴 ⊑ 𝐵 ⟹ 𝑃(𝐴) ≤ 𝑃(𝐵)
 Si A esta incluido en B, entonces la probabilidad de la intersección de los dos

conjuntos coincide con la probabilidad de A:
𝐴 ⊑ 𝐵 ⟹ 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴)
Probabilidad Condicional
P(A) = 4/12 (Puntos negros)
P(B) = 6/12 (Rayas rosa)
Pleca
Voy a evaluar cuál es la probabilidad

P(B l A)
P(B l A)
de que ocurra B habiendo ocurrido A
2: Ocurre B 1: Habiendo
ocurrido A
Y la probabilidad de que ocurra A
habiendo ocurrido B. P(A l B)
Si me interesa evaluar cuál es la
3 proporción de ocurrencia de B con
𝑃(𝐵𝑦𝐴) 12 3 respecto a A solo me voy a fijar en
𝑃(𝐵|𝐴) = = =
𝑃(𝐴) 4 esos cuadraditos. No me interesan
(12) 4 esos cuadrados que ocurren a la vez
en proporción a la totalidad, solo
me interesan en proporción a A. Por
3 eso el denominador es P(A).
𝑃(𝐴𝑦𝐵) 3
𝑃(𝐴|𝐵) = = 12 =
𝑃(𝐵) 6
(12) 6
Recordatorio! No es lo mismo:
4 Cuando no hay paréntesis por
(2)
=1 convención es como si estuviera en el
2 numerador, por eso, ¡no olvidar poner
4 los paréntesis en el denominador!
=4
2
(2) P á g i n a 12
Entonces…
𝑃(𝐴𝑦𝐵)
𝑃(𝐴|𝐵) = ⟹ 𝑃(𝐴𝑦𝐵) = 𝑃(𝐵) × 𝑃(𝐴|𝐵)
𝑃(𝐵)
Formalización Matemática: Tiene Formula: No tiene una

una interpretación, es una interpretación directa, no la
conceptualización. puedo razonar. Llego a ella a
partir de la formalización
matemática.
𝑃(𝐵𝑦𝐴)
𝑃(𝐵|𝐴) = ⟹ 𝑃(𝐵𝑦𝐴) = 𝑃(𝐴) × 𝑃(𝐵|𝐴)
𝑃(𝐴)
En el ejemplo que trabajamos:

3 6 3 3 4 3
= × ∧ = ×
12 12 6 12 12 4
Ejemplo: Calcular la probabilidad de que la suma de los dos dados sea 3,

sabiendo que el resultado del primer dado fue 2.
1
𝑃(𝑑1 + 𝑑2 = 3 ∩ 𝑑1 = 2) 36 1
𝑃(𝑑1 + 𝑑2 = 3|𝑑1 = 2) = = =
𝑃(𝑑1 = 2) 1
(6) 6
Eventos estadísticamente independientes

Dos eventos A y B son estadísticamente independientes si la ocurrencia de uno
no afecta la probabilidad de ocurrencia del otro, es decir que:
P(A|B) = P(A)
Ejemplo:
A: Cara superior de un dado lanzado con cubilete.
B: Calificación obtenida en la materia.
P(B=7|A=1) = P(B=7)
¡CUIDADO!
EVENTOS INDEPENDIENTES ≠ EVENTOS MUTUAMENTE EXCLUYENTES
P á g i n a 13
Regla de Multiplicación de Probabilidades

Si A y B son dos eventos estadísticamente independientes, entonces la probabilidad
conjunta es igual al producto de las probabilidades marginales:
P(AՈB) = P(A) x P(B)
𝑃(𝐴𝑦𝐵)
𝑃(𝐴|𝐵) = 𝑃(𝐴) = ⟹ 𝑃(𝐴) × 𝑃(𝐵) = 𝑃(𝐴𝑦𝐵)
𝑃(𝐵)
𝑃(𝐵𝑦𝐴)
𝑃(𝐵|𝐴) = 𝑃(𝐵) = ⟹ 𝑃(𝐵) × 𝑃(𝐴) = 𝑃(𝐵𝑦𝐴)
𝑃(𝐴)
Se destaca que la independencia es una relación simétrica entre eventos, esto quiere
decir que si A es independiente de B entonces B es independiente de A.
Regla de la suma
Si A y B son dos eventos mutuamente excluyentes, entonces la unión de ambos
eventos será igual a la suma de los eventos simples:
P(AUB) = P(A) + P(B) – P(AyB)
Para Eventos mutuamente

excluyentes la probabilidad de
que ocurra A y B va a ser igual a
cero, ya que no pueden suceder a
la vez.
Entonces…
P(AUB) = P(A) + P(B)
P á g i n a 14
Teorema de la probabilidad total
A1
B
BՈA1
A2
Tenemos 2 eventos. A y B.
BՈA2 Vamos a realizar particiones, es decir,
A3 subconjuntos del espacio muestral que
no comparten elementos
BՈA3
A
Particiones:
A1 B’ → Tiene una parte donde no está B
B → Tiene una parte donde esta B
B’ → Tiene una parte donde no está B

A2
B’ → Tiene una parte donde no está B

A3
Las partes donde no está B no me interesa analizarlas, solo me interesa donde esta B.
𝐴1 ⟶ 𝐵 ⟶ 𝑃(𝐴1 ) × 𝑃(𝐵|𝐴1 ) = 𝑃(𝐵 ∩ 𝐴1 )
𝐴2 ⟶ 𝐵 ⟶ 𝑃(𝐴2 ) × 𝑃(𝐵|𝐴2 ) = 𝑃(𝐵 ∩ 𝐴2 )
𝐴3 ⟶ 𝐵 ⟶ 𝑃(𝐴3 ) × 𝑃(𝐵|𝐴1 ) = 𝑃(𝐵 ∩ 𝐴3 )
P á g i n a 15
𝑃(𝐵 ∩ 𝐴1 )
𝑃(𝐵|𝐴1 ) =
𝑃(𝐴1 )
¿Qué significa esto? Esto muestra que a

𝑃(𝐵 ∩ 𝐴2 ) mí me interesa estudiar la proporción
𝑃(𝐵|𝐴2 ) =
𝑃(𝐴2 ) que ocupa B con respecto a cada
partición y no con respecto al total.
𝑃(𝐵 ∩ 𝐴3 )
𝑃(𝐵|𝐴3 ) =
𝑃(𝐴3 )
Así llego al
Si sumo esas tres particiones
voy a obtener la probabilidad Teorema de la
de B. probabilidad total.
La probabilidad marginal o
simple de un evento es la
suma de las probabilidades
conjuntas.
𝑷(𝑩 ∩ 𝑨𝟏 ) + 𝑷(𝑩 ∩ 𝑨𝟐 ) + 𝑷(𝑩 ∩ 𝑨𝟑 ) = 𝑷(𝑩) Es lo mismo

escrito de
𝑷(𝑩) = 𝑷(𝑩|𝑨𝟏 ) × 𝑷(𝑨𝟏 ) + 𝑷(𝑩|𝑨𝟐 ) × 𝑷(𝑨𝟐 ) + 𝑷(𝑩|𝑨𝟑 ) × 𝑷(𝑨𝟑 ) distintas
formas
Teorema de la probabilidad total: La probabilidad marginal de ocurrencia de un

evento es igual a la suma del producto (multiplicación) de las probabilidades
marginales de los eventos condicionantes por las probabilidades condicionales de
ocurrencia del evento a estudiar dadas las ocurrencias de sus respectivas particiones.
P á g i n a 16
Sumo
multiplicaciones
Cantidad de
particiones
𝑃(𝐵) = ∑ 𝑃(𝐵|𝐴𝐾 ) × 𝑃(𝐴𝐾 )

𝐾=1
Probabilidad
Probabilidad marginal de la
Marginal o Probabilidad partición del
simple de un Condicional evento
evento a estudiar condicionante
En otras palabras: La probabilidad marginal de que ocurra B es igual a la suma de las

probabilidades conjuntas entre B y cada una de las particiones del evento
condicionante:
𝑛
A partir de esta
𝑃(𝐵) = ∑ 𝑃(𝐵 ∩ 𝐴𝐾 ) formalización
surge la fórmula
𝐾=1 de arriba
Teorema de Bayes
Ejemplo:
ΩB = { B1 , B2 , B3 }
P(A) = P(AՈB1) + P(AՈB2) + P(AՈB3) =
= P(A|B1) x P(B1) + P(A|B2) x P(B2) + P(A|B3) x P(B3)
3
𝑃(𝐴) = ∑ 𝑃(𝐴|𝐵𝐾 ) × 𝑃(𝐵𝐾 ) Probabilidad

𝐾=1 Total
Por otro lado…

𝑃(𝑋 ∩ 𝑌) Probabilidad
𝑃(𝑋|𝑌) =
𝑃(𝑌) Condicional
P á g i n a 17
Bayes utiliza esa estructura para desarrollar su teorema:
Probabilidad conjunta
𝑃(𝐴|𝐵𝐽 ) × 𝑃(𝐵𝐽 ) 𝑃(𝐴 ∩ 𝐵𝐽 )

𝑃(𝐵𝐽 |𝐴) = =
∑ 𝑃(𝐴|𝐵𝐾 ) × 𝑃(𝐵𝐾 ) 𝑃(𝐴)
Probabilidad Total
Árbol de Probabilidad
P(B1) x P(B1|A1)
P(A1) P(B2) x P(B2|A1)
P(B1) x P(B1|A2) SUMA

A P(A2)
1
P(B2) P(B2) x P(B2|A2)
P(B1)
P(A3) P(B1) x P(B1|A3)
P(B2) x P(B2|A3)
P á g i n a 18
Capitulo 5 VA y Funciones
Variables Aleatorias
Una variable aleatoria es una función que le asigna un número real a cada posible
resultado del espacio muestral analizado.
Conjunto de Llegada
o Imagen
Conjunto de partida
o dominio
𝐴∈ℝ
𝑋(𝑊) ∶ Ω𝑊 → 𝐴 El conjunto A está
𝐴⊆ℝ
Variable Aleatoria definido dentro del
Me devuelve conjunto de los
Posible elemento Número Real números reales.
del espacio
Muestral
¿Qué quiere decir esto?

A esta función denominada variable aleatoria le voy a meter
cualquier elemento que sea del espacio muestral W y me va a
devolver un número que va a pertenecer al conjunto de los
números reales.
Variable aleatoria Discreta:

Una variable aleatoria es discreta si la imagen de la misma está constituida por un
conjunto numerable.
Es decir, a la variable aleatoria le meto un elemento del espacio muestral y tengo
como resultado un conjunto imagen donde el cardinal de A es numerable, contable:
Entre un elemento del conjunto y otro elemento del conjunto puedo establecer un
salto, no es un conjunto denso.
𝑉. 𝐴 𝐷𝑖𝑠𝑐𝑟𝑒𝑡𝑎 ⟹ 𝑋(𝑊) → 𝐴 #𝐴 𝑒𝑠 𝑛𝑢𝑚𝑒𝑟𝑎𝑏𝑙𝑒, 𝑐𝑜𝑛𝑡𝑎𝑏𝑙𝑒.
Variable aleatoria Continua:

Una variable aleatoria es continua si a imagen de la misma está constituida por un
intervalo de números reales.
𝑋(𝑊) → (𝑎; 𝑏) 𝑐𝑜𝑛 (𝑎; 𝑏) ⊆ ℝ
Este subconjunto proviene

de procesos de medición.
Es un conjunto denso, no
puedo realizar un salto
discreto.
Página 1
Sea una variable aleatoria discreta, definida sobre un espacio muestral Ω. Se

dice que su función de probabilidad cumple las siguientes condiciones:
Para todo valor de x que pertenece a A, es

1. ⋁ 𝑥 ∈ 𝐴 ∶ 𝑃(𝑥) ≥ 0 decir, para todos los resultados que
obtengo de aplicar la función variable
Para todo aleatoria a los valores del espacio muestral,
Se da que se da que la probabilidad de ocurrencia de
ese resultado es mayor o igual a cero.
Los resultados de aplicarle a cada valor del

2. ∑ 𝑃(𝑥) = 1 espacio muestral la función variable
aleatoria, me va a dar un número. Cada uno
𝑥∈𝐴 de esos números va a ser un x. La
probabilidad de ese x va a ser mayor o igual a
cero, y la suma de todas las probabilidades
va a ser igual a 1.
Función Variable
Aleatoria
Imagen Si a la variable aleatoria le metemos

3. 𝑋∶ Ω→𝐴 elementos del conjunto espacio
Pasa a ser el dominio de la muestral, voy a obtener como
función probabilidad
resultado un conjunto numérico.
𝑃 ∶ 𝐴 → [ 0 ;1 ] Si a la función de probabilidad le
pongo elementos numéricos
Imagen
resultantes de la aplicación de la
Función de
variable aleatoria voy a tener como
Probabilidad
resultado un conjunto que va a estar
formado por números entre cero y
uno.
Función de probabilidad:
• Se da para variables discretas
• Es una composición de funciones. Porque toma como dominio la
imagen de la variable aleatoria (función anterior).
Página 2
• Si quiero conocer la probabilidad de que ocurra alguno de los distintos

elementos del espacio muestral:
𝑃(Ω) = ∑ 𝑃(𝑋(𝑊) ) = 1
𝑊𝜖Ω
Probabilidad de que Es la suma de aplicarle a todos

ocurra alguno de los los elementos del espacio
elementos del muestral la función Variable
espacio muestral. Aleatoria.
= ∑ 𝑃(𝐴 = 𝑥) = 1
𝑥𝜖A
Imagen de la variable
aleatoria
= ∑ 𝑃(𝑋(𝑤) = 𝑥) = 1
𝑥𝜖A=𝑋(𝑤)
Conjunto formado
por la aplicación de la
variable aleatoria a
todos los elementos
del espacio muestral.
¿Qué nos quiere decir todo esto? La probabilidad de que ocurra cualquier
elemento del espacio muestral es 1. Porque en este caso no me importa cuál es el
elemento que ocurra, solo me importa que ocurra alguno.
Ejemplo:
Se realiza un experimento que consiste en lanzar dos veces una misma moneda.
C: Cara de la moneda.
Puedo saber a priori que al lanzar dos veces la moneda
C’: No cara de la moneda.
ocurrirá alguna de las siguientes opciones:
Ω: { CC ; CC’ ; C’C ; C’C’ } • Sale dos veces la cara
• Sale la cara y luego no cara
• Sale no cara y luego cara
• Sale no cara ambas veces
Página 3
X: Se asigna $1 por cada cara obtenida. X(W) = A

X(CC) = 2
X(CC’) = 1
Función Variable X(C’C) = 1
Aleatoria
X(C’C’) = 0
Observación: Muchas veces no nos

interesa el resultado en si del
experimento sino de un numero que le
puedo asignar a ese resultado. Eso me va
a permitir calcular medidas de resumen
aun cuando este trabajando con
resultados medidos en escala ordinal o
nominal.
1 0
0,25 = 𝑃𝑟 (𝑋(𝑊) = 2) = 𝑃𝑟 (𝐶𝐶)

La probabilidad se evalúa sobre los
0,25 = 𝑃𝑟 (𝑋(𝑊) = 0) = 𝑃𝑟 (𝐶′𝐶′) resultados de aplicar la variable
aleatoria a los eventos del espacio
0,25 = 𝑃𝑟 (𝑋(𝑊) = 1) = 𝑃𝑟 (𝐶𝐶′)
muestral.
0,25 = 𝑃𝑟 (𝑋(𝑊) = 1) = 𝑃𝑟 (𝐶′𝐶)
Si no tengo información sobre como opero la variable aleatoria y solo tengo

información acerca del resultado de la variable aleatoria:
𝑃𝑟 (𝑋 = 0) = 0,25
Es la distribución de
𝑃𝑟 (𝑋 = 1) = 0,50 probabilidad de X
𝑃𝑟 (𝑋 = 2) = 0,25
0,25 0,50 0,25

2 Aplico la probabilidad a
∑ 𝑃(𝑋(𝑊) = 𝑥) = 𝑃(𝑋 = 0) + 𝑃(𝑋 = 1) + 𝑃(𝑋 = 2) = 1 los resultados de
aplicar la variable
𝑥=0
aleatoria.
X mayúscula. Es la X minúscula. Es el
variable aleatoria resultado de aplicar
la variable aleatoria
Aplico la probabilidad a
′)
∑ 𝑃(𝑊) = 𝑃(𝐶𝐶) + 𝑃(𝐶𝐶 + 𝑃(𝐶 𝐶) + 𝑃(𝐶 𝐶 ) ′ ′ ′ los elementos del
𝑊∈Ω
espacio muestral.
Página 4
𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) = ∑ 𝑃(𝑋)
𝑥=0
2
𝑃(1 ≤ 𝑋 ≤ 2) = ∑ 𝑃(𝑋) = 𝑃(𝑋 = 1) + 𝑃(𝑋 = 2) = 0,50 + 0,25 = 0,75

𝑥=1
No olvidar! Las funciones de probabilidad solo se aplican a variables

aleatorias discretas.
A la hora de trabajar con una variable aleatoria continua utilizaremos la llamada

Función de densidad de probabilidad.
Función de densidad de probabilidad:

1) 𝑋(𝑊𝑖) = 𝑎 / 𝑎 𝜖 ℝ ∨𝑖 → 𝑋(𝑊𝑖) Es una variable aleatoria continua
Significado de la notación: Le aplico la

V.A a un determinado elemento del
espacio muestral y eso me devuelve
un resultado “a” tal que “a” es un
numero real.
2) 𝑃(𝑎) = 0
Significado de la notación: La
probabilidad de encontrar un
valor exacto es nula.
𝑏
3) 𝑎 ≤ 𝑃(𝑋) ≤ 𝑏 = ∫𝑎 𝑓(𝑥) 𝑑𝑥
Significado de la notación: La probabilidad

de que x este entre “a” y “b” va a ser igual
a la integral definida entre a y b de la
función de densidad.
Página 5
𝑎
𝑎 ≤ 𝑃(𝑋) ≤ 𝑎 = ∫ 𝑓(𝑥) 𝑑𝑥 = 𝐹(𝑎) − 𝐹(𝑎) = 0
𝑎
Demostración matemática de que la probabilidad de que ocurra un punto en un

espacio continuo es nula.
Entre dos puntos hay infinitos puntos, por lo tanto, hay infinitos casos posibles. Si
quiero que el caso favorable sea 1 punto especifico podríamos pensarlo así:
𝐶𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠 1
= =0
𝐶𝑎𝑠𝑜𝑠 𝑃𝑜𝑠𝑖𝑏𝑙𝑒𝑠 ∞
Condiciones de la función de densidad:

1. Va a ser estrictamente no negativa. 𝑓(𝑥) ≥ 0
2. Cuando aplico la integral desde α hasta β tiene que ser igual a 1

β
α : Límite inferior del dominio.
β : Límite superior del dominio.
∫ 𝑓(𝑥)𝑑𝑥 = 1
𝛼
(Los limites del dominio pueden ir desde -∞ a +∞)
Ejemplo:
Se tiene una variable aleatoria X definida en el intervalo [0,3] cuya función de densidad
𝑥2
es 𝑓 (𝑥 ) =
9
Lo primero que tengo que hacer es chequear que se cumplan las condiciones
anteriormente mencionadas, para verificar de esa forma que efectivamente se trata de
una función de densidad:
1. La función utilizada para ejemplificar no es negativa nunca.
3 𝑥2 𝑥3 33 03
2. ∫0 𝑑𝑥 = | 𝑥=3
𝑥=0
= − =1−0=1
9 27 27 27
Yo podría preguntarme cual es la probabilidad de que x este entre 0 y 1:

3 3
1 𝑥2 𝑥3 1
𝑃(0 ≤ X ≤ 1) = ∫0 9 𝑑𝑥 = 27
| 𝑥=1
𝑥=0 = − 0 = 27
27 27
1 1
− 0 = 27
Página 6
Podríamos graficar a la función de la siguiente manera:
Funcion de densidad
1,20
1,00
0,80
0,60
0,40
0,20
0,00
0,00 0,25 0,50 0,75 1,00 1,25 1,50 1,75 2,00 2,25 2,50 2,75 3,00
funcion definida en 0 ≤ X ≤ 3 P(0 ≤ X ≤1 )
Lo que hace la función de densidad es decirme de qué manera se forma la superficie

debajo de la curva. La integral la utilizamos porque justamente me permite calcular el área
debajo de esa curva que representa la función definida entre 0 y 3.
Resumen hasta acá…

𝑃(𝑋 = 𝑥) 𝐹𝑢𝑛𝑐𝑖𝑜𝑛 𝑑𝑒 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑝𝑎𝑟𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑎𝑙𝑒𝑎𝑡𝑜𝑟𝑖𝑎𝑠 𝑑𝑖𝑠𝑐𝑟𝑒𝑡𝑎𝑠
𝑓(𝑥) = 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) 𝐹𝑢𝑛𝑐𝑖𝑜𝑛 𝑑𝑒 𝑑𝑒𝑛𝑠𝑖𝑑𝑎𝑑 𝑝𝑎𝑟𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑎𝑙𝑒𝑎𝑡𝑜𝑟𝑖𝑎𝑠 𝑐𝑜𝑛𝑡𝑖𝑛𝑢𝑎𝑠
Ahora conoceremos otra función más, que puede ser utilizada tanto para variables
aleatorias discretas, como para variables aleatorias continuas:
Función de distribución Acumulada:

𝐹𝑋 (𝑥) = 𝑃(𝑋 ≤ 𝑥) 𝑃𝑎𝑟𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑎𝑙𝑒𝑎𝑡𝑜𝑟𝑖𝑎𝑠 𝑑𝑖𝑠𝑐𝑟𝑒𝑡𝑎𝑠 Se simbolizan
igual pero se
𝐹𝑋 (𝑥) = 𝑃(𝑋 ≤ 𝑥) 𝑃𝑎𝑟𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑎𝑙𝑒𝑎𝑡𝑜𝑟𝑖𝑎𝑠 𝑐𝑜𝑛𝑡𝑖𝑛𝑢𝑎𝑠
calculan distinto.
𝑉𝐴𝐷 = ∑ 𝑃(𝑦) La función de distribución acumulada para variables

aleatorias discretas es igual a la suma de todas las
𝑦≤𝑥
probabilidades para y ≤ x
La función de distribución acumulada para variables

𝑉𝐴𝐶 = ∫ 𝑓(𝑦) 𝑑𝑦 aleatorias continuas es igual a la integral de la función de
𝑦≤𝑥 densidad con y ≤ x
Página 7
La función de distribución acumulada barre desde el límite inferior del dominio hasta
el límite del valor que yo quiera.
Siempre que evalúe la función de acumulación desde el límite inferior del dominio
hasta el limite superior del dominio el resultado va a ser igual a 1.
Por lo tanto:
• Si yo quisiese evaluar la función en el limite inferior del dominio, esta función

de acumulación va a tender a cero.
𝐹( 𝐿𝐼𝑀 𝐼𝑁𝐹 𝐷𝑂𝑀 𝑓(𝑥)) → 0
• Si yo quiero evaluar la función en un valor cercano al límite superior del

dominio de f(x) esto va a tender a uno.
𝐹( 𝐿𝐼𝑀 𝑆𝑈𝑃 𝐷𝑂𝑀 𝑓(𝑥)) → 1
Ejemplos:
Siendo X una variable aleatoria continua, quiero averiguar la probabilidad de que x sea
menor o igual a un determinado valor C.
Función de
acumulación
𝐶
𝑃(𝑋 < 𝐶) 𝐹(𝑋) = ∫ 𝑓(𝑥) 𝑑𝑥
−∞
Función de
densidad
Siendo X una variable aleatoria discreta, quiero averiguar la probabilidad de que x sea
menor o igual a 1, siendo cero el limite inferior del dominio.
∑ 𝑃(𝑦) → 𝑃(𝑋 ≤ 1) = 𝑃(𝑋 = 0) + 𝑃(𝑋 = 1)

𝑦≤𝑥
Página 8
Capitulo 6 Distribuciones de Probabilidad
Introducción
Función generatriz de momentos:

La función generatriz de momentos es una función que me permite calcular los distintos
momentos absolutos de orden N. De esta forma podremos calcular la esperanza y la
varianza de las distintas distribuciones de probabilidad.
FGM(X) = 𝜃𝑋 (𝑡) = 𝐸(𝑒 𝑥×𝑡 )
FGM es una función de Es igual a la esperanza

la variable auxiliar t de e elevado al producto
de x por t
Ahora bien, vamos a tener una función generatriz de momentos para variables
aleatorias continuas y otra para variables aleatorias discretas.
FGM para Variables aleatorias continuas:

+∞
∫ 𝑒 𝑥𝑖×𝑡 × 𝑓 (𝑥 ) 𝑑𝑥
−∞
FGM para Variables aleatorias discretas:
𝑛
∑ 𝑒 𝑥𝑖 ×𝑡 × 𝑃(𝑥𝑖 )
𝑖=1 Valores que puede tomar
la variable aleatoria
¡Recordatorio!
Cuando hablamos de momentos nos referimos a promedios de
cosas y, como lo vimos cuando estudiamos la media aritmética, los
promedios pueden calcularse de dos formas distintas: trabajando
con los datos de manera agrupada o de manera desagrupada.
Cuando trabajábamos los datos de manera agrupada
multiplicábamos a cada clase con su frecuencia relativa simple y es
justamente eso lo que estamos haciendo en esta sumatoria, solo
que en lugar de trabajar con frecuencias relativas trabajamos con
probabilidades de ocurrencia (la probabilidad de que ocurra cada
Volviendo al ejemplo de las monedas visto en el capitulo anterior:
valor que puede tomar la variable aleatoria).
Página 1
xi P(xi)
0 0.25
1 0.50
2 0.25 2
∑ 𝑒 𝑥×𝑡 × 𝑃(𝑥𝑖 )
𝑖=0
= 𝑒 0×𝑡 × 𝑃(0) + 𝑒1×𝑡 × 𝑃(1)
+ 𝑒 2×𝑡 × 𝑃(2)
𝑒 0𝑡 × 0,25 + 𝑒1𝑡 × 0,50 + 𝑒 2𝑡 × 0,25
Todo número
elevado a la 0 es
igual a 1
A partir de la función generatriz de momentos vamos a poder calcular los momentos

absolutos de cualquier orden de la siguiente manera:
No es una Es decir, voy a derivar
potencia, es el un numero de veces
orden de derivada igual al numero de
orden del momento
𝜕 𝑘 𝜃𝑥 (𝑡) . absoluto.
𝑀𝐾 = |𝑡 = 0
𝜕𝑡
Lo evaluamos
Momento absoluto Me dice en en cero
de orden K función de que
tengo que derivar
Si yo quiero calcular el momento absoluto de orden 1 voy a tener que hacer la

primer derivada de t cuando t es igual a cero.
𝜕 ′ 𝜃𝑥 (𝑡) .
𝑀1 = |𝑡 = 0
𝜕𝑡
¡Recordatorio!
Cuando calculamos el momento absoluto de orden 1

lo que estamos calculando es la media que,
aritméticamente, es lo mismo que la Esperanza.
Entonces..
Página 2
µx = E(x) = M1
Siguiendo esta misma lógica, para calcular el momento absoluto de orden 2 voy a
tener que hacer la segunda derivada de t cuando t es igual a cero.
𝜕′′ 𝜃𝑥 (𝑡) .
𝑀2 = |𝑡 = 0
𝜕𝑡
Ahora bien, antes de seguir analicemos un poco la varianza:

Como vimos la varianza, al igual que la media, puede ser calculada teniendo tanto los
datos agrupados como desagrupados.
𝑁
(𝑥𝑖 − 𝜇𝑋 )2 Varianza para datos
𝑉𝐴𝑅(𝑋) = ∑ agrupados.
𝑁
𝑖=1
𝑁
Varianza para datos
𝑉𝐴𝑅(𝑋) = ∑(𝑥𝑖 − 𝜇𝑋 )2 × 𝑓𝑟(𝑥𝑖 ) desagrupados.
𝑖=1
Vamos a realizar todo un desarrollo sobre la varianza para datos desagrupados, pero
con la diferencia de que, como dijimos, estamos trabajando con probabilidades,
entonces en lugar de multiplicar las observaciones con respecto a la media al cuadrado
por la frecuencia relativa simple, las multiplicaremos por su probabilidad de ocurrencia:
𝑁
𝑉𝐴𝑅(𝑋) = ∑(𝑥𝑖 − 𝜇𝑋 )2 × 𝑃(𝑥 )

𝑖=1
Partiendo de acá vamos a descomponer el binomio al cuadrado (lo resaltado con gris),
entonces:
𝑉𝐴𝑅(𝑋) = ∑(𝑥 2 − 2𝑥𝜇𝑥 − 𝜇𝑥 2 ) × 𝑃(𝑥)
Binomio al cuadrado:
(𝑎 + 𝑏)2 = 𝑎2 + 2𝑎𝑏 + 𝑏2
(𝑎 − 𝑏)2 = 𝑎2 − 2𝑎𝑏 + 𝑏2
Página 3
Ahora vamos a realizar distributiva para poder separar los términos en distintos
sumandos:
𝑉𝐴𝑅(𝑋) = ∑(𝑥 2 − 2𝑥𝜇𝑥 − 𝜇𝑥 2 ) × 𝑃(𝑥)
𝑉𝐴𝑅 (𝑋) = ∑ 𝑥 2 𝑝(𝑥) − ∑ 2𝑥𝜇𝑥 𝑝(𝑥 ) + ∑ 𝜇𝑥 2 𝑝(𝑥)
Analizaremos ahora cada uno de los términos:
Lo que tenemos en
∑ 𝑥 2 𝑝(𝑥)
este primer termino es
un momento absoluto
de orden 2.
Recordemos que un momento absoluto de orden K lo M2
podíamos expresar de la siguiente manera:
𝑁 Que es lo mismo que multiplicar a cada
𝑋𝑖 𝑘 observación por su frecuencia relativa
∑
𝑁 simple (en este caso su probabilidad de
𝑖=1
ocurrencia)
Tanto 2 como µx
∑ 2𝑥𝜇𝑥 𝑝(𝑥 ) = son constantes que
las vamos a sacar
por fuera de la
sumatoria.
2𝜇𝑥 ∑ 𝒙𝒑(𝒙) = 2𝜇𝑥 𝝁𝒙 = 2𝝁𝒙 𝟐
Siguiendo el mismo razonamiento, Momento

𝟐𝑴𝟏 𝟐
lo que tenemos acá es un momento Absoluto de
absoluto de orden uno, que es igual orden 1 al
a la media aritmética. cuadrado
Página 4
En un principio volvemos
∑ 𝜇𝑥 2 𝑝(𝑥 ) =
a repetir el mismo paso
sacando la constante
(µx) por fuera de la
sumatoria
𝜇𝑥 2 ∑ 𝑝 (𝑥 ) = 𝜇𝑥 2 𝑴𝟏 𝟐
Momento
Por la ley de cierre Absoluto
sabemos que la suma de orden 1
de las probabilidades al
es igual a 1 cuadrado
Ahora reemplazamos en nuestra ecuación original lo que obtuvimos como conclusión

en cada termino y obtenemos:
𝑉𝐴𝑅(𝑋) = 𝑀2 − 2𝑀1 2 + 𝑀1 2
𝑉𝐴𝑅(𝑋) = 𝑀2 − 𝑀1 2
Conclusiones:
• 𝐸 (𝑋) = 𝜇𝑋 = 𝑀1
• 𝑉𝐴𝑅 (𝑋) = 𝜎 2 = 𝐸 (𝑥 2 ) − [𝐸 (𝑥 )]2 = 𝑀2 − 𝑀12
Página 5
Distribuciones teóricas de probabilidad
Distribución de Bernoulli
Experimento de Bernoulli
El experimento de Bernoulli se trata de un experimento dicotómico, es decir, de un
experimento que tiene dos posibles resultados: Éxito o No éxito (Fracaso).
Por ejemplo: Se realiza el experimento de lanzar un dado de colores. Si al tirar el dado
la cara superior que sale es la cara azul entonces lo consideraremos un éxito pero, si por
lo contrario, sale cualquier otra cara que no sea la azul, lo consideraremos un fracaso.
Cara superior
azul: Éxito
P = Probabilidad de éxito.
Q = (1-P) = Probabilidad de fracaso.
W = {Azul, rojo, amarillo, violeta, verde,
blanco}
Éxito → Azul → P = 1/6
Fracaso → No Azul → Q = (1-P) 5/6
Cara superior ¡Recordatorio!

roja, amarilla,
Las particiones realizadas sobre un mismo espacio
violeta, verde,
muestral son mutuamente excluyentes y colectivamente
o blanco:
exhaustivas, por lo tanto, la suma de las probabilidades
Fracaso
de todas ellas me va a dar siempre 1. Es por este motivo
que podemos calcular a la probabilidad de fracaso como
1 menos la probabilidad de éxito. (1-P)
P + (1-P) = 1
Página 6
Variable aleatoria de Bernoulli:

No debemos confundir el experimento de Bernoulli con la variable aleatoria Bernoulli:
esta última es aquella función que convierte a cada una de las clases en un numero real.
En nuestro ejemplo del cubo podríamos decir que a partir de ahora no nos importa el
color en si que sale, sino el numero real que lo representa.
Variable aleatoria Bernoulli Ωw = { Éxito, Fracaso }
X(Éxito) = 1 → P( x = 1 ) = P
X(Fracaso) = 0 → P( x = 0) = 1 – P = Q
Para comprobar esto matemáticamente presentaremos a la función de Bernoulli y la
evaluaremos en 0 y 1.
función de Bernoulli:
𝑃(𝑋) = 𝑃 𝑥 (1 − 𝑃)1−𝑥
Evaluamos la función de Bernoulli en x = 0 y en x = 1
𝑃(0) = 𝑃0 (1 − 𝑃)1−0 = 1(1 − 𝑃) = 1 − 𝑃 = 𝑃 (𝑥 = 0)
𝑃(1) = 𝑃1 (1 − 𝑃)1−1 = 𝑃1 = 𝑃 = 𝑃(𝑥 = 1)
Tal y como dijimos antes:
𝑃 + (1 − 𝑃 ) = 1
Ahora, utilizando la función generatriz de momentos vista anteriormente, vamos a
calcular la esperanza y la varianza de Bernoulli.
Partimos entonces de la función generatriz de momentos (FGM):
𝜃𝑋 (𝑡) = 𝐸 (𝑒 𝑥𝑡 )
La distribución de Bernoulli es una distribución de probabilidad discreta, por lo tanto
la esperanza de “e” la calcularemos de la siguiente manera:
1
∑ 𝑒 𝑥𝑡 × 𝑃(𝑥 ) = 𝑒 0𝑡 × 𝑃(0) + 𝑒1𝑡 × 𝑃(1) =

𝑥=0
𝑒 0𝑡 × 𝑃 0 (1 − 𝑃 )1−0 + 𝑒1𝑡 × 𝑃1 (1 − 𝑃 )1−1 =

Reemplace en P(0) y en P(1) la función de Bernoulli
valuada en 0 y en 1 respectivamente
Página 7
Realizo las cuentas 𝑒 0𝑡 × (1 − 𝑃 ) + 𝑒1𝑡 × 𝑃

para ordenar un
poco
(1 − 𝑃 ) + 𝑒 𝑡 𝑃
FGM para una
variable aleatoria
Bernoulli.
Una vez obtenida la función generatriz de momentos para una variable aleatoria
Bernoulli la derivamos para poder encontrar la media y la varianza:
𝜕 𝑘 𝜃𝑥 (𝑡) .
𝑀𝐾 = |𝑡 = 0
𝜕𝑡
𝜃𝑥 (𝑡) = (1 − 𝑃) + 𝑒 𝑡 𝑃 Lo que voy a

derivar
Es una
constante
𝜕 ′ (1 − 𝑃) + 𝑒 𝑡 𝑃 .
𝑀1 = = 0 + 𝑒 𝑡 𝑃 |𝑡 = 0
𝜕𝑡
Me indica que Resultado de
derivamos en derivar
función de t
Explicación de la derivada:
Por empezar tenemos una multiplicación entre una constante (P) y una función (𝑒 𝑡 ),
por lo tanto, por regla de derivación, el resultado de derivar eso será la constante por la
función derivada. Ahora bien, sabemos que la derivada de 𝑒 𝑡 es 𝑒 𝑡 pero acá le dejamos
el paso a paso:
𝑓 (𝑥 ) = 𝑒 𝑥
ln 𝑓(𝑥 ) = 𝑥 lne
ln 𝑓 (𝑥 ) = 𝑥
(ln 𝑓 (𝑥))′ = 𝑥′
1
𝑓′(𝑥) = 1
𝑓 (𝑥 )
𝑓 ′ (𝑥 ) = 𝑓(𝑥)
𝑓 ′ (𝑥 ) = 𝑒 𝑥
Página 8
.
𝑒 𝑡 𝑃 |𝑡 = 0
Evaluamos la derivada en t=0 y obtenemos que
𝑒 0𝑃 = 𝑃
Ahora procederemos a encontrar el Momento Absoluto de orden 2 ya que, como

vimos mas arriba, lo necesitamos para la conformación de la varianza:
𝜕 ′ ′(1 − 𝑃) + 𝑒 𝑡 𝑃
𝑀2 = =
𝜕𝑡
𝜕[(𝜕1 − 𝑃) + 𝑒 𝑡 𝑃]
𝑀2 = =
𝜕𝑡
𝜕𝑒 𝑡 𝑃 .
𝑀2 = = 𝑒 𝑡 𝑃|𝑡 = 0 = 𝑃
𝜕𝑡
Una vez obtenidos M1 y M2 reemplazamos esos datos en las conclusiones que

obtuvimos mas arriba sobre la varianza y la esperanza:
𝐸(𝑋 → 𝐵𝑒(𝑃 )) = 𝑀1 = 𝑃
Significa: La Esperanza de la variable
aleatoria X que sigue una distribución
de Bernoulli
𝑉𝐴𝑅(𝑋 → 𝐵𝑒(𝑃 )) = 𝑀2 − 𝑀12 = 𝑃 − 𝑃 2 = 𝑃(1 − 𝑃)

Significa: La Varianza de la variable
aleatoria X que sigue una distribución Simplemente saco
de Bernoulli factor común
No debemos confundir:
𝑃(𝑥𝑖 ) ≠ 𝑃𝑥𝑖 × (1 − 𝑃)1−𝑥𝑖
Probabilidad
Probabilidad de que la variable de éxito de la
tome determinado valor distribución de
Bernoulli
Página 9
Conclusiones:
Una primera diferencia que vamos a encontrar entre las
distribuciones de probabilidad son los distintos valores que
puede tomar la Variable Aleatoria: Por ejemplo, en la
distribución de Bernoulli solo puede tomar los valores 0 o 1.
Distribución Uniforme
La distribución uniforme presenta equiprobabilidad para todo x 𝜖 A. Es decir, le asigna
la misma probabilidad de ocurrencia a cada elemento resultante de aplicarle la función
variable aleatoria.
𝑋: Ω → 𝐴 ⇒ 𝑋(𝑊𝑖 ) = 𝑥
Distribución Binomial
Para poder explicar la distribución binomial primero vamos a introducir un concepto
denominado Proceso de Bernoulli. Un proceso de Bernoulli es una repetición de n veces
de un experimento de Bernoulli, sin embargo, debe aclararse que no toda repetición de
n veces es un proceso de Bernoulli.
Para que esas repeticiones sean consideradas un proceso de Bernoulli deben cumplir
con ciertas características:
1) Las probabilidades de ocurrencia deben ser independientes una de las otras
2) Las probabilidades de éxito se deben mantener constantes
Si nos detenemos a observar bien ambas condiciones están relacionadas entre si: Si las
variables aleatorias son independientes entre si en consecuencia las probabilidades de
éxito se van a mantener constante, y si las probabilidades de éxito se mantienen
constantes va a ser porque las variables son independientes una de las otras.
Ahora bien, ¿Cuándo puede suceder que se mantengan constantes las probabilidades
de éxito?
1- Cuando N, el tamaño poblacional, es infinito.
O
2- Cuando N es finita pero hay reposición de elementos
O
P á g i n a 10
3- Cuando N es muy grande, tal que, sin haber reposición de elementos, la

cantidad de veces que se repita el experimento (n) sea de una proporción
𝑛
menor al 5% de N. 𝑁 ≤ 0,05
Volviendo a nuestro ejemplo del dado de colores, si realizo 5 veces el experimento de

Bernoulli, la probabilidad de que salga el color azul va a ser 1/6 en cada una de las
repeticiones del experimento, es decir, la probabilidad de éxito se va a mantener
constante.
Dicho esto, podemos definir a la distribución Binomial como aquella distribución que es
generada por un proceso de Bernoulli.
Ejemplo:
Se lanzan 5 dados.
X es una variable aleatoria que indica con 1 si el resultado de lanzar el dado es 1 o 2 y se
desea saber cual es la probabilidad de que 3 dados caigan en 1 o en 2.
X=3 (Sumo los resultados de las variables aleatorias individuales, de cada dado)
Éxito: En cada dado sale 1 o 2
Fracaso: En cada dado no sale ni 1 ni 2.
n=5
Una forma errónea de resolver esto sería suponer que P × P × P × Q × Q es la única
opción, ya que es una de las 10 posibles combinaciones.
P×P×P×Q×Q
P×P×Q×P×Q
P×P×Q×Q×P
P×Q×P×P×Q
P×Q×Q×P×P 10 Posibles
Q×P×P×P×Q combinacio Por lo tanto, quiero
Q×Q×P×P×P nes para que de fracaso 2 veces
Q×P×Q×P×P que X=3 sabiendo que son 5 las
Quiero que repeticiones
Q×P×P×Q×P
de éxito 3
P×Q×P×Q×P Dos posibles veces
resultados para
tener éxito
Entonces…
2 3 4 5−3
Forma incorrecta de calcularlo: P × P × P × Q × Q = ( ) × ( )
6 6
P á g i n a 11
P × P × P × Q × Q = 𝑃 𝑋 × 𝑄𝑛−𝑋
¿Qué significa esto? Es el producto de la probabilidad de éxito, elevado a la

cantidad de éxitos que quiero tener, por la probabilidad de fracaso elevado a la
cantidad de repeticiones del experimento de Bernoulli menos la cantidad de veces
que quiero tener éxito (“la cantidad de fracasos que quiero”)
2 3 4 5−3
Forma correcta de calcularlo: 10 P × P × P × Q × Q = 10 × (6) × (6)
Formalización:
𝑛
P( X = 3 |n = 5 , P = 1/3 ) = ( 𝑥 ) × 𝑃𝑥 × 𝑄𝑛−𝑥
𝑛!
( ) × 𝑃 𝑥 × 𝑄𝑛−𝑥
( )
𝑥! 𝑛 − 𝑥 !
Así obtengo la cantidad de
posibilidades distintas obtener
Por ejemplo, 3 éxitos en 5 repeticiones
También podría expresarlo así:

𝑛
( ) × 𝑃𝑎 × (1 − 𝑃)𝑛−𝑎
𝑎
Esa es la formula de la distribución Binomial.
5! 120 120
= = = 10
3! × 2! 6 × 2 12
1 3 2 2 1 4 40
10 × ( ) × ( ) = 10 × × =
3 3 27 9 243
A partir de la esperanza y la varianza de Bernoulli puedo encontrar la esperanza y la

varianza de la distribución binomial:
P á g i n a 12
Esperanza:
Variables Aleatorias de Bernoulli
𝐸 (𝑋1 + 𝑋2 + 𝑋3 + 𝑋4 + ⋯ + 𝑋𝑛 ) = 𝐸 (𝑛𝑋) = 𝑛 × 𝐸(𝑋)

𝐸(𝑋 → 𝐵𝑒(𝑃)) = 𝑃 ⇒ 𝐸 (𝑋 → 𝐵𝑖 ) = 𝑛 × 𝑃
Varianza:
𝑉𝐴𝑅 (𝑋~𝐵𝑖 ) = 𝑉𝐴𝑅(𝑋1 + 𝑋2 + 𝑋3 + 𝑋4 + ⋯ + 𝑋𝑛 )
= 𝑉𝐴𝑅(𝑋1 ) + 𝑉𝐴𝑅 (𝑋2 ) + 𝑉𝐴𝑅 (𝑋3 ) + 𝑉𝐴𝑅 (𝑋4 ) + ⋯ + 𝑉𝐴𝑅(𝑋𝑛 )
𝑉𝐴𝑅 (𝑋~𝐵𝑖 ) = 𝑛 × 𝑉𝐴𝑅(𝑋) = 𝑛 × 𝑃 × 𝑄
Distribución hipergeométrica
La distribución hipergeométrica es una repetición de n experimentos de Bernoulli. Estos
experimentos van a tener características completamente contrarias a las que requerían
los experimentos realizados en una distribución binomial: se van a realizar sobre una
población finita (N), los elementos se evaluaran sin reposición, y la cantidad de
𝑛
repeticiones sobre la población va a ser mayor a 0,05 𝑁 > 0,05.
Nótese que, debido a sus características, hablamos de repeticiones de experimentos y

no de procesos de Bernoulli.
𝑛
Que el análisis se realice sobre una población finita, con > 0,05 , y sin realizar
𝑁
reposición de elementos, significara que las probabilidades de ocurrencia no se van a
mantener constantes.
Por ejemplo:
En un cumpleaños se puso sobre la mesa un plato con 9

porciones de torta de dos sabores distintos, 5 de ellas
eran de chocolate y 4 de frutilla. Como no me podía
decidir le pedí a una amiga que me vende los ojos para
que de esa forma pudiera elegir una porción al azar.
En un principio las probabilidades de que

agarrara una porción de chocolate era de
5/9, así como las probabilidades de que
agarrara una porción de frutilla era 4/9.
Resulta que la primera porción, elegida al azar, fue de chocolate. Como la torta
estaba muy rica decidí volver a realizar este experimento, pero, teniendo en
cuenta que una de las porciones de chocolate ya me la comí en el experimento
anterior, las probabilidades ahora van a ser distintas:
P á g i n a 13
Ahora solo quedan 8 porciones de las cuales 4 son de

chocolates y 4 de frutilla. Por lo tanto la probabilidad
de que agarre una porción de chocolate va a ser igual
a 4/8 y la probabilidad de que agarre una porción de
frutilla también será 4/8.
Como podemos observar las probabilidades

cambiaron: a esto nos referimos al decir que las
probabilidades no se mantienen constantes.
Formalización:
(𝑁−𝑀
𝑛−𝑥
) × (𝑀
𝑋
)
𝑃 (𝑋 = 𝑥 | 𝑁, 𝑀, 𝑛) =
(𝑁𝑛)
M : Cantidad de éxitos conocidos de la población (algunos libros lo

nomenclan con T o S)
N : Población
n : Cantidad de repeticiones sin reposición de elementos. (Por lo tanto

nunca van a poder ser mayor que el tamaño de la población)
X : Variable Aleatoria Hipergeometrica
x : Valor puede tomar la variable aleatoria
Como puede verse en el recuadro, para calcular la probabilidad vamos a utilizar una
construcción de números combinatorios:
𝑆! (𝑁 − 𝑆)!
(𝑥𝑠 )(𝑁−𝑆 ) ×
𝑛−𝑥 𝑥! (𝑆 − 𝑥 )! (𝑛 − 𝑥 )! (𝑁 − 𝑆 − 𝑛 + 𝑥 )!
𝑃 (𝑋 = 𝑥 ) = =
(𝑁
𝑛
) 𝑁!
𝑛! (𝑁 − 𝑛)!
P á g i n a 14
¡A no entrar en Pánico!
Expliquemos parte por parte lo que esta formula significa:
En un primer lugar podemos diferenciar con dos colores todo lo que sea poblacional
(marcado con rojo) de todo lo que sea muestral (marcado con azul).
Poblacional
(𝑥𝑠 )(𝑁−𝑆
𝑛−𝑥
) Muestral
𝑃 (𝑋 = 𝑥 ) =
(𝑁
𝑛
) Poblacional
Muestral
Por otro lado podemos analizar que es lo que representa cada numero combinatorio,
cada paréntesis: Si tanto a la población como a la
Recordando lo que significa S y x muestra le restamos la cantidad de
podemos observar que acá vamos éxitos lo que nos va a quedar es la
a poner todo lo que sea éxito. cantidad de fracasos. Entonces, acá
vamos a poner todo lo que sea
(𝑥𝑆 )(𝑁−𝑆
𝑛−𝑥
) fracaso.
𝑃 (𝑋 = 𝑥 ) =
(𝑁
𝑛
)
Cantidad de elementos
poblacionales y
muestrales
Lo que hacemos posteriormente es desarrollar matemáticamente esta fórmula, pero
su significado sigue siendo el mismo, analicemos primero el numerador:
Es la cantidad de formas distintas en que pueden

seleccionarse x éxitos en la muestra de un total
de S éxitos contenidos en la población
𝑆! (𝑁 − 𝑆)!
(𝑥𝑆 )(𝑁−𝑆 ) ×
𝑛−𝑥 𝑥! (𝑆 − 𝑥 )! (𝑛 − 𝑥 )! (𝑁 − 𝑆 − 𝑛 + 𝑥 )!
𝑃 (𝑋 = 𝑥 ) = =
(𝑁
𝑛
) 𝑁!
𝑛! (𝑁 − 𝑛)!
Es la cantidad de formas distintas en que pueden

seleccionarse n-x fracasos en la muestra de un total
de N – S fracasos contenidos en la población
P á g i n a 15
En cuanto al denominador:
𝑆! (𝑁 − 𝑆)!
(𝑥𝑆 )(𝑁−𝑆 ) ×
𝑛−𝑥 𝑥! (𝑆 − 𝑥 )! (𝑛 − 𝑥 )! (𝑁 − 𝑆 − 𝑛 + 𝑥 )!
𝑃 (𝑋 = 𝑥 ) = =
(𝑁
𝑛
) 𝑁!
𝑛! (𝑁 − 𝑛)!
Es el número total de muestras de tamaño n que

pueden obtenerse en una población de tamaño N
Realicemos un ejemplo para entenderlo mejor:

Una empresa recibe un envío de 20 artículos. Como es caro inspeccionarlos todos, tiene
la política de comprobar una muestra aleatoria de 6 artículos de ese envío y, si no hay
mas de 1 articulo defectuoso en la muestra, no comprueba el resto. ¿Cuál es la
probabilidad de que un envío de 5 artículos defectuosos no se someta a una
comprobación adicional?
Primero identifiquemos los datos que me da el enunciado:
Por un lado, la totalidad de artículos que la empresa recibe en el envío es 20, por lo tanto
esa va a ser mi población.
N = 20
Por otro lado, la empresa declara que de esos 20 artículos solo inspecciona una
muestra aleatoria de 6.
n=6
Al realizar el control de calidad, lo que la empresa esta buscando es poder identificar a
los artículos defectuosos, por lo tanto se “articulo defectuoso” con “éxito”.
Aclaración: “éxito” y “fracaso” no deben ser vistos como algo bueno o algo malo, sino
como una simple asignación de la variable aleatoria para poder operar
matemáticamente y aplicarle medidas de resumen a variables que en un principio eran
cualitativas. Es por esto, que si bien intuitivamente podríamos pensar que se le asignaría
“fracaso” a un articulo defectuoso porque es una “mala noticia”, le asignaremos “éxito”
porque a la empresa no le interesa identificar a los artículos no defectuosos, sino a
aquellos que si lo están, para no aceptarlos cuando envían la compra.
Además, el enunciado también me dice que en uno de los envíos de 20 artículos se sabe
que 5 son defectuosos, es decir, que son 5 la cantidad de éxitos conocidos de esa
población de 20.
S=5
P á g i n a 16
Ahora bien, supongamos que estos artículos del que habla el enunciado son
computadoras. Para realizar el control de calidad esta empresa va a tomar 1 muestra de
6 computadoras al azar de una población de 20 computadoras:
Muestra a
Muestra b
Muestra c
(Las cruces indican las computadoras con defectos que, en realidad no conocemos cuales son)
La muestra a, b y c son ejemplos de las muchas posibilidades de conformación de una

muestra hay, dado el tamaño poblacional y el tamaño muestral. Dependiendo cual sea
la muestra tomada puede ocurrir que en la misma haya 0, 1, 2, 3, 4 o hasta 5
computadoras defectuosas.
Ya sea que la empresa extrae las 6 computadoras al mismo tiempo, o las va extrayendo
una a una no va a cambiar a nuestro análisis en si, pero nosotros vamos a extraer una a
una para poder ver que va ocurriendo paso a paso.
En un principio, la probabilidad de que extraiga una computadora defectuosa de la
totalidad de 20 computadoras (Población), es decir, la probabilidad de éxito va a ser
5/20. Mientras que la probabilidad de que extraiga una computadora no defectuosa de
la población, en otras palabras, la probabilidad de fracaso va a ser 15/20.
P á g i n a 17
Primer computadora extraída. Se realizan los respectivos controles y se

detecta que la computadora no esta defectuosa.
Como dijimos, en la distribución hipergeométrica realizamos el análisis sobre una

población finita y sin reposición de elementos, lo que significa que no volveremos a
meter la computadora analizada dentro de la población nuevamente, por lo cual nuestra
población ahora se vera reducida a 19 computadoras. Si nos ponemos a pensar, esto
tiene sentido en este tipo de análisis, ya que si repusiéramos la computadora en la
población correríamos el riesgo de realizar el control de calidad dos veces sobre el
mismo articulo.
No solo debemos tener en cuenta que la población disminuye, sino que también se debe
tener en cuenta que la computadora extraída anteriormente fue no defectuosa, por lo
tanto solo nos quedaran 19 computadoras, de las cuales 14 no están defectuosas y 5 si.
A raíz de esto nuestras probabilidades van a cambiar: La probabilidad de extraer una
computadora defectuosa va a ser 5/19 mientras que la probabilidad de extraer una
computadora no defectuosa será 14/19.
P á g i n a 18
Segunda computadora extraída. Se realizan los respectivos controles y

se detecta que la computadora esta defectuosa.
En correlación con lo que paso al extraerse la primer computadora las probabilidades

van a volver cambiar antes de realizar la próxima extracción: solo 4, del total de 18
computadoras que quedan, son defectuosas, mientras que 14 son no defectuosas.
Entonces mi probabilidad de éxito va a ser 4/18 mientras que mi probabilidad de fracaso
será 14/18.
Este mismo procedimiento se va a repetir 4 veces mas, para extraer las 6 computadoras
que completaran la muestra sometida al control de calidad:
Una vez extraídas y analizadas las 6 computadoras una posible muestra podría ser:
P á g i n a 19
Tal y como decía el enunciado: si no hay más de 1 articulo defectuoso en la muestra, no

se comprueba el resto. Por lo tanto, en este caso, con esta muestra extraída al azar, la
empresa no analizaría el resto de las computadoras, pero ¡cuidado!, esta no es la única
muestra posible que cumple las condiciones señaladas para que no se analicen el resto
de los artículos.
Ejemplos de otras posibles muestras:
Muestra
a
Muestra
b
Muestra
c
Cuando la consigna nos pregunta “¿Cuál es la probabilidad de que un envío de 5 artículos

defectuosos no se someta a una comprobación adicional?” Nos esta preguntando sobre
todas las posibles muestras en las que haya 0 o 1 computadora defectuosa, eso es lo
que calculamos con la construcción de números combinatorios que vimos.
(𝑥𝑆 )(𝑁−𝑆
𝑛−𝑥
)
𝑃(𝑋 = 𝑥 ) =
(𝑁
𝑛
)
Para que no se verifiquen el resto de las computadoras, la muestra debe tener cero
éxitos (ósea cero artículos defectuosos) o un solo éxito (un solo artículo defectuoso), por
lo tanto necesitamos conocer:
P(X=0)
P(envío aceptado) = P(X=0) + P(X=1)
P(X=1)
Recordando que en nuestro ejemplo S = 5 , N = 20 y n = 6 resolvemos el ejercicio
reemplazando:
5! (20 − 5)!
(𝑥𝑆)(𝑁−𝑆 ) (50)(15 ) ×
𝑛−𝑥 6 0! (5 − 0)! (6 − 0)! (20 − 5 − 6 + 0)!
𝑃 (𝑋 = 𝑥) = = = = 0,129
(𝑁𝑛) (20 ) 20!
6
6! (20 − 6)!
P á g i n a 20
5! (20 − 5)!
(𝑥𝑆)(𝑁−𝑆 ) (51)(15 ) ×
𝑛−𝑥 61! (5 − 1)! (6 − 1)! (20 − 5 − 6 + 1)!
𝑃 (𝑋 = 𝑥) = = = = 0,387
(𝑁𝑛) 20
(6) 20!
6! (20 − 6)!
𝑃(𝐸𝑛𝑣𝑖𝑜 𝑎𝑐𝑒𝑝𝑡𝑎𝑑𝑜 ) = 0,129 + 0,387 = 0,516

La probabilidad de que no se siga comprobando el envío de 20 artículos es 0,516.
Esta tasa de error es alta, e indica

que es necesario mejorar el proceso.
Distribución de Poisson
La distribución de Poisson, también denominada la “ley de casos raros”, la utilizaremos
cada vez que se tenga un espacio continuo de tiempo o un cuerpo denso.
Se puede utilizar la distribución de Poisson para determinar la probabilidad de que
ocurra un determinado numero de eventos en dicho lapso de tiempo o en algún punto
de dicho cuerpo denso, como podría ser una superficie. La distribución de Poisson
también son repeticiones de eventos de Bernoulli independientes entre si.
El único parámetro que se necesita determinar en Poisson es el numero promedio de
eventos ocurridos en dicho lapso de tiempo o en la dimensión de dicho cuerpo.
Formalización: ¡Importante!
Parámetro: 𝝀. Es el numero promedio de Poisson supone que existe

eventos ocurridos en un lapso de tiempo proporcionalidad de ocurrencia
de eventos en distintos espacios
𝜆𝑥 × 𝑒 −𝜆 temporales.
𝑃(𝑋 = 𝑥 | 𝜆) =
𝑥!
Por ejemplo, si en un local de
ropa entran 20 clientes por hora,
voy a suponer que en media
Por convención 0! = 1
hora entran 10.
Si bien Poisson generalmente es utilizado en casos en los que se tiene espacios continuos
de tiempo, un ejemplo en el que aplicáramos Poisson sobre una superficie podría ser
una extensión de cañería muy grande, de la que se quiere conocer cual es la probabilidad
de que se encuentren puntos de fuga.
Varianza y Esperanza de Poisson:
𝐸 (𝑋~𝑃𝑜) = 𝜆
𝑉𝐴𝑅(𝑋~𝑃𝑜) = 𝜆
P á g i n a 21
Ejemplo:
Un departamento de reparación de maquinaria recibe un promedio de 10 solicitudes de
servicio por hora. ¿Cuál es la probabilidad de que en media hora (seleccionada al azar)
se reciban exactamente 3 solicitudes?
53 × 𝑒 −5 53 × 𝑒 −5 1 1
𝑃(𝑋 = 3 |𝜆 = 5) = = = × 125 × 5 = 0,1404
3! 6 6 𝑒
10 en una hora son

5 en media hora
Hasta este momento estuvimos calculando

probabilidades puntuales, que solo pueden ser
calculadas cuando trabajamos con variables aleatorias
discretas.
Ahora le prestaremos especial atención a las Variables
Aleatorias Continuas.
Distribución Normal
La distribución normal puede ser utilizada con variables aleatorias continuas.
Función de densidad de la distribución normal:
1 −(𝑥−𝜇)2
𝑓 (𝑥 ) = 𝑒 2𝜎2 𝑝𝑎𝑟𝑎 − ∞ < 𝑥 < +∞
√2𝜋𝜎 2
(No hay forma analítica de integrar esa fórmula)
P á g i n a 22
Formalización:
Si una variable aleatoria sigue una distribucion normal van a
haber dos parametros que van a definir el comportamiento
de esa distribucion:
1) Su media (µ)
2) Su desvió estándar (𝝈)
𝑿~𝑵 ( 𝝁 ; 𝝈 )
Esos parámetros me indican dos cosas:

1) Cual es la forma que tiene la distribución normal (me lo indica el desvió)
2) Cual es el centro que tiene la distribución normal (me lo indica la media)
Ejemplos:
a Si cambia la media se va a
b generar un desplazamiento
de la distribución.
Este ejemplo se trata de dos
distribuciones distintas, que
tienen el mismo desvío,
pero distinta media.
𝜇𝑎 𝜇𝑏
𝜇𝑎 < 𝜇𝑏 ∧ 𝜎𝑎 = 𝜎𝑏
Si cambia el desvío se
genera un cambio en la
b forma de la distribución.
a Este ejemplo se trata de dos
distribuciones distintas, que
tienen la misma media, pero
distinto desvío.
𝜇𝑎
𝜇𝑏
𝜇𝑎 = 𝜇𝑏 ∧ 𝜎𝑎 > 𝜎𝑏 P á g i n a 23
• Si el desvío es muy grande voy a tener muy poca acumulación centrada con
respecto a la media, entonces voy a tener que trabajar con intervalos más largos,
más grandes.
• Si por lo contrario el desvío es chico, la acumulación de probabilidad va a requerir

intervalos más cortos.
• Sin importar el tamaño del desvío, si voy desde el límite inferior del dominio
hasta el límite superior del dominio, siempre acumulo 1.
• Varianza de una distribución Normal: 𝑉𝐴𝑅(𝑋) = 𝐸 (𝑋 − 𝜇)2 = 𝜎 2
Función de distribución acumulada de la distribución normal:

A la hora de analizar la función de distribución acumulada de la distribución normal
debemos preguntarnos como tenemos que hacer para saber cual es la probabilidad de
que una determinada variable que sigue una distribución normal acumule, por ejemplo,
un 60% o 40% de probabilidad.
Para obtener eso voy a tener que integrar la función de densidad vista mas arriba:
1 𝑥−𝜇 2
𝑏 1 − ( )
𝑋~𝑁( 𝜇 ; 𝜎 ) ⇒ 𝑃( 𝑋 ≤ 𝑏 ) = ∫−∞ 𝜎√2𝜋 ×𝑒 2 𝜎 𝑑𝑥
= 𝐹(𝑋 ≤ 𝑏)
Esta va a ser la función de acumulación hasta un determinado valor de x.
La forma de la función de densidad, tal como la vimos, es de una campana, mientras
que la forma de la función de acumulación es la siguiente:
1
Asíntota horizontal en
y = 1 porque nunca
llegas a acumular 1 si la
0,5 función esta evaluada
hasta +∞
𝜇
En la media se acumula siempre el
50% de la distribución
P á g i n a 24
En este grafico la función de acumulación en −∞ acumula 0, en +∞ acumula 1 y en 𝜇

acumula 0,5.
Propiedades de la distribución normal:

Pasan bajo la curva de cualquier distribución normal sin importar la media
o el desvío que tengan:
Propiedad de 1 desvío:
𝑓(𝑥)
68,3%
𝑥
−∞ 𝜇 𝑥 − 𝜎 𝜇 𝑥 𝜇𝑥 + 𝜎 +∞
Lo que me está indicando el grafico es que siempre entre 𝜇𝑥 − 𝜎 (como limite inferior)
y 𝜇𝑥 + 𝜎 (como límite superior) se va a acumular el 68,3% de la distribución, para
cualquier media y cualquier desvío (siempre y cuando se trate de una distribución
normal).
Por ejemplo:
𝑋~𝑁( 𝜇 = 50 ; 𝜎 = 3 )
53
𝐹 (𝑥 ) = ∫ 𝑓 (𝑥) = 0,683
47
Propiedad de 2 desvíos:
𝑓(𝑥)
95,4%
𝑥
−∞ 𝜇𝑥 − 2𝜎 𝜇𝑥 𝜇𝑥 + 2𝜎 +∞
P á g i n a 25
Sin importar el valor de la media y del desvío, si sigue una distribución normal, entre la
media y dos desvíos para la izquierda y para la derecha se acumulará el 95,4%
Propiedad de 3 desvíos:
𝑓(𝑥)
99,7%
𝑥
−∞ 𝜇𝑥 − 3𝜎 𝜇𝑥 𝜇𝑥 + 3𝜎 +∞
Por ejemplo:
𝑋~𝑁( 𝜇 = 50 ; 𝜎 = 3 )
59
𝐹 (𝑥 ) = ∫ 𝑓 (𝑥) = 99,7%
41
Problemas inversos de tabla

Tenemos un problema inverso de tabla cuando conozco cuanto se acumula entre los
límites, pero no el valor de uno de ellos.
Por ejemplo:
Suponemos que tengo la información de que una variable sigue una distribución normal
con una media igual a 50 y un desvío igual a 3 y yo quiero saber cual es el valor tal que
acumula por ejemplo un 80% de la probabilidad.
𝑓(𝑥) 𝑋~𝑁(𝜇 = 50 ; 𝜎 = 3)
𝑃 (𝑋 < 𝑏) = 0,80
𝑏
𝐹(𝑋) = ∫−∞ 𝑓 (𝑥 )𝑑𝑥 = 0,80
80%
𝑥
−∞ 𝜇𝑥 = 50 +∞
b?
P á g i n a 26
Capitulo 7 Estadística Inferencial
Estadística Inferencial
¿Qué pasa si desconocemos algún parámetro?
En los casos en que tengo desconocimiento de

algún parámetro (𝜇𝑥 ; 𝜎𝑥 2 ) voy a tener que
estimar, inferir, esos parámetros poblacionales a
partir de datos de una muestra.
La inferencia estadística es una parte de la

estadística que comprende un conjunto de métodos
y técnicas que me van a permitir, a través de
estadígrafos o estimadores inferir parámetros.
Ejemplo:
“Suponga que un profesor de historia calcula la calificación promedio de uno de sus
grupos. Como la estadística describe el desempeño del grupo, pero no hace ninguna
generalización acerca de los diferentes grupos, podemos decir que el profesor está
utilizando estadística descriptiva (...). Suponga ahora que el profesor de historia
decide utilizar el promedio de calificación obtenido por uno de sus grupos en una
unidad para estimar la calificación promedio del grupo en las diez unidades del curso.
El proceso de estimación de tal promedio sería un problema concerniente a la
estadística inferencial” (Levin, 2004, p4)
P á g i n a 1 | 15
Entonces…
El estadístico solo utiliza los datos que le proporciona la muestra seleccionada y, sin
embargo, las conclusiones que obtiene deben ser validas para toda la población.
Pero ¿Por qué razones podríamos tener desconocimiento de algún parámetro?
Algunas razones podrían ser:
→ Cuestiones económicas (podría ser muy caro poder acceder a la totalidad de la
población)
→ Cuestiones geográficas
→ Cuestiones físicas
→ Cuestiones temporales
En estos, entre otros casos, voy a necesitar utilizar una muestra, es decir, un subconjunto
de elementos de la población. Esta muestra debe ser extraída aleatoriamente utilizando
algún método de muestreo adecuado, de manera que todos los elementos de la
población tengan la misma probabilidad de ser elegidos para formar parte de la muestra:
a la muestra seleccionada de este modo se la denomina muestra aleatoria, y el método
que utilizaremos para obtenerla es el muestreo aleatorio simple.
Las muestras aleatorias disminuyen la posibilidad de que algún grupo de la población
este surepresentado en la muestra.
Muestreo aleatorio simple:

“El muestreo aleatorio simple es un método de selección de n unidades de un conjunto
de N, de tal modo que cada una de las muestras distintas tengan la misma oportunidad
de ser elegidas. En la práctica, un muestreo aleatorio se realiza unidad por unidad. Se
enumeran las unidades de 1 a N. Posteriormente se extrae una serie de n números
aleatorios entre 1 y N, ya sea utilizando una tabla de números aleatorios, o mediante un
programa de computación que produce una tabla semejante.” (Cochran, 1977, p41).
Ejemplo:
Se desea realizar un control de calidad en una juguetería, específicamente sobre la
resistencia del plástico de determinado modelo de robots para niños. Debido a que
dichas pruebas son destructivas, se decidió extraer una muestra aleatoria simple
compuesta por 5 unidades, de una totalidad de 32 robots
P á g i n a 2 | 15
POBLACION
Realicemos paso por paso lo que Cochran nos planteaba mas arriba:
→ “En la práctica, un muestreo aleatorio se realiza unidad por unidad. Se enumeran

las unidades de 1 a N.” Es decir, le asignamos un número a cada unidad de la
población (N).
1 2 3 4 5 6 7 8
9 10 11 12 13 14 15 16
P á g i n a 3 | 15
17 18 19 20 21 22 23 24
25 26 27 28 29 30 31 32
→ “Posteriormente se extrae una serie de n números aleatorios entre 1 y N, ya sea

utilizando una tabla de números aleatorios, o mediante un programa de
computación que produce una tabla semejante.” En nuestro caso establecimos
que la muestra será de cinco robots, por lo tanto 𝑛 = 5. Supongamos que en
primer lugar salió el numero 5, luego el 31, y a continuación el 3, el 8 y el 22:
1 2 3 4 5 6 7 8
9 10 11 12 13 14 15 16
17 18 19 20 21 22 23 24
25 26 27 28 29 30 31 32
Aplique M.A.S a la población P á g i n a 4 | 15

Muestra aleatoria obtenida
Sobre esa muestra voy a

aplicar el o los estimadores
que correspondan.
Como podemos observar, todos los robots tuvieron la misma probabilidad de ser
seleccionados, debido al carácter de aleatoriedad de este método.
Otros tipos de muestreos pueden ser:
→ Muestreo aleatorio estratificado: “La población de N unidades se divide

primero en subpoblaciones de 𝑁1 , 𝑁2 , … , 𝑁𝑖 unidades, respectivamente. Estas
subpoblaciones, no se traslapan y en su conjunto comprenden a toda la
población, por lo tanto, 𝑁1 + 𝑁2 + … , +𝑁𝑖 = 𝑁” (Cochran, 1977, p125). Esas
subpoblaciones de las que habla Cochran son los estratos, segmentos exclusivos
y homogéneos sobre los cuales aplicaremos posteriormente el muestreo
aleatorio simple. Volviendo al ejemplo de los robots, podría separarlos en dos
grupos: los robots rosados, por un lado, y por el otro los celestes. Una vez
realizada esa división, se debe aplicar el muestreo aleatorio simple sobre cada
uno de los grupos (las extracciones deben hacerse independientemente en los
diferentes extractos).
𝑁1 = 16 𝑁2 = 16
𝑁1 + 𝑁2 = 𝑁 = 32
Aplico M.A.S Aplico M.A.S
P á g i n a 5 | 15
→ Muestreo Sistemático: Luego de haberle asignado un numero a cada una de

unidades de la población (de manera ordenada), para elegir una muestra de n
unidades se debe tomar una unidad al azar, y luego debemos seleccionar las
unidades que están a continuación de esa primera unidad elegida. Volviendo a
nuestro ejemplo: elegimos aleatoriamente, por ejemplo, el número 17,
extraeremos la unidad a la que le corresponde dicho numero y las 4 siguientes:
1 2 3 4 5 6 7 8
9 10 11 12 13 14 15 16
17 18 19 20 21 22 23 24
25 26 27 28 29 30 31 32
→ Muestreo por conglomerado: A este tipo de muestreo se lo conoce también

como muestreo por cúmulos o muestreo por áreas. Este muestreo probabilístico
es el que se seleccionan aleatoriamente varios grupos (llamados conglomerados,
cúmulos o áreas) conformados por elementos heterogéneos de la población,
pero que tienen algo en común. Los conglomerados deben ser, en la medida de
lo posible, lo más heterogéneos que se pueda con el fin de representar a la
población total. Asimismo, deben ser mutuamente excluyentes y colectivamente
exhaustivos en conjunto.
Se utiliza el muestreo por conglomerados cuando los grupos son muy

heterogéneas y no existen muchas diferencias entre conglomerados. Se utiliza el
muestreo estratificado cuando los grupos o estratos son muy homogéneos
internamente y diferentes entre ellos.
P á g i n a 6 | 15
Cuestiones importantes a tener en cuenta…

→ En el proceso de selección de una muestra, puede suceder que, una vez
seleccionado y computado un elemento, este sea devuelto a la población,
pudiendo ser seleccionado de nuevo para formar parte de la misma muestra. En
tal caso, se habla de muestreo con reemplazamiento. En cambio, si una vez
seleccionado un elemento, no puede volver a formar parte de la misma muestra,
se habla de muestreo sin reemplazamiento. (Vargas, 1995, p298).
A lo que Antonio Vargas llama, muestreo con reemplazamiento y sin
reemplazamiento, es a lo que nosotros nombraremos muestreo con reposición y
sin reposición respectivamente.
Cuando aplicamos un muestreo con reposición, el resultado de la extracción de
cada elemento es independiente de los resultados anteriores, es decir, las
probabilidades de ocurrencia de cada elemento se van a mantener constantes,
por lo tanto, la población no se va a ver afectada.
→ Las poblaciones de las cuales son extraídas las muestras pueden ser finitas o
infinitas. También existen los casos en que una población finita es considerada
infinita a la hora del análisis de sus respectivas muestras. Esto ocurre cuando una
muestra contiene un número de individuos menor o igual al 5% de los individuos
de la población:
𝑛
≤ 0,05
𝑁
Este supuesto se utiliza solo cuando el muestreo es sin reposición, y la población
es finita. En estos casos las probabilidades de ocurrencia de cada elemento
también se van a mantener constantes.
→ En el caso en el que apliquemos un muestreo sin reposición a una población

𝑛
finita, donde 𝑁 > 0,05, el resultado de una extracción va a depender de los
resultados anteriores. Es decir, las probabilidades de ocurrencia de cada
elemento no se van a mantener constantes, y por lo tanto la población sí se va a
ver afectada.
Volviendo a nuestro ejemplo sobre los robots de juguete, mencionamos que las
pruebas que realizábamos sobre cada uno de ellos eran destructivas, por lo
tanto, luego de extraer un juguete se volvería imposible devolverlo a la
población: realizamos un muestreo aleatorio simple sin reposición, sobre una
población finita de 32 unidades, de las cuales se extraen 5 para la muestra
𝑛
(𝑁 = 0,15 > 0,05).
De esa forma podemos llegar a la conclusión de que las probabilidades de

ocurrencia de cada elemento no se van a mantener constantes:
P á g i n a 7 | 15
- Antes de ser extraído el primer elemento, las probabilidades de ocurrencia

de cada uno de los elementos es 1/32
- Luego de ser extraído el primer elemento, cada uno de los elementos va a
tener un 1/31 de probabilidad de convertirse en el segundo elemento
extraído.
- Luego de ser extraído el segundo elemento, las probabilidades de ocurrencia
de cada uno de los elementos van a volver a cambiar, esta vez van a ser 1/30.
- De esta forma van a cambiar sucesivamente las probabilidades hasta extraer
los 5 elementos que conformen la muestra de nuestro ejemplo.
→ El investigador también podrá decidir si las muestras que se extraerá serán

permutativas o conmutativas. Las muestras permutativas son aquellas en las que
importa el orden de extracción, por lo tanto, dos muestras que estén
conformadas por los mismos elementos, pero extraídos en distinto orden serán
consideradas muestras distintas, mientras que las muestras conmutativas son
aquellas en las que no importa el orden de extracción, es decir que dos muestras
serán consideradas iguales siempre que tengan los mismos elementos, aunque
estos hayan sido extraídos en distinto orden.
→ Voy a poder construir muestras permutativas siempre y cuando realice la

extracción de dichas muestras con reposición de elementos, ya que esto último
me va a permitir que dichos elementos se puedan repetir en distinto orden.
→ Si quiero calcular la cantidad de muestras distintas que puedo extraer de una

población determinada, realizando reposición de elementos:
𝑚 = 𝑁𝑛
Tamaño muestral
Numero de
muestras Tamaño poblacional
→ Ahora bien, si quiero calcular la cantidad de muestras distintas que puedo

extraer de una población determinada, sin reposición de elementos, teniendo en
cuenta que el orden indica muestras distintas (𝑥𝑖 ; 𝑥𝑗 ) ≠ (𝑥𝑗 ; 𝑥𝑖 ) ∧ ∄(𝑥𝑖 ; 𝑥𝑖 ) :
𝑁!
𝑚 =.𝑁 𝑃𝑛 =
(𝑁 − 𝑛)!
Permutación
P á g i n a 8 | 15
→ Finalmente, si quiero calcular m, es decir la cantidad de muestras distintas que

puedo extraer de una población determinada, sin reposición de elementos, en
las que el orden no indica muestras distintas (𝑥𝑖 ; 𝑥𝑗 ) ≠ (𝑥𝑗 ; 𝑥𝑖 ) ∧ ∄(𝑥𝑖 ; 𝑥𝑖 ) :
𝑁!
𝑚 =.𝑁 𝐶𝑛 =
𝑛! (𝑁 − 𝑛)!
Combinación
Ejemplo:
X : Edad en años cumplidos al día 8/6/20, de la unidad experimental.
𝑁=4 𝑛=2
M.A.S (Muestreo aleatorio simple)
Pepe = 19 𝑃(𝑋 = 19) = 0,25
Pedro = 20 𝑃(𝑋 = 20) = 0,25
Roberta = 22 𝑃(𝑋 = 22) = 0,25
Josefa = 23 𝑃(𝑋 = 23) = 0,25
A fines explicativos supongamos que nunca vamos a tener acceso a esa población de
cuatro personas, sino que solo vamos a tener acceso a una muestra de tamaño dos.
Sobre dicha población, vamos a realizar:
• Un muestreo aleatorio simple con reposición de elementos para que me

permita, por ejemplo, extraer “19” como primer orden y como segundo orden.
𝑚 = 𝑁 𝑛 = 42 = 16 → voy a poder extraer 16 posibles muestras
• Un muestreo aleatorio simple sin reposición de elementos, en el que el orden

indique muestras distintas (permutativo).
𝑁! 4! 4!
𝑚 =.𝑁 𝑃𝑛 = (𝑁−𝑛)! = (4−2)! = = 12 → posibles muestras
2!
• Un muestreo aleatorio simple sin reposición de elementos, en el que el orden

no indique muestras distintas (combinatorio).
𝑁! 4! 4!
𝑚 =.𝑁 𝐶𝑛 = = = = 6 → posibles muestras
𝑛!(𝑁−𝑛)! 2!(4−2)! 2!2!
P á g i n a 9 | 15
𝑥1 𝑥2 𝐶𝑅 𝑚 = 16 𝑆𝑅(𝑝) 𝑚 = 12 𝑆𝑅(𝑐) 𝑚 = 6
19 19 (19;19) - -
19 20 (19;20) (19;20) (19;20)
19 22 (19;22) (19;22) (19;22)
19 23 (19;23) (19;23) (19;23)
20 19 (20;19) (20;19) -
20 20 (20;20) - -
20 22 (20;22) (20;22) (20;22)
20 23 (20;23) (20;23) (20;23)
22 19 (22;19) (22;19) -
22 20 (22;20) (22;20) -
22 22 (22;22) - -
22 23 (22;23) (22;23) (22;23)
23 19 (23;19) (23;19) -
23 20 (23;20) (23;20) -
23 22 (23;22) (23;22) -
23 23 (23;23) - -
Distribución de la variable aleatoria denominada Media

Muestral
En el anexo sobre variables aleatorias nos dedicamos a demostrar que:
𝜇𝑥̅ = 𝜇𝑥
La media de la distribución de las medias

muestrales en el muestreo es la media poblacional
2
𝜎𝑥 2 𝜎𝑥̅
𝜎𝑥̅ = ⟹ 𝜎𝑥̅ =
𝑛 √𝑛
Error típico
P á g i n a 10 | 15
¿Qué nos quiere decir esto?
→ Si la media de la distribución de las medias muestrales es igual a la media

poblacional, esto significara que ambas distribuciones (la poblacional y la
muestral) estarán centradas en el mismo valor.
→ Si el desvío de la distribución media muestral (llamado error típico o estándar)
es igual al cociente del desvío poblacional sobre la raíz del tamaño muestral (n),
esto significará que el desvío de la distribución muestral siempre será mas
pequeño que el desvío de la distribución poblacional, es decir, los datos estarán
más concentrados alrededor de la media.
Veámoslo gráficamente:
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
-2 0 2 4 6 8 10
-0,1
𝝁𝒙̅ = 𝝁𝒙 = 𝟒
La campana de Gauss de color violeta representa la distribución muestral,

mientras que la de color rosado representa la distribución poblacional. Ambas se
distribuyen de manera normal y poseen la misma media (en este caso es 4) pero
diferentes desvíos (la distribución poblacional posee un desvío mayor).
Conclusiones:
𝜎𝑋
̅ ~𝑁 (𝜇 = 𝜇𝑋̅ = 𝜇𝑋 ; 𝜎 = 𝜎𝑋̅ = )
→ 𝑆𝑖 𝑋~𝑁(𝜇 = 𝜇𝑋 ; 𝜎 = 𝜎𝑋 ) ⟹ 𝑋
√𝑛
SI la variable aleatoria X La variable aleatoria media muestral

se distribuye de manera también se va a distribuir de manera
Entonces
normal con una media y normal, con una media igual a la media
un desvío determinado poblacional y un desvío igual al desvío
poblacional sobre la raíz de n
P á g i n a 11 | 15
→ La varianza de la distribución de las medias muestrales en el muestreo disminuye

a medida que aumenta el tamaño de la muestra (n). Esto quiere decir que cuanto
mayor sea el tamaño de la muestra, mas concentrada esta la distribución en el
muestreo, por lo tanto, cuanto mas grande sea la muestra, mas seguros vamos
a estar de nuestra inferencia de la media poblacional.
→ Si suponemos que la población es infinita: no me importa si el muestreo aleatorio

simple es con reposición o sin reposición
→ Si suponemos que la población es finita, para que no se vea afectada en la

extracción de las muestras, debemos realizar el muestreo aleatorio simple con
𝑛
reposición de elementos, o sin reposición en el caso en que ≤ 0,05
𝑁
→ Si la extracción de las muestras se realiza sin reposición de elementos, en una

𝑛
población finita en la que 𝑁 > 5%, entonces las probabilidades de ocurrencia de
cada elemento no van a ser constantes e independientes unas de otras: la
probabilidad de que un elemento de la población sea extraído en segundo lugar,
pasa a depender de cual fue el elemento extraído en primer lugar.
Cuando se presenta este fenómeno debemos calcular la varianza de la siguiente
manera:
2
𝜎𝑥 2 𝑁 − 𝑛
𝜎𝑥̅ = ( )
𝑛 𝑁−1
Factor de
Corrección por
finitud
Sabiendo que el desvío podemos obtenerlo de aplicarle la raíz cuadrada a la

varianza tenemos que:
𝜎𝑥 2𝑁−𝑛 𝜎𝑥 2 √ 𝑁 − 𝑛 𝜎𝑥 2 √ 𝑁 − 𝑛
𝜎𝑋̅ = √ = √ =
𝑛 𝑁−1 𝑛 𝑁−1 √𝑛 𝑁 − 1
𝑵
̅ − 𝝁𝑿̅ )𝟐
(𝑿
√∑
𝑵𝑿̅ Error típico
𝒊=𝟏
(Corregido por
finitud)
P á g i n a 12 | 15
Para ser más específicos a la hora de formalizar matemáticamente todo lo que

estamos explicando, vamos a representar a la media muestral de la siguiente manera:
Tamaño muestral
(𝑛)
𝑋̅𝑚𝑖
Muestra i-esima
Como calcular la media de las medias muestrales:

𝑁𝑋
̅ (𝑛) 𝐾
𝑋̅(𝑚𝑖 )
𝜇𝑋̅ (𝑛) = ∑ = ∑ 𝑋̅𝑤 × 𝑓𝑟𝑖
𝑚𝑖 𝑁𝑋̅
𝑚=1 𝑤=1
Para entender mejor esto podemos volver al ejemplo en el que analizábamos la edad
de una población de cuatro personas, extrayendo muestras de tamaño 2:
𝑥1 𝑥2 𝐶𝑅 𝑚 = 16 𝑆𝑅(𝑝) 𝑚 𝑆𝑅(𝑐) 𝑚 𝑋̅𝑖 𝐶𝑅 𝑋̅𝑖 𝑆𝑅(𝑝) 𝑋̅𝑖 𝑆𝑅(𝑐)

= 12 =6
19 19 (19;19) - - 19 - -
19 20 (19;20) (19;20) (19;20) 19,5 19,5 19,5
19 22 (19;22) (19;22) (19;22) 20,5 20,5 20,5
19 23 (19;23) (19;23) (19;23) 21 21 21
20 19 (20;19) (20;19) - 19,5 19,5 -
20 20 (20;20) - - 20 - -
20 22 (20;22) (20;22) (20;22) 21 21 21
20 23 (20;23) (20;23) (20;23) 21,5 21,5 21,5
22 19 (22;19) (22;19) - 20,5 20,5 -
22 20 (22;20) (22;20) - 21 21 -
P á g i n a 13 | 15
22 22 (22;22) - - 22 - -
22 23 (22;23) (22;23) (22;23) 22,5 22,5 22,5
23 19 (23;19) (23;19) - 21 21 -
23 20 (23;20) (23;20) - 21,5 21,5 -
23 22 (23;22) (23;22) - 22,5 22,5 -
23 23 (23;23) - - 23 - -
Calculamos las medias de cada

una de las muestras obtenidas
luego de aplicar M.A.S con
reposición y sin reposición a la
población.
Una vez que calculamos la media de cada muestra solo nos queda sacar la media de
esas medias, es decir, calcular el promedio de cada una de esas ultimas 3 columnas:
𝑁𝑋
̅ (𝑛) 𝐾
𝑋̅(𝑚𝑖 )
𝜇𝑋̅ (𝑛) = ∑ = ∑ 𝑋̅𝑤 × 𝑓𝑟𝑖 =
𝑚𝑖 𝑁𝑋̅
𝑚=1 𝑤=1
1 2 1 2 4 2 1
= 19 × + 19,5 × + 20 × + 20,5 × + 21 × + 21,5 × + 22 ×
16 16 16 16 16 16 16
2 1
+ 22,5 × + 23 × = 𝟐𝟏
16 16
La media de las medias muestrales de muestras de tamaño 2, extraídas de una
población determinada a través del método de muestreo aleatorio simple, con
reposición de elementos es igual a 21.
Si se realizan los cálculos, se puede comprobar que, en los dos casos restantes, cuando
extraemos las muestras sin reposición de elementos, la media de esas medias
muestrales también es 21.
En la realidad, si estamos realizando estas estimaciones es porque no podemos tener
acceso a la población, pero en este caso vamos a calcular la media poblacional para
comprobar que 𝜇𝑋̅ = 𝜇𝑋
19 + 20 + 22 + 23
𝜇𝑋 = = 𝟐𝟏
4
De esta forma, con este ejemplo sencillo, podemos observar que 𝜇𝑋̅ = 𝜇𝑋 = 21.
P á g i n a 14 | 15
Preguntas que nos debemos hacer antes de realizar estadística

inferencial
→ ¿Hay algún parámetro poblacional desconocido? Si es así, ¿Cuál es

su mejor estimador?
→ ¿Conozco la distribución poblacional? Si la conozco, ¿Se distribuye
de manera normal?
→ ¿La población es finita o infinita?
→ ¿Qué tipo de muestreo voy a realizar? ¿Con o sin reposición?
→ ¿De qué tamaño será la muestra? ¿Menor o mayor a 30?
P á g i n a 15 | 15
Capítulo 8 Propiedades de los estimadores
Propiedades de los buenos estimadores
Utilizamos los Un Una

Estadígrafos o Para inferir Obteniendo
Parámetro Estimación
Estimadores 𝝁; 𝝈
𝑿̅ ;𝑺
Es un numero resultado de
Es el valor que
aplicarle el estimador a la
Lo aplico a la obtengo de la
muestra. Es el resultado de
muestra. Es población y la
ese proceso.
el proceso. función que lo
genera.
Por esa razón utilizo un

estimador. Para obtener La inferencia estadística se basa
la mejor o más acertada en que NO LOS CONOZCO.
estimación posible es
que nos es útil conocer
las propiedades de los
buenos estimadores.
Dos muestras a las que le aplico el un

mismo estimador pueden tener como
resultado distintas estimaciones, porque
sus datos son distintos (va a depender del
tamaño muestral y poblacional).
“Debe señalarse desde el principio que no existe ningún único mecanismo para saber
cuál es el «mejor» estimador puntual en todas las circunstancias. Lo que existe es un
conjunto de criterios con los que pueden evaluarse los estimadores”. (Newbold, 2008,
p.296)
Lo que Newbold nos está diciendo, es que para cada parámetro pueden existir varios
estimadores diferentes. En general, se elige el estimador que posea mejores
propiedades que los restantes. ¿Cuáles son esas propiedades? Insesgadez, eficiencia,
suficiencia (o convergencia) y consistencia (o robustez).
Página 1|7
Estimador Insesgado
Es muy difícil que la estimación sea igual al parámetro. Se denomina sesgo de un
estimador a la diferencia entre el valor de la estimación y el verdadero valor del
parámetro a estimar.
Para poder visualizar esto, pongamos como ejemplo el juego de “tiro al blanco”:
Insesgado Sesgado
Es deseable que un estimador sea 𝐸(𝜃̂ ) − 𝜃 ≠ 0

insesgado o centrado, es decir que el
sesgo sea nulo. Esto va a significar que A esta diferencia se la denomina sesgo. Se
la esperanza del estimador va a ser deduce que el sesgo de un estimador
igual al valor del parámetro que se insesgado es igual a cero.
desea estimar:
𝐸(𝜃̂ ) = 𝜃
En el anexo sobre teoremas y variables

aleatorias se encuentra demostrado que:
𝐸 (𝑋̅) = 𝜇𝑋
Por lo tanto, la media muestral es el mejor
estimador para la media poblacional
porque es insesgado.
Página 2|7
“Obsérvese que el hecho de que un estimador sea insesgado no significa que un

determinado valor de 𝜃̂ tenga que ser exactamente el valor correcto de 𝜃; lo que
significa es que tiene «la capacidad de estimar el parámetro poblacional correctamente
en promedio. Un estimador insesgado es correcto en promedio. Podemos concebir el
valor esperado de 𝜃̂ como la media de los valores de 𝜃̂ para todas las muestras posibles
o como la media a largo plazo de los valores de 𝜃̂ para muestras repetidas. La condición
de que el estimador 𝜃̂ debe ser insesgado quiere decir que el valor medio de 𝜃̂ es
exactamente correcto. No quiere decir que un determinado valor de 𝜃̂ es exactamente
correcto». A veces 𝜃̂ sobreestima el parámetro y otras veces lo subestima, pero del
concepto de esperanza se deduce que, si se repite muchas veces el método de
muestreo, entonces, en promedio, el valor de un estimador insesgado que se obtenga
es igual al parámetro poblacional.”. (Newbold, 2008, p.297)
𝜃̂1 𝜃̂2
𝜃 Sesgo 𝐸(𝜃̂ )
𝐸(𝜃̂ ) = 𝜃
Representación gráfica del resultado de aplicarle estimadores distintos (uno insesgado y otro
sesgado) a las mismas muestras, de igual tamaño, extraídas de una misma población.
𝜃̂1 𝑒𝑠 𝑒𝑙 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜𝑟 𝑖𝑛𝑠𝑒𝑠𝑔𝑎𝑑𝑜
𝜃̂2 𝑒𝑠 𝑒𝑙 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜𝑟 𝑠𝑒𝑠𝑔𝑎𝑑𝑜

Como bien dijimos, la media muestral es un estimador insesgado de la media
poblacional, pero ahora analicemos que ocurre con la varianza:
̂
2
∑(𝑥𝑖 − 𝑋̅)2 Es un estimador sesgado. Porque la
𝜎(𝑎) = esperanza de este estimador es distinta
𝑛 a la varianza.
𝐸(𝜎̂
2
(𝑎) ) ≠ 𝜎
2
Página 3|7
̂
2 2
∑(𝑥𝑖 − 𝑋̅)2 Es un estimador insesgado: la esperanza
𝜎(𝑏) = 𝑆𝑥 = de la cuasi varianza es igual a la varianza
𝑛−1 poblacional.
𝐸 (𝜎̂
2
(𝑏) ) = 𝜎
2
Por lo tanto, 𝑆𝑥2 es el mejor estimador para 𝜎𝑋2
Estimador Consistente
Un estimador consistente es un estimador asintóticamente insesgado, es decir, un
estimador cuyo sesgo (la diferencia entre el valor esperado del estimador y el
parámetro) tiende a cero al aumentar el tamaño muestral.
𝜃̂ 𝑒𝑠 𝑐𝑜𝑛𝑠𝑖𝑠𝑡𝑒𝑛𝑡𝑒 → lim 𝐸(𝜃̂) = 𝜃

𝑛→∞
Dicho de otra forma, un estimador asintóticamente insesgado es aquel cuya varianza

tiende a cero al aumentar el tamaño muestral.
Se utilizan estimadores consistentes en los casos en los que es difícil o imposible obtener
estimadores insesgados.
Aclaración: No todos los estimadores insesgados son consistentes ni todos los
estimadores consistentes son insesgados. Por ejemplo, como recientemente
planteamos, si la varianza se calcula de la siguiente manera:
̂
2
∑(𝑥𝑖 − 𝑋̅)2
𝜎(𝑎) =
𝑛
Es un estimador sesgado de la varianza poblacional, pero consistente, ya que al
aumentar el tamaño muestral ese sesgo va a tender a cero, es decir va a tender a ser un
estimador insesgado:
̂
2
∑(𝑥𝑖 − 𝑋̅)2
𝜎(𝑏) =
𝑛−1
¿Por qué sucede esto?
Si el tamaño de la muestra (n) es muy grande, el grado de libertad que se le resta es despreciable,
ya que, si le restamos o no ese 1, el resultado será aproximadamente el mismo (casi igual). Por
lo tanto, las dos formas de calcular la estimación serán correctas, se van a parecer cada vez más
y tenderán a ser el valor del parámetro poblacional.
Página 4|7
Observemos esto último en el tiro al blanco:
Estimador consistente e Estimador inconsistente

insesgado e insesgado
Estimador consistente y Estimador inconsistente

sesgado y sesgado
La media, además de ser un estimador insesgado, también es un estimador consistente.

Esto podemos verlo matemáticamente, sabiendo que la varianza de la media muestral
se calcula de la siguiente forma:
𝜎𝑋2
𝜎𝑋2̅ =
𝑛
A medida aumentamos el
valor de n, al encontrarse en
el denominador va a generar
que el valor resultado de esa
división sea cada vez menor
(𝑉𝐴𝑅 → 0)
Página 5|7
Estimador Eficiente
De dos estimadores insesgados, un estimador es mas eficiente o más preciso que otro
estimador si la varianza del primero es menor que la del segundo. En otras palabras, el
estimador más eficiente será aquel cuya distribución este más concentrada en torno al
parámetro que se pretende estimar.
𝑉𝐴𝑅(𝜃̂1 )
𝑉𝐴𝑅(𝜃̂2 )
𝜇𝑋 = 𝜇𝑋̅
̂1) < 𝑉𝐴𝑅(𝜃

𝑉𝐴𝑅(𝜃 ̂2 )
Por lo tanto el estimador 1 es mas eficiente.

Si quisieramos conocer la eficiencia relativa lo que debemos hacer es dividir los valores
de las varianzas:
̂2 )
𝑉𝐴𝑅(𝜃
𝐸𝑓𝑖𝑐𝑖𝑒𝑛𝑐𝑖𝑎 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 =
̂1 )
𝑉𝐴𝑅(𝜃
De esta manera podriamos demostrar que la media muestral es
mas eficiente que la mediana:
𝑉𝐴𝑅(𝑚𝑒𝑑𝑖𝑎𝑛𝑎)
𝐸𝑓𝑖𝑐𝑖𝑒𝑛𝑐𝑖𝑎 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 =
𝑉𝐴𝑅(𝑋̅)
Un posible inconceniente de la utilizacion de la

mediana muestral como estimador se encuentra
justamente en su eficiencia relativa.
Página 6|7
Estimador Suficiente
Un estimador es suficiente cuando no da lugar a perdida de información, es decir, si
utiliza tanta información de la muestra que ningún otro estimador puede extraer
información adicional acerca del parámetro que se esta estimando.
Propiedades de algunos estimadores puntuales
Parámetro Estimador puntual Propiedades
Insesgado, consistente, de máxima

𝑀𝑒𝑑𝑖𝑎 𝜇 𝑋̅
eficiencia (suponiendo XN), Suficiencia
Insesgado (suponiendo XN), pero no

𝑀𝑒𝑑𝑖𝑎 𝜇 𝑀𝑒
de máxima eficiencia

𝑃𝑟𝑜𝑝𝑜𝑟𝑐𝑖𝑜𝑛 𝑃 𝑃̂
eficiencia (suponiendo XN)

𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝜎 2 𝑆2
eficiencia (suponiendo XN),
Recordatorio
Las propiedades son de los estimadores, ellos van a ser

insesgados, consistentes, eficientes o suficientes, y los valores
de las estimaciones (resultado de aplicar esos estimadores a
la muestra) probablemente sean diferentes
Página 7|7
Capítulo 9 Intervalos de confianza
Estimación con intervalos de confianza

Para comprender lo que son los intervalos de estimación, conocidos como intervalos
de confianza, primero tenemos que entender el concepto de estimación puntual.
La estimación puntual es un único número, un único valor, que obtenemos luego de
aplicarle, a una determinada muestra, un estimador puntual.
(𝑛)
𝑋̅(𝑚𝑖 )
Aplico el estimador puntual
Población Extraigo
Muestra correspondiente, en este
𝑿~𝑵( 𝝁 =? ; 𝝈 = 𝒃) caso lo ejemplificamos con
M.A.S
el estimador media muestral
Población de la cual voy a estimar un

=a
parámetro. Siendo X una determinada Obtengo como resultado una
variable aleatoria, que sigue una distribución estimación puntual: va a ser
normal, con una media desconocida y un un único valor resultado de
desvío que sí conozco, que va a ser igual a un aplicarle el estimador a la
valor “b”. muestra extraída.
(𝑛) 𝜎
𝑋̅𝑚𝑘 ~𝑁 ( 𝜇𝑋̅ (𝑛) = 𝜇𝑋 ; 𝜎𝑋̅ (𝑛) = )
𝑚𝑘 𝑚𝑘 √𝑛
El problema al utilizar este método, si es que decidimos quedarnos únicamente con
esa estimación puntual obtenida, es que no podemos saber si nos equivocamos
(porque nunca podremos conocer el verdadero valor del parámetro que estamos
estimando) ni tampoco podemos saber cuál es la variabilidad de ese error, o sea, por
cuanto nos equivocamos.
Por estas razones, es conveniente utilizar a esa estimación puntual como una
herramienta, convirtiéndola en el centro o punto medio de un intervalo de estimación:
Intervalo de Confianza
Error de Error de
Estimación Estimación
EE EE
LI EP LS
Límite inferior Estimación Límite Superior
del intervalo Puntual del intervalo
Abarca un (1 − 𝛼 ) × 100%
P á g i n a 1 | 17
Observando esa representación podemos

deducir que si deseamos conocer cuál es el
valor del límite superior del intervalo lo que
debemos hacer es sumarle el error de
estimación a la estimación puntual mientras
que, si queremos conocer el valor del límite
inferior, a la estimación puntual le debemos
restar el error de estimación.
De esta manera podemos comprender la
regla general para intervalos de confianza:
𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎 = 𝐸𝑃 ± 𝐸𝐸
Aclaración: Esta regla general va a cambiar
dependiendo de que parámetro queramos
estimar
Como calcular el error de estimación
𝐸𝐸 = |𝑍𝛼×100% | × 𝜎𝑋̅
2
Modulo del valor de abscisas que Desvío estándar del estimador

𝛼
acumula 2 100% de probabilidad utilizado para calcular la
en la distribución del estimador estimación, en este caso, el
utilizado para calcular la estimación desvío estándar del estimador
puntual media muestral
La distribución debe estar expresada

en desvíos con respecto a la media
Como desconozco 𝜇𝑋 también desconozco 𝜇𝑋̅ , entonces no puedo generar el recorrido

del intervalo de confianza en la misma unidad de medida que la variable aleatoria. Para
solucionar este problema, en una primera instancia, estableceremos los límites del
intervalo en desvíos con respecto a la media.
P á g i n a 2 | 17
De esta forma llegamos a la conclusión de que:
𝐼𝐶 = 𝐸𝑃 ± |𝑍𝛼×100% | × 𝜎𝑋̅
2
Ahora bien, como dijimos más arriba, desde el límite inferior del intervalo hasta su
límite superior, se abarca un (1 − 𝛼 ) × 100% de la distribución del estimador
𝜎
utilizado, en este caso 𝑋̅~𝑁 (𝜇𝑋̅ = 𝜇𝑋 ; 𝜎𝑋̅ = 𝑋 ). Pero ¿Qué significa esto?..
√𝑛
El grado de precisión de la información que podamos llegar a obtener sobre los

parámetros poblacionales va a depender del nivel o grado de confianza sobre el que
esté basado el intervalo, el cual va a definir el recorrido de este último:
Mayor nivel de confianza Menor nivel de confianza

Mayor recorrido Menor recorrido
Menor precisión Mayor precisión
Ceteris Paribus (todo lo demás

se mantiene constante)
P á g i n a 3 | 17
Interpretación del Nivel de Confianza

Que NO significa nivel de confianza
Supuesto NC = 0,95 para la explicación
Si construyo un intervalo proveniente de una muestra con un nivel de confianza de

0,95, eso NO significa que exista un 95% de probabilidad de que el valor del parámetro
este contenido dentro de ese intervalo.
Que SI significa nivel de confianza

Supuesto NC = 0,95 para la explicación
Tomando repetidas muestras del mismo tamaño, pertenecientes a la misma población,

aplicándole el estimador correspondiente a cada una de esas muestras y con las
respectivas estimaciones, construyendo los respectivos intervalos de confianza, es de
esperar que el 95% de los intervalos construidos contengan al valor correspondiente del
parámetro poblacional.
𝜇𝑋
Descripción esquemática de intervalos de
confianza al 95%, obtenidos de muestras 𝜇𝑋̅
independientes, extraídas de la misma
población, con un determinado tamaño
Es de esperar que, en este

caso, el 95% de los intervalos
construidos contengan al
valor correspondiente del
parámetro poblacional
Lo que en este caso ejemplificamos con el 95% representa el (1 − 𝛼 ) × 100%

P á g i n a 4 | 17
Valor Z correspondiente a determinados niveles de confianza

Si bien los niveles de confianza utilizados habitualmente son del 90%, 95% y 99%, les
presento a continuación, en una pequeña tablita, algunos valores más.
Niveles de Confianza Valor Z

80% 1,28
90% 1,645
95% 1,96
98% 2,33
99% 2,58
99.8% 3,08
99.9% 3,27
Ejemplo:
La fábrica de chocolate “Mirando al cielo” quiere realizar un estudio sobre la cantidad
de almendras en promedio incluidas en la tabletas de 200 gr. Para el experimento se
elige un lote de 10.000 tabletas del cual se extrae una muestra de 40 tabletas. La media
muestral arrojo un resultado de 10 almendras.
Por experiencias anteriores se conoce que la cantidad de almendras incluidas en las
barras de chocolate de 200 gr sigue una distribución normal con un desvío de 1
almendra.
Se pide encontrar el intervalo de confianza (I.C) correspondiente a la muestra obtenida
para un 90% de nivel de confianza
Antes de comenzar a resolver el ejercicio realicemos un pequeño análisis del

enunciado:
→ Este ejercicio ejemplifica un caso en el que tenemos como datos la distribución de la

población y su desvío, pero no su media.
→ Nuestro objetivo es hallar un intervalo de valores en lugar de un único número, para

estimar esa media poblacional (parámetro desconocido).
→ Este problema a veces es poco realista, ya que en raras ocasiones se conoce exactamente el
desvío y no la media. Sin embargo, a veces si ocurre que se le hacen tantas muestras a
poblaciones similares que puede suponerse que el desvío se conoce bastante bien por
experiencia.
P á g i n a 5 | 17
Resolución del ejercicio:
En primer lugar, es muy importante no olvidarse de definir la variable de estudio y su

distribución:
𝑋: 𝐶𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝑎𝑙𝑚𝑒𝑛𝑑𝑟𝑎𝑠 𝑒𝑛 𝑐𝑎𝑑𝑎 𝑡𝑎𝑏𝑙𝑒𝑡𝑎 𝑑𝑒 𝑐ℎ𝑜𝑐𝑜𝑙𝑎𝑡𝑒 𝑑𝑒 200 𝑔𝑟
𝑋~𝑁( 𝜇𝑋 ; 𝜎𝑋 = 1)
Si no me dijera como se distribuye podría suponerlo por el Teorema Central del Límite.
𝑁 = 10000
MARCO MUESTRAL: Actúa empíricamente como si fuera la población
𝑛 = 40 Supuesto: utilizo M.A.S sin reposición de elementos

𝑛 40
= < 0,05 No se aplica factor de corrección por finitud
𝑁 10000
(40)
𝑋̅𝑚𝑘 Media de la muestra k-esima de tamaño 40
(40) 𝜎𝑋
𝑋̅𝑚𝑘 ~𝑁 ( 𝜇𝑋̅ (40) = 𝜇𝑋 ; 𝜎𝑋̅ (40) = )
𝑚𝑘 𝑚𝑘 √𝑛
(40) 1
𝑋̅𝑚𝑘 ~𝑁 ( 𝜇𝑋̅ (40) = 𝜇𝑋 ; 𝜎𝑋̅ (40) = )
𝑚𝑘 𝑚𝑘 √40
El enunciado plantea que al extraer la primer muestra su media fue 10, por lo tanto:
(40)
𝑋̅𝑚1 = 10
𝐶𝑜𝑛𝑠𝑡𝑟𝑢𝑐𝑐𝑖𝑜𝑛 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎

a) 𝑁𝑖𝑣𝑒𝑙 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎 = (1 − 𝛼 ) × 100% = 90%
Por lo tanto, sabemos que el nivel de significación será: 𝛼 = 10%
Como sabemos, un intervalo de confianza tiene dos limites, el inferior y el superior, por
lo tanto, a 𝛼 lo debemos dividir por dos, para representar todo lo que queda por fuera
de los límites de manera simétrica.
𝛼
= 5% = 0,05
2
P á g i n a 6 | 17
Para construir el intervalo de confianza, estableceremos los límites del intervalo en

desvíos con respecto a la media:
𝑍~𝑁( 0 ; 1 ) →Variable estandarizada (unidades Z)
𝛼 = 10%
𝛼 𝛼
= 5% = 5%
2 (𝟏 − 𝜶) = 𝟗𝟎% 2
-3 -2 -1,645 -1 0 1 1,645 2 3
Por las tablas sabemos que, en desvíos con respecto a la media, los limites
correspondientes al intervalo que acumula el 90% central de una distribución normal
son -1,645 y 1,645.
A estos dos últimos valores los multiplicaremos por el desvío del estimador media
muestral para transformar esos desvíos con respecto a la media a la unidad de medida
en que se encuentra la variable de estudio.
Como ya contamos con todos los datos necesarios, podemos calcular el intervalo de
confianza:
𝐼𝐶 = 𝐸𝑃 ± |𝑍𝛼×100% | × 𝜎𝑋̅
2
1
𝐼𝐶 = 10 ± |1,645| ×
√40
𝐼𝐶90% 𝑚1 ∈ (9,74 ; 10,26)
P á g i n a 7 | 17
Reducción del margen de error

Hay 2 formas de reducir el error de estimación y, por consiguiente, la amplitud del
recorrido del intervalo, para poder obtener información más precisa:
1) Aumentar el tamaño de la muestra (Ceteris paribus). Cuanta más información
se obtiene de la población, más precisa será la inferencia sobre su parámetro.
También podemos observarlo matemáticamente:
𝐸𝐸 = |𝑍𝛼×100% | × 𝜎𝑋̅
2
𝜎𝑋
𝜎𝑋̅ =
√𝑛 Si el tamaño de la muestra
(n) aumenta, se reduce el
Ejemplo: desvío estándar de la
Si 𝑛 = 100 ∧ 𝜎𝑋 = 1 distribución de la media
muestral, y por lo tanto el
1 error de estimación.
𝜎𝑋̅ = = 0,1
√100
Pero si aumento el tamaño de la muestra a 400:
1
𝜎𝑋̅ = = 0,05
√400
2) Si se reduce el nivel de confianza (Ceteris Paribus) el margen de error también

disminuye, pero se debe recordar que al reducir el nivel de confianza también
se reduce la cantidad de intervalos que pueden contener al valor del parámetro
poblacional.
También se debe tener en cuenta que si se reduce el desvío estándar o desviación

típica poblacional (𝜎𝑋 ) también se va a reducir el error de estimación, pero esta opción
es exógena al investigador, así como la menos común para una empresa debido a las
dificultades que puede implicar reducirlo (costos, incapacidad física, etc.).
P á g i n a 8 | 17
Elección del tamaño de la muestra

Como dijimos más arriba, una de las maneras de obtener un intervalo más pequeño con
un nivel de confianza dado es tomar una muestra mayor. De esa manera evitamos que
el intervalo de confianza sea demasiado amplio dejándonos un grado de incertidumbre
excesivo sobre el parámetro estimado. Pero ¿Cómo podemos conocer cuál es el tamaño
muestral que necesitamos utilizar?
Dado un determinado error de estimación deseado, podemos calcular el tamaño
muestral con un simple pasaje de términos:
𝜎𝑋
𝐸𝐸 = |𝑍𝛼 | ×
2 √𝑛
𝑍𝛼 × 𝜎𝑋
2
√𝑛 =
𝐸𝐸
2
𝑍𝛼 × 𝜎𝑋
𝑛 = ⌈( 2 ) ⌉
𝐸𝐸
Función techo: Lo que hace es

llevar un número mayor que un
entero a su número superior.
Por ejemplo: ⌈9,1⌉ = 10
Estimación de un intervalo de confianza para la media

cuando se desconoce el desvío poblacional
Hasta ahora vimos la construcción de intervalos de confianza con el fin de estimar una
media poblacional desconocida, teniendo conocimiento sobre el valor del desvío
poblacional, pero ¿Realmente es posible conocer la desviación estándar poblacional?..
Si nos ponemos a pensar, esos casos no son muy realistas, ya que para poder conocer el
desvío poblacional deberíamos tener conocimiento de todos los valores de la población
para poder calcularlo, por lo tanto, también podríamos calcular la media poblacional, no
tendríamos la necesidad de utilizar el razonamiento inductivo de la estadística
inferencial.
Es por esta razón, que ahora veremos una nueva distribución, la distribución t de
Student, que nos será útil para realizar estimaciones con intervalos de confianza en los
casos en que desconocemos los dos parámetros: la media y el desvío poblacional.
P á g i n a 9 | 17
Distribución t de Student
Esta distribución surgió cuando Gosset, que trabajaba en una empresa de Irlanda
tratando de elaborar una cerveza a menor costo, se encontró frente a la necesidad de
poder realizar estimaciones sobre la media sin tener conocimiento del desvío, con la
dificultad de que solo podía contar con muestras pequeñas para su estudio.
Gosset logro resolver ese problema justamente desarrollando lo que ahora conocemos
como la distribución t de Student.
Para poder entender a la distribución t primero debemos conocer la distribución ji-

cuadrado:
𝑺𝒆𝒂𝒏 𝒁𝟏 ; 𝒁𝟐 ; 𝒁𝟑 ; … ; 𝒁𝑲 𝑽. 𝑨. 𝑰 ∨𝒊 𝒁𝒊 ~𝑵 (𝟎; 𝟏)
¿Qué quiere decir?

Son 3 requisitos Que las variables Z sean
independientes
Que se distribuyan normalmente

Que estén expresadas en desvíos con
respecto a la media
La variable aleatoria
Ji-cuadrado
K tiene que ser un número
𝑘
natural porque expresa la
2
𝒳𝑔𝑙=𝑘 = ∑ 𝑍𝑖2 cantidad de sumandos
𝑖=1
Que genera grados

de libertad igual a K Es igual a la suma de variables aleatorias
independientes, distribuidas de forma
normal y expresadas en desvíos con
respecto a la media (cada una de ellas
van a estar elevadas al cuadrado)
Esta distribución formara parte de la distribución t de Student.
P á g i n a 10 | 17
2
𝑆𝑒𝑎 𝑍 𝑢𝑛𝑎 𝑉. 𝐴 𝑐𝑜𝑛 𝑍~𝑁(0; 1) ∧ 𝑠𝑒𝑎 ∑ 𝑍𝑖2 ~ 𝒳𝑔𝑙=𝑘
𝑍
𝒯𝐺𝐿=𝐾 =
𝒳2𝑔𝑙=𝑘
√( )
𝑘
𝑆𝑖 𝑘 → ∞ 𝒯𝑔𝑙=𝑘 ≈ 𝑍
La distribucion t es el cociente entre 2

distribuciones: la distribucion normal
estándar (Z), y la raíz cuadrada de la
distribucion ji-cuadrado dividida por sus
grados de libertad K
Algunas consideraciones importantes sobre la distribucion t de Student:

→ La forma de la distribucion t de Student es bastante parecida a la de la distribucion
normal estándar: ambas son simétricas y con forma de campana, con la media y la
mediana iguales a cero.
𝑁(0; 1)
-3 -2 -1 0 1 2 3
Distribucion normal estándar
Distribucion t de Student para un tamaño de muestra 𝑛 = 15
Distribucion t de Student para un tamaño de muestra 𝑛 = 5
→ Se puede observar que la función de densidad de la distribucion t de Student tiene

una dispersión mayor (reflejada en una varianza mayor) que la distribucion normal
estándar.
P á g i n a 11 | 17
→ Varianza de la t de Student:
𝜈
𝜈>2
𝜈−2
𝜈: Grados de libertad (letra griega “nu”) A medida sean mayor los grados de libertad la
varianza tendera a 1.
Recordando que la varianza de una
distribucion normal estándar es 1 esto
podemos verlo gráficamente cuando la
campana de la distribucion t se va acercando
cada vez más a la campana de la distribucion
normal estándar.
→ Los grados de libertad 𝑛 − 1, están relacionados directamente con el tamaño de la

muestra 𝑛. A medida que el tamaño de la muestra y los grados de libertad aumentan
la distribucion t de Student se va a aproximar cada vez más a la distribucion normal
estandarizada (pero siempre va a estar por debajo), es decir, la distribucion t
converge hacia 𝑁(0; 1).
↑𝐾→𝑡≅𝑍
→ La dispersión mayor de la t de Student se debe a la incertidumbre adicional provocada

por la sustitución del desvío estándar poblacional conocido por su estimación
muestral.
→ La distribucion t de Student está ubicada en el mismo eje de abscisas que una

distribucion normal estándar, es decir, los valores de z y t son comparables.
P á g i n a 12 | 17
ERROR DE
ESTIMACION
Si conozco el desvío Si NO conozco el

poblacional desvío poblacional
Entonces el error de estimación El error estándar, y por lo tanto el

va a ser siempre el mismo, por error de estimación, va a cambiar
lo tanto, los intervalos de muestra a muestra, a menos que
confianza van a ser iguales en las muestras tengan valores
todas las muestras, del mismo iguales.
tamaño, extraídas de la misma Además, estos intervalos, en
población promedio, van a tener un
recorrido mayor que aquellos
intervalos generados con un
desvío poblacional conocido.
P á g i n a 13 | 17
Para resumir…
Casos de estimación
Caso 1:
(𝑛) 𝑎
𝑋~𝑁( 𝜇 =? ; 𝜎 = 𝑎) ⇒ 𝑋̅(𝑚𝑘 ) ~𝑁 (𝜇𝑋̅(𝑛) = 𝜇𝑋 ; 𝜎𝑋̅(𝑛) = )
(𝑚𝑘 ) (𝑚𝑘 ) √𝑛
𝑛
→ Si la población es finita y el M.A.S sin reposición de elementos, con 𝑁 > 0,05
Aplico F.C.F (factor de corrección por finitud).
Caso 2:
Si n es chico (por convención(𝑛 < 30)) no podemos
hacer nada, no existen métodos paramétricos.
𝑋~ ? ( 𝜇 =? ; 𝜎 = 𝑎)
Si n es grande (𝑛 ≥ 30) entonces, por el teorema central del

límite podemos decir que:
(𝑛) 𝑎
𝑋̅(𝑚𝑘 ) ≈ 𝑁 (𝜇𝑋̅(𝑛) = 𝜇𝑋 ; 𝜎𝑋̅ (𝑛) = )
(𝑚𝑘 ) (𝑚𝑘 ) √𝑛
𝑛
→ Si la población es finita y el M.A.S sin reposición de elementos, con 𝑁 > 0,05
Aplico F.C.F (factor de corrección por finitud).
Caso 3:
Siempre que la distribucion sea normal el estimador media muestral va a seguir una
distribucion normal, pero en este caso no conocemos el desvío poblacional, cosa que
no significa que no exista.
(𝑛) ?
𝑋~𝑁( 𝜇 =? ; 𝜎 =? ) ⟹ 𝑋̅(𝑚𝑘 ) ≈ 𝑁 (𝜇𝑋̅ (𝑛) = 𝜇𝑋 ; 𝜎𝑋̅ (𝑛) = )
(𝑚𝑘 ) (𝑚𝑘) √𝑛
P á g i n a 14 | 17
Y la estimación de la estandarización de la media muestral sigue una distribucion t de

Student:
𝑋̅ − 𝜇𝑋̅
𝑍′𝑋̅ = ~ 𝑡𝑛−1
𝑆
√𝑛
Se cumple SIEMPRE que no conozca el desvío. Pero cuando el

tamaño de la muestra sea mayor a 30 esta estimación de la
estandarización va a tender a la normal estandarizada, con una
media igual a cero y un desvío tendiendo a 1:
𝑋̅ − 𝜇𝑋̅
𝑍′𝑋̅ = ~ 𝑡𝑛−1 ~ 𝑁(0; 1)
𝑆
√𝑛
Aclaración!
P á g i n a 15 | 17
Intervalos de confianza para diferencia de medias de dos

poblaciones
Teniendo en cuenta que:
→ Conocemos ambos desvíos poblacionales

→ Las poblaciones son independientes entre si
→ 𝑛1 ≥ 30 ∧ 𝑛1 ≥ 30
Si se cumplen esas condiciones,

entonces:
𝜎𝑋2 𝜎𝑌2
𝑋̅ − 𝑌̅ ≈ 𝑁 [𝜇 = (𝜇𝑋̅ − 𝜇𝑌̅ ) ; 𝜎𝑋̅−𝑌̅ =√ + ]
𝑛𝑋 𝑛𝑌
Motivación: Queremos saber la factibilidad respecto a la igualdad de las medias

poblacionales desconocidas.
𝑃𝑎𝑟𝑎𝑚𝑒𝑡𝑟𝑜 𝑎 𝑒𝑠𝑡𝑖𝑚𝑎𝑟: 𝜇𝑋 − 𝜇𝑌
𝐸𝑠𝑡𝑖𝑚𝑎𝑑𝑜𝑟𝑒𝑠 𝑎 𝑢𝑡𝑖𝑙𝑖𝑧𝑎𝑟: 𝑋̅ − 𝑌̅
Ejemplo:
POBLACION POBLACION
X Y
𝝁 =? ; 𝝈 = 𝟑 𝝁 =? 𝝈 = 𝟐
Muestra X No es necesario Muestra Y

1 que los tamaños 1
𝒏𝒙 = 𝟒𝟎 muestrales sean 𝒏𝒀 = 𝟒𝟎
iguales
(𝑛)
(𝑛) 11,3 𝑌̅(𝑚1 )
𝑋̅(𝑚1 ) 12,1
Con Estos datos

calculo la
estimación puntual
P á g i n a 16 | 17
3 2
𝑋̅ − 𝑌̅ ≈ 𝑁 [𝜇 = (𝜇𝑋̅ − 𝜇𝑌̅ ) ; 𝜎𝑋̅−𝑌̅ = √ + ]
40 40
Estimación puntual:
(40) (40)
𝑋̅𝑚1 − 𝑌̅𝑚1 = 12,1 − 11,3 = 0,8
Construcción del intervalo de confianza :

𝛼 = 0,05
𝐼𝐶 = 𝐸𝑃 ± 𝐸𝐸
13
𝐼𝐶 = 0,8 ± 1,96 × √
40
𝐼𝐶95% 𝑚1 ∈ (−0,31 ; 1,91)
¿Por qué el error estándar de las diferencias de las medias es la raíz

cuadrada de la suma de las varianzas dividido n?
Como son poblaciones independientes son variables aleatorias independientes,
entonces:
𝑉𝐴𝑅 (𝑋 − 𝑌) = 𝑉𝐴𝑅(𝑋) + 𝑉𝐴𝑅(𝑌) − 2𝐶𝑂𝑉(𝑋; 𝑌)
0
2
𝜎𝑋−𝑌 = 𝜎𝑋2 + 𝜎𝑌2
Como quiero conocer el desvío del estadístico media muestral si realizamos el paso a
paso nos queda:
𝜎𝑋2 𝜎𝑌2 𝜎𝑋2 𝜎𝑌2

𝜎𝑋2̅ −𝑌̅ = + ⇒ 𝜎𝑋̅−𝑌̅ = √ +
𝑛𝑋 𝑛𝑌 𝑛𝑋 𝑛𝑌
Si no conociéramos el desvío poblacional 𝜎𝑋2 y 𝜎𝑌2

serian reemplazados por sus respectivas estimaciones (S)
Este paso a paso puede ser entendido mejor complementándolo con el anexo sobre
variables aleatorias.
P á g i n a 17 | 17

1.capitulo 1 A 9

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

1.capitulo 1 A 9

Cargado por

Copyright:

Formatos disponibles

Capítulo 1 Conceptos básicos

DATO INFORMACION DECISION

Una variable puede ser cualitativa o cuantitativa:

➢ Variables cualitativas medibles en escala nominal: Cuando los datos cualitativos

➢ Variables cualitativas medibles en escala ordinal: Cuando los datos cualitativos

➢ Variables cuantitativas medibles en escala de intervalo: Cuando los datos

➢ Variables cuantitativas medibles en escala de razón: Cuando los datos provienen

Las propiedades de las escalas de medición mencionadas son acumulativas; es

Escala nominal Etiqueta datos.

Experimento Acción de investigar un fenómeno

Cuando aplicamos estadística inferencial, las

Ex ante No modifico el experimento o lo modifico antes de tener los datos. Ejemplo:

#Ω Cardinal del espacio de variabilidad. (Cantidad de elementos que tiene el espacio

¿Qué hace una distribución de frecuencia?

¿Qué debemos tener en cuenta a la hora de realizar distribución

- Tamaño de la muestra o de la población: Debido a que si sus tamaños son

PUNTUALES Variables cualitativas

ACLARACION: En el caso de que se esté trabajando con

TIPOS DE DISTRIBUCIONES DE FRECUENCIA

Se obtiene multiplicando la proporción (frecuencia relativa) en cada clase por 100%.

Frecuencia Absoluta o Porcentual Acumulada:

Es la cantidad de veces que se repite una frecuencia absoluta, o porcentual, simple

Ejemplo aplicando todas las frecuencias:

Con la información de los “datos de notas” podemos armar la distribución de

XI fi fri fri x 100% Fi

En estadística son valores numéricos que representan una característica determinada

MEDIDAS DE TENDENCIA Estas medidas indican como se

Indican de qué manera se diseminan los

Indican que tipo de concentración (sesgada o

Medidas de Tendencia Central

1. Modo o Moda (Mo): Indica el valor al que le corresponde la

Algunas consideraciones importantes:

 A la moda no le interesa cuantas veces se repite el valor que más se repite.

2.1. La Mediana (Me): Es el valor que separa el 50% inferior de los

Ejemplo: Se realiza una encuesta en la que se debe

Algunas consideraciones importantes:

2.2. La Mediana con Variables Numéricas: Es aquella posición,

En la posición 5 tengo 4 datos para un lado y

Mediana: 3 Posición Mediana: 5

Algunas consideraciones importantes:

3.1. La Media Aritmética: La media aritmética (generalmente

La media es el centro de gravedad

Algunas consideraciones importantes:

Media aritmética poblacional: µx

Media Aritmética Muestral para datos desagrupados:

∑ Suma i=1 desde la primer observación xi observación i-esima

Media Aritmética poblacional para datos agrupados: Referencias:

Me indica que estoy

𝑋̅ = ∑ 𝑥𝑖 × 𝑓𝑖 = ∑ 𝑥𝑖 × 𝑓𝑟𝑖 Me indica que estoy

3.2. Media Resumida: Se utiliza con datos continuos. Se calcula como

Recordatorio: No existe la exactitud en los datos continuos, entonces,

Miks M i-esima k superior Es la clase superior del intervalo.

Miki M i-esima k inferior Es la clase inferior del intervalo.

Así calculo las Marcas

A partir de esa media resumida generalizamos a una cantidad infinita de

La integral nos indica eso. La diferencia

fri Frecuencia Relativa Simple.

Si trazamos una línea que pase

Para solucionar ese problema,

Es una medida de posición ya que no toma en cuenta los valores de la variable

-Cuartil 1 (Q1) Es el valor de variable hasta el cual se acumula la primer cuarta

-Cuartil 4 (Q4) Es el valor de variable hasta el cual se acumula el total de las

También hay otras medidas de posición como los deciles (que