Documentos de Académico
Documentos de Profesional
Documentos de Cultura
INTRODUCCION
Estadística
Es una disciplina tecnológica que engloba varias herramientas (mayormente
matemáticas) para la toma de decisiones a partir de información generada a través de
datos.
A esta disciplina podemos dividirla en dos ramas: la Estadística descriptiva por un lado,
y la Estadística inferencial por el otro.
Ejemplo: Un profesor de historia calcula la calificación promedio de uno de sus grupos.
Como la estadística describe el desempeño del grupo pero no hace ninguna
generalización acerca de los diferentes grupos podemos decir que el profesor está
utilizando estadística descriptiva. Los gráficos, tablas y diagramas que muestran los
datos de manera más clara y elocuente son ejemplos de estadística descriptiva. Ahora
bien, si el profesor decide utilizar el promedio de calificación obtenido por uno de sus
grupos en una unidad para estimar la calificación promedio del grupo en las 10 unidades
del curso, se trataría de estimación concerniente a la estadística inferencial. Cualquier
conclusión a la que llegue sobre el grupo de las 10 unidades estará basada en una
generalización que va más allá de los datos en la unidad evaluada, y esta puede ser no
completamente valida, de modo que el profesor debe establecer que probabilidad hay
de que sea cierta.
Dato
Son los valores asociados con un rasgo o con una propiedad que sirven para distinguir la
ocurrencia de algo. Un valor se convierte en un dato siempre y cuando yo lo relacione
con la variable que estoy estudiando, es decir, siempre y cuando lo contextualice en el
experimento.
Ejemplo: “Levine” y “Krehbiel” son valores que ayudan a distinguir un autor de un libro
de otro autor. Si la variable de estudio de mi experimento está definida como “Nombres
de autores de libros” estos valores son datos, pero, si en cambio mi experimento es
sobre la edad de los alumnos del curso de estadística de la UBA estos valores, Levine y
Krehbiel, no son datos.
Variable
Es una característica de un objeto o individuo.
Ejemplo: “Levine” y “Krehbiel” son valores para una variable que podría denominarse
nombre o nombre del autor.
Página 1|5
Capítulo 1 Conceptos básicos
Las variables cuantitativas o numéricas son aquellas variables que se expresan mediante
un número, por lo tanto se pueden realizar operaciones matemáticas con ellas. Por
ejemplo: El peso de las vacas de un campo, La estatura de los ciudadanos, El número de
personas que visitan una página web en un día.
A su vez, dependiendo de qué tipo de escala de medición puede utilizarse para la
variable de estudio, podemos clasificar a las variables en:
Página 2|5
Capítulo 1 Conceptos básicos
Observan
Investigadores
fenómenos Todo aquello que se pueda investigar
Variable de
estudio
Conjunto de Unid.
Experimentales (población)
Sujeto físico o mental Unidad
Extraídas de...
sobre el cual se va a Experimental
experimentar. Subconjunto Aleatorio
(Muestra)
RESPUESTA
(Resultado)
Va a ser un Continuo
Numérico
Discreto
VALOR
DATO
ALEATORIO
Ordinal
No
Numérico Nominal
Página 3|5
Capítulo 1 Conceptos básicos
La estadística descriptiva se ubica en la última parte del diseño del experimento y nos brinda
herramientas para recolectar, presentar y resumir datos. Se aplica tanto a la población (censo)
como a la muestra (encuesta muestral).
Población Muestra
Es la colección de toda la
posible información que Es un subconjunto representativo
caracteriza a un fenómeno. seleccionado de una población. Una
Consta de todos los objetos buena muestra es aquella que refleja
o individuos sobre los que el las características esenciales de la
población de la cual se obtuvo. Tales
investigador desea obtener
procesos de muestro conducen a una
conclusiones.
Muestra Aleatoria (al azar)
Espacio de Variabilidad
Es el conjunto de todos los distintos valores que puede tomar la variable, tanto sea
numérica como no numérica. Este espacio de variabilidad lo puedo definir ex post (a
posteriori), o ex ante (a priori), dependiendo de las características físicas del
experimento.
Ex post Una vez que se tienen los valores se modifica el experimento. Ejemplo:
estoy haciendo un experimento en el que veo el color de los autos que pasan. Luego de
ver los autos que pasaron, y de anotar sus respectivos colores, como investigador decido
agrupar los autos que eran azul oscuro y azul claro en una sola categoría; azul. En ese
caso modifique el espacio de variabilidad ex post, realizando una reconfiguración del
experimento.
Página 4|5
Capítulo 1 Conceptos básicos
SIMBOLOGIA
X Variable de estudio (se representa con cualquier letra mayúscula).
xi Observación i-esima (la misma letra con la que definí la variable de estudio pero en
minúscula y un subíndice i).
N Tamaño poblacional.
n Tamaño muestral.
Ω Espacio de variabilidad.
Página 5|5
Capitulo 2 Distribuciones de frecuencia
DISTRIBUCIONES DE FRECUENCIA
Cuando el tamaño muestral (n) o el tamaño poblacional (N) es muy grande, se dificulta
extraer información de la serie de datos no agrupados, denominados datos crudos o
raw data.
Los datos crudos suelen tener habitualmente la unidad experimental y el valor que
toma esa unidad experimental, por ejemplo:
x1 = 10 x8 = 13 x15 = 7 x22 = 11
x2 = 8 x9 = 8 x16 = 7 x23 = 10
x3 = 14 x10 = 12 x17 = 10 x24 = 12
x4 = 13 x11 = 13 x18 = 11 n=24
x5 = 7 x12 = 10 x19 = 11
x6 = 9 x13 = 9 x20 = 9
x7 = 8 x14 = 9 x21 = 7
Para que los datos sean útiles, necesitamos organizar nuestras observaciones de modo
que podamos distinguir patrones y llegar a conclusiones lógicas, es por eso que, en
esos casos (por convención n>20, pero puede variar según la bibliografía), lo
conveniente es realizar un Agrupamiento en distribuciones de frecuencia.
Página 1
Capitulo 2 Distribuciones de frecuencia
DISTRIBUCION
DE FRECUENCIAS
POR
INTERVALOS Variables cuantitativas
discretas TIPO II
DE CLASE
Variables cuantitativas
continuas
Página 2
Capitulo 2 Distribuciones de frecuencia
K=10
∑i=1
f1 + f2 + f3 + f4 + f5 + f6 + f7 + f8 + f9 + f10 = n
Ejemplo:
Un alumno secundario, a lo largo de su ciclo lectivo, se saca en las evaluaciones
diferentes notas: 5, 8, 6, 10, 7, 9, 10, 8, 7.50, 8, 7. Frente a estos valores se puede decir
que la frecuencia absoluta de 8 es 3, debido a que se repite en 3 oportunidades.
El número de veces que aparece un valor se representa con fi, donde el subíndice i
representa cada uno de los valores.
Frecuencia Relativa:
Te da la proporción de la clase respecto al total observado.
La proporción o frecuencia relativa es igual al número de datos en cada clase dividido
entre el número total de datos:
fri = fi
n
Ejemplo: Si existen 80 datos y la frecuencia de cierta clase es de 20, la proporción de
datos en esa clase es: 20/80 = 0,25
Cuando se comparan dos o más grupos, es más útil conocer la proporción o el
porcentaje del total de cada grupo que conocer el conteo de frecuencia de cada uno.
En estos casos se crea una distribución de frecuencia relativa o una distribución
porcentual.
Si los dos o más grupos tienen muestras de tamaños diferentes se debe utilizar una
distribución de frecuencia relativa o una distribución porcentual.
Página 3
Capitulo 2 Distribuciones de frecuencia
Frecuencia Porcentual:
1 4 5 6 8
2 4 5 6 8
#ΩX = 10
2 4 5 7 8
N = 50 3 4 5 7 8
3 4 5 7 8
3 5 5 7 8
4 5 6 7 9
4 5 6 7 9
4 5 6 8 9
4 5 6 8 10
Página 4
Capitulo 2 Distribuciones de frecuencia
Página 5
Capítulo 3 Medidas de Resumen
MEDIDAS DE RESUMEN
MEDIDAS DE RESUMEN
Población Muestra
Aplico un
Parámetro Estimador
O
Estadígrafo
O
Estadístico
Generan
una
Estimación
Parámetro: Es una medida que describe una variable que utiliza datos de una
población
Estadígrafos / Estadísticos / Estimadores: Es una medida que describe una variable
que utiliza datos de una muestra. Los estadígrafos, estadísticos o estimadores son el
algoritmo matemático a partir del cual, al aplicarlo a una muestra, obtengo un valor
que será denominado estimación.
Por ejemplo: El promedio. La acción de sumar todo y dividirlo por la cantidad de
elementos, cuando lo estoy realizando sobre una muestra, es el estimador; y el
resultado que me devolverá ese algoritmo será la estimación. Si calculamos el
promedio sobre la población, tanto el algoritmo matemático como el resultado son el
parámetro. No hay diferencia para la población ya que la población es una, y cuando
Página 1
Capítulo 3 Medidas de Resumen
aplico el parámetro, ejemplo el concepto media poblacional, voy a tener un solo valor.
No hay diferencia entre estimador y estimación.
Estas medidas de resumen, que explican determinada característica, van a tener
distintos nombres dependiendo de lo que expliquen:
MEDIDAS DE POSICION
Estas medidas no toman en cuenta todos los
valores de la variable en estudio sino que
tienen en cuenta la posición de los mismos
Todas esas medidas mencionadas, cuando las aplicamos a muestras, son estimadores, que nos
van a arrojar un valor, ese valor va a ser la estimación.
Página 2
Capítulo 3 Medidas de Resumen
Ejemplo: Realizo una encuesta: ¿Te gusto la clase? SI – NO – NO SE. Lo único que
puedo hacer con ese tipo de encuesta es contar cual dato (si – no – no se) se
repitió más. Es decir, lo único que puedo hacer es calcular la moda. Si la
respuesta “si” fue la que más se repitió, entonces la moda va a ser “si”.
Ejemplo: 1 1 1 2 3 4 5 6 7 n impar
1 1 1 1 2 3 4 5 6 7 n par
Cuando el conjunto o subconjunto es par, tomo esos dos valores, los sumo y los divido por
dos para obtener la mediana.
Para obtener la posición mediana: n + 1 Mediana: 2,5 Posición mediana: 5,5
2
Página 4
Capítulo 3 Medidas de Resumen
𝑁
µx = ∑ 𝑥𝑖 = 𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑁
𝑖=1 𝑁
N
Referencias:
(Letra minúscula)
∑ Suma i=1 desde la primer observación xi observación i-esima
Lo resaltado con rosa me indica que estoy calculando la media de una población.
N Tamaño poblacional.
*En la parte superior del símbolo de suma va la cantidad de sumandos que tengo.
Página 5
Capítulo 3 Medidas de Resumen
𝑛
𝑋̅ = ∑ 𝑥𝑖 = 𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑛
𝑖=1 𝑛
n
Referencias:
Lo resaltado con amarillo me indica que estoy calculando la media de una muestra.
n Tamaño muestral.
K Clases
𝑘 𝑘
µ =∑ 𝑥𝑖 × 𝑓𝑖 = ∑ 𝑥𝑖 × 𝑓𝑟𝑖 fi Frec. Abs. Simple
𝑖=1 𝑖=1
fri frec. Relativa simple
N
Me indica que los datos
están agrupados.
Página 6
Capítulo 3 Medidas de Resumen
𝑀
𝑀𝑖𝑘𝑠 + 𝑀𝑖𝑘𝑖
𝑀𝑒𝑑𝑖𝑎 𝑅𝑒𝑠𝑢𝑚𝑖𝑑𝑎 = ∑ ( ) ∗ 𝑓𝑟𝑖
2
𝑖=1
𝑀𝑖𝑘𝑠+𝑀𝑖𝑘𝑖
Esa suma está siendo dividida por 2 porque supone que
2 todos los datos se concentran el valor medio del
intervalo. Esa suposición es justamente el problema de la
media resumida
Histograma
Página 7
Capítulo 3 Medidas de Resumen
𝑀
𝑀𝑖𝑘𝑠 + 𝑀𝑖𝑘𝑖
∑( ) × 𝑓𝑟𝑖 =
2
𝑖=1
𝐾𝑠𝑢𝑝 𝑀→∞ 100
𝑀𝑖𝑘𝑠 + 𝑀𝑖𝑘𝑖
= ∫ 𝑥𝑖 × 𝑓𝑟𝑖 𝑑𝑥 = ∑ ( ) × 𝑓𝑟𝑖 = ∫ 𝑥𝑖 × 𝑓𝑟𝑖 𝑑𝑥
2
𝐾𝑖𝑛𝑓 𝑖=1 0
Referencias:
Ksup El máximo valor de la distribución: El mayor valor del mayor intervalo.
Kinf El minimo valor de la distribución: El menor valor del menor intervalo.
Xi Valor de la clase: Son las marcas de clase de cada intervalo.
Esa integral definida la realizo con el objetivo de perder cada vez menos
información.
Para perder cada vez menos información o, dicho de otra manera, tener cada
vez más información de cada intercalo, tengo que lograr que estos sean cada vez más
chicos. Podemos tomar infinitos intervalos para eso. Si los intervalos son cada vez más
chicos también lo va a ser la diferencia entre la clase superior y la clase inferior: así nos
vamos acercando a una medida más exacta de resumen.
Página 8
Capítulo 3 Medidas de Resumen
Haciendo los intervalos tan chicos como yo quiera puedo llegar al valor de la variable.
Si hago tender a cero la diferencia que hay entre el límite inferior y el límite superior
del intervalo, el resultado va a ser muy parecido a esos límites.
Por ejemplo:
10,001+10,002 Podemos observar que el
= 10,0015 resultado es muy parecido al
2
límite inferior y superior.
Entonces es por eso que en el límite en donde yo tengo infinitos intervalos, en lugar de
poner las marcas de clase ((Miks + Miki)/2) pongo directamente el valor de la variable;
es decir; puedo asociar a cada marca de clase con el punto en sí.
De esta forma si queremos calcular la media resumida de f(x) (que representa los datos
de nuestra variable en observación) lo podríamos hacer a través del cálculo de áreas
con la siguiente integral:
𝐾𝑠𝑢𝑝
∫ 𝑥𝑖 × 𝑓𝑟𝑖 𝑑𝑥
𝐾𝑖𝑛𝑓
Es f(x)
ACLARACIONES:
-Podemos tomar infinitos intervalos porque la variable es continua, y eso significa que
entre un valor y el otro existen infinitos valores.
-Los limites van a depender del fenómeno que se esté estudiando. Pueden tomar
cualquier valor desde -∞ a +∞
Página 9
Capítulo 3 Medidas de Resumen
Medidas de Posición
1. Los Cuartiles (Q): Representan valores de la variable que dividen
a la distribución en cuartos.
-Cuartil 2 (Q2) Es el valor de variable hasta el cual se acumula las dos cuartas
partes de las observaciones (50%) (Coincide con la mediana).
-Cuartil 3 (Q3) Es el valor de variable hasta el cual se acumula las tres cuartas
partes de las observaciones (75%).
𝑅𝑎𝑛𝑔𝑜 = 𝑄4 − 𝑄0
P á g i n a 10
Capítulo 3 Medidas de Resumen
P á g i n a 11
Capítulo 3 Medidas de Resumen
𝑵𝑿 = 𝟕 𝑵𝒀 = 𝟕
𝑹𝑿 = 𝟏𝟎 𝑹𝒀 = 𝟏𝟎
1. El Rango
Ahora voy a calcular distintos tipos de promedio para mensurar la variabilidad dentro
de la distribución y no solo ver qué pasa con las puntas.
P á g i n a 12
Capítulo 3 Medidas de Resumen
(𝒙𝒊 − 𝝁𝑿 ) 15 – 20 = -5 (𝒚𝒊 − 𝝁𝒀 ) 15 – 20 = -5
18 – 20 = -2 19 – 20 = -1
20 – 20 = 0 19 – 20 = -1
20 – 20 = 0 20 – 20 = 0
20 – 20 = 0 21 – 20 = 1
22 – 20 = 2 21 – 20 = 1
25 – 20 = 5 25 – 20 = 5
(−𝟓) + (−𝟐) + 𝟎 + 𝟎 + 𝟎 + 𝟐 + 𝟓
𝑬(𝒙𝒊 − 𝝁𝑿 ) = = 𝟎
𝟕
La media es el valor que compensa las dispersiones menores a ese valor con las
dispersiones mayores a ese valor. Por eso siempre va a dar cero, razón por la cual esta
medida no me sirve como medida promedio de variabilidad.
Como el problema es que tengo valores negativos y positivos que se compensan y por
eso me da cero, para solucionar ese problema voy a aplicar el modulo.
|𝒙𝒊 − 𝝁𝑿 | l 15 – 20 l = 5 |𝒚𝒊 − 𝝁𝒀 | l 15 – 20 l = 5
l 18 – 20 l = 2 l 19 – 20 l = 1
l 20 – 20 l = 0 l 19 – 20 l = 1
l 20 – 20 l = 0 l 20 – 20 l = 0
l 20 – 20 l = 0 l 21 – 20 l = 1
l 22 – 20 l = 2 l 21 – 20 l = 1
l 25 – 20 l = 5 l 25 – 20 l = 5
P á g i n a 13
Capítulo 3 Medidas de Resumen
𝟓+𝟐+𝟎+𝟎+𝟎+𝟐+𝟓 𝟓+𝟏+𝟏+𝟎+𝟏+𝟏+𝟓
𝑬|𝒙𝒊 − 𝝁𝑿 | = = 𝟐 |𝑬(𝒚𝒊 − 𝝁𝒀 )| = = 𝟐
𝟕 𝟕
Este problema surge a veces: cuando calculo la esperanza de los valores absolutos de las
diferencias de las observaciones con respecto a la media puede pasar que siendo distintas
distribuciones me den iguales. Entonces, esta medida tampoco me sirve, porque no me
garantiza que siempre que sean diferentes las distribuciones esta medida me dé diferente
también.
Esto ocurre porque no castiga a las variabilidades más grandes: para que no valga lo mismo
una variabilidad de dos que dos variabilidades de uno. Por eso, para solucionar este problema,
voy a elevar al cuadrado las diferencias entre las observaciones y el valor medio.
NOTA:
P á g i n a 14
Capítulo 3 Medidas de Resumen
𝑛 𝑛
𝑁 (𝑥𝑖 − 𝑋̅)2 𝑁 (𝑥𝑖 − 𝑋̅)2
𝑉𝐴𝑅(𝑋) = 𝑆 2
𝑋 = 𝐸(𝑥𝑖 − 𝑋̅)2 = ∑ × =∑
𝑛−1 𝑁 𝑛−1 𝑛−1
𝑖=1 𝑖=1
Hay medidas en las que utilizo más de un estimador para reemplazar a más de un parámetro.
En ese caso por cada estimador que uso pierdo un grado de libertad.
P á g i n a 15
Capítulo 3 Medidas de Resumen
𝐾 +∞
Media resumida
que calcule
utilizando la
La marca de clase integral
𝑀𝑖𝑘𝑠 + 𝑀𝑖𝑘𝑖
2
Va a ser el valor de la
variable continua cuando
tengo infinitos intervalos.
P á g i n a 16
Capítulo 3 Medidas de Resumen
Problema de la varianza:
Su gran problema es que esta expresada en medidas cuadráticas, por lo tanto, no
puedo compararla con otras unidades de medida como la media, ya que se encuentran
en distintas dimensiones. Ejemplo: No puedo comparar un metro cuadrático con un
metro lineal. De la misma forma la varianza esta en unidades cuadráticas
(pertenecientes al espacio bidimensional) mientras que la media está en unidades
lineales (pertenecientes al espacio unidimensional).
𝐾
2
𝜎𝑥 = √∑(𝑥𝑖 − 𝜇𝑋 ) × 𝑓𝑟(𝑥𝑖 )
𝑖=1
𝝈𝒙
𝒑𝒐𝒃𝒍𝒂𝒄𝒊𝒐𝒏𝒂𝒍 → 𝑪𝑽 =
𝝁𝒙
𝑺𝒙
𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒍 → 𝑪𝑽 =
̅
𝒙
Ejemplo: Tengo una distribución que tiene un desvío igual a 3 años y una media igual a
1 año. Por otro lado tengo otra distribución que tiene un desvío igual a 12 meses y una
media igual a 6 meses.
𝜎𝑥 = 3 𝑎ñ𝑜𝑠 ∧ 𝜇𝑥 = 1 𝑎ñ𝑜 → 𝐶𝑉 = 3
𝜎𝑦 = 12 𝑚𝑒𝑠𝑒𝑠 ∧ 𝜇𝑦 = 6 𝑚𝑒𝑠𝑒𝑠 → 𝐶𝑉 = 2
Esos valores no usan una unidad de medida de dimensión, entonces los puedo
comparar: 3 tiene mayor variabilidad relativa con respecto a la media.
P á g i n a 17
Capítulo 3 Medidas de Resumen
Momentos Estadísticos
Pueden utilizarse tanto para datos discretos como para datos continuos.
Para variables
discretas de orden K Centrales o Centrados
𝑁 𝑁
𝑋𝑖 𝑘 𝑋𝑖
∑ → ∑
𝑁 𝑁
𝑖=1 𝑖=1
Momento absoluto de
orden 1 es la media
(poblacional en este
caso)
Momentos Centrales:
𝑵 𝑵
(𝒙𝒊 − 𝝁𝒙 )𝑲 (𝒙𝒊 − 𝝁𝒙 )𝟐
∑ → ∑
𝑵 𝑵
𝒊=𝟏 𝒊=𝟏
Momento central de
𝑵 orden 2 es la varianza.
(𝒙𝒊 − 𝝁𝒙 )𝟏 SIEMPRE
∑ =𝟎
𝑵
𝒊=𝟏
P á g i n a 18
Capítulo 3 Medidas de Resumen
Medidas de Forma
1. Simetría: Coeficiente de asimetría de Fisher.
En una distribución simétrica los valores que están por debajo de la media se
distribuyen exactamente de la misma forma que los valores que están por arriba de
esta. Así los valores altos y bajos se neutralizan.
En una distribución sesgada o asimétrica se produce un desequilibrio entre los valores
altos y los bajos. Los valores no se distribuyen de manera simétrica alrededor de la
media.
Sesgados hacia la izquierda: La mayoría de los valores se encuentran en la parte
superior de la distribución. Estos valores hacen que la media se deslice hacia abajo,
provocando que esta sea menor que la mediana.
Sesgados hacia la derecha: La mayoría de los valores se encuentran en la parte inferior
de la distribución. Estos valores hacen que la media se deslice hacia arriba, provocando
que esta sea mayor que la mediana.
𝑁 𝑁 𝑁
1 (𝑥𝑖 − 𝜇𝑥 )3 1 (𝑥𝑖 − 𝜇𝑥 )3 (𝑥𝑖 − 𝜇𝑥 )3 1 𝑚𝑐 (3)
𝐴𝐹 = ∑ ⟹ 𝐴 𝐹 = ∑ = ∑ × =
𝑁 𝜎3 𝑁 𝜎3 𝑁 𝜎3 𝜎3
𝑖=1 𝑖=1 𝑖=1
La asimetría de Fisher
es un promedio de Momento Centrado
comparaciones con de Orden 3 dividido el
respecto a la media desvío al cubo
P á g i n a 19
elevado al cubo.
Capítulo 3 Medidas de Resumen
𝑁
(𝑥𝑖 − 𝜇𝑥 )4 1 𝑚𝑐 (4)
𝐶=∑ × 4=
𝑁 𝜎 𝜎4
𝑖=1
Momento Centrado de
Orden 4 dividido el desvío
a la cuarta (curtosis
poblacional)
𝑛
(𝑥𝑖 − 𝑥̅ )4 1 𝑚𝑐 (4)
𝐶=∑ × 4=
𝑛 𝑠 𝑆4
𝑖=1
Momento Centrado de
Orden 4 dividido el desvío
a la cuarta (curtosis
muestral)
P á g i n a 20
Capítulo 4 Probabilidad
PROBABILIDAD
Estadística Probabilidad
Ejemplo: Tiro un dado 60 veces. No siempre va a pasar que vaya a caer 10 veces en 1,
10 veces en 2, 10 veces en 3, 10 veces en 4 y así sucesivamente, pero si ese
experimento lo repito infinitas veces y las promedio se va a acercar mucho a que 10
veces haya caído el 1, 10 veces el 2, 10 veces el 3…
A eso lo voy a poder saber después de realizar infinitas veces el experimento (ex-post).
También podemos saber, conociendo las características físicas del dado, que si lo
tiramos infinitas veces 1/6 de las veces va a caer el 1, 1/6 de las veces va a caer el 2, y
así sucesivamente.
Al cálculo probabilístico le interesa el comportamiento que van a tener los
distintos eventos que pertenecen al espacio muestral de una determinada
variable aleatoria.
Página 1
Capítulo 4 Probabilidad
Definición de probabilidad.
La primera definición de probabilidad fue como la posibilidad de ocurrencia de un
evento. El tema fue que esta era una definición recursiva.
Por este motivo posteriormente se la definió a la probabilidad como un número, que
va del cero al uno y que mide el riesgo de ocurrencia. Ese número me indica el grado
de riesgo que existe acerca de la ocurrencia de un suceso o evento, donde el valor cero
indica imposibilidad de ocurrencia y el numero 1 indica absoluta certeza acerca de la
ocurrencia de ese suceso o evento. Ese número va a ser siempre un número Real.
Imposibilidad de ocurrencia → 0
Página 2
Capítulo 4 Probabilidad
Por ejemplo:
Llueve
2 Eventos → 50% Incertidumbre
No llueve Laplaciana.
Pelota roja
4 eventos → 25%
Pelota azul
Incertidumbre
Pelota verde
Laplaciana.
Pelota amarilla
𝐶𝑎𝑠𝑜𝑠 𝐹𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠 𝑛
𝑃(𝐴) = =𝑁
𝐶𝑎𝑠𝑜𝑠 𝑃𝑜𝑠𝑖𝑏𝑙𝑒𝑠
Página 3
Capítulo 4 Probabilidad
Ejemplo:
Un individuo esta por jugar un juego en el que se lanzan dos dados, gana si el resultado
de la suma de los números obtenidos en ambos dados es 7. La cantidad de resultados
posibles es 36 (estos resultados son igualmente probables). Luego deberíamos
determinar la cantidad de resultados favorables al evento “la suma de los dados sea
7”. Esto puede darse de 6 maneras distintas (1 y 6, 2 y 5, 3 y 4, 4 y 3, 3 y 2, 6 y 1). Así la
probabilidad de que el apostador gane está dada por el cociente del número de
favorables resultados al suceso, y el número de resultados posibles.
P(A) = 6/36 = 1/6 = 0,1667
Características de este ejemplo:
- Los 36 posibles resultados son mutuamente excluyentes, debido a que no
puede aparecer más de un par en forma simultánea.
- Loa 36 resultados son igualmente probables.
𝐶𝑎𝑠𝑜𝑠 𝐹𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠
𝑃(𝐴) =
𝐶𝑎𝑠𝑜𝑠 𝑂𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑜𝑠
Ejemplo:
Consideremos un control de calidad de una empresa, en el cual se desea saber la
probabilidad de que un artefacto tenga una vida útil superior a 1200 hs. Para ello el
departamento de control de calidad separa 500 unidades de la producción y mide la
vida útil de cada unidad. Los resultados los observamos en la siguiente tabla:
Página 4
Capítulo 4 Probabilidad
Eventos o Sucesos
Simples Compuestos
Página 5
Capítulo 4 Probabilidad
Nomenclatura:
A, B (letras mayúsculas) → Eventos
Ω ≡ S → Espacio Muestral
P(A) → Probabilidad de ocurrencia del evento A (marginal o simple)
P(A = a) → Probabilidad de que el evento A sea igual al valor a
P(B) → Probabilidad de ocurrencia del evento B (marginal o simple)
P(AՈB) ≡ P(AyB) → Probabilidad de ocurrencia conjunta del evento A y B
P(AՍB) ≡ P(AoB) → Probabilidad de ocurrencia de la unión inclusiva de eventos A y B
P(AՍB) → Probabilidad de ocurrencia de la unión exclusiva de eventos A y B
Página 6
Capítulo 4 Probabilidad
Probabilidad Marginal
La probabilidad marginal es simplemente la probabilidad de ocurrencia de un evento
A, sin pensar en la existencia de otro evento B que suceda de modo simultaneo con A.
Ejemplo: consideremos el lanzamiento de un dado. Podemos definir un evento simple
como A = El resultado sea mayor o igual a dos. La probabilidad marginal de ese evento
será P(A) = 5/6
Diagramas de Venn
Ejemplo 1
Complemento
A1 A3 Complemento de A1 → A’1 = A2 Ս A3 Ս A4
Realice una partición en “espada y no espada”. También
ORO BASTO
podría particionar en oro y no oro si quisiese. Pero
A2 A4 puedo realizar como máximo 4 particiones.
Página 7
Capítulo 4 Probabilidad
Ejemplo 2
Complemento
N (NUMEROS
A = Números impares NATURALES)
Ejemplo 3
Eventos compuestos:
B Si quiero contar la cantidad de
A elementos que tiene A o la cantidad
de elementos que tiene B lo que
tengo que hacer simplemente es
sumar (porque en este caso no hay
ningún elemento de A que sea
también de B).
A = {1 ; 3 ; 5 ; 7 ; 9}
Entonces por más que estén
B = {2 ; 4 ; 6 ; 8}
separados los voy a ver como un
AՍB = {1 ; 2 ; 3 ; 4 ; 5 ; 6 ; 7 ; 8 ; 9} conjunto.
Ejemplo 4
Unión inclusiva:
La unión de dos conjuntos (AUB) está dada
por el conjunto de todos los resultados que
B
pertenecen al evento A, todo lo que A
pertenece a B, y todo lo que pertenece a A y B
Cuando me interesa definir una unión
inclusiva no me interesan los valores
repetidos, entonces los saco del conjunto A o
del conjunto B (En este ejemplo los saque de
Página 8
A).
Capítulo 4 Probabilidad
Múltiplos de 2 A = { 2 , 4 , 6 , 8 , 10 , 12 }
Múltiplos de 3 B = { 3 , 6 , 9 , 12 , 15 }
Ejemplo 5
Unión Exclusiva:
B
En este caso solo nos van a interesar los
A elementos que pertenecen a A o que
pertenecen a B. Aquellos que pertenezcan
a A y a B a la vez no los vamos a
contabilizar.
En nuestro ejemplo nos va a interesar los
AՍB
números múltiplos de 2 o los números
P(AUB) = P(A) + P(B) – 2P(AyB) múltiplos de 3. No cuento los que son
múltiplos de 2 y de 3.
Ejemplo 6
Intersección:
B
La intersección de dos conjuntos (AՈB)
está dada por el conjunto de los resultados
A
que pertenecen tanto a A como a B
simultáneamente.
A = Múltiplos de dos
B = Múltiplos de tres
(AՈB) = (AyB) = { 6 , 12 }
Entonces, la probabilidad conjunta de dos
eventos, A y B, es simplemente la
probabilidad de que ambos sucedan al Página 9
mismo tiempo.
Capítulo 4 Probabilidad
Conclusiones
ΩA = { A1 , A2 , A3 , …. , AK }
1- La cantidad máxima de particiones es igual al valor K. Podría hacer menos
particiones pero no más.
2- ⋁𝑖,𝑗 ∴ 𝑃 (𝐴𝑖 ∩ 𝐴𝑗 ) = 0 Significa: Para todo par de A sub algo, por ejemplo
A1 con A5, A4 con A6, es decir, para toda
A1 A2 A3 A4 comparación de a pares, la probabilidad conjunta
A5 A6 A7 A8 entre cualquier partición A subalgo con cualquier
A9 A10 A11 A12 A subalgo es Nula. No puede haber ningún
Son particiones disjuntas que entre elemento que pueda pertenecer a dos
todas forman el espacio muestral. particiones a la vez. Sino no serían particiones.
Ejemplo: si una carta es par no puede ser impar.
𝐾 𝐾
3- ⋂ 𝐴𝑖 = ⊘ ⇒ 𝐴1 ∩ 𝐴2 ∩ 𝐴3 ∩. . .∩ 𝐴𝑘 = ⊘ ⟹ 𝑃(⋂ 𝐴𝑖 ) = 0
𝑖=1 𝑖=1
La probabilidad de que
haya elementos que Formalizado como una
pertenezcan a más de un probabilidad: la
conjunto es igual a cero. probabilidad de que
ocurran intersecciones.
P á g i n a 10
Capítulo 4 Probabilidad
4- 𝐾 𝐾
Me está diciendo que
⋃ 𝐴𝑖 = Ω𝐴 ⟹ 𝑃 (⋃ 𝐴𝑖 ) = 1 cuando uno todas las
𝑖=1 𝑖=1 particiones obtengo
como resultado el
espacio muestral.
Entonces la probabilidad
de la unión de todas las
particiones va a ser igual
a 1.
P á g i n a 11
Capítulo 4 Probabilidad
𝐴 ⊑ 𝐵 ⟹ 𝑃(𝐴) ≤ 𝑃(𝐵)
𝐴 ⊑ 𝐵 ⟹ 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴)
Probabilidad Condicional
P(A) = 4/12 (Puntos negros)
Pleca
Recordatorio! No es lo mismo:
4 Cuando no hay paréntesis por
(2)
=1 convención es como si estuviera en el
2 numerador, por eso, ¡no olvidar poner
4 los paréntesis en el denominador!
=4
2
(2) P á g i n a 12
Capítulo 4 Probabilidad
Entonces…
𝑃(𝐴𝑦𝐵)
𝑃(𝐴|𝐵) = ⟹ 𝑃(𝐴𝑦𝐵) = 𝑃(𝐵) × 𝑃(𝐴|𝐵)
𝑃(𝐵)
𝑃(𝐵𝑦𝐴)
𝑃(𝐵|𝐴) = ⟹ 𝑃(𝐵𝑦𝐴) = 𝑃(𝐴) × 𝑃(𝐵|𝐴)
𝑃(𝐴)
P á g i n a 13
Capítulo 4 Probabilidad
𝑃(𝐴𝑦𝐵)
𝑃(𝐴|𝐵) = 𝑃(𝐴) = ⟹ 𝑃(𝐴) × 𝑃(𝐵) = 𝑃(𝐴𝑦𝐵)
𝑃(𝐵)
𝑃(𝐵𝑦𝐴)
𝑃(𝐵|𝐴) = 𝑃(𝐵) = ⟹ 𝑃(𝐵) × 𝑃(𝐴) = 𝑃(𝐵𝑦𝐴)
𝑃(𝐴)
Se destaca que la independencia es una relación simétrica entre eventos, esto quiere
decir que si A es independiente de B entonces B es independiente de A.
Regla de la suma
Si A y B son dos eventos mutuamente excluyentes, entonces la unión de ambos
eventos será igual a la suma de los eventos simples:
P(AUB) = P(A) + P(B) – P(AyB)
Entonces…
P(AUB) = P(A) + P(B)
P á g i n a 14
Capítulo 4 Probabilidad
A1
B
BՈA1
A2
Tenemos 2 eventos. A y B.
BՈA2 Vamos a realizar particiones, es decir,
A3 subconjuntos del espacio muestral que
no comparten elementos
BՈA3
A
Particiones:
A1 B’ → Tiene una parte donde no está B
Las partes donde no está B no me interesa analizarlas, solo me interesa donde esta B.
𝐴1 ⟶ 𝐵 ⟶ 𝑃(𝐴1 ) × 𝑃(𝐵|𝐴1 ) = 𝑃(𝐵 ∩ 𝐴1 )
𝐴2 ⟶ 𝐵 ⟶ 𝑃(𝐴2 ) × 𝑃(𝐵|𝐴2 ) = 𝑃(𝐵 ∩ 𝐴2 )
𝐴3 ⟶ 𝐵 ⟶ 𝑃(𝐴3 ) × 𝑃(𝐵|𝐴1 ) = 𝑃(𝐵 ∩ 𝐴3 )
P á g i n a 15
Capítulo 4 Probabilidad
𝑃(𝐵 ∩ 𝐴1 )
𝑃(𝐵|𝐴1 ) =
𝑃(𝐴1 )
𝑃(𝐵 ∩ 𝐴3 )
𝑃(𝐵|𝐴3 ) =
𝑃(𝐴3 )
Así llego al
Si sumo esas tres particiones
voy a obtener la probabilidad Teorema de la
de B. probabilidad total.
La probabilidad marginal o
simple de un evento es la
suma de las probabilidades
conjuntas.
P á g i n a 16
Capítulo 4 Probabilidad
Sumo
multiplicaciones
Cantidad de
particiones
Teorema de Bayes
Ejemplo:
ΩB = { B1 , B2 , B3 }
P(A) = P(AՈB1) + P(AՈB2) + P(AՈB3) =
= P(A|B1) x P(B1) + P(A|B2) x P(B2) + P(A|B3) x P(B3)
3
P á g i n a 17
Capítulo 4 Probabilidad
Probabilidad conjunta
Probabilidad Total
Árbol de Probabilidad
P(B1) x P(B1|A1)
P(B1)
P(A3) P(B1) x P(B1|A3)
P(B2) x P(B2|A3)
P á g i n a 18
Capitulo 5 VA y Funciones
Variables Aleatorias
Una variable aleatoria es una función que le asigna un número real a cada posible
resultado del espacio muestral analizado.
Conjunto de Llegada
o Imagen
Conjunto de partida
o dominio
𝐴∈ℝ
𝑋(𝑊) ∶ Ω𝑊 → 𝐴 El conjunto A está
𝐴⊆ℝ
Variable Aleatoria definido dentro del
Me devuelve conjunto de los
Posible elemento Número Real números reales.
del espacio
Muestral
Página 1
Capitulo 5 VA y Funciones
Función de probabilidad:
• Se da para variables discretas
• Es una composición de funciones. Porque toma como dominio la
imagen de la variable aleatoria (función anterior).
Página 2
Capitulo 5 VA y Funciones
𝑃(Ω) = ∑ 𝑃(𝑋(𝑊) ) = 1
𝑊𝜖Ω
= ∑ 𝑃(𝐴 = 𝑥) = 1
𝑥𝜖A
Imagen de la variable
aleatoria
= ∑ 𝑃(𝑋(𝑤) = 𝑥) = 1
𝑥𝜖A=𝑋(𝑤)
Conjunto formado
por la aplicación de la
variable aleatoria a
todos los elementos
del espacio muestral.
¿Qué nos quiere decir todo esto? La probabilidad de que ocurra cualquier
elemento del espacio muestral es 1. Porque en este caso no me importa cuál es el
elemento que ocurra, solo me importa que ocurra alguno.
Ejemplo:
Se realiza un experimento que consiste en lanzar dos veces una misma moneda.
C: Cara de la moneda.
Puedo saber a priori que al lanzar dos veces la moneda
C’: No cara de la moneda.
ocurrirá alguna de las siguientes opciones:
Ω: { CC ; CC’ ; C’C ; C’C’ } • Sale dos veces la cara
• Sale la cara y luego no cara
• Sale no cara y luego cara
• Sale no cara ambas veces
Página 3
Capitulo 5 VA y Funciones
Página 4
Capitulo 5 VA y Funciones
𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) = ∑ 𝑃(𝑋)
𝑥=0
2
2) 𝑃(𝑎) = 0
Significado de la notación: La
probabilidad de encontrar un
valor exacto es nula.
𝑏
3) 𝑎 ≤ 𝑃(𝑋) ≤ 𝑏 = ∫𝑎 𝑓(𝑥) 𝑑𝑥
Página 5
Capitulo 5 VA y Funciones
𝑎
𝑎 ≤ 𝑃(𝑋) ≤ 𝑎 = ∫ 𝑓(𝑥) 𝑑𝑥 = 𝐹(𝑎) − 𝐹(𝑎) = 0
𝑎
Entre dos puntos hay infinitos puntos, por lo tanto, hay infinitos casos posibles. Si
quiero que el caso favorable sea 1 punto especifico podríamos pensarlo así:
𝐶𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠 1
= =0
𝐶𝑎𝑠𝑜𝑠 𝑃𝑜𝑠𝑖𝑏𝑙𝑒𝑠 ∞
Ejemplo:
Se tiene una variable aleatoria X definida en el intervalo [0,3] cuya función de densidad
𝑥2
es 𝑓 (𝑥 ) =
9
Lo primero que tengo que hacer es chequear que se cumplan las condiciones
anteriormente mencionadas, para verificar de esa forma que efectivamente se trata de
una función de densidad:
3 𝑥2 𝑥3 33 03
2. ∫0 𝑑𝑥 = | 𝑥=3
𝑥=0
= − =1−0=1
9 27 27 27
Página 6
Capitulo 5 VA y Funciones
Funcion de densidad
1,20
1,00
0,80
0,60
0,40
0,20
0,00
0,00 0,25 0,50 0,75 1,00 1,25 1,50 1,75 2,00 2,25 2,50 2,75 3,00
Página 7
Capitulo 5 VA y Funciones
La función de distribución acumulada barre desde el límite inferior del dominio hasta
el límite del valor que yo quiera.
Siempre que evalúe la función de acumulación desde el límite inferior del dominio
hasta el limite superior del dominio el resultado va a ser igual a 1.
Por lo tanto:
Ejemplos:
Siendo X una variable aleatoria continua, quiero averiguar la probabilidad de que x sea
menor o igual a un determinado valor C.
Función de
acumulación
𝐶
𝑃(𝑋 < 𝐶) 𝐹(𝑋) = ∫ 𝑓(𝑥) 𝑑𝑥
−∞
Función de
densidad
Siendo X una variable aleatoria discreta, quiero averiguar la probabilidad de que x sea
menor o igual a 1, siendo cero el limite inferior del dominio.
Página 8
Capitulo 6 Distribuciones de Probabilidad
Introducción
Ahora bien, vamos a tener una función generatriz de momentos para variables
aleatorias continuas y otra para variables aleatorias discretas.
∫ 𝑒 𝑥𝑖×𝑡 × 𝑓 (𝑥 ) 𝑑𝑥
−∞
FGM para Variables aleatorias discretas:
𝑛
∑ 𝑒 𝑥𝑖 ×𝑡 × 𝑃(𝑥𝑖 )
𝑖=1 Valores que puede tomar
la variable aleatoria
¡Recordatorio!
Cuando hablamos de momentos nos referimos a promedios de
cosas y, como lo vimos cuando estudiamos la media aritmética, los
promedios pueden calcularse de dos formas distintas: trabajando
con los datos de manera agrupada o de manera desagrupada.
Cuando trabajábamos los datos de manera agrupada
multiplicábamos a cada clase con su frecuencia relativa simple y es
justamente eso lo que estamos haciendo en esta sumatoria, solo
que en lugar de trabajar con frecuencias relativas trabajamos con
probabilidades de ocurrencia (la probabilidad de que ocurra cada
Volviendo al ejemplo de las monedas visto en el capitulo anterior:
valor que puede tomar la variable aleatoria).
Página 1
Capitulo 6 Distribuciones de Probabilidad
xi P(xi)
0 0.25
1 0.50
2 0.25 2
∑ 𝑒 𝑥×𝑡 × 𝑃(𝑥𝑖 )
𝑖=0
= 𝑒 0×𝑡 × 𝑃(0) + 𝑒1×𝑡 × 𝑃(1)
+ 𝑒 2×𝑡 × 𝑃(2)
𝑒 0𝑡 × 0,25 + 𝑒1𝑡 × 0,50 + 𝑒 2𝑡 × 0,25
Todo número
elevado a la 0 es
igual a 1
𝜕 ′ 𝜃𝑥 (𝑡) .
𝑀1 = |𝑡 = 0
𝜕𝑡
¡Recordatorio!
Entonces..
Página 2
µx = E(x) = M1
Capitulo 6 Distribuciones de Probabilidad
Siguiendo esta misma lógica, para calcular el momento absoluto de orden 2 voy a
tener que hacer la segunda derivada de t cuando t es igual a cero.
𝜕′′ 𝜃𝑥 (𝑡) .
𝑀2 = |𝑡 = 0
𝜕𝑡
𝑁
Varianza para datos
𝑉𝐴𝑅(𝑋) = ∑(𝑥𝑖 − 𝜇𝑋 )2 × 𝑓𝑟(𝑥𝑖 ) desagrupados.
𝑖=1
Vamos a realizar todo un desarrollo sobre la varianza para datos desagrupados, pero
con la diferencia de que, como dijimos, estamos trabajando con probabilidades,
entonces en lugar de multiplicar las observaciones con respecto a la media al cuadrado
por la frecuencia relativa simple, las multiplicaremos por su probabilidad de ocurrencia:
𝑁
Partiendo de acá vamos a descomponer el binomio al cuadrado (lo resaltado con gris),
entonces:
Binomio al cuadrado:
(𝑎 + 𝑏)2 = 𝑎2 + 2𝑎𝑏 + 𝑏2
(𝑎 − 𝑏)2 = 𝑎2 − 2𝑎𝑏 + 𝑏2
Página 3
Capitulo 6 Distribuciones de Probabilidad
Ahora vamos a realizar distributiva para poder separar los términos en distintos
sumandos:
Lo que tenemos en
∑ 𝑥 2 𝑝(𝑥)
este primer termino es
un momento absoluto
de orden 2.
Recordemos que un momento absoluto de orden K lo M2
podíamos expresar de la siguiente manera:
𝑁 Que es lo mismo que multiplicar a cada
𝑋𝑖 𝑘 observación por su frecuencia relativa
∑
𝑁 simple (en este caso su probabilidad de
𝑖=1
ocurrencia)
Tanto 2 como µx
∑ 2𝑥𝜇𝑥 𝑝(𝑥 ) = son constantes que
las vamos a sacar
por fuera de la
sumatoria.
2𝜇𝑥 ∑ 𝒙𝒑(𝒙) = 2𝜇𝑥 𝝁𝒙 = 2𝝁𝒙 𝟐
Página 4
Capitulo 6 Distribuciones de Probabilidad
En un principio volvemos
∑ 𝜇𝑥 2 𝑝(𝑥 ) =
a repetir el mismo paso
sacando la constante
(µx) por fuera de la
sumatoria
𝜇𝑥 2 ∑ 𝑝 (𝑥 ) = 𝜇𝑥 2 𝑴𝟏 𝟐
Momento
Por la ley de cierre Absoluto
sabemos que la suma de orden 1
de las probabilidades al
es igual a 1 cuadrado
𝑉𝐴𝑅(𝑋) = 𝑀2 − 2𝑀1 2 + 𝑀1 2
𝑉𝐴𝑅(𝑋) = 𝑀2 − 𝑀1 2
Conclusiones:
• 𝐸 (𝑋) = 𝜇𝑋 = 𝑀1
• 𝑉𝐴𝑅 (𝑋) = 𝜎 2 = 𝐸 (𝑥 2 ) − [𝐸 (𝑥 )]2 = 𝑀2 − 𝑀12
Página 5
Capitulo 6 Distribuciones de Probabilidad
Distribución de Bernoulli
Experimento de Bernoulli
El experimento de Bernoulli se trata de un experimento dicotómico, es decir, de un
experimento que tiene dos posibles resultados: Éxito o No éxito (Fracaso).
Por ejemplo: Se realiza el experimento de lanzar un dado de colores. Si al tirar el dado
la cara superior que sale es la cara azul entonces lo consideraremos un éxito pero, si por
lo contrario, sale cualquier otra cara que no sea la azul, lo consideraremos un fracaso.
Cara superior
azul: Éxito
P = Probabilidad de éxito.
Q = (1-P) = Probabilidad de fracaso.
W = {Azul, rojo, amarillo, violeta, verde,
blanco}
Éxito → Azul → P = 1/6
P + (1-P) = 1
Página 6
Capitulo 6 Distribuciones de Probabilidad
X(Éxito) = 1 → P( x = 1 ) = P
X(Fracaso) = 0 → P( x = 0) = 1 – P = Q
Para comprobar esto matemáticamente presentaremos a la función de Bernoulli y la
evaluaremos en 0 y 1.
función de Bernoulli:
𝑃(𝑋) = 𝑃 𝑥 (1 − 𝑃)1−𝑥
Evaluamos la función de Bernoulli en x = 0 y en x = 1
𝑃(0) = 𝑃0 (1 − 𝑃)1−0 = 1(1 − 𝑃) = 1 − 𝑃 = 𝑃 (𝑥 = 0)
𝑃(1) = 𝑃1 (1 − 𝑃)1−1 = 𝑃1 = 𝑃 = 𝑃(𝑥 = 1)
Tal y como dijimos antes:
𝑃 + (1 − 𝑃 ) = 1
Ahora, utilizando la función generatriz de momentos vista anteriormente, vamos a
calcular la esperanza y la varianza de Bernoulli.
𝜃𝑋 (𝑡) = 𝐸 (𝑒 𝑥𝑡 )
La distribución de Bernoulli es una distribución de probabilidad discreta, por lo tanto
la esperanza de “e” la calcularemos de la siguiente manera:
1
Página 7
Capitulo 6 Distribuciones de Probabilidad
Una vez obtenida la función generatriz de momentos para una variable aleatoria
Bernoulli la derivamos para poder encontrar la media y la varianza:
𝜕 𝑘 𝜃𝑥 (𝑡) .
𝑀𝐾 = |𝑡 = 0
𝜕𝑡
𝜕 ′ (1 − 𝑃) + 𝑒 𝑡 𝑃 .
𝑀1 = = 0 + 𝑒 𝑡 𝑃 |𝑡 = 0
𝜕𝑡
Me indica que Resultado de
derivamos en derivar
función de t
Explicación de la derivada:
Por empezar tenemos una multiplicación entre una constante (P) y una función (𝑒 𝑡 ),
por lo tanto, por regla de derivación, el resultado de derivar eso será la constante por la
función derivada. Ahora bien, sabemos que la derivada de 𝑒 𝑡 es 𝑒 𝑡 pero acá le dejamos
el paso a paso:
𝑓 (𝑥 ) = 𝑒 𝑥
ln 𝑓(𝑥 ) = 𝑥 lne
ln 𝑓 (𝑥 ) = 𝑥
(ln 𝑓 (𝑥))′ = 𝑥′
1
𝑓′(𝑥) = 1
𝑓 (𝑥 )
𝑓 ′ (𝑥 ) = 𝑓(𝑥)
𝑓 ′ (𝑥 ) = 𝑒 𝑥
Página 8
Capitulo 6 Distribuciones de Probabilidad
.
𝑒 𝑡 𝑃 |𝑡 = 0
Evaluamos la derivada en t=0 y obtenemos que
𝑒 0𝑃 = 𝑃
𝜕 ′ ′(1 − 𝑃) + 𝑒 𝑡 𝑃
𝑀2 = =
𝜕𝑡
𝜕[(𝜕1 − 𝑃) + 𝑒 𝑡 𝑃]
𝑀2 = =
𝜕𝑡
𝜕𝑒 𝑡 𝑃 .
𝑀2 = = 𝑒 𝑡 𝑃|𝑡 = 0 = 𝑃
𝜕𝑡
𝐸(𝑋 → 𝐵𝑒(𝑃 )) = 𝑀1 = 𝑃
Significa: La Esperanza de la variable
aleatoria X que sigue una distribución
de Bernoulli
No debemos confundir:
𝑃(𝑥𝑖 ) ≠ 𝑃𝑥𝑖 × (1 − 𝑃)1−𝑥𝑖
Probabilidad
Probabilidad de que la variable de éxito de la
tome determinado valor distribución de
Bernoulli
Página 9
Capitulo 6 Distribuciones de Probabilidad
Conclusiones:
Una primera diferencia que vamos a encontrar entre las
distribuciones de probabilidad son los distintos valores que
puede tomar la Variable Aleatoria: Por ejemplo, en la
distribución de Bernoulli solo puede tomar los valores 0 o 1.
Distribución Uniforme
La distribución uniforme presenta equiprobabilidad para todo x 𝜖 A. Es decir, le asigna
la misma probabilidad de ocurrencia a cada elemento resultante de aplicarle la función
variable aleatoria.
𝑋: Ω → 𝐴 ⇒ 𝑋(𝑊𝑖 ) = 𝑥
Distribución Binomial
Para poder explicar la distribución binomial primero vamos a introducir un concepto
denominado Proceso de Bernoulli. Un proceso de Bernoulli es una repetición de n veces
de un experimento de Bernoulli, sin embargo, debe aclararse que no toda repetición de
n veces es un proceso de Bernoulli.
Para que esas repeticiones sean consideradas un proceso de Bernoulli deben cumplir
con ciertas características:
1) Las probabilidades de ocurrencia deben ser independientes una de las otras
2) Las probabilidades de éxito se deben mantener constantes
Si nos detenemos a observar bien ambas condiciones están relacionadas entre si: Si las
variables aleatorias son independientes entre si en consecuencia las probabilidades de
éxito se van a mantener constante, y si las probabilidades de éxito se mantienen
constantes va a ser porque las variables son independientes una de las otras.
Ahora bien, ¿Cuándo puede suceder que se mantengan constantes las probabilidades
de éxito?
1- Cuando N, el tamaño poblacional, es infinito.
O
2- Cuando N es finita pero hay reposición de elementos
O
P á g i n a 10
Capitulo 6 Distribuciones de Probabilidad
Dicho esto, podemos definir a la distribución Binomial como aquella distribución que es
generada por un proceso de Bernoulli.
Ejemplo:
Se lanzan 5 dados.
X es una variable aleatoria que indica con 1 si el resultado de lanzar el dado es 1 o 2 y se
desea saber cual es la probabilidad de que 3 dados caigan en 1 o en 2.
X=3 (Sumo los resultados de las variables aleatorias individuales, de cada dado)
Éxito: En cada dado sale 1 o 2
Fracaso: En cada dado no sale ni 1 ni 2.
n=5
Una forma errónea de resolver esto sería suponer que P × P × P × Q × Q es la única
opción, ya que es una de las 10 posibles combinaciones.
P×P×P×Q×Q
P×P×Q×P×Q
P×P×Q×Q×P
P×Q×P×P×Q
P×Q×Q×P×P 10 Posibles
Q×P×P×P×Q combinacio Por lo tanto, quiero
Q×Q×P×P×P nes para que de fracaso 2 veces
Q×P×Q×P×P que X=3 sabiendo que son 5 las
Quiero que repeticiones
Q×P×P×Q×P
de éxito 3
P×Q×P×Q×P Dos posibles veces
resultados para
tener éxito
Entonces…
2 3 4 5−3
Forma incorrecta de calcularlo: P × P × P × Q × Q = ( ) × ( )
6 6
P á g i n a 11
Capitulo 6 Distribuciones de Probabilidad
P × P × P × Q × Q = 𝑃 𝑋 × 𝑄𝑛−𝑋
2 3 4 5−3
Forma correcta de calcularlo: 10 P × P × P × Q × Q = 10 × (6) × (6)
Formalización:
𝑛
P( X = 3 |n = 5 , P = 1/3 ) = ( 𝑥 ) × 𝑃𝑥 × 𝑄𝑛−𝑥
𝑛!
( ) × 𝑃 𝑥 × 𝑄𝑛−𝑥
( )
𝑥! 𝑛 − 𝑥 !
Así obtengo la cantidad de
posibilidades distintas obtener
Por ejemplo, 3 éxitos en 5 repeticiones
5! 120 120
= = = 10
3! × 2! 6 × 2 12
1 3 2 2 1 4 40
10 × ( ) × ( ) = 10 × × =
3 3 27 9 243
P á g i n a 12
Capitulo 6 Distribuciones de Probabilidad
Esperanza:
Variables Aleatorias de Bernoulli
Distribución hipergeométrica
La distribución hipergeométrica es una repetición de n experimentos de Bernoulli. Estos
experimentos van a tener características completamente contrarias a las que requerían
los experimentos realizados en una distribución binomial: se van a realizar sobre una
población finita (N), los elementos se evaluaran sin reposición, y la cantidad de
𝑛
repeticiones sobre la población va a ser mayor a 0,05 𝑁 > 0,05.
Resulta que la primera porción, elegida al azar, fue de chocolate. Como la torta
estaba muy rica decidí volver a realizar este experimento, pero, teniendo en
cuenta que una de las porciones de chocolate ya me la comí en el experimento
anterior, las probabilidades ahora van a ser distintas:
P á g i n a 13
Capitulo 6 Distribuciones de Probabilidad
Formalización:
(𝑁−𝑀
𝑛−𝑥
) × (𝑀
𝑋
)
𝑃 (𝑋 = 𝑥 | 𝑁, 𝑀, 𝑛) =
(𝑁𝑛)
N : Población
Como puede verse en el recuadro, para calcular la probabilidad vamos a utilizar una
construcción de números combinatorios:
𝑆! (𝑁 − 𝑆)!
(𝑥𝑠 )(𝑁−𝑆 ) ×
𝑛−𝑥 𝑥! (𝑆 − 𝑥 )! (𝑛 − 𝑥 )! (𝑁 − 𝑆 − 𝑛 + 𝑥 )!
𝑃 (𝑋 = 𝑥 ) = =
(𝑁
𝑛
) 𝑁!
𝑛! (𝑁 − 𝑛)!
P á g i n a 14
Capitulo 6 Distribuciones de Probabilidad
¡A no entrar en Pánico!
Expliquemos parte por parte lo que esta formula significa:
En un primer lugar podemos diferenciar con dos colores todo lo que sea poblacional
(marcado con rojo) de todo lo que sea muestral (marcado con azul).
Poblacional
(𝑥𝑠 )(𝑁−𝑆
𝑛−𝑥
) Muestral
𝑃 (𝑋 = 𝑥 ) =
(𝑁
𝑛
) Poblacional
Muestral
Por otro lado podemos analizar que es lo que representa cada numero combinatorio,
cada paréntesis: Si tanto a la población como a la
Recordando lo que significa S y x muestra le restamos la cantidad de
podemos observar que acá vamos éxitos lo que nos va a quedar es la
a poner todo lo que sea éxito. cantidad de fracasos. Entonces, acá
vamos a poner todo lo que sea
(𝑥𝑆 )(𝑁−𝑆
𝑛−𝑥
) fracaso.
𝑃 (𝑋 = 𝑥 ) =
(𝑁
𝑛
)
Cantidad de elementos
poblacionales y
muestrales
Lo que hacemos posteriormente es desarrollar matemáticamente esta fórmula, pero
su significado sigue siendo el mismo, analicemos primero el numerador:
𝑆! (𝑁 − 𝑆)!
(𝑥𝑆 )(𝑁−𝑆 ) ×
𝑛−𝑥 𝑥! (𝑆 − 𝑥 )! (𝑛 − 𝑥 )! (𝑁 − 𝑆 − 𝑛 + 𝑥 )!
𝑃 (𝑋 = 𝑥 ) = =
(𝑁
𝑛
) 𝑁!
𝑛! (𝑁 − 𝑛)!
P á g i n a 15
Capitulo 6 Distribuciones de Probabilidad
En cuanto al denominador:
𝑆! (𝑁 − 𝑆)!
(𝑥𝑆 )(𝑁−𝑆 ) ×
𝑛−𝑥 𝑥! (𝑆 − 𝑥 )! (𝑛 − 𝑥 )! (𝑁 − 𝑆 − 𝑛 + 𝑥 )!
𝑃 (𝑋 = 𝑥 ) = =
(𝑁
𝑛
) 𝑁!
𝑛! (𝑁 − 𝑛)!
Aclaración: “éxito” y “fracaso” no deben ser vistos como algo bueno o algo malo, sino
como una simple asignación de la variable aleatoria para poder operar
matemáticamente y aplicarle medidas de resumen a variables que en un principio eran
cualitativas. Es por esto, que si bien intuitivamente podríamos pensar que se le asignaría
“fracaso” a un articulo defectuoso porque es una “mala noticia”, le asignaremos “éxito”
porque a la empresa no le interesa identificar a los artículos no defectuosos, sino a
aquellos que si lo están, para no aceptarlos cuando envían la compra.
Además, el enunciado también me dice que en uno de los envíos de 20 artículos se sabe
que 5 son defectuosos, es decir, que son 5 la cantidad de éxitos conocidos de esa
población de 20.
S=5
P á g i n a 16
Capitulo 6 Distribuciones de Probabilidad
Ahora bien, supongamos que estos artículos del que habla el enunciado son
computadoras. Para realizar el control de calidad esta empresa va a tomar 1 muestra de
6 computadoras al azar de una población de 20 computadoras:
Muestra a
Muestra b
Muestra c
(Las cruces indican las computadoras con defectos que, en realidad no conocemos cuales son)
P á g i n a 17
Capitulo 6 Distribuciones de Probabilidad
P á g i n a 18
Capitulo 6 Distribuciones de Probabilidad
Una vez extraídas y analizadas las 6 computadoras una posible muestra podría ser:
P á g i n a 19
Capitulo 6 Distribuciones de Probabilidad
Muestra
a
Muestra
b
Muestra
c
(𝑥𝑆 )(𝑁−𝑆
𝑛−𝑥
)
𝑃(𝑋 = 𝑥 ) =
(𝑁
𝑛
)
Para que no se verifiquen el resto de las computadoras, la muestra debe tener cero
éxitos (ósea cero artículos defectuosos) o un solo éxito (un solo artículo defectuoso), por
lo tanto necesitamos conocer:
P(X=0)
P(envío aceptado) = P(X=0) + P(X=1)
P(X=1)
Recordando que en nuestro ejemplo S = 5 , N = 20 y n = 6 resolvemos el ejercicio
reemplazando:
5! (20 − 5)!
(𝑥𝑆)(𝑁−𝑆 ) (50)(15 ) ×
𝑛−𝑥 6 0! (5 − 0)! (6 − 0)! (20 − 5 − 6 + 0)!
𝑃 (𝑋 = 𝑥) = = = = 0,129
(𝑁𝑛) (20 ) 20!
6
6! (20 − 6)!
P á g i n a 20
Capitulo 6 Distribuciones de Probabilidad
5! (20 − 5)!
(𝑥𝑆)(𝑁−𝑆 ) (51)(15 ) ×
𝑛−𝑥 61! (5 − 1)! (6 − 1)! (20 − 5 − 6 + 1)!
𝑃 (𝑋 = 𝑥) = = = = 0,387
(𝑁𝑛) 20
(6) 20!
6! (20 − 6)!
Distribución de Poisson
La distribución de Poisson, también denominada la “ley de casos raros”, la utilizaremos
cada vez que se tenga un espacio continuo de tiempo o un cuerpo denso.
Se puede utilizar la distribución de Poisson para determinar la probabilidad de que
ocurra un determinado numero de eventos en dicho lapso de tiempo o en algún punto
de dicho cuerpo denso, como podría ser una superficie. La distribución de Poisson
también son repeticiones de eventos de Bernoulli independientes entre si.
El único parámetro que se necesita determinar en Poisson es el numero promedio de
eventos ocurridos en dicho lapso de tiempo o en la dimensión de dicho cuerpo.
Formalización: ¡Importante!
Si bien Poisson generalmente es utilizado en casos en los que se tiene espacios continuos
de tiempo, un ejemplo en el que aplicáramos Poisson sobre una superficie podría ser
una extensión de cañería muy grande, de la que se quiere conocer cual es la probabilidad
de que se encuentren puntos de fuga.
Varianza y Esperanza de Poisson:
𝐸 (𝑋~𝑃𝑜) = 𝜆
𝑉𝐴𝑅(𝑋~𝑃𝑜) = 𝜆
P á g i n a 21
Capitulo 6 Distribuciones de Probabilidad
Ejemplo:
Un departamento de reparación de maquinaria recibe un promedio de 10 solicitudes de
servicio por hora. ¿Cuál es la probabilidad de que en media hora (seleccionada al azar)
se reciban exactamente 3 solicitudes?
53 × 𝑒 −5 53 × 𝑒 −5 1 1
𝑃(𝑋 = 3 |𝜆 = 5) = = = × 125 × 5 = 0,1404
3! 6 6 𝑒
Distribución Normal
La distribución normal puede ser utilizada con variables aleatorias continuas.
1 −(𝑥−𝜇)2
𝑓 (𝑥 ) = 𝑒 2𝜎2 𝑝𝑎𝑟𝑎 − ∞ < 𝑥 < +∞
√2𝜋𝜎 2
P á g i n a 22
Capitulo 6 Distribuciones de Probabilidad
Formalización:
Si una variable aleatoria sigue una distribucion normal van a
haber dos parametros que van a definir el comportamiento
de esa distribucion:
1) Su media (µ)
2) Su desvió estándar (𝝈)
𝑿~𝑵 ( 𝝁 ; 𝝈 )
Ejemplos:
a Si cambia la media se va a
b generar un desplazamiento
de la distribución.
Este ejemplo se trata de dos
distribuciones distintas, que
tienen el mismo desvío,
pero distinta media.
𝜇𝑎 𝜇𝑏
𝜇𝑎 < 𝜇𝑏 ∧ 𝜎𝑎 = 𝜎𝑏
Si cambia el desvío se
genera un cambio en la
b forma de la distribución.
a Este ejemplo se trata de dos
distribuciones distintas, que
tienen la misma media, pero
distinto desvío.
𝜇𝑎
𝜇𝑏
𝜇𝑎 = 𝜇𝑏 ∧ 𝜎𝑎 > 𝜎𝑏 P á g i n a 23
Capitulo 6 Distribuciones de Probabilidad
• Si el desvío es muy grande voy a tener muy poca acumulación centrada con
respecto a la media, entonces voy a tener que trabajar con intervalos más largos,
más grandes.
• Sin importar el tamaño del desvío, si voy desde el límite inferior del dominio
hasta el límite superior del dominio, siempre acumulo 1.
Para obtener eso voy a tener que integrar la función de densidad vista mas arriba:
1 𝑥−𝜇 2
𝑏 1 − ( )
𝑋~𝑁( 𝜇 ; 𝜎 ) ⇒ 𝑃( 𝑋 ≤ 𝑏 ) = ∫−∞ 𝜎√2𝜋 ×𝑒 2 𝜎 𝑑𝑥
= 𝐹(𝑋 ≤ 𝑏)
Esta va a ser la función de acumulación hasta un determinado valor de x.
La forma de la función de densidad, tal como la vimos, es de una campana, mientras
que la forma de la función de acumulación es la siguiente:
1
Asíntota horizontal en
y = 1 porque nunca
llegas a acumular 1 si la
0,5 función esta evaluada
hasta +∞
𝜇
En la media se acumula siempre el
50% de la distribución
P á g i n a 24
Capitulo 6 Distribuciones de Probabilidad
𝑓(𝑥)
68,3%
𝑥
−∞ 𝜇 𝑥 − 𝜎 𝜇 𝑥 𝜇𝑥 + 𝜎 +∞
Lo que me está indicando el grafico es que siempre entre 𝜇𝑥 − 𝜎 (como limite inferior)
y 𝜇𝑥 + 𝜎 (como límite superior) se va a acumular el 68,3% de la distribución, para
cualquier media y cualquier desvío (siempre y cuando se trate de una distribución
normal).
Por ejemplo:
𝑋~𝑁( 𝜇 = 50 ; 𝜎 = 3 )
53
𝐹 (𝑥 ) = ∫ 𝑓 (𝑥) = 0,683
47
Propiedad de 2 desvíos:
𝑓(𝑥)
95,4%
𝑥
−∞ 𝜇𝑥 − 2𝜎 𝜇𝑥 𝜇𝑥 + 2𝜎 +∞
P á g i n a 25
Capitulo 6 Distribuciones de Probabilidad
Sin importar el valor de la media y del desvío, si sigue una distribución normal, entre la
media y dos desvíos para la izquierda y para la derecha se acumulará el 95,4%
Propiedad de 3 desvíos:
𝑓(𝑥)
99,7%
𝑥
−∞ 𝜇𝑥 − 3𝜎 𝜇𝑥 𝜇𝑥 + 3𝜎 +∞
Por ejemplo:
𝑋~𝑁( 𝜇 = 50 ; 𝜎 = 3 )
59
𝐹 (𝑥 ) = ∫ 𝑓 (𝑥) = 99,7%
41
𝑓(𝑥) 𝑋~𝑁(𝜇 = 50 ; 𝜎 = 3)
𝑃 (𝑋 < 𝑏) = 0,80
𝑏
𝐹(𝑋) = ∫−∞ 𝑓 (𝑥 )𝑑𝑥 = 0,80
80%
𝑥
−∞ 𝜇𝑥 = 50 +∞
b?
P á g i n a 26
Capitulo 7 Estadística Inferencial
Estadística Inferencial
Ejemplo:
“Suponga que un profesor de historia calcula la calificación promedio de uno de sus
grupos. Como la estadística describe el desempeño del grupo, pero no hace ninguna
generalización acerca de los diferentes grupos, podemos decir que el profesor está
utilizando estadística descriptiva (...). Suponga ahora que el profesor de historia
decide utilizar el promedio de calificación obtenido por uno de sus grupos en una
unidad para estimar la calificación promedio del grupo en las diez unidades del curso.
El proceso de estimación de tal promedio sería un problema concerniente a la
estadística inferencial” (Levin, 2004, p4)
P á g i n a 1 | 15
Capitulo 7 Estadística Inferencial
Entonces…
El estadístico solo utiliza los datos que le proporciona la muestra seleccionada y, sin
embargo, las conclusiones que obtiene deben ser validas para toda la población.
Pero ¿Por qué razones podríamos tener desconocimiento de algún parámetro?
Algunas razones podrían ser:
→ Cuestiones económicas (podría ser muy caro poder acceder a la totalidad de la
población)
→ Cuestiones geográficas
→ Cuestiones físicas
→ Cuestiones temporales
En estos, entre otros casos, voy a necesitar utilizar una muestra, es decir, un subconjunto
de elementos de la población. Esta muestra debe ser extraída aleatoriamente utilizando
algún método de muestreo adecuado, de manera que todos los elementos de la
población tengan la misma probabilidad de ser elegidos para formar parte de la muestra:
a la muestra seleccionada de este modo se la denomina muestra aleatoria, y el método
que utilizaremos para obtenerla es el muestreo aleatorio simple.
Las muestras aleatorias disminuyen la posibilidad de que algún grupo de la población
este surepresentado en la muestra.
Ejemplo:
Se desea realizar un control de calidad en una juguetería, específicamente sobre la
resistencia del plástico de determinado modelo de robots para niños. Debido a que
dichas pruebas son destructivas, se decidió extraer una muestra aleatoria simple
compuesta por 5 unidades, de una totalidad de 32 robots
P á g i n a 2 | 15
Capitulo 7 Estadística Inferencial
POBLACION
Realicemos paso por paso lo que Cochran nos planteaba mas arriba:
1 2 3 4 5 6 7 8
9 10 11 12 13 14 15 16
P á g i n a 3 | 15
Capitulo 7 Estadística Inferencial
17 18 19 20 21 22 23 24
25 26 27 28 29 30 31 32
1 2 3 4 5 6 7 8
9 10 11 12 13 14 15 16
17 18 19 20 21 22 23 24
25 26 27 28 29 30 31 32
Como podemos observar, todos los robots tuvieron la misma probabilidad de ser
seleccionados, debido al carácter de aleatoriedad de este método.
Otros tipos de muestreos pueden ser:
𝑁1 = 16 𝑁2 = 16
𝑁1 + 𝑁2 = 𝑁 = 32
P á g i n a 5 | 15
Capitulo 7 Estadística Inferencial
1 2 3 4 5 6 7 8
9 10 11 12 13 14 15 16
17 18 19 20 21 22 23 24
25 26 27 28 29 30 31 32
P á g i n a 6 | 15
Capitulo 7 Estadística Inferencial
→ Las poblaciones de las cuales son extraídas las muestras pueden ser finitas o
infinitas. También existen los casos en que una población finita es considerada
infinita a la hora del análisis de sus respectivas muestras. Esto ocurre cuando una
muestra contiene un número de individuos menor o igual al 5% de los individuos
de la población:
𝑛
≤ 0,05
𝑁
Este supuesto se utiliza solo cuando el muestreo es sin reposición, y la población
es finita. En estos casos las probabilidades de ocurrencia de cada elemento
también se van a mantener constantes.
Volviendo a nuestro ejemplo sobre los robots de juguete, mencionamos que las
pruebas que realizábamos sobre cada uno de ellos eran destructivas, por lo
tanto, luego de extraer un juguete se volvería imposible devolverlo a la
población: realizamos un muestreo aleatorio simple sin reposición, sobre una
población finita de 32 unidades, de las cuales se extraen 5 para la muestra
𝑛
(𝑁 = 0,15 > 0,05).
P á g i n a 7 | 15
Capitulo 7 Estadística Inferencial
𝑚 = 𝑁𝑛
Tamaño muestral
Numero de
muestras Tamaño poblacional
𝑁!
𝑚 =.𝑁 𝑃𝑛 =
(𝑁 − 𝑛)!
Permutación
P á g i n a 8 | 15
Capitulo 7 Estadística Inferencial
𝑁!
𝑚 =.𝑁 𝐶𝑛 =
𝑛! (𝑁 − 𝑛)!
Combinación
Ejemplo:
X : Edad en años cumplidos al día 8/6/20, de la unidad experimental.
𝑁=4 𝑛=2
M.A.S (Muestreo aleatorio simple)
Pepe = 19 𝑃(𝑋 = 19) = 0,25
Pedro = 20 𝑃(𝑋 = 20) = 0,25
Roberta = 22 𝑃(𝑋 = 22) = 0,25
Josefa = 23 𝑃(𝑋 = 23) = 0,25
A fines explicativos supongamos que nunca vamos a tener acceso a esa población de
cuatro personas, sino que solo vamos a tener acceso a una muestra de tamaño dos.
Sobre dicha población, vamos a realizar:
P á g i n a 9 | 15
Capitulo 7 Estadística Inferencial
𝑥1 𝑥2 𝐶𝑅 𝑚 = 16 𝑆𝑅(𝑝) 𝑚 = 12 𝑆𝑅(𝑐) 𝑚 = 6
19 19 (19;19) - -
19 20 (19;20) (19;20) (19;20)
19 22 (19;22) (19;22) (19;22)
19 23 (19;23) (19;23) (19;23)
20 19 (20;19) (20;19) -
20 20 (20;20) - -
20 22 (20;22) (20;22) (20;22)
20 23 (20;23) (20;23) (20;23)
22 19 (22;19) (22;19) -
22 20 (22;20) (22;20) -
22 22 (22;22) - -
22 23 (22;23) (22;23) (22;23)
23 19 (23;19) (23;19) -
23 20 (23;20) (23;20) -
23 22 (23;22) (23;22) -
23 23 (23;23) - -
𝜇𝑥̅ = 𝜇𝑥
2
𝜎𝑥 2 𝜎𝑥̅
𝜎𝑥̅ = ⟹ 𝜎𝑥̅ =
𝑛 √𝑛
Error típico
P á g i n a 10 | 15
Capitulo 7 Estadística Inferencial
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
-2 0 2 4 6 8 10
-0,1
𝝁𝒙̅ = 𝝁𝒙 = 𝟒
Conclusiones:
𝜎𝑋
̅ ~𝑁 (𝜇 = 𝜇𝑋̅ = 𝜇𝑋 ; 𝜎 = 𝜎𝑋̅ = )
→ 𝑆𝑖 𝑋~𝑁(𝜇 = 𝜇𝑋 ; 𝜎 = 𝜎𝑋 ) ⟹ 𝑋
√𝑛
2
𝜎𝑥 2 𝑁 − 𝑛
𝜎𝑥̅ = ( )
𝑛 𝑁−1
Factor de
Corrección por
finitud
𝜎𝑥 2𝑁−𝑛 𝜎𝑥 2 √ 𝑁 − 𝑛 𝜎𝑥 2 √ 𝑁 − 𝑛
𝜎𝑋̅ = √ = √ =
𝑛 𝑁−1 𝑛 𝑁−1 √𝑛 𝑁 − 1
𝑵
̅ − 𝝁𝑿̅ )𝟐
(𝑿
√∑
𝑵𝑿̅ Error típico
𝒊=𝟏
(Corregido por
finitud)
P á g i n a 12 | 15
Capitulo 7 Estadística Inferencial
Tamaño muestral
(𝑛)
𝑋̅𝑚𝑖
Muestra i-esima
Para entender mejor esto podemos volver al ejemplo en el que analizábamos la edad
de una población de cuatro personas, extrayendo muestras de tamaño 2:
22 22 (22;22) - - 22 - -
22 23 (22;23) (22;23) (22;23) 22,5 22,5 22,5
23 19 (23;19) (23;19) - 21 21 -
23 20 (23;20) (23;20) - 21,5 21,5 -
23 22 (23;22) (23;22) - 22,5 22,5 -
23 23 (23;23) - - 23 - -
Una vez que calculamos la media de cada muestra solo nos queda sacar la media de
esas medias, es decir, calcular el promedio de cada una de esas ultimas 3 columnas:
𝑁𝑋
̅ (𝑛) 𝐾
𝑋̅(𝑚𝑖 )
𝜇𝑋̅ (𝑛) = ∑ = ∑ 𝑋̅𝑤 × 𝑓𝑟𝑖 =
𝑚𝑖 𝑁𝑋̅
𝑚=1 𝑤=1
1 2 1 2 4 2 1
= 19 × + 19,5 × + 20 × + 20,5 × + 21 × + 21,5 × + 22 ×
16 16 16 16 16 16 16
2 1
+ 22,5 × + 23 × = 𝟐𝟏
16 16
La media de las medias muestrales de muestras de tamaño 2, extraídas de una
población determinada a través del método de muestreo aleatorio simple, con
reposición de elementos es igual a 21.
Si se realizan los cálculos, se puede comprobar que, en los dos casos restantes, cuando
extraemos las muestras sin reposición de elementos, la media de esas medias
muestrales también es 21.
En la realidad, si estamos realizando estas estimaciones es porque no podemos tener
acceso a la población, pero en este caso vamos a calcular la media poblacional para
comprobar que 𝜇𝑋̅ = 𝜇𝑋
19 + 20 + 22 + 23
𝜇𝑋 = = 𝟐𝟏
4
De esta forma, con este ejemplo sencillo, podemos observar que 𝜇𝑋̅ = 𝜇𝑋 = 21.
P á g i n a 14 | 15
Capitulo 7 Estadística Inferencial
P á g i n a 15 | 15
Capítulo 8 Propiedades de los estimadores
“Debe señalarse desde el principio que no existe ningún único mecanismo para saber
cuál es el «mejor» estimador puntual en todas las circunstancias. Lo que existe es un
conjunto de criterios con los que pueden evaluarse los estimadores”. (Newbold, 2008,
p.296)
Lo que Newbold nos está diciendo, es que para cada parámetro pueden existir varios
estimadores diferentes. En general, se elige el estimador que posea mejores
propiedades que los restantes. ¿Cuáles son esas propiedades? Insesgadez, eficiencia,
suficiencia (o convergencia) y consistencia (o robustez).
Página 1|7
Capítulo 8 Propiedades de los estimadores
Estimador Insesgado
Es muy difícil que la estimación sea igual al parámetro. Se denomina sesgo de un
estimador a la diferencia entre el valor de la estimación y el verdadero valor del
parámetro a estimar.
Para poder visualizar esto, pongamos como ejemplo el juego de “tiro al blanco”:
Insesgado Sesgado
Página 2|7
Capítulo 8 Propiedades de los estimadores
𝜃̂1 𝜃̂2
𝜃 Sesgo 𝐸(𝜃̂ )
𝐸(𝜃̂ ) = 𝜃
Representación gráfica del resultado de aplicarle estimadores distintos (uno insesgado y otro
sesgado) a las mismas muestras, de igual tamaño, extraídas de una misma población.
̂
2
∑(𝑥𝑖 − 𝑋̅)2 Es un estimador sesgado. Porque la
𝜎(𝑎) = esperanza de este estimador es distinta
𝑛 a la varianza.
𝐸(𝜎̂
2
(𝑎) ) ≠ 𝜎
2
Página 3|7
Capítulo 8 Propiedades de los estimadores
̂
2 2
∑(𝑥𝑖 − 𝑋̅)2 Es un estimador insesgado: la esperanza
𝜎(𝑏) = 𝑆𝑥 = de la cuasi varianza es igual a la varianza
𝑛−1 poblacional.
𝐸 (𝜎̂
2
(𝑏) ) = 𝜎
2
Estimador Consistente
Un estimador consistente es un estimador asintóticamente insesgado, es decir, un
estimador cuyo sesgo (la diferencia entre el valor esperado del estimador y el
parámetro) tiende a cero al aumentar el tamaño muestral.
̂
2
∑(𝑥𝑖 − 𝑋̅)2
𝜎(𝑎) =
𝑛
Es un estimador sesgado de la varianza poblacional, pero consistente, ya que al
aumentar el tamaño muestral ese sesgo va a tender a cero, es decir va a tender a ser un
estimador insesgado:
̂
2
∑(𝑥𝑖 − 𝑋̅)2
𝜎(𝑏) =
𝑛−1
Si el tamaño de la muestra (n) es muy grande, el grado de libertad que se le resta es despreciable,
ya que, si le restamos o no ese 1, el resultado será aproximadamente el mismo (casi igual). Por
lo tanto, las dos formas de calcular la estimación serán correctas, se van a parecer cada vez más
y tenderán a ser el valor del parámetro poblacional.
Página 4|7
Capítulo 8 Propiedades de los estimadores
𝜎𝑋2
𝜎𝑋2̅ =
𝑛
A medida aumentamos el
valor de n, al encontrarse en
el denominador va a generar
que el valor resultado de esa
división sea cada vez menor
(𝑉𝐴𝑅 → 0)
Página 5|7
Capítulo 8 Propiedades de los estimadores
Estimador Eficiente
De dos estimadores insesgados, un estimador es mas eficiente o más preciso que otro
estimador si la varianza del primero es menor que la del segundo. En otras palabras, el
estimador más eficiente será aquel cuya distribución este más concentrada en torno al
parámetro que se pretende estimar.
𝑉𝐴𝑅(𝜃̂1 )
𝑉𝐴𝑅(𝜃̂2 )
𝜇𝑋 = 𝜇𝑋̅
𝑉𝐴𝑅(𝑚𝑒𝑑𝑖𝑎𝑛𝑎)
𝐸𝑓𝑖𝑐𝑖𝑒𝑛𝑐𝑖𝑎 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 =
𝑉𝐴𝑅(𝑋̅)
Página 6|7
Capítulo 8 Propiedades de los estimadores
Estimador Suficiente
Un estimador es suficiente cuando no da lugar a perdida de información, es decir, si
utiliza tanta información de la muestra que ningún otro estimador puede extraer
información adicional acerca del parámetro que se esta estimando.
Recordatorio
Página 7|7
Capítulo 9 Intervalos de confianza
(𝑛)
𝑋̅(𝑚𝑖 )
Aplico el estimador puntual
Población Extraigo
Muestra correspondiente, en este
𝑿~𝑵( 𝝁 =? ; 𝝈 = 𝒃) caso lo ejemplificamos con
M.A.S
el estimador media muestral
Intervalo de Confianza
Error de Error de
Estimación Estimación
EE EE
LI EP LS
Límite inferior Estimación Límite Superior
del intervalo Puntual del intervalo
Abarca un (1 − 𝛼 ) × 100%
P á g i n a 1 | 17
Capítulo 9 Intervalos de confianza
𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎 = 𝐸𝑃 ± 𝐸𝐸
Aclaración: Esta regla general va a cambiar
dependiendo de que parámetro queramos
estimar
𝐸𝐸 = |𝑍𝛼×100% | × 𝜎𝑋̅
2
P á g i n a 2 | 17
Capítulo 9 Intervalos de confianza
𝐼𝐶 = 𝐸𝑃 ± |𝑍𝛼×100% | × 𝜎𝑋̅
2
Ahora bien, como dijimos más arriba, desde el límite inferior del intervalo hasta su
límite superior, se abarca un (1 − 𝛼 ) × 100% de la distribución del estimador
𝜎
utilizado, en este caso 𝑋̅~𝑁 (𝜇𝑋̅ = 𝜇𝑋 ; 𝜎𝑋̅ = 𝑋 ). Pero ¿Qué significa esto?..
√𝑛
P á g i n a 3 | 17
Capítulo 9 Intervalos de confianza
𝜇𝑋
Descripción esquemática de intervalos de
confianza al 95%, obtenidos de muestras 𝜇𝑋̅
independientes, extraídas de la misma
población, con un determinado tamaño
Ejemplo:
La fábrica de chocolate “Mirando al cielo” quiere realizar un estudio sobre la cantidad
de almendras en promedio incluidas en la tabletas de 200 gr. Para el experimento se
elige un lote de 10.000 tabletas del cual se extrae una muestra de 40 tabletas. La media
muestral arrojo un resultado de 10 almendras.
Por experiencias anteriores se conoce que la cantidad de almendras incluidas en las
barras de chocolate de 200 gr sigue una distribución normal con un desvío de 1
almendra.
Se pide encontrar el intervalo de confianza (I.C) correspondiente a la muestra obtenida
para un 90% de nivel de confianza
→ Este problema a veces es poco realista, ya que en raras ocasiones se conoce exactamente el
desvío y no la media. Sin embargo, a veces si ocurre que se le hacen tantas muestras a
poblaciones similares que puede suponerse que el desvío se conoce bastante bien por
experiencia.
P á g i n a 5 | 17
Capítulo 9 Intervalos de confianza
𝑋~𝑁( 𝜇𝑋 ; 𝜎𝑋 = 1)
Si no me dijera como se distribuye podría suponerlo por el Teorema Central del Límite.
𝑁 = 10000
(40)
𝑋̅𝑚𝑘 Media de la muestra k-esima de tamaño 40
(40) 𝜎𝑋
𝑋̅𝑚𝑘 ~𝑁 ( 𝜇𝑋̅ (40) = 𝜇𝑋 ; 𝜎𝑋̅ (40) = )
𝑚𝑘 𝑚𝑘 √𝑛
(40) 1
𝑋̅𝑚𝑘 ~𝑁 ( 𝜇𝑋̅ (40) = 𝜇𝑋 ; 𝜎𝑋̅ (40) = )
𝑚𝑘 𝑚𝑘 √40
El enunciado plantea que al extraer la primer muestra su media fue 10, por lo tanto:
(40)
𝑋̅𝑚1 = 10
Como sabemos, un intervalo de confianza tiene dos limites, el inferior y el superior, por
lo tanto, a 𝛼 lo debemos dividir por dos, para representar todo lo que queda por fuera
de los límites de manera simétrica.
𝛼
= 5% = 0,05
2
P á g i n a 6 | 17
Capítulo 9 Intervalos de confianza
𝛼 = 10%
𝛼 𝛼
= 5% = 5%
2 (𝟏 − 𝜶) = 𝟗𝟎% 2
-3 -2 -1,645 -1 0 1 1,645 2 3
Por las tablas sabemos que, en desvíos con respecto a la media, los limites
correspondientes al intervalo que acumula el 90% central de una distribución normal
son -1,645 y 1,645.
A estos dos últimos valores los multiplicaremos por el desvío del estimador media
muestral para transformar esos desvíos con respecto a la media a la unidad de medida
en que se encuentra la variable de estudio.
Como ya contamos con todos los datos necesarios, podemos calcular el intervalo de
confianza:
𝐼𝐶 = 𝐸𝑃 ± |𝑍𝛼×100% | × 𝜎𝑋̅
2
1
𝐼𝐶 = 10 ± |1,645| ×
√40
P á g i n a 7 | 17
Capítulo 9 Intervalos de confianza
𝐸𝐸 = |𝑍𝛼×100% | × 𝜎𝑋̅
2
𝜎𝑋
𝜎𝑋̅ =
√𝑛 Si el tamaño de la muestra
(n) aumenta, se reduce el
Ejemplo: desvío estándar de la
Si 𝑛 = 100 ∧ 𝜎𝑋 = 1 distribución de la media
muestral, y por lo tanto el
1 error de estimación.
𝜎𝑋̅ = = 0,1
√100
Pero si aumento el tamaño de la muestra a 400:
1
𝜎𝑋̅ = = 0,05
√400
P á g i n a 8 | 17
Capítulo 9 Intervalos de confianza
𝑍𝛼 × 𝜎𝑋
2
√𝑛 =
𝐸𝐸
2
𝑍𝛼 × 𝜎𝑋
𝑛 = ⌈( 2 ) ⌉
𝐸𝐸
Si nos ponemos a pensar, esos casos no son muy realistas, ya que para poder conocer el
desvío poblacional deberíamos tener conocimiento de todos los valores de la población
para poder calcularlo, por lo tanto, también podríamos calcular la media poblacional, no
tendríamos la necesidad de utilizar el razonamiento inductivo de la estadística
inferencial.
Es por esta razón, que ahora veremos una nueva distribución, la distribución t de
Student, que nos será útil para realizar estimaciones con intervalos de confianza en los
casos en que desconocemos los dos parámetros: la media y el desvío poblacional.
P á g i n a 9 | 17
Capítulo 9 Intervalos de confianza
Distribución t de Student
Esta distribución surgió cuando Gosset, que trabajaba en una empresa de Irlanda
tratando de elaborar una cerveza a menor costo, se encontró frente a la necesidad de
poder realizar estimaciones sobre la media sin tener conocimiento del desvío, con la
dificultad de que solo podía contar con muestras pequeñas para su estudio.
Gosset logro resolver ese problema justamente desarrollando lo que ahora conocemos
como la distribución t de Student.
𝑺𝒆𝒂𝒏 𝒁𝟏 ; 𝒁𝟐 ; 𝒁𝟑 ; … ; 𝒁𝑲 𝑽. 𝑨. 𝑰 ∨𝒊 𝒁𝒊 ~𝑵 (𝟎; 𝟏)
La variable aleatoria
Ji-cuadrado
K tiene que ser un número
𝑘
natural porque expresa la
2
𝒳𝑔𝑙=𝑘 = ∑ 𝑍𝑖2 cantidad de sumandos
𝑖=1
P á g i n a 10 | 17
Capítulo 9 Intervalos de confianza
2
𝑆𝑒𝑎 𝑍 𝑢𝑛𝑎 𝑉. 𝐴 𝑐𝑜𝑛 𝑍~𝑁(0; 1) ∧ 𝑠𝑒𝑎 ∑ 𝑍𝑖2 ~ 𝒳𝑔𝑙=𝑘
𝑍
𝒯𝐺𝐿=𝐾 =
𝒳2𝑔𝑙=𝑘
√( )
𝑘
𝑆𝑖 𝑘 → ∞ 𝒯𝑔𝑙=𝑘 ≈ 𝑍
𝑁(0; 1)
-3 -2 -1 0 1 2 3
P á g i n a 11 | 17
Capítulo 9 Intervalos de confianza
→ Varianza de la t de Student:
𝜈
𝜈>2
𝜈−2
𝜈: Grados de libertad (letra griega “nu”) A medida sean mayor los grados de libertad la
varianza tendera a 1.
Recordando que la varianza de una
distribucion normal estándar es 1 esto
podemos verlo gráficamente cuando la
campana de la distribucion t se va acercando
cada vez más a la campana de la distribucion
normal estándar.
↑𝐾→𝑡≅𝑍
P á g i n a 12 | 17
Capítulo 9 Intervalos de confianza
ERROR DE
ESTIMACION
P á g i n a 13 | 17
Capítulo 9 Intervalos de confianza
Para resumir…
Casos de estimación
Caso 1:
(𝑛) 𝑎
𝑋~𝑁( 𝜇 =? ; 𝜎 = 𝑎) ⇒ 𝑋̅(𝑚𝑘 ) ~𝑁 (𝜇𝑋̅(𝑛) = 𝜇𝑋 ; 𝜎𝑋̅(𝑛) = )
(𝑚𝑘 ) (𝑚𝑘 ) √𝑛
𝑛
→ Si la población es finita y el M.A.S sin reposición de elementos, con 𝑁 > 0,05
Aplico F.C.F (factor de corrección por finitud).
Caso 2:
Si n es chico (por convención(𝑛 < 30)) no podemos
hacer nada, no existen métodos paramétricos.
𝑋~ ? ( 𝜇 =? ; 𝜎 = 𝑎)
(𝑛) 𝑎
𝑋̅(𝑚𝑘 ) ≈ 𝑁 (𝜇𝑋̅(𝑛) = 𝜇𝑋 ; 𝜎𝑋̅ (𝑛) = )
(𝑚𝑘 ) (𝑚𝑘 ) √𝑛
𝑛
→ Si la población es finita y el M.A.S sin reposición de elementos, con 𝑁 > 0,05
Aplico F.C.F (factor de corrección por finitud).
Caso 3:
Siempre que la distribucion sea normal el estimador media muestral va a seguir una
distribucion normal, pero en este caso no conocemos el desvío poblacional, cosa que
no significa que no exista.
(𝑛) ?
𝑋~𝑁( 𝜇 =? ; 𝜎 =? ) ⟹ 𝑋̅(𝑚𝑘 ) ≈ 𝑁 (𝜇𝑋̅ (𝑛) = 𝜇𝑋 ; 𝜎𝑋̅ (𝑛) = )
(𝑚𝑘 ) (𝑚𝑘) √𝑛
P á g i n a 14 | 17
Capítulo 9 Intervalos de confianza
𝑋̅ − 𝜇𝑋̅
𝑍′𝑋̅ = ~ 𝑡𝑛−1
𝑆
√𝑛
𝑋̅ − 𝜇𝑋̅
𝑍′𝑋̅ = ~ 𝑡𝑛−1 ~ 𝑁(0; 1)
𝑆
√𝑛
Aclaración!
P á g i n a 15 | 17
Capítulo 9 Intervalos de confianza
Ejemplo:
POBLACION POBLACION
X Y
𝝁 =? ; 𝝈 = 𝟑 𝝁 =? 𝝈 = 𝟐
(𝑛)
(𝑛) 11,3 𝑌̅(𝑚1 )
𝑋̅(𝑚1 ) 12,1
3 2
𝑋̅ − 𝑌̅ ≈ 𝑁 [𝜇 = (𝜇𝑋̅ − 𝜇𝑌̅ ) ; 𝜎𝑋̅−𝑌̅ = √ + ]
40 40
Estimación puntual:
(40) (40)
𝑋̅𝑚1 − 𝑌̅𝑚1 = 12,1 − 11,3 = 0,8
13
𝐼𝐶 = 0,8 ± 1,96 × √
40
0
2
𝜎𝑋−𝑌 = 𝜎𝑋2 + 𝜎𝑌2
Como quiero conocer el desvío del estadístico media muestral si realizamos el paso a
paso nos queda:
Este paso a paso puede ser entendido mejor complementándolo con el anexo sobre
variables aleatorias.
P á g i n a 17 | 17