Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introducción 1. La probabilidad
¿Por qué estudiamos probabilidad? ¿Qué es la probabilidad?
Hipotético experimento, basado en una larga
Rama de la matemática distinta de la estadística
secuencia de observaciones repetidas de un
Muy importante por sí misma
fenómeno aleatorio (fenómeno cuyo resultado no se
También es rama auxiliar para la estadística conoce de antemano)
Aquí: sólo nociones muy básicas para ayudarnos a Cada observación: puede tener varios valores
entender estadística inferencial (bloque IV del curso) La probabilidad de un particular resultado (o valor)
es la proporción de las veces que ese resultado
Recordatorio estadística inferencial: de muestras a
poblaciones sucedería en una larga serie de observaciones
repetidas
De estimadores a parámetros La probabilidad de cada valor: la frecuencia relativa
que tendría ese valor en una serie muy larga de
ocurrencias del fenómeno
3 4
1. La probabilidad 1. La probabilidad
Ejemplos de experimentos aleatorios y probabilidades: Otro experimento aleatorio muy importante en
Una larga serie de veces en los que se tira una
estadística: sacar muestras de una población
moneda al aire Ejemplo: una población con la mitad de hombres y de
Resultado a largo plazo: aparece cara el 0,5 de las mujeres
veces
Probabilidad de que salga cara en una ocasión
Extraigo muchas muestras de 1.000 personas
concreta: 0,5 Las muestras tendrán diferentes proporciones
Una larga serie de tiradas de un dado de hombres y mujeres, que oscilarán alrededor
Resultado a largo plazo: cada lado aparece de 0,5
(1/6=)0,1666 de las veces
Valor más probable para una muestra concreta:
Probabilidad de que salga, por ejemplo, un dos, en
0,5
una tirada: 0,1666
5 6
XCCC,XCCX,XCXC,XCXX,XXCC,XXCX,XXXC,XXXX
NPER Total
1 0,53 Todos son igualmente probables
2 0,27
3 0,12 Cada resultado del experimento es un caso de las
4 0,03 variable aleatoria
5 0,04
6 0,01 Representamos una variable aleatoria discreta:
(vacías) 0,00 número de caras que salen
Total general 1,00
9 10
17 Número de caras 18
19 20
2.1. Representación gráfica 2.1. Representación gráfica
La representación gráfica de la función de Esta sería la representación gráfica
densidad de las variables aleatorias continuas la
hacemos con un histograma “estilizado”: una
curva continua y suave que representaría los
millones de sucesos elementales posibles
Ejemplo: función de densidad de la variable
aleatoria “número de familias que tienen un solo
perceptor de ingresos en una muestra de 100
familias” (si la distribución de NPER en la
población es la del fichero hogares.xls)
(transparencia 16)
0 10 20 30 40 50 60 70 80 90 100
Familias con un sólo perceptor ingresos
21 22
En el histograma anterior: vemos que habría muy El área bajo la curva representa la suma de las
pocas muestras con valores entre 0 y 40 y entre 70 y probabilidades de todos los valores (=1); el área bajo la
100 (comprobar trans. 14); la mayor parte de las curva entre dos valores representa la probabilidad de
muestras tendrían valores entre 50 y 60 que la variable tome un valor en el intervalo definido
aproximadamente. por esos dos valores
23 24
2.1. Representación gráfica 2.1. Representación gráfica
Ejemplo: el área sombreada, entre los valores 0 y 48 Ahora el área sombreada marca la zona entre los valores
representa el 18,35% del área debajo de la curva; que es 50 y 60, y ocupa el 69,27% del área debajo de la curva;
la probabilidad de que el valor sea entre 0 y 48 (0,1835) esa es la probabilidad (0,6927) de que el valor de la
muestra esté entre 50 y 60
25 26
31
σx = ∑(x − m
i x ) 2 pi
32
2.3. Desviación típica, mediana, 2.3. Desviación típica, mediana,
cuartiles cuartiles
Variables aleatorias contínuas: el valor de la
Por ejemplo, la desviación típica de la variable desviación típica no es tan fácil de calcular (no lo
aleatoria “número de caras” al tirar 4 veces una vemos)
moneda (trans. 8) es
Otros conceptos estudiados para las variables
σx = ∑ ( xi − mx )2 pi = normales se pueden aplicar también a las variables
(( 0 − 2) 2 ·0,0625) + ((1 − 2) 2 ·0,25) + (( 2 − 2) 2 ·0,375) + (( 3 − 2) 2 ·0,25) + (( 4 − 2) 2 ·0,0625) = aleatorias
( 4·0,0625) + 0, 25 + 0,25 + ( 4·0,0625) = 0,25 + 0,25 + 0,25 + 0,25 = 1 = 1 El coeficiente de variación, que es la desviación típica
La desviación típica de la variable aleatoria “número de partida por la media, en una variable aleatoria lo
pesonas que aportan ingresos” en una familia (trans. 9)
expresamos así σ
sería:
CVx = x
mx
((1 −1,8133) 2 ·0,533) + ((2 − 1,8133) 2 ·0,2667) + ((3 −1,8133) 2 ·0,1200) +
= 1,2984 Mediana, cuartiles, rango intercuartílico… también
((4 −1,8133) 2 ·0,0267) + ((5 −1,8133) 2 ·0,0400) + ((6 − 1,8133) 2 ·0,0133) sería posible (nosotros no los usamos)
33 34
Punto de partida de muchos métodos de estadística No cualquier distribución con esas características: una
inferencial 35 con una “función” (ecuación) particular 36
3. La distribución normal
3. La distribución normal La distribución normal de una variable x se
define por dos parámetros,
m es la media o valor esperado de la variable
(puede tomar cualquier valor)
3. La distribución normal
Ejemplo variable “real” con distribución
3. La distribución normal aproximadamente normal
Distribución variable notas
120
100
80
60
40
20
0
0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5 9 9,5 10
39 40
3. La distribución normal 3. La distribución normal
Exactamente el 68,3% de los datos caen entre
Por sus propiedades: la mayor parte de los
casos tienen valores que están en la “zona m ±σ
central” de la distribución, cercanos al valor de
la media Exactamente el 95,5% de los datos caen entre
43 44
3. La distribución normal 4. Variables tipificadas
Para cualquier variable con distribución normal, si sabemos En el cap. 6 del manual se estudian (nosotros
la media y la desviación típica podemos calcular la no lo vimos) algunas “transformaciones” de
probabilidad de obtener al azar un caso con valores que se
variables
aparten 1, 2 ó 3 veces de la desviación típica
Pero hay una transformación especial que
Ejemplo: si altura media de los españoles varones adultos puede hacerse con una variable, que llamamos
es 1,75m y desviación típica es de 0,05 m (datos “tipificar” la variable (también se puede decir
imaginarios), y esta variable tiene una distribución normal, “estandarizar”), que sí nos interesa
un varón español adulto escogido al azar
Tiene una probabilidad de 0,683 de medir entre 1,70 y 1,80
=
∑ (z i − 0) 2
=
Lógico, puesto que (tema 5):
∑ (x − x) = 0
i
N N
∑ (x − x )
2
Por tanto: xi − x
2
∑z ∑ s x i
∑x −x
2 2
sx
xi − x = i
= = =
∑ s sx
i
N N N
z= = =0 ∑ (x − x ) ∑ (x − x ) ∑(x − x)
2 2 2
x
= i
= i
= i
= 1
N N Nsx2
N
∑ (x − x ) i
2
∑(x − x) i
2
49 N 50
Suele representarse con la letra z 0,955 de los casos tienen un valor tipificado z entre -2 y + 2
publicadas en muchos lugares con la frecuencia relativa 0,0 0,50000 0,50399 0,50798 0,51197 0,51595 0,51994 0,52392 0,52790 0,53188 0,53586
0,1 0,53983 0,54380 0,54776 0,55172 0,55567 0,55962 0,56356 0,56749 0,57142 0,57535
o probabilidad de diferentes valores de z en la 0,2 0,57926 0,58317 0,58706 0,59095 0,59483 0,59871 0,60257 0,60642 0,61026 0,61409
distribución normal estándar 0,3 0,61791 0,62172 0,62552 0,62930 0,63307 0,63683 0,64058 0,64431 0,64803 0,65173
0,4 0,65542 0,65910 0,66276 0,66640 0,67003 0,67364 0,67724 0,68082 0,68439 0,68793
Muchos tablas ligeramente diferentes: todas la misma 0,5 0,69146 0,69497 0,69847 0,70194 0,70540 0,70884 0,71226 0,71566 0,71904 0,72240
información 0,6 0,72575 0,72907 0,73237 0,73565 0,73891 0,74215 0,74537 0,74857 0,75175 0,75490
53 54
57 58
Probabilidad de que un varón adulto mida entre Por ejemplo, podemos intentar averiguar cuál es
162 y 182 cm el valor de z tal que sólo un 1% de los casos
b − mx a − mx 182 −175 162 − 175 tienen un valor mayor
P z ≤ − P z ≤ = P z ≤ − P z ≤ =
σx σx 5 5
P{z ≤ 1,4} − P{z ≤ −2,6} = 0,9192 − 0,0047 = 0,9145 67 68
5.3. Valor z para una probabilidad 5.3. Valor z para una probabilidad
Si estamos interesados en buscar sólo el 1% de
los valores “más altos” (sólo valores con valor de Es decir: en una distribución normal el 1 por
z positivo), buscamos en la tabla la probabilidad ciento de los sujetos con valores más altos se
0,99 y encontramos que el valor correspondiente aparta de la media 2,33 veces la desviación
de z es 2,33 (exactamente la probabilidad de típica (o más)
ese valor de z es 0,99010)
Dicho de otra manera: en una distribución
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 normal tipificada, el percentil 99 tiene el valor
2,0 0,97725 0,97778 0,97831 0,97882 0,97932 0,97982 0,98030 0,98077 0,98124 0,98169 2,33
2,1 0,98214 0,98257 0,98300 0,98341 0,98382 0,98422 0,98461 0,98500 0,98537 0,98574
2,2 0,98610 0,98645 0,98679 0,98713 0,98745 0,98778 0,98809 0,98840 0,98870 0,98899 Con Excel:
2,3 0,98928 0,98956 0,98983 0,99010 0,99036 0,99061 0,99086 0,99111 0,99134 0,99158
2,4 0,99180 0,99202 0,99224 0,99245 0,99266 0,99286 0,99305 0,99324 0,99343 0,99361 =DISTR.NORM.ESTAND.INV(0,99)=
2,5 0,99379 0,99396 0,99413 0,99430 0,99446 0,99461 0,99477 0,99492 0,99506 0,99520 2,326347874
69 70
71 72
Resumen Ejercicios recomendados
La distribución normal
Del manual:
Importancia
15.2
Propiedades
15.3
15.4
Variables tipificadas
15.7
Procedimiento
18.1 a 18.8
Propiedades
Ejercicios recomendados
De los exámenes:
Feb02: 6
Jun02: 7
Feb03, Sep03: 6
Feb04: 10
Jul04: 9
Feb06: 7
Jul06: 8
75