Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadstica
Analisis
Vectorial y Estadstico
Departamento de Matematica
Aplicada
Escuela Politecnica
Superior
Universidad de Malaga
A.Romero y A.Sanchez
(USP-CEU)
Tema 3. Estadstica
1 / 353
Contenidos
Introduccion
a la Estadstica
Estadstica Descriptiva
Regresion
y Correlacion
Combinatoria
Teora de la Probabilidad
Variables Aleatorias
Estimacion
de Parametros
Contraste de hipotesis
Tema 3. Estadstica
2 / 353
a la Estadstica
Introduccion
Introduccion
a la Estadstica
La estadstica como herramienta cientfica
Poblacion
y muestra
Muestreo
Tema 3. Estadstica
3 / 353
Que es la estadstica?
(Estadstica)
Definicion
La estadstica es una rama de las matematicas
e
interpretacion
de datos.
La estadstica es imprescindible en cualquier disciplina cientfica o tecnica donde se manejen
datos, especialmente si son grandes volumenes
Tema 3. Estadstica
5 / 353
El cientfico trata de estudiar el mundo que le rodea; un mundo que esta lleno de variaciones
que dificultan la determinacion
del comportamiento de las cosas.
Esto la convierte en una herramienta indispensable en las ciencias aplicadas que requieran el
analisis
de datos y el diseno
de experimentos.
Tema 3. Estadstica
6 / 353
estadstica
Poblacion
(Poblacion)
Definicion
Una poblacion
es un conjunto de elementos definido por una o mas
caractersticas que tienen
todos los elementos, y solo
ellos. Cada elemento de la poblacion
se llama individuo.
(Tamano
poblacional)
Definicion
El numero
Tema 3. Estadstica
8 / 353
Inconvenientes en el estudio de la poblacion
en una poblacion
para comprenderlo, obtener
conocimiento sobre el mismo, y as poder controlarlo.
Pero, para tener un conocimiento completo de la poblacion
es necesario estudiar todos los
individuos de la misma.
Sin embargo, esto no siempre es posible por distintos motivos:
El tamano
de la poblacion
es infinito, o bien es finito pero demasiado grande.
Las pruebas a que se someten los individuos son destructivas.
El coste, tanto de dinero como de tiempo, que supondra estudiar a todos los individuos
es excesivo.
Tema 3. Estadstica
9 / 353
Muestra estadstica
(Muestra)
Definicion
Una muestra es un subconjunto de la poblacion.
(Tamano
muestral)
Definicion
Al numero
Tema 3. Estadstica
10 / 353
del tamano
muestral
Determinacion
cuantos
Tema 3. Estadstica
11 / 353
del tamano
muestral
Determinacion
Muestra pequena
de los pxeles de una imagen
12 / 353
del tamano
muestral
Determinacion
Muestra mayor de los pxeles de una imagen
13 / 353
del tamano
muestral
Determinacion
Poblacion
completa de los pxeles de una imagen
14 / 353
Tipos de razonamiento
Tema 3. Estadstica
15 / 353
Tipos de razonamiento
Caractersticas de la deduccion:
Si las premisas son ciertas, garantiza la certeza de las
conclusiones (es decir, si algo se cumple en la poblacion,
tambien
se cumple
en la muestra). Sin embargo, no aporta conocimiento nuevo!
Caractersticas de la induccion:
No garantiza la certeza de las conclusiones (si algo se cumple
en la muestra, puede que no se cumpla en la poblacion,
as que cuidado con
las extrapolaciones!), pero es la unica
Tema 3. Estadstica
16 / 353
Fases del analisis
estadstico
La informacion
obtenida es proyectada sobre un modelo matematico
Tema 3. Estadstica
17 / 353
El ciclo estadstico
Descriptiva
s2
cv
g1
Muestra
Medidas resumen
Muestreo
Inferencia
Prediccion
Poblacion
Tema 3. Estadstica
Modelo
18 / 353
Muestreo
(Muestreo)
Definicion
El proceso de seleccion
de los elementos que compondran
una muestra se conoce como
muestreo.
Tema 3. Estadstica
20 / 353
Modalidades de muestreo
Tema 3. Estadstica
21 / 353
de partida).
Las sucesivas selecciones de un individuo son independientes.
La unica
a cada individuo de la
poblacion
(censo) y realizar un sorteo aleatorio.
Tema 3. Estadstica
22 / 353
Estadstica Descriptiva
Estadstica Descriptiva
Variables estadsticas
Distribucion
de frecuencias
Representaciones graficas
Estadsticos muestrales
Transformaciones de variables
Tema 3. Estadstica
23 / 353
Estadstica descriptiva
y en forma de tablas.
Su poder inferencial es mnimo, por lo que nunca deben sacarse conclusiones sobre la
poblacion
a partir de las medidas resumen que aporta la estadstica descriptiva.
Tema 3. Estadstica
24 / 353
cualitativo.
Variables estadsticas: De caracter
cuantitativo.
A su vez, los atributos se dividen en:
Nominales: No existe un orden entre las modalidades.
Ejemplo: El color de un material o las tonalidades de las pinturas.
Ordinales: Existe un orden entre las modalidades.
Ejemplo: La temperatura de un producto o la calificacion
de una asignatura.
Y las variables estadsticas en:
Discretas: Reciben valores aislados.
Ejemplo: El numero
de hijos o el numero
de coches.
Continuas: Pueden recibir cualquier valor de un intervalo.
Ejemplo: El peso o la estatura.
Tema 3. Estadstica
26 / 353
de la muestra
Clasificacion
El estudio de una variable estadstica comienza por medir la variable en los individuos de la
muestra y clasificar los valores obtenidos.
Existen dos formas de clasificar estos valores:
Sin agrupar: Ordenar todos los valores obtenidos en la muestra de menor a mayor. Se
utiliza con atributos y variables discretas con pocos valores diferentes.
Agrupados: Agrupar los valores en clases (intervalos) y ordenar dichas clases de menor a
mayor. Se utiliza con variables discretas con muchos valores diferentes, y con
variables continuas.
Tema 3. Estadstica
27 / 353
de la muestra
Clasificacion
Tema 3. Estadstica
29 / 353
Recuento de frecuencias
Tema 3. Estadstica
30 / 353
Frecuencias muestrales
(Frecuencias muestrales)
Definicion
Dada una muestra de tamano
n de una variable X , para cada valor de la variable xi observado
en la muestra, se define
Frecuencia absoluta ni : Es el numero
Ni = n 1 + + n i
Frecuencia relativa acumulada Fi : Es la proporcion
de individuos de la muestra que
presentan un valor menor o igual que xi .
Fi =
Tema 3. Estadstica
Ni
n
31 / 353
Tabla de frecuencias
Frecuencia
Absoluta
Frecuencia
Relativa
x1
..
.
xi
.
..
xk
n1
..
.
ni
.
..
nk
f1
..
.
fi
.
..
fk
Tema 3. Estadstica
Frecuencia
Absoluta
Acumulada
N1
..
.
Ni
.
..
Nk
Frecuencia
Relativa
Acumulada
F1
..
.
Fi
.
..
Fk
32 / 353
Tabla de frecuencias
Ejemplo de datos sin agrupar
xi
0
1
2
3
4
P
Tema 3. Estadstica
ni
2
6
14
2
1
25
fi
0,08
0,24
0,56
0,08
0,04
1
Ni
2
8
22
24
25
Fi
0,08
0,32
0,88
0,96
1
33 / 353
Tabla de frecuencias
Ejemplo de datos agrupados
xi
(150, 160]
(160, 170]
(170, 180]
(180, 190]
(190, 200]
P
Tema 3. Estadstica
ni
2
8
11
7
2
30
fi
0,07
0,27
0,36
0,23
0,07
1
Ni
2
10
21
28
30
Fi
0,07
0,34
0,70
0,93
1
34 / 353
de clases
Construccion
es tomar un numero
de intervalos proximo
El valor mas
pequeno
debe caer dentro del primer intervalo y el mas
grande dentro del
ultimo.
Tema 3. Estadstica
35 / 353
Tabla de frecuencias
Ejemplo con un atributo
xi
0
A
B
AB
P
ni
5
14
8
3
30
fi
0,16
0,47
0,27
0,10
1
Tema 3. Estadstica
36 / 353
Representaciones graficas
Dependiendo del tipo de variable y de si hemos agrupado o no los datos se utilizan distintos
tipos de graficos:
proporcional a la
frecuencia de cada valor de la variable.
Se utiliza sobre todo con atributos.
Tema 3. Estadstica
38 / 353
10
8
6
4
0
Frecuencia absoluta ni
12
14
Numero
de hijos
Tema 3. Estadstica
39 / 353
8
6
4
0
Frecuencia absoluta ni
10
12
14
Numero
de hijos
Tema 3. Estadstica
40 / 353
15
10
5
0
20
25
Numero
de hijos
Tema 3. Estadstica
41 / 353
15
10
5
0
20
25
Numero
de hijos
Tema 3. Estadstica
42 / 353
6
4
0
Frecuencia absoluta ni
10
12
Datos agrupados
150
160
170
180
190
200
Estatura
Tema 3. Estadstica
43 / 353
8
6
4
0
Frecuencia absoluta ni
10
12
Datos agrupados
150
160
170
180
190
200
Estatura
Tema 3. Estadstica
44 / 353
20
15
10
5
0
25
30
Datos agrupados
150
160
170
180
190
200
Estatura
Tema 3. Estadstica
45 / 353
20
15
10
5
0
25
30
Datos agrupados
150
160
170
180
190
200
Estatura
Tema 3. Estadstica
46 / 353
Diagrama de sectores
Atributos
grupo A 47%
grupo 0 16%
grupo B 27%
grupo AB 10%
Tema 3. Estadstica
47 / 353
Datos atpicos
Uno de los principales problemas de las muestras son los datos atpicos. Los datos atpicos
son valores de la variable que se diferencian mucho del resto de los valores.
Es muy importante detectar los datos atpicos antes de realizar cualquier analisis
de los datos,
pues suelen distorsionar los resultados.
Aparecen siempre en los extremos de la distribucion,
aunque mas
adelante veremos un
diagrama para detectarlos.
Tema 3. Estadstica
48 / 353
Cuando trabajemos con muestras grandes, los datos atpicos tienen menor influencia y
pueden dejarse en la muestra.
Cuando trabajemos con muestras pequenas
tenemos varias opciones:
Eliminarlo: Siempre que estemos seguros de que se trata de un error de medida.
Sustituirlo: Si se trata de un individuo real pero que no concuerda con el modelo de
distribucion
de la poblacion.
En tal caso se suele reemplazar por el mayor o menor dato
no atpico.
Dejarlo: Si se trata de un individuo real aunque no concuerde con el modelo de
distribucion.
En tal caso se suele modificar el modelo de distribucion
supuesto.
Tema 3. Estadstica
49 / 353
Estadsticos muestrales
se
reparten en la distribucion.
Estadsticos de Dispersion:
Miden la heterogeneidad de los datos.
Estadsticos de Forma: Miden aspectos de la representacion
grafica
Tema 3. Estadstica
51 / 353
Estadsticos de posicion
Mediana
Moda
Otros estadsticos de Posicion:
Dividen la distribucion
en partes con el mismo numero
de
observaciones. Las mas
importantes son:
Cuantiles: Cuartiles, Deciles, Percentiles.
Tema 3. Estadstica
52 / 353
Media aritmetica
(Media aritmetica
Definicion
muestral x )
La media aritmetica muestral de una variable X es la suma de los valores observados en la
muestra dividida por el tamano
muestral
P
xi
x =
n
A partir de la tabla de frecuencias puede calcularse como:
P
X
xi ni
x =
=
xi fi
n
La media aritmetica
Tema 3. Estadstica
53 / 353
Calculo
de la media aritmetica
Ejemplo con datos no agrupados
de hijos tenemos
1+2+4+2+2+2+3+2+1+1+0+2+2
+
25
0+2+2+1+2+2+3+1+2+2+1+2
= 1,76 hijos.
+
25
x =
xi
0
1
2
3
4
P
ni
2
6
14
2
1
25
fi
0,08
0,24
0,56
0,08
0,04
1
xi ni
0
6
28
6
4
44
xi fi
0
0,24
1,12
0,24
0,16
1,76
X
xi ni
44
= 1,76
=
x =
xi fi = 1,76.
n
25
Es decir, el numero
x =
Tema 3. Estadstica
54 / 353
Calculo
de la media aritmetica
Ejemplo con datos agrupados
x =
X
(150, 160]
(160, 170]
(170, 180]
(180, 190]
(190, 200]
P
xi
155
165
175
185
195
ni
2
8
11
7
2
30
fi
0,07
0,27
0,36
0,23
0,07
1
xi ni
310
1320
1925
1295
390
5240
xi fi
10,33
44,00
64,17
43,17
13
174,67
X
xi ni
5240
= 174,67
=
x =
xi fi = 174,67.
n
30
Al agrupar datos el calculo
x =
Tema 3. Estadstica
55 / 353
Mediana
(Mediana muestral Me )
Definicion
La mediana muestral de una variable x es el valor de la variable que deja el mismo numero
de
valores por debajo y por encima de el.
Tema 3. Estadstica
56 / 353
Calculo
de la mediana con datos no agrupados
Con datos no agrupados pueden darse varios casos:
Tamano
muestral impar: La mediana es el valor que ocupa la posicion
n+1
2 .
Tamano
muestral par: La mediana es la media de los valores que ocupan las posiciones
n
n
2 y 2 + 1.
Tema 3. Estadstica
57 / 353
Calculo
de la mediana con datos agrupados
n
2
Mediana
Tema 3. Estadstica
58 / 353
Ni
n /2
Ni Ni 1
li li 1
tg() =
n /2 Ni 1
Me li 1
Ni 1
li 1
Med = li 1 +
Tema 3. Estadstica
tg() =
Me
li
n /2 Ni 1
n /2 Ni 1
ai
(l l ) = li 1 +
Ni Ni 1 i i 1
ni
59 / 353
Calculo
de la mediana
Ejemplo con datos agrupados
En el ejemplo de las estaturas tenemos que la mediana tendra frecuencia n /2 = 30/2 = 15. Si
miramos en el polgono de frecuencias acumuladas comprobamos que la mediana caera en el
intervalo (170, 180].
30
25
xi
(150, 160]
(160, 170]
(170, 180]
(180, 190]
(190, 200]
20
n
= 15
2
ni
2
8
11
7
2
Ni
2
10
21
28
30
10
0
150
160
170
Me
180
190
200
X = Estatura
Tema 3. Estadstica
60 / 353
21
tg() =
21 10
180 170
tg() =
15 10
Me 170
n /2 = 15
10
170
Med = 170 +
Tema 3. Estadstica
Me
180
5
15 10
(180 170) = 170 +
10 = 174,54
21 10
11
61 / 353
Moda
(Moda muestral Mo )
Definicion
La moda muestral de una variable X es el valor de la variable mas
frecuente en la muestra.
Con datos agrupados se toma como clase modal la clase con mayor frecuencia en la muestra.
En ocasiones puede haber mas
de una moda.
Tema 3. Estadstica
62 / 353
Calculo
de la moda
En el ejemplo del numero
xi
0
1
2
3
4
ni
2
6
14
2
1
xi
(150, 160]
(160, 170]
(170, 180]
(180, 190]
(190, 200]
Tema 3. Estadstica
ni
2
8
11
7
2
63 / 353
de hijos de 7 familias:
0, 0, 1, 1, 2, 2, 15
x = 3 hijos
Me = 1 hijos
Tema 3. Estadstica
64 / 353
Cuantiles
de datos.
Los mas
utilizados son:
Cuartiles: Dividen la distribucion
en 4 partes iguales.
Hay tres cuartiles: C1 (25 % acumulado) , C2 (50 % acumulado), C3 (75 %
acumulado).
Deciles: Dividen la distribucion
en 10 partes iguales.
Hay 9 deciles: D1 (10 % acumulado) ,. . . , D9 (90 % acumulado).
Percentiles: Dividen la distribucion
en 100 partes iguales.
Hay 99 percentiles: P1 (1 % acumulado),. . . , P99 (99 % acumulado).
Tema 3. Estadstica
65 / 353
Calculo
de los cuantiles
Los cuantiles se calculan de forma similar a la mediana. Por ejemplo, en el caso de los
cuartiles se buscan los valores que tienen frecuencias absolutas acumuladas n /4 (primer
cuartil), n /2 (segundo cuartil) y 3n /4 (tercer cuartil) y si se trata de datos agrupados se
interpola sobre el polgono de frecuencias acumuladas.
3n
4
n
2
n
4
C1
C2
C3
Tema 3. Estadstica
66 / 353
Estadsticos de dispersion
Recogen informacion
respecto a la heterogeneidad de la variable y a la concentracion
de sus
valores en torno a algun
valor central.
Para las variables cuantitativas, las mas
empleadas para son:
Recorrido.
Rango Intercuartlico.
Varianza.
Desviacion
Tpica.
Coeficiente de Variacion.
Tema 3. Estadstica
67 / 353
Recorrido
(Recorrido muestral Re )
Definicion
El recorrido muestral de una variable X se define como la diferencia entre el maximo
y el
mnimo de los valores en la muestra.
Re = max
mn
xi
xi
variacion
que hay entre los datos muestrales. No
obstante, es muy sensible a datos atpicos ya que suelen aparecer justo en los extremos de la
distribucion,
por lo que no se suele utilizar mucho.
Re
mn
Tema 3. Estadstica
max
68 / 353
Rango intercuartlico
Para evitar el problema de los datos atpicos en el recorrido, se puede utilizar el primer y tercer
cuartil en lugar del mnimo y el maximo.
RI
25 %
mn
Tema 3. Estadstica
25 %
C1
25 %
C2
25 %
C3
max
69 / 353
Desviaciones a la media
Una forma de medir la variabilidad de una variable es estudiar la concentracion
de los valores
en torno a algun
estadstico de tendencia central como por ejemplo la media.
Para ello se suele considerar la distancia de cada valor a la media. A ese valor se le llama
desviacion
a la media.
Desviacion
+
Desviacion
xj x
xi x
b
b
xi
xj
Si las desviaciones son grandes la media no sera tan representativa como cuando la
desviaciones sean pequenas.
b b
b b
b
b
b b
b b
x
b
b
b
x
b
b
b
x
En que muestra es mas representativa la media?
Tema 3. Estadstica
70 / 353
tpica
Varianza y desviacion
(Varianza s 2 )
Definicion
La varianza muestral de una variable X se define como el promedio del cuadrado de las
desviaciones de los valores de la muestra a la media muestral.
P
X
(xi x)2 ni
s2 =
=
(xi x)2 fi
n
Tambien
puede calcularse de manera mas
sencilla mediante la formula
P 2
X
xi ni
s2 =
x2 =
xi2 fi x2
n
La varianza tiene las unidades de la variable al cuadrado, por lo que para facilitar su
interpretacion
se suele utilizar su raz cuadrada:
(Desviacion
tpica s )
Definicion
La desviacion
tpica muestral de una variable X se define como la raz cuadrada positiva de su
varianza muestral.
p
s = + s2
Tema 3. Estadstica
71 / 353
de la varianza y la desviacion
tpica
Interpretacion
Tema 3. Estadstica
72 / 353
tpica
Calculo
de la varianza y la desviacion
Ejemplo con datos agrupados
X
(150, 160]
(160, 170]
(170, 180]
(180, 190]
(190, 200]
P
P
xi
155
165
175
185
195
ni
2
8
11
7
2
30
xi2 ni
48050
217800
336875
239575
76050
918350
xi2 ni
918350
x2 =
174,672 = 102,06 cm2 .
n
30
Y la desviacion
tpica es s = 102,06 = 10,1 cm.
s2 =
Tema 3. Estadstica
73 / 353
Coeficiente de variacion
Tanto la varianza como la desviacion
tpica tienen unidades y eso dificulta a veces su
interpretacion
y su comparacion.
(Coeficiente de variacion
muestral cv )
Definicion
El coeficiente de variacion
muestral de una variable X se define como el cociente entre su
desviacion
tpica muestral y el valor absoluto de su media muestral.
cv =
s
|x|
El coeficiente de variacion
muestral mide la dispersion
relativa de los valores de la muestra en
torno a la media muestral.
Como no tiene unidades, es muy sencillo de interpretar: Cuanto mayor sea, mayor sera la
dispersion.
Tambien
se utiliza para comparar la dispersion
entre muestras distintas incluso si las variables
tienen unidades diferentes.
Tema 3. Estadstica
74 / 353
Estadsticos de forma
Tema 3. Estadstica
75 / 353
Coeficiente de asimetra
a la
g1 < 0 indica que la mayora de los valores son mayores que la media (asimetrica
izquierda).
a la
g1 > 0 indica que la mayora de los valores son menores que la media (asimetrica
derecha).
Tema 3. Estadstica
76 / 353
Coeficiente de asimetra
Ejemplo de distribucion
simetrica
0.2
0.0
0.1
Frecuencia relativa
0.3
0.4
Distribucion
simetrica
g1 = 0
Tema 3. Estadstica
77 / 353
Coeficiente de asimetra
Ejemplo de distribucion
asimetrica
hacia la izquierda
0.08
0.06
0.04
0.00
0.02
Frecuencia relativa
0.10
0.12
Distribucion
asimetrica
a la izquierda g1 < 0
Tema 3. Estadstica
78 / 353
Coeficiente de asimetra
Ejemplo de distribucion
asimetrica
hacia la derecha
0.08
0.06
0.04
0.00
0.02
Frecuencia relativa
0.10
0.12
Distribucion
asimetrica
a la derecha g1 > 0
Tema 3. Estadstica
79 / 353
Calculo
del coeficiente de asimetra
Ejemplo con datos agrupados
X
(150, 160]
(160, 170]
(170, 180]
(180, 190]
(190, 200]
P
g1 =
xi
155
165
175
185
195
ni
2
8
11
7
2
30
xi x
19,67
9,67
0,33
10,33
20,33
(xi x)3 ni
15221,00
7233,85
0,40
7716,12
16805,14
2066,81
P
(xi x)3 ni /n
2066,81/30
=
= 0,07.
s3
10,13
simetrica
con
respecto a la media.
Tema 3. Estadstica
80 / 353
3
=
3
4
s
s4
El coeficiente de apuntamiento muestral mide el grado de apuntamiento de los valores de la
muestra con respecto a una distribucion
normal de referencia, de manera que:
tienen un apuntamiento normal (mesocurtica
g2 = 0 indica que la distribucion
).
tiene menos apuntamiento de lo normal (platicurtica
g2 < 0 indica que la distribucion
).
tiene mas
apuntamiento de lo normal (leptocurtica
g2 > 0 indica que la distribucion
).
Tema 3. Estadstica
81 / 353
0.2
0.0
0.1
Frecuencia relativa
0.3
0.4
Distribucion
mesocurtica
g2 = 0
Tema 3. Estadstica
82 / 353
0.2
0.0
0.1
Frecuencia relativa
0.3
0.4
Distribucion
platicurtica
g2 < 0
Tema 3. Estadstica
83 / 353
0.4
0.3
0.2
0.0
0.1
Frecuencia relativa
0.5
0.6
Distribucion
leptocurtica
g2 > 0
Tema 3. Estadstica
84 / 353
Calculo
del coeficiente de apuntamiento
Ejemplo con datos agrupados
De nuevo para el ejemplo de las estaturas podemos calcular el coeficiente de asimetra a partir
de la tabla de frecuencias anadiendo
X
(150, 160]
(160, 170]
(170, 180]
(180, 190]
(190, 200]
P
g2 =
xi
155
165
175
185
195
ni
2
8
11
7
2
30
xi x
19,67
9,67
0,33
10,33
20,33
(xi x)4 ni
299396,99
69951,31
0,13
79707,53
341648,49
790704,45
P
(xi x)4 ni /n
790704,45/30
3 =
3 = 0,47.
s4
10,14
Tema 3. Estadstica
85 / 353
y mesocurticas,
de manera que,
tanto el coeficiente de asimetra como el de apuntamiento pueden utilizarse para contrastar si
los datos de la muestra provienen de una poblacion
normal.
En general, se suele rechazar la hipotesis
de normalidad de la poblacion
cuando g1 o g2 esten
fuera del intervalo [2, 2].
En tal caso, lo normal es aplicar alguna transformacion
a la variable para corregir la
anormalidad.
Tema 3. Estadstica
86 / 353
Transformaciones de variables
En muchas ocasiones se suelen transformar los datos brutos para trabajar con unas unidades
mas
comodas,
Por ejemplo, si estamos trabajando con estaturas medidas en metros y tenemos los siguientes
valores:
1,75mt, 1,65mt, 1,80mt,
podemos evitar los decimales multiplicando por 100, es decir, pasando de metros a
centmetros:
175cm, 165cm, 180cm,
Y si queremos reducir la magnitud de los datos podemos restarles a todos el menor de ellos,
en este caso, 165cm:
10cm, 0cm, 15cm,
Esta claro que este conjunto de datos es mucho mas
sencillo que el original. En el fondo lo
que hemos hecho es aplicar a los datos la transformacion:
Y = 100X 165
Tema 3. Estadstica
88 / 353
Transformaciones lineales
Y = a + bX .
Se puede comprobar facilmente que la media y la desviacion
tpica de la variable resultante
cumplen:
y = a + b x,
sy = |b |sx
Ademas,
el coeficiente de curtosis no se altera y el de asimetra solo
cambia de signo si b es
negativo.
Tema 3. Estadstica
89 / 353
de tipificacion
y puntuaciones tpicas
Transformacion
(Variable tipificada)
Definicion
La variable tipificada de una variable estadstica X es la variable que resulta de restarle su
media y dividir por su desviacion
tpica.
Z=
X x
sx
La tipificacion
es muy util
para eliminar la dependencia de una variable respecto de las
unidades de medida empleadas.
de
Los valores tipificados se conocen como puntuaciones tpicas y miden el numero
desviaciones tpicas que dista de la media cada observacion,
lo cual es util
para comparar
variables con distintas unidades.
Otra propiedad de la variable tipificada es que tiene media 0 y desviacion
tpica 1:
z = 0
Tema 3. Estadstica
sz = 1
90 / 353
de tipificacion
y puntuaciones tpicas
Transformacion
Ejemplo
1
2
1
2
5
9
3
4
8
4
8
5
5
6
2
x = 5
y = 5
sx = 2
sy = 3,16
X:
Y:
1,5
1,26
0
1,26
0,5
0,95
1,5
0
0,5
0,95
Tema 3. Estadstica
91 / 353
de tipificacion
y puntuaciones tpicas
Transformacion
Ejemplo
Cual
es el mejor alumno?
Si simplemente sumamos las puntuaciones de cada asignatura tenemos:
Alumno:
X:
YP:
1
2
1
3
2
5
9
14
3
4
8
12
4
8
5
13
5
6
2
8
1
1,5
1,26
2,76
2
0
1,26
1,26
3
0,5
0,95
0,45
4
1,5
0
1,5
5
0,5
0,95
0,45
Tema 3. Estadstica
92 / 353
Transformaciones no lineales
y la expande para
La transformacion
Y = X 2 comprime la escala para valores pequenos
valores altos, de manera que es muy util
para corregir asimetras hacia la izquierda.
Y = X2
Tema 3. Estadstica
93 / 353
Transformaciones no lineales
Y=
Tema 3. Estadstica
94 / 353
y Correlacion
Regresion
Regresion
y Correlacion
Distribucion
de frecuencias bidimensional
Covarianza
Regresion
Recta de regresion
Correlacion
Coeficientes de determinacion
y correlacion
Regresion
no lineal
Medidas de relacion
entre atributos
Tema 3. Estadstica
95 / 353
Hasta ahora se ha visto como describir el comportamiento de una variable, pero en los
fenomenos
Tema 3. Estadstica
97 / 353
Variables bidimensionales
X
x1
(x1 ,y1 )
Y
y1
x2
(x1 ,y2 )
(x2 ,y1 )
y2
(x2 ,y2 )
(X , Y )
Tema 3. Estadstica
98 / 353
fij =
nij
n
Ojo! Para las variables bidimensionales no tienen sentido las frecuencias acumuladas.
Tema 3. Estadstica
99 / 353
de frecuencias bidimensional
Distribucion
X \Y
x1
..
.
xi
.
..
xp
Tema 3. Estadstica
y1
n11
..
.
ni 1
.
..
np 1
..
.
.
..
yj
n1 j
..
.
nij
.
..
npj
..
.
.
..
yq
n1 q
..
.
niq
.
..
npq
100 / 353
de frecuencias bidimensional
Distribucion
Ejemplo con estaturas y pesos
X /Y
[50, 60)
[60, 70)
[70, 80)
[80, 90)
[90, 100)
[100, 110)
(150, 160]
(160, 170]
(170, 180]
(180, 190]
(190, 200]
2
4
1
0
0
0
4
6
1
0
0
0
3
4
0
0
0
1
1
0
0
0
0
1
1
0
0
0
0
1
Tema 3. Estadstica
101 / 353
Diagrama de dispersion
A menudo, la informacion
de la tabla de frecuencias bidimensional se representa tambien
graficamente.
La representacion
grafica
que mas
se utiliza en el estudio de la dependencia de dos variables
es el diagrama de dispersion,
que consiste en representar sobre un plano cartesiano los
puntos que se corresponden con los valores (xi , yj ) de la variable bidimensional.
El conjunto de todos estos puntos recibe el nombre de nube de puntos.
En un diagrama de dispersion
solo
se recogen los valores observados en la muestra, no las
frecuencias de los mismos. Para reflejar las frecuencias tendramos que recurrir a otro tipo de
representacion
como un diagrama de burbujas o histograma tridimensional.
Tema 3. Estadstica
102 / 353
Diagrama de dispersion
80
(179, 85)
50
60
70
Peso (Kg)
90
100
110
Diagrama de dispersion
de Estaturas y Pesos
150
160
170
180
190
200
Estatura (cm)
Tema 3. Estadstica
103 / 353
Interpretacion
El diagrama de dispersion
da informacion
visual sobre el tipo de relacion
entre las variables.
Y
Y
Relacion
inversa
Relacion
logartmica
Relacion
exponencial
Tema 3. Estadstica
Relacion
parabolica
Relacion
lineal
Sin relacion
104 / 353
Distribuciones marginales
A cada una de las distribuciones de las variables que conforman la variable bidimensional se
les llama distribuciones marginales.
Las distribuciones marginales se pueden obtener a partir de la tabla de frecuencias
bidimensional, sumando las frecuencias por filas y columnas.
X \Y
x1
..
.
xi
.
..
xp
ny
Tema 3. Estadstica
y1
n11
..
.
ni 1
.
..
np 1
ny 1
..
.+
.
..
yj
yq
n1 j n1 q
+
.
..
..
. + ..
.
nij niq
. + .
.
..
..
..
npj npq
nyj nyq
nx
nx 1
..
.
nxi
.
..
nxp
n
105 / 353
Distribuciones marginales
Ejemplo con estaturas y pesos
En el ejemplo anterior de las estaturas y los pesos, las distribuciones marginales son
X /Y
[50, 60)
[60, 70)
[70, 80)
[80, 90)
[90, 100)
[100, 110)
nx
(150, 160]
(160, 170]
(170, 180]
(180, 190]
(190, 200]
ny
2
4
1
0
0
7
0
4
6
1
0
11
0
0
3
4
0
7
0
0
1
1
0
2
0
0
0
1
1
2
0
0
0
0
1
1
2
8
11
7
2
30
x = 174,67 cm
y = 69,67 Kg
Tema 3. Estadstica
sx = 10,1 cm
sy = 12,82 Kg
106 / 353
xi x
(xi , yj )
yj y
(x, y)
X
Tema 3. Estadstica
108 / 353
Cuadrante
1
2
3
4
(yj y)
+
+
(xi x)(yj y)
+
+
4
x
Tema 3. Estadstica
109 / 353
Si la relacion
entre las variables es lineal y
decreciente, entonces la mayor parte de los
puntos estaran
en los cuadrantes 1 y 4 y la
suma de los productos de desviaciones
sera negativa.
Relacion
lineal decreciente
Relacion
lineal creciente
X
(xi x)(yj y) = +
Tema 3. Estadstica
(xi x)(yj y) =
110 / 353
Covarianza
Del estudio conjunto de las desviaciones a la media surge el siguiente estadstico de relacion
lineal:
(Covarianza muestral)
Definicion
La covarianza muestral de una variable aleatoria bidimensional (X , Y ) se define como el
promedio de los productos de las respectivas desviaciones a las medias de X e Y .
P
(xi x)(yj y)nij
sxy =
n
Tambien
puede calcularse de manera mas
sencilla mediante la formula
P
xi yj nij
sxy =
xy.
n
La covarianza sirve para estudiar la relacion
lineal entre dos variables:
Si sxy > 0 existe una relacion
lineal creciente entre las variables.
Si sxy < 0 existe una relacion
lineal decreciente entre las variables.
Si sxy = 0 no existe relacion
lineal entre las variables.
Tema 3. Estadstica
111 / 353
Calculo
de la covarianza
Ejemplo con estaturas y pesos
X /Y
[50, 60)
[60, 70)
[70, 80)
[80, 90)
[90, 100)
[100, 110)
nx
(150, 160]
(160, 170]
(170, 180]
(180, 190]
(190, 200]
ny
2
4
1
0
0
7
0
4
6
1
0
11
0
0
3
4
0
7
0
0
1
1
0
2
0
0
0
1
1
2
0
0
0
0
1
1
2
8
11
7
2
30
x = 174,67 cm
y = 69,67 Kg
la covarianza vale
P
xi yj nij
155 55 2 + 165 55 4 + + 195 105 1
sxy =
xy =
174,67 69,67 =
n
30
368200
12169,26 = 104,07 cm Kg,
=
30
lo que indica que existe una relacion
lineal creciente entre la estatura y el peso.
Tema 3. Estadstica
112 / 353
Regresion
independientes,
variable numerica
y = f (x1 , . . . , xn ).
El objetivo es determinar una ecuacion
mediante la que pueda estimarse el valor de la variable
dependiente en funcion
de los valores de las independientes.
El caso mas
sencillo se da cuando solo
hay una variable independiente X , entonces se habla
de regresion
simple. En este caso el modelo que explica la relacion
entre X e Y es una funcion
Tema 3. Estadstica
114 / 353
simple
Modelos de regresion
Polinomica
de grado n
Potencial
Exponencial
Logartmica
Ecuacion
generica
y = a + bx
y = a + bx + cx 2
y = a0 + a1 x + + an x n
y = a xb
y = c a bx
y = c loga bx
La eleccion
de un tipo u otro depende de la forma que tenga la nube de puntos del diagrama
de dispersion.
Tema 3. Estadstica
115 / 353
Una vez elegida la familia de curvas que mejor se adapta a la nube de puntos, se determina,
dentro de dicha familia, la curva que mejor se ajusta a la distribucion.
eij = yj f (xi ).
Tema 3. Estadstica
116 / 353
(xi , yj )
yj
eij = yj f (xi )
f (xi )
Y
xi
X
Tema 3. Estadstica
117 / 353
Metodo
de mnimos cuadrados
de mnimos
que haga mnima la suma de los cuadrados de
cuadrados que consiste en calcular la funcion
los residuos
X
eij2 .
En el caso de un modelo de regresion
lineal f (x ) = a + bx , como la recta depende de dos
parametros
X
X
X
eij2 =
(yj f (xi ))2 =
(yj a bxi )2 .
(a , b ) =
As pues, todo se reduce a buscar los valores a y b que hacen mnima esta suma.
Tema 3. Estadstica
118 / 353
Calculo
de la recta de regresion
Metodo
de mnimos cuadrados
a = y
sxy
sx2
b=
sxy
sx2
Estos valores hacen mnimos los residuos en Y y por tanto dan la recta de regresion
optima.
Tema 3. Estadstica
120 / 353
Recta de regresion
(Recta de regresion)
Definicion
Dada una variable bidimensional (X , Y ), la recta de regresion
de Y sobre X es
y = y +
sxy
sx2
(x x).
La recta de regresion
de Y sobre X es la recta que hace mnimos los errores predictivos en Y ,
y por tanto es la recta que hara mejores predicciones de Y para cualquier valor de X .
Tema 3. Estadstica
121 / 353
Calculo
de la recta de regresion
Ejemplo con estaturas y pesos
Siguiendo con el ejemplo de las estaturas (X ) y los pesos (Y ) con los siguientes estadsticos:
x = 174,67 cm
y = 69,67 Kg
sx = 10,1 cm
sy = 12,82 Kg
y = y +
sxy
sx2
(x x) = 69,67 +
104,07
(x 174,67) = 1,02x 108,49.
102,06
x = x +
Tema 3. Estadstica
sxy
sy2
(y y) = 174,67 +
104,07
(x 69,67) = 0,63y + 130,78.
164,42
122 / 353
Rectas de regresion
Ejemplo de estaturas y pesos
100
110
Rectas de regresion
entre Estaturas y Pesos
80
Peso sobre
Estatura
(x, y)
50
60
70
Peso (Kg)
90
150
160
170
180
190
200
Estatura (cm)
Tema 3. Estadstica
123 / 353
Posicion
Las rectas de regresion
siempre se cortan en le punto de medias (x, y).
Si no hay relacion
lineal, entonces las
ecuaciones de las rectas son
y = y,
x = x,
y se cortan perpendicularmente
Sin relacion
lineal
X sobre Y = Y sobre X
Y sobre X
X sobre Y
X
X
Tema 3. Estadstica
124 / 353
Coeficiente de regresion
(Coeficiente de regresion
byx )
Definicion
Dada una variable bidimensional (X , Y ), el coeficiente de regresion
de la recta de regresion
de
Y sobre X es su pendiente,
sxy
byx = 2
sx
El coeficiente de regresion
siempre tiene el mismo signo que la covarianza y refleja el
crecimiento de la recta de regresion,
ya que da el numero
Tema 3. Estadstica
125 / 353
Predicciones con las rectas de regresion
Ejemplo con estaturas y pesos
Ojo! Para predecir una variable, esta siempre debe considerarse como dependiente en el
modelo de regresion
que se utilice.
As, en el ejemplo de las estaturas y los pesos, si se quiere predecir el peso de una persona
que mide 180 cm, se debe utilizar la recta de regresion
del peso sobre la estatura:
Tema 3. Estadstica
126 / 353
Correlacion
La correlacion
se basa en el estudio de los residuos. Cuanto menores sean estos,
mas
se
ajustara la curva de regresion
a los puntos, y mas
intensa sera la correlacion.
Tema 3. Estadstica
128 / 353
Tema 3. Estadstica
129 / 353
de la variabilidad total:
Descomposicion
Variabilidad explicada y no explicada
Y sobre X
(xi , yj )
yj
f (xi )
Variabilidad
total
yj y
Variabilidad
no explicada
eij = yj f (xi )
Variabilidad
explicada
f (xi ) y
xi
X
Tema 3. Estadstica
130 / 353
Coeficiente de determinacion
A partir de la varianza residual se puede definir otro estadstico mas
sencillo de interpretar.
(Coeficiente de determinacion
muestral)
Definicion
Dado un modelo de regresion
simple y = f (x ) de una variable bidimensional (X , Y ), su
coeficiente de determinacion
muestral es
r2 = 1
2
sry
sy2
El coeficiente de determinacion
mide la proporcion
de variabilidad de la variable dependiente
explicada por el modelo de regresion,
y por tanto,
0 r2 1
la relacion
entre las variables, en
Cuanto mayor sea r 2 , mejor explicara el modelo de regresion
particular:
Si r 2 = 0 entonces no existe relacion
del tipo planteado por el modelo.
que plantea el modelo es perfecta.
Si r 2 = 1 entonces la relacion
Tema 3. Estadstica
132 / 353
Coeficiente de correlacion
(Coeficiente de correlacion
muestral)
Definicion
Dado un modelo de regresion
simple y = f (x ) de una variable bidimensional (X , Y ), su
coeficiente de correlacion
muestral es la raz cuadrada de su coeficiente de determinacion,
con
signo el de la covarianza
r = r2
Como r 2 toma valores entre 0 y 1, el coeficiente de correlacion
tomara valores entre -1 y 1:
1 r 1
El coeficiente de correlacion
tambien
mide el grado de dependencia segun
la relacion
Tema 3. Estadstica
133 / 353
lineal
Coeficiente de determinacion
En el caso de las rectas de regresion,
la varianza residual vale
2
sry
=
eij2 fij =
yj y
sxy
!2
(xi x) fij =
sx2
2
X
sxy
sxy
=
(yj y)2 + 4 (xi x)2 2 2 (xi x)(yj y) fij =
sx
sx
=
= sy2 +
2
sxy
sx4
sx2 2
2 X
sxy
sxy X
(xi x)2 fij 2 2
(xi x)(yj y)fij =
sx4
sx
sxy
sx2
sxy = sy2
2
sxy
sx2
r2 = 1
2
sry
sy2
=1
y el de correlacion
lineal r = r 2 =
Tema 3. Estadstica
sy2
2
sxy
sy2
2
sxy
sx2 sy2
sx2
=11+
2
sxy
sx2 sy2
2
sxy
sx2 sy2
sxy
.
sx sy
134 / 353
lineal
Calculo
del coeficiente de determinacion
Ejemplo de estaturas y pesos
x = 174,67 cm
y = 69,67 Kg
sx = 10,1 cm
sy = 12,82 Kg
r2 =
2
sxy
sx2 sy2
(104,07cm Kg)2
= 0,65.
el coeficiente de correlacion
lineal vale
r=
sxy
104,07 cm Kg
= +0,8.
=
sx sy
10,1 cm 12,82 Kg
Tema 3. Estadstica
135 / 353
Fiabilidad de las predicciones de un modelo de regresion
para el rango de
valores observados en la muestra. Fuera de ese rango no hay informacion
del tipo de relacion
entre las variables, por lo que no deben hacerse predicciones para valores lejos de los
observados en la muestra.
Tema 3. Estadstica
136 / 353
no lineal
Regresion
Tema 3. Estadstica
138 / 353
de bacterias de un cultivo
El numero
250
Bacterias
200
150
100
Bacterias
25
28
47
65
86
121
190
290
362
50
Horas
0
1
2
3
4
5
6
7
8
300
350
Diagrama de dispersion
de Horas y Bacterias
Horas
Tema 3. Estadstica
139 / 353
de bacterias de un cultivo
300
200
150
Bacterias
250
r 2 = 0,85
100
Bacterias
25
28
47
65
86
121
190
290
362
50
Horas
0
1
2
3
4
5
6
7
8
350
Regresion
lineal Bacterias sobre Horas
Horas
Es un buen modelo?
Tema 3. Estadstica
140 / 353
de bacterias de un cultivo
z = log y , es
Para construir el modelo exponencial y = ae bx hay que realizar la transformacion
decir, aplicar el logaritmo a la variable dependiente.
5.0
4.5
Log Bacterias
Log Bacterias
3,22
3,33
3,85
4,17
4,45
4,80
5,25
5,67
5,89
4.0
Bacterias
25
28
47
65
86
121
190
290
362
3.5
Horas
0
1
2
3
4
5
6
7
8
5.5
Diagrama de dispersion
de Horas y Bacterias
Horas
Tema 3. Estadstica
141 / 353
de bacterias de un cultivo
300
350
Regresion
exponencial Bacterias sobre Horas
Bacterias
200
150
100
50
r 2 = 0,99
250
Horas
Tema 3. Estadstica
142 / 353
de un coeficiente de determinacion
pequeno
Interpretacion
y = 0,02x + 4,07
r 2 = 0,97
6
5
Y
4
3
2
r2 = 0
Tema 3. Estadstica
10
10
143 / 353
Datos atpicos en regresion
En un estudio de regresion
es posible que aparezca algun
individuo que se aleja notablemente
de la tendencia del resto de individuos en la nube de puntos.
Aunque el individuo podra no ser un dato atpico al considerar las variables de manera
separada, si lo sera al considerarlas de manera conjunta.
10
Diagrama de dispersion
con datos atpicos
Dato atpico
10
Tema 3. Estadstica
144 / 353
Influencia de los datos atpicos en los modelos de regresion
Los datos atpicos en regresion
suelen provocar cambios drasticos
10
Recta de regresion
sin datos atpicos
10
Recta de regresion
con datos atpicos
y = 0,49x + 4,89
r 2 = 0,98
y = 0,19x + 4,21
r 2 = 0,08
Tema 3. Estadstica
10
10
145 / 353
Tema 3. Estadstica
147 / 353
de Spearman
Coeficiente de correlacion
Cuando se tengan atributos ordinales es posible ordenar sus categoras y asignarles valores
ordinales, de manera que se puede calcular el coeficiente de correlacion
lineal entre estos
valores ordinales.
Esta medida de relacion
entre el orden que ocupan las categoras de dos atributos ordinales
se conoce como coeficiente ce correlacion
de Spearman, y puede demostrarse facilmente que
puede calcularse a partir de la siguiente formula
(Coeficiente de correlacion
de Spearman)
Definicion
Dada una muestra de n individuos en los que se han medido dos atributos ordinales X e Y , el
coeficiente de correlacion
de Spearman se define como:
P
6 di2
,
rs =
n (n 2 1)
donde di es la diferencia entre el valor ordinal de X y el valor ordinal de Y del individuo i .
Tema 3. Estadstica
148 / 353
se tiene:
1 rs 1,
de manera que:
Si r = 0 entonces no existe relacion
entre los atributos ordinales.
Si r = 1 entonces los ordenes
inversa perfecta.
En general, cuanto mas
cerca de 1 o 1 este rs , mayor sera la relacion
entre los atributos, y
cuanto mas
cerca de 0, menor sera la relacion.
Tema 3. Estadstica
149 / 353
de Spearman
Calculo
del coeficiente de correlacion
Ejemplo
X
2
5
1
3
4
Y
3
4
2
1
5
di
1
1
1
2
1
0
di2
1
1
1
4
1
8
El coeficiente de correlacion
de Spearman para esta muestra es
P
6 di2
68
= 0,6,
rs = 1
= 1
n (n 2 1)
5(52 1)
lo que indica que existe bastante relacion
directa entre las destrezas manifestadas en ambas
tareas.
Tema 3. Estadstica
150 / 353
de Spearman
Calculo
del coeficiente de correlacion
Ejemplo con empates
Cuando hay empates en el orden de las categoras se atribuye a cada valor empatado la
media aritmetica
X
2
5
1
3,5
3,5
Y
3
4
1,5
1,5
5
di
1
1
0,5
2
1,5
0
di2
1
1
0,25
4
2,25
8,5
El coeficiente de correlacion
de Spearman para esta muestra es
P
6 di2
6 8,5
=1
rs = 1
= 0,58.
n (n 2 1)
5(52 1)
Tema 3. Estadstica
151 / 353
de fumar se ha
tomado una muestra de 100 personas. La tabla de contingencia resultante es
Sexo\Fuma
Mujer
Hombre
nj
Si
12
26
38
No
28
34
62
ni
40
60
100
Si el habito
Tema 3. Estadstica
152 / 353
Frecuencias teoricas
o esperadas
En general, dada una tabla de contingencia para dos atributos X e Y ,
X \Y
x1
..
.
xi
.
..
xp
ny
y1
n11
..
.
ni 1
.
..
np 1
ny 1
..
.
..
.
yj
n1 j
..
.
nij
.
..
npj
ny j
..
.
..
.
yq
n1 q
..
.
niq
.
..
npq
ny q
nx
nx 1
..
.
nx i
.
..
nx p
n
ny j
n1 j
n2 j
npj
n1j + + npj
=
= =
=
=
,
nx1
nx 2
nx p
nx 1 + + nx p
n
de donde se deduce que
nij =
nx i ny j
n
A esta ultima
expresion
se le llama frecuencia teorica
Tema 3. Estadstica
153 / 353
Coeficiente chi-cuadrado 2
(Coeficiente chi-cuadrado 2 )
Definicion
Dada una muestra de tamano
n en la que se han medido dos atributos X e Y , se define el
coeficiente 2 como
nx ny 2
p X
q
nij in j
X
,
2 =
nx ny
i =1 j =1
de categoras de X y q el numero
de categoras de Y .
donde p es el numero
Por ser suma de cuadrados, se cumple que
2 0,
de manera que 2 = 0 cuando las variables son independientes, y crece a medida que
aumenta la dependencia entre las variables.
Tema 3. Estadstica
154 / 353
Calculo
del coeficiente chi-cuadrado 2
Ejemplo
Si
12
26
38
No
28
34
62
ni
40
60
100
nj
Si
4038
100
6038
100
= 15,2
= 22,8
38
4062
100
6062
100
No
ni
= 24,8
40
= 37,2
60
62
100
y el coeficiente 2 vale
2 =
(28 24,8)2
(26 22,8)2
(34 37,2)2
(12 15,2)2
+
+
+
= 1,81,
15,2
24,8
22,8
37,2
de fumar.
Tema 3. Estadstica
155 / 353
Coeficiente de contingencia
(Coeficiente de contingencia)
Definicion
Dada una muestra de tamano
n en la que se han medido dos atributos X e Y , se define el
coeficiente de contingencia como
s
C=
Tema 3. Estadstica
2
2 + n
156 / 353
De la definicion
anterior se deduce que
0 C 1,
de manera que cuando C = 0 las variables son independientes, y crece a medida que
aumenta la relacion.
coeficiente de contingencia es (2 1)/2 = 1/2 = 0,707, y como 0,13 esta bastante lejos
de este valor, se puede concluir que no existe demasiada relacion
entre el habito
de fumar y el
sexo.
Tema 3. Estadstica
157 / 353
Combinatoria
Combinatoria
Variaciones con repeticion
Variaciones
Permutaciones
Permutaciones con repeticion
combinatorios
Combinaciones con repeticion
Ejercicios Resueltos
Ejercicios propuestos
Tema 3. Estadstica
158 / 353
Introduccion
La Combinatoria estudia las diferentes formas en que se puede llevar a cabo una cierta tarea
de ordenacion
o agrupacion
de unos cuantos objetos siguiendo unas reglas prefijadas.
Es una herramienta muy importante en el calculo
Tema 3. Estadstica
159 / 353
Variaciones con repeticion
total de estas
se nota por
variaciones con repeticion
de m elementos tomados n a n ; el numero
n
VRm,n y es igual a m .
Ejemplo
El numero
de quinielas de futbol que hay que hacer para acertar 15 con seguridad es:
VR3,15 = 315 . Esto es as, puesto que los resultados posibles son tres: el 1, la x y el 2, en cada
uno de los quince partidos que conforman la quiniela.
Tema 3. Estadstica
161 / 353
Variaciones
Sean m elementos a1 , a2 , . . . , am . Se pretende ocupar n lugares con ellos de modo que cada
elemento solo
ocupe un lugar. (En este caso ha de ser n < m). Las distintas disposiciones se
es:
llaman variaciones de m elementos tomados n a n , formalmente Vm,n y su numero
Vm,n = m(m 1)(m 2) . . . (m n + 1). O lo que es lo mismo:
Vm,n =
m!
.
(m n )!
Ejemplo
En una quiniela hpica hay que acertar los tres primeros caballos que llegan a meta en una
carrera en la que hay diez competidores. El numero
Tema 3. Estadstica
163 / 353
Permutaciones
total de estas
se nota por
se pueden realizar con los n elementos. El numero
Pn = n (n 1)(n 2) . . . 2 1.
A este numero
Ejemplo
Si se tienen que colocar siete libros en una librera se puede hacer de P7 = 7! = 5,040 formas
distintas.
Tema 3. Estadstica
165 / 353
Permutaciones con repeticion
m!
1 !2 ! . . . n !
Ejemplo
Si se desea repartir 3 relojes, 2 bicicletas y 4 pelotas entre 9 ninos,
Tema 3. Estadstica
167 / 353
Combinaciones
total de ellas
selecciones se llaman combinaciones de m elementos tomados n a n . El numero
se representa por Cm,n , siendo su valor igual a:
Cm,n =
Vm,n
m!
=
.
Pn
(m n )!n !
Ejemplo
En una carrera donde compiten 10 corredores y se clasifican los tres primeros para la fase
siguiente, puede haber tantas combinaciones de clasificados como C10,3 = 120.
Tema 3. Estadstica
169 / 353
Propiedades de los numeros
combinatorios
!
!
m
m
=
=1
0
m
!
!
m
m
=
n
mn
!
!
!
m1
m1
m
+
=
n1
n
n
Tema 3. Estadstica
171 / 353
Combinaciones con repeticion
Ejemplo
Si se dispone de 3 bolas iguales a las que hay que distribuir en 5 cajas distinguibles, se
pueden hacer tantas combinaciones como (73) = 35.
Observe que los elementos son las cajas y que el que una bola este dentro de una caja solo
significa que esa caja es una de las tres seleccionadas. Si las tres bolas estuvieran en la
misma caja, se seleccionara dicha caja tres veces.
Tema 3. Estadstica
173 / 353
Ejercicio Resuelto
Ejercicio
En un instituto los alumnos de 2 de Bachillerato deciden realizar un sorteo para el viaje de fin
de curso. Para numerar las papeletas deciden utilizar unicamente
los dgitos 1, 2, 3, 4, 5.
Cuantas
Tema 3. Estadstica
175 / 353
del Ejercicio
Solucion
En esta situacion
al influir el orden y no aparecer dgitos repetidos en un mismo numero,
de
VR5,4 = 54 = 625.
intervendran
todos en cada numero,
por lo que
4!
se trata de permutaciones con repeticion,
PR4 3, 1 = 3!1!
= 4.
Se trata de permutaciones ordinarias de 4 elementos tomados de cuatro en cuatro,
P4 = 4! = 24
Para obtener su numero
se obtiene como
combinaciones sin repeticion
de 5 elementos tomados de cuatro en cuatro, C5,4 = (54) = 5
Igual que en el caso anterior no influye el orden, pero se pueden repetir los valores, por lo
tanto se trata de combinaciones con repeticion
de 5 elementos tomados de 4 en 4,
CR5,4 = (5+41
4 ) = 70
Tema 3. Estadstica
176 / 353
Ejercicios propuestos
Ejercicio
Con las cifras l, 2, 3, 4, 5, cuantos
numeros
Ejercicio
De cuantas
formas distintas puede colocarse un equipo de futbol para hacerse una foto,
sabiendo que seis jugadores permanecen de pie y el resto en cuclillas delante de los primeros
y que el portero siempre se situa de pie?
Ejercicio
Suponga que le hacen el encargo de disenar
la bandera de un nuevo pas, para lo que dispone
de cinco colores; si la bandera debe tener tres bandas horizontales de igual anchura, cuantas
Ejercicio
Un automovil
de cinco plazas esta ocupado por dos conductores y tres no conductores.
Sabiendo que los dos conductores no pueden ocupar simultaneamente las dos plazas
delanteras, de cuantas
Tema 3. Estadstica
178 / 353
Ejercicios propuestos
Ejercicio
En un congreso de Estadstica al que asisten 40 personas se han habilitado tres salas para
defender, simultaneamente, las ponencias. De cuantas
Ejercicio
El jefe de cocina de un comedor universitario dispone de cinco primeros platos, ocho
segundos y cuatro postres, para combinarlos y formar menus
en el mes de Noviembre.
Cuantos
menus
diferentes puede confeccionar?
Ejercicio
De cuantas
Ejercicio
En una competicion
de tenis hay 32 inscritos, de cuantas
Tema 3. Estadstica
179 / 353
Ejercicios propuestos
Ejercicio
En una compan
a de baile hay diez hombres y diez mujeres. Cuantas
Ejercicio
Cuantas
Ejercicio
Obtenga el numero
Ejercicio
Durante un debate 8 personas se sientan en una mesa redonda, de cuantas
formas distintas
se pueden colocar? Conteste a la anterior cuestion
si la mesa tiene forma de herradura.
Ejercicio
Una marca de vehculos a motor dispone de 15 probadores de automoviles,
12 de
motocicletas y 6 de camiones. Por cuestiones operativas, se forman equipos con 5 probadores
de coche, 3 de motocicletas y 2 de camiones. Cuantos
180 / 353
Teora de la Probabilidad
Teora de la Probabilidad
Experimentos y sucesos aleatorios
Teora de conjuntos
Definicion
de probabilidad
Probabilidad condicionada
Dependencia e independencia de sucesos
Teorema de la probabilidad total
Teorema de Bayes
Tests diagnosticos
Tema 3. Estadstica
181 / 353
Introduccion
Tema 3. Estadstica
182 / 353
(Experimento aleatorio)
Definicion
Un experimento aleatorio es aquel en el que se conoce cual
es el conjunto de resultados
posibles antes de su realizacion
pero se desconoce cual
sera el resultado concreto del mismo.
Un ejemplo sencillo de experimentos aleatorios son los juegos de azar. Por ejemplo, el
lanzamiento de un dado es un experimento aleatorio ya que:
Se conoce el conjunto posibles de resultados {1, 2, 3, 4, 5, 6}.
Antes de lanzar el dado, es imposible predecir con absoluta certeza el valor que saldra.
Tema 3. Estadstica
184 / 353
Espacio muestral
(Espacio muestral)
Definicion
Al conjunto E de todos los posibles resultados de un experimento aleatorio se le llama espacio
muestral.
Algunos ejemplos de espacios muestrales son:
Lanzamiento de una moneda: E = {c , x }.
Tema 3. Estadstica
185 / 353
Sexo
Mujer
Hombre
Tema 3. Estadstica
Grupo
(Mujer,A)
(Mujer,B)
AB
(Mujer,AB)
(Mujer,0)
(Hombre,A)
(Hombre,B)
AB
(Hombre,AB)
(Hombre,0)
186 / 353
Sucesos aleatorios
(Suceso aleatorio)
Definicion
Un suceso aleatorio es cualquier subconjunto del espacio muestral E de un experimento
aleatorio.
Existen distintos tipos de sucesos:
Suceso imposible: Es el subconjunto vaco . El suceso nunca ocurre.
Tema 3. Estadstica
187 / 353
Espacio de sucesos
(Espacio de sucesos)
Definicion
Dado un espacio muestral E de un experimento aleatorio, el conjunto formado por todos los
posibles sucesos de E se llama espacio de sucesos de E y se denota P(E ).
Ejemplo. Dado el espacio muestral E = {a , b , c }, se tiene
P(E ) = {, {a }, {b }, {c }, {a , b }, {a , c }, {b , c }, {a , b , c }}
Tema 3. Estadstica
189 / 353
Puesto que los sucesos son conjuntos, por medio de la teora de conjuntos se pueden definir
las siguientes operaciones entre sucesos:
Union.
Interseccion.
Diferencia.
Diferencia simetrica.
Complementario.
Tema 3. Estadstica
190 / 353
de sucesos
Union
(Suceso union)
Definicion
Dados dos sucesos A , B P(E ), se llama suceso union
de A y B , y se denota A B , al
suceso formado por los elementos de A junto a los elementos de B , es decir,
A B = {x | x A o x B }.
E
B
A
A B
El suceso union
A B ocurre siempre que ocurre A o B .
de un dado, y A = {2, 4, 6} y
B = {1, 2, 3, 4}. Entonces A B = {1, 2, 3, 4, 6}.
Tema 3. Estadstica
191 / 353
de sucesos
Interseccion
(Suceso interseccion)
Definicion
Dados dos sucesos A , B P(E ), se llama suceso interseccion
de A y B , y se denota A B , al
suceso formado por los elementos comunes de A y B , es decir,
A B = {x | x A y x B }.
E
B
A
A B
El suceso interseccion
A B ocurre siempre que ocurren A y B .
de un dado, y A = {2, 4, 6} y
B = {1, 2, 3, 4}. Entonces A B = {2, 4}.
Diremos que dos sucesos son incompatibles si su interseccion
es vaca. Por ejemplo
A = {2, 4, 6} y C = {1, 3} son incompatibles.
Tema 3. Estadstica
192 / 353
Diferencia de sucesos
(Suceso diferencia)
Definicion
Dados dos sucesos A , B P(E ), se llama suceso diferencia de A y B , y se denota A B , al
suceso formado por los elementos de A que no pertenecen a B , es decir,
A B = {x | x A y x < B }.
E
A
B
A B
de un dado, y A = {2, 4, 6} y
B = {1, 2, 3, 4}. Entonces A B = {6}.
Tema 3. Estadstica
193 / 353
Contrario de un suceso
(Suceso contrario)
Definicion
,
Dado un conjunto A P(E ), se llama suceso contrario o complementario de A , y se denota A
al suceso formado por los elementos de E que no pertenecen a A , es decir,
A = {x | x < A }.
E
A
Tema 3. Estadstica
194 / 353
Algebra
de sucesos
A A = A , A A = A (idempotencia).
A B = B A , A B = B A (conmutativa).
(A B ) C = A (B C ), (A B ) C = A (B C ) (asociativa).
(A B ) C = (A C ) (B C ), (A B ) C = (A C ) (B C ) (distributiva).
A = A , A E = A (elemento neutro).
A E = E , A = (elemento absorvente).
A A = E , A A = (elemento simetrico
complementario).
A = A (doble contrario).
A B = A B , A B = A B (leyes de Morgan).
10
A B A B.
Tema 3. Estadstica
195 / 353
clasica
Definicion
de probabilidad
(Probabilidad Clasica
Definicion
de Laplace)
Para un experimento aleatorio donde todos los elementos del espacio muestral E son
de elementos de E :
de elementos de A y el numero
P (A ) =
n casos favorables a A
|A |
=
|E |
n casos posibles
Esta definicion
es ampliamente utilizada, aunque tiene importantes restricciones:
No puede utilizarse con espacios muestrales infinitos, o de los que no se conoce el
numero
de casos posibles.
Es necesario que todos los elementos del espacio muestral tengan la misma probabilidad
de ocurrir (equiprobabilidad).
Tema 3. Estadstica
197 / 353
frecuentista de probabilidad
Definicion
que es
precisamente su probabilidad.
De acuerdo al teorema anterior, podemos dar la siguiente definicion
(Probabilidad frecuentista)
Definicion
Para un experimento aleatorio reproducible, se define la probabilidad de un suceso A E
como la frecuencia relativa del suceso A en infinitas repeticiones del experimento:
P (A ) = lm
nA
n
Tema 3. Estadstica
198 / 353
axiomatica
Definicion
de probabilidad
(Kolmogorov)
Definicion
Se llama probabilidad a toda aplicacion
que asocia a cada suceso A del espacio de sucesos
de un experimento aleatorio, un numero
P (A ) 0.
2
La probabilidad de la union
de dos sucesos incompatibles es igual a la suma de las
probabilidades de cada uno de ellos:
P (A B ) = P (A ) + P (B ).
3
P (E ) = 1.
Tema 3. Estadstica
199 / 353
) = 1 P (A ).
P (A
P () = 0.
Si A B entonces P (A ) P (B ).
P (A ) 1.
P (A B ) = P (A ) + P (B ) P (A B ).
6
P (A ) =
n
X
P (ei ).
i =1
Tema 3. Estadstica
200 / 353
Experimentos condicionados
P (A /B )
Los condicionantes, en el fondo, cambian el espacio muestral del experimento y por tanto las
probabilidades de sus sucesos.
Ejemplo. Supongamos que hemos observado las siguientes frecuencias de aprobados en un
grupo de 100 hombres y 100 mujeres:
Mujeres
Hombres
Aprobados
80
60
Suspensos
20
40
Tema 3. Estadstica
202 / 353
Probabilidad condicionada
(Probabilidad condicionada)
Definicion
Dados dos sucesos A y B de un mismo espacio de sucesos de un experimento aleatorio, la
probabilidad condicionada de A por B es
P (A /B ) =
P (A B )
,
P (B )
siempre y cuando, P (B ) , 0.
Esta definicion
permite calcular probabilidades sin tener que alterar el espacio muestral
original del experimento.
Ejemplo. En el ejemplo anterior se tiene que la probabilidad condicionada del suceso
Aprobado por el suceso Mujer es
P (Aprobado/Mujer) =
P (Aprobado Mujer)
80/200
80
=
=
= 0,8.
P (Mujer)
100/200
100
De esta definicion
se deduce que la probabilidad de la interseccion
es
P (A B ) = P (A )P (B /A ) = P (B )P (A /B ).
Tema 3. Estadstica
203 / 353
Independencia de sucesos
(Sucesos independientes)
Definicion
Dados dos sucesos A y B de un mismo espacio de sucesos de un experimento aleatorio, se
dice que A es independiente de B , si la probabilidad de A no se ve alterada al condicionar por
B , es decir,
P (A /B ) = P (A ).
se cumple que B es independiente de A , y en general
Si A es independiente de B , tambien
simplemente se dice que A y B son independientes.
Tambien
se cumple que si A y B son independientes, entonces
P (A B ) = P (A )P (B ).
Tema 3. Estadstica
205 / 353
Arboles
de probabilidad
Ya se vio que en experimentos donde se meda mas
de una variable, era conveniente construir
el espacio muestral mediante un diagrama de arbol.
P (B )
Tema 3. Estadstica
(A , C )
P (A )P (C /A )
(A , D )
P (A )P (D /A )
(B , C )
P (B )P (C /B )
(B , D )
P (B )P (D /B )
P (D /A )
P (C /B )
P (D /B )
206 / 353
Arboles
de probabilidad con variables dependientes
Ejemplo de dependencia del cancer
de
pulmon
en fumadores es del 40 % mientras que en los no fumadores es del 10 %.
El arbol
0,3
Fuma
0,7
Tema 3. Estadstica
Cancer
(Fuma,Cancer)
Cancer
(Fuma,Cancer)
Cancer
(Fuma,Cancer)
Cancer
(Fuma,Cancer)
0,6
0,1
Fuma
Enfermedad
0,9
207 / 353
Arboles
de probabilidad con variables independientes
Ejemplo de independencia en el lanzamiento de dos monedas
El arbol
0,5
0,5
Tema 3. Estadstica
(C,C)
(C,X)
(X,C)
(X,X)
0,5
0,5
0,5
2 Moneda
0,5
208 / 353
Arboles
de probabilidad con variables independientes
Ejemplo de independencia en la eleccion
de una muestra aleatoria de tamano
2
de probabilidad:
1 Persona
2 Persona
3 Persona E
0,4
0,4
0,4
(H,H,H)
(H,H,M)
(H,M,H)
(H,M,M)
(M,H,H)
(M,H,M)
(M,M,H)
(M,M,M)
0,6
0,4
0,6
0,6
0,4
0,6
0,4
0,4
0,6
Tema 3. Estadstica
0,6
0,6
209 / 353
La union
de todos es el espacio muestral: A1 An = E .
Son incompatibles dos a dos: Ai Aj = i , j .
A1
A2
An
Tema 3. Estadstica
211 / 353
A1
Tema 3. Estadstica
A2
An
212 / 353
La demostracion
del teorema es sencilla, ya que al ser A1 , . . . , An un sistema completo
tenemos
B = B E = B (A1 An ) = (B A1 ) (B An )
y como estos sucesos son incompatibles entre si, se tiene
P (B ) = P ((B A1 ) (B An )) = P (B A1 ) + + P (B An ) =
= P (A1 )P (B /A1 ) + + P (An )P (B /An ) =
Tema 3. Estadstica
n
X
P (Ai )P (B /Ai ).
i =1
213 / 353
Un determinado sntoma B puede ser originado por una enfermedad A pero tambien
lo
pueden presentar las personas sin la enfermedad. Sabemos que en la poblacion
la tasa de
personas con la enfermedad A es 0,2. Ademas,
de las personas que presentan la enfermedad,
el 90 % presentan el sntoma, mientras que de las personas sin la enfermedad solo lo
presentan el 40 %.
Si se toma una persona al azar de la poblacion,
que probabilidad hay de que tenga el
sntoma?
Para responder a la pregunta hay que fijarse en que el conjunto de sucesos {A , A } es un
sistema completo, ya que A A = E y A A = , de modo que se puede aplicar el teorema
de la probabilidad total:
Tema 3. Estadstica
214 / 353
con el arbol
de probabilidad
de probabilidad del
experimento.
Enfermedad
0,9
0,2
0,8
(A , B )
(A , B )
(A , B )
(A , B )
0,1
0,4
Sntoma
0,6
Tema 3. Estadstica
215 / 353
Teorema de Bayes
Teorema (Bayes)
Dado un sistema completo de sucesos A1 , . . . , An y un suceso B de un mismo espacio de
sucesos, se cumple
P (Ai B )
P (Ai )P (B /Ai )
P (Ai /B ) =
.
= Pn
P (B )
i =1 P (Ai )P (B /Ai )
Tema 3. Estadstica
217 / 353
Teorema de Bayes
Un ejemplo de diagnostico
En el ejemplo anterior se ha visto como calcular la probabilidad de que una persona al azar
presente el sntoma, pero desde un punto de vista de diagnostico
interesante es:
Si llega la consulta una persona que presenta el sntoma, que se debe diagnosticar?
En este caso, las hipotesis
sera
que no tiene la enfermedad pues es mucho mas
probable que que la tenga.
Sin embargo, si al reconocer a la persona se observa que presenta el sntoma, dicha
informacion
condiciona a las hipotesis,
P (A /B ) y P (A /B )
Tema 3. Estadstica
218 / 353
Teorema de Bayes
Un ejemplo de diagnostico
P (A /B ) =
P (A /B ) =
P (A )P (B /A )
P (A )P (B /A ) + P (A )P (B /A )
P (A )P (B /A )
P (A )P (B /A ) + P (A )P (B /A )
0,18
0,2 0,9
=
= 0,36,
0,2 0,9 + 0,8 0,4
0,5
0,8 0,4
0,32
=
= 0,64.
0,2 0,9 + 0,8 0,4
0,5
Segun
esto, a pesar de que la probabilidad de estar enfermo ha aumentado, seguiramos
diagnosticando que no lo esta, puesto que es mas
probable.
En este caso se dice que el sntoma B no es determinante a la hora de diagnosticar la
enfermedad, pues la informacion
que aporta no sirve para cambiar el diagnostico
en ningun
caso.
Tema 3. Estadstica
219 / 353
Tests diagnosticos
En epidemiologa es comun
el uso de tests para diagnosticar enfermedades.
Generalmente estos tests no son totalmente fiables, sino que hay cierta probabilidad de
acierto o fallo en el diagnostico,
Test positivo
(+)
Test negativo
()
Presencia de la
enfermedad (E )
Diagnostico
acertado
P (+/E )
Sensibilidad
Diagnostico
erroneo
P (/E )
Ausencia de la
enfermedad (E )
Diagnostico
erroneo
P (+/E )
Diagnostico
acertado
P (/E )
Especificidad
Tema 3. Estadstica
220 / 353
Ejemplo
Un test para diagnosticar la gripe tiene una sensibilidad del 95 % y una especificidad del 90 %.
Segun
esto, las probabilidades de acierto y fallo del test son:
Test +
Test
Gripe
0,95
0,05
No gripe
0,10
0,90
P (Gripe/+) =
P (Gripe)P (+/Gripe)
Tema 3. Estadstica
222 / 353
Variables aleatorias
Variables Aleatorias
Variables Aleatorias Discretas
Distribucion
Uniforme
Distribucion
Binomial
Distribucion
de Poisson
Variables aleatorias continuas
Distribucion
Uniforme continua
Distribucion
Normal
Distribucion
Chi-cuadrado
Distribucion
T de Student
Distribucion
F de Fisher-Snedecor
Tema 3. Estadstica
223 / 353
Variable aleatoria
(Variable Aleatoria)
Definicion
Una variable aleatoria X es una funcion
que asocia un numero
X :ER
Al conjunto de posibles valores que puede tomar la variable aleatoria se le llama rango o
recorrido de la variable.
En el fondo, una variable aleatoria es una variable cuyos valores provienen de la realizacion
de
un experimento aleatorio, y por tanto, tendra asociada una determinada probabilidad.
Un ejemplo de variable aleatoria es la que mide el resultado del lanzamiento de un dado.
Tema 3. Estadstica
224 / 353
Variable aleatoria
de hijos, numero
de accidentes, numero
de cigarrillos, etc.
Continuas (VAC): Toman valores en un intervalo real.
Ejemplo. Peso, estatura, nivel de colesterol, tiempo de respuesta a un
farmaco, etc.
Los modelos probabilsticos de cada tipo de variables tienen caractersticas diferenciadas y
por eso se estudiaran
por separado.
Tema 3. Estadstica
225 / 353
Como los valores de una variable aleatoria estan asociados a los sucesos elementales del
correspondiente experimento aleatorio, cada valor tendra asociada una probabilidad.
(Funcion
de probabilidad)
Definicion
La funcion
de probabilidad de una variable aleatoria discreta X es una funcion
f (x ) que asocia
a cada valor su probabilidad
f (xi ) = P (X = xi ).
Las probabilidades tambien
pueden acumularse, al igual que se acumulaban las frecuencias
en las muestras.
(Funcion
de distibucion)
Definicion
La funcion
de distribucion
de una variable aleatoria discreta X es una funcion
F (x ) que asocia
a cada valor xi la probabilidad de que la variable tome un valor menor o igual que dicho valor.
Tema 3. Estadstica
227 / 353
f (x )
f (x1 )
f (x2 )
f (xn )
1
F (x ) F (x1 ) F (x2 ) F (xn ) = 1
Al igual que la distribucion
de frecuencias de una variable reflejaba como
se distribuan los
valores de la variable en una muestra, la distribucion
de probabilidad de una variable aleatoria
sirve para reflejar como
Tema 3. Estadstica
228 / 353
2.Moneda
(C,C)
0,25
(C,X)
0,25
(X,C)
0,25
(X,X)
0,25
0,5
0,5
0,5
0,5
y segun
esto, su distribucion
de probabilidad es
X
f (x )
F (x )
Tema 3. Estadstica
0
0,25
0,25
1
0,5
0,75
2
0,25
1
0,25
F (x ) =
0,75
si x < 0
si 0 x < 1
si 1 x < 2
si x 2
229 / 353
de probabilidad
Grafico
de la funcion
Ejemplo del lanzamiento de dos monedas
Tanto la funcion
de probabilidad como la de distribucion
tambien
suelen representarse
graficamente:
0.6
0.2
0.0
0.0
0.5
1.0
N. de caras
Tema 3. Estadstica
0.4
Probabilidad acumulada
0.3
0.2
0.0
0.1
Probabilidad
0.4
0.8
0.5
1.0
1.5
2.0
0.0
0.5
1.0
1.5
2.0
N. de caras
230 / 353
Estadsticos poblacionales
Al igual que para describir las muestras se utilizan estadsticos descriptivos, para describir
determinadas caractersticas de las distribuciones de probabilidad de las variables aleatorias
se utilizan tambien
estadsticos.
La definicion
de los estadsticos poblacionales es analoga
= E (X ) =
n
X
xi f (xi )
i =1
Varianza:
2 = Var (X ) =
n
X
i =1
Desviacion
tpica:
xi2 f (xi ) 2
p
= + 2
231 / 353
Estadsticos poblacionales
Ejemplo de calculo
X
f (x )
F (x )
0
0,25
0,25
1
0,5
0,75
2
0,25
1
n
X
i =1
n
X
i =1
p
= + 0,5 = 0,71 caras.
Tema 3. Estadstica
232 / 353
de probabilidad
Modelos de distribucion
Tema 3. Estadstica
233 / 353
Uniforme U (a , b )
Distribucion
Cuando por la simetra del experimento, todos los valores a = x1 , . . . , xk = b de una variable
discreta X son igualmente probables, se dice que la variable sigue un modelo de distribucion
uniforme,
(Distribucion
uniforme U (a , b ))
Definicion
Se dice que una variable aleatoria X sigue un modelo de distribucion
uniforme de parametros
k
X
xi
i =1
Tema 3. Estadstica
1
k
2 =
k
X
i =1
1
(xi )2 .
k
235 / 353
Uniforme U (a , b )
Distribucion
Ejemplo del lanzamiento de un dado
0.10
0.00
0.05
Probabilidad f (x )
0.15
0.20
Funcion
de probabilidad de una Uniforme U (1, 6)
Tema 3. Estadstica
236 / 353
Binomial
Distribucion
(E ) o fracaso (F ).
Los ensayos son independientes, por lo que el resultado de cualquier ensayo en particular
no influye sobre el resultado de cualquier otro intento.
La probabilidad de exito
es identica
de exitos
obtenidos en los n
ensayos sigue un modelo de distribucion
binomial.
Tema 3. Estadstica
238 / 353
Binomial B (n, p )
Distribucion
(Distribucion
Binomial (B (n, p ))
Definicion
Se dice que una variable aleatoria X sigue un modelo de distribucion
binomial de parametros
n
y p , si su recorrido es Re (X ) = {0, 1, ..., n }, y su funcion
de probabilidad vale
!
n x
f (x ) =
p (1 p )nx .
x
Su media y varianza valen
=np
Tema 3. Estadstica
2 = n p (1 p ).
239 / 353
Binomial B (n, p )
Distribucion
Ejemplo del lanzamiento de 10 monedas
0.15
0.10
0.00
0.05
Probabilidad f (x )
0.20
0.25
Funcion
de probabilidad de una binomial B (10, 0,5)
10
Tema 3. Estadstica
240 / 353
Binomial B (n, p )
Distribucion
Ejemplo del lanzamiento de 10 monedas
de caras en el lanzamiento de 10
monedas. Entonces:
La probabilidad de sacar 4 caras es
!
10
10!
0,54 (1 0,5)104 =
f (5) =
0,54 0,56 = 210 0,510 = 0,2051.
4
4!6!
La probabilidad de sacar dos o menos caras es
esperado de caras es
= 10 0,5 = 5 caras.
Tema 3. Estadstica
241 / 353
de Poisson
Distribucion
puntuales sobre un
soporte continuo, ya sea espacial o temporal. Por ejemplo: averas de maquinas
en un
de linfocitos en un
espacio de tiempo, recepcion
de llamadas en una centralita, nA
volumen de sangre. . .
El experimento produce, a largo plazo, un numero
de ocurrencias del
En estas circunstancias, la variable aleatoria X que mide el numero
fenomeno
Tema 3. Estadstica
243 / 353
de Poisson P ()
Distribucion
(Distribucion
de Poisson P ())
Definicion
Se dice que una variable aleatoria X sigue un modelo de distribucion
de Poisson de parametro
de probabilidad vale
si su recorrido es Re (X ) = {0, 1, ..., }, y su funcion
f (x ) = e
x
.
x!
Tema 3. Estadstica
2 = .
244 / 353
de Poisson P ()
Distribucion
Ejemplo del numero
de ingresos en un hospital
Sea un hospital en el que se producen por termino medio 4 ingresos diarios. Entonces la
variable aleatoria X que mide el numero
de Poisson X P (4).
0.10
0.00
0.05
Probabilidad f (x )
0.15
0.20
Funcion
de probabilidad de una Poisson P (4)
10
12
Tema 3. Estadstica
245 / 353
de Poisson P ()
Distribucion
Ejemplo del numero
de ingresos en un hospital
f (5) = e 5
45
= 0,1563.
5!
40
41
+ e 4
= 5e 4 = 0,0916.
0!
1!
Tema 3. Estadstica
246 / 353
es
Binomial, cuando el numero
En la practica,
esta aproximacion
suele utilizarse para n 30 y p 0,1.
Tema 3. Estadstica
247 / 353
Tema 3. Estadstica
249 / 353
de densidad
Funcion
Para conocer como
(Funcion
de densidad)
Definicion
La funcion
de densidad de una variable aleatoria continua X es una funcion
f (x ) que cumple
las siguientes propiedades:
Es no negativa: f (x ) 0 x R,
El area
y tal que la probabilidad de que la variable tome un valor dentro un intervalo cualquiera [a , b ] es
Z
P (a X b ) =
f (x ) dx
a
Tema 3. Estadstica
250 / 353
de distribucion
Funcion
(Funcion
de distibucion)
Definicion
La funcion
de distribucion
de una variable aleatoria continua X es una funcion
F (x ) que asocia
a cada valor xi la probabilidad de que la variable tome un valor menor o igual que dicho valor.
Z xi
F (xi ) = P (X xi ) =
f (x ) dx .
Tema 3. Estadstica
251 / 353
Calculo
de probabilidades como areas
Densidad de probabilidad f (x )
La funcion
de densidad nos permite calcular la probabilidad un intervalo [a , b ] como el area
P (a X b ) =
Rb
f (x ) dx
b
X
P (a X b ) =
Tema 3. Estadstica
f (x ) dx = F (b ) F (a )
252 / 353
Calculo
de probabilidades como areas
Ejemplo
0
f (x ) =
e x
si x < 0
si x 0,
por debajo
de ella es 1:
Z 0
Z
Z 0
Z
Z
0 dx +
f (x ) dx =
f (x ) dx +
f (x ) dx =
e x dx =
= [e x ]0 = e + e 0 = 1.
Ahora, a partir de ella, se puede calcular por ejemplo la probabilidad de que la variable tome
un valor entre 0 y 2.
Z
P (0 X 2) =
Tema 3. Estadstica
f (x ) dx =
0
e x dx = [e x ]0 = e 2 + e 0 = 0,8646.
253 / 353
Estadsticos poblacionales
El calculo
= E (X ) =
xf (x ) dx
Varianza:
Z
2 = Var (X ) =
Desviacion
tpica:
Tema 3. Estadstica
x 2 f (x ) dx 2
p
= + 2
254 / 353
Calculo
de los estadsticos poblacionales
Ejemplo
Sea la funcion
de densidad del ejemplo anterior:
0
f (x ) =
x
e
Su media es
Z
=
= [e
xf (x ) dx =
xf (x ) dx +
si x < 0
si x 0
Z
xf (x ) dx =
0 dx +
(1 + x )]0 = 1.
xe x dx =
y su varianza vale
Z
2 =
Z 0
Z
0 dx +
Tema 3. Estadstica
x 2 f (x ) dx 2 =
0
x 2 f (x ) dx +
x 2 f (x ) dx 2 =
h
i
x 2 e x dx 2 = e x (x 2 + 2x + 2) 12 = 2e 0 1 = 2.
0
255 / 353
continuos
Modelos de distribucion
Tema 3. Estadstica
256 / 353
Uniforme continua U (a , b )
Distribucion
Cuando todos los valores de una variable continua son equiprobables, se dice que la variable
uniforme continuo.
sigue un modelo de distribucion
(Distribucion
Uniforme continua)
Definicion
Una variable aleatoria continua X , cuyo recorrido es el intervalo [a , b ], sigue un modelo de
distribucion
uniforme U (a , b ), si todos los valores de la variable son equiprobables, y por tanto,
su funcion
de densidad es constante en todo el intervalo:
f (x ) =
1
b a
x [a , b ]
Tema 3. Estadstica
a+b
2
2 =
(b a )2
.
12
258 / 353
0.6
0.4
0.0
0.2
Densidad f (x )
0.8
1.0
1.2
Distribucion
Uniforme U (0, 1)
0.0
0.2
0.4
0.6
0.8
1.0
Tema 3. Estadstica
259 / 353
de distribucion
de la Uniforme continua U (a , b )
Funcion
Como la funcion
de densidad es constante, la funcion
de distribucion
presenta un crecimiento
lineal.
0.8
0.6
0.4
0.2
0.0
Probabilidad acumulada F (x )
1.0
1.2
Distribucion
Uniforme U (0, 1)
0.0
0.2
0.4
0.6
0.8
1.0
Tema 3. Estadstica
260 / 353
Calculo
de probabilidades con una Uniforme continua
Ejemplo de espera de un autobus
Supongase
que un autobus
pasa por una parada cada 15 minutos. Si una persona puede
es la probabilidad de que espere entre 5 y 10
llegar a la parada en cualquier instante, cual
minutos?
10
0.06
0.04
P (5 X 10) =
R 10
5
1
15
dx
0.00
0.02
10
1
x
P (5 X 10) =
dx =
=
15
15 5
5
5
1
10
= .
=
15 15
3
Densidad f (x )
0.08
Distribucion
Uniforme U (0, 15)
10
15
Ademas,
el tiempo medio de espera sera =
Tema 3. Estadstica
0+15
2
= 7,5 minutos.
261 / 353
Normal N (, )
Distribucion
El modelo de distribucion
normal es, sin duda, el modelo de distribucion
continuo mas
(Distribucion
Normal)
Definicion
Una variable aleatoria continua X sigue un modelo de distribucion
normal N (, ) si su
recorrido es R y su funcion
de densidad vale
2
f (x ) =
(x )
1
e 22 .
2
La distribucion
normal depende de dos parametros
Tema 3. Estadstica
263 / 353
de densidad de la Normal N (, )
Funcion
La grafica
de la funcion
de densidad de la distribucion
normal tiene forma de una especie de
campana, conocida como campana de Gauss (en honor a su descubridor), y esta centrada en
la media .
Densidad de probabilidad f (x )
Distribucion
normal N (, )
Tema 3. Estadstica
264 / 353
de densidad de la Normal N (, )
Funcion
La forma de la campana de Gauss depende de sus dos parametros:
esta centrada.
0.4
0.4
La desviacion
tpica determina su anchura.
-2
Tema 3. Estadstica
0.2
Densidad f (x )
0.0
0.1
0.2
0.0
0.1
Densidad f (x )
0.3
N (0, 1)
N (0, 2)
0.3
N (0, 1)
N (2, 1)
-6
-4
-2
265 / 353
de distribucion
de la Normal N (, )
Funcion
Por su parte, la grafica
de la funcion
de distribucion
tiene forma de S.
0.8
0.6
0.4
0.2
0.0
Probabilidad acumulada F (x )
1.0
Distribucion
normal N (, )
Tema 3. Estadstica
266 / 353
Normal
Propiedades de la distribucion
La funcion
de densidad es simetrica
P ( X + ) = 0,68,
P ( 2 X + 2) = 0,95,
P ( 3 X + 3) = 0,99.
Tema 3. Estadstica
267 / 353
Normal
Propiedades de la distribucion
Ejemplo
Tema 3. Estadstica
268 / 353
Tema 3. Estadstica
269 / 353
Normal estandar
La distribucion
N (0, 1)
De todas las distribuciones normales, la mas
importante es la que tiene media = 0 y
desviacion
tpica = 1 se conoce como normal estandar.
0.3
0.2
0.1
0.0
Densidad de probabilidad f (z )
0.4
Distribucion
normal estandar N ( = 0, = 1)
-3
-2
-1
Tema 3. Estadstica
270 / 353
Calculo
de probabilidades con la Normal estandar
Manejo de la tabla de la funcion
de distribucion
0,02
0,5080
0,5478
0,5871
0,6255
0,6628
0,6985
.
..
..
.
0.2
0,01
0,5040
0,5438
0,5832
0,6217
0,6591
0,6950
.
..
Densidad f (z )
0,00
0,5000
0,5398
0,5793
0,6179
0,6554
0,6915
.
..
0.1
0,0
0,1
0,2
0,3
0,4
0,5
.
..
Ejemplo P (Z 0,52)
F (0,52) = 0,6985
0.0
0.3
0.4
Distribucion
normal estandar N ( = 0, = 1)
-3
-2
-1
0 0.52 1
Tema 3. Estadstica
271 / 353
Calculo
de probabilidades con la Normal estandar
Probabilidades acumuladas por arriba
0.2
P (X > 0,52) =
1 F (0,52) =
0.1
Densidad f (z )
0.3
0.4
Distribucion
normal estandar N ( = 0, = 1)
0.0
F (0,52) = 0,6985
-3
-2
-1
1 0,6985
= 0,3015
0 0.52 1
Tema 3. Estadstica
272 / 353
Tipificacion
Teorema (Tipificacion)
Si X es una variable normal de media y desviacion
tpica , entonces la variable resultante
tpica, sigue un modelo de distribucion
Esta transformacion
lineal se conoce como transformacion
de tipificacion
y la variable
resultante Z se conoce como normal tipificada.
As pues, para calcular probabilidades de una variable normal que no sea la normal estandar,
se aplica primero la transformacion
de tipificacion
y despues
se puede utilizar la funcion
de
distribucion
de la normal estandar.
Tema 3. Estadstica
273 / 353
Calculo
de probabilidades tipificando
Ejemplo
Supongase
Para responder a esta pregunta necesitamos calcular la probabilidad P (X < 5). Como X no es
X
6
la normal estandar, se le aplica la transformacion
de tipificacion
Z = = X1,5
:
P (X < 5) = P
X 6
56
<
= P (Z < 0,67)
1,5
1,5
Despues
se mira en la tabla de la funcion
de distribucion
de la normal estandar:
Tema 3. Estadstica
274 / 353
chi-cuadrado 2 (n)
Distribucion
(Distribucion
chi-cuadrado 2 (n))
Definicion
Si Z1 , . . . , Zn son n variables aleatorias normales estandar independientes, entonces la suma
de sus cuadrados sigue un modelo de distribucion
chi-cuadrado de n grados de libertad:
2 (n ) = Z12 + + Zn2 .
Su recorrido es R+ y su media y varianza valen
= n,
2 = 2n .
Tema 3. Estadstica
276 / 353
de densidad de la distribucion
chi-cuadrado
Funcion
0.30
0.15
0.10
0.00
0.05
Densidad f (x )
0.20
0.25
2 (1)
2 (3)
2 (10)
10
15
20
25
Tema 3. Estadstica
277 / 353
chi-cuadrado 2 (n)
Propiedades de la distribucion
X + Y 2 (n + m).
Al aumentar el numero
Tema 3. Estadstica
278 / 353
T de Student T (n)
Distribucion
(Distribucion
T de Student T (n))
Definicion
Si Z N (0, 1) es una variable aleatoria normal estandar y X 2 (n ) es una variable aleatoria
chi-cuadrado de n grados de libertad, ambas independientes, entonces la variable
Z
T=
,
X /n
sigue un modelo de distribucion
T de Student de n grados de libertad.
Su recorrido es R y su media y varianza valen
= 0,
2 =
n
si n > 2.
n2
Tema 3. Estadstica
280 / 353
de densidad de la distribucion
T de Student
Funcion
0.4
0.2
0.0
0.1
Densidad f (x )
0.3
T (1)
T (3)
T (10)
-4
-2
Tema 3. Estadstica
281 / 353
T de Student T (n)
Propiedades de la distribucion
Es simetrica
Ademas,
a medida que
aumentan los grados de libertad, la grafica
de la distribucion
tiende hacia la de la normal
estandar, hasta llegar a ser practicamente
T (n ) N (0, 1).
Tema 3. Estadstica
282 / 353
F de Fisher-Snedecor F (m, n)
Distribucion
(Distribucion
F de Fisher-Snedecor F (m, n))
Definicion
Si X 2 (m) es una variable aleatoria chi-cuadrado de m grados de libertad e Y 2 (n ) es
otra variable aleatoria chi-cuadrado de n grados de libertad, ambas independientes, entonces
la variable
X /m
F=
,
Y /n
sigue un modelo de distribucion
F de Fisher-Snedecor de m y n grados de libertad.
Su recorrido es R+ y su media y varianza valen
=
n
,
n2
2 =
2n 2 (m + n 2)
si n > 4.
m(n 2)2 (n 4)
de la varianza.
Tema 3. Estadstica
284 / 353
de densidad de la distribucion
F de Fisher-Snedecor F (n, m)
Funcion
0.4
0.0
0.2
Densidad f (x )
0.6
0.8
F (3, 3)
F (10, 5)
F (10, 20)
Tema 3. Estadstica
285 / 353
F de Fisher-Snedecor F (m, n)
Propiedades de la distribucion
F (m, n ) =
1
,
F (n , m)
de manera que si llamamos f (m, n )p al valor que cumple que P (F (m, n ) f (m, n )p ) = p ,
entonces se cumple
1
f (m, n )p =
.
f (n , m)1p
Esto resulta muy util
para utilizar las tablas de su funcion
de distribucion.
Tema 3. Estadstica
286 / 353
de Parametros
Estimacion
Estimacion
de Parametros
Distribuciones muestrales
Estimadores
Estimacion
puntual
Estimacion
por intervalos
Intervalos de confianza para una poblacion
Tema 3. Estadstica
287 / 353
a la inferencia estadstica
Introduccion
Tema 3. Estadstica
288 / 353
Estudiar un numero
y acotarlos.
Tema 3. Estadstica
289 / 353
X de partida.
Todas las variables son mutuamente independientes.
todas las posibles muestras
Los valores que puede tomar esta variable n dimensional, seran
de tamano
n que pueden extraerse de la poblacion
X.
Tema 3. Estadstica
291 / 353
de una muestra
Obtencion
X
Poblacion
X1
X2
Xn
Variable
aleatoria
n copias
...
x1
Tema 3. Estadstica
x2
...
muestral
xn
Muestra
292 / 353
de parametros
Estimacion
se encarga la parte de la
inferencia estadstica conocida como Estimacion
de Parametros.
Tema 3. Estadstica
293 / 353
Parametros
a estimar
que la
definen. Por ejemplo, los principales parametros
Binomial
Poisson
Uniforme
Normal
Chi-cuadrado
T-Student
F-Fisher
Tema 3. Estadstica
Parametro
a, b
,
n
n
m, n
294 / 353
La distribucion
de probabilidad de los valores de la variable muestral depende claramente de la
distribucion
de probabilidad de los valores de la poblacion.
Poblacional
X
P (x )
0
1
2
Tema 3. Estadstica
0,25
0,50
0,25
Muestras de
tamano
2
(0, 0)
(0, 1)
(0, 2)
(1, 0)
(1, 1)
(1, 2)
(2, 0)
(2, 1)
(2, 2)
0,0625
0,1250
0,0625
0,1250
0,2500
0,1250
0,0625
0,1250
0,0625
295 / 353
de un estadstico muestral
Distribucion
Por ser funcion
de una variable aleatoria, un estadstico en el muestreo es tambien
una
variable aleatoria.
Por tanto, su distribucion
de probabilidad tambien
depende de la distribucion
de la poblacion
y
de los parametros
Tema 3. Estadstica
0,0625
0,1250
0,0625
0,1250
0,2500
0,1250
0,0625
0,1250
0,0625
Distribucion
de x
X
P (x )
Muestras de
tamano
2
0
0,5
1
1,5
2
0,0625
0,2500
0,3750
0,2500
0,0625
296 / 353
de un estadstico muestral
Distribucion
Distribucion
de
Probabilidad
0.1
0.2
0.3
0.4
0.5
0.4
0.3
0.2
0.0
0.0
0.1
Probabilidad
0.5
Distribucion
poblacional
0.0
0.5
1.0
N. de hijos
1.5
2.0
0.0
0.5
1.0
1.5
2.0
Cual
es la probabilidad de obtener una media muestral que aproxime la media poblacional
con un error maximo de 0.5?
Tema 3. Estadstica
297 / 353
t
n
n
X
X
n30
i ,
i
X = X1 + + Xn N
i =1
i =1
Tema 3. Estadstica
298 / 353
de la media muestral
Distribucion
Muestras grandes (n 30)
distribuidas:
= X1 + + Xn = X1 + + Xn
X
n
n
n
De acuerdo a las propiedades de las transformaciones lineales, la media y la varianza de cada
una de estas variables son
X
X
2
E i =
y Var i = 2
n
n
n
n
con y 2 la media y la varianza de la poblacion
de partida.
Entonces, si el tamano
de la muestra es grande (n 30), de acuerdo al teorema central del
lmite, la distribucion
de la media muestral sera normal:
v
t n
!
n
X
X 2
X N
,
N
=
,
.
n
n 2
n
i =1
i =1
Tema 3. Estadstica
299 / 353
de una proporcion
muestral
Distribucion
Muestras grandes (n 30)
Una proporcion
p poblacional puede calcularse como la media de una variable dicotomica
(0,1). Esta variable se conoce como variable de Bernouilli B (p ), que es un caso particular de la
n , una proporcion
distribuidas:
= X1 + + Xn = X1 + + Xn , con Xi B (p )
=X
p
n
n
n
y con media y varianza
Xi
p
=
n
n
y
Var
p (1 p )
Xi
=
n
n2
Entonces, si el tamano
de la muestra es grande (n 30), de acuerdo al teorema central del
lmite, la distribucion
de la proporcion
muestral tambien
sera normal:
v
t n
r
n
X
X p (1 p )
p , p (1 p ) .
N
p
,
N
=
n
n
n
i =1
Tema 3. Estadstica
i =1
300 / 353
Estimador y estimacion
de la poblacion,
y
.
cuando un estadstico se utiliza con este fin se le llama estimador del parametro
(Estimador y estimacion)
Definicion
Un estimador es una funcion
de la variable aleatoria muestral
= F (X1 , . . . , Xn ).
Dada una muestra concreta (x1 , . . . , xn ), el valor del estimador aplicado a ella se conoce como
estimacion
0 = F (x1 , . . . , xn ).
Por ser una funcion
de la variable aleatoria muestral, un estimador es, a su vez, una variable
aleatoria cuya distribucion
depende de la poblacion
de partida.
Mientras que el estimador es una funcion
que es unica,
la estimacion
no es unica,
sino que
depende de la muestra tomada.
Tema 3. Estadstica
302 / 353
Estimador y estimacion
Parametro
poblacional
Distribucion
de la poblacion
Estimador
(X1 , . . . , Xn )
= F (X1 , . . . , Xn )
Muestra de tamano
n
Estimacion
(x1 , . . . , xn )
0 = F (x1 , . . . , xn )
Tema 3. Estadstica
303 / 353
Estimador y estimacion
Ejemplo
Supongase
P5
Xi
= i =1
p
5
Este estimador es una variable aleatoria que se distribuye
r
p (1 p )
1
.
B p ,
p
n
n
Si se toman distintas muestras, se obtienen diferentes estimaciones:
Muestra
Estimacion
(1, 0, 0, 1, 1)
(1, 0, 0, 0, 0)
(0, 1, 0, 0, 1)
Tema 3. Estadstica
3/5
1/5
2/5
304 / 353
Tipos de estimacion
La estimacion
de parametros
Estimacion
por intervalos : Se utilizan dos estimadores que proporcionan los extremos de un
intervalo dentro del cual se cree que esta el verdadero valor del parametro
Estimacion
puntual
Estimacion
por intervalos
Tema 3. Estadstica
l1
l2
305 / 353
puntual
Estimacion
La estimacion
puntual utiliza un unico
desconocido de la poblacion.
Por
ejemplo, en el caso de estimar la proporcion
de fumadores en una ciudad, podran haberse
utilizado otros posibles estimadores ademas
de la proporcion
muestral, como pueden ser:
p
5
1 = X1 X2 X3 X4 X5
X1 + X5
2 =
2
3 = X1
Cual
es el mejor estimador?
La respuesta a esta cuestion
depende de las propiedades de cada estimador.
Tema 3. Estadstica
307 / 353
El estimador que se suele utilizar para estimar la media poblacional es la media muestral.
Para muestras de tamano
n resulta la siguiente variable aleatoria:
= X1 + + Xn
X
n
Si la poblacion
de partida tiene media y varianza 2 se cumple
2
) = y Var (X
) =
E (X
n
Tema 3. Estadstica
308 / 353
S2 =
i =1 (Xi
)2
X
E (S 2 ) =
n1 2
.
n
No obstante, resulta sencillo corregir este sesgo para llegar a un estimador insesgado:
(Cuasivarianza muestral)
Definicion
Dada una muestra de tamano
n de una variable aleatoria X , se define la cuasivarianza
muestral como
Pn
)2
(X X
n
2 = i =1 i
=
S
S2.
n1
n1
Tema 3. Estadstica
309 / 353
por intervalos
Estimacion
z }| {
Error
}| {
l1
Tema 3. Estadstica
l2
311 / 353
Intervalos de confianza
La estimacion
por intervalos trata de construir a partir de la muestra un intervalo dentro del cual
se supone que se encuentra el parametro
(Intervalo de confianza)
Definicion
Dados dos estimadores li (X1 , . . . , Xn ) y ls (X1 , . . . , Xn ), y sus respectivas estimaciones l1 y l2
para una muestra concreta, se dice que el intervalo I = [l1 , l2 ] es un intervalo de confianza para
un parametro
Tema 3. Estadstica
312 / 353
Nivel de confianza
Un intervalo de confianza nunca garantiza con absoluta certeza que el parametro
se encuentra
dentro el.
1 = 0,90 o = 0,10
1 = 0,95 o = 0,05
1 = 0,99 o = 0,01
Tema 3. Estadstica
313 / 353
Nivel de confianza
Teoricamente,
Intervalo de confianza
20
40
60
80
100
N. de muestra
Tema 3. Estadstica
314 / 353
de un intervalo
Error o imprecision
(Error o imprecision
de un intervalo)
Definicion
El error o la imprecision
de un intervalo de confianza [li , ls ] es su amplitud
A = ls li .
Imprecision
z }| {
]
l1
l2
Tema 3. Estadstica
315 / 353
de un intervalo?
De que depende la imprecision
En general, la precision
de un intervalo depende de tres factores:
La dispersion
de la poblacion.
Cuanto mas
dispersa sea, menos preciso sera el intervalo.
El nivel de confianza. Cuanto mayor sea el nivel de confianza, menos preciso sera el
intervalo.
El tamano
muestral. Cuanto mayor sea el tamano
muestral, mas
preciso sera el intervalo.
Si la confianza y la precision
estan renidas,
como
Tema 3. Estadstica
316 / 353
Calculo
de los intervalos de confianza
Habitualmente, para calcular un intervalo de confianza se suele partir de un estimador puntual
del que se conoce su distribucion
muestral.
A partir de este estimador se calculan los extremos del intervalo sobre su distribucion,
buscando los valores que dejan encerrada una probabilidad 1 . Estos valores suelen
tomarse de manera simetrica,
Densidad f (x )
Distribucion
del estimador de referencia
0.0
/2
/2
li
ls
Tema 3. Estadstica
317 / 353
normal
Proporcion
de una poblacion
Tema 3. Estadstica
Variable
Z=
/ n
N (0, 1)
N ,
X
X
/ n
S
nS 2
2
X
n
T (n 1)
2
(n1)S
2
2 (n 1)
q
=
p
Intervalo
N p,
!
p (1p )
n
z/2
X
t n1
X
/2
t n1
X
/2
"
nS 2
nS 2
n1 , n1
1/2
/2
q
z/2
p
(1
p
p)
n
319 / 353
2g
Variable
r
2
2 N 1 2 , 1 +
1 X
X
n1
1 X
2 )(1 2 )
(X
q
p n1 +n2
S
n1 n2
T (n1 + n2 2)
1 X
)(1 2 )
(X
r2
2
2
S
S
1
2
n1 + n2
2
21 S
2
2
2 S
2
22
n2
p1 (1p1 )
n1
p2 (1p2 )
n2
21
n1
1 X
2 t n1 +n2 2 S
p
X
/2
2 t g
1 X
X
/2
2
S
1
n1
22
n2
n1 +n2
n1 n2
2
S
2
n2
"
#
2
2
n1 1,n2 1 S
n1 1,n2 1 S
2
2
f/2
2 , f1/2
2
F (n2 1, n1 1)
N p1 p2 ,
2 z/2
1 X
X
T (g )2
1 p
2
p
q
Intervalo
r
S1
S1
q p1 p2
1 (1
(1
p
p1 )
p
p )
z/2
+ 2 n 2
n
1
n 1 2 n1 1 2 2
( 2
n S n S )
= n1 + n2 2 n 11 1 n 21 2
2
4+ 1
4
S
S
1
2
n2
n2
1
2
Tema 3. Estadstica
321 / 353
Contraste de hipotesis
Contraste de hipotesis
Hipotesis
Pruebas de conformidad
Pruebas de homogeneidad
Tema 3. Estadstica
322 / 353
Hipotesis
estadstica
desconocido en la poblacion,
es comprobar la veracidad de una hipotesis
formulada sobre la
poblacion
objeto de estudio.
El investigador, de acuerdo a su experiencia o a estudios previos, suele tener conjeturas sobre
la poblacion
estudiada que expresa en forma de hipotesis.
(Hipotesis
Definicion
estadstica)
Una hipotesis
de un grupo de alumnos en
una determinada asignatura, podramos platear la hipotesis
de si el porcentaje de aprobados
es mayor del 50 %.
Tema 3. Estadstica
324 / 353
Contraste de hipotesis
estadsticas se
conoce como contraste de hipotesis
Tema 3. Estadstica
325 / 353
Tipos de contrastes de hipotesis
sobre la forma de
la distribucion
de la poblacion.
Por ejemplo, ver si las notas de un grupo de alumnos siguen una distribucion
normal.
Pruebas de conformidad: El objetivo es comprobar una hipotesis
de la poblacion.
de la poblacion,
tambien
se habla de
pruebas parametricas.
Tema 3. Estadstica
326 / 353
Hipotesis
nula e hipotesis
alternativa
antagonistas:
Hipotesis
nula Es la hipotesis
alternativa Es la negacion
de la hipotesis
Tema 3. Estadstica
328 / 353
de las hipotesis
Eleccion
nula y alternativa
Analoga con un juicio
debera ser
H0 :
H1 :
Inocente
Culpable
nula!
Tema 3. Estadstica
329 / 353
Contrastes de hipotesis
parametricos
desconocidos de la poblacion
como puede ser una
media, una varianza o una proporcion.
nula, no fija el
valor del parametro.
Bilateral
H0 : = 0
H1 : , 0
Tema 3. Estadstica
Unilateral de menor
H0 : = 0
H1 : < 0
Unilateral de mayor
H0 : = 0
H1 : > 0
330 / 353
Supongase
en la poblacion
debera haber la misma proporcion
de hombres que de mujeres.
H0 :
H1 :
Tema 3. Estadstica
p = 0,5,
p < 0,5.
331 / 353
La aceptacion
o rechazo de la hipotesis
instancia, de lo que se
observe en la muestra.
La decision
se tomara segun
el valor que presente algun
estadstico de la muestra relacionado
con el parametro
Si la estimacion
difiere demasiado del valor esperado bajo la hipotesis
H0 , entonces se
rechazara,
y en caso contrario se aceptara.
La logica
Tema 3. Estadstica
333 / 353
H0 :
H1 :
p = 0,5,
p < 0,5.
Si para resolver el contraste se toma una muestra aleatoria de 10 personas, podra tomarse
como estadstico del contraste X el numero
de hombres en la muestra.
Suponiendo cierta la hipotesis
aceptar la hipotesis
de
hombres proximo
donde
Tema 3. Estadstica
334 / 353
y de rechazo
Regiones de aceptacion
Una vez elegido el estadstico del contraste, lo siguiente es decidir para que valores de este
estadstico se decidira aceptar la hipotesis
nula.
Region
de rechazo : Es el conjunto de valores del estadstico del contraste a partir de los
cuales se decidira rechazar la hipotesis
nula.
Tema 3. Estadstica
336 / 353
nula:
Contraste bilateral H0 : = 0
Region
de
rechazo
H1 : , 0 .
Region
de aceptacion
Region
de
rechazo
0
Contraste unilateral de menor
Region
de
rechazo
H0 : = 0
H1 : < 0 .
Region
de aceptacion
H0 : = 0
H1 : > 0 .
Region
de aceptacion
Region
de
rechazo
Tema 3. Estadstica
337 / 353
y de rechazo
Regiones de aceptacion
Ejemplo
H0 :
H1 :
p = 0,5,
p < 0,5.
donde
Region
de aceptacion
10
Tema 3. Estadstica
338 / 353
Errores en un contraste de hipotesis
de
modo que al aceptarla o rechazarla es posible que se este tomando una decision
equivocada.
Los errores que se pueden cometer en un contraste de hipotesis
Tema 3. Estadstica
340 / 353
Riesgos de los errores de un contraste de hipotesis
(Riesgos y )
Definicion
En un contraste de hipotesis,
Decision
Aceptar H0
Rechazar H0
Tema 3. Estadstica
Hipotesis
verdadera
H0
H1
Decision
correcta
Error de tipo II
1
= P (Aceptar H0 /H1 )
Error de tipo I
Decision
correcta
= P (Rechazar H0 /H0 )
1
341 / 353
del riesgo
Interpretacion
nula
con un riesgo = 0,05, es erroneo
Tema 3. Estadstica
342 / 353
Determinacion
del riesgo
Una vez fijado el riesgo que se esta dispuesto a tolerar, es posible delimitar las regiones de
aceptacion
y de rechazo para el estadstico del contraste de manera que la probabilidad
acumulada en la region
de aceptacion
sea , suponiendo cierta la hipotesis
nula.
Contraste unilateral
Contraste bilateral
f ()
Distribucion
del estadstico del contraste
/2
Rechazo
/2
/2
Aceptacion
Tema 3. Estadstica
Rechazo
1/2
f ()
Distribucion
del estadstico del contraste
Aceptacion
Rechazo
1/2
343 / 353
Determinacion
del riesgo
Ejemplo
nula?
Tema 3. Estadstica
Region
de aceptacion
10
344 / 353
p -valor de un contraste de hipotesis
nula.
(p -valor)
Definicion
En un contraste de hipotesis,
Tema 3. Estadstica
2P (X x0 /H0 )
P (X x0 /H0 )
P (X x0 /H0 )
345 / 353
Rechazar H0 ,
Aceptar H0 ,
Tema 3. Estadstica
346 / 353
Calculo
del p -valor de un contraste de hipotesis
Ejemplo
nula,
observa 1 hombre, entonces el p -valor, bajo a supuesta certeza de la hipotesis
X B (10, 0,5), sera
p = P (X 1) = 0,0107,
mientras que si en la muestra se observan 0 hombres, entonces el p -valor sera
p = P (X 0) = 0,001.
En el primer caso se rechazara la hipotesis
nula se
tomara con mayor confianza.
Tema 3. Estadstica
347 / 353
de un contraste de hipotesis
Formular la hipotesis
nula H0 y la alternativa H1 .
Calcular el tamano
muestral necesario n .
Rechazar la hipotesis
nula si la estimacion
cae en la region
de rechazo, o bien si el
p -valor es menor que el riesgo , y aceptarla en caso contrario.
Tema 3. Estadstica
348 / 353
importantes: Pruebas de conformidad
Contrastes parametricos
mas
con varianza
desconocida a partir de
muestras grandes
Varianza de una
poblacion
normal
Proporcion
de una
poblacion
Tema 3. Estadstica
Contraste
H0 : = 0
H : ,
1
0
Estadstico
Z=
H0 : = 0
H : ,
1
0
N (0, 1)
N ,
X
H0 : = 0
H : ,
1
0
H0
H
1
H
0
H
1
/ n
/ n
S
: = 0
: , 0
nS 2
2
: p = p0
: p , p0
=
p
=
X
n
Region
aceptacion
T (n 1)
2
(n1)S
2
2 (n 1)
!
q
p (1p )
N p,
n
n1 < T < t n1
t/2
1/2
n1 < J < n1
/2
1/2
350 / 353
importantes: Pruebas de homogeneidad
Contrastes parametricos
mas
Contraste para la
comparacion
de:
Contraste
Medias de dos
poblaciones normales
con varianzas
conocidas
Medias de dos
poblaciones normales
con varianzas
desconocidas pero
iguales
Medias de dos
poblaciones normales
con varianzas
desconocidas y
diferentes
Varianzas de dos
poblaciones normales
H0 : 1 = 2
H : ,
1
1
2
Proporciones de dos
poblaciones
H0 : p 1 = p 2
H : p , p
1
1
2
Tema 3. Estadstica
H0 : 1 = 2
H : ,
1
1
2
H0 : 1 = 2
H : ,
1
1
2
H0 : 1 = 2
H : ,
1
1
2
Estadstico
1 X
X
r2
2
N 1 2 , n1 +
1
1 X
2 )(1 2 )
(X
q
p n1 +n2
S
n1 n2
2
2
S
S
1
2
n1 + n2
22
n2
n +n2 2
1
t/2
T (n1 + n2 2)
1 X
)(1 2 )
(X
r2
2
21 S
2
2
2 S
Region
aceptacion
n 1,n2 1
1
F/2
F (n2 1, n1 1)
p2 (1p2 )
n2
T (g )
1 p
2
p
q
p1 (1p1 )
N p1 p2 ,
+
n
<T <
n +n2 2
1
t/2
<F <
n1 1,n2 1
F1/2