Está en la página 1de 8

VARIABLES ALEATORIAS

Funcin de
probabilidad p

Discretas
Uniforme de valores
{x1 , x 2 ,...xn }
equiprobables
Binomial
-n n de pruebas
-p probab.de xito,
q=1-p
Poisson
-parmetro l

Continuas
Uniforme en
[a,b]
Normal de
parmetros m, s

p ( X = xi ) =

Esperanza
Varianza
(Media)
n +1
n2 1
2
12
si xi=i/n si xi=i/n

1
n

n
p ( X = k ) = p k q nk
k

p( X = k) = e

np

unidpdf(x,n)
unidcdf(x,n)
unidinv(x,n)

npq

binopdf(x,n,p)
binocdf(x,n,p)
binoinv(x,n,p)

poisspdf(x, l)
poisscdf(x, l)
poissinv(x, l)

k!

Matlab

Funcin de
Esperanza
Varianza
densidad f
(Media)
2
1
x [ a, b ]
a+b
(b a )
f ( x) = b a
2
12
resto
0

1
e
f ( x) =
2

1 x

Matlab
unifpdf(x,a,b)
unifcdf(x,a,b)
unifinv(x,a,b)
normpdf(x, m,s)
normcdf(x, m,s)
norminv(x, m,s)

s2

Definiciones.
La funcin de distribucin (probabilidad acumulada), la esperanza y la varianza se
definen para v.a. discretas y contnuas como:
x

F( x) = p ( X x) =

p( x )

xi x

F( x) = p ( X x) =

E ( X ) = xi p( xi )

E( X ) =

xi

t f (t )dt

Var ( X ) =

Var ( X ) = ( x i E( X ) ) p ( xi )
2

( t E( X ) )

f (t )dt

xi

= x i 2 p ( xi ) E 2 ( X )

xi

Relaciones entre variables

f (t )dt

t f (t )dt E ( X )
2

Binomial tiende a Poisson

B(n, p )
P ( np )
n

Binomial tiende a Normal

B(n, p )
N np, npq
n

Poisson tiende a Normal

P( )
N ,

30n, p0.1, np5


30n, 5np, 5nq
10 l

Operaciones con variables aleatorias y Reproductividad

Propiedades generales: Si X, Xi son v.aleatorias y k es un n real


Esperanza

E (k ) = k

E ( X1 + X 2 ) = E ( X1 ) + E ( X 2 )

E ( kX ) = kE ( X )

Varianza
o

Var ( k ) = 0

Var ( X 1 + X 2 ) = Var ( X 1 ) + Var ( X 2 )

Var ( kX ) = k 2 Var ( X )

( independientes )

B(n , p) = B ( n , p )
La suma de v.a.de Poisson es una v.a.de Poisson: P( ) = P ( )
La suma de v.a.normales es una v.a. normal: N( , ) = N ( ,

La suma de v.a.binomiales es una v.a. binomial:

Variables aleatorias asociadas al muestreo


Chi-Cuadrado (En matlab: chi2pdf(x,n),

chi2cdf(x,n), chi2inv(x,n) )

12

Si X es N(0,1) entonces X 2 es una


libertad)

Si X es N(m,s) entonces X es una

12

La suma de n v.a. de tipo es una v.a.

n2 , siendo

2
1

E( n2 ) = n

Var( n2 ) = 2n

Si tenemos n v.a.independ.de tipo N(m,s) entonces

Student (En matlab: tpdf(x,n),

tcdf(x,n),

Si X es N(0,1) e Y es una

E(t ) = 0

n
n2

Fisher-Snedecor

Chi-2 con parmetro 1 (grados de

Var(t ) =

n
n2

2
m

, independientes, entonces

, , independientes, entonces

es

n2

X es una t
n
Y n

fcdf(x,m,n), finv(x,m,n) )

2
n

Var( Fm,n ) =

tinv(x,n) )

(En matlab: fpdf(x,m,n),

Si X e Y son v.a.

E( Fm , n ) =

2
n

X
i

X
Y

m es una Fm,n
n

2n (m + n 2)
2

m ( n 2) ( n 4)
2

2
i

DISTRIBUCIONES DE MUESTREO
Media muestral
Si { X 1 , X 2 , X 3 ,... X n } son v.a. I.I.D.1 con media y varianza 2 entonces la media

muestral X =

tiene una distribucin con E ( X ) = , Var( X ) =

n
El error standard es

n
Teorema Central del Lmite: Para cualquier tipo de distribucin de la Xi la media
X
es N(0,1)
muestral tiende a ser normal. Es decir:

n
Si se desconoce la varianza y se estima su valor mediante la cuasivarianza
X
es t(n-1)
muestral sc2, entonces:
sc
n 1
2

Proporciones
Si { X 1 , X 2 , X 3 ,... X n } son v.a. I.I.D. de tipo B(1,p) entonces la proporcin de xitos

viene dada por la media muestral Pm =

pq

y tiene una distribucin N(p,

Diferencia de medias
Si X 1 , X 2 ,... X nx , Y1 , Y2 ,...Yny son v.a.independientes con medias x, y, y varianzas x2,

y2 entonces la diferencia entre las medias muestrales X Y (de tamaos nx, ny) tiene
una distribucin normal de media x y y varianza

x2
nx

y2
ny

Si se desconocen las varianzas pero se supone (realizar un test de igualdad de


varianzas) que son iguales, entonces se estiman mediante una media ponderada
(nx 1) scx2 + (n y 1) scy2
2
de las cuasivarianzas (pooled): sc =
.
nx + n y 2

( n +n 2 ) s es una n + n 2
( X Y ) ( ) es una distribucin t(n +n -2)

Como

2
c

se

tiene

que

la

v.a.

1
1
+
sc
n x n y

Si se desconocen las varianzas y no podemos suponer que son iguales se utiliza


2

la v.a.

( X Y ) (

y )

scx2 scy2
+
nx n y

scx2 scy2
+
nx n y
que es t(v) siendo v =
( s 2 n )2 ( s 2 n )2
cx x + cy y
nx 1 n y 1

Independientes e idnticamente distribuidas

Varianza muestral
Si { X 1 , X 2 , X 3 ,... X n } son v.a. I.I.D.1 con media y varianza 2 entonces la
2
c

cuasivarianza muestral s

( X
=

Cociente de varianzas
Si X 1 , X 2 ,... X nx , Y1 , Y2 ,...Yny

X)

n 1

}
scx2

varianzas x2, y2 entonces

scy2

verifica que (n 1)

sc2

es una

n21

son v.a.independientes, normales, con medias x, y, y

x2

es una v.a. de tipo

F(nx 1, n y 1)

y2

Si las dos muestras provienen de poblaciones con igual varianza entonces


scx2
1
scy2

ESTIMACIN
Puntual
Media poblacional
Proporcin poblacional

Varianza poblacional

= X

( proporcin muestral )

p = pm

2 = sc2 =

ns 2
n 1

Intervalo de confianza
El intervalo de confianza [a,b] con un nivel de significacin indica que
p ( a parametro b ) = 1 .

El nivel de confianza es 1-

X +

z 2 , X +

z1 2
n

Media poblacional

Proporcin poblacional

Varianza poblacional

Diferencia de medias poblacionales


2
2
2
2

( X Y ) + x + y z , ( X Y ) + x + y z

1 2
x
y
2
nx n y
nx n y

Diferencia de medias poblacionales, varianzas iguales y desconocidas

( X Y ) + s

x
y
c

pm qm
z 2 , pm
p pm +
n

(n 1) sc2 (n 1) sc2
2

2
, 2

n 1, 2 n 1, 1 2

pm qm
z1 2
n

1 1
1 1
+ tnx + ny 2, 2 , ( X Y ) + sc
+ tnx + ny 2,1 2
nx n y
nx n y

Diferencia de medias poblacionales, varianzas desiguales y desconocidas


2
2

scx2 scy
scx2 scy

x y ( X Y ) +
+ tv , 2 , ( X Y ) +
+ tv ,1 2 (ver valor de v)
nx n y
nx n y

Cociente de varianzas poblacionales

x2 scx2
scx2
1
1
,

y2 scy2 Fnx 1,ny 1, 2 scy2 Fnx 1,ny 1, 1 2

CONTRASTE DE HIPTESIS
La hiptesis nula
Procedimiento estadstico que utiliza los parmetros y resultados de una muestra para
aceptar o rechazar una hiptesis H0 (llamada hiptesis nula) realizada bien sobre la
forma y tipo de la distribucin poblacional o bien sobre los parmetros poblacionales.
Ej.:
H0 = La distribucin es de tipo Normal
H0 = La media poblacional vale 150
H0 = Las varianzas de dos poblaciones son iguales
H0 = La proporcin poblacional es mayor del 60%

La H0 es la hiptesis natural. La que es razonable y aceptada en ausencia de otra


informacin. Si del resultado de la muestra es acorde con H0 no se rechazar, en cambio
si el resultado es demasiado extrao se rechazar la H0.
La hiptesis alternativa H1 es aquella se se aceptara al rechazar H0 ante la evidencia
estadstica del resultado muestral obtenido.
Ej.:
H1 = La distribucin no es de tipo Normal
H1 = La media poblacional no vale 150
H1 = Las varianzas de dos poblaciones no son iguales
H1 = La proporcin poblacional es menor o igual del 60%
Errores
Al tomar la decisin de aceptar o rechazar H0 podemos cometer dos tipos de error:
Tipo I: Se rechaza la H0 siendo cierta
()
Tipo II: Se acepta la H0 siendo falsa
()
Confianza y Potencia de un Test
Se llama Significacin a a la probab.de cometer un error de tipo I (falso positivo).
Son habituales los valores 0.05, 0.01 y 0.005.
Nivel de confianza o especificidad es (1-a) es la probab.de acertar al aceptar H0.
H

= p H1 H
Confianza = 1 = p 0
H 0
0

Se denota por b a la probabilidad de cometer un error de tipo II (falso negativo).


Se llama Potencia o sensibilidad (1-b) a la probabilidad de acertar al rechazar H0.
H
= p H 0 H
Potencia = 1 = p 1
1
H1

Ej. Ante una prueba diagnstica de enfermedad:


El nivel de confianza es la probabilidad de declarar sano al que est sano.
La potencia es la probabilidad de declarar enfermo al que est enfermo.
Para un tamao de muestra fijo, al aumentar disminuye y recprocamente.
Si prefijamos el valor de , al aumentar el tamao de la muestra disminuye

Contrastes paramtricos

La hiptesis H0 se realiza sobre el valor de los parmetros poblacionales.


Para realizar un contraste de hiptesis que afecta a un determinado parmetro se
calcular el intervalo o regin de confianza adecuado al tipo de contraste. Para ello ser
necesario utilizar la distribucin del estadstico que estime el valor de dicho parmetro.
Si el resultado muestral no est dentro del intervalo de confianza se rechaza la H0. Los
extremos de dichas regiones reciben el nombre de valores crticos.
Ej.:Para contratar la hiptesis de que dos tratamientos dan diferentes valores medios,
tenemos que utilizar los medias muestrales obtenidas de dos muestreos realizados en la
poblacin. La distribucin de las diferencias entre las medias muestrales ser la que
utilizaremos para calcular la regin de confianza.
En Matlab disponemos de algunos test:

Ztest [h,sig,ci,zval] = ztest(x,,, , tail)


Test de hiptesis para la media de una poblacin normal a partir de una
muestra x de tamao n, conocida la desv.tpica de la poblacin, siendo el nivel
de significacin y tail especifica el sentido ( = ,<, > ) ('both', 'right', 'left')
o Se rechaza H0 si h = 1, en caso contrario (h = 0) no se rechaza.
o El valor sig (p-valor) es la probabilidad de obtener un valor tan alto de z
como el obtenido Z bajo la hiptesis nula.
o ci es el intervalo de confianza para la media poblacional obtenido a partir
de la muestra.
X
o zval es el valor del estadstico Z=

n
Ttest: test de hiptesis para la media poblacional desconocida la varianza

Ttest2: test de hiptesis para la diferencia de medias de dos poblaciones con


varianzas desconocidas pero iguales.
[h,significance,ci,stats] = ttest2(x,y, ,tail)
o Se rechaza H0 si h = 1, en caso contrario (h = 0) no se rechaza
o Significance (p-valor) es la probabilidad de obtener un valor tan alto de t
como el obtenido T bajo la hiptesis nula de igualdad de medias.
o ci es el intervalo de confianza para la diferencia de medias poblacionales
obtenido a partir de la muestra
o stats tiene tres campos:
tstat -- valor del test
df grados de libertad
Pooled estimada

Ej. Sean x=binornd(10,0.5,1,1000); y=binornd(10,0.4,1,1000);


[h,significance,ci,stats] = ttest2(x,y, 0.05,'both'), obtenemos:
h =1 (rechazo de la H0)
significance =5.5263e-038
ci =[0.7905 1.0675] (observar que 0 no pertenece a ci)
stats = tstat: 13.1582
df: 1998
sd: 1.5787
9

Contrastes no paramtricos
La hiptesis H0 se refiere a la forma y tipo de la distribucin poblacional.

Test de bondad de ajuste a una distribucin dada (Test )


Se basa en la diferencia entre las frecuencias observadas en la muestra y las frecuencias
tericas esperadas para una distribucin predeterminada que se desea contrastar.
Si tenemos n observaciones { x1 , x2 ,...xn } de una poblacin, cada una de ellas con una
2

{e1 , e2 ,...en } las frecuencias


2
n
oi ei )
(
esperadas para la distribucin de la H , se sabe que
es una 2 .

frecuencia observada

{o1 , o2 ,...on } ,

siendo

tericas

n 1

ei
A partir de este hecho podemos realizar el contraste una vez fijada la significacin que
se desee.
i =1

En Matlab (ver los detalles en la ayuda del programa) tenemos:

El test de Kolmogorov-Smirnov (K-S) que compara la proporcin de valores


menores que x esperados y observados. El mximo valor de la diferencia entre
dichas proporciones es una v.a. tabulada y utilizada para el contraste.
H = kstest(X)---compara la distribucin de X con la distribucin normal
H = kstest(X,cdf)--compara X con una distribucin definida en cdf mediante
una matriz de dos columnas, la 1 columna contiene los posibles valores de
x, ordenados, y la 2 la funcin de distribucin terica para estos valores.

Es test de K-S para 2 muestras


H = kstest2(X1,X2)compara dos distribuciones de datos para contrastar la
igualdad de ambas distribuciones

El test de Lilliefors
H = lillietest(X)-- compara la distribucin de X con la distribucin normal

Test de Independencia
Si se divide la poblacin en varias categoras { A1 , A2 ,... An } atendiendo a una v.a. X, y en

{B1 , B2 ,...Bm }

atendiendo a otra v.a. Y , y queremos ver si los resultados obtenidos son

independientes de las varaibles de clasificacin X,Y, podemos usar las distribuciones


marginales para calcular las frecuencias tericas esperadas:
frec.marginal X = Ai frec.marginalY = B j
eX = Ai ,Y = B j =
Total de datos
A continuacin empleamos el test

(2n 1)( m 1)

10