Está en la página 1de 22

Datos categricos

Principales distribuciones de probabilidad


Pruebas de hiptesis e intervalos

Anlisis de datos Categricos


Introduccin
Ms Carlos Lpez de Castilla Vsquez
Universidad Nacional Agraria La Molina

2015-2

Ms Carlos Lpez de Castilla Vsquez

Anlisis de datos Categricos

Datos categricos
Principales distribuciones de probabilidad
Pruebas de hiptesis e intervalos

Variable respuesta cualitativa


Variable respuesta y explicativa
Variable de conteo y proporcin
Escalas de medicin

Variable cualitativa
Una variable cualitativa es aquella cuya escala de medida
consiste de un conjunto de categoras.
Por ejemplo: la orientacin poltica se mide como izquierda,
centro o derecha.
Por ejemplo: el diagnstico de cncer de mama se mide como
normal, benigno, probablemente benigno, sospechoso o
maligno.
Por ejemplo: las enfermedades mentales pueden ser clasicadas
en esquizofrenia, depresin o neurosis.

Ms Carlos Lpez de Castilla Vsquez

Anlisis de datos Categricos

Datos categricos
Principales distribuciones de probabilidad
Pruebas de hiptesis e intervalos

Variable respuesta cualitativa


Variable respuesta y explicativa
Variable de conteo y proporcin
Escalas de medicin

Variable respuesta y explicativa

Muchas de las herramientas estadsticas hacen una distincin


entre la variable respuesta (o dependiente) y variables
explicativas (o independientes).
Por ejemplo: los modelos de regresin describen como la media
de una variable respuesta, como el precio de venta de una
casa, cambia de acuerdo a los valores de variables explicativas,
como el rea total y la ubicacin.
En este curso el anlisis se enfoca al caso en que la variable
respuesta es de tipo cualitativa.

Ms Carlos Lpez de Castilla Vsquez

Anlisis de datos Categricos

Datos categricos
Principales distribuciones de probabilidad
Pruebas de hiptesis e intervalos

Variable respuesta cualitativa


Variable respuesta y explicativa
Variable de conteo y proporcin
Escalas de medicin

Variable de conteo y proporcin


Una variable de conteo es aquella que representa la frecuencia
de ocurrencia de un evento.
Por ejemplo: el nmero de personas que responden
correctamente una encuesta, el nmero de autos mal
estacionados en un centro comercial, etc.
Las variables de tipo proporcin representan la razn entre el
nmero de xitos y el nmero de eventos.
Por ejemplo: la proporcin de pacientes que responden
satisfactoriamente a un antibitico, la proporcin de
estudiantes de Biologa que se matriculan en el curso de
Estadstica General, etc.
Ms Carlos Lpez de Castilla Vsquez

Anlisis de datos Categricos

Datos categricos
Principales distribuciones de probabilidad
Pruebas de hiptesis e intervalos

Variable respuesta cualitativa


Variable respuesta y explicativa
Variable de conteo y proporcin
Escalas de medicin

Escalas de medicin
Las variables cualitativas cuyas categoras no presentan un
orden natural son llamadas nominales. Para una variable
nominal el orden de listado de las categoras es irrelevante.
Por ejemplo: la liacin religiosa, el tipo de transporte
utilizado para ir al trabajo, gnero musical favorito, etc.
Las variables cualitativas cuyas categoras presentan un orden
natural son llamadas ordinales. Los mtodos de anlisis de
estas variables consideran el orden de las categoras.
Por ejemplo: el tamao de un automvil, el nivel
socioeconmico, el grado de instruccin, etc.

Ms Carlos Lpez de Castilla Vsquez

Anlisis de datos Categricos

Datos categricos
Principales distribuciones de probabilidad
Pruebas de hiptesis e intervalos

Variable respuesta cualitativa


Variable respuesta y explicativa
Variable de conteo y proporcin
Escalas de medicin

Escalas de medicin
Una variable cuantitativa de intervalo es aquella en la que solo
tienen signicado las distancias numricas entre dos valores
cualesquiera. En esta escala el cero no indica la ausencia de la
caracterstica que se mide.
Por ejemplo: la temperatura, las puntuaciones del coeciente
intelectual, las fechas de calendario, etc.
Una variable cuantitativa de razn es aquella que permite
calcular razones o proporciones entre dos valores cualesquiera.
Por ejemplo: la presin sanguinea, el ingreso familiar, la edad
de un paciente, etc.

Ms Carlos Lpez de Castilla Vsquez

Anlisis de datos Categricos

Datos categricos
Principales distribuciones de probabilidad
Pruebas de hiptesis e intervalos

Variable respuesta cualitativa


Variable respuesta y explicativa
Variable de conteo y proporcin
Escalas de medicin

Escalas de medicin
La forma en que se mide una variable determina como sta se
clasica.
Por ejemplo: la variable educacin es nominal si se mide como
pblica o privada; es ordinal si se mide como el mximo grado
obtenido (primaria, secundaria, superior) y es de razn si se
mide como el nmero de aos de educacin.
La escala de medicin de una variable determina el mtodo
estadstico a utilizar para su anlisis.
Las variables cuantitativas se clasican en continuas o
discretas de acuerdo al nmero de valores que puedan tomar.

Ms Carlos Lpez de Castilla Vsquez

Anlisis de datos Categricos

Datos categricos
Principales distribuciones de probabilidad
Pruebas de hiptesis e intervalos

Variable respuesta cualitativa


Variable respuesta y explicativa
Variable de conteo y proporcin
Escalas de medicin

Escalas de medicin
La medicin de las variables se hace de manera discreta debido
a las limitaciones en los instrumentos de medicin.
En la prctica se considera que una variable continua es
aquella que toma un conjunto muy grande de valores mientras
que una variable discreta es aquella que toma un conjunto
pequeo de valores.
Las variables ordinales suelen tratarse como variables
cualitativas usando mtodos para variables nominales o
asignando puntuaciones a las categoras para darle una
naturaleza cuantitativa.

Ms Carlos Lpez de Castilla Vsquez

Anlisis de datos Categricos

Datos categricos
Principales distribuciones de probabilidad
Pruebas de hiptesis e intervalos

Distribucin binomial
Distribucin multinomial
Distribucin de Poisson
Poisson y multinomial

Distribucin binomial
Sean y1 , y2 , , yn las respuestas obtenidas en n ensayos
independientes.
Suponga que:
Pr (Yi = 1) = y Pr (Yi = 0) = 1
Se usa xito y fracaso para denotar los valores 1 y 0
respectivamente.
Se asume que la probabilidad de xito, , es constante.
Las variables aleatorias independientes {Yi } son llamadas
ensayos de Bernoulli.
Ms Carlos Lpez de Castilla Vsquez

Anlisis de datos Categricos

Datos categricos
Principales distribuciones de probabilidad
Pruebas de hiptesis e intervalos

Distribucin binomial
Distribucin multinomial
Distribucin de Poisson
Poisson y multinomial

Distribucin binomial
El nmero total de xitos Y =
binomial con parmetros n y .
La funcin de probabilidad es:

Pn

f (y ) =

i=1 Yi

n!
y (1 )ny
y ! (n y )!

tiene

distribucin

y = 0, 1, , n

Se denota como Y BI (n, ). La media y varianza estan


dadas por:
= E (Y ) = n

Ms Carlos Lpez de Castilla Vsquez

2 = Var (Y ) = n (1 )

Anlisis de datos Categricos

Datos categricos
Principales distribuciones de probabilidad
Pruebas de hiptesis e intervalos

Distribucin binomial
Distribucin multinomial
Distribucin de Poisson
Poisson y multinomial

Distribucin multinomial
Suponga que un conjunto de n ensayos independientes puede
resultar en cualquiera de c categoras.
Sea yij = 1 si el ensayo i resulta en la categora j y yij = 0 en
caso contrario.
Se tiene que:
yi = (yi 1 , yi 2 , , yic )

representa un ensayo multinomial.


P
Si nj = i yij el nmero de ensayos que caen en la categora j
entonces (n1 , n2 , , nc ) tiene distribucin multinomial.
Se denota como (n1 , n2 , , nc ) M(n, {j }).
Ms Carlos Lpez de Castilla Vsquez

Anlisis de datos Categricos

Datos categricos
Principales distribuciones de probabilidad
Pruebas de hiptesis e intervalos

Distribucin binomial
Distribucin multinomial
Distribucin de Poisson
Poisson y multinomial

Distribucin multinomial
Sea j = Pr(Yij = 1) que denota la probabilidad que el ensayo
i resulte en la categora j .
La funcin de probabilidad es:

f (n1 , n2 , , nc ) =

n!
n1 !n2 ! nc !

Y
c

ini

i=1

con j nj = n.
La media, varianza y covarianza son:
P

E (nj ) = nj Var (nj ) = nj (1 j ) Cov (nj , nk ) = nj k

Ms Carlos Lpez de Castilla Vsquez

Anlisis de datos Categricos

Datos categricos
Principales distribuciones de probabilidad
Pruebas de hiptesis e intervalos

Distribucin binomial
Distribucin multinomial
Distribucin de Poisson
Poisson y multinomial

Distribucin de Poisson
Muchas veces los procesos de conteo no se obtienen a partir
de un nmero jo de ensayos por lo que no es posible
establecer un lmite superior.
En este caso suele utilizarse la distribucin de Poisson.
La funcin de probabilidad es:
f (y ) =

e y
y!

y = 0, 1,

Se denota por Y P (). La media y la varianza son:


E (Y ) = Var (Y ) =
Ms Carlos Lpez de Castilla Vsquez

Anlisis de datos Categricos

Datos categricos
Principales distribuciones de probabilidad
Pruebas de hiptesis e intervalos

Distribucin binomial
Distribucin multinomial
Distribucin de Poisson
Poisson y multinomial

Sobredispersin
En la prctica los conteos presentan mayor variablidad de la
que se asume con la distribucin binomial o Poisson. Este
fenmeno es llamado sobredispersin.
Por ejemplo: en lugar de considerar que cada persona tiene la
misma probabilidad de tener un accidente fatal debera
considerase que sta depende de factores como la velocidad, el
uso del cinturn, etc.
Los factores anteriores son los responsables de tener mayor
variacin de la que se establece con las distribuciones
mencionadas.
La distribucin binomial negativa permite que la varianza
exceda el valor de la media en situaciones como la descrita.
Ms Carlos Lpez de Castilla Vsquez

Anlisis de datos Categricos

Datos categricos
Principales distribuciones de probabilidad
Pruebas de hiptesis e intervalos

Distribucin binomial
Distribucin multinomial
Distribucin de Poisson
Poisson y multinomial

Poisson y multinomial
Sean c variables aleatorias independientes con distribucin de
Poisson tal que E (Yi ) = i .
La
P distribucin condicional para Y1 = n1 , , Yc = nc dado
Yi = n es:
ni
Pr (Y1 = n1 , , Yc = nc )
i exp {i } i /ni !
P
P
P
=
Pr ( Yi = n)
exp { i } ( i )n /n!

Q 


=

donde i = i /

n!
n1 !n2 ! nc !

Y

ini

j , es decir la distribucin es M (n, {i }).

Ms Carlos Lpez de Castilla Vsquez

Anlisis de datos Categricos

Datos categricos
Principales distribuciones de probabilidad
Pruebas de hiptesis e intervalos

Estimacin por mxima verosimilitud


Inferencia para el parmetro binomial
Inferencia para los parmetros multinomiales

Estimadores de mxima verosimilitud


Los estimadores de mxima verosimilitud tienen propiedades
importantes cuando el tamao de muestra es grande.
Son asintticamente consistentes, ecientes y convergen hacia
la distribucin normal.
El estimador de mxima verosimilitud (EMV) es el valor del
prametro que maximiza la funcin de verosimilitud.
La funcin de verosimilitud es la distribucin de probabilidad
conjunta para la data luego de haberla observado.
Se denota la funcin de verosimilitud por L() y su logaritmo
por l().

Ms Carlos Lpez de Castilla Vsquez

Anlisis de datos Categricos

Datos categricos
Principales distribuciones de probabilidad
Pruebas de hiptesis e intervalos

Estimacin por mxima verosimilitud


Inferencia para el parmetro binomial
Inferencia para los parmetros multinomiales

Prueba de hiptesis
El estimador de mxima verosimilitud:
y

= =
n

Pn

i=1 yi

Considere H0 : = 0 . El estadstico de Wald es:

0
zW = p

(1
)/n

El estadstico score es:

0
zS = p
0 (1 0 )/n
Ms Carlos Lpez de Castilla Vsquez

Anlisis de datos Categricos

Datos categricos
Principales distribuciones de probabilidad
Pruebas de hiptesis e intervalos

Estimacin por mxima verosimilitud


Inferencia para el parmetro binomial
Inferencia para los parmetros multinomiales

Intervalo de conanza
La prueba de razn de verosimilitud es:
2

XRV




1
= 2 y log
+ (n y ) log
0
1 0

El intervalo basado en el estadstico de Wald:


r

z1/2

(1
)

+ z1/2
n

(1
)
n

El intervalo basado en la prueba de razn de verosimilitud:





1
2 y log + (n y ) log
21,1

1
Ms Carlos Lpez de Castilla Vsquez

Anlisis de datos Categricos

Datos categricos
Principales distribuciones de probabilidad
Pruebas de hiptesis e intervalos

Estimacin por mxima verosimilitud


Inferencia para el parmetro binomial
Inferencia para los parmetros multinomiales

Intervalo de conanza

El intervalo basado en el estadstico score:

v
u
u
t

n
n + z12/2

n + z12/2

1
+
2

"

(1
)

Ms Carlos Lpez de Castilla Vsquez

z12/2

n + z12/2

n
n + z12/2

!
z1/2

1
4

 
+

Anlisis de datos Categricos

z12/2

n + z12/2

!#

Datos categricos
Principales distribuciones de probabilidad
Pruebas de hiptesis e intervalos

Estimacin por mxima verosimilitud


Inferencia para el parmetro binomial
Inferencia para los parmetros multinomiales

Estimadores de mxima verosimilitud


El logaritmo de la funcin de verosimilitud multinomial es:
l () =

nj log j

Como c = 1 (1 + + c1 ) y

nj = n entonces:

nj
l ()
nc
=

=0
j
j
c

Los estimadores de mxima verosimilitud son j =


j = 1, , c 1.
Ms Carlos Lpez de Castilla Vsquez

Anlisis de datos Categricos

nj
n

para

Datos categricos
Principales distribuciones de probabilidad
Pruebas de hiptesis e intervalos

Estimacin por mxima verosimilitud


Inferencia para el parmetro binomial
Inferencia para los parmetros multinomiales

Estadstico de Pearson
Se usa para establecer una prueba de hiptesis sobre los
parmetros de la distribucin multinomial.
P
Considere H0 : j = j 0 para j = 1, , c donde j j 0 = 1.
Si la hiptesis nula es verdadera las frecuencias esperadas son:
j = nj 0

para j = 1, , c .
Pearson (1900) propuso el estadstico:
X2 =

X (nj j )2
2c1
j
j

Ms Carlos Lpez de Castilla Vsquez

Anlisis de datos Categricos

Datos categricos
Principales distribuciones de probabilidad
Pruebas de hiptesis e intervalos

Estimacin por mxima verosimilitud


Inferencia para el parmetro binomial
Inferencia para los parmetros multinomiales

Estadstico de razn de verosimilitud


Esta prueba es una alternativa para el estadstico de Pearson.
La razn de verosimilitud es:
Q

j
= Q

(j 0 )nj

j )
j (

nj

El estadstico de prueba es:


G 2 = 2 log = 2

nj log(j /j 0 )

Para n grande, G 2 tiene distribucin chi-cuadrado con c 1


grados de libertad.
Ms Carlos Lpez de Castilla Vsquez

Anlisis de datos Categricos

También podría gustarte