Está en la página 1de 26

ESTIMACIONES VIA KERNEL

Giovanny Casas Agudeo

Profesor: Juan Carlos Correa Estadstica Bayesiana

Facultad de Ciencias- Escuela de Estadstica Universidad Nacional de Colombia Medelln, Colombia 2010

ESTIMACIONES DE DENSIDAD VIA KERNEL

TABLA DE CONTENIDO

1. Introduccin ..................................................................................................... 2. Estimaciones .................................................................................................... 3. Tipos de Estimaciones ....................................................................................


3.1. Conceptos Bsicos ......................................................................................

3 4 5 6 8 10 14 19 20 25

4. Mtodos No Parametricos de Estimacin.................................................... 5. Estimaciones de Densidad Via Kernel .........................................................


5.1. Funciones Kernel .........................................................................................

6. Estimacion de Densidad Multivariada Via Kernel .................................... 7. Ejercicio de Aplicacin .................................................................................. 8. Bibliografa ......................................................................................................

INTRODUCCIN

La teora clsica de la regresin se basa, en gran parte, en el supuesto que las observaciones son independientes y se encuentran idntica y normalmente distribuidas. Si bien existen muchos fenmenos del mundo real que pueden modelarse de esta manera, para el tratamiento de ciertos problemas, la normalidad de los datos es insostenible. En el intento de eliminar esa restriccin se disearon mtodos que hacen un nmero mnimo de supuestos sobre los modelos que describen las observaciones.

La teora de los mtodos no paramtricos trata, esencialmente, el desarrollo de procedimientos de inferencia estadstica, que no realizan una suposicin explcita con respecto a la forma funcional de la distribucin de probabilidad de las observaciones de la muestra. Si bien en la Estadstica no paramtrica tambin aparecen modelos y parmetros, ellos estn denidos de una manera ms general que en su contrapartida paramtrica.

La regresin no paramtrica es una coleccin de tcnicas para el ajuste de funciones de regresin cuando existe poco conocimiento a priori acerca de su forma. Proporciona funciones suavizadas de la relacin y el procedimiento se denomina suavizado.

Los fundamentos de los mtodos de suavizado son antiguos pero slo lograron el estado actual de desarrollo gracias a los avances de la computacin y los estudios por simulacin han permitido evaluar sus comportamientos.

La tcnica ms simple de suavizado, los promedios mviles, fue la primera en usarse, sin embargo han surgido nuevas tcnicas como la estimacin va kernel o la regresin local ponderada. Estos estimadores de regresin no paramtrica son herramientas poderosas para el anlisis de datos, tanto como una tcnica de estimacin para resumir una relacin compleja que no puede ser aprehendida por un modelo paramtrico, como para suplementar (o complementar) un anlisis de regresin paramtrico.

ESTIMACIONES

En estadstica se llama estimacin al conjunto de tcnicas que permiten dar un valor aproximado de un parmetro de una poblacin a partir de los datos proporcionados por una muestra.

La inferencia estadstica es el proceso de usar resultados muestrales para obtener conclusiones respecto a las caractersticas de una poblacin. Vamos a estudiar los procedimientos estadsticos que permitan estimar dos parmetros de una poblacin: la media y la proporcin.

Razn para estimar


Los administradores utilizan las estimaciones porque se deben tomar decisiones racionales, sin que tengan la informacin pertinente completa y con una gran incertidumbre acerca de lo que pueda deparar el futuro, pero con la intencin de que las estimaciones constituyan una buena aproximacin de los parmetros desconocidos de la poblacin.

Estimador
Es la regla o procedimiento, expresado en general por medio de una frmula, que se utiliza para deducir la estimacin.

Estimacin.
Es un valor especco observado de un estimador, por lo que asigna uno o varios valores numricos a un parmetro de una poblacin sobre la base de datos de muestra. En

su versin ms simple, una estimacin de la media de una determinada caracterstica de una poblacin de tamao N sera la media de esa misma caracterstica para una muestra de tamao n.

Un estimador de un parmetro poblacional es una funcin de los datos mustrales. En pocas palabras, es una frmula que depende de los valores obtenidos de una muestra, para realizar estimaciones.

TIPOS DE ESTIMACIONES:

Estimacin de parmetros:
Un problema importante de la inferencia estadstica es la estimacin de parmetros de la poblacin, brevemente parmetros, de los correspondientes estadsticos mustrales, o simplemente estadsticos.

Estimaciones sin sesgo:


Si la media de las dispersiones de muestreo con un estadstico es igual que la del correspondiente parmetro de la poblacin, el estadstico se llamara estimador sin sesgo, del parmetro; si no, si no se llama estimador sesgado. Los correspondientes valores de tal estadstico se llaman estimacin sin sesgo, y estimacin con sesgo respectivamente.

Estimacin puntual :
Consiste en la estimacin del valor del parmetro mediante un slo valor, obtenido de una frmula determinada. Por ejemplo, si se pretende estimar la talla media de

un determinado grupo de individuos, puede extraerse una muestra y ofrecer como estimacin puntual la talla media de los individuos de la muestra.

Cuando usamos una estimacin puntual, sabemos que aunque usemos un mtodo bueno de estimacin es prcticamente improbable que el valor de la estimacin coincida con el verdadero valor del parmetro, as que sera conveniente acompaar nuestra estimacin con alguna medida que nos permitiera expresar la cercana del estimador al parmetro. Una solucin a ello no los brindan los estimadores por Intervalos de Conanza.

Estimacin por intervalos:


Consiste en la obtencin de un intervalo dentro del cual estar el valor del parmetro estimado con una cierta probabilidad. En la estimacin por intervalos se usan los siguientes conceptos

Conceptos Bsicos:

Intervalo de conanza:
El intervalo de conanza es una expresin del tipo [j1,

j2]

j1 j j2,

donde

es el parmetro a estimar.

Este intervalo contiene al parmetro estimado con una

determinada certeza o nivel de conanza.

Variabilidad del parmetro:


Si no se conoce, puede obtenerse una aproximacin en los datos aportados por la literatura cientca o en un estudio piloto. Tambin hay mtodos para calcular el tamao de la muestra que prescinde de este aspecto. Habitualmente se usa como medida de esta variabilidad la desviacin tpica poblacional y se denota

sv.

Error de la estimacin:
Es una medida de su precisin que se corresponde con la amplitud del intervalo de conanza. Cuanta ms precisin se desee en la estimacin de un parmetro, ms estrecho deber ser el intervalo de conanza y, si se quiere mantener o disminur el error, ms ocurrencias debern incluirse en la muestra estudiada. En caso de no incluir nuevas

observaciones para la muestra, ms error se comete al aumentar la precisin. Se suele llamar E, segn la frmula E =

j2

j1.

Nivel de conanza:
Es la probabilidad de que el verdadero valor del parmetro estimado en la poblacin se site en el intervalo de conanza obtenido. El nivel de conanza se denota por (1-a), aunque habitualmente suele expresarse con un porcentaje ((1-a)*100%).

Es habitual tomar como nivel de conanza un 95% o un 99%, que se corresponden con valores

de 0,05 y 0,01, respectivamente.

Donde el Valor

es tambin llamado nivel de signicancia.

Es la probabilidad (en

tanto por uno) de fallar en nuestra estimacin, esto es, la diferencia entre la certeza (1) y el nivel de conanza (1-a). Por ejemplo, en una estimacin con un nivel de conanza del 95%, el valor

es (10095)/100 = 0,05.

Valor crtico:
Se representa por

Za/2 .

Es el valor de la abscisa en una determinada distribucin que

deja a su derecha un rea igual a

a/2,

siendo 1-a el nivel de conanza. Normalmente

los valores crticos estn tabulados o pueden calcularse en funcin de la distribucin de la poblacin.

Por ejemplo, para una distribucin normal, de media 0 y desviacin tpica 1, el valor crtico para

= 0.05 se calculara del siguiente modo: se busca en la tabla de la dis-

tribucin ese valor (o el ms aproximado), bajo la columna  rea ; se observa que se corresponde con

=0.64. Entonces Za

/2 = 0.64.

Si la media o desviacin tpica de la distribucin normal no coinciden con las de la tabla, se puede realizar el cambio de variable t=

(Xm)

sv

para su clculo. Con estas deni-

ciones, si tras la extraccin de una muestra se dice que  3 es una estimacin de la media con un margen de error de 0.6 y un nivel de conanza del 99% , podemos interpretar que el verdadero valor de la media se encuentra entre 2.7 y 3.3, con una probabilidad del 99%. Los valores 2.7 y 3.3 se obtienen restando y sumando, respectivamente, la

mitad del error, para obtener el intervalo de conanza segn las deniciones dadas.

Para un tamao jo de la muestra, los conceptos de error y nivel de conanza van relacionados. Si admitimos un error mayor, esto es, aumentamos el tamao del in-

tervalo de conanza, tenemos tambin una mayor probabilidad de xito en nuestra estimacin, es decir, un mayor nivel de conanza.

MTODOS NO PARAMTRICOS DE ESTIMACIN


La estadstica no paramtrica es una rama de la estadstica que estudia las pruebas y modelos estadsticos cuya distribucin subyacente no se ajusta a los llamados criterios paramtricos. Su distribucin no puede ser denida a priori, pues son los datos

observados los que la determinan.

La utilizacin de estos mtodos se hace recomendable cuando no se puede asumir que los datos se ajusten a una distribucin conocida, cuando el nivel de medida empleado no sea, como mnimo, de intervalo.

Los mtodos no paramtricos tienen ventajas sobre los paramtricos algunos de ellos son:

Los mtodos paramtricos en muchas ocasiones no cumplen con los supuestos acerca de la forma funcional del conjunto de variables aleatorias de las cuales provienen los datos, produciendo as modelos no muy conables que generan sesgos en y deterioran la calidad de los pronsticos; en el campo no paramtrico se evita este problema al permitir una forma funcional exible, y no un conjunto pequeo de modelos rgidos como lo hacen los paramtricos.

Sin embargo, se les hace dos crticas, la primera se reere a la demora en el trabajo computacional y la segunda al amplio error cuadrtico medio de prediccin. Gracias a desarrollos tecnolgicos en el mbito computacional y su disponibilidad a bajo costo queda sin peso la primera crtica.

Como lo escribe Hrdle (1990), la aproximacin no paramtrica a la estimacin de curvas de regresin tiene cuatro propsitos principales.

Primero:
ables.

Proveer un mtodo verstil de explorar una relacin general entre dos vari-

Segundo:

Generar una prediccin de observaciones aun no hechas, sin referencia a

un modelo paramtrico jo.

Tercero:

Proporcionar una herramienta para encontrar observaciones espurias, me-

diante el estudio de la inuencia de puntos aislados.

Cuarto:

Constituye un mtodo exible de sustitucin de observaciones faltantes o atpi-

cas y permite interpolar entre valores adyacentes de las variables exgenas.

Dentro del marco de regresin no paramtrica se pueden citar adems de los mtodos basados en kernel o suavizamiento, los de estimacin basada en los k vecinos ms cercanos (k-nearest neighbor), las estimaciones con series ortogonales, regresin cuantlica y los suavizamientos de Splines.

El presente trabajo se centra en los basados en metodologa kernel, la cual se describe a continuacin

ESTIMACIONES DE DENSIDAD VIA KERNEL

Propuestos por primera vez por Rosenblatt (1956), la singularidad de estos estimadores radica en que adoptan un enfoque no paramtrico para la formulacin de funciones de densidad. Con ello no se imponen asunciones tan rgidas a los datos como sucede en el planteamiento paramtrico.

Segn lo seala Silverman (1986), asumiendo que la distribucin de datos posee una densidad de probabilidad f, se les posibilita hablar ms por s mismos al determinar dicha funcin f, que si se exigiera su adecuacin a una determinada familia de funciones paramtricas.

Desde el punto de vista matemtico estos estimadores poseen un cierto nmero de propiedades interesantes:

a) b) c) d)

Son funciones simtricas centradas en cero y su integral vale la unidad. Puesto que el Kernel es una funcin de densidad, el estimador

f tambin

lo es.

En la mayora de los casos (dependiendo del Kernel) se trata tambin de funciones

continuas y diferenciables. Los Kernels son positivos.

En el caso univariado, el estimador por kernels de la funcin de densidad obtiene de la siguiente manera. Consideremos que

f (x)

se

x1 , . . . xn

es una variable aleatoria

con funcin de densidad

f (x),

denamos la funcin de distribucin empirica por:

Fn (x) =

#de obs

n F (x)
de

el cual es un estimador de la funcin de distribucin acumulada siderando que la funcin de densidad

X.

Con-

f (x)

es la derivada de la funcin de distribucin

y usando aproximacin para derivada se tiene que:

Fn (x + h) + Fn (x h) f (x) = n
10

(1)

donde h es un valor positivo cercano a cero. Lo anterior es equivalente a la proporcin de puntos en el intervalo (x-h, x+h) dividido por h. La ecuacin (1) puede ser escrita como:

1 f (x) = nh
Donde:

K
i=1

x xi h

x = Punto en el cual se trata de estimar la densidad xi = Valor de la variable en el caso i=l, ... , n K = Smbolo del Kernel h = Anchura de la ventana o parmetro de suavizado.
Donde la funcin peso K est denida por:

K(z) =

0 1
2

si | z |> 1

si | z | 1

Este es llamado el kernel uniforme y h llamado el ancho de banda es un parmetro de suavizacin que indica cuanto contribuye cada punto muestral al estimado en el punto x. En general, K y h deben satisfacer ciertas condiciones de regularidad, tales como:

1. 2.

Integral desde

hasta

de K(z) = 1

K(z) debe ser acotado y absolutamente integrable en (,)

3. limn h (n) = 0
Usualmente, pero no siempre, K(z)>0 y simtrico, luego cualquier funcin de densidad simtrica puede usarse como kernel.

Entre los kernels mas usados los cuales veremos con mas profundidad mas adelante son:

11

a) El kernel Rectangular o Uniforme es denido por:

K(z) =

0 1
2

si | z |> 1

si | z | 1
1 al estimado de 2nh

En este caso cualquier punto en el intervalo (x-h, x+h) contribuye

f (x)

en el punto

x,

y cualquier punto fuera de ese intervalo no contribuye en nada.

b) El kernel Gaussiano denido por:

1 K(z) = exp((1/2) z 2 ) 2
En este caso el kernel representa una funcin peso ms suave donde todos los puntos contribuyen al estimado de f(x) en x.

c) El kernel Triangular denido por:

K(z) = 1 | z |

Para

| z |menor

que 1 y en otro caso.

d)El kernel "Biweight" denido por

K(z) =

15 (1 z 2 )2 16
0

si | z |< 1

E.O.C

e) El kernel Epanechnikov denido por:

K(z) =

(1 3 4 5
0

z2 ) 5

si | z |<

E.O.C

12

El parmetro h es llamado el ancho de banda. Si h es muy pequeo entonces el estimador de densidad por kernel degenera en una coleccin de n picos cada uno de ellos localizado en cada punto muestral.

Si h es demasiado grande entonces el estimado se sobresuaviza y se obtiene casi una distribucion uniforme. El valor de h tambin depende del tamao de la muestra, con muestras pequeas se debe escoger un h grande y con muestras grandes se puede escoger un h pequeo.

La mayora de las posibles elecciones para el parmetro ancho de banda h basados en un conjunto de datos X de tamao n hacen uso de la frmula anterior. A continuacin se listan algunas elecciones de h:

h=

rango(x) 2(1+log2 n)

h = 1.06min( , R/1.34)n1/5
donde

es la desviacin estndar estimada del conjunto de datos y R representa el

rango intercuartlico, las constantes provienen de asumir que la densidad desconocida es Normal y un kernel gausiano. Este es bsicamente el mtodo usado por SAS/INSIGHT para estimar la curvatura.

h = 1.144 n1/5
Otros mtodos mas sosticados son:

El mtodo de Sheather y Jones (1991) que propone estimar la curvatura usando tambin el mtodo del kernel, pero con un ancho de banda g distinto al que se usa para estimar la densidad. Los estimadores de densidad de la libreria de Ripley usan este mtodo.

Usando validacin cruzada, propiamente el mtodo  dejando uno afuera . Aqui el h es considerado como un parmetro que debe ser estimado. Hay dos alternativas, usando mnimos cuadrados (aqui se obtiene un estimado insesgado), o maxima verosimilitud (aqui se obtiene un estimador sesgado). Ver Bowman and Azzalini (1997), para una implementacin en S-Plus.

Usando "Bootstrapping", en este caso se encuentra un estimado del MISE usando muestras con reemplazamiento y se minimiza con respecto a h.

13

Cao, Cuevas y Gonzalez (1994) hacen una comparacin de varios metodos de elegir el ancho de banda h y llegan a la conclusin de que sin considerar el "boostrapping", el mtodo de Sheather y Jones es el de mejor rendimiento.

FUNCIONES KERNEL:
A continuacin se mencionan las funciones kernel ms usadas en aplicaciones practicas. Con nes ilustrativos se presentan los kernel estndar, K(u) , pero se debe tener en cuenta que en la practica se utiliza.

Kh = h1 K
Kernel Uniforme:

u h

Asigna peso de

1 por igual a todas las observaciones que estn a h

distancia no mayor de h y cero a las dems. Una representacin grca ser.

Kernel Triangular:
Gracamente seria:

Asigna pesos de

1 a observaciones coincidentes y el peso de h

las otras decrece linealmente hasta un peso de cero a las que estn a h o mas lejos.

14

Kernel Epanechnikov:

Para las observaciones que estn a distancia de 0 a h asigna

pesos entre 0.75 y cero, con decrecimiento cuadrtico. Las que estn a una distancia de h o mayor tienen peso cero. Su grca se muestra a continuacin:

Kernel Bicuadrado:
o mayor.

Los pesos para observaciones cercanas son cuando mas de 0.93

con decrecimiento polinomial curtico hasta llegar a cero, cuando la distancia es de h

15

Kernel Gaussiano:

Asigna pesos de acuerdo a una densidad normal estndar. Obser-

vaciones cuya distancia oscila entre cero y 1 reciben peso entre 0.4 y 0.2, las que estn a distancia 3 reciben peso de 0.0039 y prcticamente cero el resto de observaciones. Es un Kernel muy popular, con soporte no compacto y diferenciable en todo su soporte o recorrido. En este caso el ancho de banda en estndar.

Kh (u)

desempea el papel de desviacin

Kernel Tri-Cbico:

El cual es similar al Epanechnikov pero ms plano en la cima;

con la ventaja terica de que es diferenciable en los lmites de su soporte (| u |= 1).

16

Kernel Dirichlet:

Los pesos son asignados segn ondas senosoidales de magnitud

decrecientes, con un `lbulo principal' o mayor alrededor de cero y lbulos laterales o menores a los dos lados. Este kernel resulta de soporte no acotado. Tiene la particularidad de no ser siempre positiva y es usada en anlisis espectral, vase Prietsley (1984).

De las anteriores funciones kernel y de otras que existen en la literatura las mas usadas son la funcin Tri-cbico, Epanechnikov y la Gaussiana soportado en sus propiedades estadsticas y asintticas. Dado que la eleccin de la funcin kernel no afecta marcadamente los resultados, como es aceptado ampliamente en la literatura, en este trabajo se usa el Kernel Gaussiano.

17

Naturalmente la obtencin de la funcin de estimacin puede realizarse en puntos diferentes a los datos observados. La idea bsica consiste, en conclusin, en calcular para unos determinados puntos, la suma promediada (de ah que el estimador suponga sumar sobre n y dividir luego por este valor) de los Kernels o elevaciones centradas sobre las observaciones.

Entre las funciones no mencionadas tenemos:

Coseno: Para | u | 1

cos u 4 2 3 1 u2
2

K2 de Silverman: Para | u | 1

18

ESTIMACIN POR KERNELS DE UNA FUNCIN DE DENSIDAD MULTIVARIADA


La funcin de estimacin Kernel multivariada no sera ms que una extensin de las formulaciones anteriores.

El mtodo de kernels fue extendido a distribuciones multivariadas por Cacoullos (1966). En este caso densidad

X1 , X2 , . . . .Xn es una muestra de vectores aleatorios distribuidos con una f (x) en un espacio de dimensin d. El estimador de la funcin de densidad

usando un kernel multivariado k y con ancho de banda h jo para cada componenente del vector es de la forma:

1 f (x) = nhd

K
i=1

x xi h

la funcin kernel K, denida para un vector x de dimensin d, debe satisfacer que:

La

K(x)dx=1

Usualmente, pero no siempre, K ser una funcin de densidad multivariada radialmente simtrica y unimodal. El ancho de banda h puede ser considerado tambin como un vector si se considera que es distinto para cada componente.

Existen otras formas ms generales del estimador de densidad por kernel.

Los kernels ms usados son las versiones multivariadas de los denidos anteriormente.

1. El kernel Gaussiano ser:


K(x) = (2)d/2 exp((1/2)xx)

2. El kernel "Biweight" ser:


3 1 (1 xx)2 0 si xx < 1

K(z) =

E.O.C

19

3. El kernel Epanechnikov ser:


1 c1 (d + 2)(1 xx) 2 d si xx < 1

K(z) =

E.O.C

donde cd es el volumen de una esfera unitaria de dimensin d: As, c1 =2, c2 =p, c3 =4/3. 4. El kernel "Triweight" se dene en forma similar al "Biweight" como:
4 1 (1 xx)3 si xx < 1

K(z) =

E.O.C

Kernels Productos
En el caso multivariado, una alternativa a usar un kernel multivariado, el cul es afectado por la  maldicin de la dimensionalidad es usar productos de kernels univariados. Considerando que x=(x1,. . . .xp) es un vector p-dimensional, el estimador kernel producto se dene por:

1 f (x) = nhp

K
i=1 j=1

xj xji h

donde K es un kernel univariado. Un caso ms general es considerar un h distinto para cada variable.

Kernels para variables discretas


Si las las variables predictoras son binarias 0-1, entonces Aitchison and Aitken (Biometrika, 1976) propusieron el siguiente kernel p-dimensional

1 f (x) = nhp
donde:

K (x, xj , h)
i=1

20

K (x, xj , h) = hpdj (1 h)dj d2 j

Con

es la distancia euclideana al cuadrado entre x y

xj

, es decir el nmero de

elementos diferentes que tienen entre si, y 1/2

h 1.

Titterington (Technometrics,

1980) estudi varias maneras de elegir el ancho de banda h. En particular, si se tiene una sola variable Binomial entonces K(x,y)=h si x=y y K(x,y)=1-h si x=y y el mtodo de "dejar uno afuera" produce la siguiente valor ptimo de h

2 2 h = max(0.5, (r1 a1 + r2 a2 )n/a1 a2 )


donde

a1 = n(r1 r2 ) 1 y a2 = n(r2 r1 ) 1. Aqu r1 es la frecuencia relativa del Grupo 1 y r2 es la frecuencia relativa del grupo 2, n es el total de observaciones en la
muestra de entrenamiento.

21

EJERCICIO DE APLICACIN

El ejemplo corresponde a los datos de bosques tropicales. Se localizaron 3604 rboles en un bosque hmedo tropical.

El estudio se realizo para conocer el patrn espacial de los arboles del bosque tropical

A continuacin se muestra el cdigo para el anlisis de los arboles en el bosque con sus respectivos grcos y explicacin:

library(spatstat) data(bei) #planar point pattern: 3604 points #window: rectangle = [0, 1000] x [0, 500] metres plot(bei, main = "Arboles de un bosque tropical", pch = ".") den <- density(bei, 100) plot(den, main = "Densidad") plot(bei, pch = ".", add = T) contour(den, main = "Contorno", axes = F) persp(den, main = "Densidad 3D", zlab = "Densidad", theta = 45, phi = 35)
Las estimaciones de densidad via kernel se muestran a continuacin. Primero observemos la distribucin de los rboles:

22

Arboles de un bosque tropical

Veamos la densidad

Densidad

A continuacin la grca de contornos

23

0.005

0.01

0.015

Contorno
0.016

0.014
0.012
0.01 08 0.0 06 0.0

0.008

0.

6 00

0.008

0.01
0.004

0.012

Finalmete, la densidad viendola en 3-Dimensin.

Densidad 3D

24

0.0

0.00

04

Densid ad

BIBLIOGRAFAS

ALMENDRAS OPAZO, Edagar. ventista de Chile. 38 pg

2002.

Estimaciones Via Kernel.

Universidad Ad-

LUCENO, Alberto and PUIG PEY, Jaime. 2002. Journal of Quality Technology.

25

También podría gustarte