Está en la página 1de 11

´ctrica

Departamento de Ingenier´ıa Ele
´ ticas
Facultad de Ciencias F´ısicas y Matema
Universidad de Chile
EL4106 - Inteligencia Computacional

Tarea N°1

Clasificador Bayesiano

Profesor:
Javier Ruiz del Solar

Auxiliar:
Patricio Loncomilla

Ayudantes:
Felipe Vald´es
Pedro Orellana

Integrantes:
Roberto Rojas

Fecha:
April 14, 2015

e. . se pretende dise˜ nar un clasificador Bayesiano que permita determinar en forma probabil´ıstica si un vino pertenece a la clase Blanco o Tinto. se proponen dos enfoques: por un lado. decisi´ on α1 ) si: R(α1 |~x) < R(α2 |~x) λ11 p(ω1 |~x) + λ12 p(ω2 |~x) < λ21 p(ω1 |~x) + λ22 p(ω2 |~x) (λ11 − λ21 )p(ω1 |~x) < (λ22 − λ12 )p(ω2 |~x) 1 . Espec´ıficamente. estimaci´ on de vector media y matriz de covarianza para un modelo gaussiano multidimensional. Sin embargo.EL4106 . dado que observo ~x. pero sobre todo el espacio de caracter´ısticas. la cual pretende entregar una primera aproximaci´on al proceso de clasificaci´ on de caracter´ısticas. ser´ıa interesante obtener una expresi´ on que considere el costo esperado. Para ello. La funci´on riesgo condicional R(αi |~x) tiene dos grados de libertad: αi y ~x. se define el riesgo condicional como el costo esperado de tomar la acci´on αi .1 Clasificador de Bayes El clasificador de Bayes se basa en la teor´ıa de detecci´on bayesiana. Esta funci´ on se denomina riesgo bayesiano y. . lo cual implica minimizar el riesgo condicional en 1 para cada ~x.1 Caso particular: 2 clases Para el caso particular de dos clases (y por ende dos decisiones). x~2 . se tiene igual n´ umero de decisiones que de clases.1. en la cual se utiliza la regla que minimiza el riesgo. ´este pertenezca a la clase ωj (c es la cantidad de clases). En general. el cap´ıtulo 2 aborda de manera detallada la teor´ıa bayesiana de clasificaci´on. tal que αi corresponde a decidir la clase ωi . x~n }. . se expresa por: Z R(α) = R(α(~x)|~x)p(~x) d~x (2) Rd El clasificador bayesiano busca minimizar el riesgo bayesiano. Dado que las verosimilitudes de las muestras son desconocidas. se debe computar el riesgo condicional para α1 y α2 : R(α1 |~x) = λ11 p(ω1 |~x) + λ12 p(ω2 |~x) R(α2 |~x) = λ21 p(ω1 |~x) + λ22 p(ω2 |~x) El clasificador elige la clase ω1 (i. 2. 2. En primer lugar. considerando un espacio de dimensi´on d. . ´estas deber´an ser estimadas. En particular. 2 Marco Te´ orico Esta secci´on se basa en los contenidos expuestos por [1].Inteligencia Computacional 1 Introducci´ on El presente informe da cuenta de la primera tarea del curso. para cada xj se elige la decisi´on αi que minimiza 1. utilizaci´on de histogramas en un escenario Naive Bayes. mientras que el cap´ıtulo 3 muestra reglas de estimaci´on param´etrica. dado que se observa el vector de caracter´ısticas ~x: R(αi |~x) = c X λ(αi |ωj )p(ωj |~x) (1) j=1 donde λ(αi |ωj ) es el costo de elegir αi cuando en realidad ~x pertenece a la clase wj y p(ωj |~x) es la probabilidad de que. mientras que por otro. Si se tiene un set de datos o muestras {x~1 .

El estimador ML (maximum likelihood ) busca maximizar la verosimilitud de las observaciones o muestras: ˆ θ~ = argmax p(D|ωj . . . D = {~xm1 . θ~j ) θ~j θ~j = argmax θ~j p(~xmi |ωj .. . ~xm2 . θ~j )] = argmax θ~j i=1 M X l(θ~j ) i=1 donde se ha utilizado la independencia de las muestras y la monoton´ıa de la funci´on ln[·]. . i 6= j (pues acertar deber´ıa tener un costo menor que fallar). θ2 . Cuando se entrena un clasificador. denotado como p(~x|ωj . en el cual el ~x es un escalar (solo 1 caracter´ıstica).1 Distribuci´ on gaussiana con media y varianza desconocida Se analizar´a el caso univariante. la funci´ on log-likelihood es: ~ = − 1 ln(2πθ2 ) − 1 (xk − θ1 )2 ln[p(xk |θ)] 2 2θ2 y su derivada corresponde a: " ~ = ∇θ~ = ln[p(xk |θ)] 2 1 θ2 (xk − θ1 ) −θ1 )2 − 2θ12 + (xk2θ 2 2 # .Inteligencia Computacional Se puede observar que la regla de decisi´on encontrada queda en funci´on de las probabilidades a posteriori. yi }i=1. . lo que se hace realmente es utilizar un conjunto de entrenamiento {~xi . θ~j ))] = ~0 (4) i=1 resultando p ecuaciones para resolver p par´ametros. ~xm3 . θ~j ) i=1 ⇒ argmax θ~j M Y M X ln[p(~xmi |ωj .i. . usando la regla de Bayes: (λ11 − λ21 )p(~x|ω1 )p(ω1 ) < (λ22 − λ12 )p(~x|ω2 )p(ω2 ) Finalmente. . . y se posee un conjunto de muestras i. Finalmente. Una forma de hacerlo es a trav´es de estimaci´on. . se considera el operador ∇θ~j = ( ∂θ∂ 1 . por ejemplo).EL4106 . el vector de par´ametros que caracteriza a la ditribuci´ on t ~ ~ p(~x|ωj ) es θj = (θ1 . se utiliza el conjunto de entrenamiento para estimar el vector media µ~i y la matriz de covarianza Σi . .2. . si se sabe que p(~x|ωi ) distribuye de alguna forma particular (Gaussiana. resulta una regla de decisi´ on en la que se elige la clase w1 si: p(~x|ω1 ) (λ12 − λ22 )p(ω2 ) ≥ p(~x|ω2 ) (λ21 − λ11 )p(ω1 ) (3) Las distribuciones o funciones likelihood en 3 pueden obtenerse de forma aproximada a partir de datos de entrenamiento. θ~j ) = argmax p(~xm1 . ∂θ∂p )t para computar: ∇θ~j l(θ~j ) = M X ! ∇θ~j [ln(p(~xmi |ωj . . Sin embargo. las t´ecnicas de estimaci´ on se utilizan cuando no se tiene conocimiento de las funciones de probabilidad p(~x|ωi ).2 Estimaci´ on param´ etrica En clasificaci´on. θp ) .. . para clasificadores probabil´ısticos.. . . ~xmM } (cada muestra es una realizaci´on del vector de caracter´ısticas). En particular. algo que no es dato y es dif´ıcil de obtener. Considerando θ1 = µ y θ2 = σ 2 . θj ).d. 2. ~xmM |ωj . ∂θ∂ 2 .2. Supongamos que para cierta clase ωj . ~xm2 . como se desea maximizar.M para ajustar los par´ ametros del clasificador. .. 2. considerando λii < λij .

En el caso de una red neuronal. si el clasificador se basa en la funci´ on de probabilidad de las muestras. pero mal para el conjunto test. La base de datos contiene 11 caracter´ısticas fisicoqu´ımicas medidas para cada muestra de vino. Finalmente. se pudo observar que el porcentaje de cada clase corresponde PT into ≈ 49% y PBlanco ≈ 51%. 3 .EL4106 . los estimadores de m´ axima verosimilitud para la media y varianza son: µ ˆ= M 1 X xk M k=1 (5) M 1 X ˆ 2 (xk − µ ˆ )2 σ = M k=1 Para el caso multivariante. es muy probable que exista un sobreajuste de datos en la etapa de dise˜ no. El c´ odigo en ‘Parte1. el an´alisis es similar. dependiendo del enfoque que se utilice. siempre cumpli´endose la proporci´on que estas clases tienen en la base de datos completa. como un clasificador bayesiano o una red neuronal. respectivamente. i. dimensi´ on del espacio de caracter´ısticas mayor que uno. Los estimadores en este caso corresponden a: M 1 X µ ~ˆ = ~xk M ˆ= 1 Σ M 3 k=1 M X (6) (~xk − µ ~ˆ)(~xk − µ ~ˆ) t k=1 Resultados y An´ alisis 3.e. los par´ametros de ajuste ser´ıan el vector de medias y la matriz de covarianza. o la altura de los histogramas. Por ejemplo.Inteligencia Computacional Utilizando la condici´ on 4. a) En general. b) Para la base de datos completa. el conjunto de entrenamiento se puede dividir. A su vez. el conjunto de prueba se utiliza para obtener las caracter´ısticas o rendimiento del clasificador elegido. pero requiere un mayor manejo matem´atico. una base de datos se divide en 2 subconjuntos: conjunto de entrenamiento y conjunto de test o prueba. El conjunto de entrenamiento se utiliza para dise˜ nar o ajustar los par´ametros de alg´ un sistema de aprendizaje. los par´ametros corresponden a los pesos sin´apticos.m’ realiza lo solicitado. generando aleatoriamente los conjuntos de entrenamiento y test.1 Base de datos La base de datos utilizada en este trabajo corresponde a Wine Quality Data Set. para las clases Tinto y Blanco. Si el clasificador funciona muy bien para el conjunto de entrenamiento. dejando un subconjunto para el ajuste de par´ ametros y el otro como un conjunto de validaci´on. se obtienen las dos ecuaciones que determinan los par´ametros desconocidos: M X 1 (xk − θ1 ) = 0 θ2 − k=1 M X k=1 M X (xk − θ1 )2 1 + =0 2θ2 2θ22 k=1 Luego. la cual forma parte del UC Irvine Machine Learning Repository. El conjunto de validaci´ on se utiliza para comparar la performance o rendimiento de los clasificadores candidatos y decidir as´ı con cu´al quedarse.

con la pdf emp´ırica. para cada caracter´ıstica por separado). se ha considerado el mismo n´ umero de bins para cada histograma. El conjunto de entrenamiento considerado corresponde al utilizado en todo el desarrollo de la tarea. puesto que existen bins que deber´ıan tener un valor mayor del que poseen.2[g/L] para el vino tinto y 1. La figura 2 muestra que una cantidad de bins muy peque˜ na no alcanza para una buena aproximaci´on. simplificando el problema. Por otro lado. los l´ımites legales de esta caracter´ıstica (Volatile acidity) en U. Por lo mismo. b) La funci´on implementada ‘display hist parte2(Nbins). ´esta queda asociada con una probabilidad cero. tanto para los histogramas de la clase Tinto como para los de la clase Blanco. Finalmente. De este modo.Inteligencia Computacional 3.S. la figura 3 muestra que una cantidad muy grande de bins tampoco aproxima de buena manera la distribuci´ on.2 Modelo con histogramas a) La aproximaci´ on Naive Bayes permite obtener de una manera m´as simple las verosimilitudes para cada clase. las verosimilitudes para cada ‘vector muestra’ dado clase Tinto se encuentran en el vector likelihood givenR. mientras que el vector likelihood givenW contiene las verosimilitudes dado clase Blanco (primero se debe correr el script Parte2. se cambia dicho valor por el de la media emp´ırica de las muestras (obviamente sin considerar estas ‘malas’ mediciones).e. 1035. pidiendo como entrada el n´ umero de bins a considerar. Dado lo anterior. La importancia de los histogramas radica en su aproximaci´on como funci´on de probabilidad para cada caracter´ıstica. M´as a´ un. considerando 20 bins para cada histograma. se requieren N histogramas de dimensi´on 1 dada una clase. dado que solo dos bins (en los que se concentra toda la informaci´on) no bastan para representar la forma cuasi-gaussiana de la pdf. La aproximaci´on Naive Bayes se basa en asumir independencia entre las caracter´ısticas (variables aleatorias). es necesario hacer una observaci´on respecto a las muestras de la caracter´ıstica 2. corresponde a 1. buscando primero el bin en el que se encuentra cada una.m calcula las verosimilitudes para cada muestra. Cuando alguna muestra se encuentra fuera del rango considerado por los histogramas de entrenamiento (bin cero). las probabilidades 4 . las verosimilitudes son distribuciones conjuntas.N). d) El script Parte2.m contiene todo lo solicitado en la parte 2 de la tarea. de modo que la verosimilitud corresponde a la pitatoria de las distribuciones marginales (i. Esta consideraci´on no es tan alejada de la realidad. e) En primer lugar. En este punto.EL4106 . Espec´ıficamente. El siguiente an´ alisis se basa en comparar los histogramas para la caracter´ıstica 1.b. 1115 y 1025[g/L]. Existen 4 mediciones que se escapan notoriamente del valor que toman en general las dem´ as muestras. La figura 1 muestra la curva ROC para el clasificador Naive Bayes. el vector rango se obtiene con la funci´on de Matlab linspace(a. para finalmente entregar un gr´afico de la curva ROC. obtenida mediante la funci´on de Matlab ksdensity(muestras). si alguna de estas mediciones aparece en el conjunto de entrenamiento.1[g/L] para el vino blanco [2]. Estos valores corresponden a 1185. dada la clase Tinto. mientras que el resto de las muestras no superan los 5[g/L].m’ entrega los 22 histogramas (11 por cada clase) que deben calcularse. tomando el m´aximo valor de cada caracter´ıstica (en conjunto de entrenamiento) como el inicio del u ´ltimo bin. dado que los histogramas poseen colas muy cercanas cero.m). Si se adopta un enfoque discretizado (uso de histogramas) y la cantidad de caracter´ısticas consideradas es N . Dado que ~x es un vector de caracter´ısticas. el histograma debe tener la forma de la distribuci´on a aproximar. si se considera la mitad creciente de la pdf. c) La secci´on Evaluate test set and Performance del c´odigo en parte2. se requiere un histograma de dimensi´on N para aproximar la verosimilitud de las muestras. De esta forma.

3 0.7 0. la figura 4 muestra una mejor aproximaci´on que los casos anteriores.4 0. 5 .6 0. debe ser ajustado en un valor intermedio que. Por u ´ltimo.7 FPR Figura 1: Curva ROC para enfoque Naive Bayes. o cuentas normalizadas de los bins tambi´en deber´ıan presentar un crecimiento mon´otono.4 0.8 Normalized histogram 4 bins empirical pdf 0. se desprende que la cantidad de bins no debe ser muy peque˜ na ni muy grande. de hecho. Normalized histogram feature 1 given Red wine class 0.1 0 0 2 4 6 8 10 12 14 16 18 20 fixed acidity bins Figura 2: Comparaci´ on histograma fixed acidity clase Tinto con pdf emp´ırica. hay bins que otorgan un crecimiento irregular o no mon´otono.7 normalized counts 0.5 0.3 0. sin embargo. depender´a de la cantidad de muestras que se posee.5 0.4 0 0. considerando 4 bins.6 0.6 0.Inteligencia Computacional ROC Curve Naive Bayes 1 0.1 0.8 TPR 0.5 0.EL4106 .9 0. considerando 20 bins en histogramas. Esto se debe a que la cantidad de muestras es muy poca para la cantidad de bins que se usa.2 0.2 0. Luego.

05 0 0 5 10 15 fixed acidity bins Figura 3: Comparaci´ on histograma fixed acidity clase Tinto con pdf emp´ırica.4 Normalized histogram 10 bins empirical pdf 0. .35 normalized counts 0.3 normalized counts 0.Inteligencia Computacional Normalized histogram feature 1 given Red wine class 0. Normalized histogram feature 1 given Red wine class 0.15 0. x2 . xn ) = 1 n 2 (2π) |Σ| 1 1 2 t Σ−1 (~ x−~ u) e− 2 (~x−~u) (7) donde µ ~ = E[~x] es el vector media y Σ es la matriz de covarianza.05 0 0 2 4 6 8 10 12 14 16 fixed acidity bins Figura 4: Comparaci´ on histograma fixed acidity clase Tinto con pdf emp´ırica.1 0. definida como: Σij = E[(xi − µi )(xj − µj )] 6 (8) .1 0.25 0.2 0.EL4106 . considerando 10 bins. La figura 5 compara las curvas ROC obtenidas para 4. . 10 y 60 bins. 3.35 Normalized histogram 60 bins empirical pdf 0. considerando 60 bins. El an´alisis anterior concuerda con el rendimiento que se alcanza considerando dichas cantidades de bins.15 0.25 0.3 Modelo Gaussiano a) La densidad de probabilidad para un vector aleatorio gaussiano corresponde a: f (x1 .3 0. .2 0. .

9 0. considerando un enfoque gaussiano multivariante.5 0.95 0.8 TPR 0.6 0.3 0. se debe computar p(~x|Tinto) y p(~x|Blanco) para cada muestra de prueba.6 0. d) La figura 6 muestra la curva ROC obtenida para el clasificador de Bayes. Sin embargo. mientras que para el estimador ML 1 es n . ROC Curve MD Gaussian Model 1 0.m.2 0.65 0 0.8 0.1 0 0.4 0.9 TPR 0.7 FPR Figura 6: Curva ROC para clasificador bayesiano.5 0.4 0. ΣTinto y ΣBlanco .2 0. De hecho. utilizando la expresi´on en 7.2 0. la funci´ on mean(A) de Matlab calcula la media muestral. Dicho c´alculo se puede apreciar en la secci´on Evaluate test set and Performance del c´odigo parte3. por lo que se utilizar´a la funci´on cov(A) para tales efectos.7 0. 10 y 60 bins.7 0.5 0. asumiendo que la distribuci´ on conjunta de las caracter´ısticas corresponde a una gaussiana multidimensional.7 0. c) Una vez encontradas µ ~ Tinto .m.8 0.75 0. b) En primera instancia.1 0.6 0. Dicho c´ alculo se puede apreciar en la secci´on Get mean vector and covariance matrix del c´odigo parte3.4 0.3 0.1 0.3 0.85 0. 1 La u ´nica diferencia es el factor escalar: para cov(A) es n−1 . µ ~ Blanco . 7 . la idea es aplicar los estimadores ML descritos por 6.9 FPR Figura 5: Curvas ROC para 4.EL4106 . el estimador para la matriz de covarianza descrito en 6 es sesgado.Inteligencia Computacional ROC Curves Naive Bayes for different Nbins 1 4 bins 10 bins 60 bins 0.

para el enfoque Naive Bayes se tuvo que calcular 11 histogramas por cada clase.5 est´an marcados con rojo.3 0.2 0. Se puede observar en general un mejor rendimiento para el modelo gaussiano multivariante.Inteligencia Computacional 3. Esto. caracter´ısticas como 1 y 3. para la clase Tinto por ejemplo.4 Comparaci´ on a) La figura 7 muestra las curvas ROC obtenidas para ambos enfoques.2 0.1 0 0 0. puesto que el ‘codo’ de ´estas se ubica en una zona donde la tasa de falsos positivos es muy baja y la de verdaderos positivos muy alta. donde se ha considerado 20 bins para el modelo de histogramas. Por otro lado. ROC Curve Naive Bayes and MD Gaussian Model 1 0. Se puede apreciar que. los coeficientes son cercanos a cero para ambas clases.EL4106 . Por lo tanto. 1 y 8 o 1 y 9 no son una buena aproximaci´ on de independencia. la tasa de verdaderos positivos para dicho modelo es superior a la conseguida por el enfoque Naive Bayes. Los coeficientes mayores a 0. en general.6 0. ambas curvas expresan un desempe˜ no deseado.8 0. pero no una equivalencia. Para ello.7 TPR 0.9 Naive Bayes MD Gaussian 0.6 0. se calcul´o los coeficientes de correlaci´on muestrales entre caracter´ısticas. dado que no se asumi´o ninguna distribuci´ on para la funci´ on verosimilitud. Por u ´ltimo.5 0. pues el teorema indica una implicancia entre independencia y no-correlaci´on. puesto que el entrenamiento se basa en calcular 4 par´ametros a partir de las muestras (2 por cada clase). omitiendo la trianguar inferior dada la simetr´ıa existente en los coeficientes de correlaci´on. A pesar de esto. dado que para un F P R fijo.5 0.3 0. pues indican una correlaci´on no menor entre las caracter´ısticas en cuesti´on.7 FPR Figura 7: Curvas ROC para clasificador bayesiano. M´as a´ un.1 0. 8 . Una de las ventajas que posee el enfoque gaussiano multivariante es la simplicidad en los c´alculos.4 0. se pretende realizar un an´alisis del supuesto de independencia realizado para el enfoque Naive Bayes. para cada clase en el conjunto de entrenamiento. el desempe˜ no del modelo de histogramas depende de que ´estos resulten una buena aproximaci´on de la pdf en cuesti´on.4 0. Estos valores altos permiten asegurar la dependencia entre dichas caracter´ısticas. sin embargo nada puede afirmarse para los valores cercanos a cero. para lo cual debe elegirse una cantidad de bins acorde con el tama˜ no del conjunto de entrenamiento que se posee. Las tablas 1 y 2 muestran los resultados. considerando enfoque de histogramas (Naive Bayes) y modelo gaussiano multivariante. para luego evaluar cada muestra de test en base a 7.

016 0.057 -0.017 1.000 Feat.3 0.805 0.000 Tabla 1: Coeficientes de correlaci´ on muestrales entre caracter´ısticas.034 1.283 0.163 0.030 0.000 Feat.330 -0.584 0.9 Feat.110 0.051 1.111 -0.243 0.EL4106 .8 Feat.070 0.8 0. La cantidad ´optima de bins ser´ a un n´ umero intermedio que depender´a de la cantidad de muestras que se tenga.143 -0.8 0.062 0. la cual posee una zona donde las tasas de verdederos positivos y negativos son muy altas (mayor a 96% y 99%.055 0.8 Feat.3 Feat.097 1.6 Feat.7 Feat.033 -0.047 1.036 0.2 -0.090 -0.242 -0.524 1. En la curva ROC obtenida se observa una zona donde la tasa de verdaderos positivos y negativos es 1. Features Feat.178 -0.671 1.214 1.039 -0.265 0.9 Feat.245 0.  Los histogramas se utilizan para aproximar la distribuci´on probabil´ıstica (pdf ) de una caracter´ıstica.105 0.  La implementaci´ on del clasificador mediante el enfoque gaussiano multivariante es m´as simple.007 0.121 0.067 -0.166 -0. 9 Feat.7 -0.164 0.145 -0.4 0.5 0.6 Feat.000 Feat.107 -0.000 Feat.000 Feat.039 0.055 0.10 Feat.11 -0.467 0.4 0.Inteligencia Computacional Features Feat.321 0. dada una clase.076 0. Por otro lado.033 -0.000 Tabla 2: Coeficientes de correlaci´ on muestrales entre caracter´ısticas.000 Feat.4 Feat.200 0.688 0. respectivamente).063 -0.000 Feat.148 -0.11 -0.5 0.136 0.040 -0.062 1. La cantidad de bins considerada determina la forma del histograma.233 0.560 0.002 0.189 0.090 0. para el primer modelo utilizado se requiri´o un histograma por caracter´ıstica.6 -0.000 Feat.189 -0.185 -0.7 Feat.014 0.008 0.164 1.010 1.642 -0. ante lo cual se pudo observar que no puede ser muy peque˜ na ni muy grande.10 -0.000 Feat.176 -0.000 Feat.283 1.223 -0.057 -0.10 Feat.047 0.645 1.053 0.3 0. para clase Tinto .5 Feat.825 0.000 Feat.087 0.076 0.2 Feat.205 -0.099 1.023 0.379 0.7 0.1 Feat.  El modelo gaussiano multivariante otorga un gran desempe˜ no al clasificador.000 Feat.242 0. para clase Blanco .5 Feat.050 0.114 1.000 Feat.082 -0.1 Feat.000 Feat.000 Feat.2 Feat.000 Feat.015 0.10 0.249 0.445 -0. 4 Conclusi´ on  El modelo de histogramas con la simplificaci´on Naive Bayes entrega un clasificador con desempe˜ no aceptable. puesto que el entrenamiento consiste en determinar 2 par´ametros por clase.442 -0.035 0.1 1.045 0.009 0.149 -0.11 Feat.11 Feat.000 Feat.008 0.000 Feat.4 Feat.000 .068 1.026 1.9 -0.3 Feat.190 -0.027 0.234 -0.030 0.131 1.266 0.000 Feat.001 -0.9 -0.030 1.1 1.504 -0.6 -0. Lo anterior radica en la curva ROC obtenida.300 -0.177 0.2 -0.066 0.039 1.063 0.010 -0.115 0.036 -0.

edu/ whats-in-wine/volatile-acidity. entregando como salida los vectores TPR y FPR.Nbins): Recibe vector de muestras de alguna caracter´ıstica ‘feat’ y n´ umero de bins ‘Nbins’. accessed 12-April-2015]. References [1] Richard O Duda. v) split(N. 10 .p1):Entrega vector con indices para dividir aleatoriamente un conjunto de datos en dos subconjuntos: subset1(p1 · N datos) y subset2((1 − p1) · N datos). Volatile Acidity.test set): Realiza lo solicitado en la parte 2 de la tarea. Edition.test set): Realiza lo solicitado en la parte 3 de la tarea. New York. and David G Stork. Pattern classification. Peter E Hart. Entrega el rango y los bincounts del histograma. iii) histogram feat(feat. entregando como salida los vectores TPR y FPR. 2001. ii) funcion parte3(training set.ucdavis. [2] Davis University of California.covariance matrix): Entrega el valor de la densidad de una gaussiana MD evaluada en ‘row vector’. 2nd. [Online. http://waterhouse.1 Funciones implementadas i) funcion parte2(training set.EL4106 .mean vector.Inteligencia Computacional 5 Anexos 5. Considera 20 bins en histogramas. 2012. iv) MD gaussian(row vector.