Está en la página 1de 7

Análisis de Características

El presente trabajo tiene como objetivo la extracción y el análisis de característica de una base
de datos con cierta información en común. El análisis contempla la extracción de
características de las variables, análisis de los datos mediante clasificadores de datos como lo
son, el método lineal, árbol de decisión, k-means, y el clasificador bayesiano, estos
clasificadores analizaran los datos para lograr hacer una clasificación de las variables por
separados.

Para el desarrollo de esta práctica se hizo uso del software Matemático MATLAB, que permite
hacer un análisis exhaustivo de datos de una manera muy sencilla.

 Extracción de Características Principales

Figura 1

Luego de la extracción de las características se hizo un trazado a la extracción de características


para ver las variables a las que se le pudo extraer característica, como se puede apreciar en la
Figura 1, las variables 1, 2. 3, 5, 8, 9, 10 y 12 son variables complejas sin características en la
data, es decir hay dispersión en los datos extraídos lo cual no genera ninguna relación entre si,
por otra parte se puede apreciar que el trazado de las demás variables fue un tanto precisa a la
hora de la extracción de las característica, ya que logro trazar los datos en conjunto, lo que
indica que los datos están relacionados entre si.

2. A partir del 70 % de los datos realizar la clasificación de las variables mefiante:


A. Clasificación Lineal

Figura 2

Al observar la imagen podemos observar que los valores están superpuestos ente si, como se
pudo observar en las trazas se repite en el clasificador lineal, los datos al estar superpuesto
dificulta su clasificación mediante el discriminante lineal, esto también se debe a la cantidad de
variables y que su relación. Este clasificador genero un error de exactitud que oscila entre el 60
% y 70 %.
B. Árbol de Decisión

Figura 3

Como podemos observar en la Figura 3, este clasificador pudo hacer una extracción de datos y
características mas precisa ya que buena parte de los datos fueron separados como se puede
apreciar en las hojas. Este clasificador obtuvo un margen de error de 26 % al 30 %.
C. K-means

Figura 4

El clasificador k-means logro hacer una clasificación no muy efectiva como se puede apreciar
en las líneas azules de la Figura 4, ya que el expreor de las líneas indica la exactidutud y
clasificación de los datos con respecto a cada variable.
D. Clasificador Bayesiano

Figura 5

El clasificador fue el peor de los casos al momento de realizar la clasificación, obteniendo un


margen de error entre el 80 % y 90 % de los datos, esto debido a la cantidad de variables y
datos superpuestos dentro de la base de datos, ya que se hizo imposible poder realizar una
agrupación de los mismos.

3. Con el 30 % de los datos, realizar la validación del modelo.

- Matriz de Confucion:

V1 = 13; V2 = 45; V3 = 67; V4 = 94; FP =8+15+1=24; FN = 26+38+14=78;


- Exactitud:

= (V1+V2+V3+V4)/(V1+V2+V3+V4+FP+FN) =
(13+45+67+94)/( 13+45+67+94+24+78) = 0.68
- Precision V1

= 13/(13+9+8+1) = 0.4194

- Precision V2
= 45/(25+45+27+15)= 0.4018
- Precision V3

= 67/(26+41+67+26) = 0.4187

- Precision V4
= 94/(14+38+31+94) = 0.5311

- Sensibilidad V1

= 13/(13+25+26+14) = 0.1666

- Sensibilidad V2
= 45/(45+41+38+9)=0.3383
- Sensibilidad V3

= 67/(8+27+67+31) =0.5038

- Sensibilidad V4
= 94/(1+15+26+94) = 0.6912

- Espesificidad V1

= 13/(13+25+26+14) = 0.1666

- Espesificidad V2
= 45/(45+41+38+9)=0. 3383
- Espesificidad V3

= 67/(8+27+67+31) =0.5038

- Espesificidad V4
= 94/(1+15+26+94) = 0.6912
- PuntajeF V1
= (2*PrecisionV1*SensibilidadV1)/( PrecisionV1+SensibilidadV1) = 0.2385
- PuntajeF V2
= (2*PrecisionV2*SensibilidadV2)/( PrecisionV2+SensibilidadV2) =0.3608

- PuntajeF V3
= (2*PrecisionV3*SensibilidadV3)/( PrecisionV3+SensibilidadV3) =0.4573
- PuntajeF V4
= (2*PrecisionV4*SensibilidadV4)/( PrecisionV4+SensibilidadV4) =0.6006
CONCLUSION
Al concluir el presente trabajo se pudo apreciar que hubieron dos métodos
capaces de aproximarse a una solución de clasificación como lo fue k-means y el
árbol de decisión, obteniendo ambos Buenos resultados para cada variable.
También se pudo apreciar para la base de datos estudiada que la superposición de
los datos no permitió una clasificación correcta de uno de los métodos haciendo
con esto que el método bayesiano quedara sin uso para este tipo de clasificación,
por el gran número de variables y la relación de los datos. La matriz de confusión
solo fue generada para las variables que se le pudo extraer las características de
forma correcta, variables 4, 6, 7 y 11, las demás variables fue imposible hacer una
clasificación adecauda.

También podría gustarte