Documentos de Académico
Documentos de Profesional
Documentos de Cultura
El presente trabajo tiene como objetivo la extracción y el análisis de característica de una base
de datos con cierta información en común. El análisis contempla la extracción de
características de las variables, análisis de los datos mediante clasificadores de datos como lo
son, el método lineal, árbol de decisión, k-means, y el clasificador bayesiano, estos
clasificadores analizaran los datos para lograr hacer una clasificación de las variables por
separados.
Para el desarrollo de esta práctica se hizo uso del software Matemático MATLAB, que permite
hacer un análisis exhaustivo de datos de una manera muy sencilla.
Figura 1
Figura 2
Al observar la imagen podemos observar que los valores están superpuestos ente si, como se
pudo observar en las trazas se repite en el clasificador lineal, los datos al estar superpuesto
dificulta su clasificación mediante el discriminante lineal, esto también se debe a la cantidad de
variables y que su relación. Este clasificador genero un error de exactitud que oscila entre el 60
% y 70 %.
B. Árbol de Decisión
Figura 3
Como podemos observar en la Figura 3, este clasificador pudo hacer una extracción de datos y
características mas precisa ya que buena parte de los datos fueron separados como se puede
apreciar en las hojas. Este clasificador obtuvo un margen de error de 26 % al 30 %.
C. K-means
Figura 4
El clasificador k-means logro hacer una clasificación no muy efectiva como se puede apreciar
en las líneas azules de la Figura 4, ya que el expreor de las líneas indica la exactidutud y
clasificación de los datos con respecto a cada variable.
D. Clasificador Bayesiano
Figura 5
- Matriz de Confucion:
= (V1+V2+V3+V4)/(V1+V2+V3+V4+FP+FN) =
(13+45+67+94)/( 13+45+67+94+24+78) = 0.68
- Precision V1
= 13/(13+9+8+1) = 0.4194
- Precision V2
= 45/(25+45+27+15)= 0.4018
- Precision V3
= 67/(26+41+67+26) = 0.4187
- Precision V4
= 94/(14+38+31+94) = 0.5311
- Sensibilidad V1
= 13/(13+25+26+14) = 0.1666
- Sensibilidad V2
= 45/(45+41+38+9)=0.3383
- Sensibilidad V3
= 67/(8+27+67+31) =0.5038
- Sensibilidad V4
= 94/(1+15+26+94) = 0.6912
- Espesificidad V1
= 13/(13+25+26+14) = 0.1666
- Espesificidad V2
= 45/(45+41+38+9)=0. 3383
- Espesificidad V3
= 67/(8+27+67+31) =0.5038
- Espesificidad V4
= 94/(1+15+26+94) = 0.6912
- PuntajeF V1
= (2*PrecisionV1*SensibilidadV1)/( PrecisionV1+SensibilidadV1) = 0.2385
- PuntajeF V2
= (2*PrecisionV2*SensibilidadV2)/( PrecisionV2+SensibilidadV2) =0.3608
- PuntajeF V3
= (2*PrecisionV3*SensibilidadV3)/( PrecisionV3+SensibilidadV3) =0.4573
- PuntajeF V4
= (2*PrecisionV4*SensibilidadV4)/( PrecisionV4+SensibilidadV4) =0.6006
CONCLUSION
Al concluir el presente trabajo se pudo apreciar que hubieron dos métodos
capaces de aproximarse a una solución de clasificación como lo fue k-means y el
árbol de decisión, obteniendo ambos Buenos resultados para cada variable.
También se pudo apreciar para la base de datos estudiada que la superposición de
los datos no permitió una clasificación correcta de uno de los métodos haciendo
con esto que el método bayesiano quedara sin uso para este tipo de clasificación,
por el gran número de variables y la relación de los datos. La matriz de confusión
solo fue generada para las variables que se le pudo extraer las características de
forma correcta, variables 4, 6, 7 y 11, las demás variables fue imposible hacer una
clasificación adecauda.