Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Abstract— Breast cancer is a disease with high number of Las máquinas de aprendizaje híbrido han sido
cases in the country, also is cancer that has a higher rate implementadas para resolver el problema de diagnóstico
than people who are cured if detected the disease in early
de cáncer en diferentes investigaciones, en cada una con
stages of the disease, but is now the third cancer generating
more number of deaths in women of Peru. This research is diferentes resultados y técnicas utilizadas, consiste
an effort to contribute to a diagnosis of Breast Cancer more básicamente en coger lo bueno de cada técnica que
effective, building a tool to support the medical diagnosis, podamos integrar y obtener una mejor técnica. De esta
which allows a more efficient analysis of mammography, manera se abre un conjunto de posibilidades con relación
contributing to reduce the error rate in the diagnosis of a las técnicas que se pueden aplicar.
Breast Cancer . This tool uses the technique of multilevel
support vector machine for being the best performance is
based on an analysis of several studies that have been
conducted, surpassing classical statistical techniques, 1.1 Antecedentes del problema
techniques of neural networks, genetic algorithms..
La tarea de diagnóstico que actualmente se realiza en los
Keywords: Support Vector Machine, Breast Cancer, Machine hospitales del Perú, requiere del análisis de un conjunto
Learning, hybrid machine learning de diversas variables que requiere que el médico tenga
que realizar muchos análisis de una muestra en un tiempo
corto, por lo que este diagnóstico no garantiza ser
I. INTRODUCCION completamente eficiente y confiable, en especial en
2.2 Mama
Las glándulas mamarias caracterizan, entre otros
Fig. 2 Muestra la mortalidad a nivel mundial, registrada rasgos, a los mamíferos. Aparecen muy precozmente en el
en el 2004[Who04]. embrión, y a lo largo de la vida de la mujer van sufriendo
1.2 Problema General las distintas fases evolutivas que se corresponden con los
El problema es la baja precisión del diagnóstico médico ciclos biológicos femeninos como lo menciona
a partir de mamografías de Cáncer de Mama. [Gonzales08] al indicar que están presentes con
1.3 Objetivo General diferentes funciones en el paso de la vida. Al terminar la
Desarrollar una herramienta basada en una máquina actividad sexual de la mujer, en la menopausia, la
de soporte vectorial que sirva de apoyo al diagnóstico glándula involuciona y tiende a la atrofia.
médico a partir de mamografías en casos de cáncer de
mama. Aspecto tecnológico
1.4 Justificación 2.3 Inteligencia artificial
Llegado a este punto, tenemos que analizar el impacto Definida en 1956 por el informático del MIT John
que tuvo el cáncer a los largo de los años en Perú, McCarthy como : ‘la ciencia e ingeniería de hacer
basándonos en la misma organización que realiza el máquinas inteligentes, especialmente programas de
reporte a nivel mundial. cómputo inteligente’.
• Es importante mencionar que según un estudio Se puede simplificar diciendo que la inteligencia
estadístico realizado por World Health Stadistic señala artificial (IA) [Borrajo09] [AEPIA15] está conformada por
que el Perú fallecieron por causas de cáncer 175 personas las inteligencias no naturales en especímenes no vivos.
por cada 100000 personas [WHS06]. Dentro del ámbito de la inteligencia artificial podemos
• Esta cifra de 175 personas se mantuvo en el año distinguir distintos tipos de conocimientos y de sistemas
2007 según la misma organización [WHS07]. Para el 2008 de representación de dichos conocimientos, los cuales
la cifra continua constante en 175 [WHS08]. pueden ser aprendidos por la máquina o introducidos en
• En el año 2009 esta cifra cambio descendiendo a su memoria por un agente experto.
163 personas [WHS09]. 2.4 Inteligencia computacional
• Hacia el 2012 el formato volvió y reconoció al La inteligencia computacional es la rama de la I.A.
conocida como subsimbólica-inductiva que implica de las cuáles se obtuvo el análisis en razón de métricas de
aprendizaje interactivo basado en datos empíricos. Se sus mamografías anonimizadas.
centra en el estudio de mecanismos adaptativos que
permitan al sistema comportarse de manera inteligente 3.2 Metodología
sin emplear algoritmos heurísticos, como hace la Methodologies CRISP-DM (CRoss-Industry Standard
inteligencia artificial convencional. Combina elementos de Process for Data Mining)
aprendizaje, evolución, adaptación y lógica difusa, sin La metodología CRISP-DM es un estándar es la
dejar de lado elementos estadísticos, pero siempre en industria de la minería de datos el cual es bastante
segundo plano, que aportan un soporte complementario utilizado con buenos resultados tal como lo manifiestan
para los programas y algoritmos.. en la referencia [Palacios10], Presenta las siguientes
2.5 Máquina de aprendizaje híbrido actividades:
Es un concepto que resume a las máquinas de Comprensión del Negocio o Problema.
aprendizaje automático que hacen uso de más de una Comprensión de los Datos
técnica convencional y clásica en uno o varios de sus Preparación de los Datos
procesos de análisis de datos. Algunas técnicas Modelado de Datos
importantes que se harán revisión en este documento son Evaluación del Modelo
las siguientes: Despliegue e Implementación
2.5.1 Máquina de Soporte Vectorial
Son un conjunto de algoritmos de aprendizaje 3.3 Herramienta
supervisado desarrollados por Vladimir Vapnik y su Se utilizó:
equipo en los laboratorios AT&T. Estos métodos están Lenguaje de Programación: Java (JDK 1.8)
propiamente relacionados con problemas de clasificación Entorno de Desarrollo: Netbeans 8.0
y regresión. Dado un conjunto de ejemplos de
entrenamiento (de muestras) podemos etiquetar las Estas tecnologías sustentadas en que se puedan
clases y entrenar una SVM para construir un modelo que realizar posteriores estudios con facilidad y puesto que se
prediga la clase de una nueva muestra. Intuitivamente, encuentra extendido en el mercado actual del Perú
una SVM es un modelo que representa a los puntos de
muestra en el espacio, separando las clases por un
espacio lo más amplio posible. Cuando las nuevas IV. DESARROLLO DE LA SOLUCIÓN
muestras se ponen en correspondencia con dicho modelo, Se utilizó la metodología CRISP-DM es un estándar es
en función de su proximidad pueden ser clasificadas a una la industria de la minería de datos el cual es bastante
u otra clase. Más formalmente, una SVM construye un utilizado con buenos resultados tal como lo manifiestan
hiperplano o conjunto de hiperplanos en un espacio de en la referencia [Palacios10], es por ello que se determina
dimensionalidad muy alta (o incluso infinita) que puede utilizar esta metodología para la presente investigación.
ser utilizado en problemas de clasificación o regresión.
Una buena separación entre las clases permitirá una 4.1 Comprensión del Negocio o Problema.
clasificación correcta[Cortez+2011], [Hernandez+2011]. El negocio en el cuál se va aplicar en el Seguro Social de
2.5.2 Máquina de Soporte Vectorial Multinivel Salud - ESSALUD, específicamente en la Oficina de
Los vectores de soporte determinan la información de Planeamiento e Inteligencia Sanitaria, en donde se
conocimiento que tiene una muestra. De esta manera se realizan los análisis epidemiológicos y se proponen
construye una distribución en donde un Vector de medidas de acción para el tratamiento de las
Soporte puede guardar la información necesaria para enfermedades. Esta oficina se encuentra en el
almacenar el conocimiento que la muestra de datos organigrama de ESSALUD en la gerencia de línea:
provee. Prestaciones de Salud, la cual se aprecia mejor en la
El trabajo de entrenamiento de esta máquina de Figura 3, donde se muestra el organigrama interno de la
aprendizaje radica en la modificación de la posición de los Gerencia de Central de Prestaciones de Salud.
vectores de soporte de tal manera que necesariamente se
tenga una de las muestras como posible plantilla para
poder comparar nuevas muestras que pertenezcan a una
misma población con características similares por la
técnica de validación de datos que está utilizando.