Está en la página 1de 7

MÁQUINÁ DE ÁPRENDIZÁJE HIBRIDO PÁRÁ EL

DIÁGNOSTICO TEMPRÁNO DE CÁNCER DE MÁMÁ


CENTENO LEGUÍA, James, CORTEZ VÀSQUEZ, Augusto Parcemón Members Universidad
Nacional Mayor de San Marcos - Peru,
jamescentenoleguia@gmail.com, acortezv@unmsm.edu.pe

Abstract— Breast cancer is a disease with high number of Las máquinas de aprendizaje híbrido han sido
cases in the country, also is cancer that has a higher rate implementadas para resolver el problema de diagnóstico
than people who are cured if detected the disease in early
de cáncer en diferentes investigaciones, en cada una con
stages of the disease, but is now the third cancer generating
more number of deaths in women of Peru. This research is diferentes resultados y técnicas utilizadas, consiste
an effort to contribute to a diagnosis of Breast Cancer more básicamente en coger lo bueno de cada técnica que
effective, building a tool to support the medical diagnosis, podamos integrar y obtener una mejor técnica. De esta
which allows a more efficient analysis of mammography, manera se abre un conjunto de posibilidades con relación
contributing to reduce the error rate in the diagnosis of a las técnicas que se pueden aplicar.
Breast Cancer . This tool uses the technique of multilevel
support vector machine for being the best performance is
based on an analysis of several studies that have been
conducted, surpassing classical statistical techniques, 1.1 Antecedentes del problema
techniques of neural networks, genetic algorithms..
La tarea de diagnóstico que actualmente se realiza en los
Keywords: Support Vector Machine, Breast Cancer, Machine hospitales del Perú, requiere del análisis de un conjunto
Learning, hybrid machine learning de diversas variables que requiere que el médico tenga
que realizar muchos análisis de una muestra en un tiempo
corto, por lo que este diagnóstico no garantiza ser
I. INTRODUCCION completamente eficiente y confiable, en especial en

E L cáncer es una enfermedad bastante antigua, pero no


estadios de la enfermedad donde no es muy apreciable su
presencia y donde se podría curar con una mayor
reconocida por la baja expectativa de vida. Pero que hoy, facilidad. El número de casos de cáncer de mama
los niveles de calidad de vida han aumentado y con ello diagnosticados en un estadio avanzado en el Perú es
las posibilidades de que una persona pueda vivir mucho demasiado alto [MINSA12], esto causado principalmente
más tiempo, es en este escenario en donde el cáncer se a que la tarea de diagnóstico de cáncer de mama que
vuelve protagonista puesto que la degeneración celular es realiza el médico no cuenta con una herramienta que
un síntoma de la vejez y en una causa muy probable de garantice un diagnóstico efectivo en las primeras etapas
cáncer, haciendo que hoy en día se encuentre entre las de la enfermedad, donde se puede acceder a tratamientos
primeras causas de muerte [Who04].

Fig. 1 Muestra la distribución de muertes por diversas


enfermedades que se dieron entre los años 1999 y 2001
[Lopez+01]
menos invasivos y que menos secuelas dejan en Perú con 130 muertes por 100000 personas [WHS12].
comparación a los tratamientos para prolongar la vida a • En el 2013 en el informe publicado menciona a
las que son sometidos los pacientes de etapas más En el Perú con 130 personas fallecidas por cada 100000.
año 2001 se muestra un estudio realizado a toda un [WHS1].
población entre los años 1999 y 2001 el cual dio los Estos reportes nos muestran que año tras año el cáncer
resultados de la Figura 1. Donde se puede apreciar que el ha estado afectando a la población peruana dando como
cáncer es una enfermedad que más muertes ha resultado la muerte de entre un 0.5% – 1% de la
ocasionado considerando los diversos órganos en los que población del Perú anualmente, estas estadísticas hacen
se ha presentado. El año 2004 se realizó un estudio de la que desde el año 2012 el Ministerio de Salud apoyado por
mortalidad tal lo muestra la Figura 2, que tienen las instituciones como la Liga de Lucha Contra el Cáncer y
enfermedades tanto transmisibles, no transmisibles y ONGs, promueva y establezca al Cáncer como problema
otros, en este documento menciona el impacto que tiene de Salud Pública, por repercusiones que tiene en la
el cáncer en estas estadísticas, siendo mencionado población peruana, desempeñándose principalmente en
recurrentemente por las enfermedades con mayores promover las prácticas saludables y la generación de
muertes en diferentes campos y listas. costumbre de visita médica, de tal manera que se pueda
detectar los inicios de Cáncer en Fases tempranas de la
enfermedad, donde se tiene un mayor posibilidad de cura
y prolongamiento de la vida con una mejor calidad de
vida.

II. MARCO TEÓRICO


Aspecto medico

2.1 Diagnóstico Médico


El diagnóstico se basa en el análisis de datos seguros.
El razonamiento solo será válido cuando descanse sobre
nociones exactas y hechos precisos, pero cuando no se
cumplen estos principios los resultados siempre serán
erróneos. La validez de una deducción depende de la
calidad de las observaciones en que ella se basa, como lo
mencionan en [Diaz+06]Teniendo en cuenta estos
principios, es indispensable exponer algunas premisas
básicas sobre las que se apoya el diagnóstico médico.

2.2 Mama
Las glándulas mamarias caracterizan, entre otros
Fig. 2 Muestra la mortalidad a nivel mundial, registrada rasgos, a los mamíferos. Aparecen muy precozmente en el
en el 2004[Who04]. embrión, y a lo largo de la vida de la mujer van sufriendo
1.2 Problema General las distintas fases evolutivas que se corresponden con los
El problema es la baja precisión del diagnóstico médico ciclos biológicos femeninos como lo menciona
a partir de mamografías de Cáncer de Mama. [Gonzales08] al indicar que están presentes con
1.3 Objetivo General diferentes funciones en el paso de la vida. Al terminar la
Desarrollar una herramienta basada en una máquina actividad sexual de la mujer, en la menopausia, la
de soporte vectorial que sirva de apoyo al diagnóstico glándula involuciona y tiende a la atrofia.
médico a partir de mamografías en casos de cáncer de
mama. Aspecto tecnológico
1.4 Justificación 2.3 Inteligencia artificial
Llegado a este punto, tenemos que analizar el impacto Definida en 1956 por el informático del MIT John
que tuvo el cáncer a los largo de los años en Perú, McCarthy como : ‘la ciencia e ingeniería de hacer
basándonos en la misma organización que realiza el máquinas inteligentes, especialmente programas de
reporte a nivel mundial. cómputo inteligente’.
• Es importante mencionar que según un estudio Se puede simplificar diciendo que la inteligencia
estadístico realizado por World Health Stadistic señala artificial (IA) [Borrajo09] [AEPIA15] está conformada por
que el Perú fallecieron por causas de cáncer 175 personas las inteligencias no naturales en especímenes no vivos.
por cada 100000 personas [WHS06]. Dentro del ámbito de la inteligencia artificial podemos
• Esta cifra de 175 personas se mantuvo en el año distinguir distintos tipos de conocimientos y de sistemas
2007 según la misma organización [WHS07]. Para el 2008 de representación de dichos conocimientos, los cuales
la cifra continua constante en 175 [WHS08]. pueden ser aprendidos por la máquina o introducidos en
• En el año 2009 esta cifra cambio descendiendo a su memoria por un agente experto.
163 personas [WHS09]. 2.4 Inteligencia computacional
• Hacia el 2012 el formato volvió y reconoció al La inteligencia computacional es la rama de la I.A.
conocida como subsimbólica-inductiva que implica de las cuáles se obtuvo el análisis en razón de métricas de
aprendizaje interactivo basado en datos empíricos. Se sus mamografías anonimizadas.
centra en el estudio de mecanismos adaptativos que
permitan al sistema comportarse de manera inteligente 3.2 Metodología
sin emplear algoritmos heurísticos, como hace la Methodologies CRISP-DM (CRoss-Industry Standard
inteligencia artificial convencional. Combina elementos de Process for Data Mining)
aprendizaje, evolución, adaptación y lógica difusa, sin La metodología CRISP-DM es un estándar es la
dejar de lado elementos estadísticos, pero siempre en industria de la minería de datos el cual es bastante
segundo plano, que aportan un soporte complementario utilizado con buenos resultados tal como lo manifiestan
para los programas y algoritmos.. en la referencia [Palacios10], Presenta las siguientes
2.5 Máquina de aprendizaje híbrido actividades:
Es un concepto que resume a las máquinas de Comprensión del Negocio o Problema.
aprendizaje automático que hacen uso de más de una Comprensión de los Datos
técnica convencional y clásica en uno o varios de sus Preparación de los Datos
procesos de análisis de datos. Algunas técnicas Modelado de Datos
importantes que se harán revisión en este documento son Evaluación del Modelo
las siguientes: Despliegue e Implementación
2.5.1 Máquina de Soporte Vectorial
Son un conjunto de algoritmos de aprendizaje 3.3 Herramienta
supervisado desarrollados por Vladimir Vapnik y su Se utilizó:
equipo en los laboratorios AT&T. Estos métodos están Lenguaje de Programación: Java (JDK 1.8)
propiamente relacionados con problemas de clasificación Entorno de Desarrollo: Netbeans 8.0
y regresión. Dado un conjunto de ejemplos de
entrenamiento (de muestras) podemos etiquetar las Estas tecnologías sustentadas en que se puedan
clases y entrenar una SVM para construir un modelo que realizar posteriores estudios con facilidad y puesto que se
prediga la clase de una nueva muestra. Intuitivamente, encuentra extendido en el mercado actual del Perú
una SVM es un modelo que representa a los puntos de
muestra en el espacio, separando las clases por un
espacio lo más amplio posible. Cuando las nuevas IV. DESARROLLO DE LA SOLUCIÓN
muestras se ponen en correspondencia con dicho modelo, Se utilizó la metodología CRISP-DM es un estándar es
en función de su proximidad pueden ser clasificadas a una la industria de la minería de datos el cual es bastante
u otra clase. Más formalmente, una SVM construye un utilizado con buenos resultados tal como lo manifiestan
hiperplano o conjunto de hiperplanos en un espacio de en la referencia [Palacios10], es por ello que se determina
dimensionalidad muy alta (o incluso infinita) que puede utilizar esta metodología para la presente investigación.
ser utilizado en problemas de clasificación o regresión.
Una buena separación entre las clases permitirá una 4.1 Comprensión del Negocio o Problema.
clasificación correcta[Cortez+2011], [Hernandez+2011]. El negocio en el cuál se va aplicar en el Seguro Social de
2.5.2 Máquina de Soporte Vectorial Multinivel Salud - ESSALUD, específicamente en la Oficina de
Los vectores de soporte determinan la información de Planeamiento e Inteligencia Sanitaria, en donde se
conocimiento que tiene una muestra. De esta manera se realizan los análisis epidemiológicos y se proponen
construye una distribución en donde un Vector de medidas de acción para el tratamiento de las
Soporte puede guardar la información necesaria para enfermedades. Esta oficina se encuentra en el
almacenar el conocimiento que la muestra de datos organigrama de ESSALUD en la gerencia de línea:
provee. Prestaciones de Salud, la cual se aprecia mejor en la
El trabajo de entrenamiento de esta máquina de Figura 3, donde se muestra el organigrama interno de la
aprendizaje radica en la modificación de la posición de los Gerencia de Central de Prestaciones de Salud.
vectores de soporte de tal manera que necesariamente se
tenga una de las muestras como posible plantilla para
poder comparar nuevas muestras que pertenezcan a una
misma población con características similares por la
técnica de validación de datos que está utilizando.

III. METODOLGIA Y HERRAMIENTAS

3.1 Población y muestra


La población estuvo conformada por 1250 mujeres, el
cual es el promedio mensual de pacientes, a partir de los
35 años, atendidas en el servicio de mamografía del
Hospital Nacional Edgardo Rebagliati Martins. Para fines
de la presente investigación se consideró una muestra de
487 mujeres a razón del mejor desempeño del algoritmo, Fig. 3 Estructura Orgánica de la Gerencia de
Prestaciones de Salud.

En la Oficina de Planeamiento e Inteligencia Sanitaria


actualmente se tiene una base de datos de muestras de
Cáncer de Mama, que se encuentra construida de tal
manera que la organización de los datos de la muestra
estén organizados de manera semejante a la base de datos
pública de la Universidad de Wisconsin. Esto garantiza
que sea posible desarrollar un aplicativo que utilice
técnicas que se probaron en un escenario distinto pero
que por la estructura puedan tener un desempeño
superior.

4.2 Comprensión de los Datos


Los datos para la investigación proceden de las Fig. 5 Modelo de Análisis de Datos
mamografías anónimas las cuales son proveídas y
analizadas por personal de ESSALUD efectuando un 4.5 Evaluación del Modelo
informe el cual contenga variables a nivel de datos La validación del modelo aplicado según [Nasser+10]
numéricos que permitan aplicar una técnica de minería es preferible una validación cruzada que estratificado
de datos sobre los mismos. Las variables estarán puesto que la precisión de los datos es más confiable para
codificadas con valores enteros entre 1 y 10 siendo las muestras médicas que se utilicen.
siguientes:
4.6 Despliegue e Implementación
Clump thickness Luego de la fase de evaluación del modelo se desarrolla
Uniformity of cell size el despliegue en donde se tiene planificado un primer
Uniformity of cell shape programa piloto en el Hospital Rebagliati donde se tiene
Marginal adhesion el mayor índice de pacientes más constantes. Como
Single epithelial cell size segunda etapa se procederá a implementar en los
Bare nuclei hospitales nacionales y nivel IV que cuenten con los
Bland chromatin profesionales para realizar el levantamiento de la
Normal nucleoli información. En esta etapa se procederá a evaluar la
Mitosis situación del proyecto y definir si se desarrolla para otros
tipos de cáncer o en su defecto se despliegue sólo a nivel
4.3 Preparación de los Datos de cáncer de mama.
La preparación de los datos se encuentra a partir del
diagnóstico que emita un médico con ayuda de un 4.7 Consideraciones técnicas con relación al desarrollo
software denominado Kateron Pacs (Fig 4)el cuál permite de los algoritmos.
obtener datos con una alta exactitud a partir de las Se utilizó un conjunto de datos de la universidad de
Imágenes Médicas. Winsconsin Breast Data Set. El conjunto de datos que
estamos utilizando contiene los detalles de biopsia
tomadas de Wisconsin Hospitales. Se recogió por Wolberg
y Mangasarian en la Universidad del Hospital de
Wisconsin-Madison en 1990 y está disponible en la UCL
repositorio de aprendizaje automático. Hay nueve
Fig. 4 Software de análisis de imágenes médicas. atributos con uno variable de clase. El resultado se
representa como clase 2 para una benigna celular y 4 para
Actualmente se realiza un estudio sobre 532 muestras la célula maligna. Los valores no son originales como
que se han tomado del año 2005 de las cuales se tiene un todos los valores se escalan intervalo 1-10. Hay 478 casos
holgura para la limpieza en caso de imágenes defectuosas fuera de los cuales 16 casos fueron incompletos. Hemos
de 32 imágenes, teniendo finalmente un conjunto de eliminado las 16 instancias y los casos restantes se
imágenes de prueba de 500 muestras para estudio. distribuyeron de la 315 para casos benignos y 147 para
maligna. Los nueve atributos son las siguientes.
4.4 Modelado de Datos Clump thickness Uniformity of cell size
El modelado de los datos se realiza con validación Uniformity of cell shape Marginal adhesion
cruzada que permita mayor precisión de los datos. Single epithelial cell size Bare nuclei
Utilizando la revisión del estado del arte realizada se Bland chromatin Normal nucleoli
procede a seleccionar el modelo utilizado por Mitosis Class variable
[Nasser+10] donde se tiene un modelo completo para el
abordaje de los diversos tipos de cáncer(Fig 5). Se han realizado diversos estudios en el campo de
clasificación de cáncer de mama utilizando estos atributos
[18].
4.8 Validaciones y pruebas del Sistema. opción que es agregada a razón de la recomendación de
El desarrollo que se realizó fue en base a los un usuario del sistema que opina que en caso de
requerimientos formulados por profesionales de presentarse una determinada combinación o valor de un
medicina a los cuales se les consulto sobre los resultados valor entonces se tiene una conclusión muchísimo más
que se deberían poder observar quedando descrito de la rápida y probablemente mucho más exacta que lo que
siguiente manera: puede diagnosticar una sistemas por sí solo.
Secciones Desarrolladas del Sistema. De esta manera se eliminan datos que puedan
interferir negativamente con los datos de la entrada y los
4.8.1 Sección de presentación de datos. mismos puedan afectar a las variables sensibles de los
En donde se presentan los datos correspondientes a las algoritmos haciendo que los mismos sean mucho más
272 muestras que se tienen estudiadas y catalogadas. consistentes.
Actualmente se encuentra compuesto del total de los Como criterio propio no se recomienda para las tareas
campos requerido y adicionado por 3 campos de control de entrenamiento puesto que hace que el sesgo fruto de
que se utiliza para realizar un análisis de corrección de las esa restricción manipule negativamente la fuente de datos
variables y de los cambios que se vean recomendados para mostrar un hiperplano que no necesariamente sea el
según la obtención de datos. que presente la mayor distancia.
En esta sección se presentan también un análisis del 4.8.5 Validación Cruzada Aleatoria.
conjunto total de los datos que se requieren y que Consiste en el método derivado de utilizar la validación
posteriormente se analizan, permitiendo brindar una cruzada pero en esta prueba se necesita que se tengan dos
auditoría interna de los datos. Originalmente se presenta subconjuntos de datos de tal manera que el
esta interface para organizar el conjunto de épocas que se dimensionamiento que tienen estos mismos sea aleatorio
requiere para tener una red entrenada y que permita e independiente del total de muestras que se haya
determinar según un conjunto de parámetros cuales son realizado en una época anterior de entrenamiento.
las conclusiones respecto a un conjunto de datos.

4.8.2 Sección de leyenda.


En donde se presenta la descripción de cada uno de los
campos de la presentación, los mismos que se tienen a
partir de los atributos de información que se tienen (Fig
6):
# Attribute Domain
-- -----------------------------------------
1. Sample code number id number
2. Clump Thickness 1 - 10
3. Uniformity of Cell Size 1 - 10 Fig 7 Explicación gráfica de la validación cruzada.
4. Uniformity of Cell Shape 1 - 10
5. Marginal Adhesion 1 - 10 La validación cruzada es una técnica ampliamente
6. Single Epithelial Cell Size 1 - 10 usada [Zhong+12] que principalmente se caracteriza por
7. Bare Nuclei 1 - 10 ser mucho más fina con la construcción del modelo de
8. Bland Chromatin 1 - 10 prueba y la obtención de la función de clasificación.
9. Normal Nucleoli 1 - 10 Independientemente de cualquier herramienta que se
10. Mitoses 1 - 10 utilice ha probado ser de los mejores métodos de pruebas
11. Class: (2 for benign, 4 for malignant) que se han utilizado y probado en otros estudios
Fig 6 Tabla de valores de las variables.. anteriormente referenciados y que han demostrado de
esta manera que este método es efectivo.
4.8.3 Sección de predicción Como mayor ventaja que posee es que el afinamiento a
En donde se realizan los cálculos de los datos y se la muestra obtenida es la más óptima para el conjunto de
generan los reportes en Excel para que sean analizados entrada puesto que se enfoca en la atención de un solo
finalmente por médicos. conjunto de datos y su propia optimización sin esperar
Esta es el área que nos genera y nos reporta la mayor posible variaciones en la muestra que se tiene
carga de procesamiento en la que se encarga del Entre las desventajas que tiene este método es que en
entrenamiento de la red y que de esta manera se pueda caso de no tener una buena muestra de datos, los mismos
calcular los vectores de soporte. no pueden ser utilizados porque la función de
clasificación que se obtiene es específica para la muestra
4.8.4 Sección de Restricciones de entrenamiento no siendo adaptable para otras
Sirve para poder modificar ligeramente los análisis de muestras.
tal manera que se ajuste a las características específicas 4.9 Pruebas del Sistema.
de un paciente. Las pruebas del sistema se realizaran por los
La sección de características permite eliminar y/o siguientes parámetros, siendo estos los que determinen
incluir una variable para el tema de la explotación de la cuál de los algoritmos tiene un mayor desempeño.
Red Neuronal o Máquina de Soporte Vectorial. Esta es una • Especificidad: La especificidad puede ser definida
como la relación del número de los verdaderos positivos humano.
(El resultado) y el número total de registros, es decir, el
número de benigna que ha sido correctamente Sensibilidad de sistema
clasificados / número total de benigna instancias. Sensibilidad (fracción de verdaderos positivos). Es la
TP/(TP+FN) probabilidad de clasificar correctamente a un caso como
• Sensibilidad: La sensibilidad puede ser definida enfermo, es decir es la proporción de verdaderos
como la relación del número de correctos registros positivos identificados por la prueba del total de
malignos clasificados y número total de maligno registros. enfermos. En relación a la Sensibilidad del sistema es
es decir, media/baja en comparación de estudios que se han
TN / (TN + FP) realizado en otras ramas, pero que aún eso es muchísimo
• Precisión: Es la relación del número total de más superior que los métodos estadísticos actualmente
benigna clasificado como benigna y maligna clasificado utilizados y aun siendo mucho mejor que el juicio de
como malignos con el número total de instancias. es decir, expertos a los que se someten las imágenes actualmente.
(TP + TN) / (TP + TN + FP + FN) Este porcentaje refleja el número de casos de personas
Las pruebas al sistema se realizaron en un ambiente enfermas a las cuales se les diagnostique cáncer, más
determinando los siguientes resultados para los datos de conocido como los falsos negativos, siendo personas que
entrada que se tienen siendo la Sensibilidad (capacidad se encuentran desarrollando la enfermedad pero su
para detectar la ausencia de la enfermedad en sujetos diagnóstico fue errado y no se tiene clara la situación que
enfermos) y la Especificidad (capacidad de la prueba para actualmente se tiene.
detector la ausencia de la enfermedad en sujetos sanos)
Esta prueba generó la siguiente curva ROC que VI. CONCLUSIONES
básicamente es la intersección de la Especificidad y la • Uno de los problemas que se reviste de real
Sensibilidad en una curva que registra el conjunto de interés es el cáncer de mama dado el alto número de
comportamientos que han tenido según un determinado casos registrados en el país así como el que tiene un
medio. mayor índice de curación en caso de detectarse la
Finalmente se complete el algoritmo que determina enfermedad en etapas tempranas.
que tan preciso ha sido el sistema determinando los casos • En esta investigación se pone de relieve que
positivos y casos negativos. Para el caso del usuario lo que hemos puesto en la práctica la implementación de la
se elige es una prueba muy sensible porque se prefiere técnica MLSVM (Máquina de Soporte Vectorial Multinivel)
obtener falsos positivos en lugar de falsos negativos, es caracterizándolo como un máquina de aprendizaje
decir que el número de enfermos sin detector sea mínimo. automático, logrando que tenga un porcentaje de acierto
Este es un ejemplo claro para las campañas de 95.75% lo que al ser utilizado por un médico reduciría el
epidemiología en donde se busca una mayor sensibilidad. número de falsos positivos actualmente.
Es importante determinar que se requiere o no un valor • La máquina de aprendizaje híbrido MLSVM, es
alto en especificidad puesto que es variable según la una técnica que ha demostrado obtener resultados altos,
época de entrenamiento. competentes a la de investigaciones de vanguardia que
actualmente se utilizan.
V. RESULTADOS • Para esta investigación se comprueba que la
Actualmente se hicieron pruebas con un total de 478 utilización de una técnica proveniente de publicaciones
muestra, a través de las cuales se obtuvieron los en revistas indexadas que aún no se muestra en su etapa
resultados de la Figura 5.3, donde se puede concluir que comercial mejora los resultados esperados.
se tiene un sistema con una alta tasa de acierto en • Esta investigación ha demostrado que se puede
comparación otros estudios se encuentra altamente utilizar un origen de datos construidos en similares
posicionado. características con el Breast Cancer Winsconsin Data Set,
Specifi Sensiti Accur de manera satisfactoria para su posterior aplicación.
city vity acy • La herramienta desarrollada permitió
MLS 97.25 91.23 95.75 incrementar la precisión del diagnóstico médico a partir
VM de mamografías de Cáncer de Mama.
Figura 5.1. Resultados obtenidos • En relación a la especificidad del sistema, es
decir la proporción de verdaderos negativos identificados
Especificidad del sistema por la prueba del total de sanos, se concluye que la
Es la probabilidad de clasificar correctamente a un capacidad para determinar si una persona sana tiene
individuo sano, es decir es la proporción de verdaderos ausencia de cáncer es bastante alta. Lo cual lo sitúa como
negativos identificados por la prueba del total de sanos. una herramienta de descarte de cáncer de mamá muy
En relación a la especificidad del sistema, se puede eficiente y comparable con estudios que se han realizado
comentar que la capacidad para determinar si una siendo muy superior a los métodos estadísticos o
persona sana tiene ausencia de cáncer es bastante alta. Lo sometidos al riesgo del diagnóstico humano.
cual lo sitúa como una herramienta de descarte de cáncer • En relación a la sensibilidad de sistema, se
de mamá muy eficiente y comparable con estudios que se concluye que la proporción de verdaderos positivos
han realizado siendo muy superior a los métodos identificados por la prueba del total de enfermos es
estadísticos o sometidos al riesgo del diagnóstico media/baja en comparación de estudios que se han
realizado en otras ramas, pero que aún eso es muchísimo who, isbn 978 92 4 156387 1,(classification 105)
21. [Whs06] world health organization, world health statistics
más superior que los métodos estadísticos actualmente
2006, who library cataloguing-in-publication data
utilizados y aun siendo mucho mejor que el juicio de 22. [Whs07] world health organization, world health statistics
expertos a los que se someten las imágenes actualmente. 2007, who library cataloguing-in-publication data
Este porcentaje refleja el número de casos de personas 23. [Whs08] world health organization, world health statistics
2008, who library cataloguing-in-publication data
enfermas a las cuales se les diagnostique cáncer, más
24. [Whs09] world health organization, world health statistics
conocido como los falsos negativos. 2009, who library cataloguing-in-publication data
25. [Whs10] world health organization, world health statistics
VII. REFERENCIAS 2010, who library cataloguing-in-publication data
26. [Whs11] world health organization, world health statistics
[1] [Arroyo+05] jorge arroyo,mahabir prashad, yelkaira vásquez, elena
2011, who library cataloguing-in-publication data
li, gloria tomás c, actividad citotóxica in vitro de la mezcla de
27. [Whs12] world health organization, world health statistics
annona muricata y krameria lappacea sobre células cancerosas de
2012, who library cataloguing-in-publication data
glándula mamaria, pulmón y sistema nervioso central, rev peru
med exp salud publica 22(4), 2005. 28. [Whs13] world health organization, world health statistics
[2] [Austin+13] Peter c. Austin, jack v. t., Jennifer e. h, Daniel Levye, 2013, who library cataloguing-in-publication data
Douglas s. lee, using methods from the data-mining and machine- 29. [Zaharia13] mayer zaharia, cancer as a public health problem
learning literature for disease classification and prediction: a case in peru, rev peru med exp salud publica-ins
study examining classification of heart failure subtypes of the sd- 30. [Zhong+12] wei zhong, rick chow, jieyue he, clinical charge
journal of clinical epidemiology 66 (2013) 398e407. profiles prediction for patients diagnosed with chronic diseases using
[3] [Cortez+11] Áugusto Cortez Maquina de Soporte vectorial” multi-level support vector machine, of the sd-expert systems with
Algorithmic 2011 ( 2) 2, 2011 43-47. applications 39 (2012) 1474–1483
[4] [Drier+11] Yotam Drier, do two machine-learning based prognostic 31. [Bibliteca+15] Biblioteca Nacional de Medicina de Estados
signatures for breast cancer capture the same biological processes? Unidos [see
of the plos one march 2011 volume 6 issue 3 e17795. http://www.nlm.nih.gov/medlineplus/spanish/ency/article/000913.ht
[5] [Gonzales08] antonio gonzales martin, estudio descriptivo de la m]
implantación de un programa de detección precoz de cáncer de 32. [INC+15] Instituto Nacional del Cancer de Estados Unidos [see
mama en el distrito sevilla sur, universidad de sevilla tesis doctoral. www.cancer.gov]
[6] [Hernandez+2009] Jose Hernández “ Introducción a la minería de 33. [BCW2015] Breast Cancer Wisconsin Data Set [see
datos” Edit Prentice Hall Madrid 2009. https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Dia
[7] [Ilhan+13] ilhan ilhan, gülay tezel a genetic algorithm–support gnostic)]
vector machine method with parameter optimization for selecting
34. [Bennett+92] K. P. Bennett y OL Mangasarian: "robusta
the tag snps of the sd-journal of biomedical informatics 46 (2013)
Programación Lineal Discriminación de dos conjuntos linealmente
328–340.
Inseparable", Métodos de Optimización y Software 1, 1992, 23-34
[8] [Lopez+01]alan d. lopez, colin d. mathers, majid ezzati, dean t.
jamison, and christopher j. l. murray, measuring the global burden 35. [Diaz+06] José Díaz Novás, Bárbara Gallego Machado,
of disease and risk factors, who library cataloguing-in-publication Aracelys León González; El diagnóstico médico: bases y procedimientos;
data. Rev Cubana Med Gen Integr 2006;22(1)
[9] [Murray00] christopher j.l. murray1y julio frenk, un marco para 36. [Borrajo09] BORRAJO, Daniel. Apuntes de la asignatura
evaluar el desempen˜ o de los sistemas de salud, bulletin of the Inteligencia Artificial curso 2008-2009. Departamento de informática,
world health organization 2000, 78 (6): 717–731 Universidad Carlos III
[10] [Oms_ent10] dr ala alwan,*, global status report on no 37. [AEPIA15] Asociación española de inteligencia artificial
communicable diseases 2010, library cataloguing-in-publication (AEPIA). http://www.aepia.org/
dataglobal status report on no communicable diseases 2010. 38. [Puelles+15] PUELLES, Luis, SÁNCHEZ CÁNOVAS, José,
[11] [Oms_ent10] dr ala alwan,*, global status report on no ALBERTOS, Pedro. Inteligencia artificial e inteligencia humana.
communicable diseases 2010, library cataloguing-in-publication 39. [IA15] Inteligencia Artificial y temas relacionados. Wikipedia.
dataglobal status report on no communicable diseases 2010 http://es.wikipedia.org/wiki/Inteligencia_artificial
[12] [Pan+12] song pan , serdar iplikci, kevin warwick, tipu z. aziz, 40. [Sánchez15] SÁNCHEZ G., PÉREZ H., NAKANO M. Growing Cell
parkinson’s disease tremor classification – a comparison between Neural Network using Simultaneous Perturbation. Inst. Politécnico
support vector machines and neural networks, of the sd-expert Nacional, Secc. de Estudios de Posgrado e Investigación, Esc. Superior de
systems with applications 39 (2012) 10764–10771. Ingeniería Mecánica y y Eléctrica. México D. F.
[13] .[Re+11] matteo re y giorgio valentini, cancer module genes ranking 41. [Sanchez06] SÁNCHEZ-MONTAÑÉS ISLA, Manuel A. Métodos
using kernelized score functions of the bmc bioinformatics 2012,
Avanzados en Aprendizaje Artificial. Redes neuronales. Universidad
13(suppl 14):s3 [see http://www.biomedcentral.com/1471-
Autónoma de Madrid, 2006
2105/13/s14/s3].
42. [CSULB15] History of the perceptron.
[14] [Santomé01] santomé l, baselga j. actualización en cáncer de
mama: aspectos clínicos y terapéuticos. fmc 2001; 8 (9): 597-605. http://www.csulb.edu/~cwallis/artificialn/History.htm
15. [Vanneschi+11] leonardo vanneschi, antonella farinaccio, 43. [Perce15] Perceptrón. Wikipedia
giancarlo mauri, mauro antoniotti1, paolo provero y mario giacobini a http://es.wikipedia.org/wiki/Perceptr%C3%B3n
comparison of machine learning techniques for survival prediction in 44. [MulPe15] Multilayer perceptrons.
breast cancer of the biodata mining 2011, 4:12[see http://users.ics.tkk.fi/ahonkela/dippa/node41.html
http://www.biodatamining.org/content/4/1/12] 45. [PerMu15] Perceptrón multicapa. Wikipedia
16. [Weboms05] world health organization, organizacion mundial http://es.wikipedia.org/wiki/Perceptr%C3%B3n_multicapa
de la salud 2013, who library cataloguing-in-publication data 46. [JIANGSHENG02] YU JIANGSHENG. Method of k-Nearest
17. [Who04] world health organization, the global burden of Neighbors. Institute of Computational Linguistics Peking University,
disease, who library cataloguing-in-publication data,isbn 978 92 4 China, 2002
156371 0 (nlm classification: w 74) 47. [DeLaEscalera+15] DE LA ESCALERA, Arturo, ARMINGOL, José
18. [Who04] world health organization, global health risks : the maría. Apuntes de la asignatura Sistemas de percepción (proveniente
global burden of disease, who, isbn 978 92 4 156371 0 (nlm Del libro Visión por Computador, fundamentos y métodos, Arturo de la
classification: w 74) Escalera Hueso. Prentice Hall). Departamentos de ingeniería de sistemas
19. [Who08] department of health statistics and informatics who, y automática, Universidad Carlos III
causes of death 2008: data sources and methods, who library 48. [Fernández+15] FERNÁNDEZ REBOLLO, Fernando, BORRAJO
cataloguing-in-publication data world health organization, global health MILLÁN, Daniel, GARCÍA DURÁN, Rocío. Apuntes de la asignatura
risks : causes of death 2008: data sources and methods, who library Aprendizaje automática. Departamento de informática, Universidad
cataloguing-in-publication data. Carlos III
20. [Who09] world health organization, global health risks : 49. [HSU15] CHIH-WEI HSU, CHIH-CHUNG CHANG AND CHIH-JEN
mortality and burder of disease attributable to selected major risks, LIN. A Practical Guide to Support Vector Classification.

También podría gustarte