Está en la página 1de 157

UNIVERSIDAD NACIONAL DEL CENTRO DEL PERÚ

ESCUELA DE POSGRADO

UNIDAD DE POSGRADO DE LA FACULTAD DE


INGENIERÍA DE SISTEMAS

TESIS
“ANÁLISIS INTELIGENTE DE DATOS CON REDES NEURONALES ARTIFICIALES
PARA LA DETERMINACIÓN DE FACTORES QUE INFLUYEN EN EL
COMPORTAMIENTO DE LAS ATENCIONES MEDICAS REALIZADAS AL USUARIO
EXTERNO DEL HOSPITAL REGIONAL DOCENTE MATERNO INFANTIL - EL CARMEN”

PRESENTADA POR:

JOSÉ LUIS CERRÓN PÉREZ


PARA OPTAR EL GRADO ACADÉMICO DE:

MAGÍSTER EN INGENIERÍA DE SISTEMAS

CON MENCIÓN EN:

GERENCIA EN TECNOLOGÍAS DE INFORMACIÓN Y COMUNICACIÓN

HUANCAYO – PERU
2013
ASESOR:
Mg. HENRY MAQUERA QUISPE

II
DEDICATORIA

A Graciela Aurea mi madre, por su


apoyo incondicional en mi
formación personal y académica.

III
AGRADECIMIENTOS

A Dios por darme la dicha de vivir y mostrarme el camino de la verdad.

A mi madre que siempre me da los mejores consejos y confianza para continuar y


ser siempre un ejemplo constante de esfuerzo y sacrificio.

A mi esposa e hijos que son un motor de vida.

A mis profesores de la maestría de Ingeniería de Sistemas de la Universidad


Nacional del Centro del Perú por compartir sus experiencias, consejos y apoyo
incondicional durante el desarrollo de la presente tesis.

A todos aquellos que siempre que cuando se les pide un consejo o apoyo son
incondicionales en proporcionarlo.

IV
RESUMEN

El siguiente trabajo de Tesis titulado: “ANÁLISIS INTELIGENTE DE DATOS CON


REDES NEURONALES ARTIFICIALES PARA LA DETERMINACIÓN DE FACTORES
QUE INFLUYEN EN EL COMPORTAMIENTO DE LAS ATENCIONES MEDICAS
REALIZADAS AL USUARIO EXTERNO DEL HOSPITAL REGIONAL DOCENTE
MATERNO INFANTIL - EL CARMEN” surge de la necesidad de cambiar la percepción
que tiene el usuario externo en relación al tipo de atención que se le brinda por parte del
personal de salud.

En los últimos años el hospital regional docente materno infantil El Carmen ha tenido
muchos cambios y en especial una variación no controlada en el comportamiento de los
clientes externos, fluctuaciones que en principio han venido disminuyendo la cantidad de
atenciones realizadas en los diferentes consultorios de manera progresiva, los mismos
que afectan de manera sustancial al crecimiento y desarrollo del mismo.

El presente trabajo de investigación cambio la tendencia decreciente en el número de


atenciones en los diferentes consultorios externos, los que se dan a los clientes externos.
Mediante la identificación de los factores que los usuarios externos consideran relevante
en una atención de salud y que se deben considerar críticos, los mismos que fueron
adoptados y puestos en práctica por todo el personal que brinda la atención de salud.

Para lograr tal propósito se utilizó el algoritmo de redes neuronales artificiales como
herramienta de minería de datos para el análisis inteligente de los datos, este algoritmo
permitió analizar los cientos de miles de registros procesados en el Sistema de
Información de Salud HIS (Health Information System). Sistema de información en el que
se registra todos los detalles relacionados con una atención médica en consultorios
externos; el que se brinda a un usuario externo.

Identificado los factores que tienen relación directa con la variación del número de
atenciones en los consultorios externos e incluidos en los protocolos médicos de atención
al usuario externo; se evaluó posteriormente los indicadores hospitalarios sujetos de
investigación, obteniéndose un incremento importante en sus respectivos valores. Los
mismos que permitieron validar el presente trabajo de investigación.

V
ABSTRACT

The following thesis entitled "INTELLIGENT DATA ANALYSIS WITH ARTIFICIAL


NEURAL NETWORKS FOR THE DETERMINATION OF FACTORS AFFECTING THE
PERFORMANCE OF MEDICAL CARE TO YOU MADE OUTSIDE OF HOSPITAL
REGIONAL EDUCATIONAL MATERNAL INFANTILE EL CARMEN " arises from the
need to change the perception of the external user to the type of care that is offered by
the health personnel.

In recent years the regional hospital maternal child teacher El Carmen has had many
changes and in particular a variation not controlled in the behavior of external customers,
fluctuations which in principle have been decreasing the amount of attention in different
clinics of progressively, which affect substantially to the growth and development of the
same.

The present research work change the declining trend in the number of attentions in
different external clinics, which are given to the external customers. Through the
identification of external users considered relevant in health care and factors that should
be considered critics, those who were adopted and put into practice by all staff that
provides health care.

To achieve such purpose was used the algorithm of artificial neural network as a data
mining tool for intelligent analysis of data, this algorithm allowed to analyze the hundreds
of thousands of records processed in the information system of health HIS (Health
Information System). Information system which records all details related to health care in
outpatients; that is provided to an external user.

Identified factors that have direct relation with the variation of the number of attentions in
the external and offices included in medical attention to the external user protocols;
subsequently assessed subject research hospital indicators, resulting in a significant
increase in their respective values. The same ones that allowed to validate the present
research work.

VI
ÍNDICE
RESUMEN
ABSTRACT
INTRODUCCIÓN

CAPITULO I
GENERALIDADES

1.1. Reseña Histórica del Hospital Regional Docente Materno Infantil El Carmen 1
1.2. Descripción del Problema 6
1.2.1. Problema General 11
1.2.2. Problemas específicos 11
1.3. Justificación 11
1.3.1. Justificación Teórica 11
1.3.2. Justificación Práctica 12
1.3.3. Relevancia 12
1.3.3.1. Relevancia económica 12
1.3.3.2. Relevancia social 12
1.3.4. Delimitación espacial temporal 12
1.3.4.1. Delimitación espacial 12
1.3.4.2. Delimitación temporal 12
1.4. Referencia Teórica 13
1.4.1. Antecedentes 13
1.5. Objetivos 20
1.5.1. Objetivo General 20
1.5.2. Objetivos Específicos 20
1.6. Hipótesis 21
1.6.1. Hipótesis General 21
1.6.2. Hipótesis Específicas 21
1.6.3. Operacionalización de variables e indicadores de las hipótesis 21
1.6.3.1. Variables 21
1.6.3.2. Operacionalización de las Variables 21
1.6.3.3. Indicadores 22
1.7. Diseño Metodológico 23
1.7.1. Tipo y nivel de la investigación 23
1.7.2. Elección del Diseño Básico de investigación 23
1.7.3. Definición de las unidades de análisis 23
1.7.4. Técnicas de recolección de información 23
1.7.5. Cobertura de las técnicas. Universo y Muestra 23
1.7.6. Técnicas de análisis de los datos 24
1.7.7. Fuentes de información 24

VII
CAPITULO II
MARCO TEORICO

2.1 Estado del arte 25


2.1.1 Descubrimiento de Conocimiento en Bases de Datos (KDD) 25
2.1.2 Concepto del KDD 26
2.1.3 Metas de KDD 27
2.1.4 Relación con otras disciplinas 28
2.1.5 El proceso de KDD 28
2.2 Minería de Datos – Data Mining 30
2.2.1 Fundamentos del Data Mining 31
2.2.2 Principales características y objetivos de la Minería de Datos 32
2.2.3 El Alcance de Data Mining 34
2.2.4 Una arquitectura para Data Mining 35
2.3 Modelos de Data Mining 36
2.3.1 Data Mining y Clasificación 36
2.3.2 Clasificadores 36
2.3.2.1 Árboles de Decisión. 36
2.3.2.2 Regresiones Lineales. 37
2.3.2.3 Árboles de Regresión. 37
2.3.2.4 Redes Neuronales. 37
2.3.2.5 Algoritmos Genéticos. 37
2.3.3 Tipos de Reglas 37
2.3.3.1 Reglas If-Then. 38
2.3.3.2. Reglas M-de-N. 38
2.3.3.3. Reglas Difusas. 38
2.3.4 Aplicaciones 39
2.3.5 Evaluación de un Clasificador 39
2.3.6 Aprendizaje Supervisado 39
2.3.7 Redes Neuronales 40
2.3.8 Redes Neuronales Biológicas 40
2.3.9 Estructura de las Redes Neuronales 42
2.3.10 Aprendizaje 44
2.3.11 Comprensibilidad 44
2.3.12 Extracción de Reglas utilizando Redes Neuronales 45

CAPITULO III
METODOLOGIA PARA EL DESARROLLO DE MINERIA DE DATOS

3.1. Fase de comprensión del negocio o problema 47


3.2. Fase de comprensión de los datos 50
3.3. Fase de preparación de los datos 63
3.4. Fase de modelado 66
3.4.1. Selección de la técnica de modelado 67
3.4.2. Algoritmo de red neuronal Microsoft 70
VIII
3.4.3. Generación del plan de pruebas 73
3.4.4. Implementación del algoritmo de red neuronal 74
3.4.4.1. Selección de características 76
3.4.4.2. Métodos de puntuación 77
3.4.4.3. Personalizar el algoritmo de red neuronal 78
3.4.4.4. Marcas de modelado 80
3.4.4.5. Marcas de distribución 81
3.4.4.6. Requisitos 82
3.4.5. Evaluación del modelo 83
3.5. Fase de evaluación 84
3.5.1. Evaluación de los resultados. 84
3.5.2. Proceso de revisión. 85
3.5.3. Determinación de futuras fases. 85
3.6. Fase de implementación 85

CAPÍTULO IV
ANALISIS DE RESULTADOS

4.1. Presentación de resultados. 87


4.1.1 Factor Tipo de Financiamiento 88
4.1.1.1 Factor Tipo de Financiamiento – Primer Valor 89
4.1.1.2 Factor Tipo de Financiamiento – Segundo Valor 90
4.1.1.3 Factor Tipo de Financiamiento – Tercer Valor 91
4.1.1.4 Factor Tipo de Financiamiento – Cuarto Valor 92
4.1.2 Factor Tiempo de Atención 93
4.1.2.1 Factor Tiempo de Atención – Primer Valor 94
4.1.2.2 Factor Tiempo de Atención – Segundo Valor 95
4.1.2.3 Factor Tiempo de Atención – Tercer Valor 96
4.1.2.4 Factor Tiempo de Atención – Cuarto Valor 97
4.1.3 Factor Tiempo de Espera 98
4.1.3.1 Factor Tiempo de Espera – Primer Valor 99
4.1.3.1 Factor Tiempo de Espera – Segundo Valor 100
4.1.3.1 Factor Tiempo de Espera – Tercer Valor 101
4.1.3.1 Factor Tiempo de Espera – Cuarto Valor 102
4.2. Prueba de Hipótesis. 106

CONCLUSIONES 110
RECOMENDACIONES 111
REFERENCIAS BIBLIOGRÁFICAS 108
ANEXOS 113

IX
ÍNDICE DE TABLAS
Tabla Nº 1.1 Principales indicadores hospitalarios por años. 7
Tabla Nº 1.2 Atenciones en consultorios externos por años. 8
Tabla Nº 1.3 Concentración en consultorios externos por Dptos. y servicios. 9
Tabla Nº 1.4 Productividad en consultas externas por años. 10
Tabla Nº 1.5 Variables e indicadores. 22
Tabla Nº 3.1 Estructura de la tabla CAPITULO.dbf. 51
Tabla Nº 3.2 Estructura de la tabla CATEGORIA.dbf. 51
Tabla Nº 3.3 Estructura de la tabla CIE.dbf. 52
Tabla Nº 3.4 Estructura de la tabla CODIENF.dbf. 52
Tabla Nº 3.5 Estructura de la tabla DETACT.dbf. 52
Tabla Nº 3.6 Estructura de la tabla CONDTRAB.dbf. 53
Tabla Nº 3.7 Estructura de la tabla CONFIGUR.dbf. 53
Tabla Nº 3.8 Estructura de la tabla CPT.dbf. 53
Tabla Nº 3.9 Estructura de la tabla DISA.dbf. 53
Tabla Nº 3.10 Estructura de la tabla DIGITAD.dbf. 54
Tabla Nº 3.11 Estructura de la tabla DIST.dbf. 54
Tabla Nº 3.12 Estructura de la tabla DPTO.dbf. 54
Tabla Nº 3.13 Estructura de la tabla GRUPO.dbf. 54
Tabla Nº 3.14 Estructura de la tabla GRUPETA.dbf. 54
Tabla Nº 3.15 Estructura de la tabla ESTABLEC.dbf. 55
Tabla Nº 3.16 Estructura de la tabla HIS1XXXX.dbf. 55
Tabla Nº 3.17 Estructura de la tabla HIS3XXXX.dbf. 52
Tabla Nº 3.18 Estructura de la tabla HISAXXXX.dbf. 57
Tabla Nº 3.19 Estructura de la tabla HISAMINSA.dbf. 58
Tabla Nº 3.20 Estructura de la tabla ID_ACT.dbf. 58
Tabla Nº 3.21 Estructura de la tabla LOG.dbf. 59
Tabla Nº 3.22 Estructura de la tabla LOLTES.dbf. 59
Tabla Nº 3.23 Estructura de la tabla MENSAJE.dbf. 59
Tabla Nº 3.24 Estructura de la tabla MICRORED.dbf. 60
Tabla Nº 3.25 Estructura de la tabla MSTRPERS.dbf. 60
Tabla Nº 3.26 Estructura de la tabla OBSERVA.dbf. 60
Tabla Nº 3.27 Estructura de la tabla PERIODO.dbf. 60
Tabla Nº 3.28 Estructura de la tabla PROFESIO.dbf. 61
Tabla 3.29 Estructura de la tabla PROV.dbf. 61
X
Tabla Nº 3.30 Estructura de la tabla RED.dbf. 61
Tabla Nº 3.31 Estructura de la tabla SITUACIO.dbf. 61
Tabla Nº 3.32 Estructura de la tabla TABVAR.dbf. 62
Tabla Nº 3.33 Estructura de la tabla SERVSAL.dbf. 62
Tabla Nº 3.34 Algoritmos por tarea en minería de datos. 69
Tabla Nº 3.35 Columnas de entrada y de predicción. 82
Tabla Nº 4.1 Financiador de Salud. 88
Tabla Nº 4.2 Atributo - valor factor financiamiento - primer valor. 90
Tabla Nº 4.3 Atributo - Valor factor financiamiento - segundo valor. 91
Tabla Nº 4.4 Atributo - Valor factor financiamiento - tercer valor. 92
Tabla Nº 4.5 Atributo - Valor factor financiamiento - cuarto valor. 93
Tabla Nº 4.6 Atributo - Valor factor tiempo de atención - primer valor. 95
Tabla Nº 4.7 Atributo - Valor factor tiempo de atención - segundo valor. 96
Tabla Nº 4.8 Atributo - Valor factor tiempo de atención - tercer valor. 97
Tabla Nº 4.9 Atributo - Valor factor tiempo de atención - cuarto valor. 98
Tabla Nº 4.10 Atributo - Valor factor tiempo de espera - primer valor. 100
Tabla Nº 4.11 Atributo - Valor factor tiempo de espera - segundo valor. 101
Tabla Nº 4.12 Atributo - Valor factor tiempo de espera - tercer valor. 102
Tabla Nº 4.13 Atributo - Valor factor tiempo de espera - cuarto valor. 103
Tabla Nº 4.14 Atenciones por años en consultorios externos. 105
Tabla Nº 4.15 Atenciones en consultorios externos por servicios. 105
Tabla Nº 4.16 Productividad en consultorios externos por años. 107
Tabla Nº 4.17 Concentración en consultorios externos año 2012. 108
Tabla Nº 4.18 Concentración en consultorios externos año 2013-I. 108
Tabla Nº 4.19 Concentración en consultorios externos por años. 108

XI
ÍNDICE DE FIGURAS
Figura Nº 2.1: Jerarquía del Conocimiento. 26
Figura Nº 2.2: Proceso de KDD. 28
Figura Nº 2.3 - Componentes de una Neurona. 41
Figura Nº 2.4 – Sinapsis. 41
Figura Nº 2.5 - Red Neuronal. 42
Figura Nº 3.1 Sistema de Información HIS. 48
Figura Nº 3.2 Tablas del sistema de información HIS. 50
Figura Nº 3.3 Consolidado de Datos del sistema de información HIS. 51
Figura Nº 3.4 Base de datos relacional del sistema de información HIS. 63
Figura Nº 3.5 Datos acumulados y validados sistemas de información HIS. 63
Figura Nº 3.6 Asignación de columnas para importación de datos. 64
Figura Nº 3.7 Base de Datos Relacional en SQL Server. 65
Figura Nº 3.8 Tabla de hechos his_aten con registros. 65
Figura Nº 3.9 Tabla de hechos his_aten. 66
Figura Nº 3.10 Modelos de minería de datos. 70
Figura Nº 3.11 Estructura del modelo de minería de datos. 72
Figura Nº 3.12 Formulario de creación de conjunto de pruebas. 73
Figura Nº 3.13 Modelo de minería de datos. 75
Figura Nº 3.14 Visor de modelo de minería de datos. 80
Figura Nº 3.15 Campos de entrada y de predicción. 82
Figura Nº 3.16 Grafico de precisión de minería de datos. 83
Figura Nº 3.17 Grafico de elevación de minería de datos. 83
Figura Nº 3.18 Visor de modelo de minería de datos - financiamiento. 84
Figura Nº 3.19 Visor de modelo de minería de datos – tiempo de atención. 85
Figura Nº 4.1 Factores de decisión de usuario externo. 87
Figura Nº 4.2 Factor tipo de financiamiento. 89
Figura Nº 4.3 Factor financiamiento - primer valor. 90
Figura Nº 4.4 Factor financiamiento - segundo valor. 91
Figura Nº 4.5 Factor financiamiento - tercer valor. 92
Figura Nº 4.6 Factor financiamiento - cuarto valor. 93
Figura Nº 4.7 Factor tiempo de atención. 94
Figura Nº 4.8 Factor tiempo de atención – primer valor. 95
Figura Nº 4.9 Factor tiempo de atención – segundo valor. 96
Figura Nº 4.10 Factor tiempo de atención – tercer valor. 97
XII
Figura Nº 4.11 Factor tiempo de atención – cuarto valor. 98
Figura Nº 4.12 Factor tiempo de espera. 99
Figura Nº 4.13 Factor tiempo de espera – primer valor. 100
Figura Nº 4.14 Factor tiempo de espera – segundo valor. 101
Figura Nº 4.15 Factor tiempo de espera – tercer valor. 102
Figura Nº 4.16 Factor tiempo de espera – cuarto valor. 103
Figura Nº 4.17 Atenciones por años en consultorios externos. 105
Figura Nº 4.18 Atenciones en consultorios externos por servicios. 106
Figura Nº 4.19 Productividad en consultorios externos. 107
Figura Nº 4.20 Proyección de concentración en consultorios. 109

XIII
INTRODUCCIÓN

La minería de datos es el proceso de detectar la información procesable de los conjuntos


grandes de datos. Utiliza el análisis matemático para deducir los patrones y tendencias
que existen en los datos. Normalmente, estos patrones no se pueden detectar mediante
la exploración tradicional de los datos porque las relaciones son demasiado complejas o
porque hay demasiado datos.

Estos patrones y tendencias se pueden recopilar y definir como un modelo de minería de


datos. El modelo de minería de datos que crea un algoritmo a partir de los datos puede
tomar diversas formas. Un algoritmo de minería de datos es un conjunto de cálculos y
reglas heurísticas que permite crear un modelo de minería de datos a partir de los datos.
Para crear un modelo, el algoritmo analiza primero los datos proporcionados, en busca de
tipos específicos de patrones o tendencias. El algoritmo usa los resultados de este
análisis para definir los parámetros óptimos para la creación del modelo de minería de
datos. A continuación, estos parámetros se aplican en todo el conjunto de datos para
extraer patrones procesables y estadísticas detalladas.

La Red Neuronal combina cada posible estado del atributo de entrada con cada posible
estado del atributo de predicción, y usa los datos de entrenamiento para calcular las
probabilidades pertinentes a cada valor evaluado. Posteriormente, se usa estas
probabilidades para la asociación, clasificación o la regresión, así como para predecir un
resultado del atributo de predicción basándose en los atributos de entrada.

En la presente Tesis se utiliza la capacidad que tienes las Redes Neuronal como
algoritmo de Minería de Datos para determinar con alto grado de precisión los factores
que influyen en el comportamiento de las atenciones médicas realizadas al usuario
externo del Hospital Regional Docente Materno Infantil - El Carmen, con el objetivo de
mejorar los indicadores hospitalarios de atención médica en una consulta externa
enmarcados en los estándares que propone el Ministerio de Salud y la Organización
mundial de la Salud, como también identificar los criterios que el usuario externo
considera relevante cada vez que recibe una atención médica, permitiendo así
incrementar el número de atenciones basado en la satisfacción del servicio.

XIV
En el primer capítulo se muestra los aspectos generales del trabajo de investigación
como datos generales del Hospital Regional Docente Materno Infantil El Carmen, el
problema, los objetivos y las hipótesis enmarcadas en la metodología de la investigación.

En el capítulo II se trata el tema del descubrimiento de conocimiento a partir del análisis


de datos, como también conceptos, características y objetivos relacionados a la minería
de datos. Luego se detalla los modelos de minería de datos y su clasificación para luego
conceptualizar las redes neuronales artificiales a partir de una red neuronal biológica,
analizando en forma detallada su funcionamiento.

En el capítulo III se utiliza la metodología para el desarrollo de minería de datos CRISP-


DM (Cross Industry Standard Process for Data Mining), que es la guía de referencia más
ampliamente utilizada en el desarrollo de proyectos de minería de datos. El estándar
incluye un modelo y una guía, estructurados en seis fases: comprensión del negocio,
comprensión de los datos, preparación de los datos, modelado, evaluación y despliegue
algunas de estas fases son bidireccionales, lo que significa que algunas fases permitirán
revisar parcial o totalmente las fases anteriores y así obtener un modelo totalmente
consistente.

Finalmente en el capítulo IV se trata del análisis de los resultados de la investigación, se


realiza la evaluación de todos los factores determinados con la herramienta de análisis de
datos, del mismo modo se relacionan los resultados luego de un periodo de implantación
atreves de los protocolos de atención médica dentro del Hospital para validar las
hipótesis planteadas.

El Autor

XV
CAPITULO I
GENERALIDADES
1.1. Reseña Histórica del Hospital Regional Docente Materno Infantil El Carmen
El Hospital Regional Docente Materno Infantil El Carmen de Huancayo, de
Categoría II-E, tiene como Rol Estratégico brindar servicios de Salud Integral
Especializada, a la población referencial de la Región Junín, en los diferentes
niveles de atención con énfasis en la recuperación y rehabilitación en condiciones
de oportunidad, equidad, accesibilidad, defendiendo la vida y protegiendo la salud,
con servicios especializados en la atención de salud reproductiva, infantil y de
adolescente, propiciando la organización de los servicios funcionales desde la
perspectiva de necesidades del usuario, modernizando la gestión hospitalaria,
para la mejora de la calidad de los servicios y contribuir al fomento de los estilos
de vida saludables.

En 1847 cuando el país era gobernado por Ramón Castilla y Marquesado, se


funda el Hospital de Huancayo un 05 de Julio (otros mencionan el 14 de Julio),
que debió llamarse “San Ramón”, quién tenía mucho apego por esta zona del
Valle del Mantaro, pues, en la Capilla La Merced se abolió la esclavitud; según la
monografía Eclesiástica de “Junín y Huánuco” publicada en 1934 por el
Monseñor Francisco Berroa, el costo de dicho Hospital fue de 1,756 pesos y 6
reales, contribuyeron para la construcción del local la población, los vecinos más
notables, diversas instituciones y los campesinos de todo el Valle del Mantaro,
estos campesinos pagaron unos impuestos denominados tomines consistente en
05 centavos; él área del hospital abarcaba más de dos hectáreas y en un inicio es

1
administrado por la municipalidad de Huancayo, luego en 1854 por la
Beneficencia Pública de Huancayo (SBPH) la cual se fundó posteriormente; los
límites del Hospital eran amplios ocupaba el actual Jr. Puno y la Av. Huancavelica,
entre las intersecciones del antiguo Jr. Callao actualmente Paseo La Breña, el Jr.
Junín y el Jr. Cuzco; cuando se inaugura el Jr. Puno, deja la parte norte con una
arboleda. Pero la falencia económica era el común denominador en el hospital tal
es así que muchos honorables de Huancayo y muchas comunidades del valle
decidieron colaborar con el mantenimiento del Hospital, por ejemplo Don Mariano
Giraldes, Juan Carvo como diputados lucharon para que varios impuestos
pasaran al hospital para su mantenimiento al igual que muchas comunidades
donaban alimentos.

En plena guerra con Chile el 5 de Febrero de 1882 Huancayo fue ocupado por
tropas chilenas, posesionándose de domicilios particulares, entre ellos el Hospital
fue ocupado por los “Carabineros de Yungay” del Ejército Chileno, después de las
victorias de Pucará, Marcavalle y Concepción, razón por la cual se le consideró
Hospital Militar recibiendo 500 billetes (libras peruanas) para su sostenimiento de
un total de 1500 que recaudó con tal fin; ya retirados los chilenos, el hospital
volvía a brindar sus servicios. El Médico Dr. Demetrio Gálvez no cobraba sueldo,
pues el apoyo del gobierno era ínfimo, la Beneficencia apoyaba en lo que podía,
más los ciudadanos y las personas justas eran los que realmente sostenían al
hospital.

En 1908 pasan a prestar sus servicios las Madres Franciscanas bajo la


advocación de la “Virgen del Carmen” por contrato. Pero los problemas
continuaban, Don Manuel Sauri como Presidente de la Beneficencia realizó
mejoras en el hospital, es la época de la peste bubónica, del tifus, como la de
Sicaya donde incluso se quemaron casas con pacientes y parientes dentro hasta
hace poco se veían los signos de las casas incendiadas. En el año 1919, la
atención precaria que brindaba el hospital motivó la crítica periodística, que llevó
posteriormente a nombrar al primer inspector del Hospital recayendo en la
persona del Sr. Humberto Costa Locraix, quién tendría como función principal
superar estos percances.

2
La Sanidad Militar ocupo ambientes del Hospital “El Carmen”, en la década del 20
al 30 para la atención de sus pacientes y esto redundo en beneficio de los demás
pacientes, Benjamín Gutiérrez, José Solimano y Julio Badaracco apoyaron al
hospital, así como Moisés Marinovich, Federico Martinell, el Dr. Guillermo
Arozemena.

Don Félix Linares dono la sala de niños para el hospital, Don Humberto Costa
Lacroix obtuvo diversos donativos como los de Taylor, Fiori, Dorregaray, Priale,
los hermanos Klescovich, Alfaro, Mario Ruiz, etc. el Dr. Emilio Bravo y el Dr.
Gutiérrez eran los encargados de la Dirección. En 1933 Huancayo se convierte
en la capital del Dpto. de Junín con mucha tristeza para los Jaujinos y los de
Cerro de Pasco; se dio por cuestiones políticas y económicas, recordemos que se
vivía la época del crac mundial y los comerciantes Jaujinos estaban en crisis al
igual que los de Pasco, sin embargo muchos de ellos apoyaban a la aristocracia
gobernante de Leguía y Huancayo apoyaba a Sánchez Cerro y al APRA que eran
grupos populares y rivales en cada época.

En 1940 la Beneficencia alegando que los títulos del Hospital se habían perdido
en la nefasta guerra del pacífico, pide el título supletorio de todos los terrenos en
vista que ellos administraban dicho hospital y sin costarles ni un sol se volvieron
dueños de todos los terrenos del hospital. Sin embargo, la pobreza del hospital
era patente, el Dr. Luis Hanza ofreció mantener una sala, la Sociedad Industrial de
Huancayo 2 salas y el Dr. Bravo una sala. El Dr. Lisandro Menéndez presto
íntegramente su presupuesto para evitar que el hospital cierre. El Dr. Darío
Gonzáles Ledesma se hizo cargo del servicio externo y posteriormente es
nombrado como Director hasta 1963, en esa época Ricardo Tello Devoto era
secretario de la Beneficencia, pero los benefactores del hospital eran muchos
Don Benigno Peñaloza, Leonor Lecca, Cristina de Heroid, Genaro Ingunza, Lidio
Monilardi, Luis Hanza, Tino Balarin, etc.

Los accidentes y enfermedades de la población Huanca eran resueltos en este


antiguo hospital, tal como sucede actualmente. En 1938 el Dr. Adolfo Romero
Estens, era homenajeado por su filantropía. En 1941 se decide construir un nuevo
hospital con un presupuesto, al cual todos apoyaron, principalmente la
Beneficencia y así nacería el Hospital Daniel Alcides Carrión en terrenos de la
3
comunidad de Cajas Chico el cual tuvo dos inauguraciones en 1954 y en 1958. El
18 de Julio de 1943 siendo presidente de la República el Dr. Manuel Prado U. y el
Ministro del ramo Dr. Constantino Carvallo fue inaugurado a través de la Dirección
de Salubridad, el Dispensario Antituberculoso, en los terrenos de la parte norte
del hospital, cruzando el Jr. Puno. El 5 de Julio de 1946 se instituyó el primer
sorteo de la lotería de Huancayo con el único propósito de apoyar al hospital “El
Carmen”, hasta hoy todos pueden visitar el hospital y no se sabe dónde está dicho
apoyo, ignorándose hasta la actualidad el destino de estos fondos recaudados
bajo esta justificación, para 1947 año del terremoto de Satipo, selva del
departamento de Junín, el vetusto hospital atendió a los damnificados.

Don Guillermo Almenara a nombre del IPSS tuvo la intención de comprar los
terrenos adyacentes al hospital “El Carmen” que habían sido cortados por el Jr.
Puno, para construir el Policlínico del IPSS de Huancayo, incluso se realizaron
documentos de compra venta, pero no se plasmó, el proyecto llegó a decir que en
dicho terreno se edificaría un moderno policlínico y que el terreno bastaba y
sobraba. Es así, como siempre el Hospital “El Carmen” trato de subsistir pese a
las adversidades que se le presentaba por el poco presupuesto que se le
asignaba año a año, iniciando más tarde los trabajadores una lucha sin desmayos
ni claudicaciones con el único objetivo de obtener el paso a la administración del
Ministerio de Salud para no tener que mendigar sus pagos mes a mes a sus
sacrificadas labores y atenciones.

A principios de 1958 el Dr. Sánchez Moreno llegó a Huancayo para dar


funcionamiento al nuevo Hospital Daniel A. Carrión que posteriormente pasaría al
Ministerio ya que la SBPH no era puntual con el pago de los trabajadores, al verse
perdidos los de la Beneficencia volvieron nuevamente sus ojos al viejo hospital
“El Carmen” ya conocido como el “Hospital de los Mendigos” por ser de la
beneficencia; en 1978 por Decreto Supremo 002-78-S.A. el viejo hospital “El
Carmen”, quién nació y creció con Huancayo paso a depender del Ministerio de
Salud en toda su integridad a sus 131 años, quién supo erguirse como un
sobreviviente, longevo y náufrago para el beneplácito de todos, principalmente de
los trabajadores quienes aceptaron gustosos en aras de un mejor futuro y
bienestar; debemos señalar que el mencionado Decreto cuenta con cinco
artículos de los cuales en de sus artículos obliga a la beneficencia a dotar de sus
4
recursos al hospital, sin embargo, lejos de cumplir con este propósito en 1997 la
beneficencia decide construir su local institucional en los terrenos del hospital en
lugar de apoyarlo, vía argucias de carácter judicial enfrentándolo frontal y
soterradamente, olvidándose que todo se lo debe al Hospital el año 1998 las
propias autoridades de la Dirección Regional de Salud de Junín encabezados por
el Dr. Pablo Ernesto Gutiérrez Maraví y Judith Chávez bajo presiones de orden
político ordenan la entrega de una parte de los terrenos del lado norte del hospital,
donde actualmente se ubican programas preventivo promocionales y consultorios
externos a favor de la Sociedad de Beneficencia de Huancayo, a los directivos
del hospital quienes inclusive, pretendieron cumplir con este acto; pero una vez
más un grupo de trabajadores plenamente identificados con su institución
obstaculizaron dicha acción haciendo una cadena humana en el portón de acceso
no permitiéndoles el paso tanto a los Directivos de la DISA como a los de la
Beneficencia.

Posteriormente el 14 de Diciembre de año 2000, nuevamente frente a una orden


Judicial de desalojo, del terreno en disputa, organizados bajo un Frente de
Defensa, los trabajadores en su conjunto, con una decidida participación, por
segunda vez, evitaron este desalojo atrincherándose en el Jr., Puno entre las
intersecciones de la Av. Huancavelica y Jr. Junín, en defensa irrestricta no solo
del patrimonio del hospital, sino también, del derecho y acceso a la salud del
pueblo de esta parte de la región centro del país, iniciándose un nuevo
compromiso de velar por su integridad física y buscar su desarrollo frente a la
modernidad y prestar un servicio digno del trabajo que se realiza en defensa de la
salud.

Recientemente mediante Ley N° 28826 se transfiere a título gratuito a favor del


Ministerio de Salud los terrenos de la Sociedad de Beneficencia Pública de
Huancayo ocupados por el Hospital El Carmen de la siguiente manera:
 El terreno y edificaciones del Hospital El Carmen ubicado en el Jr. Puno,
con un área de 6,836.86 m2.
 El terreno y edificaciones del Dispensario Médico de salud con un área de
400.81 m2.
Finalmente debo señalar que hoy en día el hospital bajo la dirección de sus
Directivos y personal en general vienen adoptando nuevas medidas de gestión
5
administrativa moderna con enfoque estratégico, con mejoramiento de la
infraestructura física, equipos médico hospitalarios, sistemas de red de datos,
implementación de consultorios externos especializados, capacitación
permanente del personal entre otros; bajo una perspectiva de lineamientos
básicos, en la consecución de la misión y visión acordes a las expectativas del
nuevo milenio buscando un nivel de acreditación en el campo especializado, para
la prevención, rehabilitación, recuperación y preservación de la salud de la región
central del país.

1.2. Descripción del Problema


En la actualidad el hospital “El Carmen” atraviesa una situación problemática, esto
se puede evidenciar por los diferentes acontecimientos ocurridos en los últimos
días; tal cómo conflictos laborales entre empleados, paralizaciones temporales en
la atención médica y sobre todo por los usuarios externos quienes acuden al
nosocomio a solicitar una atención médica y manifiestan no recibir una atención
de calidad. Pese a que la Institución en la formulación de su plan estratégico
2011 – 2014 analiza y sugiere acciones a implementar para mejorar y fortalecer
los programas de salud individual, salud colectiva y la administración. (Ver anexo
N°01).

Pero esta afirmación no es de carácter objetivo; a continuación analizo la situación


problemática basándome en la Línea Base, análisis de los principales indicadores
hospitalarios del Hospital Regional Docente Materno Infantil “El Carmen” en los
últimos 5 años. En las consultas de Emergencia según años se puede observar
que el número de consultas de Emergencia se incrementó en el año 2009, sin
embargo este número disminuyó en los años 2010 y 2011. En el año 2011 la
disminución fue de 2029 consultas en emergencia. En consecuencia también
disminuyó la concentración. La tendencia del número de consultas tanto en
emergencia como en consultorios externos a través de los años ha experimentado
un ligero incremento en el año 2008, sin embargo dicho número ha ido en
disminución los años 2009 y 2010, observándose en el año 2011 una mayor
disminución en el número de consultas. La oferta de recursos humanos médicos,
enfermeras y obstetrices del Hospital Regional Docente Materno Infantil “El
Carmen” todavía es muy baja en comparación a los estándares de la OMS.

6
PRINCIPALES INDICADORES HOSPITALARIOS POR AÑOS
HOSPITAL REGIONAL DOCENTE MATERNO INFANTIL "EL CARMEN " HUANCAYO

Años
N° Indicadores
2007 2008 2009 2010 2011
1 Consultas en 19753 20034 20657 20103 18628
Emergencia
2 Consultas Externas 32114 43997 37800 38167 29341
(Médico)
3 Camas Hospitalarias 155 155 155 155 155
4 Rendimiento de la cama 36.16 40.3 45.3 43.1 42.5
5 Grado de uso de la 74.5 75.9 82.3 80.8 80
cama
6 Promedio de 5.9 4.8 4.7 4.6 4.7
Permanencia
7 Nro. Egresos 5682 6239 7020 6687 6594
Hospitalarios
8 Tasa Mortalidad Infantil 2.4 2.4 2.2 2.7 3.4
Hospitalaria
9 Tasa de Mortalidad 6.4 4.3 7.6 13.3 1.1
Neonatal Precoz
Hospitalaria
10 Concentración en 1.5 1.4 1.6 1.8 1.5
Consultas
11 Médico por mil 0.27 0.4 0.37 1.2 1.2
habitantes
12 Obsteríz por mil 0.13 0.25 0.23 0.44 0.4
habitantes
13 Enfermera por habitante 0.56 0.68 0.66 0.19 0.19
14 Partos Normales en 1289 1463 1414 1389 1319
Hospital
16 Partos Distócicos en 321 417 517 589 498
Hospital
17 Fallecidos en Hospital 185 249 217 244 240
18 Tasa de Mortalidad 3.3 4 3.1 3.6 3.6
Bruta
19 Tasa de Mortalidad Neta 1.4 1.7 1.3 1.5 1.7
20 Tasa de Mortalidad 45.3 26.6 22.6 26.8 20.9
Perinatal
Fuente Oficina de estadística e informática del Hospital Regional Docente Materno Infantil El Carmen

Tabla Nº 1.1 Indicadores Hospitalarios por año

En los indicadores de rendimiento cama, grado de uso de cama, y promedio de


permanencia hospitalaria se mantienen, sin embargo en comparación a los
estándares nacionales, dichos indicadores hospitalarios son todavía muy bajos y
requieren ser mejorados. En cuanto al número de partos hospitalarios ha tenido el

7
mismo comportamiento que el resto de indicadores: Ha disminuido la tendencia en
los años 2010 y 2011 en comparación al año 2009.

ATENCIONES EN CONSULTORIOS EXTERNOS POR AÑOS


DEPARTAMENTOS AÑOS
N° /SERVICIOS 2004 2005 2006 2007 2008 2009 2010 2011
TOTAL 43326 43867 42825 43203 44048 39943 38167 37526
1 DPTO MEDICINA 15747 14202 13695 19459 19088 17300 16162 16453
Medicina General 9765 9425 9026 10470 8882 8382 6234 6386
Dermatología 2534 2861 3041 3246 3528 3150 3192 3033
Gastroenterología 1177 1352 1628 1389 1643 1424 1411 1463
Neurología 676 564 0 0 1260 1153 1056 1314
Neumología 1595 0 0 0 0 0 1900 0
Medicina Interna 0 0 0 2990 2167 1979 938 3026
Cardiología 0 0 0 1364 1608 1212 1431 1231
2 DPTO. DE CIRUGIA 14011 15208 17040 13392 14826 12315 11050 10451
Cirugia General 3192 2998 2428 2550 2673 2726 2939 3065
Urología 572 716 363 658 1000 245 0 0
Traumatología 1914 2434 2573 2851 3167 3712 3548 3719
Otorrino 4720 5409 6754 4895 4729 3494 3266 3214
Laringología
Oftalmología 3388 3513 4783 2269 3116 1914 1075 0
Cirugía Plástica 225 138 139 169 141 224 222 221
Neurocirugía 0 0 0 0 0 0 0 232
3 DDPTO.PEDIATRIA 7537 9045 8439 5404 4909 5187 5757 5332
4 GCO.OBSTETRICIA 6031 5412 3651 4948 5225 5141 5198 5290
Fuente Oficina de estadística e informática del Hospital Regional Docente Materno Infantil El Carmen

Tabla Nº 1.2 Atenciones en consultorios externos

El número de atenciones en consulta externa, según años en el Hospital Regional


Docente Materno Infantil “El Carmen”, hasta el año 2007, se ha mantenido en un
promedio de 43, 000 atenciones; sin embargo a partir del año 2009, dicho número
de atenciones ha disminuido en un promedio de 4 mil por año, siendo los servicios
de cirugía y pediatría que han mostrado mayor disminución de atenciones.

8
CONCENTRACION EN CONSULTORIOS EXTERNOS POR DPTOS. Y SERVICIOS
HOSPITAL REGIONAL DOCENTE MATERNO INFANTIL “EL CARMEN” HUANCAYO
AÑOS
DPTOS/ SERVICIOS
N° 2008 2009 2010 2011
TOTAL 1.5 1.6 1.8 1.5
1 DPTO MEDICINA
Medicina General 1.3 1.3 1.4 1.4
Dermatología 1.9 1.7 1.9 2.1
Gastroenterología 1 1 1 1
Neurología 1.4 1.4 1.4 1.4
Neumología 0 0 2.1 1.9
Medicina Interna 0 0 1 1.4
Cardiología 1.9 1.8 1.9 2.1
2 DPTO. DE CIRUGIA
Cirugia General 1.7 1.7 1.8 1.6
Urología 0 1.6 0 0
Traumatología 1.9 1.9 2 1.8
Otorrino Laringología 1.6 1.7 1.7 1.5
Oftalmología 1.2 1.2 1.2 0
Cirugía Plástica 1.4 1.4 1.4 1.4
Neurocirugía 0 0 0 1.6
3 DPTO.PEDIATRIA 2.1 1.9 2.1 2.3
4 GCO.OBSTETRICIA 3.1 4.1 3.4 1.9
Fuente Oficina de estadística e informática del Hospital Regional Docente Materno Infantil El Carmen

Tabla Nº 1.3 Concentración en consultorios externos

La concentración de consulta externa a través de los años muestra en el


Departamento de Medicina una tendencia a mantenerse con cambios no
significativos; sin embargo en el Departamento de Gíneco - Obstetricia se ha
observado una notoria disminución en el año 2011, en relación a los años 2009 y
2010. Sin embargo en promedio el Hospital tiene una concentración de consultas
de 1.6 que significa que cada usuario no llega a recibir en promedio ni siquiera
dos consultas. El rendimiento hora medico según lo programado en el Hospital
Regional Docente Materno Infantil “El Carmen”, está muy por debajo del estándar
9
que es 4 consultas por hora; en el Hospital en el año 2011; el único servicio que
supera los 1 paciente por hora es el servicio de Medicina General, Medicina
Interna y el Servicio de Otorrinolaringología muestra un rendimiento de un
paciente por hora, sin embargo en los otros Servicios muestran rendimientos de
hasta 0.2 pacientes por hora como en el caso de Cirugía Plástica y Neurocirugía.

PRODUCTIVIDAD EN CONSULTAS EXTERNAS POR AÑOS

DEPARTAMENTOS Horas
Productividad
N° /SERVICIOS 2007 2008 2009 2010 2011 Programadas

TOTAL 43203 44048 39943 38167 37526 51756 0.7


1 DPTO MEDICINA 19459 19088 17300 16162 16453 16144 1.0
Medicina General 10470 8882 8382 6234 6386 3376 1.9
Dermatología 3246 3528 3150 3192 3033 3344 0.9
Gastroenterología 1389 1643 1424 1411 1463 1680 0.9
Neurología 0 1260 1153 1056 1314 1656 0.8
Neumología 0 0 0 1900 0 1104 0.0
Medicina Interna 2990 2167 1979 938 3026 1656 1.8
Cardiología 1364 1608 1212 1431 1231 3328 0.4
2 DPTO. DE CIRUGIA 13392 14826 12315 11050 10451 18816 0.6
Cirugía General 2550 2673 2726 2939 3065 9968 0.3
Urología 658 1000 245 0 0 2345 0.0
Traumatología 2851 3167 3712 3548 3719 4440 0.8
Otorrino 4895 4729 3494 3266 3214 3296
Laringología 1.0
Oftalmología 2269 3116 1914 1075 0 1240 0.0
Cirugía Plástica 169 141 224 222 221 1112 0.2
Neurocirugía 0 0 0 0 232 1270 0.2
3 DDPTO.PEDIATRIA 5404 4909 5187 5757 5332 7768 0.7
4 GCO.OBSTETRICIA 4948 5225 5141 5198 5290 9028 0.6
Fuente Oficina de estadística e informática del Hospital Regional Docente Materno Infantil El Carmen

Tabla Nº 1.4 Productividad en consultas externas por años.

Como podemos apreciar existe un problema fundamental que es la disminución


gradual de los usuarios externos que acuden a una consulta médica en el Hospital
10
Regional Docente Materno Infantil “El Carmen”. Entonces la interrogante que
surge es ¿Cuáles son los factores que determinan el comportamiento de las
atenciones médicas realizadas al usuario externo en los diferentes consultorios
del Hospital Regional Docente Materno Infantil “El Carmen”?

1.2.1. Problema General


¿Cuáles son los factores que determinan el comportamiento de las
atenciones médicas realizadas al usuario externo, los que permiten
incrementar las atenciones en el Hospital Regional Docente Materno
Infantil - El Carmen?

1.2.2. Problemas específicos


¿Cuáles son los factores que permiten mejorar los indicadores de
atención en una consulta médica al usuario externo en el Hospital
Regional Docente Materno Infantil - El Carmen en relación a los que
propone la Organización Mundial de la Salud?

¿Cuáles son los criterios que el usuario externo considera relevante cada
vez que recibe una atención médica los cuales permitan incrementar el
número de atenciones en consultorios externos en el Hospital Regional
Docente Materno Infantil - El Carmen?

¿Qué modelo de comportamiento permite determinar los factores que


influyen en la variación del número de atenciones médicas realizadas al
usuario externo del Hospital Regional Docente Materno Infantil - El
Carmen?

1.3. Justificación
1.3.1. Justificación Teórica
La presente investigación se justifica por que proporcionará todo el
fundamento teórico - práctico referido al uso de minería de datos con
modelos de redes neuronales artificiales en la identificación de los
factores relacionados con las atenciones médicas al usuario externo en
consultorios externos del Hospital Regional Docente Materno Infantil - El
Carmen.
11
1.3.2. Justificación Práctica
Esta investigación es necesaria para los responsables de la toma de
decisiones en el Hospital Regional Docente Materno Infantil - El Carmen,
porque permitirá revertir la tendencia decreciente de la cantidad de
atenciones que ha tenido en los últimos años.

1.3.3. Relevancia
1.3.3.1. Relevancia económica
Este proyecto es relevante económicamente porque permitirá
incrementar los ingresos económicos del Hospital Regional Docente
Materno Infantil - El Carmen; por las atenciones prestadas a los
usuarios externos.

1.3.3.2. Relevancia social


El proyecto tiene relevancia social por que permitirá mejorar los
indicadores de atención en consultorios externos en relación a los
estándares de la OMS que brindan los médicos para beneficiar a
los usuarios externos del Hospital Regional Docente Materno
Infantil - El Carmen.

1.3.4. Delimitación espacial temporal


1.3.4.1. Delimitación espacial
La investigación se delimita exclusivamente al Hospital Regional
Docente Materno Infantil - El Carmen ubicado en la provincia de
Huancayo y en particular a todos los servicios de consultorios
externos.

1.3.4.2. Delimitación temporal


El tiempo de dedicación de la investigación es parcial y limitado
durante el tercer trimestre del año 2011 para el análisis de datos,
con información histórica del sistema HIS de los últimos 10 años. Y
la aplicación de los resultados durante el año 2012, realizando la
evaluación de los resultados el primer trimestre del año 2013.

12
1.4. Referencia Teórica
1.4.1. Antecedentes
En los últimos años se ha consolidado un nuevo campo dentro de las
ciencias de la computación que abarca un conjunto de metodologías
caracterizadas por su inspiración en los sistemas biológicos para resolver
problemas relacionados con el mundo real (reconocimiento de formas,
toma de decisiones, etc.), ofreciendo soluciones robustas y de fácil
implementación. Esta nueva forma de procesamiento de la información ha
sido denominada Computación Soft, para distinguirla del enfoque
algorítmico tradicional determinado por el binomio lógica booleana-
arquitectura Von Neumann que, en este caso, sería la Computación Hard.
Este conjunto de metodologías emergentes comprende la lógica borrosa ó
difusa, las redes neuronales, el razonamiento aproximado, los algoritmos
genéticos, la teoría del caos y la teoría del aprendizaje.

De entre estas metodologías, las Redes Neuronales Artificiales son las que
actualmente están causando un mayor impacto, debido a su extraordinaria
aplicabilidad práctica. Recientemente esta tecnología ha captado la
atención de los profesionales dedicados a la estadística y al análisis de
datos, los cuales comienzan a incorporar las redes neuronales al conjunto
de herramientas estadísticas orientadas a la clasificación de patrones y la
estimación de variables continuas.1

La tecnología moderna permite la creación de grandes almacenes de datos


(crudos) que requieren ser explorados en búsqueda de información
refinada (conocimiento). Desarrollar agentes que permitan procesar estos
grandes volúmenes de datos y convertirlos en conocimiento útil para la
toma de decisiones (inteligencia), constituye un reto. Nuevas disciplinas
han emergido para abordar este problema: Descubrimiento de
Conocimiento (Knowledge Discovery), Minería de Datos (Data Mining),
Análisis Inteligente de Datos (Inteligent Data Análisis), Análisis Exploratorio
de Datos (Exploratory Data Análisis). Estas disciplinas se basan en
métodos de la Matemática y de la Inteligencia Artificial para acometer esta

1
Montaño Moreno, Juan José. Redes Neuronales Artificiales aplicadas al Análisis de Datos [Tesis
Doctoral]. Palma de Mayorca, Editorial : Universitat De Les Illes Balears, 2002.
13
nueva problemática. Las tecnologías desarrolladas para el procesamiento
de la información han tenido un impacto revolucionario en la industria, en el
mundo de los negocios y en la prestación de servicios. Hoy en día existe
una gran variedad de sistemas de software comerciales que se basan en
las técnicas del Análisis Inteligente de Datos para llevar a cabo tareas
como: planeación económica, vigilancia e inteligencia empresarial, análisis
financiero, análisis de comportamiento, análisis de mercados y análisis de
perfiles de usuarios.

El descubrimiento de conocimiento en bases de datos de información


científica puede ser entendido como un proceso que implica la realización
de una secuencia básica de tareas como por ejemplo la comprensión del
campo de aplicación, visualización e interpretación de resultados, la
evaluación y reporte de resultados.

Este proceso de descubrimiento de conocimiento es iterativo e interactivo y


tiene al análisis inteligente de datos como una de sus principales etapas. El
análisis inteligente de datos integra métodos estadísticos con métodos de
“aprendizaje maquina”, y en particular redes neuronales, para llevar a cabo
el proceso de análisis exploratorio de datos. Consultar el conocimiento y la
experiencia de los expertos es una fase importante del ciclo de análisis.
Estos deben participar interactivamente en el proceso de interpretación,
visualización, evaluación y reporte de resultados.

Inspirados en la anatomía y fisiología del cerebro humano, las Redes


Neuronales Artificiales (RNA) son modelos matemáticos que permiten
2
hacer computación inteligente y llevar a cabo tareas que las
computadoras seriales no pueden realizar: reconocimiento de patrones,
memorias y aprendizaje asociativo, control adaptivo, predicción de series
de tiempo, clasificación de señales, entre otras.

2
M.V. Guzmán, H. Carrillo, E. Villaseñor, E. Valencia , R. Calero. Minería de Datos con Redes
Neuronales Artificiales: Aplicación en Vacunas – Tuberculosis. Laboratorio de Dinámica no Lineal,
Facultad de Ciencias, UNAM, México. 2004
14
En una computadora neuronal el procesamiento es distribuido a toda una
red de procesadores denominados “neuronas” que realizan el cómputo en
paralelo. La propiedad de distribución y la capacidad de paralelizar los
procesos determinan las nuevas capacidades implicadas en el paradigma
neuronal. Desde el punto de vista del análisis inteligente de datos, el
procesamiento paralelo y distribuido es muy importante porque permite que
las redes neuronales sean capaces de llevar a cabo el procesamiento de
datos a una escala masiva.

El SOM (Self-Organizing Map) es un eficiente algoritmo neuronal (no


supervisado) que permite proyección de datos que habitan en un espacio
multidimensional, a una retícula bidimensional denominada “mapa”,
preservando cualitativamente la organización (topología) del conjunto
original.

Desde que el SOM fue introducido por T. Kohonen en el año 1982, sobre
este algoritmo se han producido una gran cantidad de artículos de
investigación, y basados en él, se han desarrollado diversas aplicaciones
de software para el análisis inteligente de datos, que han sido aplicadas a
la solución de una gran variedad de problemas.

Un ejemplo notable dentro del conjunto de herramientas de software que


usan el SOM, es el sistema Viscovery SOMine, de la compañía austriaca,
Eudaptics Sofware Company. Este sistema tiene una interfaz amigable e
interactiva con el usuario, que facilita la generación automática de “mapas
de conocimiento”.3

El análisis inteligente de datos se va más allá de la obtención de modelos


con fines únicamente descriptivos. Se pretende llegar a generar modelos
que permitan predecir el comportamiento de nuevos casos en una
determinada variable de salida, gracias a un proceso de aprendizaje
supervisado de las características de los datos analizados. Se habla, en

3
M.V. Guzmán, H. Carrillo, E. Villaseñor, E. Valencia , R. Calero. Minería de Datos con Redes
Neuronales Artificiales: Aplicación en Vacunas – Tuberculosis. Laboratorio de Dinámica no Lineal,
Facultad de Ciencias, UNAM, México. 2004
15
este caso, de la obtención de modelos con fines predictivos, destacando
para ello las redes neuronales artificiales y los árboles de decisión.

El propósito del análisis inteligente de datos, por tanto, consiste en producir


nuevo conocimiento sobre el que pueda actuar el usuario. Ello se consigue
con la construcción de un modelo basado en la realidad representada en
los datos analizados. El resultado de la generación del modelo es una
descripción de las estructuras detectadas, las cuales pueden ser utilizadas
para realizar predicciones, para estudiar el comportamiento de nuevos
elementos procedentes de la misma realidad.

Entre las técnicas de modelado dirigidas a la consecución de modelos


predictivos, las redes neuronales artificiales es considerado como una
técnica potente, en cuanto a capacidad de manipulación de parámetros.
Las RNA (redes neuronales artificiales) ofrecen un medio eficiente para
modelar problemas complejos en los que existen cientos de variables de
predicción en las que se dan multitud de interacciones. Pueden ser
utilizadas en problemas de clasificación (la variable de salida es cualitativa)
o en predicción (la variable de salida es cuantitativa).4

Otra investigación relacionada con la predicción de la duración de la


estadía de los pacientes en la Unidad de Cuidados Intensivos a su ingreso
a un establecimiento de salud, permite planificar adecuadamente la
atención. Un modelo de estadía basado en múltiples variables de admisión
origina información clínica relevante, como por ejemplo factores de riesgo
o patologías determinantes, y es apropiado para ser tratado por medio de
las redes neuronales artificiales (RNA).

La predicción de la duración de la estadía presenta problemas que se


pueden agrupar en dos categorías: determinación de la gravedad de la
enfermedad de los pacientes que ingresan a la UCI, que intentan
establecer la gravedad de los pacientes en un lapso que abarca desde el

4
Alfonso Palmer, Mauricio Beltrán, Juan José Montaño, Rafael Jiménez, Alberto Sesé y Javier
Franconetti. Aplicaciones de redes neuronales artificiales a datos de la Encuesta de gasto turístico
de las Islas Baleares. Universitat de les Illes Balears. Palma de Mallorca. 2005
16
momento de la admisión hasta las 24 horas siguientes. Cada uno de estos
índices caracteriza adecuadamente el estado fisiológico del paciente,
aunque se han realizado críticas fundadas respecto de la inclusión de
conocimiento clínico en el momento de la admisión, una gran cantidad de
trabajos intentan predecir estadía, usando métodos estadísticos lineales
multivariados. Estos estudios adolecen de una extrema simplificación del
modelo, que exige variables no correlacionadas, limitando el número de
variables y no permitiendo el tratamiento simultáneo de diferentes tipos de
variables (nominales, continuas o binarias). Estos modelos tampoco
consideran las complejas interacciones que existen entre las diferentes
variables. Las dificultades descritas aumentan en el caso de una UCI, por
la diversidad de la patología y por el compromiso de múltiples órganos y
sistemas.

Recientemente se han publicado estudios que utilizaron modelos no


lineales para predecir estadías, como las RNA, pero que están
circunscritos a aplicaciones particulares y de este modo no satisfacen las
exigencias necesarias para el modelado de los casos que requieren las
prestaciones de una UCI.

Una red neuronal artificial es un modelo computacional compuesto de


elementos matemáticos que se han diseñado para realizar
aproximadamente el trabajo que efectúan las neuronas. Está constituida
por una capa que recibe y organiza las entradas, una capa de "neuronas"
intermedia y una capa de "neuronas" de salida, unidas por conexiones que
representan las sinapsis neuronales. Los patrones particulares son
representados por los valores de las conexiones. Las redes neurales
pueden ser entrenadas por un método de cálculo de conexiones
denominado "back-propagation", que es una extensión del método de los
mínimos cuadrados utilizado en la regresión lineal.

En el estudio se utilizaron las variables más relevantes del índice y se


cuantificó la información clínica de admisión, usando las hipótesis
diagnósticas para conformar un nuevo factor (Diagnósticos de Ingreso),
que representó la situación de los pacientes al ingreso, lo que condujo a un
17
proceso de enriquecimiento de los datos por la adición de información
clínica de expertos, que permitió cuantificar los diagnósticos asociados a
cada paciente. Estos procedimientos llevaron a una mejor cobertura de la
información requerida para la predicción de la estadía.

Para optimizar el modelo se utilizó el paradigma de Redes Neuronales


Artificiales multicapa y el algoritmo de aprendizaje "Back propagation", que
permitió utilizar diferentes tipos de variables y representar adecuadamente
las no-linealidades y sinergismos de las condiciones de ingreso de los
pacientes.5

Las Redes Neuronales Artificiales son una alternativa no paramétrica a las


técnicas tradicionales para la medición de la eficiencia técnica. Su ventaja
comparativa se hace patente en contextos donde existan relaciones no
lineales entre las variables y la cantidad de ruido en los datos es
moderada, de tal forma que se pueda detectar la estructura de la función
de producción que subyace bajo los datos observados.

La estimación de la función de producción de un bien o servicio público es


un problema frecuente en el ámbito de la economía pública que tiene
fundamentalmente dos aplicaciones económicas. La primera sería la
predicción de resultados a partir de distintos factores productivos o inputs
con el objeto de planificar e implementar políticas públicas; y la segunda,
estrechamente relacionada con la anterior, es la medición de la eficiencia
productiva. Ambos objetivos pretenden, como fin último, ofrecer una
valiosa información al gestor para la posterior toma de decisiones.

Sin embargo, por sus especiales características, el análisis de la eficiencia


con la que actúa el sector público presenta mayores dificultades que para
el ámbito privado. No obstante, los objetivos macroeconómicos de
equilibrio presupuestario, crecimiento económico y contención de precios,
han llevado a los economistas a interesarse detalladamente por la gestión

5
Max Chacón P, Víctor Rocco M, Enrique Morgado A, Enzo Sáez H, Sergio Pliscoff M.
Identificación de los determinantes de la estadía en Unidades de Cuidados Intensivos usando
redes neuronales artificiales. Chile v.130 n.1 Santiago ene. 2010.
18
del gasto público, desarrollándose así en los últimos años campos como la
economía de la defensa, de la sanidad, del transporte o de la educación.

En cuanto a las dificultades en la estimación de funciones de producción


pública y siguiendo a Albi (1992), en primer lugar los objetivos públicos son
múltiples, complejos y en ocasiones difusos y no claramente definidos.
Además, los bienes y servicios que produce el sector público se valoran
generalmente sólo por sus costes, ya que en bastantes casos la
actuación pública carece de mercados en competencia perfecta que
determinen los precios. Por otro lado, la utilización de los precios de
mercado no sería siempre la adecuada en el sector público. En un análisis
de la eficiencia pública, los precios deben reflejar el “valor social” de los
recursos y la producción. Aunque teóricamente el precio de un mercado
competitivo debe aproximarse al coste marginal del bien y éste reflejar su
valoración social, en la práctica cabe encontrar divergencias a este
principio.

Ejemplos de estas divergencias son los efectos externos, los bienes


públicos, las imperfecciones del mercado o los impuestos. El criterio de
rentabilidad privada no se puede usar sin tener en cuenta otros
parámetros en la actividad pública. Una empresa rentable que
contamina puede dejar de obtener beneficios si se considera un coste el
efecto externo negativo que origina. Una empresa municipal de transporte
urbano que aplique sus tarifas de acuerdo a sus costes medios, puede
presentar pérdidas financieras que se tornen en beneficios desde el punto
de vista de la sociedad y de los efectos externos positivos obtenidos, en la
descongestión del tráfico y el ahorro de tiempo y aumento de horas de
trabajo que genera.

De igual manera y tal y como señala Albi (2000) “Las políticas públicas
tienen procedimientos de aplicación complejos y plantean dificultades
políticas, económicas y burocráticas. La intervención pública se desarrolla
a lo largo del tiempo, dentro de una realidad social, y su gestión, desde la
toma de decisiones hasta la ejecución de las mismas, presenta

19
complicaciones que ponen en peligro la eficiencia y la equidad necesarias
para el bienestar social”.6

1.5. Objetivos
1.5.1. Objetivo General
Determinar los factores que influyen en el comportamiento de las
atenciones médicas realizadas al usuario externo, los que permiten
incrementar las atenciones en el Hospital Regional Docente Materno
Infantil - El Carmen.

1.5.2. Objetivos Específicos


Identificar los factores que permiten mejorar los indicadores de atención
en una consulta médica al usuario externo en el Hospital Regional
Docente Materno Infantil - El Carmen en relación a los que propone la
Organización Mundial de la Salud.

Identificar los criterios que el usuario externo considera relevante cada vez
que recibe una atención médica los cuales permitan incrementar el número
de atenciones en consultorios externos en el Hospital Regional Docente
Materno Infantil - El Carmen.

Determinar un modelo de comportamiento que permita determinar los


factores que influyen en la variación del número de atenciones médicas
realizadas al usuario externo del Hospital Regional Docente Materno
Infantil - El Carmen.

1.6. Hipótesis
1.6.1. Hipótesis General
Los factores que determinan el comportamiento de las atenciones médicas
en los consultorios externos del Hospital Regional Docente Materno Infantil
- El Carmen son la atención médico-paciente y la condición social-
económica del paciente.
6
Daniel Santín González. Eficiencia Técnica y redes neuronales: un modelo para el cálculo del
valor añadido en educación. Universidad Complutense de Madrid. Madrid - 2003.
20
1.6.2. Hipótesis Específicas
Si el personal de salud atiende una consulta médica considerando los
estándares de atención que propone la Organización Mundial de la salud
tales como tiempo de espera y tiempo de atención entonces mejorará los
indicadores de consultorios externos externo.

La atención de los servicios de salud teniendo en cuenta los criterios de


atención relevantes del usuario externo como el tipo de financiamiento
incrementan el número de atenciones en consultorios externos.

El modelo de comportamiento de red neuronal aplicado al análisis de datos


determina los factores que influyen en la variación del número de
atenciones médicas realizadas al usuario externo del Hospital Regional
Docente Materno Infantil - El Carmen.

1.6.3. Operacionalización de variables e indicadores de las hipótesis

1.6.3.1. Variables

Variable Independiente: atención médico-paciente y condición


social-económica del paciente.
Variable Dependiente: Atenciones médicas en consultorios
externos.

1.6.3.2. Operacionalización de las Variables


AMCE = F(AMP,CSEP)
AMCE : Atenciones médicas en consultorios externos.
AMP : Atención médico – paciente.
CSEP : Condición social – económica del paciente.
1.6.3.3. Indicadores
Variables Independientes:
Atención Médico – Paciente (AMP)
Tiempo de espera para la consulta médica.
Tiempo de consulta médica.
21
Condición Socio – Económica del Paciente (CSEP).
Financiamiento de la consulta.
Variables Dependientes – AMCE
Productividad en consultorios externos.
Concentración en consultorios externos.
Número de consultas médicas.

Unidad de
Variable Descripción Indicador
medida

AMCE : Atención La atención médica Número de Usuario externo


médica en se cuantifica en consultas atendido.
consultorios según el número de médicas.
Ratio de
externos. consultas médicas
Productividad en productividad.
por consultorio,
consultorios
Ratio de
según ratios de
externos.
concentración
productividad y
Concentración en
según ratios de
consultorios
concentración.
externos.

AMP : Atención Variable que Oportunidad: Tiempo de espera


médico – paciente. considera estándar Tiempo de espera para la consulta
de la OMS en médica.
Tiempo de
relación a la
atención. Tiempo de
atención médico-
atención médica.
paciente.

CSEP : Condición Variable que Accesibilidad: Número


social – económico considera estándar Condición socio Atenciones por
del paciente. de la OMS en económica Fuente de
relación a la Financiamiento.
condición socio
económica del
paciente.

Tabla 1.5 Variables e indicadores

22
1.7. Diseño Metodológico
1.7.1. Tipo y nivel de la investigación
Considerando el problema planteado en el presente trabajo, la
investigación a realizar es de tipo correlacional - causal, ya que mediante
el uso de un modelo de red neuronal artificial se determinaran los factores
que determinan el comportamiento de las atenciones médicas en los
consultorios externos del Hospital Regional Docente Materno Infantil - El
Carmen.

1.7.2. Elección del Diseño Básico de investigación


El tipo de diseño a utilizar es el cuasi experimental y transeccional, ya que
se ejercerá control sobre variables a evaluar en un periodo de tiempo; los
sujetos participantes de la investigación será en base a información de
todos los pacientes que fueron atendidos en consultorios externos a la
fecha de aplicación del modelo de red neuronal.

1.7.3. Definición de las unidades de análisis


Las unidades de análisis están conformadas por todos los consultorios
externos que brindan una atención médica a los usuarios externos del
Hospital Regional Docente Materno Infantil El Carmen.

1.7.4. Técnicas de recolección de información


Para la presente investigación se utilizará todos los registros del sistema
de información HIS del Ministerio de Salud aplicado al Hospital Regional
Docente Materno Infantil El Carmen; en el que se registran datos
relacionados al paciente en su totalidad y datos de la atención médica.

1.7.5. Cobertura de las técnicas. Universo y Muestra


Universo: Todos los usuarios externos que acuden a solicitar una consulta
médica.
Muestra : De acuerdo a la naturaleza de la investigación y sobre todo de
las herramientas de análisis de datos que se utilizaran, no se
estima muestra alguna, ya que se utilizara el total de
atenciones a fin de definir modelos de comportamiento

23
utilizando el modelo de análisis de datos de redes neuronales
artificiales; incluso para la validación de las hipótesis.

1.7.6. Técnicas de análisis de los datos


Para realizar el tratamiento y análisis de la información haremos uso de
herramientas como:
 Análisis inteligente de datos con redes neuronales artificiales.
 Herramientas estadísticas basadas en normas técnicas de salud
para evaluar los resultados luego de ser aplicados los modelos
implementados en la investigación.

1.7.7. Fuentes de información


Fuentes primarias:
 Encuestas realizadas a los usuarios externos.
 Datos históricos de los sistemas de información de salud HIS.
 Indicadores de gestión de salud del Hospital el Carmen.
 Entrevistas en profundidad y observación participativa.

Fuentes secundarias:
 Información estadística de salud del I.N.E.I.
 Datos históricos del sistema de información HIS de otras
dependencias de salud.

24
CAPITULO II
MARCO TEORICO
2.1 Estado del arte
2.1.1 Descubrimiento de Conocimiento en Bases de Datos (KDD)
En los últimos años, ha existido un gran crecimiento en nuestras
capacidades de generar y reunir datos, debido básicamente a la gran
capacidad de procesamiento de las computadoras como también a su bajo
costo de almacenamiento. Sin embargo, dentro de estas enormes masas
de datos existe una gran cantidad de información oculta, de gran
importancia estratégica, a la que no se puede acceder por las técnicas
clásicas de recuperación de la información.

El descubrimiento de esta información oculta es posible gracias a la


Minería de Datos (Data Mining), que entre otras sofisticadas técnicas
aplica la inteligencia artificial para encontrar patrones y relaciones dentro
de los datos, permitiendo la creación de modelos, es decir,
representaciones abstractas de la realidad, pero es el descubrimiento del
conocimiento o KDD (por sus siglas en inglés Knowledge Discovery in
Databases) que se encarga de la preparación de los datos y la
interpretación de los resultados obtenidos, los cuales dan un significado a
estos patrones encontrados. Así el valor real de los datos reside en la
información que se puede extraer de ellos, información que ayude a tomar
decisiones o mejorar nuestra comprensión de los fenómenos que nos
rodean. Hoy, más que nunca, los métodos analíticos avanzados son el
arma secreta de muchos negocios exitosos.

25
Empleando métodos analíticos avanzados para la explotación de datos, los
negocios incrementan sus ganancias, maximizan la eficiencia operativa,
reducen costos y mejoran la satisfacción del cliente.

2.1.2 Concepto del KDD


De forma general, los datos son la materia prima. En el momento que el
usuario les atribuye algún significado especial pasan a convertirse en
información. Cuando los especialistas elaboran o encuentran un modelo,
haciendo que la interpretación de la información y ese modelo representen
un valor agregado, entonces nos referimos al conocimiento.

Figura Nº 2.1: Jerarquía del Conocimiento.

En la figura 2.1 se ilustra la jerarquía que existe en una base de datos


entre los datos, información y conocimiento. Se observa igualmente el
volumen que presenta en cada nivel y el valor que los responsables de las
decisiones le dan en esa jerarquía. El área interna dentro del triángulo
representa los objetivos que se han propuesto. La separación del triángulo
representa la estrecha unión entre dato e información, no así entre la
información y el conocimiento.

La capacidad de generar y almacenar información creció


considerablemente en los últimos tiempos, se ha estimado que la cantidad
de datos en el mundo almacenados en bases de datos se duplica cada 20
meses. Es así que hoy en las organizaciones se tienen grandes cantidades

26
de datos almacenados y organizados, pero a los cuales no se analizar
eficientemente en su totalidad.

Con las sentencias del lenguaje de consulta estructurado o SQL (por sus
siglas en inglés structured query language) se puede realizar un primer
análisis, aproximadamente el 80% de la información se obtiene con estas
técnicas. El 20% restante, que la mayoría de las veces, contiene la
información más importante, requiere la utilización de técnicas más
avanzadas. El Descubrimiento de Conocimiento en Bases de Datos (KDD)
apunta a procesar automáticamente grandes cantidades de datos para
encontrar conocimiento útil en ellos, de esta manera permitirá al usuario el
uso de esta información valiosa para su conveniencia.

El KDD es el Proceso de identificar patrones válidos, novedosos,


potencialmente útiles y, en última instancia, comprensibles a partir de los
datos. El objetivo fundamental del KDD es encontrar conocimiento útil,
válido, relevante y nuevo sobre un fenómeno o actividad mediante
algoritmos eficientes, dadas las crecientes órdenes de magnitud en los
datos. Al mismo tiempo hay un profundo interés por presentar los
resultados de manera visual o al menos de manera que su interpretación
sea muy clara. Otro aspecto es que la interacción humano-máquina deberá
ser flexible, dinámica y colaboradora. El resultado de la exploración deberá
ser interesante y su calidad no debe ser afectada por mayores volúmenes
de datos o por ruido en los datos. En este sentido, los algoritmos de
descubrimiento de información deben ser altamente robustos.

2.1.3 Metas de KDD


Las metas principales que tiene en descubrimiento de conocimiento en
datos - KDD son:

 Procesar automáticamente grandes cantidades de datos.


 Identificar los patrones más significativos y relevantes.
 Presentarlos como conocimiento apropiado para satisfacer las
necesidades del usuario.

27
2.1.4 Relación con otras disciplinas
Es importante describir la relación que se tiene KDD con otras disciplinas,
como por ejemplo:

 Sistemas de información / bases de datos: tecnologías de bases de


datos y almacenes de datos, maneras eficientes de almacenar,
procesar, accesar y manipular datos.
 Estadística, aprendizaje autónomo / IA (redes neuronales, lógica
difusa, algoritmos genéticos, razonamiento probabilístico):
desarrollo de técnicas para extraer conocimiento a partir de datos.
 Reconocimiento de patrones: desarrollo de herramientas de
clasificación.
 Visualización de datos: interfaz entre humanos y datos, y entre
humanos y patrones.
 Computación paralela / distribuida: cómputo de alto desempeño,
mejora de desempeño de algoritmos debido a su complejidad y a la
cantidad de datos.
 Interfaces de lenguaje natural a bases de datos.

2.1.5 El proceso de KDD


El proceso de KDD consiste en usar métodos de minería de datos
(algoritmos) para extraer (identificar) lo que se considera como
conocimiento de acuerdo a la especificación de ciertos parámetros usando
una base de datos junto con pre-procesamientos y post-procesamientos.

Figura Nº 2.2: Proceso de KDD

28
En la figura 2.2 de se ilustra el proceso de KDD. Se estima que la
extracción de patrones (minería) de los datos ocupa solo el 15% - 20% del
esfuerzo total del proceso de KDD.

El proceso de descubrimiento de conocimiento en bases de datos involucra


varios pasos:

 Determinar las fuentes de información: que pueden ser útiles y


dónde conseguirlas.
 Diseñar el esquema de un almacén de datos (Data Warehouse):
que consiga unificar de manera operativa toda la información
recogida.
 Implantación del almacén de datos: que permita la navegación y
visualización previa de sus datos, para discernir qué aspectos
puede interesar que sean estudiados. Esta es la etapa que puede
llegar a consumir el mayor tiempo.
 Selección, limpieza y transformación de los datos que se van a
analizar: la selección incluye tanto una criba o fusión horizontal
(filas) como vertical (atributos).La limpieza y pre procesamiento de
datos se logra diseñando una estrategia adecuada para manejar
ruido, valores incompletos, secuencias de tiempo, casos extremos
(si es necesario), etc.
 Seleccionar y aplicar el método de minería de datos apropiado:
esto incluye la selección de la tarea de descubrimiento a realizar,
por ejemplo, clasificación, agrupamiento o clustering, regresión, etc.
La selección de él o de los algoritmos a utilizar. La transformación
de los datos al formato requerido por el algoritmo específico de
minería de datos. Y llevar a cabo el proceso de minería de datos,
se buscan patrones que puedan expresarse como un modelo o
simplemente que expresen dependencias de los datos, el modelo
encontrado depende de su función (clasificación) y de su forma de
representarlo (árboles de decisión, reglas, etc.), se tiene que
especificar un criterio de preferencia para seleccionar un modelo
dentro de un conjunto posible de modelos, se tiene que especificar
29
la estrategia de búsqueda a utilizar (normalmente está
predeterminada en el algoritmo de minería)
 Evaluación, interpretación, transformación y representación de
los patrones extraídos: Interpretar los resultados y posiblemente
regresar a los pasos anteriores. Esto puede involucrar repetir el
proceso, quizás con otros datos, otros algoritmos, otras metas y
otras estrategias. Este es un paso crucial en donde se requiere
tener conocimiento del dominio. La interpretación puede
beneficiarse de procesos de visualización, y sirve también para
borrar patrones redundantes o irrelevantes.
 Difusión y uso del nuevo conocimiento: Incorporar el
conocimiento descubierto al sistema (normalmente para mejorarlo)
lo cual puede incluir resolver conflictos potenciales con el
conocimiento existente. El conocimiento se obtiene para realizar
acciones, ya sea incorporándolo dentro de un sistema de
desempeño o simplemente para almacenarlo y reportarlo a las
personas interesadas.

En este sentido, KDD implica un proceso interactivo e iterativo


involucrando la aplicación de varios algoritmos de minería de datos.

2.2 Minería de Datos – Data Mining


Aunque desde un punto de vista académico el término data mining es una etapa
dentro de un proceso mayor llamado extracción de conocimiento en bases de
datos, en el entorno comercial, así como en este trabajo, ambos términos se usan
de manera indistinta. Lo que en verdad hace el data mining es reunir las ventajas
de varias áreas como la Estadística, la Inteligencia Artificial, la Computación
Gráfica, las Bases de Datos y el Procesamiento Masivo, principalmente usando
como materia prima las bases de datos. Una definición tradicional es la siguiente:
Un proceso no trivial de identificación válida, novedosa, potencialmente útil y
entendible de patrones comprensibles que se encuentran ocultos en los datos
(Fayyad y otros, 1996). Desde el punto de vista empresarial, lo definimos como:
La integración de un conjunto de áreas que tienen como propósito la identificación
de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo
hacia la toma de decisión (Molina y otros, 2001).
30
La idea de data mining no es nueva. Ya desde los años sesenta los estadísticos
manejaban términos como data fishing, data mining o data archaeology con la
idea de encontrar correlaciones sin una hipótesis previa en bases de datos. A
principios de los años ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y
Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los términos de
data mining y KDD. A finales de los años ochenta sólo existían un par de
empresas dedicadas a esta tecnología; en 2002 existen más de 100 empresas en
el mundo que ofrecen alrededor de 300 soluciones.

Las listas de discusión sobre este tema las forman investigadores de más de
ochenta países. Esta tecnología ha sido un buen punto de encuentro entre
personas pertenecientes al ámbito académico y al de los negocios. Minería de
datos es una tecnología compuesta por etapas que integra varias áreas y que no
se debe confundir con un gran software. Durante el desarrollo de un proyecto de
este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser
estadísticas, de visualización de datos o de inteligencia artificial, principalmente.

Actualmente existen aplicaciones o herramientas comerciales de data mining muy


poderosas que contienen un sinfín de utilerías que facilitan el desarrollo de un
proyecto. Sin embargo, casi siempre acaban complementándose con otra
herramienta. La Minería de Datos es la etapa de descubrimiento en el proceso de
KDD: Paso consistente en el uso de algoritmos concretos que generan una
enumeración de patrones a partir de los datos pre procesados (Fayyad, 1996)
Aunque se suelen usar indistintamente los términos KDD y Minería de Datos.

2.2.1 Fundamentos del Data Mining


Las técnicas de data mining son el resultado de un largo proceso de
investigación y desarrollo de productos. Esta evolución comenzó cuando
los datos de negocios fueron almacenados por primera vez en
computadoras, y continuó con mejoras en el acceso a los datos, y más
recientemente con tecnologías generadas para permitir a los usuarios
navegar a través de los datos en tiempo real. Data mining toma este
proceso de evolución más allá del acceso y navegación retrospectiva de
los datos, hacia la entrega de información prospectiva y proactiva. Data
31
Mining está lista para su aplicación en la comunidad de negocios porque
está soportado por tres tecnologías que ya están suficientemente maduras:

 Recolección masiva de datos.


 Potentes computadoras con multiprocesadores.
 Algoritmos de Data Mining.
 Las bases de datos están creciendo a un ritmo sin precedentes.

Los algoritmos de Data Mining utilizan técnicas que han existido por lo
menos desde hace 10 años, pero que sólo han sido implementadas
recientemente como herramientas maduras, confiables, entendibles que
consistentemente son más performantes que métodos estadísticos
clásicos.

En la evolución desde los datos de negocios a información de negocios,


cada nuevo paso se basa en el previo. Por ejemplo, el acceso a datos
dinámicos es crítico para las aplicaciones de navegación de datos, y la
habilidad para almacenar grandes bases de datos es crítica para data
mining.

Los componentes esenciales de la tecnología de data mining han estado


bajo desarrollo por décadas, en áreas de investigación como estadísticas,
inteligencia artificial y aprendizaje de máquinas. Hoy, la madurez de estas
técnicas, junto con los motores de bases de datos relacionales de alta
performance, hicieron que estas tecnologías fueran prácticas para los
entornos de data warehouse actuales.

2.2.2 Principales características y objetivos de la Minería de Datos


a. Explora los datos que se encuentra en las bases de datos, que
algunas veces contienen información almacenada durante varios
años.
b. El entorno de la minería de datos suele tener una arquitectura
cliente-servidor.

32
c. Las herramientas de la minería de datos ayudan a extraer el
mineral de la información en archivos corporativos o en registros
públicos, archivados
d. El usuario es, muchas veces un usuario final con poca o ninguna
habilidad de programación, para efectuar preguntas adhoc y
obtener rápidamente respuestas.
e. Hurgar y sacudir a menudo implica el descubrimiento de resultados
valiosos e inesperados.
f. Las herramientas de la minería de datos se combinan fácilmente y
pueden analizarse y procesarse rápidamente.
g. Debido a la gran cantidad de datos, algunas veces resulta
necesario usar procesamiento en paralelo para la minería de datos.
h. La minería de datos produce cinco tipos de información:
 Asociaciones.
 Secuencias.
 Clasificaciones.
 Agrupamientos.
 Pronósticos.

i. La minería de datos es un proceso que invierte la dinámica del


método científico en el siguiente sentido:

 En el método científico, primero se formula la hipótesis y luego


se diseña el experimento para coleccionar los datos que
confirmen o refuten la hipótesis. Si esto se hace con la
formalidad adecuada (cuidando cuáles son las variables
controladas y cuáles experimentales), se obtiene un nuevo
conocimiento.
 En la minería de datos, se coleccionan los datos y se espera
que de ellos emerjan hipótesis. Se busca que los datos
describan o indiquen por qué son como son. Luego entonces,
se valida esa hipótesis inspirada por los datos en los datos
mismos, será numéricamente significativa, pero
experimentalmente inválida. De ahí que la minería de datos
debe presentar un enfoque exploratorio, y no confirmador. Usar
33
la minería de datos para confirmar las hipótesis formuladas
puede ser peligroso, pues se está haciendo una inferencia poco
válida.

La minería de datos es una tecnología compuesta por etapas que integra


varias áreas y que no se debe confundir con un gran software. Durante el
desarrollo de un proyecto de este tipo se usan diferentes aplicaciones
software en cada etapa que pueden ser estadísticas, de visualización de
datos o de inteligencia artificial, principalmente. Actualmente existen
aplicaciones o herramientas comerciales de minería de datos muy
poderosas que contienen un sinfín de utilerías que facilitan el desarrollo de
un proyecto. Sin embargo, casi siempre acaban complementándose con
otra herramienta.

2.2.3 El Alcance de Data Mining


El nombre de data mining deriva de las similitudes entre buscar valiosa
información de negocios en grandes bases de datos - por ej.: encontrar
información de la venta de un producto entre grandes montos de Gigabytes
almacenados y minar una montaña para encontrar una veta de metales
valiosos. Ambos procesos requieren examinar una inmensa cantidad de
material, o investigar inteligentemente hasta encontrar exactamente donde
residen los valores. Dadas bases de datos de suficiente tamaño y calidad,
la tecnología de data mining puede generar nuevas oportunidades de
negocios al proveer estas capacidades:

 Predicción automatizada de tendencias y comportamientos.


Data mining automatiza el proceso de encontrar información
predecible en grandes bases de datos. Preguntas que
tradicionalmente requerían un intenso análisis manual, ahora
pueden ser contestadas directa y rápidamente desde los datos. Un
típico ejemplo de problema predecible es el marketing apuntado a
objetivos (targeted marketing). Data mining usa datos en mailing
promocionales anteriores para identificar posibles objetivos para
maximizar los resultados de la inversión en futuros mailing. Otros
problemas predecibles incluyen pronósticos de problemas
34
financieros futuros y otras formas de incumplimiento, e identificar
segmentos de población que probablemente respondan
similarmente a eventos dados.
 Descubrimiento automatizado de modelos previamente
desconocidos. Las herramientas de data mining barren las bases
de datos e identifican modelos previamente escondidos en un sólo
paso. Otros problemas de descubrimiento de modelos incluye
detectar transacciones fraudulentas de tarjetas de créditos e
identificar datos anormales que pueden representar errores de
tipeado en la carga de datos.

Las técnicas de data mining pueden redituar los beneficios de


automatización en las plataformas de hardware y software existentes y
puede ser implementada en sistemas nuevos a medida que las
plataformas existentes se actualicen y nuevos productos sean
desarrollados. Cuando las herramientas de data mining son
implementadas en sistemas de procesamiento paralelo de alta
performance, pueden analizar bases de datos masivas en minutos.
Procesamiento más rápido significa que los usuarios pueden
automáticamente experimentar con más modelos para entender datos
complejos. Alta velocidad hace que sea práctico para los usuarios analizar
inmensas cantidades de datos.

2.2.4 Una arquitectura para Data Mining


Para aplicar mejor estas técnicas avanzadas, éstas deben estar totalmente
integradas con el data warehouse así como con herramientas flexibles e
interactivas para el análisis de negocios. Varias herramientas de data
mining actualmente operan fuera del warehouse, requiriendo pasos extra
para extraer, importar y analizar los datos. Además, cuando nuevos
conceptos requieren implementación operacional, la integración con el
warehouse simplifica la aplicación de los resultados desde data mining. El
data warehouse analítico resultante puede ser aplicado para mejorar
procesos de negocios en toda la organización, en áreas tales como manejo
de campañas promocionales, detección de fraudes, lanzamiento de nuevos
productos, etc.
35
El punto de inicio ideal es un data warehouse que contenga una
combinación de datos de seguimiento interno de todos los clientes junto
con datos externos de mercado acerca de la actividad de los competidores.
Información histórica sobre potenciales clientes también provee una
excelente base para prospecting. Este warehouse puede ser implementado
en una variedad de sistemas de bases relacionales y debe ser optimizado
para un acceso a los datos flexible y rápido.

2.3 Modelos de Data Mining


2.3.1 Data Mining y Clasificación
Uno de los objetivos fundamentales de Data Mining es poder predecir
el valor de una variable predictiva o dependiente en función de los valores
de otras variables llamadas independientes, existentes en una base
de datos. Varios algoritmos realizan este tipo de tareas y pueden
clasificarse como de asociación, clasificación, clustering, etc.

Los clasificadores asignan 'clases' a las instancias de un dataset para


un conjunto de registros con sus correspondientes atributos y una clase
asignada a cada uno de ellos, un clasificador produce descripciones de
las características de los registros de cada clase. Como resultado se
extraen reglas que pueden ser utilizadas para clasificar nuevos
datasets.

2.3.2 Clasificadores
Existen diversos modelos de clasificación entre los que se encuentran los
árboles de decisión, los árboles de regresión, las redes neuronales y los
modelos genéticos. A continuación se definen algunos de estos modelos:

2.3.2.1 Árboles de Decisión.


Un árbol de decisión es un discriminador de clases que,
recursivamente, particiona un conjunto de instancias hasta
que cada partición consista íntegramente, o dominadamente,
de ejemplos de una clase. Cada nodo interno de un árbol
contiene un punto de separación o criterio de partición, el que
consiste de un test sobre uno o más atributos y determina el
36
particionamiento de los datos. Los árboles de decisión representan
reglas.

2.3.2.2 Regresiones Lineales.


Una función de regresión lineal modela la salida de la clasificación
como una combinación lineal de los atributos de entrada. Las
regresiones lineales se utilizan para clasificar datasets con clases
numéricas.

2.3.2.3 Árboles de Regresión.


Un árbol de regresión tiene una estructura similar a la de un
árbol de decisión, pero sus hojas son valores reales en lugar de
identificadores de clases. Al igual que las regresiones lineales,
se utilizan para clasificar datasets con clases numéricas.

2.3.2.4 Redes Neuronales.


Son modelos simples de interconexiones neuronales. Una
neurona artificial simula el proceso de una neurona en el cerebro
humano. Una red neuronal aprende desde un conjunto de
entrenamiento desde el que generaliza patrones para clasificación
y predicción.

2.3.2.5 Algoritmos Genéticos.


Son métodos de optimización combinatoria que se basan en la
simulación de los procesos evolutivos de la naturaleza. Se debe
definir una función objetivo llamada función de fitness y una
representación para los objetos del modelo, normalmente como un
cromosoma. Se aplican diversos operadores: selección, mutación y
crossover (recombinación) a una población inicial, generándose así
nuevos objetos (hijos) que reemplazan a los padres. Los objetos
que "sobreviven" son los que tienen mejores valores de fitness.

2.3.3 Tipos de Reglas


Las reglas extraídas como resultado de la clasificación pueden
ser inferencias conjuntivas (if-then), reglas m-de-n, reglas difusas, etc.
37
2.3.3.1 Reglas If-Then.
Las reglas if-then son expresiones booleanas del tipo:

SI (condición1 Y condición2 Y .... Y condición n son


verdaderas) ENTONCES conclusión es verdadera

Una regla if-then se satisface cuando todas sus condiciones son


satisfechas. Una de las características de las reglas if-then es
que son reglas modulares: cada una define un espacio de
conocimiento relativamente pequeño e independiente.

2.3.3.2. Reglas M-de-N.


Una expresión m-de-n es una expresión Booleana, especificada
por un umbral entero m, y un conjunto de n condiciones
booleanas. Una expresión m-de-n se satisface cuando al menos m
de sus n condiciones son satisfechas:

SI (n de los m antecedentes son verdaderas)


ENTONCES conclusión es verdadera

2.3.3.3. Reglas Difusas.


Las reglas difusas proveen probabilidades de clasificación en lugar
de respuestas del tipo "si/no". Una regla difusa if-then simple
asume la forma:

SI x es A
ENTONCES y es B

Donde A y B son valores definidos por conjuntos difusos


dentro del rango X e Y respectivamente. Por ejemplo, para la
regla:

SI el servicio es bueno
ENTONCES el precio es aceptable
38
El valor "bueno" se representa con un número entre 0 y 1 (el
antecedente es una interpretación que retorna un único valor
entre 0 y 1). Por otro lado, "aceptable" se representa como un
conjunto difuso (el consecuente es una asignación del conjunto
difuso B a la variable de salida y). Aplicando un proceso de
difusión inverso al conjunto difuso se obtiene un único valor de
salida.

2.3.4 Aplicaciones
Ejemplos de aplicación incluyen la clasificación de tendencias en
mercados financieros, diagnóstico y tratamientos médicos, predicción de
respuestas de clientes y la identificación automatizada de objetos de
interés en grandes bases de datos de imágenes. Por ejemplo, para evaluar
el riesgo crediticio se clasifican los aspirantes a un crédito como de riesgo
bajo, medio o alto; en el diagnóstico médico los pacientes se clasifican de
acuerdo a los síntomas como padeciendo una determinada enfermedad,
etc.

2.3.5 Evaluación de un Clasificador


La precisión de la clasificación, definida como el porcentaje de muestras
clasificadas correctamente en las pruebas, constituye la métrica primaria
para evaluar un clasificador. Otras métricas, denominadas secundarias,
son el tiempo de clasificación y la complejidad del modelo extraído, por
ejemplo, el tamaño para un árbol de decisión o la cantidad de
antecedentes para una regla.

2.3.6 Aprendizaje Supervisado


El aprendizaje supervisado es muy útil en data mining ya que al construir
modelos descriptivos de un conjunto de datos se provee una forma de
explorarlos.

En el aprendizaje supervisado, se da al clasificador un conjunto de


instancias de la forma (x, y), donde y representa la variable que el sistema
debe predecir, y x es el vector de valores de los atributos relevantes para
39
determinar y. El objetivo del aprendizaje supervisado es inducir un mapeo
general de vectores x a valores y. O sea, el clasificador debe construir un
modelo y = f(x) de la función f desconocida que permita predecir los
valores y para ejemplos no conocidos previamente.

Los métodos de construcción de árboles y las Redes Neuronales


generalmente utilizan aprendizaje supervisado.

2.3.7 Redes Neuronales


Las Redes Neuronales son colecciones de nodos conectados, con
entradas, salidas y procesamiento en cada nodo. Entre las entradas y las
salidas de la red existe un número de capas ocultas de procesamiento. La
Red Neuronal debe ser entrenada con un conjunto de patrones de
entrenamiento (aprendizaje supervisado). Una vez entrenada es utilizada
para hacer predicciones.

Las redes neuronales se utilizan para clasificación y para reconocimiento


de patrones. Dado un conjunto fijo de ejemplos de entrenamiento, existen
muchos modelos que podrían representar esos datos, y cada algoritmo de
aprendizaje determina alguno de esos modelos.

Para algunos problemas las redes neuronales proveen una mejor


inducción que el resto de los algoritmos. Son, en muchos casos, el método
de aprendizaje preferido porque inducen hipótesis que generalizan mejor
que los otros algoritmos. Varios estudios indican que hay algunos dominios
de problemas donde las redes neuronales proveen mayor precisión
predictiva que los algoritmos de aprendizaje simbólicos comúnmente
utilizados. Existe una gran variedad de arquitecturas y métodos de
aprendizaje de redes neuronales. Los métodos de aprendizaje pueden ser
supervisados o no supervisados.

2.3.8 Redes Neuronales Biológicas


En el cerebro humano, una neurona típica recibe señales de otras
neuronas a través de un conjunto de finas estructuras llamadas dendritas.
La neurona envía picos de actividad eléctrica a través de una fibra nerviosa
40
larga y fina, el axón, que se divide en ramas, conduciendo el pulso a varios
cientos de neuronas. Los contactos de un axón pueden estar localizados
en las dendritas o directamente en el cuerpo de la neurona destino y son
conocidos como sinapsis. Las sinapsis convierten la actividad del axón en
efectos eléctricos que inhiben o excitan la actividad del axón, inhibiendo o
excitando la actividad en las neuronas conectadas.

Figura Nº 2.3 - Componentes de una Neurona

Cuando una neurona recibe una entrada excitada que es lo


suficientemente grande comparada con un cierto valor umbral, envía un
pico de actividad eléctrica a través de su axón. El aprendizaje ocurre por
cambios en la efectividad de las sinapsis que producen que la influencia de
una neurona sobre otra cambie.

Figura Nº 2.4 – Sinapsis

41
2.3.9 Estructura de las Redes Neuronales
Una Red Neuronal Feed-Forward se compone de varias capas de
unidades de procesamiento simple, llamadas neuronas. El estado de una
neurona se representa por su activación, que es un valor numérico real,
típicamente en el rango [0,1] o en el rango [-1,1]. La capa de entrada de
una red contiene neuronas cuyas activaciones representan los valores de
los atributos del dominio donde la red es aplicada.

Generalmente, los atributos numéricos se representan con una neurona


de entrada, y los atributos discretos con n valores posibles se representan
con n neuronas de entrada. Las neuronas de la capa de salida de la red
representan las decisiones tomadas por la red. Entre las neuronas de
entrada y de salida puede existir un número de capas ocultas de
neuronas. Las neuronas se conectan entre sí mediante conexiones de
distintos pesos.

Figura Nº 2.5 - Red Neuronal.

Las neuronas en la capa de entrada representan atributos del dominio. Las


neuronas de la capa de salida representan las predicciones de la red. Las
neuronas de las capas ocultas permiten que la red aprenda y utilice
atributos "derivados".

Una red utilizada para clasificación que solo tiene neuronas de entrada y
salida es capaz de representar únicamente límites de decisión lineales.
Para representar límites más complejos es necesario agregar neuronas
ocultas a la red. El rol de las neuronas ocultas es transformar el espacio
42
de entrada en otro espacio más propicio para que las neuronas de salida
puedan realizar discriminaciones lineales.

La clasificación en una red neuronal Feed-Forward comienza asignando


los valores de activación de las neuronas de entrada correspondientes
para representar una instancia del dominio. La activación de las entradas
avanza a través de las conexiones hacia las neuronas de las capas
ocultas y luego a las neuronas de la capa de salida. La respuesta dada por
la red es determinada por las activaciones resultantes en las neuronas de
salida.

Las redes Feed-Forward permiten que las señales viajen en un único


sentido, desde las neuronas de entrada hacia las neuronas de salida. No
hay feedback entre las neuronas. La entrada de una neurona oculta o de
salida está dada por:

ENi = Σj wijaj + θi

Donde wij es el peso de la conexión de la neurona j con la neurona i, aj es


la activación de la neurona j y θi es el umbral para la neurona i. El umbral
de una neurona, que es un parámetro ajustable, puede definirse como la
predisposición de la neurona a tener una activación alta o baja. La
activación de una neurona oculta o de salida se determina evaluando su
entrada mediante una función de transferencia. Una función comúnmente
utilizada es la siguiente:

Esta función sigmoidal adapta la entrada de la neurona a un valor de


activación dentro del rango [0, 1].

43
2.3.10 Aprendizaje
El método de aprendizaje más utilizado es el algoritmo Backpropagation. El
aprendizaje en una red neuronal se basa en modificar los pesos y
umbrales de la red para minimizar una función de costo. La función de
costo siempre incluye un término correspondiente al error, que da una
medida de como se aproximan las predicciones de la red a las clases de
los ejemplos utilizados para entrenarla. Adicionalmente, puede incluir un
término que refleje una distribución preestablecida de los valores que
pueden tomar los parámetros. Usualmente, el entrenamiento finaliza antes
de que la función de costo alcance un mínimo local. Otro método consiste
en utilizar un conjunto de validación para monitorear la precisión en la
predicción de la red.

En el proceso de aprendizaje, la mayoría de las redes neuronales utilizan


métodos de optimización basados en el cálculo del gradiente para ajustar
los parámetros de la red. Estos métodos ejecutan dos pasos en forma
iterativa: calculan el gradiente de la función de error y ajustan los
parámetros de la red en la dirección sugerida por el gradiente. Con estos
métodos el aprendizaje resulta lento para grandes volúmenes de datos.

2.3.11 Comprensibilidad
Las hipótesis representadas por una red neuronal entrenada dependen de:

a. La topología de la red.
b. Las funciones de transferencia utilizadas para las neuronas
ocultas y de salida.
c. Los parámetros asociados con las conexiones en la red (por
ejemplo los pesos) y las neuronas (por ejemplo el valor umbral).

Estas hipótesis son difíciles de explicar por varias razones:

a. Las redes neuronales típicamente utilizadas tienen cientos o miles


de parámetros. Estos parámetros codifican la relación entre los
atributos de entrada, x, y el valor a determinar.

44
b. En redes multi-capa, los parámetros pueden representar relaciones
no lineales o no monótonas entre los atributos de entrada y el valor
a determinar. Esto hace que no sea posible determinar, en forma
aislada, el efecto de un atributo dado en el valor de salida obtenido.

2.3.12 Extracción de Reglas utilizando Redes Neuronales


Una forma de entender las hipótesis representadas por una red neuronal
entrenada es traducir estas hipótesis en lenguajes más comprensibles.
Esta estrategia es la Extracción de Reglas.

Existen varios motivos por los que es deseable poder extraer reglas a partir
de una red neuronal:

a. Las reglas extraídas de la red entrenada pueden utilizarse en otros


sistemas, por ejemplo, en sistemas expertos.
b. Las reglas pueden usarse para descubrir características
previamente desconocidas en los datos (data mining).
c. Las reglas explican el razonamiento con el que se llega a la salida
del sistema.
d. Las reglas pueden utilizarse para refinar dominios de conocimiento
incompletos.

Hay varios métodos de extracción de reglas. Estos métodos difieren en


tres características:

a. Formalismos de Representación: Es el formalismo utilizado por el


método de extracción para describir el modelo aprendido por la red.
Los formalismos utilizados incluyen reglas de inferencias
conjuntivas (if-then), reglas m-de-n, reglas difusas, árboles de
decisión, etc.

b. Estrategias de Extracción: Es la estrategia utilizada por el método


de extracción para mapear el modelo representado por la red
entrenada en un nuevo modelo que utiliza el formalismo de
representación.
45
c. Requerimientos de la Red: Son los requerimientos de arquitectura
y de entrenamiento que los métodos de extracción imponen a las
Redes Neuronales. En otras palabras, el rango de redes al que se
puede aplicar el método.

Siempre que una red neuronal se utilice para resolver algún problema de
clasificación, existirá un procedimiento de decisión implícito para
determinar la clase a predecir para un caso dado. En general, una regla
extraída describe aproximadamente un conjunto de condiciones bajo las
cuales la red predice una clase.

Los métodos de extracción de reglas también pueden caracterizarse por su


nivel de descripción. Por ejemplo, un enfoque es extraer un conjunto de
reglas globales que caracterizan la salida directamente en términos de las
entradas. Un enfoque alternativo es la extracción de reglas locales por
descomposición de una red multi - capa en un conjunto de redes de una
sola capa. Se extraen las reglas que describen a cada una de ellas para
luego combinarlas en un conjunto de reglas que describen a toda la red.

Se han desarrollado varios algoritmos de extracción de reglas a partir de


redes neuronales. Estos algoritmos difieren en el método utilizado para la
extracción de las reglas de decisión. A continuación se describen varios de
estos métodos.

46
CAPÍTULO III
METODOLOGÍA PARA EL DESARROLLO DE MINERIA DE DATOS

Son diversos los modelos que han sido propuestos para el desarrollo de proyectos de
Data Mining tales como SEMMA (Sample, Explore, Modify, Model, Assess) [SAS, 2003],
DMAMC (Definir, Medir, 32qAnalizar, Mejorar, Controlar) [Isixsigma, 2005], o CRISP-DM
(Cross Industry Standard Process for Data Mining) [CRISP-DM, 2000], sin embargo uno
de los modelos principalmente utilizados en los ambientes académico e industrial es el
modelo CRISPDM.

CRISP-DM es la guía de referencia más ampliamente utilizada en el desarrollo de


proyectos de Data Mining, Los orígenes de CRISP-DM, se remontan hacia el año 1999
cuando un importante consorcio de empresas europeas tales como NCR (Dinamarca),
AG(Alemania), SPSS (Inglaterra), OHRA (Holanda), Teradata, SPSS, y Daimer-Chrysler,
proponen a partir de diferentes versiones de KDD (Knowledge Discovery in Databases),
el desarrollo de una guía de referencia de libre distribución denominada CRISP-DM
(Cross Industry Standard Process for Data Mining).

CRISP-DM, está dividida en 4 niveles de abstracción organizados de forma jerárquica en


tareas que van desde el nivel más general, hasta los casos más específicos y organiza el
desarrollo de un proyecto de Data Mining, en una serie de seis fases las que serán
desarrolladas en el presente capítulo correspondiente a la Intervención Metodológica.

3.1. Fase de comprensión del negocio o problema


El Hospital Regional Docente Materno Infantil en la actualidad utiliza el sistema de
información en el que se registra todas las atenciones que se brinda a los
usuarios. Tal sistema se denomina HIS.
47
Figura Nº 3.1 Sistema de Información HIS

El Sistema de Información en Salud – HIS (Health Information System) es una


herramienta informática que se utiliza en el Registro Diario de Atención y de otras
actividades de consulta externa. Permite la digitación, procesamiento, consultas y
explotación de los datos por el personal de salud. El Sistema, contribuye en el
mejoramiento de la calidad del registro de datos, homogeniza criterios, incorpora
nuevas formas de registro. Tiene el propósito de instrumentalizar el soporte para
la toma de decisiones y se adecúa a la situación actual de la organización del
Sistema de Servicios de Salud, Estrategias Nacionales, Etapas de Vida y
Componentes Especiales.

Actualmente se constituye como la única fuente de información básica de la


atención ambulatoria diaria de las personas que acuden a los establecimientos de
salud, de la vigilancia epidemiológica en cuanto a morbilidad, de las actividades
preventiva - promocionales, realizadas tanto a nivel familiar como en grupos
organizados de la Comunidad; así como, para la consignación de actividades
masivas de salud – actividades preventivas promocionales.

El sistema HIS sirve como fuente de información básica de la atención


ambulatoria diaria brindada a las personas que acuden a los establecimientos de
salud, centros de salud, puestos de salud, hospitales regionales, redes de salud y
direcciones regionales de salud del país. También sirve de fuente básica de

48
información para la vigilancia epidemiológica en cuanto a morbilidad y de las
actividades preventivo-promocionales, realizadas tanto a nivel familiar.

Así mismo sirve para la consignación de actividades masivas de salud, que son
actividades fundamentalmente preventivas que se realizan en grandes grupos de
población, en las cuales hay uso y entrega de insumos que son específicos a cada
una de las estrategias sanitarias de salud en los que existen actividades masivas
de salud como por ejemplo en grupos organizados de la comunidad, jardines,
escuelas, colegios, institutos, universidades

La Oficina General de Estadística e Informática del Ministerio de Salud a través de


la Oficina de Estadística constantemente proporciona a los responsables del
registro de los diagnósticos de consulta externa y otras actividades en salud y al
personal asistencial de salud un documento técnico que permite el registro
oportuno y la codificación adecuada de las diversas y variadas actividades que
realiza el personal de salud en la práctica diaria con las personas, las familias y
las comunidades del país, mostrando ejemplos prácticos de registro de las
principales actividades de manera simple y clara, bajo la estructura del nuevo
Modelo de Atención Integral (MAIS) enmarcado dentro de los lineamientos de la
política del sector. Empeñados en facilitar instrumentos potentes para mejorar la
eficiencia y eficacia del trabajo institucional, constantemente se realiza la
actualización del Registro y Codificación del Sistema HIS en sus diferentes
estrategias, permite adecuarse a la situación tan cambiante de la organización del
sistema de servicio de salud, las estrategias sanitarias nacionales, etapas de vida
y componentes especiales.

Pero dada la naturaleza del comportamiento en los últimos años en el Hospital


Regional Docente Materno Infantil El Carmen, y sobre todo en relación al número
de atenciones en los diferentes servicios de consultorios externos, los mismos que
se han visto en inmersos en un decrecimiento en metas físicas; se hace de
necesidad primordial el identificar los factores que desde el punto de vista del
usuario externo son fundamentales al momento de decidir sobre utilizar un
servicio de salud. Si bien es cierto se cuenta con el sistema HIS, este no
proporciona la información y el conocimiento necesario para poder afrontar la
problemática institucional a través de un mecanismo de toma de decisiones
49
correcta. Pero una de las fortalezas del sistema en la actualidad es la cantidad de
datos almacenados desde el año 2002, que es un total de un 1 257 918 registros
de atenciones prestadas a los clientes externos en los diferentes consultorios, los
cuales son más que suficientes para determinar patrones de comportamiento.
Estos patrones de comportamiento que el usuario externo considera primordial
cuando recibe la prestación de un servicio de salud.

3.2. Fase de comprensión de los datos


Una de las características del sistema de información HIS desarrollado en clipper
es que genera tablas por mes de proceso de atenciones procesadas en el sistema
(HIS1mmaa.dbf y HISAmmaa.dbf), es decir por año de procesamiento, genera 24
archivos que corresponde a un año de proceso, todas ellas ubicadas en carpetas
con el nombre y año de proceso (HISaaaa); todos ubicados en el servidor de
datos Institucional. Teniendo 10 años de proceso se cuenta con 240 tablas, las
que fueron consolidadas en archivos anualizados.

Figura Nº 3.2 Tablas del sistema de información HIS

Pero dada la naturaleza de la herramienta a utilizar se consolido en una tabla de


nombre HIS3XXXX.dbf con el total de registros, indexados por un campo identidad
que contabiliza la cantidad de registros.

50
Figura Nº 3.3 Consolidado de Datos del sistema de información HIS

Seguidamente se describen los campos de todas las tablas que conforma en


sistema de información HIS. Con los datos ya totalizados y de forma que sean
integrados en una base de datos relacional.

Nombre de la Tabla: CAPITULO


Descripción de la Tabla: Contiene el número de capítulo de acuerdo al libro DE
clasificación internacional de enfermedades - CIE X.
Nombre de campo Tipo de dato del campo Comentario del campo
COD_CAP Character(2)
DESC_CAP Character(254)
Tabla Nº 3.1 Estructura de la tabla CAPITULO.dbf

Nombre de la Tabla: CATEGORIA


Descripción de la Tabla: Contiene las categorías de diagnóstico según el CIE X
Están predefinidas y son de 3 caracteres.
Nombre de campo Tipo de dato del campo Comentario del campo
COD_CAT Character(3)
DESC_CAT Character(254)
COD_CAP Character(2)
COD_GRU Character(2)
Tabla Nº 3.2 Estructura de la tabla CATEGORIA.dbf

51
Nombre de la Tabla: CIE
Descripción de la Tabla: Clasificación Internacional de Enfermedades (CIE).
Nombre de campo Tipo de dato del campo Comentario del campo
COD_CAT Character(3)
COD_ENF Character(3)
DESCRIPCIO Character(254)
Tabla Nº 3.3 Estructura de la tabla CIE.dbf

Nombre de la Tabla: CODIENF


Descripción de la Tabla: Tabla de diagnósticos/actividades del MINSA. Extiende
el CIE indicando rangos de edad, sexo, tipo de código (morbilidad/actividad),
actividad preventiva promocional.
Nombre de campo Tipo de dato del campo Comentario del campo
MIN_EDAD Numeric(2) Edad mínima para la
actividad/diagnostico
SEXO Character(1) Restringido solo a: f: mujeres m:
hombres null: ambos
MIN_TIPO Character(1) Tipo de edad: año, mes, dia
MAX_EDAD Numeric(2) Edad máxima de la
actividad/diagnóstico
MAX_TIPO Character(1) Tipo de edad: año, mes dia
CODIGO Numeric(5)
CLASE Character(1) Indica si se trata de una
actividad o diagnóstico

1= morbilidad; 2= actividad
preventiva promocional;3=otras
actividades grupales;
4=procedimientos;
5=diagnóstico con historia
clínica; 6=actividades en
animales; 7=actividades con
historia clínica;8=actividades
administrativas;9=actividades de
programa
COD_CAT Character(3)
Tabla Nº 3.4 Estructura de la tabla CODIENF.dbf

Nombre de la Tabla: DETACT


Descripción de la Tabla: Relaciona actividades individuales con actividades
masivas.
Nombre de campo Tipo de dato del campo Comentario del campo
CODIGO Numeric(5) Código de una actividad
individual, proveniente del CIE
TABVALUE Character(10) Código de una actividad masiva
Tabla Nº 3.5 Estructura de la tabla DETACT.dbf

52
Nombre de la Tabla: CONDTRAB
Descripción de la Tabla: Esta entidad define las variantes que pueden presentar
la relación laboral del personal asistencial con el establecimiento. El
mantenimiento de esta tabla es local.
Nombre de campo Tipo de dato del campo Comentario del campo
COD_COND Character(2) Define el tipo de relación laboral
del personal asistencial con el
establecimiento: 00: No definido
01: Nombrado 02: Contratado
por Recursos Propios 03:
Contratado por Focalización 04:
Serumista 05: Residente 06:
Alumno 07: Interno
DESC_CONT Character(40)
Tabla Nº 3.6 Estructura de la tabla CONDTRAB.dbf

Nombre de la Tabla: CONFIGUR


Descripción de la Tabla: Parámetros de configuración de la instalación para el
funcionamiento del sistema, entre otros: - Unidad de disco - Establecimientos
adscritos al centro de digitación.
Nombre de campo Tipo de dato del campo Comentario del campo
PARAM Character(254) Nombre del parámetro
VALOR Character(254) Valor del parámetro
Tabla Nº 3.7 Estructura de la tabla CONFIGUR.dbf

Nombre de la Tabla: CPT


Descripción de la Tabla: Almacena procedimientos médicos.
Nombre de campo Tipo de dato del campo Comentario del campo
CODIGO Numeric(5)
COD_CPT Character(5)
DESC_CPT Character(254)
SEXO Character(1)
MIN_EDAD Numeric(2)
MIN_TIPO Character(1)
MAX_EDAD Numeric(2)
MAX_TIPO Character(1)
Tabla Nº 3.8 Estructura de la tabla CPT.dbf

Nombre de la Tabla: DISA


Descripción de la Tabla: Almacena información de Direcciones de Salud.
Nombre de campo Tipo de dato del campo Comentario del campo
COD_DISA Character(2)
DESC_DISA Character(40)
Tabla Nº 3.9 Estructura de la tabla DISA.dbf

53
Nombre de la Tabla: DIGITAD
Descripción de la Tabla: Información del digitador.
Nombre de campo Tipo de dato del campo Comentario del campo
COD_DIG Numeric(3) Identificador de digitador
NOMBRE Character(40) Nombre del digitador
CLAVE Character(9) Contraseña/password del
digitador
Tabla Nº 3.10 Estructura de la tabla DIGITAD.dbf

Nombre de la Tabla: DIST


Descripción de la Tabla: Ubicación geográfica distrito.
Nombre de campo Tipo de dato del campo Comentario del campo
COD_DPTO Character(2)
COD_PROV Character(2)
COD_DIST Character(2) Código ubigéo
DESC_DIST Character(40) Nombre del distrito
LONG_POBLA Numeric(7) Población total del distrito
Tabla Nº 3.11 Estructura de la tabla DIST.dbf

Nombre de la Tabla: DPTO


Descripción de la Tabla: Ubicación geográfica departamento.
Nombre de campo Tipo de dato del campo Comentario del campo
COD_DPTO Character(2) Código de departamento
DESC_DPTO Character(40) Descripción del departamento
Tabla Nº 3.12 Estructura de la tabla DPTO.dbf

Nombre de la Tabla: GRUPO


Descripción de la Tabla: Contiene los grupos de diagnóstico según la CIE, el
orden es correlativo dentro de cada capítulo, generado por la OEI.
Nombre de campo Tipo de dato del campo Comentario del campo
COD_GRU Character(2)
COD_CAP Character(2)
DESC_GRU Character(254)
Tabla Nº 3.13 Estructura de la tabla GRUPO.dbf

Nombre de la Tabla: GRUPETA


Descripción de la Tabla: Grupos etáreos para análisis de datos.
Nombre de campo Tipo de dato del campo Comentario del campo
COD_GET Numeric(1)
DESC_GET Character(254)
Tabla Nº 3.14 Estructura de la tabla GRUPETA.dbf

54
Nombre de la Tabla: ESTABLEC
Descripción de la Tabla: Establecimiento de salud.
Nombre de campo Tipo de dato del campo Comentario del campo
COD_DIST Character(2) Distrito al que pertenece
COD_PROV Character(2)
COD_DISA Character(2)
COD_RED Character(2)
COD_MIC Character(2)
COD_ESTAB Character(9)
COD_2000 Numeric(4)
COD_DPTO Character(2)
DESC_ESTAB Character(60) Descripción del establecimiento
TIPOESTAB Character(1) Tipo de establecimiento
1=hospital; 2=Centro de salud;
3=Puesto de salud
Tabla Nº 3.15 Estructura de la tabla ESTABLEC.dbf

Nombre de la Tabla: HIS1XXXX


Descripción de la Tabla: Corresponde a una hoja HIS.
Nombre de campo Tipo de dato del campo Comentario del campo
COD_SERVSA Numeric(2) Servicio donde se llena la hoja
CODIF Numeric(6) Codificador de la hoja his
PLAZA Responsable del llenado de la
hoja his
ESTA_PAG Character(1) Estado de la hoja his 1=con
inconsistencias 2=sin
inconsistencias * derivado de los
registros pertenecientes
TOT_REG Numeric(2)
ANO Numeric(4)
COD_2000 Numeric(4)
NUM_PAG Numeric(3) Numero de página
MES Numeric(2)
NOM_LOTE Character(3) Nombre del lote
Tabla Nº 3.16 Estructura de la tabla HIS1XXXX.dbf

55
Nombre de la Tabla: HIS3XXXX
Descripción de la Tabla: Se empleara para la generación de reportes
consolidados mediante la acumulación temporal de datos.
Nombre de campo Tipo de dato del campo Comentario del campo
COD_ESTAB Character(9)
ANO Numeric(4)
MES Numeric(2)
DIA
FICHAFAM Character(10) Numero de historia clínica o act.
preventiva promocional (appxxx)
o act. sobre animales (aaaxxx)o
act masiva de salud (amsxxx)
COD_PROF Character(2)
COD_SERVSA Numeric(2)
ESTABLEC Character(1) Condición al establecimiento
N=nuevo; C=continuador;
R=reingreso
SERVICIO Character(1) Condición al servicio N=nuevo;
C=continuador;R=reingreso
SEXO Character(1) Sexo del atendido M=masculino
F=femenino
TIPOEDAD Character(1) Tipo de edad A=años;
M=meses; D=días
EDAD Numeric(2)
COD_DPTO Character(2)
COD_PROV Character(2)
COD_DIST Character(2)
CODIGO1 Character(6)
DIAGNOST1 Character(1)
LABCONF1 Character(3)
CODIGO2 character(6)
DIAGNOST2 Character(1)
LABCONF2 Character(3)
CODIGO3 character(6)
DIAGNOST3 Character(1)
LABCONF3 Character(3)
CODIGO4 character(6)
DIAGNOST4 Character(1)
LABCONF4 Character(3)
CODIGO5 character(6)
DIAGNOST5 Character(1)
LABCONF5 Character(3)
CODIGO6 character(6)
DIAGNOST6 Character(1)
LABCONF6 Character(3)
Tabla Nº 3.17 Estructura de la tabla HIS3XXXX.dbf

56
Nombre de la Tabla: HISAXXXX
Descripción de la Tabla: Corresponde a una atención/registro de una hoja HIS.
Nombre de campo Tipo de dato del campo Comentario del campo
COD_2000 Numeric(4)
ANO Numeric(4)
MES Numeric(2)
NOM_LOTE Character(3)
NUM_PAG Numeric(3)
NUM_REG Numeric(2)
DIA numeric(2)
FICHAFAM Character(10) Número de historia clínica o act.
preventiva promocional (appxxx)
o act. sobre animales (aaaxxx)o
act masiva de salud (amsxxx)
COD_DPTO Character(2)
COD_PROV Character(2)
COD_DIST Character(2) código abigeo
EDAD Numeric(2)
TIP_EDAD Character(1) A=año M=mes D=día
SEXO Character(2) Sexo del atendido M=masculino
F=femenino
ESTABLEC Character(1) Condición al establecimiento
N=nuevo; C=continuador;
R=reingreso
SERVICIO Character(1) Condición al servicio N=nuevo;
C=continuador; R=reingreso
DIAGNOST1 Character(1) tipo de diagnóstico D=definitivo
P=presuntivo R=repetitivo
LABCONF1 Character(3) Situación del diagnóstico
validado con la tabla situación
CODIGO1 Numeric(5) Código de diagnóstico
DIAGNOST2 Character(1)
LABCONF2 Character(3)
CODIGO2 Numeric(5)
DIAGNOST3 Character(1)
LABCONF3 Character(3)
CODIGO3 Numeric(5)
DIAGNOST4 Character(1)
LABCONF4 Character(3)
CODIGO4 Numeric(5)
DIAGNOST5 Character(1)
LABCONF5 Character(3)
CODIGO5 Numeric(5)
DIAGNOST6 Character(1)
LABCONF6 Character(3)
CODIGO6 Numeric(5)
ESTA_REG Character(1) Estado del registro 1= con
inconsistencias 2= sin
inconsistencias
Tabla Nº 3.18 Estructura de la tabla HISAXXXX.dbf

57
Nombre de la Tabla: HISMINSA
Descripción de la Tabla: Se empleara para el envío del MINSA.
Nombre de campo Tipo de dato del campo Comentario del campo
COD_2000 Numeric(4)
ANO Numeric(4)
MES Numeric(2)
DIA Numeric(2)
COD_PROF Character(2)
COD_SERVSA Numeric(2)
ESTABLEC Character(1) Condición al establecimiento
nuevo continua
SERVICIO Character(1) Condición al servicio nuevo
continua
SEXO Character(1) Sexo del atendido M=masculino
F=femenino
TIPOEDAD Character(1)
EDAD Numeric(2)
COD_DPTO Character(2)
COD_PROV Character(2)
COD_DIST Character(2)
CODIGO1 Numeric(5)
DIAGNOST1 Character(1)
LABCONF1 Character(2)
CODIGO2 Numeric(5)
DIAGNOST2 Character(1)
LABCONF2 Character(2)
CODIGO3 Numeric(5)
DIAGNOST3 Character(1)
LABCONF3 Character(2)
CODIGO4 Numeric(5)
DIAGNOST4 Character(1)
LABCONF4 Character(2)
CODIGO5 Numeric(5)
DIAGNOST5 Character(1)
LABCONF5 Character(2)
CODIGO6 Numeric(5)
DIAGNOST6 Character(1)
LABCONF6 Character(2)
Tabla Nº 3.19 Estructura de la tabla HISAMINSA.dbf

Nombre de la Tabla: ID_ACT


Descripción de la Tabla: Identifica la naturaleza de la atención.
Nombre de campo Tipo de dato del campo Comentario del campo
CODIGO Numeric(5)
TIPO_CODIG Numeric(1) 1=cpt 2=codienf
Tabla Nº 3.20 Estructura de la tabla HID_ACT.dbf

58
Nombre de la Tabla: LOG
Descripción de la Tabla: Registro de eventos del sistema: errores de digitación,
inconsistencias, envíos, recepciones, cierres, inicio de mes/año, etc.
Nombre de campo Tipo de dato del campo Comentario del campo
FECHA Date
TIPO_LOG Character(2) Tipo de registro: 1: error
digitación 2: inconsistencia 3:
envió 4: recepción 5: inicio de
periodo (mes/año)
DESC_LOG Character(2)
Tabla Nº 3.21 Estructura de la tabla LOG.dbf

Nombre de la Tabla: LOTES


Descripción de la Tabla: Agrupación de hojas de registro de atenciones.
Nombre de campo Tipo de dato del campo Comentario del campo
COD_2000 Numeric(4)
ANO Numeric(4)
MES Numeric(2)
NOM_LOTE Character(3) Nombre del lote
COD_DIG Numeric(3) Id del digitador
ESTA_LOTE Character(2) Estado del lote: ai=abierto
inconsistente ac=abierto
consistente ci=cerrado
inconsistente cc=cerrado
consistente dv=control digitación
valida di=control digitación
invalida en=enviado
TOT_PAG Numeric(3) Para fines de comparar con el
contador num_pag no deberá
excederlo, y se ejecute
directamente el proceso de
control de calidad
TOT_REG Numeric(4)
ESTA_LOCAL Character(1) Estado local del lote referente al
envió a consolidación 1: enviado
2: generado
Tabla Nº 3.22 Estructura de la tabla LOLTES.dbf

Nombre de la Tabla: MENSAJE


Descripción de la Tabla: Mensajes del sistema: error, ayuda, aviso.
Nombre de campo Tipo de dato del campo Comentario del campo
COD_MENS Numeric(3)
DESC_MENS Character(254) Texto del mensaje
TIPO_MENS Character(1) Tipo de mensaje E=error
A=ayuda V=aviso
Tabla Nº 3.23 Estructura de la tabla MENSAJE.dbf

59
Nombre de la Tabla: MICRORED
Descripción de la Tabla: Almacena información de Microredes de salud.
Nombre de campo Tipo de dato del campo Comentario del campo
COD_DISA Character(2)
COD_RED Character(2)
COD_MIC Character(2)
DESC_MICRO Character(40)
Tabla Nº 3.24 Estructura de la tabla MICRORED.dbf

Nombre de la Tabla: MSTRPERS


Descripción de la Tabla: Esta entidad representa al personal asistencial y
técnico que labora en un establecimiento y que participa durante el proceso de
prestación de salud. Por lo tanto, son los encargados de generar los registros
respectivos en los formatos que el sistema tenga establecido.
Nombre de campo Tipo de dato del campo Comentario del campo
COD_COND Character(2)
COD_PROF Character(2)
FECHA_ING Date
FECHA_BAJA Date
PLAZA Numeric(6)
NOMBRE Character(40)
COD_2000 Numeric(4)
Tabla Nº 3.25 Estructura de la tabla MSTRPERS.dbf

Nombre de la Tabla: OBSERVA


Descripción de la Tabla: Tabla de observaciones de cualquier punto de
digitación. Se registra la observación (una por envío) y el autor identificado por su
código de establecimiento, red, microred o DISA. Se reporta aquí actividades,
ubigeos, procedimientos o diagnósticos que no fueron encontrados en el sistema.
Nombre de campo Tipo de dato del campo Comentario del campo
AUT_OBS Character(10) Autor de la observación
DESC_OBS Memo Detalle de la observación
Tabla Nº 3.26 Estructura de la tabla OBSERVA.dbf

Nombre de la Tabla: PERIODO


Descripción de la Tabla: Periodo de reporte del HIS.
Nombre de campo Tipo de dato del campo Comentario del campo
MES Numeric(2)
PER_ESTA Character(1)
ANO Numeric(4)
COD_2000 Numeric(4)
Tabla Nº 3.27 Estructura de la tabla PERIODO.dbf

60
Nombre de la Tabla: PROFESIO
Descripción de la Tabla: Esta entidad representa todas las profesiones de salud
a nivel profesional o técnico al cual cada trabajador asistencial del establecimiento
puede corresponder. Se incluirá además dentro de esta tabla la condición de
AGENTES COMUNITARIOS y las Ocupaciones al cual pueda referir un
AFILIADO. El mantenimiento de esta tabla es también local.
Nombre de campo Tipo de dato del campo Comentario del campo
COD_PROF Character(2)
DESC_PROF Character(40)
Tabla Nº 3.28 Estructura de la tabla PROFESIO.dbf

Nombre de la Tabla: PROV


Descripción de la Tabla: Ubicación geográfica provincia.
Nombre de campo Tipo de dato del campo Comentario del campo
COD_DPTO Character(2) Código de departamento
COD_PROV Character(2) Código de provincia
DESC_PROV Character(40) Descripción de provincia
Tabla 3.29 Estructura de la tabla PROV.dbf

Nombre de la Tabla: RED


Descripción de la Tabla: Red de salud
Nombre de campo Tipo de dato del campo Comentario del campo
COD_DISA Character(2)
COD_RED Character(2)
DESC_RED Character(40)
Tabla Nº 3.30 Estructura de la tabla RED.dbf

Nombre de la Tabla: SITUACIO


Descripción de la Tabla: Indica la situación del atendido luego de la atención, de
acuerdo al tipo de actividad. P.ej. luego de una segunda dosis de vacuna, el valor
correspondiente es 2. Luego de una consejería, el valor correspondiente es IS
(inicio de sesión). Se utiliza para validar los valores ingresados en LABCONFx en
la tabla de atenciones (HISAXXXX)
Nombre de campo Tipo de dato del campo Comentario del campo
CODIGO Numeric(5) Código de diagnóstico/actividad
VALORES Character(3) Valores posibles de situación
del diagnóstico/actividad
DESCRIPCIO Character(40)
Tabla Nº 3.31 Estructura de la tabla SITUACIO.dbf

61
Nombre de la Tabla: TABVAR
Descripción de la Tabla: Tabla de validación para el campo FICHAFAM, deberá
ser consultado si es diferente de la Historia clínica 1) AMSXX= Actividad masiva
de salud 2) APPXX= Actividad preventiva promocional 3) AAAXX= Actividad sobre
animales Para el caso 2 y 3 no debe requerir datos del individuo sexo, edad.
Nombre de campo Tipo de dato del campo Comentario del campo
TABVALUE Character(10) AMS 01=inmunizaciones ...
TABDESC Character(40)
Tabla Nº 3.32 Estructura de la tabla TABVAR.dbf

Nombre de la Tabla: SERVSAL


Descripción de la Tabla: Servicios de salud del establecimiento. Ambientes
físicos.
Nombre de campo Tipo de dato del campo Comentario del campo
COD_SERVSA Numeric(2)
DESC_SERVS Character(40) Descripción del servicio de
salud
SEXO Character(1) Restricción de ingreso al
servicio por sexo: M: solo
hombres F: solo mujeres
MIN_EDAD Numeric(2) Edad mínima de ingreso al
servicio
MIN_TIPO Character(1) Tipo de edad mínima de ingreso
al servicio
MAX_EDAD Numeric(2) Edad máxima de ingreso al
servicio
MAX_TIPO Character(1) Tipo de edad máxima de
ingreso al servicio
Tabla Nº 3.33 Estructura de la tabla SERVSAL.dbf

Seguidamente la tabla His3XXXX se renombró a his_aten y se relacionó con las


demás tablas que conforman el sistema, para logra obtener una estructura general
de datos es decir una base de datos relacional, denominada His.dbc. Cómo se
puede apreciar en la figura 3.3 Base de datos relacional del sistema de
información HIS.

En el proceso de validación de los datos y para lograr obtener la integridad


referencial entre la tabla de transacciones y todas las que estén relacionadas con
ella, se utilizó Microsoft Visual FoxPro, se revisaron todos los índices y se
procedió a limpiar los datos con inconsistencias; logrando obtener un total de 902
455 registros de datos validados y consistentes en la tabla de transacciones.

62
Figura Nº 3.4 Base de datos relacional del sistema de información HIS.

Figura Nº 3.5 Datos acumulados y validados sistemas de información HIS.

3.3. Fase de preparación de los datos


Realizada la recolección inicial de datos, procedemos a su preparación para
adaptarlos a las técnicas de minería de datos que se utilizara posteriormente. El
programa Microsoft Visual FoxPro que nos sirvió para implementar una base de
datos relacional, no nos servirá para crear modelos de comportamiento basado en
el análisis de datos. Para realizar esta actividad se procedió a realizar un proceso
de migración a Microsoft SQL Server.

63
En primera instancia se crea una base de datos en el Microsoft SQL SERVER
Management Studio, para luego realizar una importación de tablas, registros y
todos los componentes asociados a la base de datos en Microsoft Visual FoxPro.
Durante el proceso de migración también se realiza la selección y limpieza de los
datos con el objetivo de tener datos normalizados, tratamiento de valores
ausentes, reducción de volumen de datos entre otros.

Como se muestra en el siguiente gráfico la herramienta de migración permite la


asignación de columnas, que no es otra cosa que seleccionar los campos y los
tipos de datos que se requerirán en proceso de análisis.

Figura Nº 3.6 Asignación de columnas para importación de datos.

Finalmente se logra la estructuración e integración de todos los datos del sistema


de información HIS en el Administrador de Base de Datos Microsoft SQL Server.
Logrando obtener una base de datos relacional con integridad de datos al 100 %,
como se muestra en el siguiente gráfico.

64
Figura Nº 3.7 Base de Datos Relacional en SQL Server

Del mismo modo podemos apreciar la tabla que desde ahora será considerada la
tabla de hechos y que está compuesta de 902 455 registros.

Figura Nº 3.8 Tabla de hechos his_aten con registros.

65
Finalmente la base de datos está preparada para ser utilizada en un modelo de
minería de datos y en articular un modelo de redes neuronales.

Figura Nº 3.9 Tabla de hechos his_aten

3.4. Fase de modelado


En esta fase de la metodología, se seleccionan las técnicas de modelado más
apropiadas para el proyecto de data mining específico. Las técnicas a utilizar en
esta fase se eligen en función de los siguientes criterios:
 Ser apropiada al problema.
 Disponer de datos adecuados.
 Cumplir los requisitos del problema.
 Tiempo adecuado para obtener un modelo.
 Conocimiento de la técnica.

Previamente al modelado de los datos, se debe determinar un método de


evaluación de los modelos que permita establecer el grado de bondad de ellos.
Después de concluir estas tareas genéricas, se procede a la generación y
evaluación del modelo. Los parámetros utilizados en la generación del modelo,
dependen de las características de los datos y de las características de precisión
que se quieran lograr con el modelo.

66
3.4.1. Selección de la técnica de modelado
Para la etapa de selección de la técnica de modelado se realiza la
descripción de los algoritmos de minería de datos que tiene SQL Server a
través de su herramienta de Analysis Services.

Un algoritmo de minería de datos es un conjunto de cálculos y reglas


heurísticas que permite crear un modelo de minería de datos a partir de los
datos. Para crear un modelo, el algoritmo analiza primero los datos
proporcionados, en busca de tipos específicos de patrones o tendencias.
El algoritmo usa los resultados de este análisis para definir los parámetros
óptimos para la creación del modelo de minería de datos. A continuación,
estos parámetros se aplican en todo el conjunto de datos para extraer
patrones procesables y estadísticas detalladas.

El modelo de minería de datos que crea un algoritmo a partir de los datos


puede tomar diversas formas, incluyendo:

 Un conjunto de clústeres que describe cómo se relacionan los


casos de un conjunto de datos.
 Un árbol de decisión que predice un resultado y que describe cómo
afectan a este los distintos criterios.
 Un modelo matemático que predice comportamientos.
 Un conjunto de reglas que describen cómo se agrupan los
productos en una transacción, y las probabilidades de que dichos
productos se adquieran juntos.

Microsoft SQL Server Analysis Services proporciona varios algoritmos que


puede usar en las soluciones de minería de datos. Estos algoritmos son
implementaciones de algunas de las metodologías más conocidas usadas
en la minería de datos. Todos los algoritmos de minería de datos de
Microsoft se pueden personalizar y son totalmente programables, bien
mediante las interfaces de aplicación proporcionadas o bien mediante los
componentes de minería de datos de SQL Server Integration Services.

67
La elección del mejor algoritmo para una tarea analítica específica puede
ser un desafío. Aunque se puede usar diferentes algoritmos para realizar la
misma tarea, cada uno de ellos genera un resultado diferente, y algunos
pueden generar más de un tipo de resultado. Por ejemplo, se puede usar
el algoritmo Árboles de decisión de Microsoft no solo para la predicción,
sino también como una forma de reducir el número de columnas de un
conjunto de datos, ya que el árbol de decisión puede identificar las
columnas que no afectan al modelo de minería de datos final.

Analysis Services incluye los siguientes tipos de algoritmos:

 Algoritmos de clasificación, que predicen una o más variables


discretas, basándose en otros atributos del conjunto de datos.
 Algoritmos de regresión, que predicen una o más variables
continuas, como las pérdidas o los beneficios, basándose en otros
atributos del conjunto de datos.
 Algoritmos de segmentación, que dividen los datos en grupos, o
clústeres, de elementos que tienen propiedades similares.
 Algoritmos de asociación, que buscan correlaciones entre
diferentes atributos de un conjunto de datos. La aplicación más
común de esta clase de algoritmo es la creación de reglas de
asociación.
 Algoritmos de análisis de secuencias, que resumen secuencias o
episodios frecuentes en los datos, como un flujo de rutas web.

La minería de datos de SQL Server permite generar varios modelos en una


única estructura de minería de datos, por lo que en una solución de
minería de datos puede usar un algoritmo de clústeres, un modelo de
árboles de decisión y un modelo de Bayes naive para obtener distintas
vistas de los datos. También se puede usar varios algoritmos dentro de
una única solución para realizar tareas independientes: por ejemplo, se
podría usar la regresión para obtener predicciones financieras, y un
algoritmo de red neuronal para realizar un análisis de los factores que
influyen en las ventas.

68
La tabla siguiente proporciona sugerencias para los tipos de tareas para
las que se usa normalmente un algoritmo en particular.

Algoritmos de Microsoft que se


Ejemplos de Tareas
pueden usar
Predecir un atributo discreto Algoritmo de árboles de decisión de
 Marcar los clientes de una lista de posibles
compradores como clientes con buenas o Microsoft
malas perspectivas. Algoritmo Bayes naive de Microsoft
 Calcular la probabilidad de que un servidor
genere un error en los próximos 6 meses. Algoritmo de clústeres de Microsoft
 Clasificar la evolución de los pacientes y Algoritmo de red neuronal de Microsoft
explorar los factores relacionados.
Algoritmo de árboles de decisión de
Predecir un atributo continuo
Microsoft
 Pronosticar las ventas del año próximo.
 Predecir los visitantes del sitio a partir de Algoritmo de serie temporal de
tendencias históricas y estacionales
Microsoft
proporcionadas.
 Generar una puntuación de riesgo a partir de Algoritmo de regresión lineal de
datos demográficos. Microsoft
Predecir una secuencia
 Realizar un análisis clickstream del sitio web
de una empresa.
 Analizar los factores que dan como resultado Algoritmo de clústeres de secuencia de
errores en el servidor.
Microsoft
 Capturar y analizar secuencias de actividades
durante las visitas de pacientes externos, para
formular las prácticas recomendadas en las
actividades comunes.
Buscar grupos de elementos comunes en las
transacciones
 Usar el análisis de la cesta de la compra para
determinar la posición del producto. Algoritmo de asociación de Microsoft
 Sugerir a un cliente la compra de productos Algoritmo de árboles de decisión de
adicionales.
 Analizar los datos de una encuesta a los Microsoft
visitantes a un evento, para descubrir qué
actividades o stands estaban correlacionados
con el fin de programar actividades futuras.
Buscar grupos de elementos similares
 Crear grupos de pacientes con perfiles de
riesgo en función de atributos como datos Algoritmo de clústeres de Microsoft
demográficos y comportamientos. Algoritmo de clústeres de secuencia de
 Analizar usuarios mediante patrones de
búsqueda y compra de productos. Microsoft
 Identificar servidores con características de
uso similares.
Tabla Nº 3.34 Algoritmos por tarea en minería de datos7

7
http://msdn.microsoft.com/es-es/library/ms175595.aspx
69
3.4.2. Algoritmo de red neuronal Microsoft
El algoritmo de red neuronal combina cada posible estado del atributo de
entrada con cada posible estado del atributo de predicción, y usa los datos
de entrenamiento para calcular las probabilidades. Posteriormente, puede
usar estas probabilidades para la clasificación o la regresión, así como
para predecir un resultado del atributo de predicción basándose en los
atributos de entrada. Los modelos de minería de datos construidos con el
algoritmo de red neuronal pueden contener varias redes, en función del
número de columnas que se utilizan para la entrada y la predicción, o solo
para la predicción. El número de redes que contiene un único modelo de
minería de datos depende del número de estados que contienen las
columnas de entrada y las columnas de predicción que utiliza el modelo.

Figura Nº 3.10 Modelos de minería de datos

El algoritmo de red neuronal de Microsoft es útil para analizar datos de


entrada complejos, como los datos de un proceso comercial o de
producción, o problemas empresariales para los que hay una cantidad

70
importante de datos de entrenamiento disponibles pero en los que no es
fácil derivar reglas mediante otros algoritmos.

Los casos sugeridos para utilizar el algoritmo de red neuronal de Microsoft


son:

 Análisis de comercialización y promoción, como medir el éxito de


una promoción por correo directo o una campaña publicitaria en la
radio.
 Predecir los movimientos de las acciones, la fluctuación de la
moneda u otra información financiera con gran número de cambios
a partir de los datos históricos.
 Analizar los procesos industriales y de producción.
 Minería de texto.
 Cualquier modelo de predicción que analice relaciones complejas
entre muchas entradas y relativamente pocas salidas.

El algoritmo de red neuronal crea una red formada por hasta tres niveles
de neuronas. Estas capas son una capa de entrada, una capa oculta
opcional y una capa de salida.

 Nivel de entrada: las neuronas de entrada definen todos los


valores de atributos de entrada para el modelo de minería de datos,
así como sus probabilidades.

 Nivel oculto: las neuronas ocultas reciben entradas de las


neuronas de entrada y proporcionan salidas a las neuronas de
salida. El nivel oculto es donde se asignan pesos a las distintas
probabilidades de las entradas. Un peso describe la relevancia o
importancia de una entrada determinada para la neurona oculta.
Cuanto mayor sea el peso asignado a una entrada, más importante
será el valor de dicha entrada. Los pesos pueden ser negativos, lo
que significa que la entrada puede desactivar, en lugar de activar,
un resultado concreto.

71
 Nivel de salida: las neuronas de salida representan valores de
atributo de predicción para el modelo de minería de datos.

Una neurona recibe la entrada de otras neuronas o de otros datos,


dependiendo del nivel de la red en que se encuentra. Una neurona de
entrada recibe entradas de los datos originales. Las neuronas ocultas y las
neuronas de salida reciben entradas de la salida de otras neuronas de la
red neuronal. Las entradas establecen relaciones entre neuronas; estas
relaciones sirven como ruta de análisis para un conjunto específico de
escenarios.

Figura Nº 3.11 Estructura del modelo de minería de datos

Cada entrada tiene un valor asignado denominado peso, que describe la


relevancia o importancia de dicha entrada en la neurona oculta o en la
neurona de salida. Cuanto mayor sea el peso asignado a una entrada, más
importante o relevante será el valor de dicha entrada. Los pesos pueden
ser negativos, lo cual implica que la entrada puede desactivar, en lugar de
activar, una neurona específica. El valor de cada entrada se multiplica por
el peso para poner de relieve la importancia de la entrada de una neurona
específica. En el caso de pesos negativos, el efecto de multiplicar el valor
por el peso es una pérdida de importancia.

72
Cada neurona tiene una función no lineal sencilla asignada denominada
función de activación, que describe la relevancia o importancia de una
neurona determinada para ese nivel de una red neuronal. Las neuronas
ocultas usan una función tangente hiperbólica (tanh) para su función de
activación, mientras que las neuronas de salida usan una función
sigmoidea. Ambas son funciones no lineales continuas que permiten que la
red neuronal modele relaciones no lineales entre neuronas de entrada y
salida.

3.4.3. Generación del plan de pruebas


Una vez seleccionado un modelo, se debe generar un procedimiento
destinado a probar la calidad y validez del mismo. Por ejemplo, en una
tarea supervisada de minería de datos como la clasificación, es común
usar la razón de error como medida de la calidad. Entonces, típicamente
se separan los datos en dos conjuntos, uno de entrenamiento y otro de
prueba, para luego construir el modelo basado en el conjunto de
entrenamiento y medir la calidad del modelo generado con el conjunto de
prueba.

Figura Nº 3.12 Formulario de creación de conjunto de pruebas


73
3.4.4. Implementación del algoritmo de red neuronal
En una red neuronal de tipo perceptrón multinivel, cada neurona recibe una
o más entradas y genera una o más salidas idénticas. Cada salida es una
función no lineal simple de la suma de las entradas a la neurona. Las
entradas pasan de los nodos del nivel de entrada a los nodos del nivel
oculto y, a continuación, al nivel de salida; no existe ninguna conexión
entre neuronas del mismo nivel. Si no se incluye ningún nivel oculto, tal y
como pasa en un modelo de regresión logística, las entradas pasan
directamente desde los nodos del nivel de entrada a los nodos del nivel de
salida.

Existen varios pasos implicados en el entrenamiento de un modelo de


minería de datos que utiliza el algoritmo de red neuronal de Microsoft.
Estos pasos están muy influenciados por los valores que se especifican en
los parámetros de algoritmo.

En primer lugar, el algoritmo evalúa y extrae los datos de entrenamiento


del origen de datos. Un porcentaje de los datos de entrenamiento,
denominado datos de exclusión, se reserva para evaluar la precisión de la
red. Durante el proceso de entrenamiento, la red se evalúa de forma
inmediata después de cada iteración mediante los datos de entrenamiento.
Cuando la precisión deja de aumentar, el proceso de entrenamiento se
detiene.

Los valores de los parámetros SAMPLE_SIZE y


HOLDOUT_PERCENTAGE se usan para determinar el número de casos
de muestra de los datos de aprendizaje y el número de casos que se
apartan para los datos de exclusión. El valor del parámetro
HOLDOUT_SEED se usa para determinar aleatoriamente los casos
individuales que se apartan para los datos de exclusión. A continuación, el
algoritmo determina el número y la complejidad de las redes que admite el
modelo de minería de datos. Si el modelo contiene uno o más atributos
que solamente se utilizan para la predicción, el algoritmo crea una única
red que representa todos estos atributos. Si el modelo de minería de datos
74
contiene uno o más atributos que se utilizan para la entrada y la predicción,
el proveedor del algoritmo construye una red para cada atributo.

Figura Nº 3.13 Modelo de minería de datos

En el caso de los atributos de entrada y de predicción que tienen valores


discretos, cada neurona de entrada o de salida representa
respectivamente un único estado. En el caso de los atributos de entrada y
de predicción que tienen valores continuos, cada neurona de entrada o de
salida representa respectivamente el intervalo y la distribución de valores
del atributo. El número máximo de estados admitidos en cada caso
depende del valor del parámetro de algoritmo MAXIMUM_STATES. Si el
número de estados para un atributo específico supera el valor del
parámetro de algoritmo MAXIMUM_STATES, se eligen los estados más
comunes o relevantes para dicho atributo, hasta alcanzar el máximo
permitido; el resto de los estados se agrupa como valores ausentes para el
análisis.

A continuación, el algoritmo utiliza el valor del parámetro


HIDDEN_NODE_RATIO al determinar el número inicial de neuronas que
se crearán para la capa oculta. Se puede establecer
HIDDEN_NODE_RATIO en 0 para evitar la creación de una capa oculta en
las redes que genera el algoritmo para el modelo de minería de datos y
tratar la red neuronal como una regresión logística.
75
El proveedor de algoritmos evalúa iterativamente el peso de todas las
entradas de la red simultáneamente, tomando el conjunto de datos de
entrenamiento reservado anteriormente y comparando el valor real
conocido de cada escenario de los datos de exclusión con la predicción de
la red, en un proceso conocido como aprendizaje por lotes. Una vez que el
algoritmo ha evaluado el conjunto completo de los datos de entrenamiento,
revisa el valor predicho y real de cada neurona. El algoritmo calcula el
grado de error, si lo hay, y ajusta los pesos asociados con las entradas de
esa neurona, trabajando hacia atrás desde las neuronas de salida a las de
entrada en un proceso conocido como propagación hacia atrás. A
continuación, el algoritmo repite el proceso en todo el conjunto de datos de
entrenamiento. Dado que el algoritmo puede admitir múltiples pesos y
neuronas de salida, el algoritmo de gradiente conjugado se utiliza para
guiar el proceso de entrenamiento en la asignación y evaluación de los
pesos de las entradas.

3.4.4.1. Selección de características


Si el número de atributos de entrada es mayor que el valor del
parámetro MAXIMUM_INPUT_ATTRIBUTES, o si el número de
atributos de predicción es mayor que el valor del parámetro
MAXIMUM_OUTPUT_ATTRIBUTES, se usa un algoritmo de
selección de características para reducir la complejidad de las
redes que se incluyen en el modelo de minería de datos. La
selección de características reduce el número de atributos de
entrada o de predicción a los más relevantes estadísticamente
para el modelo.

Todos los algoritmos de minería de datos de Analysis Services


usan automáticamente la selección de características para
mejorar el análisis y reducir la carga de procesamiento. El
método usado para la selección de características en los
modelos de red neuronal depende del tipo de datos del atributo.

76
3.4.4.2. Métodos de puntuación
La puntuación es un tipo de normalización que, en el contexto
del entrenamiento de un modelo de red neuronal, hace
referencia al proceso de convertir un valor, como una etiqueta de
texto discreta, en un valor que se pueda comparar con otros
tipos de entradas y que se pueda pesar en la red. Por ejemplo, si
un atributo de entrada es Sexo y los valores posibles son
Hombre y Mujer, y otro atributo de entrada es Ingresos, con un
intervalo de valores variable, los valores para cada atributo no
son comparables directamente y, por consiguiente, deben estar
codificados a una escala común para que se puedan calcular los
pesos. Puntuar es el proceso de normalizar tales entradas para
los valores numéricos, específicamente, para un intervalo de
probabilidades. Las funciones usadas para la normalización
también ayudan a distribuir más uniformemente los valores de
entrada en una escala uniforme para que los valores extremos
no distorsionen los resultados del análisis.

Las salidas de la red neuronal también están codificadas. Si hay


un único destino para la salida (es decir, la predicción), o varios
destinos que se usan solo para la predicción, no para la entrada,
el modelo crea una red única y es posible que no sea necesario
normalizar los valores. Sin embargo, si se usan varios atributos
para la entrada y la predicción, el modelo debe crear varias
redes; por tanto, se deben normalizar todos los valores y, al salir
de la red, las salidas deberán estar codificadas.

La codificación de las entradas se basa en la suma de cada valor


discreto de los casos de entrenamiento y en la multiplicación de
ese valor por su peso. Esto se denomina suma ponderada, que
se pasa a la función de activación del nivel oculto.

Una vez codificados los valores, se realiza una suma ponderada


de las entradas, con los extremos de la red como pesos.

77
La codificación de las salidas usa la función sigmoidea, que tiene
propiedades que la hacen muy útil para la predicción. Una de
esas propiedades es que, sin tener en cuenta cómo se ajusta la
escala de los valores originales, y sin tener en cuenta si los
valores son negativos o positivos, la salida de esta función es
siempre un valor entre 0 y 1, lo que resulta apropiado para la
estimación de probabilidades. Otra propiedad útil es que la
función sigmoidea tiene un efecto suavizador que hace que
cuando los valores se alejan del punto de inflexión, la
probabilidad del valor se aproxima lentamente a 0 o a 1.

3.4.4.3. Personalizar el algoritmo de red neuronal


El algoritmo de red neuronal de Microsoft admite varios
parámetros que afectan al comportamiento, al rendimiento y a la
precisión del modelo de minería de datos resultante. También
puede modificar la forma en la que el modelo procesa los datos;
para ello, puede establecer marcas de modelado en las
columnas o marcas de distribución que especifiquen cómo se
deben procesar los valores dentro de la columna.

A continuación se describen los parámetros que se pueden usar


con el algoritmo de red neuronal de Microsoft.

HIDDEN_NODE_RATIO
Especifica la proporción entre neuronas ocultas y
neuronas de entrada y de salida. La siguiente fórmula
determina el número inicial de neuronas de la capa
oculta:
HIDDEN_NODE_RATIO * SQRT(Total input neurons *
Total output neurons)
El valor predeterminado es 4,0.

HOLDOUT_PERCENTAGE
Especifica el porcentaje de escenarios de los datos de
entrenamiento utilizados para calcular el error de
exclusión, que se utiliza como parte de los criterios de
78
detención durante el entrenamiento del modelo de
minería de datos.
El valor predeterminado es 30.

HOLDOUT_SEED
Especifica un número que se utiliza para inicializar el
generador pseudoaleatorio cuando el algoritmo
determina aleatoriamente los datos de exclusión. Si este
parámetro se establece en 0, el algoritmo genera la
inicialización basada en el nombre del modelo de
minería de datos, para garantizar que el contenido del
modelo permanece intacto al volver a realizar el
proceso.
El valor predeterminado es 0.

MAXIMUM_INPUT_ATTRIBUTES
Determina el número máximo de atributos de entrada
que se pueden proporcionar al algoritmo antes de
emplear la selección de características. La función de
selección de atributos de entrada se deshabilita cuando
este valor se establece en 0.
El valor predeterminado es 255.

MAXIMUM_OUTPUT_ATTRIBUTES
Determina el número máximo de atributos de salida que
se pueden proporcionar al algoritmo antes de emplear la
selección de características. La característica de
selección de atributos de salida se deshabilita cuando
este valor se establece en 0.
El valor predeterminado es 255.

MAXIMUM_STATES
Especifica el número máximo de estados discretos por
atributo que admite el algoritmo. Si en número de
estados de un atributo específico es mayor que el
número especificado para este parámetro, el algoritmo

79
utiliza los estados más frecuentes de este atributo y
trata al resto como estados que faltan.
El valor predeterminado es 100.

SAMPLE_SIZE
Especifica el número de escenarios que se van a utilizar
para realizar el entrenamiento del modelo. El algoritmo
utiliza el valor menor entre este número o el porcentaje
del total de escenarios que no están incluidos en los
datos de exclusión, según se especifica en el parámetro
HOLDOUT_PERCENTAGE. En otras palabras, si
HOLDOUT_PERCENTAGE se establece en 30, el
algoritmo utilizará el valor de este parámetro o un valor
igual al 70 por ciento del número total de casos, según
cuál sea menor.
El valor predeterminado es 10.000.

Figura Nº 3.14 Visor de modelo de minería de datos

3.4.4.4. Marcas de modelado


El algoritmo de red neuronal de Microsoft admite las siguientes
marcas de modelado.
80
NOT NULL
Indica que la columna no puede contener un valor
NULL. Se producirá un error si Analysis Services
encuentra un valor NULL durante el entrenamiento del
modelo.
Se aplica a las columnas de la estructura de minería de
datos.

MODEL_EXISTENCE_ONLY
Indica que el modelo solo debe considerar si existe un
valor para el atributo o si falta un valor. No importa el
valor exacto.
Se aplica a las columnas del modelo de minería de
datos.

3.4.4.5. Marcas de distribución


El algoritmo de red neuronal de Microsoft admite las siguientes
marcas de distribución. Las marcas solo se usan como
sugerencias para el modelo; si el algoritmo detecta una
distribución diferente, usará la distribución encontrada, no la
proporcionada en la sugerencia.

Normal
Indica que los valores de la columna se deben tratar
como si representasen la distribución normal o
gaussiana.

Uniforme
Indica que los valores de la columna se deben tratar
como si estuviesen distribuidos uniformemente; es
decir, la probabilidad de cualquier valor es más o menos
la misma y depende del número total de valores.

Logarítmica normal

81
Indica que los valores de la columna se deben tratar
como si estuviesen distribuidos según la curva
logarítmica normal; esto significa que el logaritmo de los
valores se distribuye normalmente.

3.4.4.6. Requisitos
Un modelo de red neuronal debe contener por lo menos una
columna de entrada y una columna de salida. El algoritmo de red
neuronal de Microsoft admite las columnas de entrada y de
predicción específicas que se enumeran en la tabla siguiente.

Columna Tipos de contenido


Continuo, cíclico, discreto,
Atributo de entrada
discretizado, clave, tabla y ordenado.
Continuo, cíclico, discreto,
Atributo de predicción
discretizado y ordenado.
Tabla Nº 3.35 Columnas de entrada y de predicción8

Figura Nº 3.15 Campos de entrada y de predicción

8
http://msdn.microsoft.com/es-es/library/ms175595.aspx
82
3.4.5. Evaluación del modelo
Seguidamente se interpretan los modelos de acuerdo al conocimiento
preexistente del dominio y los criterios de éxito preestablecidos. Se
procede a juzgar el modelo dentro del contexto del dominio. Dado el
conjunto de resultados evidencia que proporciona.

Figura Nº 3.16 Grafico de precisión de minería de datos

Figura Nº 3.17 Grafico de elevación de minería de datos


83
3.5. Fase de evaluación
En esta fase se evaluó el modelo, teniendo en cuenta el cumplimiento de los
criterios de éxito del problema. Debe considerarse además, que la fiabilidad
calculada para el modelo se aplica solamente para los datos sobre los que se
realizó el análisis. Es preciso revisar el proceso, teniendo en cuenta los resultados
obtenidos, para poder repetir algún paso anterior, en el que se haya posiblemente
cometido algún error. Considerar que se pueden emplear múltiples herramientas
para la interpretación de los resultados. Si el modelo generado es válido en
función de los criterios de éxito establecidos en la fase anterior, se procede a la
explotación del modelo. Las tareas involucradas en esta fase del proceso son las
siguientes:

3.5.1. Evaluación de los resultados.


En los pasos de evaluación anteriores, se trataron factores tales como la
exactitud y generalidad del modelo generado. Esta tarea involucra la
evaluación del modelo en relación a los objetivos del negocio y busca
determinar si hay alguna razón de negocio para la cual, el modelo sea
deficiente, o si es aconsejable probar el modelo, en un problema real si el
tiempo y restricciones lo permiten.

Figura Nº 3.18 Visor de modelo de minería de datos - financiamiento.

84
3.5.2. Proceso de revisión.
El proceso de revisión, se refiere a calificar al proceso entero de minería de
datos, con el objetivo de identificar elementos que pudieran ser mejorados.

Figura Nº 3.19 Visor de modelo de minería de datos – tiempo de atención.

3.5.3. Determinación de futuras fases.


Si se ha determinado que las fases hasta este momento han generado
resultados satisfactorios, podría pasarse a la fase siguiente, en caso
contrario podría decidirse por otra iteración desde la fase de preparación
de datos o de modelación con otros parámetros. Para nuestro caso de
investigación los modelos generados se adecuan a los supuestos
planteados anteriormente y que dieron origen al presente trabajo.

3.6. Fase de implementación


Una vez que el modelo ha sido construido y validado, se transforma en
conocimiento, este conocimiento generado nos permitió documentar y presentar
los resultados de manera comprensible a todos los componentes del sistema,
personal médico y asistencial involucrados en el proceso.

Este conocimiento principalmente se transformó en políticas de desempeño que


se difundieron para su aplicación en los diferentes consultorios que brindan una
atención a los clientes externos del Hospital Regional Docente Materno Infantil El
85
Carmen con la finalidad de mejorar e incrementar el número de atenciones en
consultorios externos. La evaluación de los resultados luego de implementado el
modelo de minería de datos son analizados en el periodo correspondiente al año
2012.

86
CAPITULO IV
ANALISIS DE RESULTADOS
4.1. Presentación de resultados.
Teniendo en cuenta el modelo de minería de datos obtenido mediante el análisis
de datos y las acciones implementadas en cada uno de los consultorios externos
que brindan el servicio de atención médica a los usuarios externos del Hospital
Regional Docente Materno Infantil El Carmen, se evalúan los resultados a fin de
validar las hipótesis planteadas en el presente trabajo de investigación.

Figura Nº 4.1 Factores de decisión de usuario externo.

Realizado el proceso de análisis de todos los datos históricos que están


almacenados en el sistema de información de salud HIS, la herramienta de
87
minería de datos proporciono como resultado tres factores principales que el
usuario externo considera relevante al momento de decidir si es atendido o no en
los consultorios externos, estos tres factores están asociados al tipo de
financiamiento, el tiempo de espera para que el usuario externo sea atendido y el
tiempo que el médico o profesional de la salud requiere para brindar el servicio. El
análisis de los resultados se detalla a continuación para cada uno de los factores
antes mencionados

Analizaremos a continuación los resultados relacionados con el tipo de


financiamiento. El Ministerio de Salud clasifica a los tipos de financiamiento de
acuerdo a la siguiente tabla:

Financiador de Salud
Código Financiador
1 Pagante - Ninguno
2 Seguro Integral de Salud
3 Essalud
Seguro Obligatorio para Accidentes de
4 Tránsito
5 Sanidad Fuerza Aérea del Perú
6 Sanidad Marina de Guerra del Perú
7 Sanidad Ejército Peruano
8 Sanidad Policía Nacional del Perú
9 Seguros Privados
10 Otros
Tabla Nº 4.1 Financiador de Salud

Cuando un usuario externo acude a solicitar una atención en consultorio externo,


utiliza cualquiera de los tipos de financiamiento para la prestación del servicio,
este dato se plasma en el Registro Diario de la atención y Otras Actividades de
Salud y procesado en el sistema de información de salud. Analicemos entonces
los resultados que proporciono la herramienta de minería de datos.

4.1.1 Factor Tipo de Financiamiento


La siguiente figura muestra el visor de modelo de minería de datos para el
factor tipo de financiamiento como atributo de entrada, para todos los
valores que son clasificados según el código de financiador de salud. De
salida se puede apreciar el estado de satisfacción del usuario externo
88
como atributo de salida, el cual está compuesto de dos valores: valor 1
igual a falso y valor 2 igual a verdadero que representa si el usuario
externo no está satisfecho o satisfecho por el servicio recibido. La sección
de variables nos permitirá correlacionar las otras variables para un
determinado valor seleccionado por atributo, que en este caso es el de tipo
de financiamiento.

Figura Nº 4.2 Factor tipo de financiamiento.

4.1.1.1 Factor Tipo de Financiamiento – Primer Valor


Como se puede apreciar en el grafico siguiente y la tabla de datos,
para el primer rango de valor que agrupa el tipo de financiamiento
de pagantes, todos los valores en tiempo de espera y de atención
no favorecen a la satisfacción del usuario externo.

89
Figura Nº 4.3 Factor financiamiento - primer valor

Favorece Favorece
Atributo Valor
False True
Tie Aten 15,224 - 19,000 100
Tie Aten 6,000 - 9,786 97,35
Tie Esp 11,000 - 16,306 96,43
Tie Esp 23,693 - 29,000 94,64
Tie Aten 12,505 - 15,224 91,35
Tie Esp 16,306 - 19,999 91
Tie Aten 9,786 - 12,505 90,47
Tie Esp 19,999 - 23,693 89,87
Tabla Nº 4.2 Atributo - valor factor financiamiento - primer valor

4.1.1.2 Factor Tipo de Financiamiento – Segundo Valor


De manera idéntica al caso anterior como se aprecia en el grafico
siguiente y la tabla de datos, para el segundo rango de valor que
agrupa el tipo de financiamiento de pagantes, todos los valores en
tiempo de espera y de atención no favorecen a la satisfacción del
usuario externo.

90
Figura Nº 4.4 Factor financiamiento - segundo valor

Favorece Favorece
Atributo Valor
False True
Tie Aten 6,000 - 9,786 100
Tie Esp 23,693 - 29,000 97,99
Tie Aten 15,224 - 19,000 93,26
Tie Aten 9,786 - 12,505 88,9
Tie Esp 19,999 - 23,693 87,62
Tie Esp 11,000 - 16,306 86,52
Tie Aten 12,505 - 15,224 86,03
Tie Esp 16,306 - 19,999 85,81
Tabla Nº 4.3 Atributo - Valor factor financiamiento - segundo valor

4.1.1.3 Factor Tipo de Financiamiento – Tercer Valor


Para el tercer valor que corresponde al tipo de financiamiento por
parte del seguro integral de salud, se evidencia que los valores en
tiempo de espera y de atención sea cual sea el valor favorecen a la
satisfacción del usuario externo. Tiempos en espera y en atención
no son considerados relevantes por el usuario.

91
Figura Nº 4.5 Factor financiamiento - tercer valor

Favorece Favorece
Atributo Valor
False True
Tie Esp 19,999 - 23,693 100
Tie Esp 23,693 - 29,000 99,34
Tie Aten 12,505 - 15,224 99,18
Tie Esp 11,000 - 16,306 98,43
Tie Aten 6,000 - 9,786 97,42
Tie Esp 16,306 - 19,999 96,72
Tie Aten 9,786 - 12,505 95,5
Tie Aten 15,224 - 19,000 88,65
Tabla Nº 4.4 Atributo - Valor factor financiamiento - tercer valor

4.1.1.4 Factor Tipo de Financiamiento – Cuarto Valor


Para el cuarto valor que corresponde al tipo de financiamiento por
parte de seguros como Essalud, SOAT y otros convenios con
entidades del estado, se evidencia que los valores en tiempo de
espera y de atención sea cual sea el valor favorecen a la
satisfacción del usuario externo. En este caso los tiempos de
atención que estén en el rango de 15 a 19 minutos influyen en un
85.89% y los tiempos de espera que estén en el rango de 19 a 23
minutos solo influye en un 43.25%

92
Figura Nº 4.6 Factor financiamiento - cuarto valor

Favorece Favorece
Atributo Valor
False True
Tie Aten 6,000 - 9,786 100
Tie Aten 15,224 - 19,000 85,89
Tie Esp 11,000 - 16,306 72,7
Tie Esp 23,693 - 29,000 68,36
Tie Aten 9,786 - 12,505 50,17
Tie Aten 12,505 - 15,224 43,82
Tie Esp 16,306 - 19,999 43,76
Tie Esp 19,999 - 23,693 43,25
Tabla Nº 4.5 Atributo - Valor factor financiamiento - cuarto valor

4.1.2 Factor Tiempo de Atención


La siguiente figura muestra también el visor de modelo de minería de datos
para el factor tiempo de atención como atributo de entrada, para todos los
valores que son agrupados de acuerdo al tiempo de atención en minutos
que el profesional de salud otorga al usuario externo en una consulta
médica. También se evalúa la satisfacción del usuario externo como
atributo de salida, el cual también está compuesto de dos valores: valor 1
igual a falso si el usuario no está satisfecho con el servicio y el valor 2 igual

93
a verdadero que representa si el usuario externo si está satisfecho por el
servicio recibido. Del mismo modo la sección de variables nos permitirá
correlacionar las otras variables tipo de financiamiento y tiempo de espera
para un determinado valor seleccionado por atributo, que en este caso es
el de tipo de tiempo de atención.

Figura Nº 4.7 Factor tiempo de atención

4.1.2.1 Factor Tiempo de Atención – Primer Valor


Para el primer rango de tiempo de atención comprendido entre 6 a
10 minutos aproximadamente se puede ver que sólo el tipo de
financiamiento pagante en la clasificación de pagante influye
favorablemente en un 26,26% y los que están en el seguro integral
de salud en un 16,47%, para los valores restantes no se evidencian
influencia alguna al grado de satisfacción del usuario externo.

94
Figura Nº 4.8 Factor tiempo de atención – primer valor

Favorece Favorece
Atributo Valor
False True
Financ 1,000 - 1,046 100
Financ 1,046 - 1,603 67,07
Financ 1,603 - 2,160 26,26
Financ 2,160 - 4,082 16,47
Tie Esp 23,693 - 29,000 15,34
Tie Esp 19,999 - 23,693 8,34
Tie Esp 16,306 - 19,999 5,25
Tie Esp 11,000 - 16,306 3,57
Tabla Nº 4.6 Atributo - Valor factor tiempo de atención - primer valor

4.1.2.2 Factor Tiempo de Atención – Segundo Valor


Para el segundo rango de tiempo de atención comprendido entre 10
a 13 minutos aproximadamente se puede ver que sólo el tipo de
financiamiento seguro integral de salud influye favorablemente en
un 27,7% y los que están en Essalud y otros en tan solo un 8,89%,
para los valores restantes no se evidencian influencia alguna al
grado de satisfacción del usuario externo.

95
Figura Nº 4.9 Factor tiempo de atención – segundo valor

Favorece Favorece
Atributo Valor
False True
Financ 1,000 - 1,046 100
Financ 1,046 - 1,603 64,15
Financ 1,603 - 2,160 27,7
Tie Esp 23,693 - 29,000 10,32
Financ 2,160 - 4,082 8,89
Tie Esp 19,999 - 23,693 3,43
Tie Esp 16,306 - 19,999 1,05
Tie Esp 11,000 - 16,306 0,57
Tabla Nº 4.7 Atributo - Valor factor tiempo de atención - segundo valor

4.1.2.3 Factor Tiempo de Atención – Tercer Valor


Para el tercer rango de tiempo de atención comprendido entre 13 a
15 minutos aproximadamente se puede ver que el tipo de
financiamiento seguro integral de salud influye favorablemente en
un 28,49% y los que están en Essalud y otros en tan solo un
7,69%, para los valores restantes se evidencian cierta influencia en
relación al tiempo de espera, influencia que va desde 0,28% a
1,21%.

96
Figura Nº 4.10 Factor tiempo de atención – tercer valor

Favorece Favorece
Atributo Valor
False True
Financ 1,000 - 1,046 100
Financ 1,046 - 1,603 61,49
Financ 1,603 - 2,160 28,49
Financ 2,160 - 4,082 7,69
Tie Esp 23,693 - 29,000 2,42
Tie Esp 11,000 - 16,306 1,21
Tie Esp 19,999 - 23,693 0,65
Tie Esp 16,306 - 19,999 0,28
Tabla Nº 4.8 Atributo - Valor factor tiempo de atención - tercer valor

4.1.2.4 Factor Tiempo de Atención – Cuarto Valor


En el cuarto rango de tiempo de atención comprendido entre 15 a
19 minutos aproximadamente se puede ver que el tipo de
financiamiento seguro integral de salud sigue influyendo
favorablemente en un 23,26% y los que están en Essalud y otros
en un 13,77%, para los valores restantes también se evidencian
cierta influencia en relación al tiempo de espera, influencia que va
desde 0,09% al 0,36%.

97
Figura Nº 4.11 Factor tiempo de atención – cuarto valor

Favorece Favorece
Atributo Valor
False True
Financ 1,000 - 1,046 100
Financ 1,046 - 1,603 60,89
Financ 1,603 - 2,160 23,26
Financ 2,160 - 4,082 13,77
Tie Esp 16,306 - 19,999 2,61
Tie Esp 19,999 - 23,693 2,17
Tie Esp 11,000 - 16,306 0,36
Tie Esp 23,693 - 29,000 0,09
Tabla Nº 4.9 Atributo - Valor factor tiempo de atención - cuarto valor

4.1.3 Factor Tiempo de Espera


La siguiente figura muestra el visor de modelo de minería de datos para el
factor tiempo de espera como atributo de entrada, para todos los valores
que son agrupados de acuerdo al tiempo que un usuario externo espera
para tener una consulta médica y ser atendido por un profesional de salud.
También se evalúa la satisfacción del usuario externo como atributo de
salida, el cual también está compuesto de dos valores: valor 1 igual a falso
si el usuario no está satisfecho con el servicio y el valor 2 igual a verdadero
que representa si el usuario externo si está satisfecho por el servicio

98
recibido. Del mismo modo la sección de variables nos permitirá
correlacionar las otras variables de financiamiento y tiempo de atención
para un determinado valor seleccionado por atributo, que en este caso es
el de tipo de tiempo de espera.

Figura Nº 4.12 Factor tiempo de espera

4.1.3.1 Factor Tiempo de Espera – Primer Valor


Para el primer rango de valores de tiempo de espera comprendido
entre 11 a 16 minutos aproximadamente se puede ver que el tipo
de financiamiento seguro integral de salud sigue influyendo
favorablemente en un 26,79% y los que están en Essalud y otros en
un 12,09%, para los valores restantes también se evidencian cierta
influencia en relación al tiempo de atención, influencia que va desde
0,37% al 1,15%.

99
Figura Nº 4.13 Factor tiempo de espera – primer valor

Favorece Favorece
Atributo Valor
False True
Financ 1,000 - 1,046 100
Financ 1,046 - 1,603 58,58
Financ 1,603 - 2,160 26,79
Financ 2,160 - 4,082 12,09
Tie Aten 6,000 - 9,786 3,6
Tie Aten 12,505 - 15,224 1,15
Tie Aten 9,786 - 12,505 0,53
Tie Aten 15,224 - 19,000 0,37
Tabla Nº 4.10 Atributo - Valor factor tiempo de espera - primer valor

4.1.3.1 Factor Tiempo de Espera – Segundo Valor


En el segundo rango de tiempo de espera comprendido entre 16 a
20 minutos aproximadamente se puede ver que el tipo de
financiamiento seguro integral de salud sigue influyendo
favorablemente en un 27,89% y los que están en Essalud y otros
en un 7,71%, otro factor que influye es el tiempo de atención en un
valor reducido de 0,28%. Otros valores restantes no influyen en la
condición de satisfacción del usuario externo.

100
Figura Nº 4.14 Factor tiempo de espera – segundo valor

Favorece Favorece
Atributo Valor
False True
Financ 1,000 - 1,046 100
Financ 1,046 - 1,603 61,57
Financ 1,603 - 2,160 27,89
Financ 2,160 - 4,082 7,71
Tie Aten 6,000 - 9,786 5,62
Tie Aten 15,224 - 19,000 2,87
Tie Aten 9,786 - 12,505 1,04
Tie Aten 12,505 - 15,224 0,28
Tabla Nº 4.11 Atributo - Valor factor tiempo de espera - segundo valor

4.1.3.1 Factor Tiempo de Espera – Tercer Valor


En el tercer rango de tiempo de espera comprendido entre 20 y 24
minutos aproximadamente se puede ver que el tipo de
financiamiento seguro integral de salud continúa influyendo
favorablemente en un 29,2% y los que están en Essalud y otros en
un 7,71%, otro factor que influye es el tiempo de atención en un
valor reducido de 0,66%. Otros valores restantes no influyen en la
condición de satisfacción del usuario externo.

101
Figura Nº 4.15 Factor tiempo de espera – tercer valor

Favorece Favorece
Atributo Valor
False True
Financ 1,000 - 1,046 100
Financ 1,046 - 1,603 63,65
Financ 1,603 - 2,160 29,2
Tie Aten 6,000 - 9,786 9,03
Financ 2,160 - 4,082 7,71
Tie Aten 9,786 - 12,505 3,45
Tie Aten 15,224 - 19,000 2,42
Tie Aten 12,505 - 15,224 0,66
Tabla Nº 4.12 Atributo - Valor factor tiempo de espera - tercer valor

4.1.3.1 Factor Tiempo de Espera – Cuarto Valor


En el cuarto rango de tiempo de espera comprendido entre 24 y 29
minutos aproximadamente se puede ver que el tipo de
financiamiento seguro integral de salud sigue influyendo
favorablemente en un 27,55% y los que están en Essalud y otros
en un 11,58%, otro factor que influye es el tiempo de atención en un
valor reducido de 0,1%. Otros valores restantes no influyen en la
condición de satisfacción del usuario externo.

102
Figura Nº 4.16 Factor tiempo de espera – cuarto valor

Favorece Favorece
Atributo Valor
False True
Financ 1,000 - 1,046 100
Financ 1,046 - 1,603 67,6
Financ 1,603 - 2,160 27,55
Tie Aten 6,000 - 9,786 15,78
Financ 2,160 - 4,082 11,58
Tie Aten 9,786 - 12,505 9,87
Tie Aten 12,505 - 15,224 2,34
Tie Aten 15,224 - 19,000 0,1
Tabla Nº 4.13 Atributo - Valor factor tiempo de espera - cuarto valor

Luego de evaluar los diferentes factores que fueron analizados por la herramienta
de minería de datos, se concluye que uno de los factores que el usuario externo
considera más influyente al momento de tomar una decisión al requerir una
consulta médica en consultorios externos es el factor de financiamiento; y en
particular el que está cubierto por el seguro integral de salud. Cuando un usuario
externo es atendido por este medio de financiamiento, los factores como tiempo
de atención y tiempo de espera no son factores que toma en cuenta para que al
finalizar de la consulta médica considere estar satisfecho de haber recibido una
atención.

103
Cuando se evalúa el factor tiempo de atención, asociado al factor fuente de
financiamiento y en particular el que corresponde al usuario externo como
pagante, este factor si es considera influyente en la condición de satisfacción del
usuario externo. Del mismo modo para las fuentes de financiamiento como los que
brinda Essalud, Seguro Obligatorio de Accidentes de Tránsito, Sanidad Marina de
Guerra del Perú, Sanidad Fuerza Aérea del Perú, Sanidad Policía Nacional del
Perú, Seguros Privados y otros, el factor tiempo de atención también es un factor
influyente, pero en menor grado. Se considera además que para que una atención
médica esté considerada dentro de los estándares de salud según las directivas
del Ministerio de Salud, ésta debe ser de al menos 15 minutos.

Finalmente para la evaluación del tiempo de espera, sólo para el caso en el que la
atención médica del usuario externo es financiada por el seguro integral de salud,
éste no se considera influyente, en cambio para los que son pagantes y demás
como Essalud, Seguro Obligatorio de Accidentes de Tránsito, Sanidad Marina de
Guerra del Perú, Sanidad Fuerza Aérea del Perú, Sanidad Policía Nacional del
Perú, Seguros Privados y otros, si es un factor que se considera influyente.

Como se puede evidenciar para incrementar las atenciones en el Hospital


Regional Docente Materno Infantil El Carmen se debe enfocar en mejorar los
estándares de atención médica, específicamente en el tiempo de atención y el
tiempo de espera para todos los usuarios externos que son pagantes y afiliados a
Essalud, Seguro Obligatorio de Accidentes de Tránsito, Sanidad Marina de Guerra
del Perú, Sanidad Fuerza Aérea del Perú, Sanidad Policía Nacional del Perú,
Seguros Privados y otros. Estas conclusiones fueron remitidas a la unidad de
promoción de la salud con el objetivo de ser incorporarlas dentro del plan
estratégico institucional, para posteriormente ser de conocimiento generalizado y
uso obligatorio.

Posterior a la implantación de las recomendaciones obtenidas luego del análisis


de datos, se procedió a elaborar un cuadro comparativo del número de atenciones
en consultorios externos, evidenciándose un incremento considerable en la
prestación de atenciones en el año 2012 en comparación a los años anteriores; se
incluye también los valores para el primer semestre del 2013, que como se puede
apreciar también tienen una tendencia creciente.
104
AÑOS
Atenciones 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013
43326 43867 42825 43203 44048 39943 38167 37526 83277 57312
Fuente: Elaboración Propia

Tabla Nº 4.14 Atenciones por años en consultorios externos

Figura Nº 4.17 Atenciones por años en consultorios externos

UNIDADES PRESTADORAS DE SALUD 2012 2013-I


SALUD AMBIENTAL 4 8
SERVICIOS SOCIAL 333 260
CIRUGÍA PEDIÁTRICA 143 226
CRECIMIENTO Y DESARROLLO 5707 3720
INMUNIZACIONES 10548 6574
GINECOLOGIA 3116 2381
GINECOLOGIA ONCOLOGICA 922 651
GINECOLOGÍA Y OBSTETRICIA 5733 2748
PLANIFICACION FAMILIAR 6742 3525
MATERNO PERINATAL 6038 5098
MEDICINA REHABILITACION 369 25
MEDICINA INTERNA 570 423
MEDICINA ONCOLOGICA 3162 4177
CONSULTORIO CONTROL TUBERCULOSIS 556 779
OBSTETRICIA 13859 12646
PSICOPROFILAXIS 527 751
ODONTOLOGIA GENERAL 4770 2686
OFTALMOLOGIA 1419 43
PEDIATRIA 12054 6589
PSICOLOGIA 2154 1604
PSIQUIATRIA 353 37
ENFERMERIA 4198 2029
MEDICINA GENERAL 0 16
TRAUMATOLOGIA 0 316
TOTAL 83277 57312
Fuente: Elaboración Propia

Tabla Nº 4.15 Atenciones en consultorios externos por servicios


105
Figura Nº 4.18 Atenciones en consultorios externos por servicios

Del mismo modo se presenta una tabla y grafico comparativo de atenciones en


consultorios externos por servicio del año 2012 y del primer semestre del 2013, se
puede apreciar que en algunos de los consultorios las atenciones se han
incrementado a tal grado de superarlas en relación al año 2012. Y en promedio el
avance de atenciones del año 2013 al primer semestre ya llego al 68.82%, siendo
probable un crecimiento del 40 % aproximadamente por año. Cabe aclarar que en
algunos consultorios como por ejemplo medicina de rehabilitación, oftalmología y
psiquiatría no existe incremento a causa de rotación del personal al Hospital
Regional Docente Médico Quirúrgico Daniel Alcides Carrión. Tales consultorios ya
no existen en el Hospital Regional Docente Materno Infantil El Carmen desde el
mes de febrero del 2013.

4.1. Prueba de Hipótesis.


Para validar la hipótesis haremos referencia en primera instancia al objetivo de
nuestra investigación que era el de determinar los factores que influyen en el
comportamiento de las atenciones médicas realizadas al usuario externo en el
Hospital Regional Docente Materno Infantil - El Carmen a fin de modificar el

106
comportamiento decreciente que se evidenciaba en la baja del número de
atenciones. Este objetivo ha sido realizado, como se ha podido apreciar en el
capítulo III; se tiene identificado los factores que influyente al momento de brindar
una atención médica en consultorios externos.

Los factores de tiempo de atención, tiempo de espera y financiador de la atención


médica fueron alineados a los estándares de atención médica definidos por el
Ministerio de Salud e incorporados a los protocolos de atención médica
considerados de uso obligatorio, permitieron mejorar los indicadores hospitalarios
en consultorios externos como por ejemplo la productividad:

Años Horas
2007 2008 2009 2010 2011 2012 2013 Programadas
Atenciones 43203 44048 39943 38167 37526 83277 57312 51756
Productividad 0.83 0.85 0.77 0.74 0.73 1.61 1.11
Fuente: Elaboración Propia

Tabla Nº 4.16 Productividad en consultorios externos por años

En la tabla anterior se puede apreciar que el año 2012 la productividad es de 1.61


es decir se incrementó en 0.88 en relación al año 2011 y en lo que va del primer
semestre del presente año la productividad ya está en un valor de 1.11.

Figura Nº 4.19 Productividad en consultorios externos


107
Del mismo modo otro indicador que evidencia una mejora significativa es el de la
concentración en consultorios externos:

Atendidos Atenciones
Grupo Etareo Concentración
Total Total Consultas
NIÑOS 11209 29351 2.62
ADOLESCENTES 1052 2479 2.36
JOVENES 7494 22628 3.02
ADULTOS 10083 26339 2.61
ADULTOS MAYORES 1185 2480 2.09
TOTAL GENERAL 31023 83277 2.68
Fuente: Elaboración Propia

Tabla Nº 4.17 Concentración en consultorios externos año 2012

Atendidos Atenciones
Grupo Etareo Concentración
Total Total Consultas
NIÑOS 9394 16686 1.78
ADOLESCENTES 715 1526 2.13
JOVENES 5094 15711 3.08
ADULTOS 6214 21277 3.42
ADULTOS MAYORES 814 2112 2.59
TOTAL GENERAL 22231 57312 2.58
Fuente: Elaboración Propia

Tabla Nº 4.18 Concentración en consultorios externos año 2013-I

AÑOS
2008 2009 2010 2011 2012 2013
Concentración 1.5 1.6 1.8 1.5 2.68 2.58
Fuente: Elaboración Propia

Tabla Nº 4.19 Concentración en consultorios externos por años.

Para el estándar de concentración en consultorios externos se puede apreciar


también un incremento de 1.5 del año 2011 a 2.68 en el 2012 y de 2.58 el primer
semestre del año 2013, este indicador se traduce en el número de veces que un
usuario externo recibe una atención. Si bien es cierto el estándar planteado por el
Ministerio de Salud es de 4.0 y lamentablemente no se cumple, puedo afirmar que
al ritmo de crecimiento que se tiene en la actualidad este valor será alcanzado en
el menor tiempo posible.

108
Figura Nº 4.20 Proyección de concentración en consultorios

En consecuencia si el personal de salud atiende una consulta médica


considerando los estándares de atención médica entonces se mejora los
indicadores de consultorios externos externo.

Las tablas de atenciones por años en consultorios externos y atenciones en


consultorios externos por servicios muestran un incremento considerable en el
número de atenciones en consultorios externos. Este incremento se logró gracias
a la incorporación de los factores que influyen en una atención médica y que se
hicieron parte del protocolo de atención médica. Además se identificaron atreves
del modelo de red neuronal artificial.

109
CONCLUSIONES

1. El análisis de datos utilizando el algoritmo de redes neuronales artificiales como


herramienta de minería de datos permite determinar los factores que influyen en el
comportamiento de las atenciones médicas realizadas al usuario externo del Hospital
Regional docente Materno Infantil El Carmen.

2. Los factores que influyen en el comportamiento de las atenciones médicas en el Hospital


Regional docente Materno Infantil El Carmen son: Tiempo de espera para recibir la
atención médica, el tiempo que dura la prestación de la atención médica y el tipo de
financiamiento de la atención médica.

3. La incorporación de los factores que influyen en el comportamiento de las atenciones


médicas en el protocolo de atención médica de cada uno de los consultorios médicos y
considerando la misma de uso obligatorio permite mejorar los indicadores hospitalarios
de consultorios externos, tales como número de atenciones, productividad y
concentración en consultorios externos.

4. Las áreas de Gestión de la Calidad y Promoción de la Salud son las que permitieron la
implantación de los resultados de la presente investigación en los protocolos de atención
médica de los diferentes consultorios externos, así mismo permitió mejorar las
deficiencias encontradas como diagnóstico del programa de salud individual en el plan
estratégico del Hospital Regional Docente Materno Infantil El Carmen.

110
RECOMENDACIONES

1. Supervisar constantemente el cumplimiento del protocolo de atención médica ya que está


elaborada considerando los factores que el usuario externo considera relevante, con el
objetivo de seguir mejorando constantemente la calidad de atención y así lograr cumplir
las metas en los diferentes indicadores propuestos por el Ministerio de Salud.

2. Implementar un sistema de información de registro de atenciones médicas en línea ya


que el sistema actual se procesa en fechas posteriores a la atención brindada al usuario
externo y en un entorno DOS desarrollado en Clipper con tablas y bases de datos no
relacionales. Esta base de datos no se adapta de manera automática para realizar un
análisis inteligente de los mismos.

3. El Hospital Regional Docente Materno Infantil El Carmen no solo cuenta con el sistema
HIS; adicional a ello cuenta con un sistema de egresos hospitalarios, un sistema de
emergencias y sistema informático perinatal que tienen características similares por que
se registra información del usuario externo cuando llega a hospitalizarse o a emergencia,
los datos de estos sistemas también deberían ser analizados con redes neuronales
artificiales para mejorar los indicadores de Hospitalización.

4. Difundir los procedimientos y resultados de esta investigación a otras dependencias de


salud, hospitales, centros de salud y puestos de salud para compartir y universalizar el
conocimiento adquirido y así mejorar los indicadores del sector salud de la provincia,
departamento y del país.

111
REFERENCIAS BIBLIOGRÁFICAS

1. RAÚL RICARDO LEAL ASCENCIO. Redes Neuronales Artificiales. Fundamentos,


Diseño y Aplicaciones. Jalisco: ITESO; 2001
2. DR. DIEGO ANDINA DE LA FUENTE. Tutorial de Redes Neuronales. Madrid:
Universidad Politécnica de Madrid UPM; 2005.
3. MAREN ET AL. Trends in Cognitive Sciences. 2da ed. Los Angeles: Ann Arbor;
1990.
4. DEMUTH & BEALE. Neural Network Design. 1ra ed. California: Uwano; 1992.
5. WIDROW & HOFF, Adaptive switching circuits. 1ra ed. New York: IRE WESCON
Convention Record; 1960.
6. PAUL WATTA, MOHAMAD HASSOUN, AND NORMAN DANNUG. Aplicación en
Java de una Red Neuronal para aproximar distintas funciones. Detroit: Wayne
State University; 1996.
7. FRANK ROSENBLATT. Principles of neurodynamics: Perceptrons and the theory
of brain mechanisms. 1ra ed. New York: Morgan Kaufmann; 1962.
8. RUMELHART ET AL. Learning Internal Representations by Error Propagation. 1ra
ed. Cambridge, Massachusetts: MIT Press; 1986.
9. INSUK LEE, SHAILESH V. Date. Improving Regression Estimation. 1ra ed. San
Francisco: Genentech Hall; 1991.
10. MANUEL GÓMEZ DE LIMA. Redes Neuronales Aplicada a los negocios [tesis de
grado]. Buenos Aires: Servicio de Publicación e Intercambio Científico,
Universidad Privada de Buenos Aires; 2006.

112
REFERENCIAS ELECTRONICAS
1. http://www.ecured.cu/index.php/Redes_neuronales_artificiales
Redes Neuronales Artificiales – Último acceso 15/07/2013 17:00
2. http://www.electronica.com.mx/neural/
Redes Neuronales Artificiales – Último acceso 21/04/2013 19:00
3. http://www.docstoc.com/docs/108536243/Redes-Neuronales-Artificiales
Conceptos de Redes Neuronales Artificiales – Último acceso 22/05/2013 22:00
4. http://msdn.microsoft.com/es-es/library/ms174949.aspx
Conceptos de Minería de Datos – Último acceso 20/08/2013 22:00
5. http://msdn.microsoft.com/es-es/library/ms174941.aspx
Algoritmo de Red Neuronal de Microsoft – Último acceso 19/07/2013 20:00
6. http://msdn.microsoft.com/es-es/library/cc645783.aspx
Minería de Datos para Redes Neuronales – Último acceso 19/07/2013 22:00
7. http://msdn.microsoft.com/es-es/library/cc645876.aspx
Consultas de Modelos de Red Neuronal – Último acceso 25/08/2013 19:00
8. http://www.microsoft.com/en-us/sqlserver/solutions-technologies/business-
intelligence/analysis.aspx
Microsoft SQL Server – Analysis Services – Último acceso 25/08/2013 22:00
9. http://technet.microsoft.com/en-us/library/ms141026.aspx
Microsoft SQL Server – Integration Services – Último acceso 28/08/2013 20:00
10. http://technet.microsoft.com/en-us/library/ms187875.aspx
Microsoft SQL Server – Database Engine – Último acceso 28/08/2013 21:00

113
ANEXOS

114
Anexo N° 01
Objetivos Estratégico General por Programas

El Hospital “El Carmen” Huancayo, ha priorizado los objetivos estratégicos Generales


siguientes:

OBJETIVO GENERAL 1
PROGRAMA: 064 SALUD INDIVIDUAL
Fortalecer los servicios hospitalarios especializados de salud para garantizar la calidad
de la atención y la accesibilidad de la población usuaria.

OBJETIVO GENERAL 2
PROGRAMA: 063 SALUD COLECTIVA
Al 2010 El Hospital El Carmen acredita como Centro Laboral Saludable, que
promueva la cultura preventiva y promocional de la salud.

OBJETIVO GENRAL 3
PROGRAMA: 003 ADMINISTRACION
Fortalecer un modelo de gestión moderna que nos permita contar con una adecuada
cultura organizacional, personal competente, infraestructura y equipamiento.

Diagnóstico Programas Principales, Acciones a Implementar

HOSPITAL REGIONAL DOCENTE MATERNO INFANTIL “EL CARMEN” HUANCAYO

Diagnostico Programa Principal Acciones a Implementar


Programa 1 : Salud Individual Actividades

Demanda de usuarios por los servicios 1. Incrementar personal profesional médico


médicos especializados. especializado y otros profesionales de acuerdo a
la categoría alcanzado Nivel II-2.
Existencia de competencia desleal de los 2. Fortalecer las competencias del recurso humano a
competidores privados. través de capacitaciones
Demora en la atención a los usuarios 3. Desarrollar Planes de Mejoramiento continuo de la
calidad de los servicios de salud.
Insuficiente personal profesional y no
profesional de acuerdo a la categoría
alcanzada 4. Ampliar la atención de los Consultorios externos.
Disminución de las atenciones en consultorios 5. Fortalecer la operatividad de la Unidad de Gestión
externos de la calidad
El rendimiento de la hora médica se encuentra 6. Promover el uso de las Guías de Prácticas
por debajo de los Estándares establecidos. Clínicas.
Incidencia de la mortalidad materna 7. Optimizar los principales centros de producción
de servicios de salud.
Disminución de los partos institucionales. 8. Disminuir los tiempos de espera del usuario para
las consultas externas y servicios intermedios.
Prevalencia de las enfermedades respiratorias 9. Implementar un Sistema adecuado de orientación
al paciente.
Incremento de los casos de VIH SIDA.

115
Programa 2 : Salud Colectiva Actividades
Prevalencia de las enfermedades transmisibles 1. Desarrollar Planes de sensibilización dirigidos al
y el crecimiento de los no transmisibles. personal que permita crear una cultura
saludable.
Escasa participación ciudadana en salud 2. Mejorar la disposición final de los residuos sólidos
hospitalarios.
Población con estilos de vida inadecuadas. 3. Mejorar el Sistema de prevención y control de
Infecciones Intrahospitalarias.
Deficiente atención en salud integral en 4. Implementar la seguridad e higiene ambiental del
enfermedades crónicas degenerativas establecimiento de salud.
deficiente sistema de saneamiento básico 5. Implementar servicios preventivos promocionales
intrahospitalario para la atención de las afecciones crónicas
degenerativas.
6. Reformular y ejecutar el Plan de socialización
para el ejercicio de deberes y derechos en salud.
7. Establecer convenios con los medios de
comunicación masiva para la difusión de
programas preventivos de la salud y de
protección de deberes y derechos.
Programa 3 : Administración Actividades
Inadecuada Infraestructura Hospitalaria. 1. Desarrollar Planes de Capacitación permanente
para el personal a todo nivel.
No se cuenta con el Título de propiedad de los 3. Elaborar perfiles de proyecto de inversión para la
capacitación y especialización de recursos
terrenos.
humanos.
Inadecuada cultura organizacional 4. Formular perfiles de proyectos de inversión
Publica para mejorar la Infraestructura
hospitalaria.
Escasa identificación institucional de los 5. Formular perfiles de proyecto para renovación e
implementación de Equipos médicos
trabajadores
hospitalarios.
Modelo de gestión tradicional 7. Lograr el saneamiento físico legal de los bienes
inmuebles.
Incipiente uso de Guías de atención. 8. Formular perfil de proyecto de inversión para
ampliar la red informática en todos los servicios.
Inadecuada distribución de recursos
9. Implementar y Mejorar los programas de software
humanos, materiales y equipos.
de los diferentes servicios.
Escaso trabajo en equipo multidisciplinario 11. Desarrollar planes para el cambio de actitudes y
práctica de valores.
Documentos de gestión inadecuados y
12. Realizar campañas de sensibilización contra la
desactualizados.
corrupción.
Insuficientes programas de de motivación e
13. Implementación de programas de motivación e
incentivos.
incentivos.
14. Realizar una adecuada distribución de los
recursos humanos, materiales equipos y
ambientes en los servicios.
Fuente: Oficina de Planificación.

116
Anexo N° 02
Migración de Datos de Visual FoxPro a Microsoft SQL Server
1. Paso: Creación de Base de Datos en SQL Server.

2. Paso: Importación de datos desde un origen de datos externo.

117
3. Paso: Selección de un origen de datos. Para nuestro caso el origen de datos debe
ser de Microsoft Visual FoxPro.

4. Paso: Selección de Base de Datos de origen externo y probamos la conexión.

118
5. Paso: Seleccionamos las base de datos destino, en este caso la que se encuentra
en Microsoft SQL Server.

6. Paso: Luego se especifica la copia de tabla o consulta

119
7. Paso: Seleccionamos el conjunto de tablas que serán importadas

8. Paso: Se realiza las asignaciones de columnas.

120
121
9. Paso: Se realiza finalmente el proceso de conversión de datos.

10. Paso: Se puede guardar y ejecutar el paquete de migración

122
11. Paso: Finalizamos el proceso, revisando antes el listado de actividades que
realizará la herramienta de migración.

12. Paso: Se inicia el proceso de migración.

123
13. Paso: Verificamos la existencia de la base de datos en Microsoft SQL Server

124
14. Paso: Luego se procede a elaborar el diagrama de base de datos.

125
Anexo N° 03
Creación del Modelo de Minería de Datos con Analisis Services
SQL Server
1. Paso: Crear unn nuevo proyecto de Analisis Services.

2. Paso: Crear proyecto multidimensional y de minería de datos

126
3. Paso: Creación de un origen de datos por medio del asistente.

4. Paso: Presione siguiente para iniciar el asistente para orígenes de datos.

127
5. Paso: Seleccione la conexión de datos.

6. Paso: Seleccione utilizar la cuenta de servicio.

128
7. Paso: proporcione el nombre del origen de datos.

8. Paso: Proyecto con origen de datos.

129
9. Paso: crear una vista del origen de datos.

10. Paso: Seleccione un origen de datos.

130
11. Paso: Seleccione la tabla de hechos del sistema.

12. Paso: Presione el botón agregar tablas relacionadas.

131
13. Paso: Nombre la vista de origen de datos.

14. Paso: Visualice la vista de orígenes de datos.

132
15. Paso: Inicie el asistente para minería de datos.

16. Paso: Seleccione le método de definición.

133
17. Paso: Cree una estructura de minería de datos.

18. Paso: Seleccione Red Neuronal de Microsoft.

134
19. Paso: Seleccione la vista del origen de datos..

20. Paso: Seleccione el tipo de tablas que se utilizaran en el análisis.

135
21. Paso: Especifique el tipo de tablas que se utilizara en el análisis.

22. Paso: Seleccione los campos que se utilizaran en el análisis.

136
23. Paso: seleccione campos clave de entrada y de predicción.

24. Paso: Especifique el contenido y el tipo de datos..

137
25. Paso: Presione botón detectar para que la herramienta realice la selección.

26. Paso: Crear el conjunto de pruebas.

138
27. Paso: Nombre su modelo de red neuronal.

28. Paso: Utilice el visor de modelo de minería de datos para validar su entrada y
salida.

139
29. Paso: Procese e implemente el modelo de minería de datos.

30. Paso: Presione ejecutar para procesar el modelo.

140
31. Paso: Visualizará el progreso del proceso.

32. Paso: Puede apreciar los detalles del procesamiento.

141
33. Paso: Con el visor de modelo de minería de datos puede evaluar las variables de
entrada y de salida.

142

También podría gustarte