Está en la página 1de 29

UNIVERSIDAD NACIONAL DE INGENIERÍA

FACULTAD DE INGENIERÍA ECONÓMICA, ESTADÍSTICA Y CCSS.

Escuela Profesional de Ingeniería Estadística

COMPARACIÓN DE MODELO LOGIT Y MODELO DE REDES NEURONALES


PARA IDENTIFICAR LAS VARIABLES QUE PERFILAN A LOS ACCIDENTES DE
TRÁNSITO FATALES DE LIMA METROPOLITANA - CENSO 2017

TALLER DE TESIS

Henry Cristian Vargas Gaspar

LIMA – PERÚ

2019
CAPÍTULO I
ANTECEDENTES
Investigaciones
CAPÍTULO II
PLANTEAMIENTO DEL PROBLEMA
2.1 Descripción del problema
2.2 Formulación del problema
2.3 Objetivos de la Investigación
2.4 Hipótesis de la investigación
2.5 Justificación
CAPÍTULO III
MARCO TEÓRICO
3.1 Técnicas Previas
3.2 Técnicas a usar
3.2.1 Modelo de Regresión Logística
3.2.2 Modelo de Redes Neuronales
CAPÍTULO I

ANTECEDENTES

Investigaciones

A nivel Internacional

a) Randa, M., López G y Garach L. en el 2015, en su investigación denominada


“Bayes classifiers for imbalanced traffic accidents data sets”, realizaron una
investigación con el objetivo de Realizar un modelo de predicción de gravedad
de lesiones en un accidente de tránsito mediante clasificadores de Bayesianos;
las variables que usó fueron: número de vehículos implicados, condiciones de
la superficie, velocidad, patrón de accidente, número de direcciones y obtuvo
como resultado que el uso de los conjuntos de datos balanceados, usando la
técnica de balanceo: oversampling con redes bayesianas mejoraron la
clasificación de la gravedad de lesiones en un accidente de tráfico.

b) Klaus M. en el 2013, publicó su investigación titulada “PREDICTION OF ROAD


ACCIDENTS: COMPARISON OF TWO BAYESIAN METHODS”, con el
objetivo de Establecer una metodología que permita desarrollar un modelo de
predicción de la ocurrencia de un accidente, la metodología que usaron fue
comparar dos Método Bayesianos: Modelos de Redes bayesianas
probabilísticas y Método Empírico Bayesiano.

c) Bahar D., Arenas, B., Mira J. en el 2015, publicaron un estudio titulado


“Metodología desarrollada para la selección de predictores significativos que
explican fatales accidentes de carretera en España”, con el objetivo de
proponer una metodología para la selección de los predictores significativos
que explican los accidentes mortales en carretera, la metodología utilizada fue
proponer un método basado en una red neuronal, esta metodología sigue un
razonamiento similar al de Lasso, en el sentido de que los predictores son
seleccionados teniendo en cuenta su importancia individual. La idea es
construir modelos NN con dos variables independientes (TIM). Todos los
modelos se estiman utilizando la cadena de Markov método de Monte Carlos

A nivel Nacional

A nivel nacional se tiene estudios realizados por diferentes autores, como:

A) Magen Danielle Infantes R. (Infante Rojas, 2004) licenciado en estadística,


realizó un estudio titulado: “Análisis de los accidentes de tránsito en la provincia
de la Pampa en el período 2000-2004”, cuyo objetivo fue: Mostrar la utilidad
del modelo de regresión lineal con datos que sigue la distribución poisson; y
obtuvo que, a mayor participación en accidentes, se pronostica mayor
probabilidad del número de accidentes al año, con responsabilidad o no del
chofer encuestado. así mismo concluyo que el pronóstico realizado, se puede
hacer para cualquier año con condiciones similares al año de estimación del
modelo porque el estudio no depende del tamaño de la población sino del
sistema de transporte en similares condiciones.

B) Junia Margot Molero Cazani (Molero Cazani, 2015), realizó un estudio


titulado:“La responsabilidad extracontractual frente a las víctimas en
accidentes de tránsito en la provincia de cusco – 2014”, cuyo objetivo fue:
Analizar las diferentes normas legales y Jurisprudencias para plantear
alternativas a fin de obtener una reparación integral para las víctimas, por el
daño ocasionado como consecuencia de accidentes de tránsito. Y obtuvo
como resultados: A raíz de tanta imprudencia e irresponsabilidad causa
espanto la impunidad con la cual se mata o dejan inválidas a tantas personas,
ocasionando sufrimiento personal, familiar y consecuencias económicas. Ante
estos daños causados por los accidentes de tránsito, las víctimas se
constituyen en parte agraviada del hecho, para lo cual tienen la oportunidad de
accionar civil y penalmente, a efectos de buscar una reparación económica por
los daños ocasionados. Ante este hecho prefieren solucionar su problema por
lo más inmediato formalizando una denuncia penal ante el Ministerio Público y
dejar de demandar civilmente, por responsabilidad civil extracontractual, donde
pueden conseguir una reparación integral mayor por los daños ocasionados.
Si las víctimas optaran por demandar civilmente, la reparación que se
obtendría sería de manera integral de acuerdo a los daños sufridos.

C) Milagros Grabiela Samaniego Verne (Samaniego Verne, 2008), realizó un


estudio titulado: “Propuesta de lineamientos para la elaboración de campañas
de comunicación y educación para la prevención de accidentes de tránsito
urbanos en la ciudad de Lima Metropolitana”, llego a las siguientes
conclusiones: Se ha comprobado la existencia de un comportamiento
altamente riesgoso entre los usuarios del sistema de tránsito limeño en sus
diversos roles. Estas conductas sumadas a la deficiente política de transporte
de nuestra ciudad y al desmesurado incremento de líneas de transporte
público, así como de vehículos particulares sin el debido planeamiento urbano
y vial, ha convertido al sistema de transporte limeño en un problema de
grandes dimensiones para la ciudad que afecta la salud, el desarrollo
económico y social de sus miembros. Las campañas realizadas hasta la fecha
no han logrado un impacto positivo en la reducción de accidentes de tránsito.
Una intervención planificada, sustentada en un proceso de investigación de los
actores involucrados y planteando objetivos de comunicación que promuevan
actitudes y valores ciudadanos, podría propiciar mejoras en este problema.
CAPÍTULO II

PLANTEAMIENTO DEL PROBLEMA

2.1 Descripción del problema

Los accidentes de tránsito no son hechos inevitables del destino. Es decir, existe un
alto componente de predictibilidad que permite entender el fenómeno desde diversas
ópticas, como puede ser el factor humano, mecánico y medio ambiental y de esta
forma lograr identificar y/o corregir las principales fuentes de deficiencia que
contribuyen a que sucedan accidentes viales graves

Los traumatismos y muertes causadas por los accidentes de tránsito constituyen un


problema creciente de salud pública que afecta de forma considerable a las personas
y familias de quienes la padecen por los costos y la discapacidad asociada, sumiendo
en la pobreza a muchas familias, no habiéndose estimado el impacto y el sufrimiento
humano que estos representan sobre todo en países de bajos y medianos ingresos

Según las estadística de la OMS (Organización Mundial de la Salud) “cada año se


pierden aproximadamente 1 25 millones de vidas en todo el mundo a consecuencia
de los accidentes de tránsito. Entre 20 millones y 50 millones de personas sufren
traumatismos no mortales, y a su vez una proporción de estos padecen alguna forma
de discapacidad. los accidentes de tránsito cuestan a los países aproximadamente
un 3% de su producto interior bruto”.

La PNP (Policía Nacional del Perú), durante el año 2016 registró un total de 89,304
casos de Accidentes de Tránsito, a nivel nacional por diversos tipos. Los accidentes
de tránsito más frecuentes, fueron los choques, atropellos, atropello y fuga, y colisión.
Las principales causas que generaron accidentes de tránsito fueron el exceso de
velocidad, la imprudencia del conductor, ebriedad del conductor e Imprudencia del
peatón. El costo social de los accidentes de tránsito a nivel nacional ascendió a la
suma de 56,472 víctimas; de los cuales 2,696 fallecieron y 53,776 quedaron
lesionadas con diversos grados de inaptitud para el trabajo.

El Perú en la última década, como parte de su crecimiento económico y social, viene


incrementando progresivamente su parque automotor y el transporte público, lo cual
se viene dando bajo un marco sin el debido orden y sistematización (tanto normativa
como jurídica) que aseguren condiciones de eficiencia y seguridad al usuario,
peatones y otros transportistas lo cual ha determinado el incremento del riesgo en la
ocurrencia de accidentes de tránsito. Es en este escenario, que los accidentes de
tránsito relacionados al transporte terrestre sobre todo de tipo urbano y a nivel
nacional se han convertido en un problema emergente que no sólo afecta el orden de
las ciudades, sino que alcanza niveles epidémicos en algunas áreas del país.

El incremento de muertes y lesionados graves por causa de los fenómenos viales en


nuestro país obedece a la carencia de una política clara y definida respecto al tema
de seguridad vial, lo cual impide que se destinen recursos suficientes, capaces de
lidiar con los siniestros del tráfico de forma integral. Hasta la fecha sólo se han
desarrollado respuestas temporales, aisladas y de poca trascendencia ante un
problema descontrolado y que requiere de una clara y valiente decisión política para
enfrentarlo

Los datos y cálculos en torno al dimensionamiento del impacto de los accidentes de


tránsito son difíciles de obtener en forma directa. Por ejemplo, el número y tipo de
discapacidad generalmente reportada se reduce a aquellos pacientes que requieren
intervención hospitalaria por lesiones graves, con un su registro de aquellas personas
con algún tipo de discapacidad que no requieren hospitalización

2.2 Formulación del problema

Los accidentes de tránsito son hechos de nuestro día a día, y un gran porcentaje de
ellas tiene como resultado víctimas mortales; es por ello que la presente investigación
buscará estudiar los factores asociados a los accidentes de tránsito fatales, para lo
cual se partirá de la formulación de las siguientes interrogantes:

2.2.1 Problema general

¿Qué modelo es más adecuado comparando el Modelo Logit y Modelo de Redes


Neuronales para identificar las principales variables que perfilan a los accidentes de
tránsito fatales de Lima Metropolitana según el Censo 2017?
2.2.2 Problemas específicos

- ¿Qué Modelo comparando el Modelo Logit y Modelo de Redes Neuronales


presenta los menores porcentajes de error según la técnica de validación
cruzada?

- ¿Cuáles son las principales variables que influyen en la fatalidad de los


accidentes de tránsito de Lima Metropolitana, según el Censo 2017?

- ¿Cuál es el perfil de los accidentes de tránsito de acuerdo a su propensión


de fatalidad alta y media?

2.3 Objetivos de la Investigación

2.3.1 Objetivo general

Elegir el modelo más adecuado comparando el Modelo Logit y Modelo de Redes


Neuronales para identificar las principales variables que perfilan a los accidentes de
tránsito fatales de Lima Metropolitana según el Censo 2017

2.3.2 Objetivos específicos

- Determinar el modelo comparando el Modelo Logit y Modelo de Redes


Neuronales que presente los menores porcentajes de error según la técnica de
validación cruzada.

- Describir los factores: Alcoholemia, Velocidad excesiva, Falla mecánica,


Imprudencia del conductor, Imprudencia del peatón, Imprudencia del
pasajero, Tipo Vehículo, Lugar de ocurrencia, Franja hora; de los accidentes
vehiculares ocurridos en

- Determinar las principales variables que influyen en la fatalidad de los


accidentes de tránsito de Lima Metropolitana, según el Censo 2017
- Determinar el perfil de los accidentes de tránsito de acuerdo a su propensión
de fatalidad alta y media.

2.4 Hipótesis de la investigación

2.4.1 Hipótesis general

El modelo más adecuado comparando el Modelo Logit y Modelo Redes Neuronales


para identificar las principales variables que perfilan a los accidentes de tránsito
fatales de Lima Metropolitana según el Censo 2017, resultó el Modelo de Redes
Neuronales esto en base a los siguientes indicadores: índice de sensibilidad,
especificidad e índice de Gini

2.4.2 Hipótesis específicos

- El Modelo Redes Neuronales es el que presenta los menores porcentajes de


error según la técnica de validación cruzada, esto debido al menor valor de
error de predicción en comparación con el otro modelo.

- Las principales variables que influyen en la fatalidad de los accidentes de


tránsito de Lima Metropolitana, según el Censo 2017 son las características
del conductor y las características de la carretera.

2.5 Justificación

La presente investigación es de vital importancia ya que mostrará las principales


variables que perfilan a los accidentes de tránsito fatales de Lima Metropolitana
ocurridos en el 2017.

Los beneficiarios de esta investigación serán las autoridades del Ministerio de


Transporte y Comunicaciones, y La Municipalidad Metropolitana de Lima quienes son
los responsables de plantear políticas efectivas de seguridad vial; así mismo, en el
largo plazo tendrá un impacto positivo en la población de Lima Metropolitana.
En muchas partes del mundo no se les da importancia adecuada a los accidentes
vehiculares, muchas veces por desconocimiento. Así mismo si no hay investigaciones
que demuestren que los accidentes vehiculares ocurren por factores que en la
mayoría de las veces son evitables, seguirán muriendo personas.

Cabe señalar que en el Perú no existen investigaciones con el mismo fin, recién se
está empezando a recolectar datos mediantes censos que a lo mucho son analizadas
mediante análisis descriptivo de datos; sin embargo, sí existen en países cercanos
como Chile y en países Europeos.
CAPÍTULO III

MARCO TEORICO

3.1 Técnicas Previas

3.1.1 Correlación Chi cuadrado

Una medida muy extendida para medir la dependencia e independencia, es el


estadístico Chi-cuadrado, que da una medida de la diferencia entre las
frecuencias observadas en la tabla y las “frecuencias esperadas en caso de
independencia”. Recordamos el cálculo de dichas frecuencias esperadas eij:

fi . f . j
eij 
n

Con el estadístico Chi-cuadrado se obtiene una medida de diferencia entre las


frecuencias esperadas y las frecuencias observadas. El estadístico se calcula en
la forma siguiente:

( f ij  eij ) 2
 2
exp  
eij
i j
,

Observamos las siguientes propiedades de este estadístico:

 Si todas las frecuencias observadas son iguales a la correspondiente frecuencia


( f ij  eij ) 2 ( f ij  f ij ) 2
f i , j  ei , j
 2
exp  
eij

i j eij
0
esperada, entonces i j
= .

 Esto ocurre sólo cuando las dos variables de la tabla son independientes; Por
 exp
2
0
tanto, si hay independencia entre las dos variables de la tabla,

 Cuanto mayor sea la diferencia entre las frecuencias observadas y esperadas en


la tabla, el valor de Chi cuadrado será mayor. Es decir, a mayor intensidad de la
asociación entre las variables, Chi-cuadrado será mayor.
 El valor de Chi-cuadrado siempre es positivo o cero (pues es suma de números
positivos, ya que los denominadores de la suma son todos positivos al ser suma
de números elevados al cuadrado.

 En general, a mayor número de sumandos, se obtendrá un valor mayor.

Los grados de libertad de un estadístico calculado sobre un conjunto datos se


refieren al número de cantidades independientes que se necesitan en su cálculo,
menos el número de restricciones que ligan a las observaciones y el estadístico.
El número de grados de libertad del estadístico Chi-cuadrado se calcula de la
siguiente forma:

 Se calcula, en primer lugar el número de sumandos, es decir m x n, siendo n y m


el número de filas y número de columnas en la tabla.

 A esta cantidad se debe restar el número de restricciones impuestas a las


frecuencias observadas. Observamos que podemos cambiar todas las frecuencias
de la tabla sin cambiar los totales por filas y columnas, excepto los datos en la
última fila y la última columna de la tabla, pues una vez que fijemos todos los
valores excepto estos, quedan automáticamente fijados. Por tanto, si la tabla tiene
m filas y n columnas, el número de grados de libertad es (m-1) x (n-1). Expresamos
esta dependencia en la siguiente forma:

( f ij  eij ) 2
 exp
2
    (2n1)( m1)
i j eij

3.1.2 Prueba de homogeneidad de varianzas

Uno de los supuestos que más se requieren en aplicaciones estadísticas


populares, tales como el análisis de varianza, el análisis de regresión, etc., es el
de la homogeneidad de varianzas. Este supuesto es crucial para garantizar la
calidad de los procedimientos estadísticos utilizados tanto en pruebas de
hipótesis como en la construcción de intervalos de confianza. (Correa. J 1)

Existen muchas pruebas para verificar si el supuesto de homogeneidad es


plausible o no, pero, dada la complejidad del problema, no es posible realizar

1
Estudio de potencia de pruebas de homogeneidad de varianza- Revista Colombiana de Estadística
estudios comparativos entre ellas que sean exhaustivos, ni de su comportamiento
para muestras pequeñas, ya que muchas de ellas son de carácter asintótico. En
este trabajo estudiamos el nivel real de significancia, el cual es la verdadera
probabilidad de rechazar la hipótesis nula cuando es cierta y que en pruebas no
exactas es diferente del nivel nominal, o teórico, de significancia, determinado por
el usuario, usualmente a niveles del 5 % u otros valores pequeños. Además, se
estudia la potencia de las pruebas bajo algunas alternativas abajo enunciadas.
En esta simulación se quiere comparar la prueba de Bartlett, la prueba de Levene
(Brown & Forsythe 1974), la prueba de Hartley (1950), la prueba de Cochran
(1941), la prueba de Fligner & Killeen (1976), la prueba basada en la teoría de la
información, la prueba de Layard y algunas de sus variaciones, por medio de la
potencia que cada prueba tenga con respecto a diferentes hipótesis alternas. La
idea es saber cuál es la mejor prueba y bajo qué condiciones de número de
muestras y tamaños se puede utilizar.

3.1.2.1 Notación

La notación utilizada en el presente artículo será la siguiente:


k = Número de muestras
ni = Tamaño de la i-ésima muestra
sigma2= Varianza estimada para la i-ésima población a partir de una
muestra de tamaño ni, N = n1 + n2 + · · · + nk
s 2 = Varianza total estimada
La hipótesis que se quiere probar es:
Ho : σ 2 1 = σ 2 2 = · · · = σ 2 k
Ha : σ 2 i 6= σ 2 j para por lo menos un par (i, j)

3.1.2.2 Prueba de Bartlett

Introducida por Bartlett en 1937, es una modificación del test de Neyman y Pearson
para “corregir el sesgo” ; esta prueba es la que se utiliza con más frecuencia para
probar la homogeneidad de las varianzas (Conover et al. 1981). En esta prueba los ni
en cada tratamiento no necesitan ser iguales; sin embargo, se recomienda que los ni
no sean menores que 3 y muchos de los ni deben ser mayores que 5.

El estadístico de prueba se define como:


Donde

Cuando la hipótesis nula es cierta, el estadístico tiene distribución aproximadamente


χ 2 con k − 1 grados de libertad; cuando el muestreo se realiza en poblaciones
normales, la aproximación es buena para muestras bastante pequeñas (Layard 1973).
No requiere que los tamaños de las muestras sean iguales. Es muy sensible a
alejamientos del supuesto de normalidad (Montgomery 2002, pág. 82). Si tenemos
evidencia fuerte de que los datos vienen de hecho de una distribución normal, o casi
normal, entonces la prueba de Bartlett tiene un buen desempeño.

3.1.2.2 Prueba de Levene

El estadístico de prueba de Levene se define como:

Donde Zij puede tener una de las siguientes tres definiciones:

La prueba de Levene rechaza la hipótesis de que las varianzas son iguales con un
nivel de significancia α si W > Fα,k−1,N−k donde Fα,k−1,N−k es el valor crítico
superior de la distribución F con k −1 grados de libertad en el numerador y N −k grados
de libertad en el denominador a un nivel de significancia α. La prueba de Levene
ofrece una alternativa más robusta que el procedimiento de Bartlett, ya que es poco
sensible a la desviación de la normalidad. Eso significa que será menos probable que
rechace una verdadera hipótesis de igualdad de varianzas sólo porque las
distribuciones de las poblaciones muestreadas no son normales.
3.2 Técnicas a usar

3.2.1 Modelo de Regresión Logística

Los modelos de regresión logística son una herramienta que permite explicar el
comportamiento de una variable respuesta discreta (binaria o con más de dos
categorías) a través de una o varias variables independientes explicativas de
naturaleza cuantitativa y/o cualitativa. Según el tipo de variable respuesta estaremos
hablando de regresión logística binaria (variable dependiente con 2 categorías), o de
regresión logística multinomial (variable dependiente con más de 2 categorías),
pudiendo ser esta ´ultima de respuesta nominal u ordinal. Los modelos de respuesta
discreta son un caso particular de los modelos lineales generalizados formulados por
Nelder y Wedderburn en 1972 (Nelder and Wedderburn [1972]), al igual que los
modelos de regresión lineal o el análisis de la varianza. Para un estudio minucioso de
este tipo de modelos puede consultarse el libro de McCullagh y Nelder (McCullagh
and Nelder [1989]).

A continuación plantearemos la formulación genérica de un modelo de regresión


logística binaria, así como la interpretación y estimación de los parámetros, aunque
para un estudio exhaustivo son recomendables la consulta de otros materiales
indicados en la bibliografía (Agresti [2002];Hosmerand Lemeshow [1989];Thompson
[2007];Power and Xie [2000] ;Kleinbaum [1994];Selvin [1996];Aycaguer and
Utra;Venables and Ripley [2003] ).

3.2.1.1 Formulación e interpretación

3.2.1.1.1 Formulación

Supongamos que tenemos una variable respuesta o dependiente Y que toma dos
valores, que habitualmente serán Y = 1 (suele indicar presencia de cierta
característica u ocurrencia de cierto suceso) e Y = 0 (ausencia de característica o no
observación del suceso). Denotemos por R el número de variables independientes
del modelo representadas por X = (X1, X2,..., XR). La formulación genérica del modelo
de regresión logística para modelar la probabilidad de ocurrencia de un suceso seria
Y = px + ε donde ε es el término de error, px es la probabilidad de que la respuesta Y
tome el valor 1 para el valor observado x y se modeliza como:

Siendo x = (x1, x2, ..., xR) 0 un valor observado de las variables explicativas. Por
tanto, 1 – px indicará la probabilidad de que Y tome el valor 0. Si aplicamos una
transformación logit a la ecuación anterior, obtenemos un modelo de regresión lineal
que facilitará la posterior interpretación del modelo:

3.2.1.1.2 Interpretación

En la formulación del modelo de regresión logística simple, existen dos coeficientes


β0 y β1 que interpretaremos a continuación en términos de cocientes de ventajas. El
cociente de ventajas de respuesta Y = 1 para x1 y x2 dos valores distintos de X se
define como:

A partir de la formulación del modelo se tiene de manera inmediata (ver por ejemplo
Ryan [1997]) que:

 β0, término constante del modelo o intercepto: se corresponde con el logaritmo


de la ventaja de respuesta Y = 1 frente a la respuesta Y = 0 para una
observación con valor nulo en la variable explicativa, es decir, cuando la
respuesta es independiente de las variable explicativa. Por tanto, la
exponencial de la constante e β0 será la ventaja de respuesta Y = 1 para un
individuo con X = 0.
 β1 o parámetro slope: cuya exponencial es el cociente de ventaja de respuesta
Y = 1 u odds ratio dado por dos observaciones de la variable explicativa que
se diferencian en una unidad. Si la variable predictora es de tipo continuo, la
exponencial del parámetro β1 es el cociente de ventajas para un incremento
de una unidad en la variable explicativa. Así, la ventaja de respuesta Y = 1
queda multiplicada por dicha exponencial al aumentar en una unidad la variable
explicativa.

3.2.1.2 Estimación

Existen dos formas de estimación del modelo logístico según sean las observaciones
disponibles, dicho de otro modo, según el patrón de las covariables (covariatepattern)
que no es más que cada combinación de valores de las variables explicativas en el
modelo múltiple, o las observaciones de la variable explicativa en el modelo simple.
Hay que distinguir dos situaciones diferentes. Supongamos que disponemos de una
muestra de tamaño N de la variable respuesta Y, puede ocurrir:

a) Que exista en cada valor de la variable/s explicativa/s varias observaciones de


la respuesta yj . Si denotamos por J el número de valores distintos de la
variable, entonces para cada xj (j = 1, . . . , J), nj es el número de observaciones
de la respuesta, en cuyo caso llamaremos yj al número de ´éxitos en las nj
observaciones de la respuesta en cada valor de la variable explicativa. En este
caso se habla de da-tos agrupados y J < N = PJ j=1 nj , por tanto, el número
de patrones sería inferior al número de observaciones. En esta circunstancia
la respuesta se considera agrupada resultando una distribución binomial yjB(nj
, pj ), j = 1, . . . , J por lo que este análisis recibe el nombre de regresión logística
binomial.

b) Que exista en cada valor de la variable/s explicativa/s xj una ´única observación


de la respuesta yj , es decir, los datos se presentan no agrupados (x1, y1), . . .
,(xN , yN ). Si denotamos por J el número de valores distintos de la variable X,
se tiene que J = N, es decir, el número de patrones es igual al número de
observaciones. Esta situación suele darse al trabajar con variables explicativas
continuas, resultando en una regresión logística binaria, puesto que la
respuesta se considera agrupada resultando una distribución bernouilliyj B(1,
pj ).

3.2.1.2.1 Estimación del modelo simple binario

En un modelo de regresión logística simple, es decir, con una ´única variable


explicativa, los dos parámetros desconocidos β0 y β1 son estimados usando el
método de máxima verosimilitud, que consiste en proporcionar la estimación que
otorgue máxima probabilidad o verosimilitud a los datos observados. En el
escenario de regresión logística binaria simple descrita anteriormente, y
suponiendo las observaciones independientes, la función de verosimilitud es de la
forma:

Para y1, . . . , yN observaciones de Y (yj∈ {0, 1}),

La estimación de los dos coeficientes requiere maximizar la función de


verosimilitud, o equivalentemente, maximizar su logaritmo:

Derivando respecto a cada uno de los (β0, β1) e igualando a cero obtenemos las
ecuaciones de verosimilitud:

Los estimadores MV de un modelo logit siempre existen y son ´únicos (salvo en


ciertos casos de separación completa) debido a la concavidad de la log-
verosimilitud. Es necesario entonces para la existencia de estos estimadores que
exista cierto solapamiento en los datos (Santner and Duffy [1986]). Las ecuaciones
obtenidas no son lineales en los parámetros, de aquí que requieran métodos
iterativos como el de Newton-Raphson para su resolución. La fórmula iterativa de
resolución de las ecuaciones de verosimilitud es (ver Ryan [1997]):

con p (t−1) j la probabilidad estimada en la iteración t−1 calculada a partir de las


estimaciones de los parámetros en la iteración t − 1 de la forma:

Finalmente la estimación máximo verosímil de pj viene dada por:

3.2.1.3 Bondad de ajuste en regresión logística

Una vez construido el modelo de regresión logística simple, tiene sentido comprobar
cómo de bueno es el ajuste de los valores predichos por el modelo a los valores
observados. Existen diversas formas de medir la bondad de ajuste de un modelo de
regresión logística. De forma global, ´esta puede ser evaluada a través de medidas
tipo R2, de la tasa de clasificaciones correctas o a través de una serie de test
estadísticos. En el presente trabajo estudiaremos varios de estos test estadísticos de
bondad de ajuste, conociendo sus limitaciones y poniendo de relieve sus ventajas e
inconvenientes. Siguiendo la notación expuesta en el capítulo anterior, en un test
global de bondad de ajuste se contrasta la hipótesis nula:

Frente a la hipótesis alternativa:


En las siguientes secciones se introducen varios test, agrupados según estén
basados en los patrones de las covariables, en las probabilidades estimadas por el
modelo o en residuos suavizados.

a) Test basados en patrones de las covariables

En regresión logística existen varias medidas de ajuste global para comparar


la diferencia entre valores predichos y valores observados. Dos de las más
populares, dada su disponibilidad en los distintos softwares, son el test basado
en la devianza D y el estadístico χ 2 de Pearson.

b) Estadístico basado en la Devianza D

Consideremos la función de verosimilitud para el escenario de datos agrupados


en una regresión logística (simple o múltiple) se puede ver en el trabajo de
Collet (Collett [1991]):

y su log-verosimilitud

Sea Lˆ C = L(βˆ 0, βˆ 1) con βˆ 0, βˆ 1 los estimadores MV de los parámetros.


Bajo el modelo ajustado, la verosimilitud resulta:

Siendo ˆpj = yˆjnj la probabilidad estimada de respuesta Y = 1 para el j-´esimo


patrón de covariables. El modelo saturado es aquel modelo que se ajusta
perfectamente a los datos, es decir, las frecuencias de respuesta Y = 1
estimadas por el modelo coinciden con las observadas, y tiene tantos
parámetros libres/desconocidos como observaciones diferentes de las
variables explicativas. Denotemos por Lˆ F la verosimilitud de este modelo, su
log-verosimilitud vendrá dado por:
Para el modelo saturado se tiene que ˜pj = yjnj , la proporción observada de
respuesta Y = 1 para el j-esimo patrón de covariable/s. La comparación entre
las dos log-verosimilitudes anteriores puede ser utilizada para medir la bondad
del ajuste del modelo a los datos observados, aunque es más ´útil compararlas
multiplicando por -2 tal diferencia, cuyo resultado es lo que se conoce como
devianza o estadístico de Wilks:

De la expresión anterior, se deduce:

y así se compara, para cada patrón de covariables, los valores observados yj


con los valores ajustados ˆyj . El estadístico así construido tiene distribución
asintótica Chi Cuadrado, con grados de libertad la diferencia entre la dimensión
del espacio paramétrico.

y la dimensión de este espacio bajo la hipótesis nula. Así, la hipótesis nula será
rechazada para el nivel de significación α cuando D ≥ χ 2 J−(R+1);α (para el
caso múltiple de R covariables), que es equivalente a que el p-valor del
contraste sea menor que el nivel α fijado. El test así definido coincide con el
test de razón de verosimilitudes para comparar el modelo saturado con el
logístico binario. La devianza puede expresarse como una suma de los
cuadrados de lo que se conoce como residuos de la devianza que fueron
definidos por Hosmer y Lemeshow (Hosmer et al. [1997]) de la siguiente forma
Siendo

En el escenario binario o Bernoulli de datos no agrupados, la verosimilitud bajo


el modelo ajustado es:

Bajo el modelo saturado se tiene que tanto yjlogyj como (1−yj )log(1−yj ) son
nulos ya que ˜pj = yj∈ {0, 1}. Por tanto, la devianza se reduce a (Collett [1991]):

que en este caso ya no compara valores observados y ajustados, por lo que


este método no puede usarse para medir la bondad del ajuste en este
escenario.

3.2.1.4 Estadístico Chi Cuadrado de Pearson χ 2

El estadístico Chi Cuadrado de Pearson, que compara frecuencias observadas


y esperadas en un escenario binomial, se define como sigue:

Tiene la misma distribución asintótica que la devianza, es decir, una chi-


cuadradado con los mismos grados de libertad. Con lo cual, la hipótesis nula
será rechazada para el nivel de significación α cuando χ 2 ≥ χ 2 J−(R+1);α (para
el modelo múltiple con R covariables), que es equivalente a que el p-valor del
contraste sea menor que el nivel α fijado. Este estadístico anterior también
puede calcularse como la suma de los cuadrados.
que fueron denominados por Hosmer como residuos de Pearson. Tanto para
poder aplicar el test basado en la devianza como para el estadístico χ 2 tiene
que verificarse que el número de observaciones para cada combinación de las
variables explicativas sea grande, es por ello, por lo que estos métodos no se
aplican en el caso de covariables continuas o modelos no agrupados de
Bernouilli, siendo más habituales para estos casos los test desarrollados a
continuación. En cuanto a las ventajas en el uso de D y X2 destaca su
implementación en todos los programas estadísticos dada la simplicidad en el
cálculo, mostrándose tanto el valor del estadístico como el p-valor asociado.
Aunque en la mayoría de las ocasiones el valor de los dos estadísticos no es
el mismo, cuando la diferencia entre ellos es grande se debe revisar con
cuidado la adecuación a la aproximación chi-cuadradado, ya que suele ser
indicativo que ´esta no es satisfactoria (Collett [1991]). En general, el
estadístico D suele ser preferido al χ 2 , ya que es utilizado en la comparación
de modelos anidados (Collett [1991]) mientras que el χ 2 no. Otra razón por la
que es preferido es cuando la estimación del modelo se hace a través del
método MV, porque las estimación MV de las probabilidades de ´éxito
maximizan la función de verosimilitud para el modelo ajustado, y la devianza
se ve minimizada por dichas estimaciones (Collett [1991]).

b) Test basados en probabilidades estimadas

Hosmer y Lemeshow desarrollaron una serie de test estadísticos para medir la


bondad de ajustes basados en la agrupación de las observaciones según las
probabilidades estimadas por el modelo. Los dos estadísticos de este tipo más
utilizados por Hosmer y Lemeshow fueron los denominados Cg y Hg cuya
diferencia fundamental entre uno y otro es la forma de agrupar las
probabilidades estimadas. Entre estos dos, está más extendido el uso del 1
tratados aquí. La ventaja de estos test respecto al test χ 2 y el basado en la
devianza, es que se pueden utilizar tanto para datos no agrupados (modelo
bernouilli) como agrupados (modelo binomial) aunque esta ´ultima situación
puede in- fluir en la formación de los grupos de probabilidades predichas. Una
de las desventajas más importantes del agrupamiento de los datos según las
probabilidades predichas es que las desviaciones del modelo debido a un
número pequeño de observaciones podrían pasar desapercibidas.

3.2.2 Modelo de Redes Neuronales

3.2.2.1 Definición
La mayoría de investigadores definen a las redes neuronales como
modelos artificiales y simplificados del cerebro humano, capaces de
aprender a través de sus sistemas interconectados, y que tienen como
unidades elementales a los nodos que vendrían a simbolizar las
unidades básicas del cerebro humano, las neuronas.
En la figura 1 se puede visualizar una analogía entre los componentes
de una neurona y un modelo de red neuronal. Las dendritas en una
neurona son las encargadas de recibir la información proveniente de
otras neuronas, luego esta información en procesada en el cuerpo de
la neurona y la respuesta resultante es enviada hacia otras neuronas
a través del axón, este traspaso de información se hace a través de
un impulso eléctrico que determina el grado de excitación de la
neurona, denominado sinapsis. En la red neuronal el proceso es
similar, para explicar esto se ha mostrado una red simple, donde las
dendritas son las conexiones que se dan desde los valores de entrada
(inputs) hacia el nodo de la capa oculta, este nodo viene hacer el
cuerpo de la neurona que por medio de una función matemática
procesa la información la cual finalmente da una salida (output) , esto
a través de la conexión del nodo hacia afuera, esto sería equivalente
al axón, finalmente la fuerza con que se traspasa la información
(sinapsis) es representada por los pesos de la red neuronal.
FIGURA 01

PROCESO DE LA RED

FUENTE: Departamento de Ciencias de la Computación e


Inteligencia Artificial, Paris

3.2.2.2 Arquitectura de Redes Neuronales

Giudici (2003) define al término arquitectura como la organización de


la red neuronal: el número de capas, el número de de unidades
(neuronas) que siguen en cada capa, y la manera en que éstas son
conectadas.

Respecto al tipo de capas que puede tener una red neuronal,


existen tres tipos:
- Input: Son las encargadas de recibir sólo la información del
ambiente externo, cada neurona en este caso corresponde a
una variable explicatoria, en esta capa no se realiza ningún
tipo de cálculo.
- Output: Es la capa que produce los resultados finales,
los cuales son enviados al ambiente exterior.
- Oculta: Son las capas que se encuentran entre las capas input y
output, y reciben este nombre porque no tienen contacto con el
ambiente externo, son capas utilizadas exclusivamente para el
análisis.

La arquitectura de la red neuronal por lo general es presentada


gráficamente, por esta razón en ocasiones recibe el nombre de
“topología de la red”. Sarle (1994) señala como poder graficar redes
neuronales, las indicaciones que señala son:
- Círculos representan variables observadas: Con el nombre
mostrado dentro del círculo.
- Cuadrados representan valores calculados con una función de
uno o más argumentos .El símbolo dentro de la caja indica el tipo
de función. La mayoría de cajas también disponen del parámetro
bias

- Las flechas indican de donde provienen los recursos que


servirán de argumentos para la función, por lo general están
asociados a pesos que deben ir ajustándose conforme la red
vaya aprendiendo (Ver 2.1.4).
- Dos líneas paralelas indican que el resultado final ha sido
calculado poralgún método de estimación.

Un ejemplo de topología, se muestra en la figura 2,


esta red neuronal simboliza o equivale a una regresión
lineal simple:

FIGURA 02

REPRESENTACION DE
REGRESION LINEAL

SIMPLE EN UN ESQUEMA DE REDES

FUENTE: Departamento de Ciencias de la Computación e Inteligencia Artificial, Paris

Al trabajar con redes neuronales los términos de función de


transferencia, pesos, bias, tipos de aprendizaje, ratio de aprendizaje son
comunes, por ello a continuación se explicará cada uno con el fin de tener
unamejor comprensión.

3.2.2.3 Función de entrada


La neurona trata a muchos valores de entrada como si fueran uno solo;
esto recibe el nombre de entrada global. Por lo tanto, ahora nos
enfrentamos al problema de cómo se pueden combinar estas simples
entradas (ini1, ini2, ...) dentro de la entrada global, gini. Esto se logra a
través de la función de entrada, la cual se calcula a partir del vector
entrada. La función de entrada puede describirse como sigue:

Donde: * representa al operador apropiado (por ejemplo: máximo,


sumatoria, productora, etc.), n al número de entradas a la neurona Ni y
wi al peso.

Algunas de las funciones de entrada más comunes son:

Sumatoria de las entradas pesadas: es la suma de todos los valores


de entrada a la neurona, multiplicados por sus correspondientes
pesos.

Productoria de las entradas pesadas: es el producto de todos los


valores de entrada a la neurona, multiplicados por sus
correspondientes pesos.

Máximo de las entradas pesadas: solamente toma en consideración


el valor de entrada más fuerte, previamente multiplicado por su peso
correspondiente.

3.2.2.4 Función de Activación

Una neurona biológica puede estar activa (excitada) o inactiva (no


excitada); es decir, que tiene un “estado de activación”. Las neuronas
artificiales también tienen diferentes estados de activación; algunas de
ellas solamente dos, al igual que las biológicas, pero otras pueden tomar
cualquier valor dentro de un conjunto determinado. La función activación
calcula el estado de actividad de una neurona; transformando la entrada
global (menos el umbral, Θi) en un valor (estado) de activación, cuyo
rango normalmente va de (0 a 1) o de (–1 a 1). Esto es así, porque una
neurona puede estar totalmente inactiva (0 o –1) o activa (1). La función
activación, es una función de la entrada global (gini) menos el umbral
(Θi). Las funciones de activación más comúnmente utilizadas se detallan
a continuación:

Función lineal

Los valores de salida obtenidos por medio de esta función de


activación serán: a·(gini - Θi), cuando el argumento de (gini - Θi) esté
comprendido dentro del rango (-1/a, 1/a). Por encima o por debajo de
esta zona se fija la salida en 1 o –1, respectivamente. Cuando a = 1
(siendo que la misma afecta la pendiente de la gráfica), la salida es
igual a la entrada.

Función sigmoidea

Los valores de salida que proporciona esta función están


comprendidos dentro de un rango que va de 0 a 1. Al modificar el valor
de g se ve afectada la pendiente de la función de activación.

Función tangencial hiperbólica


Los valores de salida de la función tangente hiperbólica están
comprendidos dentro de un rango que va de -1 a 1. Al modificar el
valor de g se ve afectada la pendiente de la función de activación.

Para explicar porque se utilizan estas funciones de activación se suele


emplear la analogía a la aceleración de un automóvil. Cuando un auto
inicia su movimiento necesita una potencia elevada para comenzar a
acelerar. Pero al ir tomando velocidad, este demanda un menor
incremento de dicha potencia para mantener la aceleración. Al llegar a
altas velocidades, nuevamente un amplio incremento en la potencia es
necesario para obtener una pequeña ganancia de velocidad. En
resumen, en ambos extremos del rango de aceleración de un automóvil
se demanda una mayor potencia para la aceleración que en la mitad de
dicho rango.

3.2.2.5 Función de salida

El último componente que una neurona necesita es la función de salida.


El valor resultante de esta función es la salida de la neurona i (out i); por
ende, la función de salida determina que valor se transfiere a las
neuronas vinculadas. Si la función de activación está por debajo de un
umbral determinado, ninguna salida se pasa a la neurona subsiguiente.
Normalmente, no cualquier valor es permitido como una entrada para
una neurona, por lo tanto, los valores de salida están comprendidos en
el rango [0, 1] o [-1, 1]. También pueden ser binarios {0, 1} o {-1, 1}.

Dos de las funciones de salida más comunes son:

Ninguna: este es el tipo de función más sencillo, tal que la


salida es la misma que la entrada. Es también llamada
función identidad.

Binaria

También podría gustarte