Documentos de Académico
Documentos de Profesional
Documentos de Cultura
TALLER DE TESIS
LIMA – PERÚ
2019
CAPÍTULO I
ANTECEDENTES
Investigaciones
CAPÍTULO II
PLANTEAMIENTO DEL PROBLEMA
2.1 Descripción del problema
2.2 Formulación del problema
2.3 Objetivos de la Investigación
2.4 Hipótesis de la investigación
2.5 Justificación
CAPÍTULO III
MARCO TEÓRICO
3.1 Técnicas Previas
3.2 Técnicas a usar
3.2.1 Modelo de Regresión Logística
3.2.2 Modelo de Redes Neuronales
CAPÍTULO I
ANTECEDENTES
Investigaciones
A nivel Internacional
A nivel Nacional
Los accidentes de tránsito no son hechos inevitables del destino. Es decir, existe un
alto componente de predictibilidad que permite entender el fenómeno desde diversas
ópticas, como puede ser el factor humano, mecánico y medio ambiental y de esta
forma lograr identificar y/o corregir las principales fuentes de deficiencia que
contribuyen a que sucedan accidentes viales graves
La PNP (Policía Nacional del Perú), durante el año 2016 registró un total de 89,304
casos de Accidentes de Tránsito, a nivel nacional por diversos tipos. Los accidentes
de tránsito más frecuentes, fueron los choques, atropellos, atropello y fuga, y colisión.
Las principales causas que generaron accidentes de tránsito fueron el exceso de
velocidad, la imprudencia del conductor, ebriedad del conductor e Imprudencia del
peatón. El costo social de los accidentes de tránsito a nivel nacional ascendió a la
suma de 56,472 víctimas; de los cuales 2,696 fallecieron y 53,776 quedaron
lesionadas con diversos grados de inaptitud para el trabajo.
Los accidentes de tránsito son hechos de nuestro día a día, y un gran porcentaje de
ellas tiene como resultado víctimas mortales; es por ello que la presente investigación
buscará estudiar los factores asociados a los accidentes de tránsito fatales, para lo
cual se partirá de la formulación de las siguientes interrogantes:
2.5 Justificación
Cabe señalar que en el Perú no existen investigaciones con el mismo fin, recién se
está empezando a recolectar datos mediantes censos que a lo mucho son analizadas
mediante análisis descriptivo de datos; sin embargo, sí existen en países cercanos
como Chile y en países Europeos.
CAPÍTULO III
MARCO TEORICO
fi . f . j
eij
n
( f ij eij ) 2
2
exp
eij
i j
,
Esto ocurre sólo cuando las dos variables de la tabla son independientes; Por
exp
2
0
tanto, si hay independencia entre las dos variables de la tabla,
( f ij eij ) 2
exp
2
(2n1)( m1)
i j eij
1
Estudio de potencia de pruebas de homogeneidad de varianza- Revista Colombiana de Estadística
estudios comparativos entre ellas que sean exhaustivos, ni de su comportamiento
para muestras pequeñas, ya que muchas de ellas son de carácter asintótico. En
este trabajo estudiamos el nivel real de significancia, el cual es la verdadera
probabilidad de rechazar la hipótesis nula cuando es cierta y que en pruebas no
exactas es diferente del nivel nominal, o teórico, de significancia, determinado por
el usuario, usualmente a niveles del 5 % u otros valores pequeños. Además, se
estudia la potencia de las pruebas bajo algunas alternativas abajo enunciadas.
En esta simulación se quiere comparar la prueba de Bartlett, la prueba de Levene
(Brown & Forsythe 1974), la prueba de Hartley (1950), la prueba de Cochran
(1941), la prueba de Fligner & Killeen (1976), la prueba basada en la teoría de la
información, la prueba de Layard y algunas de sus variaciones, por medio de la
potencia que cada prueba tenga con respecto a diferentes hipótesis alternas. La
idea es saber cuál es la mejor prueba y bajo qué condiciones de número de
muestras y tamaños se puede utilizar.
3.1.2.1 Notación
Introducida por Bartlett en 1937, es una modificación del test de Neyman y Pearson
para “corregir el sesgo” ; esta prueba es la que se utiliza con más frecuencia para
probar la homogeneidad de las varianzas (Conover et al. 1981). En esta prueba los ni
en cada tratamiento no necesitan ser iguales; sin embargo, se recomienda que los ni
no sean menores que 3 y muchos de los ni deben ser mayores que 5.
La prueba de Levene rechaza la hipótesis de que las varianzas son iguales con un
nivel de significancia α si W > Fα,k−1,N−k donde Fα,k−1,N−k es el valor crítico
superior de la distribución F con k −1 grados de libertad en el numerador y N −k grados
de libertad en el denominador a un nivel de significancia α. La prueba de Levene
ofrece una alternativa más robusta que el procedimiento de Bartlett, ya que es poco
sensible a la desviación de la normalidad. Eso significa que será menos probable que
rechace una verdadera hipótesis de igualdad de varianzas sólo porque las
distribuciones de las poblaciones muestreadas no son normales.
3.2 Técnicas a usar
Los modelos de regresión logística son una herramienta que permite explicar el
comportamiento de una variable respuesta discreta (binaria o con más de dos
categorías) a través de una o varias variables independientes explicativas de
naturaleza cuantitativa y/o cualitativa. Según el tipo de variable respuesta estaremos
hablando de regresión logística binaria (variable dependiente con 2 categorías), o de
regresión logística multinomial (variable dependiente con más de 2 categorías),
pudiendo ser esta ´ultima de respuesta nominal u ordinal. Los modelos de respuesta
discreta son un caso particular de los modelos lineales generalizados formulados por
Nelder y Wedderburn en 1972 (Nelder and Wedderburn [1972]), al igual que los
modelos de regresión lineal o el análisis de la varianza. Para un estudio minucioso de
este tipo de modelos puede consultarse el libro de McCullagh y Nelder (McCullagh
and Nelder [1989]).
3.2.1.1.1 Formulación
Supongamos que tenemos una variable respuesta o dependiente Y que toma dos
valores, que habitualmente serán Y = 1 (suele indicar presencia de cierta
característica u ocurrencia de cierto suceso) e Y = 0 (ausencia de característica o no
observación del suceso). Denotemos por R el número de variables independientes
del modelo representadas por X = (X1, X2,..., XR). La formulación genérica del modelo
de regresión logística para modelar la probabilidad de ocurrencia de un suceso seria
Y = px + ε donde ε es el término de error, px es la probabilidad de que la respuesta Y
tome el valor 1 para el valor observado x y se modeliza como:
Siendo x = (x1, x2, ..., xR) 0 un valor observado de las variables explicativas. Por
tanto, 1 – px indicará la probabilidad de que Y tome el valor 0. Si aplicamos una
transformación logit a la ecuación anterior, obtenemos un modelo de regresión lineal
que facilitará la posterior interpretación del modelo:
3.2.1.1.2 Interpretación
A partir de la formulación del modelo se tiene de manera inmediata (ver por ejemplo
Ryan [1997]) que:
3.2.1.2 Estimación
Existen dos formas de estimación del modelo logístico según sean las observaciones
disponibles, dicho de otro modo, según el patrón de las covariables (covariatepattern)
que no es más que cada combinación de valores de las variables explicativas en el
modelo múltiple, o las observaciones de la variable explicativa en el modelo simple.
Hay que distinguir dos situaciones diferentes. Supongamos que disponemos de una
muestra de tamaño N de la variable respuesta Y, puede ocurrir:
Derivando respecto a cada uno de los (β0, β1) e igualando a cero obtenemos las
ecuaciones de verosimilitud:
Una vez construido el modelo de regresión logística simple, tiene sentido comprobar
cómo de bueno es el ajuste de los valores predichos por el modelo a los valores
observados. Existen diversas formas de medir la bondad de ajuste de un modelo de
regresión logística. De forma global, ´esta puede ser evaluada a través de medidas
tipo R2, de la tasa de clasificaciones correctas o a través de una serie de test
estadísticos. En el presente trabajo estudiaremos varios de estos test estadísticos de
bondad de ajuste, conociendo sus limitaciones y poniendo de relieve sus ventajas e
inconvenientes. Siguiendo la notación expuesta en el capítulo anterior, en un test
global de bondad de ajuste se contrasta la hipótesis nula:
y su log-verosimilitud
y la dimensión de este espacio bajo la hipótesis nula. Así, la hipótesis nula será
rechazada para el nivel de significación α cuando D ≥ χ 2 J−(R+1);α (para el
caso múltiple de R covariables), que es equivalente a que el p-valor del
contraste sea menor que el nivel α fijado. El test así definido coincide con el
test de razón de verosimilitudes para comparar el modelo saturado con el
logístico binario. La devianza puede expresarse como una suma de los
cuadrados de lo que se conoce como residuos de la devianza que fueron
definidos por Hosmer y Lemeshow (Hosmer et al. [1997]) de la siguiente forma
Siendo
Bajo el modelo saturado se tiene que tanto yjlogyj como (1−yj )log(1−yj ) son
nulos ya que ˜pj = yj∈ {0, 1}. Por tanto, la devianza se reduce a (Collett [1991]):
3.2.2.1 Definición
La mayoría de investigadores definen a las redes neuronales como
modelos artificiales y simplificados del cerebro humano, capaces de
aprender a través de sus sistemas interconectados, y que tienen como
unidades elementales a los nodos que vendrían a simbolizar las
unidades básicas del cerebro humano, las neuronas.
En la figura 1 se puede visualizar una analogía entre los componentes
de una neurona y un modelo de red neuronal. Las dendritas en una
neurona son las encargadas de recibir la información proveniente de
otras neuronas, luego esta información en procesada en el cuerpo de
la neurona y la respuesta resultante es enviada hacia otras neuronas
a través del axón, este traspaso de información se hace a través de
un impulso eléctrico que determina el grado de excitación de la
neurona, denominado sinapsis. En la red neuronal el proceso es
similar, para explicar esto se ha mostrado una red simple, donde las
dendritas son las conexiones que se dan desde los valores de entrada
(inputs) hacia el nodo de la capa oculta, este nodo viene hacer el
cuerpo de la neurona que por medio de una función matemática
procesa la información la cual finalmente da una salida (output) , esto
a través de la conexión del nodo hacia afuera, esto sería equivalente
al axón, finalmente la fuerza con que se traspasa la información
(sinapsis) es representada por los pesos de la red neuronal.
FIGURA 01
PROCESO DE LA RED
FIGURA 02
REPRESENTACION DE
REGRESION LINEAL
Función lineal
Función sigmoidea
Binaria