Está en la página 1de 35

UNIVERSIDAD NACIONAL DEL ALTIPLANO

FACULTAD DE INGENIERIA MECANICA ELECTRICA


ELECTRONICA Y SISTEMAS
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS

“ALGORITMO K-MEAN’S PARA LA ALERTA DE ZONAS CON


MAYOR DELINCUENCIA”

PROYECTO DE TESIS

PRESENTADA POR:
ALDAIR BARKLEY MENDIZABAL YANQUE

2019

1
Índice
RESUMEN .............................................................................................................................................. 4
CAPITULO I ............................................................................................................................................ 5
PLANTEAMIENTO DEL PROBLEMA ........................................................................................................ 5
1.1 Descripción del problema ........................................................................................................... 5
1.2. Definición del problema ............................................................................................................. 6
1.3. Justificación del problema.......................................................................................................... 6
1.4. Objetivos de la investigación...................................................................................................... 7
1.4.1. Objetivo General ................................................................................................................. 7
1.4.2. Objetivos Específicos ........................................................................................................... 7
1.5. Hipótesis de la investigación ...................................................................................................... 7
CAPITULO II ........................................................................................................................................... 8
MARCO TEÓRICO ................................................................................................................................... 8
2.1. Antecedentes ............................................................................................................................. 8
2.1.1. Impacto del sistema de video vigilancia en los niveles de crimen violento ........................ 8
2.1.2. Uso de las TIC’s en la seguridad ciudadana ......................................................................... 9
2.1.3. Problemas en los procesos de registro de datos delictivos .............................................. 10
2.2. Marco Teórico .......................................................................................................................... 10
2.2.1. Minería de datos ............................................................................................................... 11
2.2.2. Delito ................................................................................................................................. 21
2.2.3. Sistemas de información geográfica ................................................................................. 24
2.3. Operacionalización de variables............................................................................................... 27
2.4. Glosario .................................................................................................................................... 27
CAPITULO III ........................................................................................................................................ 29
3. MÉTODO DE INVESTIGACIÓN .......................................................................................................... 29
3.1 Metodología .............................................................................................................................. 29
3.1.1. Tipo y diseño de la investigación....................................................................................... 29
3.1.2. Población y muestra .......................................................................................................... 29
3.1.3. Técnica de recolección de datos ....................................................................................... 29
3.1.4. Tratamiento de datos ........................................................................................................ 30
3.1.5. Análisis de datos ................................................................................................................ 30
3.1.6. Metodología de desarrollo del sistema............................................................................. 30
CAPITULO IV ........................................................................................................................................ 31
4. CRONOGRAMA DE ACTIVIDADES. ................................................................................................... 31
4.1. Cronograma de actividades...................................................................................................... 31
4.2. Presupuesto ............................................................................................................................. 32

2
4.3. Matriz de consistencia- ............................................................................................................ 33
4.4 IMPACTOS ESPERADOS ............................................................................................................. 34
4.4.1 Impacto en ciencias y tecnología ....................................................................................... 34
4.4.2 Impactos económicos......................................................................................................... 34
4.4.3 Impactos sociales ............................................................................................................... 34
4.5 Recursos necesarios .................................................................................................................. 34
USO DE RESULTADOS Y CONSTRIBUCIONES DEL PROYECTO ..................................... 34
Referencias .......................................................................................................................................... 35

3
RESUMEN

El uso de sistemas es mucho más requerido en la vida cotidiana de todo humano en


este caso en el Perú recién se está implementando, una de las principales
necesidades es de disponer de la mayor cantidad de información que pueda
respaldar la toma de decisiones.

En el Perú un gran problema es la delincuencia que ofrece nuestro país, por lo cual
es necesario un sistema de información el cual nos pueda ofrecer una mayor
confiabilidad de salir a las calles de nuestra ciudad; para esto, es necesario contar
y/o hacer la detección de todos los incidentes o riesgos existentes en las diferentes
regiones del país, para poder determinar las áreas donde hay mayor peligro.

En esta tesis, se usa el proceso de descubrimiento de las mismas personas afectas


por dicho robo o asalto para lograr tener información y generar un valor agregado a
los datos de los policías, utilizando los celulares para poder informar de lo ocurrido a
dicho afectado, para ello es necesario utilizar una aplicación móvil para poder
ingresar los datos.

En el almacén de datos, según a un adecuado procesamiento, podemos encontrar


información relevante sobre las áreas de mayor riesgo en las diferentes ciudades del
Perú. Con el propósito de obtener un conocimiento útil a partir de todos los reportes
hechos por las personas agraviadas.

Finalmente, podemos tener mejor información para la policía sobre los delitos
ocurridos en sus regiones, según corresponda a una región critica o no.

Palabras Clave: descubrimiento de conocimiento en base de datos, Minería de datos,


Reglas de dedición.

4
CAPITULO I

PLANTEAMIENTO DEL PROBLEMA


1.1 Descripción del problema

Sin duda, la delincuencia es uno de los temas que más preocupa a la sociedad
actual, debido principalmente, al aumento del número de delincuentes, y que
cada vez sean más los menores que cometen estos delitos. Además, está el
hecho de que esta cada vez se hace más violenta, anteriormente era más común
que un delincuente usara la fuerza solo en caso de necesidad, pero hoy, la
mayoría primero agrede y luego comete el delito.

Las condiciones para que la delincuencia se genere, puede tener como causas
la pobreza extrema, el desempleo, la falta de educación y el entorno familiar
descuidado, por otra parte, se estima que un 1.2% de la población mundial nacen
con mentalidad delictiva o desadaptada. Dependiendo del lugar y tiempo, estas
condiciones varían, haciendo que algunas causas tengan más impacto que
otras.

En el Perú, según el informe técnico del año 2012 proporcionado por el Instituto
Nacional de Estadística e Informática, existe un 34.5% de pobreza, 26.5% de
desempleo y un 14.7% de mala calidad en la educación estatal. Por consiguiente,
el 26.3% de la población ha experimentado, directa o indirectamente, la
delincuencia. Esto explicaría el registró de promedio anual de 163 848.6 delitos
y a pesar de que cada año la policía nacional y el ministerio del interior, detienen
a un promedio de 57663 delincuentes, los registros siguen incrementándose en
3.84% con respecto al año anterior.

Asimismo, la información recolectada, no es suficiente para que las instituciones


encargadas de combatir la delincuencia, puedan hacer un mejor trabajo, pues
está incompleta, debido a que más del 70% de los delitos no se denuncian,
debido al temor, largas esperas y servicios que no son eficaces. De igual manera,
esta información no es estática, pues, a cada segundo que pasa, se adquiere
nuevos datos, y estos no se actualizan con la rapidez necesaria.

5
En este contexto, considerado los datos e información antes mencionada, es
necesario el análisis de nuevos métodos de recolección de información con el
propósito de replantear una nueva forma de trabajo, con la participación no solo
de las instituciones, sino, de todas las personas interesadas. En concordancia
con los nuevos enfoques y tendencias en la lucha contra la delincuencia, el cual
tiene el reto de mejorar la calidad de vida de todas las personas.
1.2. Definición del problema

¿Con el algoritmo K-mean’s se podrá prevenir el crimen en las principales zonas


de riesgo de la ciudad?

1.3. Justificación del problema

La educación es uno de los pilares fundamentales de cualquier economía.


Generalmente los países que más invierten en educación suelen ser países más
desarrollados. El problema que tiene el Perú en la actualidad, es que, debido a
los gastos en otras áreas, y más específicamente el 4.5% invertido en combatir
el crimen, solo deja el 3.7% del PBI anual destinada a la educación. La mala
educación, que además de generar retrasos económicos a largo plazo, también
es una de las principales causas de delincuencia.

La investigación planteada contribuirá a disminuir los índices de delincuencia y,


por consiguiente, el presupuesto invertido en esta. Con el presupuesto que se
reducirá, se podrá mejorar invirtiendo no solo en educación, sino en diferentes
áreas de necesidad que tiene el Perú.

6
1.4. Objetivos de la investigación
1.4.1. Objetivo General

Disminuir el número de crímenes en el Perú. Mediante el algoritmo k-mean’s que


pueda prevenir y alertar, a través de la visualización el nivel delincuencia de
manera gráfica en un mapa.
1.4.2. Objetivos Específicos

- Recolectar información sobre las zonas riego en tiempo real.

- Identificar los requerimientos funcionales y no funcionales de la aplicación

- Algoritmo k’mean’s para la detección con mayor riesgo.

- Utilizar un aplicativo para la recolección de datos,

1.5. Hipótesis de la investigación

El algoritmo K-mean’s y la recolecion de datos, influiye de manera positiva y


logrará prevenir el crimen.

7
CAPITULO II

MARCO TEÓRICO
2.1. Antecedentes
2.1.1. Impacto del sistema de video vigilancia en los niveles de crimen violento

El desarrollo de las tecnologías, en la última década, ha dado un impulso


notable a nuevos medios de vigilancia (Tecnología audiovisual), los cuales
hasta hace pocos años no pasaban de ser experimentos y su uso era
exclusivo. En ese sentido, la investigación que realizo Noam Dante Valentín
(2015) a través de su tesis: “El impacto del sistema de video vigilancia en los
niveles de crimen violento en la zona 1 de Lima Cercado 2011 – 2014”, la cual
busca evaluar si el proyecto de inversión de cámaras de vigilancia ha tenido
un efecto en los niveles de crimen violento en la Zona 1 del distrito de Lima
cercado de la Provincia de Lima Metropolitana.

Para lograr esto, utiliza básicamente, técnicas estadísticas que hacen uso de
bases de datos de las cámaras que implantaron, la cual, desde el 2011, cuenta
con las incidencias de robo y hurto además de vigilancia preventiva de estos
delitos. La información se agregó de manera mensual, de manera que
permitirá el análisis en series de tiempo. En base a esta información,
generaron relaciones entre variables para encontrar algún tipo de asociación.
Para finalmente construir modelos lineales generalizados que permitieron
explicar la influencia de las cámaras en los niveles de robo y hurto, a nivel de
percepciones.

En los resultados que se obtuvieron de la investigación, tienen como principal


resultado un modelo de regresión lineal, la cual indica que el número de
cámaras de video vigilancia tienen un efecto reductor bastante mínimo en el
nivel de hurtos y robos.

Los resultados de la investigación y la experiencia sobre el uso, análisis y


obtención de datos permitieron una fundamentación teórico-práctica que
facilita la definición de variables, y el uso de los instrumentos de recaudación
de datos y el diseño de encuestas por muestreo, cuya formulación teoría por
lo general no está al alcance de los no especialistas en la estadística.

8
2.1.2. Uso de las TIC’s en la seguridad ciudadana

La investigación que realizaron Dioses Villanueva y José Agustín (2016) en


sus tesis titulada: “El uso de las tecnologías de la información y Comunicación
en la seguridad ciudadana en la ciudad de la Molina” la cual se realizó en el
año 2015, tuvo como objetivo determinar la influencia de la implementación
de un conjunto de TICs en la seguridad ciudadana del distrito, de este modo
busco proponer un modelo básico para que pueda ser utilizado por las
instituciones de gobierno y privadas en la estrategia de la lucha contra la
delincuencia.

En el desarrollo de la investigación, se tomó un muestreo no probabilístico de


tipo censal y estuvo constituido por los pobladores que reportaron algún
incidente de victimización, y se analizaron junto con los datos recolectados
por el centro del control del municipio. Con la información antes descrita, se
aplicó la estadística inferencial para deducir si existe una influencia en los
niveles de victimización. Para finalmente implementar las TICs, mediante
pruebas paramétricas bivariadas T de

Student y Wilcoxon, las cuales determinan el nivel de relación entre una


variable cuantitativa y una categórica.

Los resultados hallados de la investigación, después de la implementación de


un conjunto de TICs para la Seguridad Ciudadana, obtuvieron una reducción
del 40.5% en el nivel total de crímenes y victimización del distrito de la Molina.

Los resultados de la investigación, se ven reflejados en los procesos de


integración de las TICs en las instituciones de Seguridad Ciudadana y en el
impacto que estas tienen frente al problema del crimen. Es evidente la
necesidad de llevar a cabo nuevos estudios más contextualizados y en
profundidad. Finalmente, se constata que las TICs, en general, producen
cambios sustantivos en las instituciones de Seguridad Ciudadana.

9
2.1.3. Problemas en los procesos de registro de datos delictivos

El trabajo correspondiente a la tesis de Carlos Reyes (2015), la cual titula:


“Los problemas en los procesos de registro de datos delictivos y el uso de
dicha información en los planes naciones de seguridad ciudadana”, estudia
los procedimientos formales e informales sobre el uso y difusión de data sobre
seguridad urbana en el Perú, con el fin de comprender los principales
problemas que estos procedimientos conllevan.

Para llevar a cabo este estudio, se ha empleado el método cualitativo de


estudio de caso y fichado de archivo. Se ha realizado más de 21 entrevistas
semiestructuradas, tanto a fiscales como a agentes policiales, y
adicionalmente, se utilizó los archivos estadísticos de la PNP. Haciendo uso
de modelos que permiten el análisis detallado de información, pudieron hallar
los principales problemas que esta institución poseía.

El trabajo muestra evidencia de problemas grandes existentes en la gestión


de la información sobre seguridad. Desde el registro de la poca información
que se obtiene hasta el mal tratamiento de esta.

Esta investigación demuestra que el problema fundamental de las políticas se


seguridad del Perú es la falta de información eficiente y el tratamiento de
estas, incentivando a nuevos trabajos de investigación dedicados a resolver
tan grande problema que produce un retraso en el desarrollo del Perú.

2.2. Marco Teórico

Dado que la mira central de esta investigación está concentrada en la


recolección y el análisis masivo de datos sobre crímenes ocurridos en el Perú,
será necesario plantear algunos parámetros que sirvan de ejes conceptuales
sobre los cuales apoyar la lectura interpretativa del corpus. Para empezar,
entenderemos el concepto de minería de datos, después, nos adentraremos
en la teoría del crimen, para finalmente entrar a la representación de mapas
de sistemas de información geográficas

10
2.2.1. Minería de datos

Para poder procesar los datos delictivos, se necesita algoritmos de


inteligencia artificial, aprendizaje automático, estadística y bases de datos.
Estos algoritmos se engloban en un solo estudio: Minería de datos.

Anand Rajaraman y Jeff Ullman (2011, p.1) definen la minería de datos de la


siguiente manera: “Exploración y análisis, por medios automáticos o
semiautomáticos de grandes cantidades de datos para descubrir patrones
significativos.” Este concepto ha sido ampliamente usado en estudios
realizados por la Universidad de Stanford, en el cual nos dan a conocer los
diferentes modelos utilizados para determinados problemas.

Por otro lado, Pang-Ning Tan, Michael Steinbach y Vipin Kumar (2005, p.7)
dan a conocer la minería de datos como: “La extracción no trivial de
información implícita, previamente desconocida y potencialmente útil de los
datos”. Los autores explican. la importancia de los datos y su posterior
transformación extremadamente útil en cualquier campo de una organización.

Para terminar, Graham Williams (2011, p2) la define como: “Es el arte y la
ciencia del análisis inteligente de datos, con el objetivo de descubrir
información y conocimientos a partir de los datos”. El enfoque en el que está
centrado el libro, es la eficaz extracción de datos, dado que los modelos que
resulten dependen en un gran porcentaje a estos.

En el estudio actual se utilizará la definición de Ullman, dado que los modelos


que propone son los más adecuados para el tratamiento de datos masivos.
Esto encaja bien con lo que ofrecerá la aplicación que realizaremos. Aunque
Graham Williams y Vipin Kumar dicen que la minería de datos es parte
fundamental en una organización, y se centran en un cierto ámbito, en su
definición no hay distinciones entre los modelos. El proyecto reivindica en su
declaración de objetivos que desea preceder y disminuir la tasa de crímenes;
como resultado, los diferentes modelos propuestos por Ullman desempeñaran
un papel importante. La definición de Ullman es por tanto más relevante para
el estudio actual.

11
2.2.1.1. Flujos de minería de datos

Para recolectar los datos correctamente, necesitamos un flujo que nos permita
almacenar solo los datos de mayor relevancia. Además, asumiremos que los
datos llegan tan rápidamente que no es posible almacenarlos en un
almacenamiento activo (es decir, en una base de datos convencional), y luego
interactuar con él en el momento que nosotros escojamos.

Los algoritmos para procesar flujos implican un resumen de la secuencia de


alguna manera. Comenzaremos por considerar cómo hacer una muestra útil
de una secuencia y cómo filtrarla para eliminar la mayoría de los elementos
"indeseables". A continuación, mostramos cómo estimar el número de
elementos diferentes en una secuencia utilizando mucho menos
almacenamiento de lo que sería necesario si enumeramos todos los
elementos que hemos visto.

12
2.2.1.2. Clustering y agrupación jerárquica en el espacio euclidiano

Para clasificar datos delictivos, necesitaremos algoritmos que permitan


examinar una colección de “puntos” y agrupar dichos puntos en
“conglomerados” de acuerdo con alguna medida de distancia. El objetivo es
que los puntos que este agrupados en un mismo “conglomerado” tengan una
pequeña distancia el uno del otro.

Esta agrupación es utilizada en un espacio euclidiano, además solo se puede


utilizar en conjuntos de datos relativamente pequeños.

Cualquier algoritmo de agrupación jerárquica funciona de la siguiente manera.


Comenzamos con cada punto en su propio clúster. A medida que pase el
tiempo, se construirán clusters mas grandes combinando dos clusters mas
pequeños, y tenemos que decidir de antemano:

a) ¿Cómo se representarán los clusters?

b) ¿Cómo elegiremos que dos clusters se fusionaran?

c) ¿Cuándo dejamos de combinar clusters?

13
Ya que estamos trabajando en un espacio euclidiano, podemos representar
un cluster por su centroide o por el promedio de los puntos en el cluster.
Entonces podemos usar la regla de fusión de que la distancia entre dos
clusters, que es la distancia entre sus dos centroides, y debemos elegir los
dos clusters a la distancia más corta.

Se repite el mismo procedimiento hasta llegar número de grupos que nosotros


creamos conveniente.

14
La iteración termina cuando este no tenga más grupos que unir y solo haya
un único grupo. Las agrupaciones del ejemplo terminarían así:

2.2.1.3. Algoritmos K-means

Los algoritmos k-means trabajan en un espacio euclidiano conociendo


previamente el número de grupos k. El proyecto que estamos desarrollando
requerirá de la agrupación necesaria para poder clasificar y predecir las áreas
con más peligro en el Perú.

2.2.1.3.1. Algoritmo K-means básico

Un algoritmo k-means se describe en la figura. Hay varias formas de


seleccionar los k puntos iniciales que representan los clusters. El corazón del
algoritmo es for-loop, en el que consideramos cada punto distinto de los k
puntos seleccionados y lo asignamos al clúster más cercano, donde "más
cercano" significa más cercano al centroide del clúster. Tenga en cuenta que
el centroide de un clúster puede migrar a medida que se le asignan puntos.
Sin embargo, dado que es probable que solo se asignen puntos cerca del
conglomerado, el centroide tiende a no moverse demasiado.

15
Un paso opcional al final es fijar los centroides de los conglomerados y
reasignar cada punto, incluidos los k puntos iniciales, a los k conglomerados.
Por lo general, un punto p se asignará al mismo grupo en el que se colocó en
el primer pase. Sin embargo, hay casos en los que el centroide del grupo
original de p se movió bastante lejos de p después de p se colocó allí, y p se
asigna a un clúster diferente en el segundo pase. De hecho, incluso algunos
de los k puntos originales podrían ser reasignados.

2.2.1.3.2. Inicializando cluster para K-Means

Queremos elegir puntos que tengan buenas posibilidades de estar en grupos


diferentes. Hay dos enfoques:

a) Elija puntos que estén lo más alejados entre sí como sea posible.

b) Agrupe una muestra de los datos, quizás jerárquicamente, de modo que


haya k clusters. Elija un punto de cada grupo, tal vez ese punto más cercano
al centroide del grupo.

En el peor de los casos, nuestra elección inicial de un punto está cerca del
centro, digamos (6,8). El punto más alejado de (6,8) es (12,3), por lo que ese
punto se elige a continuación.

16
Entre los diez puntos restantes, aquel cuya distancia mínima a (6,8) o (12,3)
es un máximo es (2,2). Ese punto tiene una distancia √52 = 7.21 desde (6,8)
y una distancia √101 = 10.05 a (12,3); por lo tanto, su "puntaje" es 7.21. Puede
verificar fácilmente que cualquier otro punto sea inferior a la distancia 7.21 de
al menos uno de (6,8) y (12,3). Nuestra selección de tres puntos de inicio es
por lo tanto (6,8), (12,3) y (2,2). Tenga en cuenta que estos tres pertenecen a
diferentes clusters. Si hubiéramos comenzado con un punto diferente,
digamos (10,5), obtendríamos un conjunto diferente de tres puntos iniciales.
En este caso, los puntos de partida serían (10,5), (2,2) y (4,10). Nuevamente,
estos puntos pertenecen a los tres grupos diferentes.

2.2.1.3.3. Escogiendo el valor correcto de K

Es posible que no sepamos el valor correcto de k para usar en una agrupación


k-means. Sin embargo, si podemos medir la calidad de la agrupación para
varios valores de k, generalmente podemos adivinar cuál es el valor correcto
de k. Anteriormente observamos que, si tomamos una medida de lo apropiado
para los conglomerados, como el radio o diámetro promedio, ese valor crecerá
lentamente, siempre que el número de conglomerados que asumimos
permanezca en o por encima del número real de clústeres.

Sin embargo, tan pronto como tratemos de formar menos conglomerados de


los que realmente existen, la medida aumentará precipitadamente.

Si no tenemos idea de cuál es el valor correcto de k, podemos encontrar un


buen valor en varias operaciones de agrupamiento que crecen solo de forma
logarítmica con el número verdadero. Comenzaremos ejecutando el algoritmo
k-means para k = 1,2,4,8, .... Eventualmente, encontraremos dos valores v y

17
2v entre los cuales hay muy poca disminución en el diámetro promedio, o
cualquier medida de cohesión del clúster que esté usando. Podemos concluir
que el valor de k justificado por los datos se encuentra entre v / 2 y v. Si utiliza
una búsqueda binaria (que se analiza a continuación) en ese rango, puede
encontrar el mejor valor para k en otras operaciones de agrupamiento log2,
para un total de agrupaciones de 2log2 v. Dado que el verdadero valor de k
es al menos v / 2, hemos utilizado una cantidad de agrupamientos que es
logarítmico en k.

2.2.1.3.4. El algoritmo de Bradley, Fayyad, y Reina

Este algoritmo, al que nos referiremos como BFR, es una variante de k-means
que está diseñado para agrupar datos en un espacio euclidiano de gran
dimensión. Hace una suposición muy fuerte sobre la forma de los clusters:
deben estar normalmente distribuidos alrededor de un centroide. La media y
la desviación estándar para un conglomerado pueden diferir para dimensiones
diferentes, pero las dimensiones deben ser independientes.

El Algoritmo BFR comienza seleccionando k puntos. Luego, los puntos del


archivo de datos se leen en fragmentos. Estos pueden ser fragmentos de un
sistema de archivos distribuidos o un archivo convencional puede dividirse en
fragmentos del tamaño apropiado. Cada fragmento debe consistir en pocos
puntos suficientes para que puedan procesarse en la memoria principal.
También se almacenan en la memoria principal resúmenes de los clústeres k
y algunos otros datos, por lo que toda la memoria no está disponible para
almacenar un fragmento. Los datos de la memoria principal distintos del
fragmento de la entrada consisten en tres tipos de objetos.

18
2.2.1.3.5. Procesamiento de datos en el algoritmo BRF

Ahora vamos a delinear lo que sucede cuando procesamos un trozo de


puntos.

a) En primer lugar, todos los puntos que están suficientemente cerca del
centro de gravedad de un clúster se agregan a ese clúster. Como se describe
en el recuadro sobre beneficios, es simple agregar la información sobre el
punto a N, SUM y SUMSQ que representan el clúster. Entonces descartamos
el punto. La cuestión de qué significa "lo suficientemente cerca" significa que
se abordará en breve.

b) Para los puntos que no están lo suficientemente cerca de cualquier


centroide, los agrupamos, junto con los puntos en el conjunto retenido. Se
puede usar cualquier algoritmo de clúster de memoria principal, como los
métodos jerárquicos que se tratan en la Sección 7.2. Debemos usar algún
criterio para decidir cuándo es razonable combinar dos puntos en un grupo o
dos grupos en uno. La Sección 7.2.3 cubrió las formas en que podríamos
tomar esta decisión. Los clústeres de más de un punto se resumen y se
agregan al conjunto comprimido. Los clústeres Singleton se convierten en el
conjunto de puntos retenidos.

c) Ahora tenemos miniclusters derivados de nuestro intento de agrupar nuevos


puntos y el antiguo conjunto retenido, y tenemos los miniclusters del antiguo
conjunto comprimido. Aunque ninguno de estos miniclusters se puede
fusionar con uno de los k clusters, podrían fusionarse entre sí. El criterio para
la fusión puede elegirse nuevamente de acuerdo con la discusión en la
Sección 7.2.3. Tenga en cuenta que la forma de representación de los
conjuntos comprimidos (N, SUM y SUMSQ) facilita el cálculo de estadísticas
como la varianza para la combinación de dos miniclusters que consideramos
fusionar.

d) Los puntos que están asignados a un clúster o minicluster, es decir,


aquellos que no están en el conjunto retenido, se escriben, con su asignación,
en la memoria secundaria.

19
Finalmente, si este es el último trozo de datos de entrada, tenemos que hacer
algo con los conjuntos comprimidos y retenidos. Podemos tratarlos como
valores atípicos, y nunca agruparlos en absoluto. O bien, podemos asignar
cada punto en el conjunto retenido al clúster del centroide más cercano.
Podemos combinar cada minicluster con el cluster cuyo centroide es el más
cercano al centroide del minicluster.

La distancia de Mahalanobis es esencialmente la distancia entre un punto y el


centroide de un grupo, normalizado por la desviación estándar del grupo en
cada dimensión. Dado que el algoritmo BFR supone que los ejes del clúster
se alinean con los ejes del espacio, el cálculo de la distancia de Mahalanobis
es especialmente simple. Sea p = [p1, p2, ..., pd] un punto y c = [c1, c2, ..., cd]
el centroide de un clúster. Deje σi ser la desviación estándar de los puntos en
el grupo en la i-ésima dimensión. Entonces la distancia Mahalanobis entre p y
c es:

Es decir, normalizamos la diferencia entre p y c en la i-ésima dimensión


dividiendo por la desviación estándar del clúster en esa dimensión. El resto de
la fórmula combina las distancias normalizadas en cada dimensión de la
manera normal para un espacio euclidiano.

Para asignar el punto p a un grupo, calculamos la distancia de Mahalanobis


entre p y cada uno de los centroides del grupo. Elegimos ese grupo cuyo
centroide tiene la menor distancia Mahalanobis, y agregamos p a ese grupo
siempre que la distancia Mahalanobis sea menor que un umbral. Por ejemplo,
supongamos que elegimos cuatro como el umbral. Si los datos se distribuyen
normalmente, entonces la probabilidad de un valor de hasta cuatro
desviaciones estándar de la media es menor a uno en un millón. Por lo tanto,
si los puntos en el clúster están realmente distribuidos normalmente, entonces
la probabilidad de que no podamos incluir un punto que realmente pertenece

20
es menor que 10-6. Y es probable que ese punto se asigne eventualmente a
ese clúster de todos modos, siempre que no se acerque a algún otro centroide
a medida que los centroides migren en respuesta a los puntos agregados a
su clúster.

2.2.2. Delito

El código penal del Perú presenta un conjunto de normas sistematizadas que


representan la facultad sancionadora, donde la proporcionalidad de las penas
y medidas de seguridad son el medio protector de la persona humana y de la
sociedad, frente a la lesión o puesta en peligro de bienes jurídicos tutelados
por la ley.

Según el artículo 1 del código penal antes mencionado, la ley penal se aplica
a todo el que comete un hecho punible en el territorio de la Republica, salvo
las excepciones contenidas en el derecho internacional.

El delito, definido ambiguamente por el código penal, se interpreta como las


acciones u omisiones que configuran el injusto culpable; las acciones u
omisiones típicas, antijurídicas y culpables (perspectiva tripartita), o las
acciones u omisiones típicas, antijurídicas, culpables y punibles (concepción
cuadripartita).

Si bien hay 13 clasificaciones de delitos, nos basaremos principalmente en


aquellos que puedan ser fácilmente identificables para la mayoría de las
personas. El proyecto se basará en las siguientes clasificaciones para poder
clasificar los datos y poder hacer el modelo adecuado y así poder entender el
comportamiento las variables del crimen en el Perú.

21
2.2.2.1. Por la acción

a) Comisión: Hacer lo que la normativa penal prohíbe, los delitos


convencionales como: el robo (art. 188 CP); lesiones leves (art. 122 CP);
homicidio simple (art. 106 CP), entre otros.

b) Omisión: No atacar o hacer lo que la normativa penal establece. Esta


clasificación es denominada, por el sector mayoritario de la doctrina, como
“omisión propia”; pues, a través de este precepto se castiga o sanciona la
simple infracción del mandato normativo, ya que son de mera actividad. Ej.:
omisión de auxilio o aviso a la autoridad (art. 127 CP); omisión o retardo de
actos de función (art. 377 CP); omisión de denuncia (art. 407 CP).

c) Comisión por omisión: Es hacer lo que prohíbe la normativa penal,


absteniéndose de ejecutar un deber que establece la ley penal. Conocida,
mayormente, como “omisión impropia” (art. 13 CP).

2.2.2.2. Por la ejecución

a) Instantáneo: la acción, de una u otra forma, coincide con la consumación


del mismo; esto es, basta la mera realización de la conducta.

b) Permanente: aquel que posterior a su consumación, ininterrumpidamente,


continúa vulnerando el bien jurídico protegido.

c) Continuado: se caracteriza por la pluralidad de acciones (actos ejecutivos);


pluralidad de vulneraciones de la misma ley u otra de similar naturaleza
jurídica (ir en contra de la ley penal, dos o más veces), realización de las
acciones en diversos momentos (los actos ejecutivos deben producirse de
forma sucesiva o simultánea); y, finalmente, que exista identidad deresolución
criminal (las vulneraciones de la misma ley conjuntamente con el factor
subjetivo que se requiere para la configuración del delito).

d) Flagrante: cuando el agente es descubierto al instante o al acabar de


cometer el hecho punible. Asimismo, esta clasificación del delito va tener en
cuenta el criterio de temporalidad inmediatamente después o durante la
perpetración del suceso, esto es, las acciones u omisiones que se susciten
dentro de las veinticuatro horas de la situación delictiva (art. 59 NCPP).

22
2.2.2.3. Por consecuencias de la acción

a) Formal: son los llamados delitos de “mera actividad”, dado que en éstos no
se exige la consumación de los actos u omisiones, pues, lo que se sanciona
es que se haya cumplido con los hechos que conducen a los resultados o
peligros. Ej.: violación de domicilio (art. 159 CP).

b) Material: conocidos como delitos “de resultado”, éstos se caracterizan


porque el efecto que emite de encuentra separado de la conducta desplegada
por tiempo y espacio, su efecto –de resultado- configura la consumación del
tipo penal. Ej.: hurto simple (art. 185 CP).

2.2.2.4. Por el número de personas

Para esta clasificación, tenemos dos tipos claramente definidos: individuales


(lo realiza una persona, criterio de singularidad) y colectivos (los realiza más
de una persona, criterio de pluralidad).

2.2.2.5. Por su naturaleza intrínseca

a) Común: son aquellos que vulneran los bienes jurídicos tutelados de


cualquier persona.

b) Político: el radio de afectación de estos delitos se da hacia las


organizaciones políticas y sociales del Estado.

c) Social: los que afectan la dirección o el sistema social y económico.

d) Contra la humanidad: no deben ser confundidos con los crímenes de lesa


humanidad, pues, los crímenes no se establecen en el Código Penal, sino,
simplemente los delitos. En ese panorama, los delitos contra la humanidad
van a ser los que vulneran los derechos más prescindibles o esenciales de los
humanos. Ej.: genocidio (art. 319 CP); tortura (art. 321 CP).

23
2.2.3. Sistemas de información geográfica

Para poder representar los datos correctamente, es necesario utilizar


herramientas que nos permitan obtener, almacenar, recuperar y desplegar
datos en el mundo real.

Según Francisco Alonzo (2014, p5) los sistemas de información son: ‘Los
Sistemas de Información Geográfica pueden definirse de forma provisional
como sistemas que permiten almacenar datos espaciales para su consulta,
manipulación y representación. La representación de datos espaciales es el
campo de estudio de la Cartografía.’ El cual plantea, que es un tipo especial
de sistema de información que tiene estudios enfocados la representación de
datos geográficos.

2.2.3.1. Raster

Un tipo de datos raster es, en esencia, cualquier tipo de imagen digital


representada en mallas. El modelo de SIG raster o de retícula se centra en las
propiedades del espacio más que en la precisión de la localización. Divide el
espacio en celdas regulares donde cada una de ellas representa un único
valor.

Se trata de un modelo de datos muy adecuado para la representación de


variables continuas en el espacio.

Una combinación de estos píxeles creará una imagen, a distinción del uso
común de gráficos vectoriales escalables que son la base del modelo vectorial.
Si bien una imagen digital se refiere a la salida como una representación de
la realidad, en una fotografía o el arte transferidos a la computadora, el tipo de
datos raster reflejará una abstracción de la realidad. Las fotografías aéreas
son una forma de datos raster utilizada comúnmente con un sólo propósito:
mostrar una imagen detallada de un mapa base sobre la que se realizarán
labores de digitalización. Otros conjuntos de datos raster podrán contener
información referente a las elevaciones del terreno (un Modelo Digital del
Terreno), o de la reflexión de la luz de una particular longitud de onda (por
ejemplo, las obtenidas por el satélite LandSat), entre otros.

24
Los datos raster se compone de filas y columnas de celdas, cada celda
almacena un valor único. Los datos raster pueden ser imágenes (imágenes
raster), con un valor de color en cada celda (o píxel). Otros valores registrados
para cada celda puede ser un valor discreto, como el uso del suelo, valores
continuos, como temperaturas, o un valor nulo si no se dispone de datos. Si
bien una trama de celdas almacena un valor único, estas pueden ampliarse
mediante el uso de las bandas del raster para representar los colores RGB
(rojo, verde, azul), o una tabla extendida de atributos con una fila para cada
valor único de células. La resolución del conjunto de datos raster es el ancho
de la celda en unidades sobre el terreno.

Los datos raster se almacenan en diferentes formatos, desde un archivo


estándar basado en la estructura de TIFF, JPEG, etc. a grandes objetos
binarios (BLOB), los datos almacenados directamente en Sistema de gestión
de base de datos. El almacenamiento en bases de datos, cuando se indexan,
por lo general permiten una rápida recuperación de los datos raster, pero a
costa de requerir el almacenamiento de millones registros con un importante
tamaño de memoria. En un modelo raster cuanto mayores sean las
dimensiones de las celdas menor es la precisión o detalle (resolución) de la
representación del espacio geográfico.

2.2.3.2. Vectorial

En un SIG, las características geográficas se expresan con frecuencia como


vectores, manteniendo las características geométricas de las figuras.

Los elementos vectoriales pueden crearse respetando una integridad


territorial a través de la aplicación de unas normas topológicas tales como que
"los polígonos no deben superponerse". Los datos vectoriales se pueden
utilizar para representar variaciones continuas de fenómenos. Las líneas de
contorno y las redes irregulares de triángulos (TIN) se utilizan para representar
la altitud u otros valores en continua evolución. Los TIN son registros de
valores en un punto localizado, que están conectados por líneas para formar
una malla irregular de triángulos. Las caras de los triángulos representan, por
ejemplo, la superficie del terreno.

25
Para modelar digitalmente las entidades del mundo real se utilizan tres
elementos geométricos:

a) Puntos: Los puntos se utilizan para las entidades geográficas que mejor
pueden ser expresadas por un único punto de referencia. En otras palabras:
la simple ubicación. Por ejemplo, las localizaciones de los pozos, picos de
elevaciones o puntos de interés. Los puntos transmiten la menor cantidad de

información de estos tipos de archivo y no son posibles las mediciones.


También se pueden utilizar para representar zonas a una escala pequeña. Por
ejemplo, las ciudades en un mapa del mundo estarán representadas por
puntos en lugar de polígonos.

b) Líneas o polilineas

Los puntos se utilizan para las entidades geográficas que mejor pueden ser
expresadas por un único punto de referencia. En otras palabras: la simple
ubicación. Por ejemplo, las localizaciones de los pozos, picos de elevaciones
o puntos de interés. Los puntos transmiten la menor cantidad de información
de estos tipos de archivo y no son posibles las mediciones. También se
pueden utilizar para representar zonas a una escala pequeña. Por ejemplo,
las ciudades en un mapa del mundo estarán representadas por puntos en
lugar de polígonos.

c) Los polígonos bidimensionales se utilizan para representar elementos


geográficos que cubren un área particular de la superficie de la tierra. Estas
entidades pueden representar lagos, límites de parques naturales, edificios,
provincias, o los usos del suelo, por ejemplo. Los polígonos transmiten la
mayor cantidad de información en archivos con datos vectoriales y en ellos se
pueden medir el perímetro y el área.

26
2.3. Operacionalización de variables

2.4. Glosario

- Cluster: Clúster se aplica a los conjuntos o conglomerados de computadoras


construidos mediante la utilización de hardware comunes y que se comportan
como si fuesen una única computadora.

- Geoide: Forma teórica de la Tierra determinada por la geodesia en la cual se


toma como superficie teórica el nivel medio de los mares.

- Centroide: En geometría, el centroide o baricentro de un objeto perteneciente


a un espacio -dimensional es la intersección de todos los hiperplanos que
dividen a en dos partes de igual n-volumen con respecto al hiperplano.

- Jurídico: Del derecho o de las leyes o relacionado con ellos.

- Geometría euclidiana: La geometría euclidiana, euclídea o parabólica es el


estudio de las propiedades geométricas de los espacios euclídeos. Es aquella
que estudia las propiedades geométricas del plano afín euclídeo real y del
espacioafín euclídeo tridimensional real mediante el método sintético,
introduciendo los cinco postulados de Euclides.

- Sistema: Conjunto ordenado de normas y procedimientos que regulan el


funcionamiento de un grupo o colectividad.

27
- Información: La información es un conjunto organizado de datos procesados,
que constituyen un mensaje que cambia el estado de conocimiento del sujeto
o sistema que recibe dicho mensaje.

- Monitorización: Seguimiento periódico del número de crímenes.

- Crimen: La idea básica de lo que se llama "crímenes" es que se piensa que


son cosas que pueden causar problemas a otra persona. Cosas como matar
a otra persona, herir a otra persona o robarle a otra persona son crímenes en
la mayoría de los países. Además, puede ser un delito tener o vender
contrabando de armas o drogas ilegales.

- Minería de datos: La minería de datos o exploración de datos es un campo


de la estadística y las ciencias de la computación referido al proceso que
intenta descubrir patrones en grandes volúmenes de conjuntos de datos.

- Aprendizaje automático: Es el subcampo de las ciencias de la computación


y una rama de la inteligencia artificial cuyo objetivo es desarrollar técnicas que
permitan a las computadoras aprender.

- Geolocalización: Es la capacidad para obtener la ubicación geográfica real


de un objeto, como un radar, un teléfono móvil o un ordenador conectado a
Internet.

28
CAPITULO III

3. MÉTODO DE INVESTIGACIÓN
3.1 Metodología
3.1.1. Tipo y diseño de la investigación

La investigación realizada, de acuerdo al enfoque del problema y el objetivo,


es una investigación experimental, ya que se basa en la manipulación de
variables en condiciones controladas, replicando un fenómeno concreto, para
posteriormente determinar el efecto que las variables implicadas y
manipuladas producen un efecto determinado. Adicionalmente, apoyando a
esta afirmación, se obtendrán muestras aleatorias, de manera que la muestra
de la cual se obtienen es representativa de la realidad y permitirá establecer
una hipótesis y contrastarla a través del método científico.

3.1.2. Población y muestra


3.1.2.1. Población

La población que se desea evaluar está conformada por todos los


habitantes de Puno.

3.1.2.2. Muestra

La muestra se tomará de manera aleatoria entre las principales


ciudades del Perú, tomando en cuenta el número de habitantes por
metro, registros anteriores de crimen, frecuencia y tendencia (Días
festivos) en fechas determinadas.

3.1.3. Técnica de recolección de datos

En el proceso de recolección de datos, se utilizó encuestas y cuestionarios.


Adicionalmente se tomarán referencias del INEI, que posee un amplio registro
anual.

29
3.1.4. Tratamiento de datos

El tratamiento de datos se realizó con el programa R, que tiene como


funcionalidad crear modelos a través del agrupamiento de datos de acuerdo
al siguiente procedimiento:

o Limpiar y reorganizar

o Elegir el tipo de agrupamiento y el número de grupos.

o Codificar datos

o Presentación de datos mediante mapas de calor y tablas estadísticas.

3.1.5. Análisis de datos

Para el análisis, se tomó en cuenta los modelos creados por el software R,


comparándolos con la hipótesis y el objetivo, extrayendo las conclusiones
necesarias.

3.1.6. Metodología de desarrollo del sistema


3.1.6.1. Metodología XP

Las metodologías agiles han tomado gran importancia en el desarrollo


de aplicaciones, dada la simplicidad y la facilidad entre la comunicación
de desarrolladores.

La dinámica que propone es ideal para este proyecto, dada el escaso


número de integrantes, pues simplifica no solo el método de la
programación, también la documentación de esta. Esta metodología
está regida por la siguiente estructura de desarrollo:

Planificación del proyecto

Diseño

Codificación

Pruebas

30
CAPITULO IV

4. CRONOGRAMA DE ACTIVIDADES.
4.1. Cronograma de actividades

actividad Fecha de Duración Fecha de


inicio conclusión

Determinar historias de usuario 01-01-19 1 día 01-01-19

Plan de publicaciones ‘release plan’ 02-01-19 2 días 03-01-19

Determinar iteraciones 03-01-19 1 día 03-01-19

Determinar parejas de programación 04-01-19 1 día 04-01-19

Diseños de interfaz 04-01-19 3 días 06-01-19

codificaron Primera iteración 07-01-19 15 días 21-01-19

Prueba unitaria 22-01-19 1 día 22-01-19

Segunda iteración 23-01-19 6 días 28-01-19

Prueba unitaria 29-01-19 1 día 29-01-19

Tercera iteración 30-01-19 16 días 15-02-19

Prueba unitaria 16-02-19 1 día 16-02-19

Pruebas de integridad 17-02-19 6 días 23-02-19

Crear manual de usuario 23-02-19 3 días 25-02-19

Total 56 días

31
4.2. Presupuesto

actividad Recursos Recursos costo


humanos materiales

Determinar historias de usuario Analista de Hojas de papel S/.180


sistemas

Plan de publicaciones ‘release Analista de Hojas de papel S/.90


plan’ sistemas

Determinar iteraciones Jefe de Computador S/.150


proyecto personal

Determinar parejas de Jefe de Computador S/.150


programación proyecto personal

Diseños de interfaz Diseñador Computador S/.210


personal

codificaron Primera iteración Desarrollador Computador S/.600


personal

Prueba unitaria Tester Computador S/.50


personal

Segunda Desarrollador Computador S/.600


iteración personal

Prueba unitaria Tester Computador S/.50


personal

Tercera iteración Desarrollador Computador S/.600


personal

Prueba unitaria Tester Computador S/.50


personal

Pruebas de integridad Tester Computador S/.150


personal

Crear manual de usuario Tester Computador S/.210


personal

32
4.3. Matriz de consistencia-

Planteamiento del Objetivos Hipótesis Variables e indicadores metodologia


problema
¿Por qué hay altos índices Recolectar información en El algoritmo K-mean’s y la Variable Tipo de investigación
de delincuencia en Puno? tiempo real. recolecion de datos, independiente(información experimental
influirá de manera positiva de zonas peligrosas)
¿Cómo influye el Identificar zonas con y logrará prevenir el Indicadores: Muestra
conocimiento de zonas mayor riesgos, para luego crimen. -definicion La muestra se tomaría de
peligrosas en la población poner los controles -numero de crímenes en su una zona aliatoria de la
de Puno? necesarios. recidencia ciudad de puno, dando un
índice donde hay mas
Analizar los factores que delincuencia.
mas influyen en la Variable dependentiente Diseño correlacional
delincuencia (numero de crímenes
Técnicas de recolección de
anuales en el Peru)
Elaborar informes datos:
Indicador
ordenados por barrios, -entrevistas
-numero de crímenes
calles, avenidas y jirones -encuestas
reportados por persona.
para Puno -revision documental
-numero de crímenes por
Instrumentos de
barrios
recolección de datos
-guia de entrevistas
-ficha de encuestas

33
4.4 IMPACTOS ESPERADOS
Los impactos potenciales del proyecto de investigación y desarrollo tecnológico, sean o no
apoyados por el sector público; forman un conjunto heterogéneo.

4.4.1 Impacto en ciencias y tecnología


Se refiere al grado en que la tecnología contribuye al eco-diseño del producto.
la prevención de los delitos y ayuda a la tecnología para el desarrollo de nuevas
soluciones basadas en este proyectos,(ahorro de energía de materiales, etc.)

4.4.2 Impactos económicos


Impacto sobre el desarrollo endógeno, el desarrollo turístico y la atribución con
la seguridad a las pymes de la región.
4.4.3 Impactos sociales
Impacto sobre la seguridad y la calidad de vida de los usuarios, desarrollo
social, diseño universal.

4.5 Recursos necesarios


- analistas de sistemas

- jefe de proyecto

- diseñador

- tester

- desarrollador

- computadoras (personales)

- coneccion a internet

USO DE RESULTADOS Y CONSTRIBUCIONES DEL PROYECTO


Con los resultados podríamos prevenir el crimen y disminuir el crimen a gran escala,
ya que la policía y los mismos pobladores de las zonas afectadas estarían previamente
alerta sobre los posible asaltos que pueden sufrir según las zonas, así mismo los
turistas que nos vistan de otras ciudades podrían estar alertar de las zonas con mayor
delincuencia y en que horario poder transitar en ciertas calles de en cuidad de puno
para no poder sufrir de ningún delito.

La contribución que bridaría mi proyecto sería un alza al turismo y así mismo a la salud
mental de los mismos ciudadanos de la cuidad de puno, ya que ellos estarían más
seguros y más confiados de transitar en las calles de puno.

34
Referencias
Alcón Ayuso, J., Arauz Méndez, F., & Carmmona Berriguete, I. (2007). Aplicación web para
la geolocalización en tiempo real de los recursos integrantes de una red Grid. Madrid, España.

Chilán, E. (2013). Desarrollo de aplicación para presentar reportes gráficos, que se visualicen
en Google Maps. Guayaquil, Ecuador.

Champan, P., Clinton,J,Kerber,R.,Khabaza, T.,Reimartz, T., Shearer, C. & Wirth, R. (2007),


Metodología CRIPS-DM para la minería de datos. Recuperado el 16 de noviembre de 2015,
de http://www.dataprix.com/CRIPS-DM

35

También podría gustarte