Está en la página 1de 8

TECNOLOGICO NACIONAL DE MEXICO

INSTITUTO TECNOLOGICO DE ORIZABA


ORIZABA, VERACRUZ

PROGRAMA EDUCATIVO
INGENIERÍA INFORMATICA

ASIGNATURA
TALLER DE INVESTIGACION I

DOCENTE
MARMOL ENRIQUE SANTOS QUINTERO

TESIS
USO DE LA MINERIA DE DATOS EN SISTEMAS
GUBERNAMENTALES PARA LA PREDICCION DE EVENTOS

ACTIVIDAD - AVANCE
2.3 OBJETIVOS DE LA INVESTIGACION GENERALES Y
ESPECIFICOS - 2.4 JUSTIFICACION.

PRESENTA
MOISES MARTINEZ FLORES
FABIAN DE JESUS LOPEZ AMARO
SEMESTRE

26 DE ABRIL DE 2021
2.3 OBJETIVOS DE LA INVESTIGACION
GENERALES Y ESPECIFICOS
OBJETIVO GENERAL: Conocer, comprender las técnicas básicas de minería
de datos y saber cómo se aplican en problemas concretos (en sistemas
gubernamentales) de extracción de conocimiento útil para el análisis, la toma de
decisiones y predicción de eventos.

OBJETIVOS ESPECIFICOS:

Al final de esta investigación el estudiante estará en capacidad de:

1. Entender los conceptos y la terminología de las técnicas de minería de


datos. Reconocer los beneficios del uso sistemático de técnicas de
extracción de conocimiento para la obtención de modelos y patrones
predictivos o descriptivos.
2. Conocer las fases del Descubrimiento de Conocimiento de Bases de
Datos y la importancia de las mismas en el éxito del proceso (en especial
las de limpieza y selección de datos).
3. Conocer las distintas técnicas de aprendizaje automático y estadísticas
utilizadas en minería de datos, su potencial, su coste computacional y sus
limitaciones de representación y de inteligibilidad.
4. Elegir, para un problema concreto, qué técnicas de minería de datos son
más apropiadas.
5. Generar los modelos y patrones elegidos utilizando una herramienta o
paquete de minería de datos.
6. Evaluar la calidad de un modelo, utilizando técnicas sencillas de
evaluación (validación cruzada).
7. Implementar un algoritmo de minería de datos específico.
8. Conocer la problemática especial de la minería sobre la Web
(documentos textuales e hipertextuales) y las técnicas más usadas.
9. Conocer los problemas abiertos en la investigación de minería de datos.
Conocer los congresos y foros más importantes, así como las redes,
recursos, etc., relacionados

La minería de datos surgió con la intención o el objetivo de ayudar a


comprender una enorme cantidad de datos, y que estos, pudieran ser
utilizados para extraer conclusiones para contribuir en la mejora y crecimiento
de las empresas, sobre todo, por lo que hace a las ventas o fidelización de
clientes.

 Su principal finalidad es explorar, mediante la utilización de


distintas técnicas y tecnologías, bases de datos enormes de manera
automática con el objetivo de encontrar patrones repetitivos,
tendencias o reglas que expliquen el comportamiento de los datos
que se han ido recopilando con el tiempo. Estos patrones pueden
encontrarse utilizando estadísticas o algoritmos de búsqueda
próximos a la Inteligencia Artificial y a las redes neuronales. 

Los mineros o exploradores de datos a la hora de llevar a cabo un análisis de


Data Mining, deberán realizar cuatro pasos distintos:

1. Determinación de los objetivos: El cliente determina qué objetivos


quiere conseguir gracias al uso del Data Mining.
2. Procesamiento de los datos: Selección, limpieza, enriquecimiento,
reducción y transformación de la base de datos.
3. Determinación del modelo: Primero se debe hacer un análisis
estadístico de los datos y después visualización gráfica de los mismos.
4. Análisis de los resultados: En este paso se deberán verificar si los
resultados obtenidos son coherentes.

El proceso de extracción del conocimiento


“La minería de datos, es parte de una etapa del proceso de extracción del
conocimiento a partir de datos (KDD)” (2008, págs. 3-8). Dicho proceso consta
de las siguientes fases:

 Selección
o Recopilar e integrar las fuentes de datos existentes
o Identificar y seleccionar las variantes relevantes en los datos
o Aplicar las técnicas de muestreo adecuadas
 Exploración
o Utilizar las técnicas de análisis exploratorio de datos
o Deducir la distribución de los datos, simetría y normalidad
o Analizar las correlaciones existentes en la información
 Limpieza
o Detectar y tratar la presencia de valores atípicos (outliers)
o Imputar la información faltante o valores perdidos (datos missing)
o Eliminar datos erróneos e irrelevantes.
 Transformación
o Utilizar las técnicas de reducción y aumento de la dimensión
o Aplica técnicas de discreción y numeración
o Realizar escalado simple y multidimensional
 Minería de datos
o Utilizar técnicas predictivas
o Utilizar técnicas descriptivas.
 Evaluación e interpretación de resultados
o Intervalo de confianza
o Bootstrap
o Análisis ROC
o Evaluación de modelos
 Difusión y uso de modelos
o Visualización
o Simulación

2.4 JUSTIFICACION
La justificación a la parte de un proyecto de investigación que expone las
razones que motivaron a realizar esa investigación. La justificación es la
sección en la que se explica la importancia y los motivos que llevaron al
investigador a realizar el trabajo.

En la justificación se explica al lector por qué y para qué se investigó el tema


elegido. En forma general, los motivos que el investigador puede dar en una
justificación pueden ser que su trabajo permite construir o refutar teorías;
aportar un nuevo enfoque o perspectiva sobre el tema; contribuir a la solución
de un problema concreto (social, económico, ambiental, etc.) que afecta a
determinadas personas; generar datos empíricos significativos y reutilizables;
aclarar las causas y consecuencias de un determinado fenómeno de interés;
entre otras.

Entre los criterios utilizados para redactar una justificación se toman en cuenta
la utilidad de la investigación para otros académicos o bien para otros sectores
sociales (funcionarios públicos, empresas, sectores de la sociedad civil), la
trascendencia en el tiempo que puede tener, el aporte de nuevas herramientas
o técnicas de investigación, la actualización de conocimientos preexistentes,
entre otros. Además, el lenguaje debe ser formal y descriptivo.
En estos tiempos que corren denominados “la era de la información” en la
cual, la sociedad, los clientes y las empresas están cambiando. Estos tres
grupos cada vez generan e intentan procesar más y más datos, cantidades que
para muchos son imposibles de imaginar. Para lograr adquirir y analizar tanta
información surge el término Big Data. Un término joven que presenta
confusión respecto a su alcance. En este trabajo se tratará de aclarar en qué
consiste, su alcance, como lo utilizan las empresas y en qué situación se
encuentra. Además, también se abarcará otros términos relacionados con Big
Data, como pueden ser la minería de datos, el Cloud Computing o el Data
Warehouse. Igualmente, también se aclarará porqué surge Big Data, de donde
procede y por que para muchos tecnólogos sugiere un cambio de etapa en el
mundo de las Tics.

La justificación de la realización de dicho proyecto, es debido a la gran


notoriedad que está teniendo esta tecnología actualmente. Cualquier persona
sin o con conocimientos tecnológicos, se pregunta cómo se almacena toda la
información que se genera en el mundo: en Facebook, Twitter, Smartcities o
como Google es capaz de manejar todas las transacciones que se hacen a
diario. Pero no solo se queda aquí, ya que Big Data alcanza todos los ámbitos:
bolsa, climatología, astronomía, la cantidad de datos que se genera
actualmente es abrumadora y solo el hecho de saber cómo se consigue captar
y analizar dicha información me parece una justificación bastante razonable.

Además, cuando tuve conocimiento de dicha tecnología, me recordó a la


tecnología Data Warehouse, la cual me impresionó junto con la utilización de
Data Mining y Business Intelligence en grandes organizaciones utilizando un
software tan complejo como es el SAP y que con ello consiguen obtener
ventajas competitivas. Visto esto y sabiendo que yo vengo de la rama de
empresariales me entusiasmo la idea de averiguar cómo las organizaciones
utilizaban Big Data y para qué.

JUSTIFICACION

Utilizando la técnica de la minería de datos que es un área relativamente nueva


y que se encarga básicamente, como su nombre lo indica, de excavar los datos
con el objetivo de encontrar en ello información que parece interesante y que no
es evidente ni fácil de entender a simple vista, este trabajo de tesis pretende
alcanzar un conocimiento básico aplicado como lo es trabajo.
Varios han sido los enfoques aplicados para enfrentar este problema. El análisis
matemático y el análisis estadístico proporcionan buenos resultados en la
solución del problema, pero estos enfoques tienen como meta la prueba de
hipótesis predefinidas y no la búsqueda de patrones no predefinidos en
diferentes escenarios de análisis.

La minería de datos es un nuevo enfoque que los especialistas en base de


datos y/o inteligencia artificial proponen como una solución al problema de
adquirir y utilizar la información de las organizaciones buscando patrones de
comportamiento para apoyar la toma de decisiones. La minería de datos
permite desarrollar y seleccionar una estrategia para construir y aplicar un
algoritmo de búsqueda en un proceso complejo para descubrir conocimiento en
bases de datos.
La minería de Datos o Data Mining es una tecnología nueva concebida a finales
de los años 90's, que haciendo uso de las herramientas de ese momento se
pudiera lograr el objetivo de encontrar algún conocimiento oculto (patrón,
asociación, regla de comportamiento) dentro de las bases de datos para ayudar
en la toma de decisiones.

Esta tecnología surge principalmente de tres factores:

1) El abaratamiento en los costos de almacenamiento y procesamiento de


información (equipos de cómputo y discos duros cada vez más grandes y
de precio más bajo).

2) El desarrollo de nuevas tecnologías, métodos y programas para manejar


la información.

3) La cultura de la informatización del procesamiento de datos, que en la


actualidad se está empezando a conocer como la infoera. Se denomina
minería de datos (data mining) al análisis de archivos y bitácoras de
transacciones con el fin de descubrir patrones, relaciones, reglas,
asociaciones o incluso excepciones que pueden ser útiles para la toma de
decisiones. Los seres humanos poseen habilidades extremadamente
sofisticadas para detectar patrones y descubrir tendencias. Por tal motivo,
una imagen dice más que mil palabras y 9 una gráfica o una tabulación
permite, de una mirada, identificar tendencias en el tiempo o relaciones
entre dos mediciones de un fenómeno. Por otro lado, no es claro que
nuestras habilidades puedan realizar, con la misma eficiencia, la tarea de
analizar los miles de millones de datos almacenados electrónicamente al
monitorear las transacciones comerciales de una base de datos.
Así pues, Data Mining es una solución a muchos de los procesos actuales en
los cuales se manejan volúmenes de datos cada vez mayores, de forma tal que
nos resulta muy difícil percibir algunas características o anomalías de
comportamientos basados solo en el estudio de las bases de datos. De manera
más profunda,

Data Mining está compuesta por una serie de técnicas (traducidas en


algoritmos), la mayoría proveniente de la inteligencia artificial, pero aplicados a
las bases de datos. Sin confundirse con un sistema experto, está tecnología se
basa más bien en las orientaciones de los expertos para ver la mejor manera de
procesar y encontrar correlaciones, patrones en los datos, en este punto se
tienen que considerar los elementos de las bases de datos, minería de datos y
algunos elementos de sistemas expertos, de otra manera puede resultar en un
modelado erróneo de los datos.

El proceso que conlleva la minería de datos comienza desde definir objetivos,


es decir cuál es el problema en cuestión. Posteriormente una etapa de
preprocesamiento de datos, para quitar ruido y prepararlos de forma adecuada
al algoritmo.

Existe la etapa llamada de Data Mining, en la cual se introducen los datos para
el algoritmo y finalmente una etapa de post-procesamiento que consiste en
eliminar conocimientos, que muchas veces resultan obvios y solo dejar aquellos
que verdaderamente puede servir para una toma de decisión.

Descubrir patrones o relaciones útiles en una colección de datos ha recibido


tradicionalmente muchos nombres. El término data mining llegó incluso a ser
muy desprestigiado en estadística, pues representaba masajear
suficientemente los datos hasta que los mismos confirmasen lo que uno quería
postular.

En este sentido, la minería de datos es un proceso que invierte la dinámica del


método científico. En el método científico, primero se formula la hipótesis y
luego se diseña el experimento para coleccionar los datos que confirmen o
refuten la hipótesis. Si esto se hace con la formalidad adecuada (cuidando
cuáles son las variables controladas y cuáles experimentales), se obtiene un
nuevo conocimiento.

En la minería de datos, se coleccionan los datos y esperamos que de ellos


emerjan hipótesis. Queremos que los datos describan o indiquen por qué son
como son. La más inocente mirada a los datos por un humano, puede inspirarle
una hipótesis. Se debe recordar que los seres humanos tenemos grandes
habilidades de generalización e identificación de patrones.

Entonces, validar una hipótesis inspirada por los datos en los datos mismos que
sea numéricamente significativa, pero que experimentalmente puede no ser
necesariamente válida o puede ser incompleta. De ahí que la minería de datos
debe presentar un enfoque 10 exploratorio y no necesariamente confirmativo.
Por esto, usar la minería de datos para confirmar nuestras hipótesis puede ser
peligroso, pues estamos haciendo se puede estar realizando una inferencia
poco válida.

Afortunadamente, las técnicas de validación desarrolladas a lo largo de los


años 80 en el campo del Aprendizaje Automático, hacen posible que las
inferencias de la Minería de Datos pueden ser validadas para obtener patrones
o asociaciones reales y ciertas y no sólo reflejos de un manipuleo de los datos.
El campo del Descubrimiento de Conocimiento en Bases de Datos, denominado
en inglés Knowledge Discovery in Data Bases, usualmente abreviado KDD en
los congresos y en la prensa, es la convergencia del Aprendizaje Automático, la
Estadística, el Reconocimiento de Patrones, la Inteligencia Artificial, las Bases
de Datos, la Visualización de Datos, los Sistemas para el Apoyo a la Toma de
Decisiones, la Recuperación de Información, y otros muchos campos. Parece,
que sólo hasta ahora, existe un nivel de madurez en todas estas áreas, para
que sea posible extraer los más bellos diamantes del conocimiento a partir de
los datos.

También podría gustarte