Está en la página 1de 30

Contenido

ABSTRACT ..................................................................................................................................... 3
RESUMEN ...................................................................................................................................... 3
KEY WORDS................................................................................................................................... 3
PALABRAS CLAVE .......................................................................................................................... 4
Introduccin.................................................................................................................................. 5
CAPITULO I .................................................................................................................................... 6
Objetivo general ....................................................................................................................... 6
Objetivos especficos. ............................................................................................................... 6
Justificacin .............................................................................................................................. 6
Alcance. ..................................................................................................................................... 6
Planteamiento del ejercicio ..................................................................................................... 7
Hiptesis ................................................................................................................................... 7
CAPTULO II ................................................................................................................................... 7
Marco referencial ..................................................................................................................... 7
Marco terico ........................................................................................................................... 7
Minera de datos....................................................................................................................... 7
Proceso de extraccin del conocimiento (K.D.D.) ................................................................... 8
Matlab ....................................................................................................................................... 9
SPSS ......................................................................................................................................... 10
CAPTULO III ................................................................................................................................ 11
Metodologa ........................................................................................................................... 11
Metodologa de la investigacin ............................................................................................ 11
Unidad de Anlisis .............................................................................................................. 11
Tipo de Investigacin. ......................................................................................................... 12
Mtodo. .............................................................................................................................. 12
Tcnica. ............................................................................................................................... 13
Instrumento. ....................................................................................................................... 13
CAPITULO IV ................................................................................................................................ 13
Resultados obtenidos ............................................................................................................. 13
1. Nmero de encuestados por sexo y cantn .................................................................. 13
2. Nmero de encuestados por grupos de edad. ............................................................. 16
3. Nmero de encuestados por nivel de instruccin y cantn. ......................................... 18
4. Nmero de encuestados generales por tipo de discapacidad. ..................................... 22
5. Nmero de encuestados generales por provincia en la que vivan hace 5 aos. ........ 24
CAPITULO V ................................................................................................................................. 26
Conclusiones y recomendaciones .......................................................................................... 26
Conclusiones ....................................................................................................................... 26
Recomendaciones............................................................................................................... 27
Glosario ....................................................................................................................................... 27
Bibliografa .................................................................................................................................. 28
LINKS DE VIDEOS......................................................................................................................... 29

INDICE DE ILUSTRACIONES
Ilustracin 1: Pregunta1 sexo y cantn, Fuente los autores ....................................................... 14
Ilustracin 2: pregunta 1 filtrado de variables, Elaborado por autores ...................................... 14
Ilustracin 3: pregunta 1 comando set, Elaborado por autores ................................................. 15
Ilustracin 4: pregunta 1 programacion de graficas y disp, Elaborado por autores ................... 15
Ilustracin 5: pregunta 1subplot graficas, Elaborado por autores ............................................. 16
Ilustracin 6: pregunta 2 variable edadhistcounts, Elaborado por autores ............................... 16
Ilustracin 7: pregunta 2 filtracion con histcounts, Elaborado por autores ............................... 17
Ilustracin 8: pregunta 2 programcion de graficas, Elaborado por autores ............................... 17
Ilustracin 9: pregunta 2 graficas, Elaborado por autores .......................................................... 18
Ilustracin 10: pregunta 3 filtracion isnan, Elaborado por autores ............................................ 19
Ilustracin 11: pregunta 3 determinacion de variables hist counts, Elaborado por autores ..... 19
Ilustracin 12: pregunta 3 comando disp, Elaborado por autores ............................................. 20
Ilustracin 13: pregunta 3 determinacion de las variables filtradas, Elaborado por autores ..... 21
Ilustracin 14: pregunta 3 graficas Elaborado por autores......................................................... 22
Ilustracin 15: pregunta 4 histcounts, Elaborado por autores ................................................... 22
Ilustracin 16: pregunta 4 determinacion de variables, Elaborado por autores ........................ 23
Ilustracin 17: pregunta 4 funcion disp, Elaborado por autores ................................................ 24
Ilustracin 18: pregunta 4 graficas, Elaborado por autores........................................................ 24
Ilustracin 19:pregunta 5 histcounts, Elaborado por autores .................................................... 25
Ilustracin 20: pregunta 5 determinacion de provincias, Elaborado por autores ...................... 25
Ilustracin 21: pregunta 5 vector de graficacion, Elaborado por autores .................................. 26
Ilustracin 22: Pregunta 5 procentajes grafica, Elaborado por autores ..................................... 26
ABSTRACT

Using the mat lab, spss and Excel tools, the data obtained from the 2010 Ecuadorian
census was analyzed with the aim of answering several questions to understand the
operation of the computer technique called data mining. Mat lab is a mega calculator
that performs a number of operations, so it is useful in any field as calculation support.
In the present work the technique of learning was applied, using bibliographical sources
as support for learning. The purpose is to understand the operation of data mining in
mat lab.

KEY WORDS

Analysis
Distinction and separation of the parts of a whole until you get to know its principles
and elements.
Axis
Specifies the limits of the current axes
Fact
The data are the collection of quantitative information, which facilitates the deduction
of an investigation or fact.
Debug
Q is the act of discovering and correcting or deleting erroneous data records from a
table or database
Vector
A vector is any line segment directed in space

RESUMEN
Con la utilizacin de las herramientas mat lab, spss y Excel se analiz los datos obtenidos
del censo 2010 del Ecuador con el afn de contestar diversas preguntas para entender
el funcionamiento de la tcnica informtica denominada minera de datos. Mat lab es
una mega calculadora que realiza un sin nmero de operaciones, por lo cual resulta til
en cualquier mbito como apoyo de clculo. En el presente trabajo se aplic la tcnica
de aprender haciendo, utilizando fuentes bibliogrficas como apoyo para el aprendizaje.
El fin es comprender el funcionamiento de minera de datos en mat lab.

PALABRAS CLAVE
Anlisis
Distincin y separacin de las partes de un todo hasta llegar a conocer sus principios y
elementos.
Axis
Especifica los lmites de los ejes actuales

Dato
Los datos son la recopilacin de informacin cuantitativa, que facilitan la deduccin de
una investigacin o un hecho.

Depurar
El acto de descubrimiento y correccin o eliminacin de registros de datos errneos de
una tabla o base de datos,

Vector
Un vector es todo segmento de recta dirigido en el espacio
Introduccin

La minera de datos es el proceso de detectar la informacin procesable de los conjuntos


grandes de datos. Utiliza el anlisis matemtico para deducir los patrones y tendencias
que existen en los datos. Normalmente, estos patrones no se pueden detectar mediante
la exploracin tradicional de los datos porque las relaciones son demasiado complejas o
porque hay demasiado datos.

Las tcnicas de minera de datos se aplicaban sobre informacin contenida


en almacenes de datos. De hecho, muchas grandes empresas e instituciones han creado
y alimentan bases de datos especialmente diseadas para proyectos de minera de datos
en las que centralizan informacin potencialmente til de todas sus reas de negocio.
No obstante, actualmente est cobrando una importancia cada vez mayor la minera de
datos desestructurados como informacin contenida en ficheros de texto, en Internet,
etc.

La generacin de un modelo de minera de datos forma parte de un proceso mayor que


incluye desde la formulacin de preguntas acerca de los datos y la creacin de un
modelo para responderlas, hasta la implementacin del modelo en un entorno de
trabajo.

En las siguientes pginas ilustraremos de forma didctica un modelo de minara de


datos, ejemplo basado en la base de datos de la provincia de Sucumbos, las mismas
que contienen varios campos con mltiples registros , en la cual nos vamos a plantear
distintas preguntas: Cual es la composicin demogrfica de la provincia de Sucumbos
por sexo y Cantn, Cual es la composicin demogrfica de la provincia de Sucumbos por
edad simple, Numero de encuestados por nivel de instruccin por cantones de la
provincia de Sucumbos, Numero de encuestados por tipo de discapacidad de la
provincia de Sucumbos y Numero de encuestados por provincia de donde viva hace 5
aos. La base de datos de Sucumbos permitir contestar las preguntas con la
implementacin del modelo de minera de datos.
CAPITULO I

Objetivo general

Conocer la importancia de la integracin de sistemas de informacin y su proceso de


implantacin en el uso de modelos de minera de datos mediante el uso de la
herramienta tales como Excel y Matlab, para comprender el anlisis de datos.

Objetivos especficos.

Conocer los sistemas de gestin de datos, que permita responder a distintas preguntas
que tienes sus campos y registros.

Analizar la informacin a travs de minera de datos, con el uso de las nuevas


tecnologas.

Justificacin

Es importante para los estudiantes de la carrera de economa, comprender la


importancia de la manipulacin de base de datos, y el uso de las tecnologas de la
informacin en los mbitos econmicos y financieros, para aprovechar el anlisis de las
mismas que permita interpretar los resultados a travs de un modelo de minera de
datos .

Es por eso que mediante el uso del modelo de minera de datos, se va a comprender la
importancia de la gestin de informacin, segn la pregunta planteada, en el que se
podrn observar los campos que se deben utilizar para resolver las preguntas y las
funciones que se debe utilizar para el anlisis.

Alcance.
Vamos a implementar un modelo de minera de datos en el programa informtico
Matlab utilizando el complemento de Excel basado en el uso de distintas funciones
que permitirn la clasificacin y resultados pertinentes.

Planteamiento del ejercicio

La base de datos de la provincia de Sucumbos del Ecuador, se plantea distintas


preguntas; Cual es la composicin demogrfica de la provincia de Sucumbos por sexo y
Cantn, Cual es la composicin demogrfica de la provincia de Sucumbos por edad
simple, Numero de encuestados por nivel de instruccin por cantones de la provincia
de Sucumbos, Numero de encuestados por tipo de discapacidad de la provincia de
Sucumbos y Numero de encuestados por provincia de donde viva hace 5 aos, con el
fin de clasificar y manipular la base para ofrecer la respuestas indicadas, para ello
realiza un modelo de minera de datos con el uso de distintas funciones que van a
permitir la depuracin de la misma.

Hiptesis

Con las herramientas tecnolgicas (Matlab) se pueden crear un modelo de minera de


datos con distintas funciones para responder preguntas dentro de una base de datos.

CAPTULO II

Marco referencial
Marco terico

Minera de datos

La minera de datos, es el conjunto de tcnicas y tecnologas que permiten explorar


grandes bases de datos, de manera automtica o semiautomtica, con el objetivo de
encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento
de los datos en un determinado contexto.
Bsicamente, la minera de datos surge para intentar ayudar a comprender el
contenido de un repositorio de datos. Con este fin, hace uso de prcticas estadsticas y,
en algunos casos, de algoritmos de bsqueda prximos a la Inteligencia Artificial y a las
redes neuronales.
De forma general, los datos son la materia prima bruta. En el momento que el usuario
les atribuye algn significado especial pasan a convertirse en informacin. Cuando los
especialistas elaboran o encuentran un modelo, haciendo que la interpretacin que
surge entre la informacin y ese modelo represente un valor agregado, entonces nos
referimos al conocimiento.
La minera de datos tiene como objetivo descubrir patrones y extraer conocimiento
a partir de grandes conjuntos de datos. El conocimiento adquirido se emplea para la
toma de decisiones, clasificacin de la informacin y realizacin de predicciones en
diferentes mbitos e industrias (automocin, aeroespacial, energa, farmacutica,
finanzas, mdica, etc.).

Proceso de extraccin del conocimiento (K.D.D.)


La Extraccin de conocimiento est principalmente relacionado con el proceso de
descubrimiento conocido como Knowledge Discovery in Databases (KDD), que se refiere
al proceso no-trivial de descubrir conocimiento e informacin potencialmente til
dentro de los datos contenidos en algn repositorio de informacin. No es un proceso
automtico, es un proceso iterativo que exhaustivamente explora volmenes muy
grandes de datos para determinar relaciones. Es un proceso que extrae informacin de
calidad que puede usarse para dibujar conclusiones basadas en relaciones o modelos
dentro de los datos. Las etapas del proceso KDD se dividen en 5 fases y son:
Seleccin de datos. En esta etapa se determinan las fuentes de datos y el tipo de
informacin a utilizar. Es la etapa donde los datos relevantes para el anlisis son
extrados desde la o las fuentes de datos.
Pre procesamiento. Esta etapa consiste en la preparacin y limpieza de los datos
extrados desde las distintas fuentes de datos en una forma manejable, necesaria
para las fases posteriores. En esta etapa se utilizan diversas estrategias para
manejar datos faltantes o en blanco, datos inconsistentes o que estn fuera de
rango, obtenindose al final una estructura de datos adecuada para su posterior
transformacin.
Transformacin. Consiste en el tratamiento preliminar de los datos,
transformacin y generacin de nuevas variables a partir de las ya existentes con
una estructura de datos apropiada. Aqu se realizan operaciones de agregacin
o normalizacin, consolidando los datos de una forma necesaria para la fase
siguiente.
Minera de datos. Es la fase de modelamiento propiamente tal, en donde
mtodos inteligentes son aplicados con el objetivo de extraer patrones
previamente desconocidos, vlidos, nuevos, potencialmente tiles y
comprensibles y que estn contenidos u ocultos en los datos.
Interpretacin y Evaluacin. Se identifican los patrones obtenidos y que son
realmente interesantes, basndose en algunas medidas y se realiza una
evaluacin de los resultados obtenidos.

Matlab
MATLAB es un entorno de clculo tcnico de altas prestaciones para clculo numrico
y visualizacin. Integra:
Anlisis numrico
Clculo matricial
Procesamiento de seales
Grficos
En un entorno fcil de usar, donde los problemas y las soluciones son expresados
como se escriben matemticamente, sin la programacin tradicional. El
nombre MATLAB proviene de ``MATrix LABoratory'' (Laboratorio de
Matrices). MATLAB fue escrito originalmente para proporcionar un acceso sencillo al
software matricial desarrollado por los proyectos LINPACK y EISPACK, que juntos
representan lo ms avanzado en programas de clculo matricial. MATLAB es un sistema
interactivo cuyo elemento bsico de datos es una matriz que no requiere
dimensionamiento. Esto permite resolver muchos problemas numricos en una fraccin
del tiempo que llevara hacerlo en lenguajes como C, BASIC o FORTRAN. MATLAB ha
evolucionado en los ltimos aos a partir de la colaboracin de muchos usuarios. En
entornos universitarios se ha convertido en la herramienta de enseanza estndar para
cursos de introduccin en lgebra lineal aplicada, as como cursos avanzados en otras
reas. En la industria, MATLAB se utiliza para investigacin y para resolver problemas
prcticos de ingeniera y matemticas, con un gran nfasis en aplicaciones de control y
procesamiento de seales. MATLAB tambin proporciona una serie de soluciones
especficas denominadas TOOLBOXES. Estas son muy importantes para la mayora de los
usuarios de MATLAB y son conjuntos de funciones MATLAB que extienden el
entorno MATLAB para resolver clases particulares de problemas como:
Procesamiento de seales
Diseo de sistemas de control
Simulacin de sistemas dinmicos
Identificacin de sistemas
Redes neuronales y otros.
Probablemente la caracterstica ms importante de MATLAB es su capacidad de
crecimiento. Esto permite convertir al usuario en un autor contribuyente, creando sus
propias aplicaciones. En resumen, las prestaciones ms importantes de MATLAB son:
Escritura del programa en lenguaje matemtico.
Implementacin de las matrices como elemento bsico del lenguaje, lo que
permite una gran reduccin del cdigo, al no necesitar implementar el clculo
matricial.
Implementacin de aritmtica compleja.
Un gran contenido de rdenes especficas, agrupadas en TOOLBOXES.
Posibilidad de ampliar y adaptar el lenguaje, mediantes ficheros de script y
funciones .m.

SPSS
SPSS es un programa estadstico informtico muy usado en las ciencias exactas,
sociales y aplicadas, adems de las empresas de investigacin de mercado.
Originalmente SPSS fue creado como el acrnimo de Statistical Package for the Social
Sciences aunque tambin se ha referido como "Statistical Product and Service
Solutions". Sin embargo, en la actualidad la parte SPSS del nombre completo del
software (IBM SPSS) no es acrnimo de nada.
Es uno de los programas estadsticos ms conocidos teniendo en cuenta su capacidad
para trabajar con grandes bases de datos y una sencilla interfaz para la mayora de los
anlisis. En la versin 12 de SPSS se podan realizar anlisis con 2 millones de registros y
250.000 variables. El programa consiste en un mdulo base y mdulos anexos que se
han ido actualizando constantemente con nuevos procedimientos estadsticos. Cada
uno de estos mdulos se compra por separado.
Por ejemplo SPSS puede ser utilizado para evaluar cuestiones educativas.
Actualmente, compite no slo con softwares licenciados como lo son SAS, MATLAB,
Statistica, Stata, sino tambin con software de cdigo abierto y libre, de los cuales el
ms destacado es el Lenguaje R.

CAPTULO III

Metodologa

Metodologa de la investigacin

Unidad de Anlisis

La unidad de anlisis que se desarrolla ser entorno a la minera de datos, la misma


que se aplicara al censo poblacional de la provincia de Sucumbos la cual nos permite
extraer datos muy importantes para la creacin de nuevas polticas. En los censos
elaborados cada 10 aos, un pas necesita conocer cules han sido los cambios que
presenta la poblacin, se busca calcular el nmero de habitantes de territorio
delimitado, correspondiente a un momento o perodo dado, se aprovecha igualmente
para obtener una serie de datos demogrficos, econmicos y sociales relativos a esos
habitantes, consideradas desde un punto de vista cuantitativo. Es la fuente primaria de
las estadsticas bsicas de poblacin que son necesarias para fines gubernamentales y
aspectos de planificacin econmica y social.
Entre los beneficios que podemos encontrar al usar la minera de datos estn.
Proporcionar poderes de decisin a los usuarios para que comprendan de mejor
manera el problema, el entorno y sean capaces de medir las acciones y los
resultados de la mejor forma.
Contribuye a la toma de decisiones tcticas y estratgicas proporcionando un
sentido automatizado para identificar informacin clave desde volmenes de
datos generados por procesos tradicionales
Trabajar con esta tecnologa implica cuidar un sin nmero de detalles debido a
que el producto final involucra "toma de decisiones".

Tipo de Investigacin.

El siguiente manual se basara en el tipo de investigacin descriptiva la misma que


consiste en llegar a conocer las situaciones, costumbres y actitudes predominantes a
travs de la descripcin exacta de las actividades, objetos, procesos y personas. Su meta
no se limita a la recoleccin de datos, sino a la prediccin e identificacin de las
relaciones que existen entre dos o ms variables.
En definitiva, en base a esta investigacin se pretende describir el funcionamiento de
la minera de datos y las diversas aplicaciones a las diferentes reas, que en nuestro
ejemplo se usar el censo de poblacin, para demostrar como su aplicacin permite de
manera fidedigna tener datos que permitan reestructurar las polticas para el buen vivir
de la poblacin de esa provincia.

Mtodo.

El mtodo de investigacin ms relevante es del mtodo cientfico, por ende, ser el


mtodo que se usar en el trabajo a desarrollarse, por proceso o "mtodo cientfico" se
entiende aquellas prcticas utilizadas y ratificadas por la comunidad cientfica como
vlidas a la hora de proceder con el fin de exponer y confirmar sus teoras. Las teoras
cientficas, destinadas a explicar de alguna manera los fenmenos que observamos,
pueden apoyarse o no en experimentos que certifiquen su validez. Si bien el mtodo
cientfico tiene un alto margen de confiabilidad, no se puede tener una certeza total.
Mediante los siguientes pasos:
1. Observacin: Aplicar los fundamentos del modelo de rbol de decisiones en la
rama de los negocios e inversiones
2. Induccin: Extraer el principio fundamental de cada observacin o experiencia.
3. Hiptesis: Elaborar una explicacin provisional de las observaciones o
experiencias
4. Probar la teora por experimentacin.
5. Teora cientfica

Tcnica.

La tcnica de investigacin en el presente trabajo se basa en las encuestas realizadas


por los estudiantes de colegios en todo el pas, la misma que nos permite obtener
informacin muy confiable, puesto que antes de ser publicada pasa por varios filtros de
correccin realizada por profesionales capacitados, la temtica hace referencia a la
correccin por medio de instrumentos estadsticos que permiten considerar mrgenes
de error para que la informacin sea ms confiable.

Instrumento.

Para la presente investigacin el instrumento bsico a usarse hace referencia al


anlisis de la teora que aplicaremos, en base al programa MATLAB se proceder a
ingresar un sinnmero de variables extradas del censo poblacional que permita
responder a varias interrogantes realizadas por el docente, las mismas que aplicadas por
un ente gubernamental ayudara a mejorar las condiciones de vida de las personas
encuestadas.

CAPITULO IV
Resultados obtenidos

1. Nmero de encuestados por sexo y cantn


El primer paso es definir las variables a depurar en la base de datos, las variables por
sexo sern de hombre y mujer, mientras que las de cantn harn referencia las 7
cantones que hay en la Provincia de Sucumbos, mediante el comando isnan que ayuda
a codificar las variables con las que se trabaja.

Ilustracin 1: Pregunta1 sexo y cantn, Fuente los autores

El segundo paso es realizar una multiplicacin de los individuos de cada cantn por el
cantn que se desee especificar y despus con el comando histcount cuantificarlos.

Ilustracin 2: pregunta 1 filtrado de variables, Elaborado por autores

El tercer paso consiste en usar el comando Disp. para otorgar un nombre a las variables
que se pretenden graficar y por el ultimo la grfica como tal que ser plasmada a modo
de barras y las respectivas etiquetas del significado de uno de los valores graficados.
Ilustracin 3: pregunta 1 comando set, Elaborado por autores

El proceso se debe de repetir para cada uno de los cantones a estudiar en el presente
caso.

Ilustracin 4: pregunta 1 programacion de graficas y disp, Elaborado por autores

GRAFICOS
Ilustracin 5: pregunta 1subplot graficas, Elaborado por autores

2. Nmero de encuestados por grupos de edad.

El primer paso viene a ser la definicin de las variables que necesitamos, para el
siguiente caso se necesita de la edad y del comando histcount para que el mismo
cuantifique las variables que intervienen, seguido de ella se deben especificar los grupos
de edad con los que se pretende trabajar. No se depura ningn dato de la poblacin
pues la pregunta nos pide tratar con toda la poblacin.

Ilustracin 6: pregunta 2 variable edadhistcounts, Elaborado por autores

Como segundo paso es necesario usar el comando Disp, el mismo que permite otorgar
atributos a las variables, en este caso el nombre de las mismas acompaada por el
comando num2str para obtener la raz de los resultados y para al final de este paso
definir los grupos de edad dentro de una sola variable.

Ilustracin 7: pregunta 2 filtracion con histcounts, Elaborado por autores

Como tercer paso viene la parte de la traficacin, para el mismo se dar uso de un grfico
de barras y otro de modo pastel, aplicando las funciones bar y pie respectivamente.
Cabe resaltar que para el uso de etiquetas se acude al comando title para dar un ttulo
a la grfica adems de xlabel y ylabel para especificar el nombre de sus distintos ejes en
el grficos y del comando set para etiquetas en el grfico de barras.

Ilustracin 8: pregunta 2 programcion de graficas, Elaborado por autores


GRAFICOS

Ilustracin 9: pregunta 2 graficas, Elaborado por autores

3. Nmero de encuestados por nivel de instruccin y cantn.

El primer paso es depurar y definir las variables que se pretenden usar para la graficacin
y minera de datos de la base a trabajar, por ende es necesario definir cada segmento
de la variable nivel de instruccin adems de definir los 7 cantones de la provincia en la
que trabajamos ayudndonos del comando isnan para ambos casos.
Ilustracin 10: pregunta 3 filtracion isnan, Elaborado por autores

Como segundo paso es necesario realizar una multiplicacin sencilla entre la variable de
nivel de instruccin y los cantones a estudiar. El proceso es realizar la multiplicacin por
el respectivo cantn para luego usar el comando histcount para cuantificar dicho
resultado y definir la nueva variable por cada cantn.

Ilustracin 11: pregunta 3 determinacion de variables hist counts, Elaborado por autores
Una vez culminada la multiplicacin de las variables por los cantones y de definir las
nuevas variables, las mismas deben de pasar por un proceso de otorgacin de atributos
mediante el comendo disp. Para que estas tengan un nombre de respuesta al momento
de ser graficadas. Ya en el campo de los grficos como tal se pretende trabajar con
grficos de barras acudidos por la funcin bar y nombrados por los comandos title y
dems para definir los ejes correspondientes y set para marcar etiquetas de cada barra.

Ilustracin 12: pregunta 3 comando disp, Elaborado por autores

El proceso debe de repetirse para cada cantn.


Ilustracin 13: pregunta 3 determinacion de las variables filtradas, Elaborado por autores

GRAFICAS
Ilustracin 14: pregunta 3 graficas Elaborado por autores

4. Nmero de encuestados generales por tipo de discapacidad.

Como en los anteriores casos el primer paso es plantear las variables con las que vamos
a trabajar dentro de la minera de datos para responder esta pregunta, como en
ejemplos anteriores al pedirnos una poblacin de encuestados general no se hace un
depuracin de datos de esta variable sino solo de la variable de discapacidad y de sus
segmentos, para ello hay que dar un valor a cada segmentos y mediante histcount
cuantificarlo.

Ilustracin 15: pregunta 4 histcounts, Elaborado por autores


Para el segundo paso de esta pregunta es necesario usar el comando disp. Para dar n
nombre a las variables que se pretende medir y lograr analizarlas de una mejor manera
mediante una presentacin ms amigable.

Ilustracin 16: pregunta 4 determinacion de variables, Elaborado por autores

Como ltimo paso que viene a ser la grfica, se trabajara con barras y pasteles. Las barras
definidas por el comando bar consecuentemente necesitan de otros comendas para
especificar etiquetas y nombres de ejes en cuento a su grafico respecta, de igual manera
el grafico de pastel que requiere de un ttulo y una presentacin a modo porcentual del
peso de cada segmento de la variable que se analiza en este caso la de discapacidad.
Ilustracin 17: pregunta 4 funcion disp, Elaborado por autores

GRAFICOS

Ilustracin 18: pregunta 4 graficas, Elaborado por autores

5. Nmero de encuestados generales por provincia en la que vivan hace 5


aos.
El primer paso es definir la variable con la que se va a trabajar, adems de cuantificarla
mediante histcount definiendo un rango de (a, 99).
Ilustracin 19:pregunta 5 histcounts, Elaborado por autores

El segundo paso es analizar y definir variables para todas las provincias, ya que la
variable que estamos estudiando trata de este tema es necesario definir cada provincia
con un respetivo vector de trabajo.

Ilustracin 20: pregunta 5 determinacion de provincias, Elaborado


por autores

El ltimo paso es plantear los vectores de graficacin con cada una de las provincias en
las que los encuestados dijeron que residan hace un tiempo estimado de 5 aos usando
las grficas de pastel y barras acompaadas de los respetivos comandos que les
otorguen nombres y etiquetas segn sean el caso, mismo que ya han sido nombrados
anteriormente.
Ilustracin 21: pregunta 5 vector de graficacion, Elaborado por autores

GRAFICAS

Ilustracin 22: Pregunta 5 procentajes grafica, Elaborado por autores

CAPITULO V
Conclusiones y recomendaciones
Conclusiones
El proceso para resolver minera de datos a travs de mat lab es muy extenso y
complejo, se debe tener vastos conocimientos en comandos de mat lab.
Los resultados que se obtienen en mat lab son idnticos a los que se obtienen en
Excel y en spss pero toma ms tiempo conseguirlo.
Hay varias deficiencias al momento de programar en mat lab como por ejemplo
la interfaz y los comandos en ingles dificultan la utilizacin del programa, adems
al ser un programa tan pesado es difcil de manejar con fluidez.

Recomendaciones

Si se requiere de analizar datos de manera fluida y ms simple es mejor utilizar


otro programa como spss que es especializado en el anlisis de bases de datos
de gran envergadura.
Para trabajar en mat lab se debe tomar en cuenta cada carcter puesto que un
solo punto de as puede acabar con el trabajo propuesto
Tambin se debe tomar en cuenta que se necesitan previos conocimientos de
matemticas para utilizar el programa, ya que es como una gran calculadora y
hace lo que le pedimos, as que de se debe tener lgica los comandos que
utilizamos

Glosario

Anlisis
Distincin y separacin de las partes de un todo hasta llegar a conocer sus principios
y elementos.
Axis
Especifica los lmites de los ejes actuales
D

Dato
Los datos son la recopilacin de informacin cuantitativa, que facilitan la deduccin de
una investigacin o un hecho.

Depurar
Es el acto de descubrimiento y correccin o eliminacin de registros de datos errneos
de una tabla o base de datos

Disp
Muestra el valor de la variable X sin imprimir el nombre de la variable

Datacursormode
Habilita el modo de cursor datos sobre la cifra actual

Inan
Detectar los elelmentos de una matriz NaN.

Bibliografa
Braga, L. P. (2009). Introducion a la Mineria de Datos. Rio de Janeiro : E-papers.

Lopez, C. P. (2008). MIneria de Datos . Espaa: Thomson.

Varios. (2014). Mineria de datos. Aplicacion didactica. Caribe: Universidad Autnoma del
Caribe.
LINKS DE VIDEOS

También podría gustarte