Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Proyecto Data Maining
Proyecto Data Maining
Versin 1.0
09/2015
Contenido
Resumen............................................................................................................. 3
1.
Introduccin................................................................................................. 3
2.
Objetivos...................................................................................................... 4
Objetivos Generales......................................................................................... 4
Hiptesis.......................................................................................................... 4
3.
Descripcion DataSet.................................................................................... 4
Transformacion Dataset en formato ARFF.......................................................5
4.
Trabajo Prctico........................................................................................... 6
Datos Obtenidos............................................................................................ 12
Reglas de Asociacin..................................................................................... 15
5.
Conclusin................................................................................................. 16
6.
Bibliografa................................................................................................. 17
Resumen
El presente documento se encuentra dividido en cinco secciones, en
estas se apreciar una introduccin al tema planteado, para
posteriormente denotar los objetivos que persigue este trabajo y la
hipotesis que se pretende verificar, en el tercer punto se elabora un
analisis detallado sobre la hipotesis previamente definida, en donde se
utilizar como herramienta de apoyo Rapid Minner. Finalmente, se podr
apreciar un resumen con las conclusiones del autor en base a los
pormenores encontrados en la realizacin del trabajo prctico.
1. Introduccin
La telefonia celular y el internet movil, son cada vez mas importantes en
nuestras vidas cotidianas. Estos nos permiten comunicarnos con
nuestros seres queridos, trabajar, estudiar, e incluso ayudarnos frente a
situaciones de emergencia.
Segn un informe difundido por la Subsecretara de Telecomunicaciones,
el nmero de aparatos de la telefona mvil activos en Chile
lleg a los 24,1 millones en diciembre de 2012, estableciendo un
promedio de 1,38 telefonos por habitante 1, se espera que este
numero siga creciendo rapidamente, debido a los nuevos modelos y
mayores estandares que ofrecen las diferentes compaias telfonicas.
Sin embargo para que este sistema funcione de manera adecuada, es
decir, cumpla con permitir el envio y recepcion de informacion desde
cualquier ubicacin (dentro del pas), se requiere de una estructura que
permita establecer este enlace, a esto se le conoce como antenas.
Cada antena tiene un rea de cobertura determinada, el alcance de esta
cobertura depende de la potencia de la antena y del terreno donde se
encuentre ubicada. Adems cada una de estas, puede solo atender a un
numero limitado de llamadas, por lo que es necesario a medida que
incrementan los dispositivos moviles, aumentar la cantidad de antenas
disponibles por sector.
Desde el 11 Junio del 2012 en Chile se decreto una Ley, Ley de Torres,
que permite regular la instalacion de antenas en el pas, dentro de esta
ley se incluye una serie de restriccciones, que permiten ubicar al pas
dentro de los cinco paises mas exigentes en el mundo con respecto a
este tema.
Hoy en dia, la Subsecretara de Telecomunicaciones, dispone de un
registro con la ubicacin de cada una de las antenas dentro del pas,
adems de la fecha de aprobacin de esta misma. Estos datos, permiten
DiarioPyme, http://www.diariopyme.cl/subtel-chile-tiene-24-1-millones-decelulares-activos/prontus_diariopyme/2013-03-19/144258.html
1
2. Objetivos
Mediante este proyecto se pretende aplicar los conocimientos sobre
Mineria de Datos, tanto de forma terica como prctica, sobre los datos
que informa la SubTel acerca de la ubicacin de antenas.
Objetivos Generales
i. Establecer que empresa tiene mayor cantidad de antenas
instaladas en el pas.
ii. Conocer los lugares con mayor cantidad de
antenas
hablitadas.
iii. Desde la validez de la Ley de Torres, ha disminuido la
instalacion de antenas.
iv. Verificar la validez o rechazo de la hipotesis planteada.
Hiptesis
3. Descripcion DataSet
Listado de antenas de telefona mvil, contiene los datos de
Autorizaciones de Estaciones Base (antenas) a nivel Nacional
desde Octubre 2013 hasta Abril 2015.
Estos datos provienen de la Subsecretaria de Telecomunicacines
del Gobierno de Chile, quien mantiene un registro de las
autorizaciones entregadas a las diferentes compaias moviles
para la instalacin de antenas.
El Data Set disponible cuenta con 24408 datos, sin embargo
debido a que el Software R no permite trabajar de forma optima
con esta cantidad de datos, es que se han eliminado las
autorizaciones que iban desde 1988 hasta 2013.
El Data Set con el que se trabajara consta de 24408 datos y
contiene 17 atributos o variables:
en grados.
expresada en minutos.
Lon_Segundos: La longitud es una medida de una dimensin,
expresada en segundos.
4. Trabajo Prctico
En este punto se describiran los pasos que se aplicaron para generar las reglas de
asociacion que permiten entender el comportamiento de los datos otorgados por el
dataset.
Para llevar a cabo la parte practica, se utiliz la herramienta Rapid Minner 6.5.0 con el
plugin Weka.
Para la carga del archivo, una vez realizado el punto 3, se debe proceder a la
carga del archivo generado, para realizar este procedimiento se debe ir a la zona
Filter y escribimos arff, tal como se aprecia en la
Figura 2.
A continuacin, es necesario unir la salida out del Join con res del Main Process
como lo muestra la Figura 6.
Dado que las variables que sern utilizadas son valores continuos y no nominales,
es preciso discretizar alguno de estos atributos para usar el algoritmo A priori. Las
variable discretizada fue Region. Para realizar este preoceso se busca el
Operators Discretize en el Filter, donde se muestran varias opciones. Para este
caso utilizaremos el Discretize by User Specification(Figura 8), que permite generar
clases segn la configuracion del usuario.
Nombre
Regione
s
Norte
1,2,3,4,15
Centro
5,6,7,8,13
Sur
9,10,11,12,13,14
Datos Obtenidos
Para hacerse una idea de la disposicion de los datos, se generaron los siguientes
grficos, los cuales permiten generar alguna postura referente la hipotesis
planteada.
La Figura 14 muestra la distribucion de habitantes segn la zona donde viven en el
pais, de esta imagen se desprende que en la zona centro existen alrededro de
6.250.000 habitantes, mientra que en la zona norte y sur del pais los habitantes
bordean el 1.500.000
Reglas de Asociacin
En base a la configuracion del algoritmo a-priori, se han obtenido las siguientes
reglas de asociacin, las cuales se muestran en la Figura 18.
5. Conclusin
De forma general se puede apreciar que la tecnologa cada vez hace
mayor uso de estos tipos de datos, con el fin de obtener
conocimientos que permitan guiar hacia alguna decisin.
Para el desarrollo, anlisis y verificacin de la hiptesis planteada en
un comienzo, como ya mencionamos antes fueron usadas las
tcnicas de asociacion de datos, mediante el uso de la herramienta
rapid Minner.
Con respecto a la hiptesis planteada en el punto hiptesis, no se
puede concluir respecto a ella, ya que los datos que comprende el
dataset no muestran ninguna relacion entre la zona de instalacion y
la compaa, es mas, se puede decir de forma arbitraria que faltan
mas datos o atributos que permitan generar una opinion profunda
sobre el tema de si la cantidad de habitantes esta intrinsicamente
relacionada con el numero de antenas instaladas, ya que tamposo se
puede concluir a ciencia cierta si es que la instalacion esta ligada en
forma porcentual a la cantidad de habitantes que existe en cada
region o zona del pas.
Para finalizar el tema de la hiptesis, se puede decir que esta no es
validada ni rechazada, debido a que las reglas de asociacion
obtenidas no muestran una realidad frente a los parametros
previamente expuestos, es entonces, que este dataset no se puede
utilizar para mostrar reglas de asociacin relacionadas a la hipotesis
descrita previamente.
Por otro lado el dataset antes descrito si bien posee muchos datos, no
tiene potencial para seguir siendo utilizado a lo largo del proyecto, ya
que no se pueden hacer muchas combinaciones ademas de las ya
realizadas, por lo que su alcance es pequeo, ademas los datos no
permiten hacerse una vision general, ni permite generar una opinion
afirmativa o negativa respecto a las hipotesis planteadas.
6. Bibliografa
i.
ii.
iii.
iv.
v.
Sistema
de
telecomunicaciones,
Informe
Sectorial:Telecomunicaciones
en
Chile,
2013,
link:
http://www.subtel.gob.cl/images/stories/apoyo_articulos/notas_pre
nsa/analisis_sectorial_dic2012_20130315.pdf
Sistema
de
telecomunicaciones,
Antena,
2011,
link:
http://www.subtel.gob.cl/antenas1/
Sistema de telecomunicaciones, Sector de telecomunicacion,
2014,
link:
http://www.subtel.gob.cl/wpcontent/uploads/2015/01/PPT-Series-Septiembre-2014-041214v1.pdf
Sistema de telecomunicaciones, Ley de Torres, link:
http://2010-2014.gob.cl/santiago-2-0/ley-de-torres-de-antenas/
RapidMinner
Studio
Core,
Join,link:
http://docs.rapidminer.com/studio/operators/data_transformation/s
et_operations/join.html