Está en la página 1de 9

OFICINA DE TIC

Sistema de clasificacin por criterios de avisos


de trabajo
SISTEMA DESARROLLADO PARA EL CURSO
DE INTELIGENCIA ARTIFICIAL

Historial de Versiones
Autor
Wester Zela

Versin
1.0

Descripcin
Elaboracin del formato

Fecha
20/09/2015

Leandro Arvalo

1.1

Descripcin de los puntos 1,2 y 3

29/09/2016

Eduardo
Melndez

1.2

Descripcin de los puntos 4,5,6 y


7

22/10/2016

Revisado y Aprobado por:

Nombre
Cargo
Firma

Nombre
Cargo
Firma

Tabla de contenido
1.
DESCRIPCIN DEL SISTEMA
2.
DESCRIPCIN DEL PROBLEMA
3.
ALCANCE DEL SISTEMA
4.
SELECCIN DE LA TCNICA PARA RESOLVER EL PROBLEMA
5.
PLAN PARA EL DESARROLLO DEL SISTEMA
6.
DESCRIPCIN DE LA ARQUITECTURA DEL SISTEMA
7.
DESCRIPCIN DE LOS DATOS DEL SISTEMA
8.
DESCRIPCIN DEL PROTOTIPO DEL SISTEMA
9.
DESCRIPCIN DEL SISTEMA
10.
RESULTADOS DEL SISTEMA
11.
TRABAJOS FUTUROS
12.
REFERENCIAS
13.
ANEXOS
13.1.
ARCHIVOS FUENTES

1.

DESCRIPCIN DEL SISTEMA

Nombre del sistema

Sistema de clasificacin por criterios de avisos de trabajo

Descripcin del Sistema

El sistema clasificar avisos de trabajo de tres pginas


web especializadas, segn criterios que faciliten la
bsqueda y eleccin de trabajo.

Miembros del Equipo

Arvalo Ramrez, Leandro Gabriel


Espino Cuadros, Cristhian Paul
Garca Herrera, Erick Fernando
Melndez Ramrez de Castilla, Eduardo Gabriel

2.

DESCRIPCIN DEL PROBLEMA

Los caminos que conducen al empleo en un pas en el que la tasa de crecimiento promedio anual
de aquellos que tienen educacin superior universitaria y no universitaria aumenta en 6,1% son
variados.
Segn la tabla que resume datos extrados de informes del INEI, en el 2015, ms de 200 mil
peruanos trabajaron en carreras afines a la ingeniera de sistemas.

Por ello si buscamos ofertas en los portales web especializados de ofertas de trabajo filtrando
sobre estas carreras afines, la informacin es variada y crea una confusin en lo que repecta a las
habilidades que cada perfil requiere. Pero las ventajas son muy evidentes: es ms econmico, ms
rpido y con mayor oferta que la de los sistemas tradicionales. Pero estas webs no pueden
garantizar el xito en la bsqueda de trabajo, porque su labor se limita a la intermediacin y a la
informacin. Pero s est entre sus cometidos remitir ofertas de empleo que se adecuen al perfil y a
las demandas del usuario.
SSYSPE:
El sitio web http://www.ssyspe.org/jobs.php permite ver los distintos perfiles de puestos que
requieren las empresas afines a la carrera de ingeniera de sistemas, publicados en los ltimos
das, extrayendo dicha informacin de las siguientes pginas:

http://www.bumeran.com.pe/
http://aptitus.com/
http://www.computrabajo.com.pe/
Es muy importante lo que realiza este website, ya que permite la integracin de las ofertas de
trabajos de los principales sitios web de ofertas laborales, porque los puestos que se publican en
una pgina web no necesariamente se publican en otra, o tambin puede ocurrir el caso que en
ambas pginas se publique el mismo puesto de trabajo y la informacin se repita.
Sin embargo surge un nuevo problema, con la abundante informacin sobre los perfiles de puestos
de trabajo, hace que el candidato no sepa las habilidades que debe tener para poder postular, o
capacitarse segn las competencias requeridas. Un segundo problema sera, que no se sabe cada

cunto tiempo se requiere el puesto de trabajo por la empresa, muchos personas que buscan
empleos, no saben cundo saldr una vacante para el puesto que el aspira.
3.

ALCANCE DEL SISTEMA

En el presente trabajo se pretende realizar un sistema web que permita visualizar los principales
criterios de los puestos de trabajo a los usuarios de la pgina SSYSPE.
Adems, el sistema podr predecir cada que tiempo se publicar el puesto de trabajo en la pgina
SSYSPE, y qu competencias debera tener para ser apto para ese puesto.

4.

SELECCIN DE LA TCNICA PARA RESOLVER EL PROBLEMA

ALGORITMO:
Se har uso de algoritmos de clusterizacin como k-means, y de regresin como k-nearest
neighborn.
HERRAMIENTAS:
NLTK: El kit de herramientas de lenguaje natural, o ms comnmente NLTK, es un conjunto de
bibliotecas y programas para el procesamiento del lenguaje natural (PLN) simblico y estadsticos
para el lenguaje de programacin Python. NLTK incluye demostraciones grficas y datos de
muestra. Se acompaa de un libro que explica los conceptos subyacentes a las tareas de
procesamiento del lenguaje compatibles el toolkit, adems de programas de ejemplo. NLTK est
destinado a apoyar la investigacin y la enseanza en PLN o reas muy relacionadas, que incluyen
la lingstica emprica, las ciencias cognitivas, la inteligencia artificial, la recuperacin de
informacin, y el aprendizaje de la mquina. NLTK se ha utilizado con xito como herramienta de
enseanza, como una herramienta de estudio individual, y como plataforma para los sistemas de
investigacin de prototipos y construccin.
Beautifulsoup: Es una biblioteca de Python para analizar documentos HTML (incluyendo los que
tienen un marcado incorrecto). Esta biblioteca crea un rbol con todos los elementos del
documento y puede ser utilizado para extraer informacin. Por lo tanto, esta biblioteca es til para
realizar web scraping extraer informacin de sitios web. Est disponible para Python 2.6+ y Python.
Scikit-Learn: Es una biblioteca de cdigo abierto de la mquina de aprendizaje del lenguaje de
programacin Python . Contiene algoritmos de clasificacin , regresin y clustering (agrupacin) y
las mquinas de vectores de soporte , la regresin logstica, clasificador bayesiano , k-media y
DBSCAN , y est diseado para funcionar con las bibliotecas NumPy y SciPy . scikit-learn est
patrocinado por el INRIA y algunas veces por Google .
El lenguaje de programacin a usar ser Python, haciendo uso de las siguientes libreras como nltk
(natural language toolkit) para el pre-procesamiento del texto de los archivos, beautifulsoup, para el
parseo de las pginas webs de los links.
Para la parte en s de construccin del modelo de ML (entrenamiento y evaluacin) se har uso de
la librera scikit-learn.

5.

PLAN PARA EL DESARROLLO DEL SISTEMA

En la siguiente imagen, se muestra el plan de desarrollo del Sistema Experto, los EDT, y los roles
de las actividades.

6.

DESCRIPCIN DE LA ARQUITECTURA DEL SISTEMA

La arquitectura bsica del sistema se muestra en el siguiente grfico:

Se puede observar los dos mdulos principales del sistema:


1. Mdulo de Procesamiento de Texto:
a. Entradas: Archivos del Servidor FTP
b. Salida: Dataset
Este mdulo se encargar de la obtencin del dataset usado posteriormente por el
mdulo de machine learning, para eso este se encargar de obtener el texto de los
archivos asi como la tokenizacion y normalizacin de la data.
2. Mdulo de Machine Learning
a. Entradas: Dataset
b. Salida: Modelo
Este mdulo se encargar del entrenamiento y evaluacin del modelo de machine
learning.

7.

DESCRIPCIN DE LOS DATOS DEL SISTEMA

Los datos a usar sern proporcionados por el servidor FTP cuyos archivos de texto alimentan a la
bolsa de trabajo de la pgina de SSYSPE.
Se utiliza el acceso ftp:ftp.compratodoperu.com

Luego los datos contenidos en los archivos .txt son similares a:

Estos archivos sern pre-procesados (en el grfico anterior se muestra el proceso de preprocesamiento de texto), adems se usar un enfoque de bag of words para la construccin del
dataset, esto nos entregar los datos en un formato matricial, en donde cada fila vendra ser las
caractersticas de una instancia de aviso de trabajo.

8.

DESCRIPCIN DEL PROTOTIPO DEL SISTEMA

<Describir el prototipo del sistema desarrollado para probar el concepto. >

9.

DESCRIPCIN DETALLADA DEL SISTEMA

<Describir el sistema final con los mdulos desarrollados.


Describir la tcnica y algoritmos seleccionados de IA para el desarrollo de este sistema.
Describir los procesos de entrenamiento, pruebas y su funcionamiento final en produccin.
>

10. RESULTADOS DEL SISTEMA IA


<Describir los resultados obtenidos por el sistema con los datos de prueba y en produccin. Cules
son los resultados de las predicciones del Sistema>

11. TRABAJOS FUTUROS


<Describir los trabajos futuros necesarios para mejorar el sistema desarrollo en el curso.>

12. REFERENCIAS
<Incluir la bibliografa usada para el desarrollo de este sistema>

13. ANEXOS
<Incluir el nombre de los archivos fuentes del sistema, adems de los datos utilizados, si fuera
necesario parte del cdigo fuente y otra informacin necesaria que no se ha incluido en los
prrafos anteriores>
14. ARCHIVOS FUENTES
<Detallar la relacin de archivos entregados. Considere por lo menos los datos del cuadro que se
detalla a continuacin>

Nombre de archivo

Extensin

Fecha de
creacin

Fecha de
modificacin

Autor

También podría gustarte