Está en la página 1de 21

ADYN Herramienta de Normalizacin

Caballero Ruz, Elisa Isabel elisa.caballero.ext@juntadeandalucia.es Garca Gonzlez, Francisco Jos franciscoj. arcia. .ext@juntadeandalucia.es Instituto de Estadstica de !ndaluca

Resumen: La mayora de la informacin con la que nos encontramos en el mundo real contiene errores, est incompleta o incorrectamente formateada. Es por ello por lo que nos planteamos como objetivo transformar los datos originales brutos en otros con formatos consistentes y bien definidos y resolver las posibles inconsistencias sobre la forma en la que se representa y codifica la informacin. El conjunto de estas tcnicas es lo que se conoce como proceso de normalizacin de datos. ara realizar de forma automtica y ordenada el proceso de normalizacin de fic!eros datos, el "nstituto de Estadstica de #ndaluca !a creado #$%& 'erramienta &ormalizacin, que tiene como funcionalidades la limpieza, estandarizacin segmentacin de nombres de personas, de direcciones postales y de identificadores personas fsicas y jurdicas. de de y de

La singularidad de #$%& 'erramienta de &ormalizacin frente a otras !erramientas y mtodos de normalizacin ser el uso de tcnicas de aprendizaje supervisado( lo que significa que el sistema ir )aprendiendo* a travs del conjunto de datos que el usuario le suministra. +ediante este sistema se evita tener conocimientos previos de programacin ya que no necesitamos modificar el cdigo de la aplicacin para incluir nuevas reglas de normalizacin, siendo esto muy costoso desde el punto de vista computacional. En este documento se realizar de forma detallada un proceso de normalizacin a travs de un fic!ero de datos llamado Ejemplo.csv que contiene un ,nico campo con datos de direcciones postales y en el que intentaremos eliminar y corregir los elementos que consideremos errneos as como segmentar las direcciones postales en los elementos que la componen, es decir, tipo de va, nombre de va, portal, planta, etc. or ,ltimo indicar que #$%& 'erramienta de &ormalizacin es de licencia libre y accesible a todos los usuarios de las #dministraciones ,blicas, estando disponible a travs del -epositorio de .oft/are Libre de la 0unta de #ndaluca.

Palabras claves: #$%& 'erramienta de &ormalizacin, normalizacin, limpieza, estandarizacin, direcciones postales, nombres de personas e identificadores de personas fsicas o jurdicas.

!"#$ %erra&ienta de $or&alizaci'n

1. Introduccin al proceso de normalizacin de un fic ero de datos.


$or&al&ente, la ran &a(ora de la infor&aci'n con la )ue nos encontra&os en el &undo real contiene errores, est inco&*leta o incorrecta&ente for&ateada. +ara resol,er este *roble&a -e&os fijado un conjunto de tcnicas enca&inadas a la obtenci'n de datos consistentes )ue se en loban en el lla&ado proceso de normalizacin de datos ( redundar en una &ejor calidad ( fiabilidad en *osteriores anlisis de esos datos. +ara realizar el *roceso de nor&alizaci'n se establecen dos fases *rinci*ales. .na *ri&era fase de li&*ieza donde no i&*orta el contenido se&ntico del fic-ero de datos, ( se realizan tareas de codificaci'n del fic-ero as co&o de eli&inaci'n de abre,iaturas ( si nos de *untuaci'n en los datos contenidos en l. /a se unda fase es la de estandarizaci'n del conjunto de datos, en este caso se analiza el contenido se&ntico del fic-ero ( se clasifica el contenido de este se 0n el ,alor de sus co&*onentes. "ebido a esa clasificaci'n se realizar la se &entaci'n de los datos en cada una de las co&*onentes )ue los for&an. El objeto de la a*licaci'n infor&tica #$%& 'erramienta de &ormalizacin es la li&*ieza, estandarizaci'n ( se &entaci'n de no&bres de *ersonas, de direcciones *ostales ( de identificadores de *ersonas fsicas ( jurdicas. +or eje&*lo, en el caso de los no&bres de *ersonas, la nor&alizaci'n consistir en li&*iar, estandarizar ( se &entar esos datos en no&bres *ro*ios, a*ellidos ( *artculas auxiliares asociadas a a&bos. "e i ual for&a conse uire&os li&*iar, estandarizar ( se &entar las direcciones *ostales ( los identificadores de *ersonas fsicas ( jurdicas. +ara nor&alizar al uno de estos tres ca&*os -are&os uso de tres -erra&ientas1

/as listas de correcci'n1 estos fic-eros *er&iten li&*iar el ca&*o a nor&alizar del fic-ero de datos, es decir, contienen los caracteres )ue el usuario -a considerado o*ortuno eli&inar o sustituir en dic-o ca&*o. +or eje&*lo, se eli&inan caracteres extra2os 3456, 476,...8 ( se sustitu(en las ,ocales con tildes *or ,ocales sin tildes. /as tablas de b0s)ueda1 son fic-eros )ue contienen un listado de ,alores )ue *er&iten sustituir cada ele&ento del ca&*o a nor&alizar *or su ,alor nor&alizado (, ade&s, le asi nan una eti)ueta. +or eje&*lo, si en el ca&*o a nor&alizar se encuentra el ele&ento 4c96 se sustitu(e *or 4calle6 ( se le asi na la eti)ueta 4:;6 )ue si nifica :i*o de ;a. /os <odelos =cultos de <ar>o, 3en in ls 'idden +ar1ov +odels ' %<<8, tratan de reconocer el *atr'n de los datos )ue ,a&os a nor&alizar a tra,s de una &uestra de dic-os datos. En este *roceso extra*olare&os el conoci&iento sobre esas estructuras o *atrones )ue si uen los ele&entos de la &uestra a la totalidad de los re istros a nor&alizar, de tal for&a )ue se consi a se &entar cada uno de los datos en los distintos ele&entos )ue los co&*onen.

/a si uiente fi ura nos &uestra el es)ue&a eneral del *roceso de nor&alizaci'n1

I&a en ?1 +roceso eneral de nor&alizaci'n.

2 Caballero Ruz, Elisa Isabel Garca Gonzlez, Francisco Jos

!"#$ %erra&ienta de $or&alizaci'n

+ode&os ,er co&o *ara el sub*roceso de li&*ieza necesita&os las listas de correcci'n ( *ara el sub*roceso de estandarizaci'n ( se &entaci'n necesita&os las tablas de b0s)ueda ( el <odelo =culto de <ar>o,. #$%& 'erramienta de &ormalizacin inclu(e un conjunto de listas de correcci'n ( tablas de b0s)ueda *ara no&bres de *ersonas, *ara direcciones *ostales ( *ara identificadores de *ersonas fsicas ( jurdicas. Estos fic-eros *odrn ser editados en su totalidad de tal for&a )ue el usuario *odr ir enri)ueciendo ( *ersonalizando la infor&aci'n contenida en ellos. +ara *oder utilizar los <odelos =cultos de <ar>o, en el *roceso de estandarizaci'n ( se &entaci'n, *re,ia&ente -an de ser enerados. +ara crear estos &odelos, *artire&os de una &uestra (a sea del fic-ero de datos ori inal con el )ue ,a&os a trabajar o bien de otro fic-ero )ue ten a datos con una estructura si&ilar a los )ue ,a&os a estandarizar ( se &entar. .na ,ez obtenida esa &uestra 3o*eraci'n auto&tica8 se realizan los *rocesos de eti)uetado 3o*eraci'n auto&tica8, asi naci'n de estados 3o*eraci'n &anual8 ( entrena&iento 3o*eraci'n auto&tica8. Final&ente obtendre&os un <odelo =culto de <ar>o, )ue ser usado *ara nor&alizar el ca&*o ele ido del fic-ero ori inal de datos. El es)ue&a de creaci'n de <odelos =cultos de <ar>o, )ueda reflejado en la si uiente fi ura1

I&a en @1 +roceso de entrena&iento o de obtenci'n del <odelo =culto de <ar>o,.

# un es)ue&a i&a en1

eneral de todos los *rocesos interconectados se &uestra en la si uiente

Imagen 3: Esquema general del roceso de normalizaci!n"

3 Caballero Ruz, Elisa Isabel Garca Gonzlez, Francisco Jos

!"#$ %erra&ienta de $or&alizaci'n

!. ADYN Herramienta de Normalizacin.


Esta a*licaci'n infor&tica *er&ite realizar de for&a sencilla un *roceso de nor&alizaci'n de no&bres de *ersonas, de direcciones *ostales ( de identificadores de *ersonas fsicas ( jurdicas de tal for&a )ue a *artir del conoci&iento de la estructura o *atr'n )ue *resentan los datos contenidos en una &uestra *oda&os nor&alizar la totalidad del fic-ero de datos. Concreta&ente, a tra,s de este docu&ento realizare&os la nor&alizaci'n del ca&*o 4"irecciones6 del fic-ero de datos 6Eje&*lo.cs,6. ;isual&ente )uere&os obtener lo si uiente1

Imagen #: Fic$ero an%es & des us de la normalizaci!n"

El *roceso de nor&alizaci'n de datos a tra,s de #$%& 'erramienta de &ormalizacin consta de las si uientes fases1 !.1 "reacin del #odelo $culto de #ar%ov. !.! Normalizacin del fic ero de datos. !.& 'alidacin del proceso de normalizacin.

;e&oslas detenida&ente.

# Caballero Ruz, Elisa Isabel Garca Gonzlez, Francisco Jos

!"#$ %erra&ienta de $or&alizaci'n

!.1 "reacin del #odelo $culto de #ar%ov.


En esta fase del *roceso de nor&alizaci'n el objeti,o es reconocer la estructura de los datos )ue ,a&os a nor&alizar. Es *or ello *or lo )ue utiliza&os los <odelos =cultos de <ar>o, )ue reconocen ciertos *atrones de co&*orta&iento en los datos contenidos en nuestro fic-ero, *er&itindonos estandarizar ( se &entar dic-os datos. +or eje&*lo, si tene&os la direcci'n *ostal 4C9 Jor e <orales @A6 el &odelo reconocer, estandarizar ( se &entar el *atr'n de la si uiente &anera1

'alor a normalizar: Patrn: ,standarizacin se*mentacin:

:i*o de ;a Calle

"( )or*e #orales !+ $o&bre de ;a Jor e <orales

$0&ero @A

Es decir, 4C96 lo reconoce co&o ti*o de ,a ( lo estandariza *or 4Calle6, 4Jor e <orales6 lo reconoce co&o no&bre de ,a ( lo estandariza *or el &is&o ,alor (a )ue no corre i&os los no&bres de las ,as ( 4@A6 lo reconoce co&o n0&ero ( lo estandariza *or el &is&o ,alor *or la &is&a raz'n anterior. "e i ual for&a, si trabaja&os con no&bres de *ersonas ( tene&os estructuras de datos del ti*o 4Ruz :orre !na Francisca6 el &odelo reconocer, estandarizar ( se &entar estas estructuras de la si uiente for&a1 'alor a normalizar: Patrn: ,standarizacin se*mentacin: Ru.z /orre Ana 0rancisca !*ellido@ $o&bre? :orre !na

!*ellido? Ruiz

$o&bre@ Francisca

Final&ente, *ara el caso de identificadores de *ersonas fsicas ( jurdicas tendre&os datos del ti*o 4!?@BC@?DE?6 o si&ilar. El &odelo reconocer, estandarizar ( se &entar estos datos de la for&a1 'alor a normalizar: Patrn: ,standarizacin - se*mentacin: /etra de inicio a A1!12!1341 $0&ero de identificaci'n ?@BC@?D

Carcter de control ?

+ara crear el <odelo =culto de <ar>o, se uire&os los si uientes tres *asos1 +aso ?1 Felecci'n ( eti)uetado de la &uestra. +aso @1 !si naci'n &anual de estados. +aso G1 Entrena&iento de la &uestra.

! continuaci'n se ex*lica detenida&ente cada *aso del *roceso de construcci'n del <odelo =culto de <ar>o,.

' Caballero Ruz, Elisa Isabel Garca Gonzlez, Francisco Jos

!"#$ %erra&ienta de $or&alizaci'n

!.1.1 Paso 1: 5eleccin - eti6uetado de la muestra.


! *artir del fic-ero de trabajo, la a*licaci'n selecciona una &uestra aleatoria con re*osici'n del ca&*o )ue desea&os nor&alizar, (a sea no&bres de *ersonas o direcciones *ostales. +ara el caso de identificadores de *ersonas fsicas o jurdicas no es necesario realizar dic-o *roceso (a )ue junto con la a*licaci'n se *ro*orciona un <odelo =culto de <ar>o, )ue reco e toda la casustica )ue *ode&os encontrar sobre los *atrones de esos identificadores. .na ,ez seleccionado el ca&*o 4no&bre de *ersona6 o 4direcci'n *ostal6, el usuario ser )uien es*ecifi)ue el ta&a2o de la &uestra a seleccionar. !uto&tica&ente la a*licaci'n enera esa &uestra eli&inando los s&bolos o caracteres extra2os &ediante las 4listas de correcci'n6 ( eti)uetando los ele&entos )ue la co&*onen &ediante el uso de las 4tablas de b0s)ueda6. El *roceso de eti)uetado consiste en lo si uiente1 la a*licaci'n ir buscando cada uno de los ele&entos en las 4tablas de b0s)ueda6 de tal for&a )ue si lo encuentra, le asi nar la eti)ueta corres*ondiente a esa tabla. En el caso de )ue un ele&ento no a*arezca en las tablas de b0s)ueda ser eti)uetado co&o 4.$6 3un1no/n, desconocido en in ls8. +or eje&*lo, su*on a&os un fic-ero de datos en el )ue desea&os nor&alizar el ca&*o no&bre de *ersona. Fi el usuario eli e to&ar una &uestra de tres re istros, uno de los *osibles resultados )ue la a*licaci'n ofrece de for&a auto&tica es el si uiente1
H CAC 3I81 5ruz torre ana francisca5 H 5ruiz torre ana francisca5 .$1, .$1, $F1, $F1 H CJB 3?81 5rodr uez &i uel francisco5 H 5rodri uez &i uel francisco5 .$1, $<1, $<1 H ABI 3@81 5*az onzlez rodr uez5 H 5*az onzalez rodri uez5 $F1, .$1, .$1

+ara cada uno de estos re istros tene&os la si uiente infor&aci'n1 /a *ri&era lnea nos indica1 H1 toda la infor&aci'n )ue ,a detrs de la al&o-adilla es un si&*le co&entario ( sir,e de infor&aci'n adicional al usuario *ero no es utilizada en nin 0n *roceso. ! continuaci'n se &uestra un n0&ero )ue indica la lnea del fic-ero ori inal en la )ue se encuentra el re istro. En el eje&*lo1 CAC, CJB ( ABI. Fe uida&ente se &uestra un ,alor nu&rico entre *arntesis, el cual indica el n0&ero )ue tiene asi nado el re istro en la &uestra. "ic-o ,alor se asi na auto&tica&ente co&enzando *or I. +or 0lti&o a*arece la infor&aci'n ori inal contenida en el ca&*o a nor&alizar. En nuestro caso1 5ruz torre ana francisca5, 5rodr uez &i uel francisco5 ( 5*az onzlez rodr uez5. En la se unda lnea se &uestra el ,alor del ca&*o tras las correcciones definidas en las 4listas de correcci'n6 ( las 4tablas de b0s)ueda6. /a tercera lnea &uestra las eti)uetas asi nadas a cada co&*onente del ca&*o a nor&alizar. +ara el *ri&er re istro de la &uestra las eti)uetas asi nadas son .$1, .$1, $F1, $F1. Esto )uiere decir )ue1 4ruiz6 ( 4torre6 -an sido eti)uetados co&o 4.$6 3desconocidos8 (a )ue son ele&entos )ue no se -an encontrado en nin una tabla de b0s)ueda.
( Caballero Ruz, Elisa Isabel Garca Gonzlez, Francisco Jos

!"#$ %erra&ienta de $or&alizaci'n

( los ele&entos 4ana6 ( 4francisca6 -an sido eti)uetados co&o 4$F6 *or)ue se -an encontrado en la tabla de b0s)ueda de no&bres fe&eninos 3>no&bresKfe&eninos.tbl8. Fi -ubise&os trabajado con direcciones *ostales, el *rocedi&iento de selecci'n de la &uestra ( eti)uetado, -ubiera sido anlo o al de no&bres con la restricci'n de )ue las eti)uetas seran las definidas *ara direcciones. En la documentacin 6ue se suministra con ADYN Herramienta de Normalizacin se *ueden consultar todas las eti)uetas definidas *ara no&bres de *ersonas, direcciones *ostales, e identificadores de *ersonas fsicas ( jurdicas. "esde el *unto de ,ista *rctico el *roceso de selecci'n ( eti)uetado de direcciones *ostales o de no&bres de *ersonas utilizando la -erra&ienta #$%& se realiza a tra,s de la interfaz '02. Seleccin de la muestra'. !ccede&os a ella a tra,s del &en0 Inicio 3si esta&os trabajando con el siste&a o*erati,o de LindoMs8 ( una ,ez abierta nos recibir la si uiente *antalla1

I&a en C1 Interfaz de selecci'n de la &uestra.

Esta *antalla ser anlo a tanto *ara el caso de seleccionar una &uestra ( realizar el eti)uetado de no&bres de *ersonas co&o de direcciones *ostales, (a )ue lo 0nico )ue ,ariar ser el ti*o de 4"omponente a eti6uetar6 ele ida. /o *ri&ero )ue debe&os seleccionar es el fic-ero ori inal de trabajo del )ue ,a&os a obtener la &uestra, 4Ejemplo.csv6. ! continuaci'n &arcare&os la 7"omponente a eti6uetar8 )ue co&o su no&bre indica -ace referencia a la co&*onente )ue ,a&os a eti)uetar *ara *osterior&ente nor&alizar1 no&bres de *ersonas 3$o&bres8 o direcciones *ostales 3"irecciones8N en nuestro caso, 4"irecciones6. El si uiente *aso es seleccionar el 7/ama9o de la muestra8. El ,alor *or defecto en la a*licaci'n es ? *ero *odra&os indicar cual)uier otro ,alor teniendo en cuenta )ue co&o &xi&o el ta&a2o de la &uestra ser i ual al ta&a2o del fic-ero de datos &enos uno. El ,alor '*ti&o a seleccionar de*ende de lo -etero neos )ue sean nuestros datos, es decir, a &a(or -etero eneidad &a(or tiene )ue ser el ta&a2o de &uestra to&ado. En el cuadro co&binado 7"ampo a normalizar8 se listan todos los ca&*os )ue tiene el fic-ero 2Ejemplo.csv2 ( seleccionare&os el ca&*o )ue contiene la direcci'n *ostal )ue ,a&os a nor&alizar. En nuestro caso ser el ca&*o 4direcciones6. /a interfaz est )uedando confi urada de la si uiente for&a1

) Caballero Ruz, Elisa Isabel Garca Gonzlez, Francisco Jos

!"#$ %erra&ienta de $or&alizaci'n

I&a en A1 Felecci'n del ca&*o a nor&alizar.

! continuaci'n, la interfaz solicita la 4:ista de correccin8. +ara ello abri&os el cuadro de dilo o ( selecciona&os 4direcciones3correccion.lst* )ue se encuentra dentro de la car*eta 4/istas"eCorreccion6 )ue se -a creado durante el *roceso de instalaci'n. =tro de los ele&entos solicitados son las 7/ablas de b;s6ueda6. En el des*le able debe&os seleccionar la o*ci'n 4=tro6 ( buscar la car*eta 4direccion4tbl4 donde se encuentran las tablas de b0s)ueda *ara direcciones *ostales. En el Ane<o ' de la documentacin de ADYN Herramienta de Normalizacin se ofrece infor&aci'n &s detallada sobre estas dos -erra&ientas. +or 0lti&o, en la interfaz, encontra&os la o*ci'n 7=sar H## anterior8 )ue nos *er&ite utilizar un <odelo =culto de <ar>o, creado con anterioridad a *artir de otro fic-ero de datos )ue tiene una estructura si&ilar al nuestro, con lo cual sola&ente nos es 0til cuando (a se -a(a co&enzado a trabajar con #$%&. En el Ane<o 'I de la documentacin de ADYN Herramienta de Normalizacin se *uede consultar &s infor&aci'n sobre los <odelos =cultos de <ar>o, ( ade&s se ex*lican &s detallada&ente las ,entajas de utilizar un &odelo %<< creado *re,ia&ente. Co&o en nuestro caso no tene&os nin 0n &odelo creado, no introducire&os nin 0n fic-ero. /a si uiente i&a en &uestra co&o )ueda definida la interfaz 02. Seleccin de la muestra:

I&a en O1 Interfaz de selecci'n de la &uestra.

* Caballero Ruz, Elisa Isabel Garca Gonzlez, Francisco Jos

!"#$ %erra&ienta de $or&alizaci'n

%ace&os clic> sobre el bot'n 4,>ecutar6 (, cuando el *roceso ter&ine, nos a*arecer una *antalla confir&ando )ue el *roceso -a finalizado. En el caso de )ue -a(a&os ol,idado es*ecificar al 0n *ar&etro de la interfaz, al *ulsar 4,>ecutar6 a*arecer un &ensaje ad,irtindonos del error, consi uiendo as )ue el *roceso de selecci'n de &uestra ( eti)uetado se realice con el xito es*erado. Co&o resultado de este *roceso se enera un fic-ero con la &uestra eti)uetada )ue se uardar auto&tica&ente en la &is&a car*eta )ue el fic-ero de datos ori en 2Ejemplo.csv2. El no&bre del fic-ero tendr la for&a1 Pmuestra3etiquetada35fec!a3creacin645!ora3creacin635fic!ero3origen6.csv El contenido del fic-ero ser el si uiente1

I&a en D1 Fic-ero resultante de la interfaz 4Felecci'n de la &uestra6.

/a *ri&era *arte del fic-ero est rodeada de al&o-adillas PHP *or tratarse de co&entarios )ue considera&os necesarios conozca el usuario *ero dic-a infor&aci'n no ser leda *or la a*licaci'n. En concreto, se &uestra infor&aci'n de la si uiente naturaleza1 Fec-a de creaci'n del fic-ero. Fic-ero de entrada1 se indica su ruta de ori en. $otar )ue se -a realizado auto&tica&ente un ca&bio de codificaci'n a .:FED *ara subsanar *osibles *roble&as )ue se *ueden *resentar con la codificaci'n de caracteres. Fic-ero de salida1 se indica la ruta donde se encuentra al&acenado este fic-ero. Co&*onente1 -ace referencia a la co&*onente )ue -e&os eti)uetado, en nuestro
+ Caballero Ruz, Elisa Isabel Garca Gonzlez, Francisco Jos

!"#$ %erra&ienta de $or&alizaci'n

caso, 4direccion6. +ar&etros de selecci'n1 nos indica el n0&ero de re istros del fic-ero ori inal de trabajo 3?? re istros8 ( el ta&a2o de &uestra seleccionado 3B re istros8. /istado de *osibles estados *ara las direcciones1 en dos colu&nas tene&os la lista de *osibles estados 3en estos &o&entos se -an definido BC8 )ue se *ueden asi nar a cada una de las eti)uetas. /a definici'n de cada una de estas eti)uetas ( estados referidos a "irecciones se *uede consultar en el Ane<o I' de la documentacin de ADYN Herramienta de Normalizacin.

! continuaci'n, se *resenta el detalle de los re istros )ue confor&an la &uestra con sus ele&entos eti)uetados. /a infor&aci'n )ue a*arece *ara cada re istro es si&ilar a la )ue ex*lica&os, al co&ienzo de este a*artado, *ara no&bres de *ersonas.

$otar )ue en la &uestra a*arecen dos re istros du*licados 3I ( ?8 *or -aber utilizado un &uestreo aleatorio si&*le con re*osici'n.

!.1.! Paso !: Asi*nacin manual de estados.


Esta fase ser siempre manual ( re)uerir inter,enci'n del usuario *ara asociar a cada eti)ueta del fic-ero de la &uestra eti)uetada, su estado corres*ondiente. +or estado, entende&os el identificador de cada uno de los ele&entos del ca&*o )ue ,a&os a nor&alizar. !s *ues, *ara realizar esta asi naci'n de estados editare&os el fic-ero de salida del *aso anterior, Pmuestra3etiquetada37889:8;84:7<:3Ejemplo.csvP con el editor de texto 4Notepad!6 )ue su&inistra&os junto con la a*licaci'n. .tilizar este editor *er&ite )ue la codificaci'n de los fic-eros con los )ue trabaja&os sea la correcta 3.:FED8 ( de esta for&a se e,ita la inserci'n de caracteres *ro*ios de otras codificaciones ( la a*arici'n de *osibles errores en la a*licaci'n !"#$ *or este &oti,o. !ccede&os al editor a tra,s del &en0 Inicio 9 ad(n 9 $ote*ad@ o a tra,s de la ruta 4C1Qad(nQnote*ad@6. .na ,ez abierto el fic-ero Pmuestra3etiquetada37889:8;84:7<:3Ejemplo.csvP, nos dis*one&os a asi nar &anual&ente el estado a cada eti)ueta. +or eje&*lo *ara el *ri&er re istro1
H I 3I81 5*l9 la solera nR GE?R d5 H 5*laza la solera nu&ero G ?R d5 :;1, .$1, EG1, $<1 $.1 $+1 /E1

+rocedera&os de la si uiente for&a1 6*l6 se -a eti)uetado *or la a*licaci'n co&o :; 3ti*o de ,a8 ( le asi na&os el estado 4ti*oKdeK,ia6.
,Caballero Ruz, Elisa Isabel Garca Gonzlez, Francisco Jos

!"#$ %erra&ienta de $or&alizaci'n

4la6 se eti)ueta *or la a*licaci'n co&o .$ 3un1no/n, desconocido8 ( le asi na&os el estado 4no&breKdeK,ia6 (a )ue entende&os )ue for&a *arte del no&bre de la ,a. 4solera6 se eti)ueta *or la a*licaci'n co&o EG 3entidad sin ular8 ( le asi na&os el estado 4no&breKdeK,ia6 *or la &is&a raz'n anterior. 4nR6 se eti)ueta *or la a*licaci'n co&o $< 3identificador de n0&ero8 ( le asi na&os el estado 4identificadorKdeKnu&ero6. 4G6 se -a eti)uetado *or la a*licaci'n co&o $. 3n0&ero8 ( le asi na&os el estado 4nu&ero6. 4?R6 se -a eti)uetado *or la a*licaci'n co&o $+ 3n0&ero de *lanta8 ( le asi na&os el estado 4*lanta6. 4d6 se -a eti)uetado *or la a*licaci'n co&o /E 3letra8 ( le asi na&os el estado 4*uerta6. Esta asi naci'n de estados se -a realizado bajo el conoci&iento )ue el usuario tiene sobre los ca&*os )ue *ueden co&*oner una direcci'n *ostal ( se 0n su criterio. Ello su*one )ue otro usuario *uede realizar una asi naci'n diferente. $otar )ue el no&bre de los estados no res*eta los si nos de *untuaci'n, es decir, los estados se escriben sin tilde. :ras la asi naci'n, el re istro )ueda de la si uiente for&a1
H I 3I81 5*l9 la solera nR GE?R d5 H 5*laza la solera nu&ero G ?R d5
:;1ti*oKdeK,ia, .$1no&breKdeK,ia, EG1no&breKdeK,ia, $<1identificadorKdeKnu&ero, $.1nu&ero, $+1*lanta, /E1*uerta

Fi re*eti&os este *roceso con todos los re istros del fic-ero, el resultado es el si uiente1

I&a en J1 Fic-ero con las co&*onentes de la &uestra eti)uetadas ( con estados asi nados.

%a( )ue notar, )ue el usuario *odr eli&inar las estructuras de los re istros )ue considere innecesarias, es decir, si el usuario considera )ue )uiere tener un fic-ero de &uestra donde sola&ente existan estructuras de datos distintas *uede decidir )uedarse con una de ellas (
,, Caballero Ruz, Elisa Isabel Garca Gonzlez, Francisco Jos

!"#$ %erra&ienta de $or&alizaci'n

eli&inar las coincidentes. En este caso, *or eje&*lo, se *odra eli&inar el re istro identificado *or I ( )uedarnos con el identificado *or ?, o ,ice,ersa. !ntes de cerrar el fic-ero uardare&os los ca&bios. !un)ue el usuario *uede decidir el no&bre con el )ue )uiere uardarlo 3sie&*re con extensi'n 4 .csv68, *ara este eje&*lo se -a decidido -acerlo con el &is&o no&bre.

!.1.& Paso &: ,ntrenamiento de la muestra.


El resultado del entrena&iento de la &uestra ser la creaci'n del <odelo =culto de <ar>o,. En este *aso usa&os el fic-ero resultante del 4+aso @6, )ue contiene la &uestra eti)uetada ( en la )ue -e&os asi nado los estados corres*ondientes, Pmuestra3etiquetada37889:8;84:7<:3Ejemplo.csvP. ! tra,s de esta infor&aci'n, la a*licaci'n enera1 .n ,ector de *robabilidades iniciales )ue nos indica la *robabilidad de )ue la direcci'n *ostal 3si uiendo con nuestro eje&*lo8 co&ience *or cada uno de los estados. .na &atriz de *robabilidades de transici'n entre estados. Esta &atriz nos indicar la *robabilidad de *asar de un estado a otro se 0n la &uestra )ue -e&os eti)uetado ( asociado estados *re,ia&ente. .na &atriz de *robabilidades de obser,aci'n 3o eti)uetas8, es decir, &uestra la *robabilidad de )ue una eti)ueta ten a asociado un estado deter&inado.

Estas tres &atrices confor&arn el lla&ado <odelo =culto de <ar>o, ( )uedan reco idas en un fic-ero de texto con extensi'n 4.!mm6 co&o el de la si uiente i&a en. !de&s, a*arecen el conjunto de eti)uetas ( estados ordenados se 0n los ele&entos )ue se -a decidido )ue co&*onen una direcci'n *ostal o un no&bre de *ersona, *ara su correcta inter*retaci'n.

I&a en ?I1 "etalle del fic-ero )ue contiene un %<< *ara direcciones *ostales.

! continuaci'n ,e&os detenida&ente )ue infor&aci'n contienen las &atrices )ue confor&an el <odelo =culto de <ar>o,1
,2 Caballero Ruz, Elisa Isabel Garca Gonzlez, Francisco Jos

!"#$ %erra&ienta de $or&alizaci'n

El vector de probabilidades iniciales a*arece en *ri&er lu ar. En nuestro eje&*lo la *robabilidad de )ue la direcci'n *ostal co&ience *or el ti*o de ,a es de I,OBGCJI ( de )ue co&ience *or el no&bre de la ,a es de I,IOAJ@G. /a *robabilidad de )ue la direcci'n *ostal co&ience *or un estado diferente es I. El detalle del ,ector de *robabilidades iniciales se reco e en la si uiente i&a en1

I&a en ??1 "etalle de las *robabilidades iniciales *ara un %<< de direcciones *ostales.

/a matriz de probabilidades de transicin a*arece en se undo lu ar. Es una &atriz cuadrada, donde el n0&ero de filas ( colu&nas es el n0&ero de estados. Esta &atriz nos indicar la *robabilidad de *asar de un estado a otro se 0n la &uestra )ue -e&os eti)uetado ( asociado estados *re,ia&ente. Estos estados, as co&o su orden, a*arecen en el fic-ero. +or eje&*lo, la *ri&era colu&na ( la *ri&era fila corres*onden al estado 4ti*oKdeK,ia6N la se unda colu&na ( la se unda fila corres*onden al estado 4no&breKdeK,ia6. Ello nos *er&ite -acer los cruces *ara inter*retar las *robabilidades de transici'n entre estados. Inter*retando la &atriz del eje&*lo, tene&os )ue1 la *robabilidad de *asar del estado 4ti*oKde ,ia6 al estado 4no&breKdeK,ia6 es uno. Esto es, la *robabilidad de )ue des*us de 4calle6 a*arezca el 4no&bre de la calle6 o )ue des*us de 4a,enida6 a*arezca el 4no&bre de la a,enida6 es uno. la *robabilidad de *asar del estado 4no&breKdeK,ia6 al estado 4no&breKdeK,ia6 es de I,BJ@GID. Esta situaci'n se *resentar en a)uellos casos en los )ue el no&bre de la direcci'n *ostal sea co&*uesto, es decir, del ti*o 4Jor e <orales6.

I&a en ?@1 "etalle de la &atriz de *robabilidades de transici'n *ara un %<< de direcciones *ostales.

/a matriz de probabilidades de observacin ?o eti6uetas@ es una &atriz )ue tiene tantas colu&nas co&o eti)uetas ( tantas filas co&o n0&ero de estados. Cada ele&ento de la &atriz nos indica la *robabilidad de )ue una eti)ueta ten a asociado un estado deter&inado. !s *ues, co&o se *uede ,er en la si uiente i&a en, tene&os )ue la *robabilidad de )ue la eti)ueta 4:;6 ten a asociado el estado 4ti*oKdeK,ia6 es I,JDIOAJ ( la de )ue ten a asociado el estado 4no&breKdeK,ia6 es I,I?J@OC.

,3 Caballero Ruz, Elisa Isabel Garca Gonzlez, Francisco Jos

!"#$ %erra&ienta de $or&alizaci'n

I&a en ?G1 "etalle de la &atriz de *robabilidades de obser,aci'n *ara un %<< de direcciones *ostales.

.na ,ez obtenido el &odelo solo nos falta saber cul es la *robabilidad de las secuencias de eti)uetas ( estados asociados en la &uestra. +ara encontrar esta *robabilidad se utiliza el algoritmo de =iterbi. ;e&os a continuaci'n c'&o funciona este al orit&o con un eje&*lo de direcci'n *ostal )ue tiene asi nados dos secuencias. Cuando la a*licaci'n realiza el *roceso de eti)uetado es *osible )ue un &is&o ele&ento de la direcci'n *ostal ten a asi nada dos o &s eti)uetas. Esto se *roduce si el ele&ento se -a encontrado en &s de una tabla de b0s)ueda. Fi se da este caso, tendre&os dos o &s secuencias de eti)uetas *ara la direcci'n *ostal. +or eje&*lo, si en el ca&*o direcci'n *ostal tene&os el ,alor 4C9 /una Fe,illa6, la a*licaci'n lo *odra li&*iar, estandarizar ( eti)uetar co&o1 HC9 HCalle :;1, :;1, /una /una .$1, .$1, Fe,illa Fe,illa /$1 +R1

Co&o se *uede co&*robar el ele&ento 4Fe,illa6 se -a eti)uetado con 4/$6 *or -aberse encontrado en la tabla de b0s)ueda de localidades 3>localidad.tbl8 ( con 4+R6 *or -aberse encontrado en la tabla de b0s)ueda de *ro,incias 3>*ro,incia.tbl8, (a )ue este ele&ento *odra -acer referencia en una direcci'n *ostal tanto a una localidad co&o a una *ro,incia. +or el conoci&iento )ue tiene el usuario acerca de los *atrones o estructuras )ue si uen las direcciones *ostales de su fic-ero de trabajo, debe decidir si asi na a a&bas eti)uetas del ele&ento 4Fe,illa6, el estado 4localidad6 o el estado 4*ro,incia6. En nuestro eje&*lo, entende&os )ue el ele&ento 4Fe,illa6 -ace referencia a la /ocalidad con lo cual en el *roceso de asi naci'n &anual de estados las eti)uetas )uedaran de la si uiente for&a1 HC9 HCalle :;1ti*oKdeK,ia, :;1ti*oKdeK,ia, /una /una .$1no&breKdeK,ia, .$1no&breKdeK,ia, Fe,illa Fe,illa /$1localidad +R1localidad

!-ora la a*licaci'n calculara la *robabilidad de las dos secuencias de la si uiente for&a1 /a *robabilidad de la 5ecuencia /':tipoAdeAviaB =N:nombreAdeAviaB :N:localidadB es se 0n el al orit&o de ;iterbi1
,# Caballero Ruz, Elisa Isabel Garca Gonzlez, Francisco Jos

!"#$ %erra&ienta de $or&alizaci'n

+robabilidad de )ue la secuencia co&ience *or el estado 4ti*oKdeK,ia6 3I,OBGCJI8 *or la *robabilidad de )ue ese estado est eti)uetado *or 4:;6 3I,JDIOAJ8 *or la *robabilidad de *asar del estado 4ti*oKdeK,ia6 al estado 4no&breKdeK,ia6 3?8 *or la *robabilidad de )ue el estado 4no&breKde ,ia6 est eti)uetado con 4.$6 3I,JDDD?@8 *or la *robabilidad de *asar del estado 4no&breKdeK,ia6 al estado 4localidad6 3I,JA?B?I8 *or la *robabilidad de )ue el estado 4localidad6 est eti)uetado con 4/$6 3I,J@CAJG8. !s *ues, su *robabilidad es I,AB?ODC. /a *robabilidad de la 5ecuencia /':tipoAdeAviaB =N:nombreAdeAviaB PR:localidadB es se 0n el al orit&o de ;iterbi1 +robabilidad de )ue la secuencia co&ience *or el estado 4ti*oKdeK,ia6 3I,OBGCJI8 *or la *robabilidad de )ue ese estado est eti)uetado *or 4:;6 3I,JDIOAJ8 *or la *robabilidad de *asar del estado 4ti*oKdeK,ia6 al estado 4no&breKdeK,ia6 3?8 *or la *robabilidad de )ue el estado 4no&breKde ,ia6 est eti)uetado con 4.$6 3I,JDDD?@8 *or la *robabilidad de *asar del estado 4no&breKdeK,ia6 al estado 4localidad6 3I,JA?B?I8 *or la *robabilidad de )ue el estado 4localidad6 est eti)uetado con 4+R6 3I,GOJJ@A8. !s *ues, su *robabilidad es I,@AGBIG. Con lo cual la a*licaci'n se )uedara auto&tica&ente con la *ri&era secuencia (a )ue tiene &a(or *robabilidad asociada. Es necesario aclarar, )ue *or seleccionar una &uestra aleatoria si&*le con re*osici'n *ara conocer la estructura )ue si uen los datos del ca&*o a nor&alizar, no ,an a estar re*resentadas todas las estructuras con lo cual al unas de estas secuencias no ,an a tener una *robabilidad asociada. Esta situaci'n se subsana con el uso de #Ctodos de 5uavizado )ue asi nan una deter&inada *robabilidad a las secuencias no re istradas en la &uestra. Fu teora *uede consultarse en el Ane<o 'II )ue se su&inistra con la docu&entaci'n de #$%& 'erramienta de &ormalizacin. ! continuaci'n ,e&os en la *rctica co&o se lle,ara a cabo el entrena&iento de la &uestra u obtenci'n del <odelo =culto de <ar>o, a tra,s de la a*licaci'n #$%& 'erramienta de &ormalizacin, si uiendo con nuestro eje&*lo de direcciones *ostales. +ara ello accedere&os a la interfaz '03. Entrenamiento de la muestra' a tra,s del &en0 Inicio 3si esta&os trabajando con el siste&a o*erati,o de LindoMs8 ( al abrir

'03.Entrenamiento de la muestra' nos recibir la siguien%e an%alla:

I&a en ?B1 Interfaz de entrena&iento de la &uestra o de creaci'n del %<<.

,' Caballero Ruz, Elisa Isabel Garca Gonzlez, Francisco Jos

!"#$ %erra&ienta de $or&alizaci'n

+ri&ero el bot'n 70ic ero con la muestra eti6uetada8, nos solicita el fic-ero obtenido en el +aso @, Pmuestra3etiquetada37889:8;84:7<:3Ejemplo.csvP. Fe uida&ente en 75elecciona componente8 -e&os de &arcar si la co&*onente a nor&alizar es un no&bre o una direcci'n *ostal, en nuestro caso 4"irecciones6. +or 0lti&o en el a*artado 75elecciona mCtodo de suavizado8 solicita )ue indi)ue&os si )uere&os utilizar al 0n &todo de sua,izado. En el eje&*lo no usare&os nin uno. Final&ente -are&os clic> en 7,>ecutar8 ( es*erare&os a )ue el *ro ra&a nos co&uni)ue )ue -a ter&inado. El resultado de este *aso ser el <odelo =culto de <ar>o, )ue utilizare&os *ara nor&alizar el fic-ero ori inal PEjemplo.csvP. Este &odelo ser un fic-ero de extensi'n ).!mm2 )ue encontrare&os en la &is&a car*eta )ue PEjemplo.csvP ( tendr un no&bre con la estructura1 5fic!ero3de3origen635fec!a3creacin645!ora3creacin6.!mm

!.! Normalizacin del fic ero de datos.


.na ,ez )ue tene&os el <odelo =culto de <ar>o, creado lo utilizare&os *ara la nor&alizaci'n de los datos. +ara ello, usare&os la interfaz '01. Normalizador' )ue nos *ro*orciona #$%& 'erramienta de &ormalizacin. !ccede&os a esta interfaz a tra,s del &en0 Inicio 3si esta&os trabajando con el siste&a o*erati,o de LindoMs8 ( el resul%ado es la siguien%e

an%alla:

,( Caballero Ruz, Elisa Isabel Garca Gonzlez, Francisco Jos

!"#$ %erra&ienta de $or&alizaci'n

I&a en ?C1 !"#$ %erra&ienta de $or&alizaci'n1 Interfaz de nor&alizaci'n.

En ella -abr )ue es*ecificar en el bot'n 70ic ero a normalizar8 el fic-ero ori inal de datos )ue )uere&os nor&alizar, es decir, 4Ejemplo.csv6. Fe uida&ente en 7/ipo de normalizacin8 -e&os de &arcar el ti*o de ca&*o )ue desea&os nor&alizar, es decir, 4$o&bres *ro*ios6, 4"irecciones *ostales6 o 4$IF9"$I9$IE6. En nuestro caso &arcare&os 4"irecciones *ostales6. !l &arcar esta casilla se -abilitar la *esta2a 7Direcciones postales8 *ara )ue cu&*li&ente&os los si uientes re)ueri&ientos del siste&a, )ue son1 . 7"ampo a normalizar81 en este cuadro se listan todos los ca&*os )ue contiene el fic-ero 4Ejemplo.csv6 ( seleccionare&os el ca&*o )ue contiene la direcci'n *ostal )ue es el )ue )uere&os nor&alizar. En nuestro caso ser el ca&*o 4direcciones6. 7:ista de correccin81 el *roceso de elecci'n de la lista de correcci'n es idntico al realizado en la interfaz de selecci'n ( eti)uetado de la &uestra 3+aso?8. Es decir, )ue *ara es*ecificar la lista de correcci'n tendre&os )ue na,e ar *or los directorios de la a*licaci'n ( encontrar el fic-ero 4direcciones3correccion.lst*. 7/ablas de b;s6ueda81 al i ual )ue *ara la lista de correcci'n, el *rocedi&iento de selecci'n de las tablas de b0s)ueda es anlo o al realizado en la interfaz de selecci'n ( eti)uetado de la &uestra 3+aso ?8. En este caso *ara es*ecificar las tablas de b0s)ueda na,e are&os *or los directorios de la a*licaci'n *ara buscar la car*eta 4direccion4tbl4 donde se encuentran las tablas de b0s)ueda *ara direcciones *ostales. 7#odelo $culto de #ar%ov81 en este cuadro debe&os es*ecificar el <odelo =culto de <ar>o, creado *re,ia&ente en el +aso G 3Entrena&iento de la &uestra8 o cual)uier otro )ue (a ten a&os creado. $osotros si uiendo con nuestro eje&*lo utilizare&os el &odelo creado en el +aso G ( al )ue -e&os deno&inado 4modelo:.!mm*.

"e esta for&a nuestra interfaz )ueda definida de la si uiente for&a1

,) Caballero Ruz, Elisa Isabel Garca Gonzlez, Francisco Jos

!"#$ %erra&ienta de $or&alizaci'n

I&a en ?A1 Interfaz de nor&alizaci'n tras seleccionar la lista de correcci'n ( las tablas de b0s)ueda.

%e&os de notar )ue a tra,s de esta interfaz *ode&os acceder directa&ente a las interfaces de selecci'n ( eti)uetado de la &uestra 34"rear H## ?,ti6uetado688, as co&o a la de entrena&iento de sta 34"rear H## ?,ntrenamiento@68. El &oti,o de )ue estos botones se -a(an insertado a)u se debe a )ue *uede darse el caso de )ue no -a(a&os construido *re,ia&ente el <odelo =culto de <ar>o, necesario *ara el *roceso de nor&alizaci'n se 0n la for&a )ue se -a ex*licado con anterioridad. . +or 0lti&o, si *ulsa&os sobre 4Feleccionar6 del a*artado 7"ampos de salida8, se abrir una ,entana con todos los *osibles ca&*os de salida del fic-ero nor&alizado ( *odre&os des&arcar a)uellos )ue no )uere&os )ue se &uestren en el fic-ero de salida.

I&a en ?O1 Felecci'n de los ca&*os de salida de direcciones *ostales.

+or defecto a*arecern &arcados todos los ca&*os de salida ( una ,ez ele idos todos o los seleccionados *or el usuario *ulsare&os 4=S6.
,* Caballero Ruz, Elisa Isabel Garca Gonzlez, Francisco Jos

!"#$ %erra&ienta de $or&alizaci'n

:ras es*ecificar todos los *ar&etros necesarios *ara lle,ar a cabo el *roceso de nor&alizaci'n *ulsare&os 7,>ecutar8 ( es*erare&os unos se undos 3o unos &inutos si el fic-ero es rande8 -asta )ue la interfaz nos a,ise de )ue se -an nor&alizado todos los re istros. El *roceso de nor&alizaci'n enerar dos fic-eros de salida )ue se uardarn en la car*eta donde se encuentra el fic-ero ori inal de datos, 2Ejemplo.csv*. Estos sern1 . Fic-ero Dest_<fecha_creacin !<hora_creacin _<fichero_datos .cs"'> contendr todos los ca&*os del fic-ero ori inal, junto con el ca&*o direcciones estandarizado ( se &entado en los ca&*os )ue se -an seleccionado *re,ia&ente. Fic-ero '#ro$_<fecha_creacin !<hora_creacin _<fichero_datos .#$> es un fic-ero infor&ati,o ( contendr el conjunto de *ar&etros con los )ue -e&os realizado el anterior *roceso de nor&alizaci'n, *er&itiendo re*roducir o &odificar este *roceso *osterior&ente.

!.& 'alidacin del proceso de normalizacin.


.na ,ez )ue ten a&os el fic-ero de datos nor&alizado es necesario dis*oner de un siste&a )ue *er&ita ,alidar la bondad del *roceso. Es *or este &oti,o *or el )ue se -a definido un al orit&o de ,alidaci'n cu(o funciona&iento se &uestra a continuaci'n. !l abrir el fic-ero de datos nor&alizado, *odr a*reciarse una colu&na extra lla&ada 4,alidacion6 )ue contiene los ,alores I ' ?. Esta colu&na nos ser,ir *ara deter&inar si el *roceso de nor&alizaci'n -a sido bueno o no se 0n el <odelo =culto de <ar>o, utilizado. +ara abrir el fic-ero -e&os utilizado el *ro ra&a 45calc6 del *a)uete ofi&tico =*en =ffice @.B, resultando1

I&a en ?D1 Fic-ero nor&alizado donde se &uestran ,arios ca&*os de salida, entre ellos el ca&*o de ,alidaci'n.

Fi *ara un re istro, la colu&na 4,alidacion6 tiene un ,alor i ual a ? si nifica )ue la direcci'n *ostal contenida en ese re istro est incorrecta&ente nor&alizada, es decir, los ,alores )ue a*arecen en los ca&*os de salida en los )ue se -a reco ido la nor&alizaci'n de la direcci'n *ostal no se corres*onden con los ,alores reales )ue deberan a*arecer. Fi, *or el contrario, un re istro *resenta ,alor I en esta colu&na, si nifica )ue el al orit&o de ,alidaci'n no -a encontrado nada )ue *ueda indicar )ue la direcci'n *ostal de este re istro est incorrecta&ente nor&alizada.
,+ Caballero Ruz, Elisa Isabel Garca Gonzlez, Francisco Jos

!"#$ %erra&ienta de $or&alizaci'n

+or lo tanto, la i&*ortancia del *roceso de ,alidaci'n es *ri&ordial (a )ue *er&ite reconocer a)uellas estructuras de datos )ue no se -an nor&alizado correcta&ente debido a )ue -a( re istros cu(as estructuras N$ se -an introducido en la &uestra con la )ue se ener' el <odelo =culto de <ar>o, utilizado *ara nor&alizar el fic-ero ori inal de datos. !de&s *er&ite darnos cuenta de la existencia de ,alores )ue no estn incluidos en las tablas de b0s)ueda ( *or lo tanto no *ueden ser reconocidos *or el <odelo =culto de <ar>o, a la -ora de nor&alizar el fic-ero ori inal de datos. Con el fin de ir corri iendo estos errores ( construir un *roceso de ,alidaci'n lo &s eficiente *osible tendre&os )ue1 Enri)uecer el <odelo =culto de <ar>o, con las nue,as estructuras de datos no *resentes en la &uestra seleccionada aleatoria&ente *or la a*licaci'n. Esto es, introducir las secuencias en el fic-ero 4muestra3eti)uetada6 )ue -e&os obtenido anterior&ente. Insertar en las tablas de b0s)ueda esos nue,os ele&entos )ue -an a*arecido ( )ue no estaban reco idos *re,ia&ente en ellas. +ara lle,ar a cabo el enri)ueci&iento del <odelo =culto de <ar>o, tene&os dos o*ciones1 a8 /o &s intuiti,o es introducir en el fic-ero de la 6&uestraKeti)uetada6 a)uellas estructuras )ue no -a(an sido bien nor&alizadas. +or eje&*lo, si no se -a nor&alizado 4espiritu santo 7 bajo6 introducire&os la si uiente secuencia1
es*iritu santo @ bajo .$1no&breKdeK,ia , .$1no&breKdeK,ia , $.1nu&ero , +/1*lanta

Fe uida&ente ,ol,era&os a calcular el <odelo =culto de <ar>o, ( nor&alizare&os el fic-ero de datos. b8 /a se*unda opcin )ue nos *er&ite enri)uecer el &odelo %<< consiste en lo si uiente1 una ,ez nor&alizado el ca&*o del fic-ero de datos )ue se desee 3no&bres de *ersonas o direcciones *ostales8, su*on a&os *or eje&*lo el ca&*o 4direcciones6 del fic-ero 4Ejemplo.csv6, se ,a a crear otro fic-ero de datos a *artir de ste )ue s'lo conten a los re istros )ue estn &al nor&alizados. ! continuaci'n a tra,s de la interfaz 02. Seleccin de la muestra la a*licaci'n seleccionar una &uestra de esos re istros. En este caso la co&*onente a nor&alizar 3"irecciones8 )uedar eti)uetada ( &anual&ente se introducirn los estados corres*ondientes. +osterior&ente, incluire&os en esta nue,a &uestra eti)uetada, la &uestra )ue nos -a ser,ido *ara entrenar el *ri&er &odelo %<< ( )ue nos -a *er&itido nor&alizar el fic-ero ori inal de datos en *ri&era instancia. "e esta for&a tendre&os un solo fic-ero )ue contendr la uni'n de las dos &uestras eti)uetadas del fic-ero ori inal de datos. +or 0lti&o, utilizare&os la interfaz 03. Entrenamiento de la muestra *ara enerar con esta nue,a &uestra eti)uetada el nue,o <odelo =culto de <ar>o,. /a ex*eriencia deter&ina )ue la o*ci'n &s eficiente es la descrita en a8, sin e&bar o deja&os al usuario la elecci'n de la &is&a se 0n esti&e con,eniente.

3. "onclusiones.
+or 0lti&o -e&os de fijar unas conclusiones res*ecto a la utilizaci'n de !"#$ %erra&ienta de $or&alizaci'n1

"is*one&os de una a*licaci'n infor&tica )ue *er&ite nor&alizar auto&tica&ente direcciones *ostales, no&bres de *ersonas e identificadores de *ersonas fsicas (
2Caballero Ruz, Elisa Isabel Garca Gonzlez, Francisco Jos

!"#$ %erra&ienta de $or&alizaci'n

jurdicas *resentes en los re istros ad&inistrati,os, *udindose a *artir de ese &o&ento tratar estadstica&ente.

T T

El usuario no necesita tener un conoci&iento *re,io de *ro ra&aci'n, *or lo tanto resulta una -erra&ienta intuiti,a ( fcil de &anejar. !*licaci'n basada en una metodolo*.a de aprendiza>e supervisado en la )ue el usuario *odr ir enri)ueciendo el conjunto de estructuras )ue *er&itan una o*ti&izaci'n del *roceso de nor&alizaci'n. Es de licencia libre ( accesible a todos los usuarios de las !d&inistraciones +0blicas, est dis*onible a tra,s del Re*ositorio de FoftMare /ibre de la Junta de !ndaluca ( *r'xi&a&ente ta&bin a tra,s de la * ina Meb del Instituto de Estadstica de !ndaluca. $r*anismos 6ue actualmente usan ADYN 1 Consejeras de la Junta de !ndaluca 3C. de =bras +0blicas ( ;i,ienda, C. ! ricultura ( +esca, C. Cultura, C. I ualdad ( Uienestar Focial, C. Falud, C. de Econo&a, Inno,aci'n ( Ciencia8, "i*utaciones *ro,inciales 3"i*utaci'n de Jan, "i*utaci'n de <la a8, !(unta&iento de C'rdoba, Escuela !ndaluza de Falud *0blica e Instituto de Estadstica de !ndaluca.

2, Caballero Ruz, Elisa Isabel Garca Gonzlez, Francisco Jos

También podría gustarte