Está en la página 1de 7

Algoritmo de Porter

El algoritmo de Porter permite hacer


stemming, esto es extraer los sufijos y prefijos
comunes de palabras literalmente diferentes
pero con una raz comn que pueden ser
consideradas como un slo trmino
Al aplicar stemming(lematizacin), se asegura que
la forma de las palabras no penalice la frecuencia de
estas. Los algoritmos de lematizacin para quienes
hablamos espaol, ms conocidos son: Lovins
(1968), Porter (1980) y Paice (1990). Todos eliminan
"los finales" de las palabras en forma iterativa, y
requieren de una serie de pasos para llegar a la raz,
pero no requieren "a priori" conocer todas las
posibles terminaciones. Originalmente todos fueron
hechos para el ingls, y se diferencian en la
eficiencia del cdigo y la eleccin de sufijos que
identifican e eliminan.

Algoritmo de Porter

La raz de la lematizacin es un concepto
distinto del de la lingstica (origen de las
palabras) y no aporta al objetivo que persigue
la lematizacin. No hay razn terica para que
los algoritmos de lematizacin no puedan
quitar tambin los prefijos (in, ante, anti, etc.),
pero la mayor parte de los mtodos de
stemmer slo quitan sufijos
Algoritmo de Porter

El lematizador hace pasar la palabra por varios
conjuntos de reglas, cada conjunto formado por "n"
reglas y cada regla est constituida por:

1. un identificador de la regla
2. un sufijo a identificar
3. el texto por el que se reemplaza el sufijo
4. el tamao del sufijo
5. el tamao del texto de reemplazo
6. el tamao mnimo que debe tener la raz resultante luego de
aplicar la regla (para no procesar palabras demasiado
pequeas).
7. Una funcin de validacin (verifica si se debe aplicar la funcin
una vez encontrado el sufijo)

Algoritmo de Porter

Para traducir el algoritmo de Porter al
espaol, se debe:

1. Ubicar los sufijos que ocurren
frecuentemente en espaol.
2. Identificar los sufijos que ocurren juntos.
3. Establecer el orden en que ocurren
Algoritmo de Porter

Para la seleccin de los grupos y orden de
procesamiento, se deben tener en cuenta:

1. Dos sufijos que ocurren juntos no pueden
pertenecer al mismo conjunto.
2. Las reglas que quiten sufijos ms al final de cada
palabra deben ser procesados en un paso anterior a
los que quitan otros.
3. Si un sufijo aparece siempre que ocurra otro, este
sufijo es condicional a la aparicin del anterior.

Algoritmo de Porter

Para depurar el algoritmo hay que considerar 3
pasos:

1. Las palabras terminadas en "r", conceptualmente similares,
suelen quedar con distinta raz, como en los verbos. Por ejemplo,
caminar y caminando. Primero se debe eliminar "ndo". Por lo que
la eliminacin de las "r" es uno de los ltimos pasos.

2. Similarmente, las palabras que terminan con vocales, por
ejemplo, las palabras terminacin y terminal y/o termin, se dejan
para el final.

3. En ltimo trmino, se aplica una tercer regla que elimina los
tildes de la raz resultante. Por ejemplo, en dilogo y dialog

Algoritmo de Porter