Documentos de Académico
Documentos de Profesional
Documentos de Cultura
com
CITAS LEE
6 2,506
5 autores, incluido:
69PUBLICACIONES263CITAS 18PUBLICACIONES66CITAS
zhi tang
Universidad de Sichuan
187PUBLICACIONES1,690CITAS
VER EL PERFIL
Algunos de los autores de esta publicación también están trabajando en estos proyectos relacionados:
Todo el contenido que sigue a esta página fue subido porlu liuel 30 de septiembre de 2014.
Tianxiao Feng1, un, Xiaoqing Lu2,a,b, Lu Liua, Keqiang Lia, Zhi Tanga,b
aInstituto de Informática y Tecnología, Universidad de Pekín, Pekín, China;bState Key
Laboratory of Digital Publishing Technology (Peking University Founder Group Co., Ltd), Beijing,
Porcelana
RESUMEN
Como hay un número creciente de documentos digitales con fines educativos, nos damos cuenta de que no existe una
aplicación de recuperación para imágenes de geometría plana matemática. En este artículo, proponemos un método para
recuperar figuras de geometría plana (PGF), que a menudo aparecen en libros de geometría y documentos digitales. En primer
lugar, se aplican algoritmos de detección para detectar formas geométricas básicas comunes a partir de una imagen PGF.
Basándonos en todas las formas básicas, analizamos las relaciones estructurales entre dos formas básicas y combinamos algunas
de ellas en una forma compuesta para construir el descriptor PGF. Luego, aplicamos la función de coincidencia para recuperar
imágenes PGF candidatas con clasificación. La gran contribución del artículo es que proponemos un método de análisis de
estructuras para describir mejor las relaciones espaciales en dicha imagen compuesta por muchas formas superpuestas.
Palabras clave: figura de geometría plana, análisis de estructura, forma compuesta, recuperación de imágenes de documentos
1. INTRODUCCIÓN
La instrucción asistida por computadora se ha vuelto cada vez más popular en los últimos años. En consecuencia, un número creciente de
contenidos didácticos se han digitalizado y almacenado electrónicamente. Por lo tanto, el tema del reconocimiento de patrones para imágenes o
figuras de documentos se ha vuelto importante. La figura de geometría plana (PGF, Figura 1) es un tipo de gráfico de documento. Hasta donde
sabemos, los sistemas de recuperación de preguntas de geometría plana existentes generalmente se enfocan en la palabra clave en el texto de un
problema de geometría plana. Sin embargo, es posible que la descripción de dichas palabras clave no represente suficientemente las preguntas, lo
que provocaría un rendimiento impreciso.
Una cuestión clave del reconocimiento de gráficos es explorar descriptores exquisitos que reflejen la naturaleza de una forma. Las técnicas de
descripción se pueden clasificar generalmente en dos clases: métodos basados en regiones y métodos basados en contornos [1]. Las características
basadas en regiones están pensadas principalmente para estadísticas generales o el análisis de toda la región de una forma, como invariantes de
momento [2] o transformadas [3, 4]. Aunque estos métodos no son susceptibles al ruido, lo que conduce a resultados de discriminación satisfactorios,
no logran capturar las características estructurales de una forma. Por el contrario, los métodos basados en contornos [5, 6]
1paddy5625@gmail.com
2lvxiaoqing@pku.edu.cn
Document Recognition and Retrieval XXI, editado por Bertrand Coüasnon, Eric K. Ringger,
proc. de SPIE-IS&T Electronic Imaging, vol. 9021, 90210R · © 2014 SPIE-IS&T
Código CCC: 0277-786X/14/$18 · doi: 10.1117/12.2042462
La descomposición de PGF requiere una detección efectiva de formas. Ballard [7] propuso un método de detección general basado en
la transformada de Hough. Sin embargo, este método implica un proceso de cálculo muy complejo. Posteriormente, se han inventado
numerosos detectores para propósitos especiales, tales como detectores circulares y de segmento de línea, que son necesarios en el
reconocimiento de PGF. Otros detectores de círculos [9–11] se utilizan para imágenes naturales y gráficos de documentos. Lamiroy [8]
propuso un método de detección de círculos rápido y robusto especialmente desarrollado para gráficos de documentos. Duda y Hart [12]
fueron los primeros en proponer un método de detección de líneas. Lin y Nevatia [13] inventaron un método que puede empalmar
efectivamente un rectángulo usando segmentos de línea detectados. Nayef [14] presentó un sistema completo de recuperación de
símbolos basado en una colección de dibujos lineales. Recientemente,
Con base en los métodos anteriores, primero aplicamos algoritmos de detección para extraer formas geométricas básicas. Después de eso, en
este artículo, nos enfocamos en el análisis de estructuras para imágenes PGF. Para ilustrar las características de un PGF, nuestro descriptor propuesto
se enfoca principalmente en el análisis de relaciones estructurales de elementos geométricos después de que fueron detectados. Analizamos las
relaciones entre dos formas básicas y describimos las características estructurales en PGF con elementos de forma compuesta. El resto de este
documento está organizado de la siguiente manera. Segundo. 2 introduce el descriptor propuesto para las PGF. Segundo. 3 establece la regla de
coincidencia para la recuperación de PGF. Segundo. 4 presenta los experimentos realizados en el estudio y proporciona un resumen de la
investigación.
Los PGF se diferencian de otras imágenes de formas porque se componen de formas básicas, como círculos, triángulos y cuadriláteros, como se
muestra en la Figura 1. Dado un PGF, nuestro objetivo es descomponerlo en varias formas básicas. por lo tanto, nosotros
necesita detectar todas las formas básicas en la figura. Para representar el resultado detectado, un conjuntoGRAMO={S1,...,Snorte}se utiliza, en donde el
elementoSes una forma básica, que puede ser un círculo, un rectángulo, un paralelogramo, un trapezoide o una línea.
Figura 2 Un ejemplo de detección de forma básica: se han detectado un círculo y tres triángulos en una figura de geometría plana dada.
Dado un ejemplo que se muestra en la Figura 2, podemos ver que se han detectado un círculo y tres triángulos superpuestos. Los principales
pasos de detección se enumeran en la Tabla 1.
En algunos casos, los PGF no se pueden discriminar contando y comparando solo sus formas básicas. Como ejemplo, cada uno de los
tres PGF de la Figura 3(a) contiene dos círculos y un triángulo, pero se ven bastante diferentes. En contraste, esos PGF en la Figura 3(b) se
ven similares con casi el mismo arreglo de elementos pero diferentes cantidades de triángulos. Por lo tanto, las relaciones entre las formas
básicas en una PGF no deben ignorarse y es esencial encontrar las características estructurales en las PGF.
También usamos una matriz de 4×4 para representar las relaciones entre dos cuadriláteros; y una matriz de 4×3 para representar las
relaciones entre un cuadrilátero y un triángulo. De ahora en adelante, un cuadrilátero solo puede ser un rectángulo, un trapezoide o un
paralelogramo.
METRO44(i,j)=Rss(ai,bj) i=1...4,j=1...4
(2)
METRO43(i,j)=Rss(ai,bj) i=1...4,j=1...3 (3)
para k = 1:q
Encuentra el número máximoAkenMETROpq.
R(S1,S2)=[A1...Ak]
(4)
Por ejemplo, como se muestra en la Figura 4, la matriz M es la representación del origen de dos triángulos dados a la
izquierda. El número 8 es el número máximo en la matriz que representa la relación entre el segmento a1y B1. Después de que
eliminamos la línea y la columna de la matriz donde se ubicaba el número 8, el resto del número máximo es 4, que representa los
segmentos paralelos a2y B2. Desde un3y B3no son paralelos ni intersectados, su puntaje de relación es cero. La relación entre estos
dos triángulos se muestra en la Ecuación (5).
(5)
SiS1yS2ambos son cuadriláteros, entoncesRtendrá cuatro valores; de lo contrario,Rsólo tendrá tres valores. Usamos
este método para representar las relaciones entre triángulos o cuadriláteros. Sin embargo, este método no es adecuado
para representar las relaciones entre un círculo y otra forma básica.
nortev=tarjeta{pags|pags∈S2.vértice∧dist(pags,S1.C) =S1.r}
(6)
nortemi=tarjeta{mi|mi∈S2.borde∧dist(mi,S1.C) =S1.r}
(7)
En las Ecuaciones (6) y (7),S1.Cdenota el centroide deS1, mientrasS1.rdefine el radio. La relación entre el círculo y
el cuadrilátero se define en la Ecuación (8):
R(S1,S2)=(nortev,nortemi)
(8)
2.2.3 Relaciones entre un círculo y un triángulo
DejarS1Ser un círculo yS2sea un triangulo en PGFGRAMO. Aparte denortevynortemi, que se han definido en las Ecuaciones (6) y
(7), introducimos dos propiedades adicionales,norteCynorted,como sigue:
R(S1,S2)=(nortev,nortemi,norteC,norted)
(11)
2.2.4 Relaciones entre dos círculos
Dejardrepresentan la distancia entre los dos centroides de los círculos, yr1yr2representan sus radios. La Tabla 4 muestra cinco
escenarios en los que comparamosd,r1+r2, y |r1-r2|.
d=r1+r2 Circunscrito
r1−r2<d<r1+r2 cruzado
d=r1−r2 inscrito
d<r1−r2 Incluido
Teóricamente, podríamos analizar todas las relaciones entre dos formas básicas cualesquiera con el método presentado en la Sec.
2.2, ya que el número de tipos de formas básicas es finito. Sin embargo, el cálculo será enorme si enumeramos todas las
relaciones. Además, no todos los tipos de relaciones son igualmente importantes para la descripción de las características
estructurales de las PGF. Es necesario seleccionar aquellas relaciones importantes y excluir las que no lo son. En la siguiente
sección, se adoptarán formas compuestas para cumplir con esta idea.
En consecuencia, obtenemos el conjunto actualizadoGRAMO={PAGS1,...,PAGSnorte};en este conjunto,PAGSpuede ser una forma básica o compuesta. Nosotros
mantener el perímetro y el área en cadaPAGS. SiPAGSes una forma compuesta, entonces usamos la suma de los perímetros y áreas de las
dos formas básicas para representar las de la forma compuestaPAGS.
Tabla 6 Algoritmo 2: el algoritmo que compone las formas compuestas a partir de las formas básicas.
fin (para)
fin (para)
Eliminar formas básicas 'usadas' en el conjuntoGRAMO.
Agregar formas compuestasD1…DXestablecerGRAMO.
Ordenar todos los elementos (descendente) por área en conjuntoGRAMO.
En esta sección, presentamos una funciónJuego(GRAMO1,GRAMO2), que tiene un valor mayor cuandoGRAMO1yGRAMO2son mas parecidos a
entre sí, y un valor más bajo cuandoGRAMO1yGRAMO2no son. DejarGRAMO1{PAGS1,...,PAGSmetro}yGRAMO2{q1,...,qnorte}ser dos cifras. El primer paso
es definir un peso entre un elementoPAGSenGRAMO1y un elementoqenGRAMO2. Dado que cada elemento puede ser una forma básica o
compuesta, a continuación se proponen discusiones categorizadas.
Tabla 7 la cantidad de formas básicas sobresalientes visuales y formas básicas totales en nuestro conjunto de datos
columna en la Tabla 8.
Por otro lado, siPAGSyqson de diferentes tipos, asumimos que no están emparejados para que el pesoC(PAGS,q)
se pone a cero.
Circulo Circulo 50 50
Rectángulo Rectángulo 41 40
trapezoide trapezoide 20 20
Paralelogramo Paralelogramo 6.5 7
Triángulo Triángulo 3.45 3
Diferentes tipos -- 0
También consideramos la tasa de círculo parcial dePAGSyqcomo
A(PAGS,q)=1-(PCR(PAGS)−PCR(q))* 2 π (12)
dónde
Área(S)
PCR(S)= , S∈{PAGS,q}
Perímetro(S) (13)
También debemos generar un factor de tamaño para mantener la invariancia de la escala, de la siguiente manera:
Área(PAGS)/Área(q) 1
S(PAGS,q)= si S(PAGS,q)>1, S(PAGS,q)=
Escala(PAGS)/Escala(q) S(PAGS,q) (14)
La ecuación (14) indica queS(PAGS)es la forma básica más grandeS1del conjuntoGRAMO1que puede reflejar el tamaño. Los valores
C(D1,D2)=Cd(D1,D2)+Cmi(D1,D2)*máximo(C(S1,S2)+C(T1,T2),C(S1,T2)+C(S2,T1))(dieciséis)
Área(D) Área(S)+Área(T)
PCR(D)= =
circunvalación(D) circunvalación(S)+circunvalación(T)
(20)
3.3 Peso entre una Forma Compuesta y una Forma Básica
Necesitamos redefinir los índices de coincidencia de clase como se muestra en la Ecuación (21) y usar la Ecuación (15) para calcular el peso de la siguiente
manera:
C(PAGS,D)=máximo(C(PAGS,S),C(PAGS,T))
(21)
En la Ecuación (21),PAGSes una forma básica enGRAMO1, mientrasDes una forma compuesta enGRAMO2, que están compuestos porSyT.
3.4 Partido
-W(PAGS1,q1)W(PAGS1,q2)... ...W(PAGS1,q-)
- -
norte
-W(PAGS2,q1)W(PAGS2,q2)... ...W(PAGS2,qnorte)-
1,2()
METRO GG= - ... ... ... ... ... -
- -
- ... ... ... ... ... -
--W(PQmetro,1) ( metro,2)
WPQ ( -
WPQ )-
(22)
... ... ,
metro norte
y encontramos un peso máximo que se adapta perfectamenteGRAMOmediante el algoritmo de Kuhn-Munkres[16]. Usamos este peso
máximo como el de dos PGFGRAMO1yGRAMO2, como sigue:
kilómetros(GRAMO1,GRAMO2)=Kuhn_Munkras(METRO(GRAMO1,GRAMO2))
(23)
Y finalmente obtener la puntuación correspondiente como:
( G1GRAMO
,2 ) =
2*kilómetros(GRAMO1,GRAMO2)
Partido
kilómetros(GRAMO1,GRAMO1)+kilómetros(GRAMO2,GRAMO2)
(24)
4 EXPERIMENTOS Y CONCLUSIONES
En esta sección, demostramos el efecto de la descripción basada en formas compuestas y las reglas de coincidencia. Para nuestro
experimento, usamos una computadora que consta de Intel Core i5 (3,20 GHz), 4,00 G de RAM y sistema operativo Windows 7.
Hemos recopilado 267 figuras de geometría plana de cinco libros de geometría primaria para construir la base de datos de imágenes. Cada imagen tiene un
conjunto de verdad de campoGRAMO={S1,...,Snorte}describir un conjunto de formas básicas; por lo tanto, podemos usar los datos de verdad de campo para el
evaluación de detección. Para la evaluación de la recuperación, realizamos un cuestionario en línea entre cada dos imágenes PGR para humanos para
dar una puntuación relevante basada en la similitud visual.
Hemos configurado una matriz de 267*267 para puntuar la similitud entre cada dos PGF. La similitud entre cada dos PGF se vota
manualmente con un rango de puntuación de 0-5. Damos 5 puntos a esos pares de PGF muy similares, mientras que damos 0 puntos a los
pares de PGF no similares. Se puede concluir que la matriz de resultados de votación es una matriz simétrica, y los datos en la diagonal
principal de la matriz no tienen sentido ya que solo representan la similitud entre un PGF y sí mismo. Por lo tanto, acabamos de votar
267*(267-1)/2=35511 par de PGF.
Luego usamos otra figura de geometría plana como otra consulta y hacemos el mismo procedimiento anterior hasta que se consultan los 267
PGF. Usamos la suma de todos los puntajes de los votos para evaluar los efectos de nuestro método.
El parámetro N en la Ecuación (19) (ver Sec. 3.4) se establece en 40 después de haber probado el valor de N=20,25,30,35,40,45,50. La suma de
todos los puntajes de los votos se muestra en la Figura 6.
ZMD
BSS
Propuesto
método
En la Figura 7, el gráfico más a la izquierda en cada línea es la consulta. La comparación de los gráficos segundo y tercero en cada línea
revela que el método propuesto y el BSS funcionan mejor que el método ZMD. También podemos concluir a partir de las columnas cuarta y
quinta de la Figura 7 que la descripción propuesta basada en las formas compuestas funciona mejor que BSS porque tanto los numerosos
triángulos en el círculo como sus relaciones están más cerca de la consulta.
La puntuación total después de usar el método BSS y ZMD se muestra en la Figura 8, podemos ver que tanto nuestro método como
BSS funcionan mucho mejor que el método ZMD. El método propuesto funciona mejor que BSS porque el método BSS pierde las relaciones
entre las formas básicas.
También sumamos la puntuación de votos de las consultas y su 1 PGF más coincidente, que se muestra en las barras de la derecha de la Figura 8. Podemos concluir que
nuestro método obtiene una puntuación de 517 y también funciona mejor.
Los experimentos también muestran algunas limitaciones de nuestro método. Para las PGF que no contienen formas compuestas, los
resultados de recuperación no son satisfactorios. Por ejemplo, la consulta de la Figura 9(a) contiene un círculo, un trapezoide y dos
triángulos, pero nuestro algoritmo no logra encontrar formas compuestas eficientes. En consecuencia, ninguna de las figuras recuperadas
en la Figura 9(b) es similar a la consulta, aunque contienen círculos, triángulos y trapecios similares.
(a) (b)
EXPRESIONES DE GRATITUD
Este trabajo cuenta con el apoyo de la Fundación de Ciencias Naturales de Beijing bajo la subvención 4132033. Estamos profundamente en deuda
con los colaboradores por sus comentarios perspicaces y valiosas sugerencias.
REFERENCIAS
[1] Zhang, D. y Lu, G., "Revisión de las técnicas de representación y descripción de formas", Patt. reco. Soc., 37(1), (2004)
[2] Liao, SX, Pawlak, M., "Sobre el análisis de imágenes por momentos", IEEE Trans. Pat. Analy. y Mach., Intel., 18(3), (1996).
[3] Zhang, D. y Lu, G. "Descriptor de Fourier genérico para la recuperación de imágenes basada en la forma", Proc. del IEEEICME. 1,
425-428 (2002).
[4] Tabbone, S., Ramos, Terrades, O., Barrat, S., "Histogram of radon transform. a useval descriptor for shape retrieval",
Proc. IEEE CIPR., 1-4 (2008).
[5] Ling, H. y Jacobs, DW, "Clasificación de formas usando la distancia interna", IEEE Trans. Pat. Analy. y Mach.,
29(2), (2007).
6] Molhtarian, F., Abbasi, S. y Kittler, J., "Imagen espacial de escala de curvatura en recuperación de similitud de forma", Multi. Sistema,
7(6), (1999).
[7] Ballard, DH, "Generalización de la transformada de Hough para detectar formas arbitrarias", Patt. reco. 13, 111-222 (1981).
[8] Lamiroy, B., Gaucher, O. y Fritz, L., "Detección de círculo robusto", Proc. ICDAR, 526-530 (2007).
[9] Chung, KL, Huang, YH, Shen, SM, Krylov, AS, Yurin, DV Semeikina, EV "Estrategia de muestreo eficiente y estrategia de
refinamiento para la detección de círculos aleatorios", Patt. reco. 45, 252-263 (2012).
[10] Akinlar, C. y Topal, C., "Un detector circular en tiempo real con un control de detección falso", ICASSP, 1309-1312 (2012).
[11] Cuevas, E., Enciso, VO, Wario, F., Zaldivar, D. y Cisneros, MP, “Detección automática de múltiples círculos basada en
sistemas inmunes artificiales,” Sistemas Expertos con Aplicación, 39, 713-722(2012) ).
[12] Duda, RO y Hart, PE, "Uso de la transformación de Hough para detectar líneas y curvas en imágenes", Comm. MCA
15, 11-15 (1972).
[13] Lin, C. y Nevatia, R., "Detección y descripción de edificios a partir de una imagen de intensidad única", Comp. Imagen de visión
debajo. 72(2), 101-121(1998).
[14] Nayef, N. y Breuel, TM, "Recuperación eficiente de símbolos mediante la construcción de un índice de símbolos a partir de una colección de dibujos
lineales", DRR 5-7 de febrero San Francisco CA EE. UU., (2013).
[15] Li, K., Lu, X., Ling, H., Liu, T., Feng, T. y Tang, Z., "Detección de cuadriláteros superpuestos en figuras geométricas planas",
ICDAR 25-28 de agosto Washington DC EE. UU., (2013).
[16] Bourgeois, F. y Lassalle, JC, "Una extensión del algoritmo de munkres para el problema de asignación a matrices
rectangulares", Comm. ACM, 14(12), 802-804(1971).
[17] Kim, WY y Kim, YS “Un descriptor de forma basado en regiones que utiliza momentos Zernike”, Sig. proc. Comunicación de imagen 16,
95-102 (2000).