Está en la página 1de 7

Esquema de una base de datos

El Esquema de una Base de datos (en Ingls Database Schema) describe la estructura de una Base de datos, en un lenguaje formal soportado por un Sistema administrador de Base de datos (DBMS). En una Base de datos Relacional, el Esquema define sus tablas, sus campos en cada tabla y las relaciones entre cada campo y cada tabla. El esquema es generalmente almacenado en un Diccionario de Datos. Aunque generalmente el esquema es definido en un lenguaje de Base de datos, el trmino se usa a menudo para referirse a una representacin grfica de la estructura de base de datos. Esquema conceptual de la base de datos
En este apartado mostraremos la implementacin que bajo el modelo relacional de datos hemos llevado a cabo para nuestro lexicn multilinge, mostrando los diagramas conceptuales y explicando las circunstancias que nos han llevado a adoptar determinadas decisiones. Pasaremos por alto la descripcin detallada de la base de datos (tipos de datos, restricciones, cdigo SQL de consultas, etc.). Lo realmente interesante de una base de datos y lo que determina en gran medida su funcionalidad es su esquema conceptual. El modelado que vamos a mostrar aqu es el resultado de la experimentacin con otros posibles esquemas que, por una razn un otra, fueron descartados en su momento. De todos los diseos probados, el que ahora presentamos es sin duda el ms compacto y el que mejor se adapta al tipo de aplicacin que le queremos dar, manteniendo al mismo tiempo una gran independencia de los datos y de la teora gramatical. Respecto a esta caracterstica, hemos de reconocer que la influencia del modelo para el que la base de datos se dise en principio, en 1992, bajo la direccin del profesor Martn Mingorance, es an patente. Lo que hemos pretendido es aprovechar los grandes beneficios que de esta circunstancia se derivan al mismo tiempo que hemos construido sobre ello. Un esquema alternativo considerado durante algn tiempo es descrito en (Moreno Ortiz 1995). Compararemos algunas de las caractersticas de este esquema con las del nuevo que proponemos en este trabajo. Comenzaremos revisando algunas premisas importantes que han determinado en gran medida una implementacin concreta. Como mencionamos en el Captulo 1, nuestro anlisis se ha centrado en las unidades verbales, bajo la suposicin de que son stas las que en buena medida determinan muchas caractersticas de una lengua, siendo consideradas en la mayora de los anlisis gramaticales el centro gravitacional de la oracin. Por lo que respecta a la FG, esto es as sin duda (Dik 1989), ya que el verbo es considerado como un predicado que toma una serie de argumentos (su valencia). Tambin los sustantivos y adjetivos son considerados como predicados, pero el predicado verbal es el que determina la estructura general de la oracin. En cualquier caso, esto no condiciona ningn diseo determinado para la expansin de la descripcin de sustantivos o adjetivos, que tambin han sido incluidos en la base de datos, pero sin aportar por el momento una 3 descripcin lxico-semntica u ontolgica de los mismos . En primer lugar, la base de datos ha de almacenar informacin lxica correspondiente a tres lenguas: ingls, espaol y alemn. Es de suponer que estas lenguas compartan algunas caractersticas bsicas y difieran en otros muchos aspectos. Nuestro objetivo es hallar todas las similitudes posibles en trminos de necesidades de representacin con el objeto de eliminar al mximo la redundancia y poder ofrecer un tratamiento lo ms homogneo posible. El modelo de representacin no aspira a ser universal

en ningn sentido, sino tan slo a dar soporte a las necesidades representacionales de estos tres idiomas. Por ejemplo, la morfologa de los verbos de estas tres lenguas muestra grandes diferencias. En espaol no existe paralelo al verbo con partcula ingls, mientras que en alemn los verbos con partcula separable merecen un tratamiento especial. Por ello, cada lengua deber contar con descripciones distintas para su morfologa. Sin embargo, la descripcin de los patrones sintcticos (en trminos funcionales o de relaciones gramaticales) son las mismas para los tres (objeto directo, indirecto, etc.), por lo que esta informacin es susceptible de ser compartida en su mayor parte. sta es una diferencia clara con la mayora de las bases de datos lxicas que hemos expuesto en apartados anteriores, ya que en stas se suelen confeccionar los lexicones monolinges de forma aislada, de modo que es muy difcil recoger este tipo de generalizaciones que reducen considerablemente la redundancia de la base de datos y facilitan la tarea del administrador. En este sentido hemos adoptado la convencin de prefijar los nombres de las distintas relaciones ya sea con ALL (para aqullas que contengan informacin compartida), ya sea con ENG, SPA o GER para las que contengan informacin especfica del ingls, espaol o alemn, respectivamente. Una ventaja importante sera mantener en lo posible la misma estructura general para las tres lenguas, porque esto facilitara enormemente las tareas de mantenimiento y modificacin de la base de datos. Esto no significa que las propiedades hayan de ser las mismas, pero s las entidades y relaciones. Por ejemplo, las tres lenguas tienen verbos, sustantivos, adjetivos, adverbios y un conjunto cerrado de unidades lxicas, aunque las propiedades de cada una de ellas puedan ser diferentes. En nuestro diseo hemos tratado de aprovechar estas caractersticas isomrficas de modo que la estructura bsica de entidades y relaciones es la misma para las tres lenguas. La Figura 5.3 muestra un diagrama E/R donde las "XXX" pueden ser sustituidas por las iniciales de cualquiera de las tres lenguas (ENG, SPA, GER). Este diseo implica que en la base de datos existe una tabla ENG_Lemma, una tabla SPA_Lemma y una tabla GER_Lemma, as como las tablas ENG_Verb, SPA_Verb, GER_Verb, etc., manteniendo una estructura isomrfica. Las "nubes" de este diagrama son otra convencin que indican que el esquema no acaba ah sino que continan las relaciones y entidades. Hemos marcado con lnea ms gruesa la seccin del diagrama que hemos desarrollado completamente, es decir, la informacin correspondiente a los predicados verbales, que describimos a continuacin.

Figura 5.3 Esquema general de cada lengua Como se puede observar, hemos adoptado el ingls como "lingua franca" para nombrar los elementos de nuestra base de datos. La nica razn para esto es que esta lengua fue la primera para la que se introdujo informacin. As las descripciones de entidades y sus propiedades compartidas estarn explicitadas en ingls. Como veremos, esto no condiciona absolutamente nada, ya que en realidad podramos omitir las descripciones sin problema, pues todas ellas funcionan mediante cdigos numricos aleatorios. En lo sucesivo nos concentraremos en el modelado de las unidades lxicas verbales. El resto de las categoras contienen en este momento nicamente la identificacin de lema y la cadena de caracteres que los representa. Por lo tanto, cualitativamente hablando, no existe mucha informacin respecto a estas categoras. Cuantitativamente, sin embargo, las listas son muy exhaustivas. La Tabla 5.1 muestra el nmero de entradas que las distintas tablas contienen actualmente junto con las fuentes de las que se ha extrado la informacin para cada una de las tres lenguas.

Idioma

N de Lemas

Fuentes

INGLS

62.418

American Heritage Dictionary Longman Dictionary of Contemporary English

ESPAOL

77.569

Diccionario de la Real Academia de la Lengua (Ed. CD-ROM) Corpus de referencia Arbeitsbereich Linguistik (Universidad de Mnster)4

ALEMN

111.260

Tabla 5.1 Nmero de lemas contenidos en la base de datos

Esquema conceptual de la base de datos


En este apartado mostraremos la implementacin que bajo el modelo relacional de datos hemos llevado a cabo para nuestro lexicn multilinge, mostrando los diagramas conceptuales y explicando las circunstancias que nos han llevado a adoptar determinadas decisiones. Pasaremos por alto la descripcin detallada de la base de datos (tipos de datos, restricciones, cdigo SQL de consultas, etc.). Lo realmente interesante de una base de datos y lo que determina en gran medida su funcionalidad es su esquema conceptual. El modelado que vamos a mostrar aqu es el resultado de la experimentacin con otros posibles esquemas que, por una razn un otra, fueron descartados en su momento. De todos los diseos probados, el que ahora presentamos es sin duda el ms compacto y el que mejor se adapta al tipo de aplicacin que le queremos dar, manteniendo al mismo tiempo una gran independencia de los datos y de la teora gramatical. Respecto a esta caracterstica, hemos de reconocer que la influencia del modelo para el que la base de datos se dise en principio, en 1992, bajo la direccin del profesor Martn Mingorance, es an patente. Lo que hemos pretendido es aprovechar los grandes beneficios que de esta circunstancia se derivan al mismo tiempo que hemos construido sobre ello. Un esquema alternativo considerado durante algn tiempo es descrito en (Moreno Ortiz 1995). Compararemos algunas de las caractersticas de este esquema con las del nuevo que proponemos en este trabajo. Comenzaremos revisando algunas premisas importantes que han determinado en gran medida una implementacin concreta. Como mencionamos en el Captulo 1, nuestro anlisis se ha centrado en las unidades verbales, bajo la suposicin de que son stas las que en buena medida determinan muchas caractersticas de una lengua, siendo consideradas en la mayora de los anlisis gramaticales el centro gravitacional de la oracin. Por lo que respecta a la FG, esto es as sin duda (Dik 1989), ya que el verbo es considerado como un predicado que toma una serie de argumentos (su valencia). Tambin los sustantivos y adjetivos son considerados como predicados, pero el predicado verbal es el que determina la estructura general de la oracin. En cualquier caso, esto no condiciona ningn diseo determinado para la expansin de la descripcin de sustantivos o adjetivos, que tambin han sido incluidos en la base de datos, pero sin aportar por el momento una 3 descripcin lxico-semntica u ontolgica de los mismos . En primer lugar, la base de datos ha de almacenar informacin lxica correspondiente a tres lenguas: ingls, espaol y alemn. Es de suponer que estas lenguas compartan algunas caractersticas bsicas y difieran en otros muchos aspectos.

Nuestro objetivo es hallar todas las similitudes posibles en trminos de necesidades de representacin con el objeto de eliminar al mximo la redundancia y poder ofrecer un tratamiento lo ms homogneo posible. El modelo de representacin no aspira a ser universal en ningn sentido, sino tan slo a dar soporte a las necesidades representacionales de estos tres idiomas. Por ejemplo, la morfologa de los verbos de estas tres lenguas muestra grandes diferencias. En espaol no existe paralelo al verbo con partcula ingls, mientras que en alemn los verbos con partcula separable merecen un tratamiento especial. Por ello, cada lengua deber contar con descripciones distintas para su morfologa. Sin embargo, la descripcin de los patrones sintcticos (en trminos funcionales o de relaciones gramaticales) son las mismas para los tres (objeto directo, indirecto, etc.), por lo que esta informacin es susceptible de ser compartida en su mayor parte. sta es una diferencia clara con la mayora de las bases de datos lxicas que hemos expuesto en apartados anteriores, ya que en stas se suelen confeccionar los lexicones monolinges de forma aislada, de modo que es muy difcil recoger este tipo de generalizaciones que reducen considerablemente la redundancia de la base de datos y facilitan la tarea del administrador. En este sentido hemos adoptado la convencin de prefijar los nombres de las distintas relaciones ya sea con ALL (para aqullas que contengan informacin compartida), ya sea con ENG, SPA o GER para las que contengan informacin especfica del ingls, espaol o alemn, respectivamente. Una ventaja importante sera mantener en lo posible la misma estructura general para las tres lenguas, porque esto facilitara enormemente las tareas de mantenimiento y modificacin de la base de datos. Esto no significa que las propiedades hayan de ser las mismas, pero s las entidades y relaciones. Por ejemplo, las tres lenguas tienen verbos, sustantivos, adjetivos, adverbios y un conjunto cerrado de unidades lxicas, aunque las propiedades de cada una de ellas puedan ser diferentes. En nuestro diseo hemos tratado de aprovechar estas caractersticas isomrficas de modo que la estructura bsica de entidades y relaciones es la misma para las tres lenguas. La Figura 5.3 muestra un diagrama E/R donde las "XXX" pueden ser sustituidas por las iniciales de cualquiera de las tres lenguas (ENG, SPA, GER). Este diseo implica que en la base de datos existe una tabla ENG_Lemma, una tabla SPA_Lemma y una tabla GER_Lemma, as como las tablas ENG_Verb, SPA_Verb, GER_Verb, etc., manteniendo una estructura isomrfica. Las "nubes" de este diagrama son otra convencin que indican que el esquema no acaba ah sino que continan las relaciones y entidades. Hemos marcado con lnea ms gruesa la seccin del diagrama que hemos desarrollado completamente, es decir, la informacin correspondiente a los predicados verbales, que describimos a continuacin.

Figura 5.3 Esquema general de cada lengua Como se puede observar, hemos adoptado el ingls como "lingua franca" para nombrar los elementos de nuestra base de datos. La nica razn para esto es que esta lengua fue la primera para la que se introdujo informacin. As las descripciones de entidades y sus propiedades compartidas estarn explicitadas en ingls. Como veremos, esto no condiciona absolutamente nada, ya que en realidad podramos omitir las descripciones sin problema, pues todas ellas funcionan mediante cdigos numricos aleatorios. En lo sucesivo nos concentraremos en el modelado de las unidades lxicas verbales. El resto de las categoras contienen en este momento nicamente la identificacin de lema y la cadena de caracteres que los representa. Por lo tanto, cualitativamente hablando, no existe mucha informacin respecto a estas categoras. Cuantitativamente, sin embargo, las listas son muy exhaustivas. La Tabla 5.1 muestra el nmero de entradas que las distintas tablas contienen actualmente junto con las fuentes de las que se ha extrado la informacin para cada una de las tres lenguas.

Idioma

N de Lemas

Fuentes

INGLS

62.418

American Heritage Dictionary Longman Dictionary of Contemporary English

ESPAOL

77.569

Diccionario de la Real Academia de la Lengua (Ed. CD-ROM) Corpus de referencia Arbeitsbereich Linguistik (Universidad de Mnster)4

ALEMN

111.260

Tabla 5.1 Nmero de lemas contenidos en la base de datos