Está en la página 1de 26

Hiztegiak, Internet eta

euskararen desafioak
Elhuyar Hizkuntza Zerbitzuak
www.elhuyar.org/hizkuntza-zerbitzuak

Praktika egokiak gutxitutako hizkuntzen erabilera


Informazio eta Komunikazio Teknologietan sustatzeko
Biltzarra
Leizaola Fundazioa
Bilbo, 2010-11-19
Elhuyarko Hizkuntza
Zerbitzuak saileko lantaldea

Itzulpenak / Hiztegiak / I+G


Abiapuntua

• Elhuyar hiztegiak Interneten


• Interneten eragina hiztegigintzan
• Desafio batzuk
Hiztegigintza-prozesuan
berrikuntzak
Itzulpen-memoriak
es eu

ItzulTerm

Terminologoak
DB term
Interneten eragina hiztegigintzan

• Testu-baliabideetan  corpusgintza:
web as/for corpus
• Hiztegiak: testuinguru berria
– Hiztegi kontzeptuaren ezaugarrietan
– Erabiltzeko, argitaratzeko eta egiteko
ereduetan
– Negozio-ereduan
• Internet: errealitate "linguistikoa"
• Interneten BAKARRIK argitaratzen diren
Internet eta corpusak
testuak gero eta ugariagoak dira, eta
ezaugarri bereziak dituzte
• Corpusak eratzea prozesu
geldoa eta garestia da
• Ikuspegi linguistikoa • Interneten testu-kantitate
handia dago,
Interesgarria da webarendigitalizatuta; alderdi Interneten
linguistiko bereziak aztertzea ERE argitaratzen diren
testuak gero eta
• Ikuspegi "praktikoa"
ugariagoak dira
 Interesgarria da webetik corpusak
automatikoki eratzeko tresnak garatzea
Web-corpusak – Elhuyar I+G

• Web as corpus:
– CorpEus (http://www.corpeus.org)
• Web for corpus:
– Elebakarrak: AutoCorpEx
– Konparagarriak: Co3 (Comparable Corpora
Collector)
– Pareleloak: PaCo2 (Parallel Corpora Collector)
Interneten eragina

• Testu-baliabideetan  corpusgintza:
web as/for corpus
• Hiztegiak: testuinguru berria
– Hiztegi kontzeptuaren ezaugarrietan
– Erabiltzeko, argitaratzeko eta egiteko
ereduetan
– Negozio-ereduan
Testuinguru berria
• Hiztegi "elektronikoak" (vs "hiztegi inprimatuen bertsio
digitalak")
– Edukiera eta eduki-motak
– Bilatze- eta nabigatze-aukerak
• Interaktibitatea
– Feedback-a, parte-hartzea
– Erabiltzailearen beharrak: pertsonalizazioa
– Prozesu kolektiboa (Wikipedia, Wiktionary, Logos, TermWiki...)
• Automatizazioa?  LNP...
• Doako kontsulta / eduki librea
– Negozio-eredua!!!!
 Hiztegigintzaren paradigma-aldaketa (Anderson &
Nielsen, 2009)
M. Rundellen hiru
"agertokiak"
• Enhanced dictionary
– Standard version free (supported by advertising), enhanced
version paid-for
• Embedded dictionary
– a “service” – available to users within another environment
• Not a dictionary at all
– Why do dictionaries exist?
– They fulfil certain communicative needs – but what if those
needs could be met by other means?

Rundell, M. 2009. A future for dictionary publishing?


Lexicom 2009
Euskararen desafio batzuk

• Corpus-hiztegigintza
• Hiztegi (benetan) elektronikoak
• Nork eta nola?
Corpus-hiztegigintza
• Corpusak!!!!!
– Erreferentzia-corpusa(k?), espezializatuak... //
web-corpusak!
– Ustiatzeko aukera
• Teknologia: sakonago lantzeko arloak
– Corpusak ustiatzeko tresna aurreratuak sortu
• Ikuspegia ?
– Deskriptiboa   Pr[e|o]skriptiboa ([arau|
gomendio]-emailea)
Hiztegi (benetan) elektronikoak I

• Papereko hiztegien web-bertsioak edo


Interneterako hiztegiak?
– Edukiak: papera eta Internetekoak oso
antzekoak dira
– Functionalitateak: hainbat hobekuntza
bilaketa-sistema eta aukeretan
– Eguneratzea: Paperekoaren menpe 
hiztegi estatikoak  eguneraketa-
maiztasun txikia
Hiztegi (benetan) elektronikoak II

• Diseinuak berritu (ez grafikoa bakarrik!),


erabilgarritasuna.
• Eduki-motak ugaritu eta integratu (Copus-
agerraldiak, ahotsa…)
• Funtzionalitatea areago landu (Lematizazioa,
hizkuntza-teknologiak..)
• Pertsonalizaziorantz
• Parte-hartzailea

"New electronic media provide not only new and better


lexicographic solutions but also new options" (Bergenholtz &
Tarp, 2005)
Nork eta nola?
• Nork?
– Profesionalak / Erabiltzaileak
• Zein diru-baliabidez?
– Salmenta / harpidetza / publizitatea
– Diru publikoa
– Dohaintzak
– Wiki eredua: banako editoreen doako lana
– ... Irudimena
Ikasteko gogoz, ekiteko prest

Eskerrik asko!
Hiztegiak, Internet eta
euskararen desafioak
Elhuyar Hizkuntza Zerbitzuak
www.elhuyar.org/hizkuntza-zerbitzuak

Praktika egokiak gutxitutako hizkuntzen erabilera


Informazio eta Komunikazio Teknologietan sustatzeko
biltzarra
Leizaola Fundazioa
Bilbo, 2010-11-19
Bibliografia I
• Aldezabal, I., Arriola, JM., Diaz de Ilarraza, A. & Sarasola, K. 2005.
Hizkuntzalaritza Konputazionala. Bilbo: UEU Kilgarriff, A., 2000.
"Business models for Dictionaries and NLP" In International Journal of
Lexicography 13-2.
• Andersen, B. & Nielsen, S. 2008. "Ten Key Issues in Lexicography for
the Future." In Lexicography at a Crossroads – Dictionaries and
Encyclopedias Today, Lexicographycal Tools Tomorrow
• Atkins, S. & Rundell, M. 2008. The Oxford Guide to Practical Lexicography.
Oxford Linguistics
• Bergenholtz, H. & S. Tarp. 2002. "Die moderne lexikographische
Funktionslehre. Diskussionsbeitrag zu neuen und alten Paradigmen,
die Wörterbücher als Gebrauchsgegenstände verstehen." Lexicographica.
International Annual for Lexicography 18, 253-263.
• Grefenstette, G. 1998. "The Future of Linguistics and Lexicographers:
Will there be Lexicographers in the year 3000?" In Euralex’98 Proceedings
• Hanks, P. 2000. "Do word meanings exist?" In Computers and the
Humanities. 34-1-2, Springer.
• Kilgarriff, A. 1997. "I don't believe in word senses" In Computers and the
Humanities. 31-2, Springer.
Bibliografia II
• Kilgarriff, A., Rychlý, P., Smrz, P. & and Tugwell, D. 2004. "The Sketch
Engine." In Proceedings of Euralex04. Lorient, France (http://
www.sketchengine.co.uk/)
• Leturia, I., San Vicente, I. & Saralegi., X. 2009. "Search engine based
approaches for collecting domain-specific Basque-English comparable
corpora from the Internet". In 5th International Web as Corpus Workshop
(WAC5). Donostia.
• Pustejovsky, J., Hanks, P. & Rumshisky, A. 2004. "Automated induction of
sense in context." In Proceedings of the 20th international Conference on
Computational Linguistics. Geneva.
• Rundell, M. 2009. "The road to automated lexicography: first banish the
drudgery... then the drudges?" In eLexicography in the 21st century: new
challenges, new applications (eLEX2009). Lovaina.
• Villegas, M., Bel, N., Bel, S., Alemany, F. & Martínez, H. (2009).
"Lexicography in the grid environment ." In Proceedings of eLexicography in
the 21st century: new challenges, new applications (eLEX2009). Lovaina:
Cahiers du Cental.

También podría gustarte