|
WordNet
WordNet è una risorsa linguistica sviluppata più
di dieci anni fa dal linguista George Miller presso l’Università
di Princeton, che organizza, definisce, descrive i concetti
rilevanti della lingua inglese.
La concettualizzazione del lessico è realizzata attraverso
il synset, insieme di termini dal significato equivalente, strutturati
in nodi e collegati da relazioni di senso: iper/iponimia, mereonimia,
ruolo, etc..; in ogni concetto, o synset, le differenze di senso
(polisemie) sono distinte, numerate e definite mediante relazioni
tassonomiche e associative. Disambiguazione dei polisensi WordNet,
considerato uno dei più importanti lessici standard per
la lingua inglese, è disponibile gratuitamente su Internet,
sia consultabile on line che scaricabile; l’attuale versione
è WordNet 2.0
Col progetto EuroWordNet
(EWN), finanziato dalla Comunità Europea dal 1996 al 1999,
sono stati sviluppati lessici WordNet per i vari linguaggi europei,
collegati in un database multilingue attraverso un Inter-Lingual
Index (ILI).
Rispetto al progetto inglese, di cui adottano la struttura base,
i lessici europei adottano una nozione più allargata di
equivalenza di significato, estesa anche a differenti categorie
sintattiche, ed una più ampia classe di relazione di senso,
atte a trattare in modo approfondito la polisemia. La metodologia
di sviluppo fu basata sul riutilizzo di risorse linguistiche esistenti
e su procedure semiautomatiche di costruzione degli alberi lessicali.
Ciascun WordNet europeo è un lessico autonomo, strutturato
da relazioni semantiche interne, ed in più collegato da
una relazione di equivalenza al corrispondente synsets della lingua
inglese (nella versione 1.5.) contenuto nell’ILI. Ciò
consente il collegamento di ogni lessico con tutti i lessici sviluppati
con la stessa metodologia; i livelli più alti degli alberi,
e cioè i concetti più astratti sono ulteriormente
classificati in base a classi ontologiche ispirate al modello
generativo di Pustejovsky.
Ad oggi sono moltissime le lingue che condividono la medesima
struttura e metodologia di sviluppo. Partner di EuroWordNet
e sviluppatore del WordNet per l’italiano (IWN) è
stato l’Istituto di Linguistica
Computazionale del C.N.R. di Pisa.
Altre iniziative parallele sono: Balkanet
un database multilingue per le lingue balcane e lessici terminologici
per dominii specifici (economico, sociologico).
|