logo_ittig
Istituto di Teoria e Tecniche
dell'Informazione Giuridica

banner_top
attiva motore di ricerca
scrivici
ricerca

Progetto di ricerca: JurWordNet, lessico semantico per il diritto
Materiali

WordNet

WordNet è una risorsa linguistica sviluppata più di dieci anni fa dal linguista George Miller presso l’Università di Princeton, che organizza, definisce, descrive i concetti rilevanti della lingua inglese.

La concettualizzazione del lessico è realizzata attraverso il synset, insieme di termini dal significato equivalente, strutturati in nodi e collegati da relazioni di senso: iper/iponimia, mereonimia, ruolo, etc..; in ogni concetto, o synset, le differenze di senso (polisemie) sono distinte, numerate e definite mediante relazioni tassonomiche e associative. Disambiguazione dei polisensi WordNet, considerato uno dei più importanti lessici standard per la lingua inglese, è disponibile gratuitamente su Internet, sia consultabile on line che scaricabile; l’attuale versione è WordNet 2.0

Col progetto EuroWordNet (EWN), finanziato dalla Comunità Europea dal 1996 al 1999, sono stati sviluppati lessici WordNet per i vari linguaggi europei, collegati in un database multilingue attraverso un Inter-Lingual Index (ILI).

Rispetto al progetto inglese, di cui adottano la struttura base, i lessici europei adottano una nozione più allargata di equivalenza di significato, estesa anche a differenti categorie sintattiche, ed una più ampia classe di relazione di senso, atte a trattare in modo approfondito la polisemia. La metodologia di sviluppo fu basata sul riutilizzo di risorse linguistiche esistenti e su procedure semiautomatiche di costruzione degli alberi lessicali.

Ciascun WordNet europeo è un lessico autonomo, strutturato da relazioni semantiche interne, ed in più collegato da una relazione di equivalenza al corrispondente synsets della lingua inglese (nella versione 1.5.) contenuto nell’ILI. Ciò consente il collegamento di ogni lessico con tutti i lessici sviluppati con la stessa metodologia; i livelli più alti degli alberi, e cioè i concetti più astratti sono ulteriormente classificati in base a classi ontologiche ispirate al modello generativo di Pustejovsky.

Ad oggi sono moltissime le lingue che condividono la medesima struttura e metodologia di sviluppo. Partner di EuroWordNet e sviluppatore del WordNet per l’italiano (IWN) è stato l’Istituto di Linguistica Computazionale del C.N.R. di Pisa.
Altre iniziative parallele sono: Balkanet un database multilingue per le lingue balcane e lessici terminologici per dominii specifici (economico, sociologico).

<<

ITTIG/Ricerca/Progetto JurWordNet/WordNet