logo_ittig
Istituto di Teoria e Tecniche
dell'Informazione Giuridica

banner_top
attiva motore di ricerca
scrivici
ricerca

Progetto di ricerca: JurWordNet, lessico semantico per il diritto
Materiali

JurWordNet, WordNet per il diritto

Come gli altri WordNet, e’ un lessico semantico, cioè un lessico in cui il significato dei termini è reso esplicito ed è comprensibile dai programmi informatici.

I synsets che compongono la rete rappresentano i concetti: essi sono costituiti da tutti i termini che esprimono lo stesso concetto (casa, abitazione, dimora, domicilio...), legati da una relazione semantica ‘vicina’ alla sinonimia. Più precisamente sono classi di parole, basate sull’ equivalenza di significato, che rappresentano un concetto od un individuo (istanza).

JurWordNet è un lessico terminologico, collegato, come risorsa specialistica alla risorsa generica (IWN) dell’italiano comune. I synsets del lessico giuridico, oltre alle relazioni verticali di tassonomia, hanno legami orizzontali di tipo associativo, mentre sono limitate le relazioni di equivalenza semantica (varianti): questa è una caratteristica comune a molti lessici terminologici ove abbondano termini tecnici, in cui è raro trovare vere sinonimie. Per il linguaggio giuridico è invece importante, creare relazioni di equivalenza con l'italiano comune, (Collegamento fra wordnet giuridico e wordnet generico), in modo da ovviare all’imprecisione con cui gli utenti non esperti ricercano le informazioni giuridiche, utilizzando termini del linguaggio comune al posto della terminologia giuridica. La Disambiguazione dei polisensi nei lessici terminologici, va intesa in modo estensivo, come distinzione del significato comune dal significato tecnico. Nel linguaggio giuridico sono rari i termini che esprimono istanze anzichè classi (Presidente della Repubblica, Ministro delle Finanze, Capo del Governo...).

La metodologia di sviluppo della rete, conforme alla filosofia dei progetti WordNet, privilegia il riutilizzo e l’armonizzazione di risorse lessicali già esistenti. L’individuazione dei concetti rilevanti è stata attuata bottom-up, estraendo i termini dalle domande di interrogazione dei sistemi informativi giuridici, Più specificamente, dalle liste del sistema Italgiure/Find, il maggior sistema italiano di informazione giuridica, prodotto dalla Corte di Cassazione, si è ottenuto:

- il database dei Semi, 11.000 parole chiave e lemmi ad essi associati concettualmente;

- la lista delle parole che la massa degli utenti suole porre in AND, da cui, è stata ricavata la lista dei sintagmi, un gruppo di circa 13.000 espressioni, costituite da due parole immediatamente susseguentesi specialmente significative dal punto di vista giuridico;

- la lista delle parole che la massa degli utenti suole mettere in OR, la c.d. catena analogica delle parole. Le catene analogiche sono costituite da sinonimi o, comunque, da termini che, almeno rispetto a un certo numero di ricerche, sono state ritenute intercambiabili dalla massa degli utenti.

Dai sintagmi si è costruita automaticamente la tassonomia con il termine principale e da essa si sono sviluppati i livelli superiori degli alberi, utilizzando, in modo parzialmente automatico, le glosse dei dizionari. Il collegamento orizzontale dei concetti e la disambiguazione dei significati sono state fatte manualmente. Allo stato attuale si dispone di un corpus sufficientemente consolidato di circa 2000 synsets, che sarà incrementato in modo quasi automatico attraverso il collegamento con thesauri e descrittori per banche dati giuridiche.

La gestione dei sintagmi è basata su criteri pratici di efficienza nella ricerca: essi sono considerati iponimi del termine principale, ma, ove il link non sia rilevante, si collega il sintagma con altri synsets attraverso relazioni semantiche diverse, ad es. Verbale d’udienza è collegato non a verbale, ma ad udienza da una relazione di ruolo (precisamente: Strumento-per). Questo significa che non tutti gli iponimi sono sottoinsiemi in senso stretto del termine superiore, (ad es. oltre a contratto di locazione come sottoclasse di contratto, abbiamo contratto valido, contratto simulato....).

Disambiguazione dei polisensi

Il ruolo dell'ontologia

Dal livello del lessico al livello ontologico

Collegamento fra WordNet giuridico e Wordnet generico

Utilizzo di JurWordNet

<<

ITTIG/Ricerca/Progetto JurWordNet/JurWordNet, WordNet per il diritto