|
JurWordNet,
WordNet per il diritto
Come gli altri WordNet, e’ un lessico semantico, cioè
un lessico in cui il significato dei termini è reso esplicito
ed è comprensibile dai programmi informatici.
I synsets che compongono la rete rappresentano i concetti: essi
sono costituiti da tutti i termini che esprimono lo stesso concetto
(casa, abitazione, dimora, domicilio...), legati da una relazione
semantica ‘vicina’ alla sinonimia. Più precisamente
sono classi di parole, basate sull’ equivalenza di significato,
che rappresentano un concetto od un individuo (istanza).
JurWordNet è un lessico terminologico, collegato, come
risorsa specialistica alla risorsa generica (IWN) dell’italiano
comune. I synsets del lessico giuridico, oltre alle relazioni
verticali di tassonomia, hanno legami orizzontali di tipo associativo,
mentre sono limitate le relazioni di equivalenza semantica (varianti):
questa è una caratteristica comune a molti lessici terminologici
ove abbondano termini tecnici, in cui è raro trovare vere
sinonimie. Per il linguaggio giuridico è invece importante,
creare relazioni di equivalenza con l'italiano comune, (Collegamento
fra wordnet giuridico e wordnet generico), in modo da ovviare
all’imprecisione con cui gli utenti non esperti ricercano
le informazioni giuridiche, utilizzando termini del linguaggio
comune al posto della terminologia giuridica. La Disambiguazione
dei polisensi nei lessici terminologici, va intesa in modo estensivo,
come distinzione del significato comune dal significato tecnico.
Nel linguaggio giuridico sono rari i termini che esprimono istanze
anzichè classi (Presidente della Repubblica, Ministro delle
Finanze, Capo del Governo...).
La metodologia di sviluppo della rete, conforme alla filosofia
dei progetti WordNet, privilegia il riutilizzo e l’armonizzazione
di risorse lessicali già esistenti. L’individuazione
dei concetti rilevanti è stata attuata bottom-up, estraendo
i termini dalle domande di interrogazione dei sistemi informativi
giuridici, Più specificamente, dalle liste del sistema
Italgiure/Find, il maggior sistema italiano di informazione giuridica,
prodotto dalla Corte di Cassazione,
si è ottenuto:
- il database dei Semi, 11.000 parole chiave e lemmi ad essi
associati concettualmente;
- la lista delle parole che la massa degli utenti suole porre
in AND, da cui, è stata ricavata la lista dei sintagmi,
un gruppo di circa 13.000 espressioni, costituite da due parole
immediatamente susseguentesi specialmente significative dal punto
di vista giuridico;
- la lista delle parole che la massa degli utenti suole mettere
in OR, la c.d. catena analogica delle parole. Le catene analogiche
sono costituite da sinonimi o, comunque, da termini che, almeno
rispetto a un certo numero di ricerche, sono state ritenute intercambiabili
dalla massa degli utenti.
Dai sintagmi si è costruita automaticamente la tassonomia
con il termine principale e da essa si sono sviluppati i livelli
superiori degli alberi, utilizzando, in modo parzialmente automatico,
le glosse dei dizionari. Il collegamento orizzontale dei concetti
e la disambiguazione dei significati sono state fatte manualmente.
Allo stato attuale si dispone di un corpus sufficientemente consolidato
di circa 2000 synsets, che sarà incrementato in modo quasi
automatico attraverso il collegamento con thesauri e descrittori
per banche dati giuridiche.
La gestione dei sintagmi è basata su criteri pratici
di efficienza nella ricerca: essi sono considerati iponimi del
termine principale, ma, ove il link non sia rilevante, si collega
il sintagma con altri synsets attraverso relazioni semantiche
diverse, ad es. Verbale d’udienza è collegato non
a verbale, ma ad udienza da una relazione di ruolo (precisamente:
Strumento-per). Questo significa che non tutti gli iponimi sono
sottoinsiemi in senso stretto del termine superiore, (ad es. oltre
a contratto di locazione come sottoclasse di contratto, abbiamo
contratto valido, contratto simulato....).
|