|
Rivista "Informatica e diritto"
Fascicolo No. 1, 1982
THES/BID: A Computer-based
Thesaurus of Terminology in Computers and the Law
INTRODUZIONE
I. GLI SCOPI E LE CARATTERISTICHE GENERALI DELL'OPERA
THES/BID è un thesaurus strutturato dei descrittori
(parole chiave e locuzioni) impiegati nel settore dell'informatica
giuridica e del diritto dell'informatica. Originariamente redatto in
inglese, esso viene ora presentato nell'edizione italiana per favorirne
la consultazione da parte di chi non abbia sufficiente familiarità con
quella lingua; opportuni rinvii consentono comunque di risalire alle
espressioni registrate nella versione originale.
L'opera - che gli Autori hanno realizzato con
l'ausilio di un elaboratore elettronico - rappresenta il primo
tentativo organico di standardizzazione della terminologia e
sistematizzazione dei concetti afferenti a questo nuovo campo
interdisciplinare, sviluppatosi dall'impatto delle moderne tecnologie
d'elaborazione delle informazioni con la scienza e la prassi del
diritto.
In questo senso essa si rivolge non soltanto ai
cultori e agli specialisti della materia impegnati nella ricerca e
nell'insegnamento. ma anche a tutti coloro che, ormai in numero
rapidamente crescente. si accostano per la prima volta a questa
disciplina, siano essi studenti di appositi corsi specialistici
organizzati presso facoltà universitarie, siano essi operatori del
diritto sollecitati alle nuove tecniche di ricerca elettronica delle
informazioni dalla vasta e incisiva attività promozionale svolta dalla
Corte Suprema di Cassazione con il Sistema Italgiure.
Un interesse particolare quest'opera riveste anche
per i documentalisti, i bibliotecari, i bibliografi, i traduttori e gli
utenti di sistemi informativi, nell'ambito delle materie specifiche cui
si riferisce la terminologia raccolta in THES/BID.
L'esigenza di standardizzare il linguaggio
scientifico viene soprattutto avvertita nei settori disciplinari di
recente formazione, in cui accade che la novità dei problemi affrontati
e la molteplicità dei possibili approcci generino una pericolosa
fluidità di nozioni e inevitabili fraintendimenti tra gli stessi
specialisti. Se da una parte ciò può essere considerato connaturale ai
primi stadi dello sviluppo d'una disciplina, dall' altra il perdurare
d'una situazione di ambiguità terminologica è di ostacolo alla
comunicazione e allo scambio dei risultati via via conseguiti nella
ricerca.
A far chiarezza sul significato dei concetti e
sull'uso dei termini non sarebbe però sufficiente lo sforzo di studiosi
isolati, per un verso normalmente sprovvisti d'una documentazione
adeguatamente vasta e dall'altro nell'impossibilità d'imporre alla
comunità scientifica il proprio punto di vista prima che nella prassi
si siano formate e consolidate precise convenzioni linguistiche. Per
contro, la lunga esperienza bibliografica nello specifico settore
dell'informatica giuridica e del diritto dell'informatica e la
molteplicità dei collegamenti con enti e studiosi, italiani e
stranieri, operanti nell'ambito di queste discipline hanno consentito
agli Autori - da anni impegnati nella pubblicazione della rivista
internazionale "Informatica e diritto" e dell'annessa Bibliografia
(entrambe curate dall'Istituto per la documentazione giuridica e
pubblicate presso la casa editrice Le Monnier di Firenze) di
progettare e realizzare un thesaurus specialistico contenente precise
scelte terminologiche, che riproducono gli usi linguistici più diffusi
e, nei casi in cui un uso preponderante non si sia ancora affermato,
propongono soluzioni nuove ma rigorose e coerenti.
È ora auspicio degli Autori che l'opera realizzata
possa rappresentare un punto di riferimento essenziale per tutti i
cultori della materia che siano anche interessati ai problemi
terminologici del loro campo di studio; da essi giungeranno certamente
osservazioni e suggerimenti preziosi per la preparazione di successive
edizioni. Quanto questo augurio sia fondato già lo dimostrano le
numerose recensioni e segnalazioni che hanno seguito la pubblicazione
dell'edizione inglese di THES/B1D (Firenze, Le Monnier, 1982) e in
genere la favorevole accoglienza che l'opera ha riscosso nell'ambiente
scientifico italiano e internazionale.
Non meno sentita è l'esigenza d'una
sistematizzazione dei concetti e quindi dei termini nell'ambito
dell'informatica giuridica e del diritto dell'informatica.
I ricercatori impegnati in settori altamente
specializzati, calati come sono nell'analisi di problemi limitati e
definiti, avvertono sovente il bisogno di ritrovare o ricostruire
l'orizzonte dello spazio disciplinare entro cui si muovono e la rete di
rapporti che collega tra loro i vari oggetti di studio esaminati sotto
approcci diversi. Ugualmente, essenziale per l'insegnamento si rivela
il poter disporre d'un quadro sistematico generale degli argomenti da
trattare e dei concetti da esporre, mentre gli studenti trarranno
sicuro giovamento dalla possibilità d'individuare le relazioni tra le
nozioni via via acquisite mediante l'appropriata consultazione d'un
thesaurus strutturato.
Oltre a queste finalità generali, l'opera si propone
lo scopo pratico di offrire un ausilio concreto ed efficace a chi si
accinga a consultare i volumi della Bibliografia internazionale
d'informatica e diritto o la corrispondente base di dati interrogabile
in linea nell'ambito del Sistema Italgiure della Corte Suprema di
Cassazione. Infatti, ogni unità bibliografica registrata è indicizzata
mediante i descrittori contenuti in THES/BID e quindi l'utente,
utilizzando questo thesaurus, può facilmente individuare le parole
chiave che gli permetteranno l'accesso alla documentazione desiderata.
Quanto alle caratteristiche, THES/BID si distingue
dagli alni thesauri per alcuni aspetti particolari. In primo luogo,
esso è costruito a posteriori sulla base dell'analisi lessicale svolta
sui titoli e sugli abstracts delle unita bibliografiche selezionate per
la Bibliografia; questa caratteristica lo oppone alla categoria dei
thesauri costruiti a priori, prima cioè dell'organizzazione d'un
sistema di documentazione nel particolare settore applicativo. In
secondo luogo THES/BID è composto, oltre che da singole parole chiave,
anche da descrittori pluritermini che individuano concetti complessi e
articolati; questa scelta, se da un lato ha incrementato notevolmente
il numero dei termini, dall'altro ha permesso una maggiore precisione
nella descrizione del contenuto dei documenti, limitando sensibilmente
i rischi legati alla post-coordinazione dei descrittori monotermini.
Non diversamente dagli altri thesauri, invece.
THES/BID si presenta come un vocabolario strutturato di descrittori in
cui sono individuate, oltre alle relazioni di preferenza, le relazioni
gerarchiche e quelle di sinonimia, quasi-sinonimia e associazione. I
descrittori così strutturati vengono presentati non solo in liste
alfabetiche e in liste gerarchiche (ordinate dal concetto più ampio a
quello più specifico), ma anche in liste organizzate per classi secondo
l'ordinamento sistematico delle voci e sottovoei dello Schema di
classificazione adottato per BID. Quest'ultimo tipo di ordinamento
rappresenta un'utile sintesi tra le tecniche dell'indicizzazione e
quelle della classificazione, mettendo a disposizione dell'utente i
vantaggi di entrambe e riducendo nel contempo i limiti intrinseci di
ognuna.
Fondamentale per la realizzazione dell'opera è stato
poi l'impiego dell'elaboratore da parte dei redattori del Thesaurus
che, liberati così da una serie di compiti puramente meccanici e
ripetitivi (quali gli ordinamenti dei descrittori, i controlli formali
nell'applicazione delle regole di costruzione ed espansione delle
relazioni e l'organizzazione grafica degli indici), hanno potuto
concentrarsi quasi esclusivamente sulla definizione dei criteri da
seguire nella realizzazione dell'opera (selezione, normalizzazione e
strutturazione dei termini) e sull'applicazione delle regole prefissate
(proprietà delle relazioni e delle strutture algebriche utilizzate,
individuazione delle incompatibilità e delle ridondanze all'interno di
queste ultime). Tale applicazione è stata particolarmente rigorosa e
coerente in quanto s'è provveduto a formalizzare le regole e a tradurle
in istruzioni di programma; l'elaboratore è stato così messo in grado
di svolgere un vero e proprio lavoro di sviluppo delle relazioni, di
controllo su di esse e di supporto nella costruzione delle strutture
concettuali.
2. LE FASI OPERATIVE PERLA REDAZIONE DI THES/BID
Nella prima fase del lavoro, dalla letteratura
specialistica analizzata per la Bibliografia internazionale in un arco
di tempo ormai decennale, sono stati selezionati, non soltanto sulla
base della loro frequenza d'uso, ma anche su quella della loro
significatività, circa 2.000 descrittori; una volta normalizzati
(secondo i criteri esposti nel § 2.2.), questi sono stati numerati
progressivamente e quindi classificati con l'apposizione di codici
derivati da uno specifico schema, utilizzato anche per la
classificazione delle unità bibliografiche di BID. Questi dati sono
stati raccolti in un archivio elettronico denominato MASTER, mentre in
un archivio separato, chiamato NOTE, sono stati via via registrati i
termini non accettati e le annotazioni particolari relative all'uso di
alcuni descrittori.
In una seconda fase del lavoro sono stati
individuati i principali rapporti, di tipo verticale (gerarchie
concettuali) e di tipo orizzontale (sinonimia, quasi-sinonimia e altre
relazioni di tipo associativo), esistenti trai diversi descrittori
selezionati; sono stati inoltre fissati i rinvii dai termini esclusi a
quelli accolti nel Thesaurus e i collegamenti tra alcune annotazioni
particolari registrate in NOTE e i descrittori cui esse si riferiscono.
Le relazioni tra i descrittori (compresi i rinvii e i collegamenti),
dopo essere state codificate, sono state inserite in un archivio
elettronico chiamato RELAT.
L'elaboratore elettronico, sulla base d'un insieme
di programmi appositamente redatti, ha effettuato una prima serie di
controlli sui tre archivi (MASTER, NOTE, RELAT), verificando
l'esattezza formale delle classificazioni e delle codificazioni cd
eliminando le eventuali duplicazioni di stringhe.
Successivamente, sulla base delle proprietà
preventivamente definite per gli operatori relazionali, l'elaboratore
ha sviluppato la rete di relazioni registrata in RELAT. Lo sviluppo
delle proprietà di reciprocità, simmetria e transitività di alcuni
operatori, da una parte, e il controllo, anch'esso automatico, della
proprietà di irriflessività e di altre proprietà rilevanti delle
strutture algebriche generate dalle reti di relazioni, dall'altra,
hanno permesso d'ampliare notevolmente il numero di rapporti
originariamente definiti e, nel contempo, di depurare il Thesaurus
dagli inevitabili errori. Particolarmente apprezzabile è stata
l'espansione automatica delle relazioni: le oltre 4.000 relazioni
inizialmente registrate in RELAT si sono più che raddoppiate mediante
l'applicazione della macchina e i dati così ottenuti sono stati
organizzati in un nuovo archivio, chiamato RELAT FILE ESPANSO.
Le relazioni gerarchiche verticali tra i termini
(individuate dall'operatore BT, Broader Term = Termine più ampio, e dal
suo reciproco NT, Narrower Term = Termine più ristretto) sono state
concepite come strutture algebriche alberiformi, le cui proprietà
formali sono state sviluppate e controllate automaticamente. Per ogni
insieme di catene gerarchiche aventi una stessa origine concettuale è
stato costruito un albero con un'unica radice e numerosi nodi intermedi
e finali; all'interno d'ogni albero s'è poi provveduto a controllare,
con l'ausilio della macchina, che non vi fossero salti di gerarchia nel
passaggio da un nodo all'altro (nelle catene BT/NT) e che ogni nodo
avesse un solo superiore gerarchico.
Le relazioni orizzontali di sinonimia,
quasi-sinonimia e associazione tra i termini (individuate
dall'operatore RT, Related Term = Termine associato, e sviluppate
automaticamente secondo le proprietà di simmetria e transitività
unidirezionale) sono state concepite come strutture algebriche
reticolari, non cicliche; anch'esse sono state controllate
automaticamente, onde evitare errori logici c ridondanze e, sempre con
l'ausilio della macchina, è stata verificata l'osservanza della regola
d'incompatibilità tra la relazione di BT e quella di RT per coppie
uguali di termini
Dell'elaboratore ci si è avvalsi, infine,
anche per organizzare graficamente la stampa dei numerosi indici e
liste di cuti il Thesaurus è composto nell'attuale edizione.
2.1. La raccolta e la selezione del materiale lessicale.
Il materiale lessicale di base utilizzato per
la preparazione del Thesaurus è tratto, oltre che dalle voci dello
Schema di classificazione predisposto per BID, dalle parole e locuzioni
utilizzate nei titoli e negli abstracts delle unità documentarie
raccolte nelle bibliografie specialistiche curate dall'Istituto per la
documentazione giuridica, in particolare nel Bollettino bibliografico
d'informatica generale e applicata al diritto (1972, 1973) e nella
Bibliografia internazionale d'informatica e diritto (1975-1982).
S'è provveduto a integrare questo materiale
lessicale consultando una serie di thesauri, dizionari, vocabolari,
glossari e soggettari relativi alle materie di specifico interesse
(informatica, diritto, scienza dell'informazione e della
documentazione, biblioteconomia, filosofia, cibernetica, logica,
linguistica, matematica, scienze politiche, economiche e sociali,
scienza dell'amministrazione, ecc.).
S'è in tal modo ottenuta una base lessicale composta
da alcune migliaia di termini; su di essa è stata svolta un'attenta
selezione in base a criteri non soltanto sostanziali, attinenti al
contenuto concettuale dei descrittori stessi, ma anche tecnici o
formali, in quanto collegati alle caratteristiche strutturali del
Thesaurus come strumento documentario. Tra i primi rientrano il grado
di significatività del termine nell'ambito della materia considerata,
la sua esattezza terminologica, la relativa frequenza d'uso, la
previsione sull'accettabilità da parte dell'utenza e la sua
collegabilità con altri termini precedentemente inclusi nel Thesaurus.
Criteri di selezione formale sono stati applicati
invece eliminando i descrittori ridondanti perché esprimenti lo stesso
concetto con forme solo morfologicamente o sintatticamente diverse (per
esempio, è stato eliminato «Macchine per scrivere», mentre è stato
conservato «Macchine da scrivere»), individuando i sinonimi in senso
stretto e rinviando dal termine non preferito a quello accolto (per
esempio, individuati i due sinonimi «Trattamento pensionistico» e
«Pensione», si è scelto d'indirizzare il lettore dal primo termine-non
preferito al secondo, invece accolto nel Thesaurus) e, infine,
sostituendo - quando lo si è ritenuto opportuno - due o più termini con
una locuzione che ne rappresenta il coordinamento (ad esempio,
«Regolamentazione del commercio» e «Limitazione del monopolio» sono
stati coordinati nell'unico descrittore «Regolamentazione del commercio
e limitazione del monopolio»).
Sempre nella fase di selezione sono stati
isolati i nomi propri, distinguendo quelli geografici da quelli
individuanti enti, istituti, associazioni, progetti, macchine,
programmi, sistemi informativi, ecc. I primi sono stati raccolti, dopo
essere stati normalizzati, nell'apposita Lista dei termini geografici,
i secondi sono stati invece registrati nella Lista delle sigle e
abbreviazioni solo quando per essi era nota la sigla o l'abbreviazione
corrispondente. Analogamente, in questa stessa lista, sono stati
registrati i concetti che nella letteratura tecnica si è soliti
esprimere con le corrispondenti sigle o abbreviazioni (per esempio:
KWOC = Key Words Out of Context).
Conclusa questa fase di selezione, i descrittori si sono ridotti a circa duemila.
2.2. La normalizzazione.
Una volta selezionato, il materiale lessicale
raccolto è stato normalizzato in ordine sia alla registrazione nel
Thesaurus (e quindi alle varie elaborazioni necessarie per la
preparazione e la stampa dei numerosi indici che lo compongono), sia
alle esigenze di reperimento automatico, mediante i descrittori
accolti, delle unità bibliografiche contenute nell'archivio in linea.
Il primo tipo di normalizzazione effettuato
riguarda la scelta delle varianti grafiche delle parole; il criterio
generalmente seguito è stato quello di preferire la forma più comune
(ad esempio, è stata preferita la forma "Teoria dei giochi" a quella
"Teoria dei giuochi").
Quanto all'uso dei segni d'interpunzione e dei
segni speciali, questo è stato limitato al massimo al fine d'evitare
problemi nell'ordinamento alfabetico delle liste: gli unici segni
utilizzati sono la virgola, l'apostrofo (per il genitivo sassone), il
trattino e le parentesi tonde. Di queste ultime, in particolare, ci si
è avvalsi per specificare l'ambito concettuale del descrittore (per
esempio: "Protezione dei dati (aspetti di diritto internazionale)").
Perla scelta del numero grammaticale (singolare o plurale) sono stati
adottati criteri indicativi e orientamenti di massima desunti dagli usi
linguistici della letteratura specialistica. Così la forma singolare è
stata preferita per i descrittori che indicano concetti astratti, come
qualità ("Rendimento dei sistemi di elaborazione elettronica dei
dati"), facoltà, attività ("Amministrazione", "Automazione"), scienze,
discipline e campi di studio ("Filosofia", "Logica", "Statistica").
Ugualmente è stato usato il singolare per i nomi collettivi, le
qualifiche professionali ("Programmatore", "Operatore") e gli organi
costituzionali dello Stato ("Parlamento", "Governo"), oltre che per
designare un'intera classe di elementi ("Ospedale", "Scuola", "Imposta
sul reddito").
S'è invece preferito il plurale per i termini
che individuano macchine, strumenti, oggetti fisici ("Calcolatori,
Elaboratori", "Terminali"), che designano i soggetti esercitanti le
professioni giuridiche ("Giudici", "Operatori del diritto") o che
riguardano le ripartizioni amministrative ("Regioni", "Comuni").
Come descrittori, inoltre, sono stati usati
solo sostantivi e locuzioni sostantivali; non sono stati quindi
utilizzati isolatamente verbi, aggettivi e avverbi.
Nei descrittori pluritermini sono stati
normalizzati la sequenza delle parole e l'uso di congiunzioni e
preposizioni.
2.3. La classificazione e la strutturazione.
Una volta effettuata la normalizzazione, a
ogni descrittore è stato assegnato un numero progressivo
d'identificazione di cui la prima cifra sta a indicare la provenienza
del descrittore stesso: la cifra '0' indica che si tratta d'un termine
non accettato nel Thesaurus, da cui vien fatto rinvio a un descrittore
accolto di significato affine; la cifra '1' segnala che la parola
chiave è stata estratta dallo Schema di classificazione; infine, la
cifra '2' individua quei termini provenienti da materiale lessicale
registrato nella Bibliografia o acquisito dalle opere di consultazione
utilizzate. L'attribuzione del numero d'identificazione a ciascun
descrittore ha consentito d'effettuare tutte le elaborazioni relative
al controllo, alla strutturazione e agli ordinamenti dei termini
operando su numeri e non su stringhe alfabetiche, coi notevole
vantaggio d'occupare minore spazio in memoria e di rendere più veloce
l'esecuzione dei programmi.
Successivamente i descrittori sono stati
classificati in base ai codici dello Schema di classificazione adottato
per BID. Sovente è stato necessario attribuire più codici al medesimo
descrittore, sia per coprire interamente la sua area semantica, sia per
esprimere i molteplici aspetti sotto cui esso può essere esaminato. II
raggruppamento dei descrittori per classi ha reso pia agevole il
successivo lavoro di strutturazione, cioè d'individuazione dei rapporti
semantici fra i termini, in quanto la creazione di classi di
descrittori concettualmente omogenei è valsa di per sé a delimitare
l'ambito di ricerca delle relazioni.
Com'è ormai prassi generalmente seguita nella
realizzazione dei rhesauri, la strutturazione dei descrittori è stata
basata su tre tipi di relazioni: le relazioni di preferenza, quelle di
gerarchia e quelle di associazione.
Le relazioni di preferenza sono indicate con
l'operatore US (USe = Usa) e col suo reciproco UF (Used For = Usato
per) e servono a rinviare da un non-descrittore a un descrittore e
viceversa (per esempio: "Catasto" US "Registri immobiliari"; "Registri
immobiliari" UF "Catasto"). Le relazioni di gerarchia vengono segnalate
dall'operatore BT (Broader Term = Termine più ampio) e dal suo
reciproco NT (Narrower Term = Termine più ristretto) e collegano
verticalmente tra loro i termini appartenenti alla stessa famiglia
semantica. Infine, le relazioni di associazione o affinità sono
espresse dal simbolo RT (Relaied Term = Termine associato) ed
evidenziano i rapporti di sinonimia, equivalenza ed associazione d'idee
tra i descrittori.
In particolare, le relazioni gerarchiche sono
state individuate con riferimento a regole logiche generali, a regola
sistematiche relative allo specifico sistema di classificazione
adoperato e a regole grammaticali.
Tra le prime hanno trovato ampio impiego: 1)
la regola in base alla quale un termine esprimente un concetto concreto
ha come superiore gerarchico il termine che designa il concetto
astratto corrispondente (per esempio: "Sistemi adattivi" BT
"Apprendimento e adattamento"); 2)la regola percuiiltermine specifico
èconsiderato di significato meno ampio rispetto al termine che
individua il genere (per esempio: "Appello" BT "Azioni e difese
processuali"); 3) il criterio secondo il quale sono considerati in
relazione di BT due termini concettualmente collegati tra loro da un
rapporto d'appartenenza (per esempio: "Diritti fondamentali" BT
"Diritto costituzionale"); infine, 4) la norma per cui il termine che
designa il prodotto o l'oggetto d'una attività rimanda, come suo
superiore gerarchico, al termine che indica l'attività corrispondente e
questo, a sua volta, al termine che individua il soggetto: così
"Abstracts" (prodotto dell'attività) ha per BT "Redazione di abstracts"
(attività), mentre "Investigazione criminale" (attività) ha per BT
"Polizia criminale" (agente).
Per quanto riguarda le regole sistematiche, ai
termini appartenenti a un livello inferiore dello schema di
classificazione sono stati assegnati come BT i termini appartenenti ai
livelli superiori dello schema stesso: per esempio, "Applicazione
dell'elaboratore nello sport" (voce dello Schema di classificazione cui
corrisponde il codice 5.1.4.) ha per BT "Applicazione dell'elaboratore
in aree specifiche" (voce 5.1.).
In molti altri casi hanno trovato invece
applicazione alcune semplici regole grammaticali. Così, ai descrittori
pluritermini costituiti da due sostantivi collegati tra loro con una
preposizione sono stati assegnati come superiori gerarchici tali
sostantivi o termini a essi affini (per esempio: "Sociologia del
diritto" BT "Sociologia" e BT "Scienza del diritto").
Le relazioni di tipo associativo tra i descrittori
sono state individuate facendo riferimento non solo alla vera e propria
associazione semantica (sinonimia ed equivalenza) tra i termini, ma
anche ai criteri, più discrezionali, dell'associazione d'idee. La
scelta d'estendere nel senso indicato lo sviluppo dei rapporti di RT è
stata motivata, da un lato, dall'esigenza di conferire al Thesaurus una
funzionalità precipua in ordine alla maggiore reperibilità possibile
dei dati pubblicati nella Bibliografia o registrati nell'archivio in
linea, dall'altro, dall'opportunità di contemperare il rigido
verticalismo concettuale delle liste gerarchiche e sistematiche con le
possibilità d'estensione orizzontale della ricerca documentaria che
sono offerte da questo tipo di collegamento tra i descrittori.
L'associazione tra sinonimi in senso stretto è stata
drasticamente limitata ai soli casi in cui l'accoglimento d'entrambi i
termini come descrittori risultasse giustificata dalla presenza di
precise condizioni oggettive (in particolare, l'uguale rilevanza e
diffusione nell'uso, pur nel rispetto delle diverse sfumature di
significato). Diversamente s'è fatto ricorso alle relazioni di
preferenza, rinviando dal termine non accettato al descrittore
registrato nel Thesaurus (US) e, reciprocamente, richiamando sotto
quest'ultimo il sinonimo respinto (UF). Esemplificando, sono stati
collegati in RT "Istruzioni-macchina" e "Istruzioni di programma", ma
da "Apparecchi di visualizzazione" s'è opportunamente rinviato (US) a
"Dispositivi di visualizzazione".
L'associazione tra quasi-sinonimi o equivalenti (per
esempio: "Processi di pianificazione informatizzata" RT "Automazione
dei processi di pianificazione") è stata invece impiegata largamente;
tra l'altro, in fase di preparazione dell'opera, alla più agevole ed
estesa individuazione di questo particolare tipo di relazione è
risultata funzionale la preventiva attribuzione dei codici di
classificazione ai descrittori.
Infine, rapporti di tipo associativo non semantico
(e quindi non riconducibili né alla sinonimia né all'equivalenza) sono
stati costruiti tanto all'interno d'uno stesso albero concettuale
quanto tra nodi d'alberi concettuali distinti. Un esempio del primo
tipo è il rapporto di RT tra "Controllo dei cittadini" e "Controllo
degli individui", descrittori entrambi appartenenti all'albero
concettuale che ha per radice il termine "Sociologia". Il rapporto
associativo tra "Mezzi di comunicazione di massa" e "Diffusione
dell'informazione" (il primo Top Term = Termine al vertice, il secondo
appartenente alla catena gerarchica che ha come suo vertice il termine
"Informazione") può essere invece considerato un esempio del secondo
tipo.
2.3.1. Gli archivi di lavoro
L'impiego dell'elaboratore elettronico per redigere
il Thesaurus richiede la predisposizione di appositi archivi di lavoro
e di particolari procedure; qui di seguito ci si limita invece a
fornirne una sintetica illustrazione, accessibile anche al lettore non
esperto di programmazione.
Nel primo dei files realizzati-denominato MASTER
FILE vengono registrate insieme le parole e le locuzioni estratte dallo
Schema di classificazione e quelle costituenti le parole chiave
inserite nei volumi bibliografici finora editi a cura dell'Istituto; di
questo archivio vengono poi elaborate elettronicamente la versione in
ordine alfabetico e quella in ordine numerico.
In un file distinto-denominato MASTER PERMUTATO
vengono registrati gli stessi termini immessi nel file precedente,
sottoposti a permutazione, cioè fatti ruotare con l'impiego d'una
routine di tipo KWOC (cfr. Indice KWOC nel § 2.4.).
Altro archivio di lavoro è il RELAT FILE. in cui
sono individuati alcuni tipi di relazioni tra i termini del MASTER FILE
e tra questi e quelli del NOTE FILE. Gli operatori di relazione
utilizzati nella registrazione dei dati sono espressi con le sigle BT,
RT, US, TT, HT, SC, DL. Gli operatori NT e UF vengono invece introdotti
automaticamente dalla macchina che li ricava per reciprocità dalle
relazioni di BT e US.
Un ultimo archivio di lavoro, denominato NOTE FILE,
è destinato a contenere due liste distinte. La prima di esse (Neg List)
riporta i termini non accolti nel Thesaurus, che rinviano-mediante
l'operatore relazionale US - ai termini ammessi; questa lista consente
d'ampliare le chiavi d'accesso al Thesaurus nei confronti dell'utente,
ma insieme fornisce al documentalista criteri non casuali e
progressivamente precisabili per una formazione tendenzialmente
controllata del patrimonio lessicale specialistico. In una seconda
lista (Scope Note Lisi) vengono registrate le definizioni in senso lato
di quelle parole o espressioni che non risultino di per se stesse
sufficientemente chiare o che siano state accolte in accezioni
particolari o parziali: essa quindi fornisce delucidazioni sul
significato di certi termini, indica in quale senso essi sono usati e
può anche segnalare relazioni con termini simili. La prima cifra dei
numeri d'identificazione delle due liste descritte è costituita,
rispettivamente, dallo 0 (Neg List) e dal 3 (Scope Note List).
La fusione degli archivi MASTER, PERMUTATO, RELAT e
NOTE è resa possibile dall'esistenza, come elemento di raccordo tra i
files, del numero d'identificazione dei termini.
La stampa del Thesaurus secondo le procedure di
lavoro illustrate consente d'ottenere le liste finali descritte nel §
2.4.
2.3.2. Il controllo e l'espansione automatica delle relazioni
In questa fase l'elaboratore, opportunamente
programmato, prende in esame le relazioni memorizzate nel RELAT FILE ed
effettua una serie di controlli ed espansioni in base alle proprietà
delle relazioni definite dagli Autori del Thesaurus. Qui di seguito si
presentano le principali proprietà delle relazioni e delle strutture
algebriche utilizzate.
Proprietà delle relazioni.
US = User
A US B: il termine A non è accettato nel Thesaurus; in luogo di esso si
consiglia d'adoperare il termine B. La relazione di US-definita (e
controllata dalla macchina) come irriflessiva, non simmetrica e
intransitiva-ha come relazione inversa (o reciproca) la relazione di
UF, che presenta le stesse proprietà di US.
UF = Used for
B UFA: il termine B è stato impiegato in sostituzione del termine A,
non accettato. La relazione di UF è sviluppata automaticamente, per
reciprocità, dalla relazione di US (x US y .y UF x).
TT = Top Term
A TT: il termine A viene definito come Top Term, qualora costituisca il
vertice d'una piramide concettuale o -impiegando una diversa
terminologia- la radice d'una struttura algebrica alberiforme.
L'elaboratore ha consentito di verificare che fossero definiti TT
soltanto i descrittori posti alla radice degli alberi e,
corrispondentemente, che nessuno di tali descrittori fosse rimasto
sprovvisto della definizione di 1T. La relazione di TT è monadica, ha
cioè un solo termine alla sua sinistra.
HT = Hcz cing Term
B HT: il termine B viene definito Nodal Heading, a condizione che esso
rappresenti un nodo concettualmente rilevante cui si colleghi un gruppo
consistente d'altri termini (non meno di 5). Anche la relazione di HT,
come quella di TT, è monadica.
SC - Scope R
A SC n: al termine A segue una nota (progressivamente numerata
nell'archivio NOIE, richiamata dal numero ' n ', composto di cinque
cifre, a destra di SC) che ne chiarisce il significato e l'uso. La
relazione di SC è biadica, irriflessiva, non simmetrica e intransitiva.
BT = BroaderTcrm ~
A BT B: il termine A ha come concetto gerarchicamente superiore il
termine B. Le proprietà della relazione di BT-anch'esse verificate
automaticamente-sono l'irriflessività, la non-simmetria e
l'intransitività. La relazione inversa (o reciproca) è la relazione di
NT che ha le stesse proprietà di BT.
NT = Narrower Term
B NT A: il termine B ha come inferiore gerarchico il termine A. La
relazione di NT è sviluppata automaticamente, per reciprocità, dalla
relazione di BT (x BT y-y NT x).
RT = Related Term
A RT B: il termine B è associato al termine A (e, simmetricamente, A è
associato a B) perché i due termini sono in un rapporto di sinonimia,
di quasi-sinonimia o di generica associazione. Alla relazione di RT
(anch'essa irriflessiva) vengono applicate automaticamente la proprietà
simmetrica e quella transitiva unidirezionale, per cui:
(simmetria)
xRT y -> x RT y, y RT x
(transitività unidir.)
X RT y ^ y RT z -> x RT y, y RT x, y RT z, z RT y x RT z, zRTx
ma
X RT y ^ z RT y -> x RT y, y RT x, z RT y, y RT z
Vengono inoltre effettuati dei controlli automatici
sull'incompatibilità fra la relazione di RT e quella di BT e controlli
"antiridondanza".
Per la redazione del Thesaurus, infine, ci si è
avvalsi d'un ulteriore operatore, denominato DL (Delete = Cancella);
esso ha consentito d'eliminare quelle relazioni di tipo RT che,
prodotte dall'espansione automatica, non sono state però giudicate
concettualmente accettabili. La relazione di DL - che ha le proprietà
dell'irriflessività, della simmetria e dell'intransitività - è stata
volta a volta registrata nell'archivio RELAT, ma avendo solo funzione
strumentale nella fase di compilazione della Lista alfabetica
strutturata, non è stata ovviamente riprodotta nella stampa del
Thesaurus.
INDICE KWOC
L'Indice KWOC consente di risalire dalle singole
parole componenti le locuzioni accolte nel Thesaurus alle locuzioni di
cui esse fanno parte. Si tratta d'un indice alfabetico costruito
secondo la tecnica degli indici KWOC: nella colonna di sinistra, in
esponente, sono elencati in ordine alfabetico i termini singoli, mentre
nella colonna di destra sono riportati i contesti (cioè le locuzioni)
da cui i termini stessi sono tratti.
La consultazione dell'Indice KWOC costituisce una
necessaria chiave d'accesso alla Lista alfabetica strutturata per chi
non conosca già la sequenza delle parole all'interno dei descrittori
pluritermini accolti nel Thesaurus.
LISTA ALFABETICA STRUTTURATA
La Lista alfabetica strutturata rappresenta la lista
principale del Thesaurus in quanto contiene, in ordine alfabetico,
tutte le parole chiave e le locuzioni esaminate (anche quelle non
accettate), con l'indicazione dei vari tipi di rapporti tra esse
intercorrenti. I descrittori sono seguiti, tra parentesi, dai
rispettivi codici di classificazione (in base ai quali sono ordinati
nella Lista dei descrittori ordinata per classi) e i rapporti tra loro
sono indicati mediante operatori relazionali codificati secondo l'uso
corrente illustrato nel § 2.3.
INDICE ALLA LISTA GERARCHICA
Nell'Indice alla lista gerarchica sono
disposti in successione alfabetica i singoli descrittori (parole o
locuzioni) del Thesaurus, integrati dall'indicazione dei codici di
classificazione ad essi corrispondenti; per ciascuno è segnalata la
radice dell'albero concettuale (o degli alberi) in cui esso è inserito.
La consultazione dell'Indice alla lista gerarchica
consente pertanto di risalire dal singolo descrittore al Top Term della
catena gerarchica cui esso appartiene.
ELENCO DEI TERMINI AL VERTICE (TT)
L'Elenco dei termini al vertice (TT) contiene
l'elenco dei descrittori che sono alla radice dei 52 alberi concettuali
in cui il Thesaurus è strutturato.
ELENCO DEI TERMINI NODALI (HT)
L'Elenco dei termini nodali (HT) è la lista dei 156
descrittori che, nella strutturazione degli alberi, rappresentano nodi
concettualmente rilevanti per il numero delle relazioni che da essi
dipendono (non meno di 5).
I descrittori sono raggruppati in due elenchi: nel
primo sono disposti secondo l'ordine alfabetico generale, con
l'aggiunta - tra parentesi -dell'indicazione del numero dei nodi che
dipendono da ciascuno; nel secondo sono divisi per gruppi in base al
numero delle relazioni ad essi connesse e all'interno d'ogni gruppo
sono ordinati alfabeticamente.
LISTA GERARCHICA
La Lista gerarchica contiene la descrizione della
struttura gerarchica generale del Thesaurus nella sua attuale edizione.
In questa lista il materiale lessicale complessivo è raggruppato e
organizzato in 52 alberi concettuali aventi per radici altrettanti
descrittori, considerati di rilevanza semantica generale (vedi Elenco
dei termini al vertice (TT)).
All'interno d'ogni albero il livello gerarchico è
rappresentato graficamente dal diverso numero di punti che precedono la
parola o l'espressione; pertanto, nella ricerca del superiore o
dell'inferiore gerarchico d'un determinato concetto, occorrerà scorrere
la lista fino alla riga individuata da un numero di punti
rispettivamente minore o maggiore d'una sola unità. In base allo stesso
criterio, al medesimo livello di gerarchia concettuale sono da
considerare i descrittori preceduti da un ugual numero di punti.
La consultazione della Lista gerarchica fornisce al
documentalista ette deve indicizzare una data unità bibliografica e
allo stesso utente della Bibliografia e dell'archivio BID una specie di
mappa del campo di conoscenza in cui si colloca l'argomento oggetto
d'esame o di ricerca; in base alle gerarchie di concetti indicate nella
lista è quindi possibile -a seconda delle esigenze-ampliare o
restringere l'analisi in modo sistematico, controllando validamente la
scelta dei termini per l'indicizzazione o il reperimento delle
informazioni.
SCHEMA DI CLASSIFICAZIONE
Lo Schema di classificazione adottato è uno schema
di tipo decimale che presenta il quadro di riferimento sistematico
delle materie e degli argomenti rilevanti nel campo dell'informatica
giuridica e del diritto dell'informatica. Ciascuna delle nove classi
generali di cui si compone - numerate dallo 0 a11'8 - è strutturata al
suo interno in sottoclassi, a loro volta gerarchicamente organizzate
secondo livelli di specificità gradualmente crescenti. A ogni voce
dello Schema di classificazione corrisponde un numero di codice a una o
più cifre, costruito in dipendenza della posizione gerarchica da essa
occupata nel sistema; il contenuto semantico relativo è definibile però
solo mediante un processo d'interpretazione sistematica che colleghi la
voce presa in considerazione con quelle via via più generali ad essa
connesse.
Gli elementi costitutivi dello Schema di
classificazione (codici di classificazione e voci corrispondenti),
riferiti a una specifica unità documentaria, consentono di collocarne
il contenuto all'interno d'un sistema organizzato di conoscenze.
Corrispondentemente, poiché alta struttura dello schema sono stati
collegati anche i singoli descrittori del Thesaurus con l'apposizione
dei relativi codici, sono resi possibili il rinvio biunivoco tra parole
chiave c codici di classificazione e una scomposizione analitica
dell'informazione tanto nella fase dell'indicizzazione quanto in quella
del reperimento.
LISTA DEI DESCRITTORI ORDINATA PER CLASSI
Nella Lista dei descrittori ordinata per
classi sono riprodotte le voci dello Schema di classificazione. Sotto
ogni voce sono elencati i termini dei Thesaurus ad essa attinenti,
eventualmente seguiti dall'indicazione tra parentesi degli altri codici
di classificazione sotto cui sono allo stesso modo raggruppati. I
termini sono elencati in due gruppi distinti, al loro interno
alfabeticamente ordinati: il primo gruppo comprende i descrittori
estratti dallo Schema di classificazione, mentre nel secondo sono
contenute tutte le parole o espressioni, registrate nel Thesaurus, che
non provengono dallo Schema di classificazione, bensì direttamente
dalla letteratura specialistica esaminata.
LISTA DEI TERMINI GEOGRAFICI
La Lista dei termini geografici contiene
l'elenco alfabetico dei nomi di Paesi (o di gruppi di Paesi
politicamente significativi) utilizzati nell'ambito della
documentazione esaminata per individuare le aree geografiche in cui si
svolgono determinate esperienze di ricerca o applicative. Tali nomi
sono riprodotti nella forma normalizzata, che è quindi vincolante per
l'indicizzazione c per chi ricerca le informazioni.
Quando il nome d'uno Stato è seguito da quello
d'una regione ad esso appartenente, i due nomi sono separati tra loro
mediante un trattino; i nomi di città sono invece indicati tra
parentesi dopo il numero dello Stato o della regione cui si riferiscono.
LISTA DELLE SIGLE E ABBREVIAZIONI (1 e 2)
La Lista delle sigle e abbreviazioni è
costituita dalle sigle ricorrenti nel campo dell'informatica giuridica
e dei diritto dell'informatica e dalle espressioni che di quelle sigle
rappresentano lo scioglimento; dei due elenchi che compongono la lista,
il primo è basato sull'ordine alfabetico delle sigle e il secondo su
quello delle espressioni ad esse relative.
Le abbreviazioni contenute tra parentesi,
quando seguono espressioni corrispondenti a nomi di istituti, enti,
associazioni, ecc., indicano il Paese (secondo la sigla automobilistica
internazionale) in cui essi hanno sede o, eventualmente, il loro
carattere internazionale (INT.); quando, invece, sono posposte a titoli
di riviste. guide, repertori e simili, indicano che si tratta di
pubblicazione (PUB.).
|