Informatica e diritto, XL Annata, Vol. XXIII, 2014, n. 1, pp. 181-192
Maria Vittoria Dell'Anna, Elisabetta Marinai, Francesco Romano, Jacqueline Visconti
Un corpus di documenti giuridici per il Nuovo Vocabolario dell'Italiano moderno e contemporaneo
A corpus of legal documents for the new dictionary of the modern and contemporary Italian
Il contributo si inquadra nell'ambito del Progetto di ricerca di
rilevante interesse nazionale "Corpus di riferimento per un Nuovo
Vocabolario dell'Italiano moderno e contemporaneo. Fonti documentarie,
retrodatazioni, innovazione" che ha come obiettivo finale la fondazione di
una lessicografia italiana di nuovo impianto che, diversamente dalla
tradizione, si deve basare su spogli di corpora bilanciati, con larga
presenza di lingua non letteraria. In particolare si intende dare conto
del lavoro e delle prime ipotesi progettuali dei ricercatori incaricati di
selezionare un corpus di documenti giuridici che vada ad integrare proprio
la parte del corpus dell'italiano non letterario. Il contributo rende
conto anche di alcune problematiche informatiche che il gruppo di lavoro
dovrà affrontare: digitalizzazione di documenti cartacei,
standardizzazione nel formato XML TEI previsto dal progetto, bilanciamento
all'interno del corpus giuridico e nell'intero corpus progettuale.
The present research work was carried out within the PRIN Project "A Reference Corpus for a New Dictionary of Modern and Contemporary Italian. Databases, backdating, innovations", which has as final goal the constitution of a new Italian lexicography that, unlike the tradition, will be based on the examination and scrutiny of balanced corpora, with great presence of non-literary language. In particular, this article provides an account of the preliminary research work and hypotheses of the research group working on the collection of a database of legal texts, which will complement the non literary section of the corpus. The contribution also outlines some problems that the group will have to tackle: digitization of paper documents, standardization into XML TEI format, balancing within both the legal and the whole database.