Informatica e diritto, XL Annata, Vol. XXIII, 2014, n. 1, pp. 181-192

Maria Vittoria Dell'Anna, Elisabetta Marinai, Francesco Romano, Jacqueline Visconti

Un corpus di documenti giuridici per il Nuovo Vocabolario dell'Italiano moderno e contemporaneo

A corpus of legal documents for the new dictionary of the modern and contemporary Italian

Il contributo si inquadra nell'ambito del Progetto di ricerca di rilevante interesse nazionale "Corpus di riferimento per un Nuovo Vocabolario dell'Italiano moderno e contemporaneo. Fonti documentarie, retrodatazioni, innovazione" che ha come obiettivo finale la fondazione di una lessicografia italiana di nuovo impianto che, diversamente dalla tradizione, si deve basare su spogli di corpora bilanciati, con larga presenza di lingua non letteraria. In particolare si intende dare conto del lavoro e delle prime ipotesi progettuali dei ricercatori incaricati di selezionare un corpus di documenti giuridici che vada ad integrare proprio la parte del corpus dell'italiano non letterario. Il contributo rende conto anche di alcune problematiche informatiche che il gruppo di lavoro dovrà affrontare: digitalizzazione di documenti cartacei, standardizzazione nel formato XML TEI previsto dal progetto, bilanciamento all'interno del corpus giuridico e nell'intero corpus progettuale.

The present research work was carried out within the PRIN Project "A Reference Corpus for a New Dictionary of Modern and Contemporary Italian. Databases, backdating, innovations", which has as final goal the constitution of a new Italian lexicography that, unlike the tradition, will be based on the examination and scrutiny of balanced corpora, with great presence of non-literary language. In particular, this article provides an account of the preliminary research work and hypotheses of the research group working on the collection of a database of legal texts, which will complement the non literary section of the corpus. The contribution also outlines some problems that the group will have to tackle: digitization of paper documents, standardization into XML TEI format, balancing within both the legal and the whole database.

vai al testo integrale / see full text