Vai al contenuto

LA CODIFICA

Ultimo aggiornamento: ottobre 2025

La presente sezione espone i principi metodologici adottati per la codifica e descrive i fenomeni testuali marcati nell’ambito del progetto LiDi 1.0, finalizzato alla creazione di un prototipo di edizione digitale. La codifica è stata eseguita seguendo le raccomandazioni della Text Encoding Initiative (TEI).

La TEI è un consorzio internazionale che ha sviluppato uno standard ampiamente utilizzato in ambito umanistico per la rappresentazione digitale dei testi. Le Guidelines for Electronic Text Encoding and Interchange definiscono un linguaggio di markup basato su XML, articolato in numerosi elementi strutturali e semantici.
Questi elementi sono organizzati in moduli flessibili e personalizzabili, consentendo a ciascun progetto di adattare la codifica alle proprie esigenze specifiche.

1.  Principi generali

  • L’obiettivo principale in questa fase del progetto è stato testare i limiti e le potenzialità di Transkribus come ambiente di annotazione e produzione di documenti TEI, riducendo al minimo gli interventi di post-produzione.
  • La definizione del modello di codifica è stata condotta parallelamente all’annotazione del testo e alla valutazione delle opzioni di esportazione presenti in Transkribus.
  • Nonostante la TEI preveda moduli specifici per l’annotazione di tipologie di testi, quali dizionari, non esiste una metodologia formalizzata per i testi enciclopedici.
  • Non è stato prodotto uno schema formale di validazione, trattandosi di una fase sperimentale; sarà però consigliabile definirlo in una fase matura del futuro progetto Ligorio Digitale.
  • Per l’esportazione da Transkribus, è stato selezionata l’opzione che utilizza la trasformazione XSL denominata page2tei, sviluppata da Dario Kampkaspar, integrandola con modifiche specifiche per le esigenze del progetto.

Le seguenti convenzioni vengono adottate per la presentazione del modello di codifica:

  • <nome elemento> per identificare gli elementi XML

  • @nome attributo per gli attributi XML

Per i principi base della TEI si rimanda alla documentazione ufficiale: https://tei-c.org/release/doc/tei-p5-doc/en/html/SG.html

2. Il <teiHeader>

Il <teiHeader>corrisponde all’intestazione del manoscritto digitale e raccoglie i metadati fondamentali: informazioni sulla provenienza del documento, la pubblicazione, le responsabilità editoriali e una descrizione sintetica del volume.
Non è stato compilato direttamente in Transkribus, poiché i campi offerti dalla piattaforma sono troppo limitati. Viene invece generato in fase di esportazione e successivamente completato secondo la struttura definita dal progetto.

Di seguito si propone il template del <teiHeader> elaborato per il prototipo, corredato da istruzioni interne ai tag di commento (<!-- … -->) che guidano nella compilazione:

📂 Mostra TEI Header
<TEI xmlns="http://www.tei-c.org/ns/1.0">
   <teiHeader xml:lang="it">
      <fileDesc>
         <titleStmt>
            <title><!-- Titolo dell’edizione digitale --></title>
            <author>Pirro Ligorio</author>
            <principal><!-- Nome della persona responsabile dell'edizione digitale--></principal>
            <!-- Inserire tanti <sponsor> o <funder> quanti ce ne sono progetto-->
            <sponsor><!--Istituto sponsor del progetto --></sponsor>
            <funder><!--Persona, istituto, o contributo che ha finanziato il progetto --></funder>
            <!-- Inserire tanti <respStmt> a seconda di quanti sono i curatori-->
            <respStmt>
               <name><!--Nome del curatore--></name>
               <!--Inserire tanti <resp> a seconda delle responsabilità assunte dal curatore: segmentazione, trascrizione, revisione, codifica_tk, codifica_xml, postproduzione, publicazione-->
               <resp><!--Tipo di responsabilità secondo il vocabolario definito --></resp>
            </respStmt>
         </titleStmt>
         <editionStmt>
            <ab>Prototipo versione Lidi 1.0</ab>
         </editionStmt>
         <publicationStmt>
            <publisher><!--Fornire il nome dell'istituto responsabile per la pubblicazione--></publisher>
            <date><!--Data di pubblicazione: yyyy-mm-dd--></date>
            <availability>
               <licence><!--Tipo di licenza (es. CC BY-SA)--></licence>
            </availability>
            <idno type="DOI"><!--Inserire DOI--></idno>
            <idno type="ID"><!--Inserire identificativo volume--></idno>
         </publicationStmt>
         <seriesStmt>
            <title>Enciclopedia delle Antichità</title>
            <biblScope unit="volume" n=""/>
<biblScope unit="libro" n=""/> </seriesStmt> <notesStmt> <!--Inserire tanti <note> a seconda delle necessità --> <note><ab><!--Inserire una note se necessario per spiegare aspetti particolari del documento --></ab></note> </notesStmt> <sourceDesc> <msDesc> <msIdentifier> <settlement>Torino</settlement> <repository>Archivio di Stato di Torino</repository> <idno><!--Segnatura del manoscritto: segnatura--></idno> </msIdentifier> <msContents> <ab><!--Abstract del manoscritto--></ab> </msContents> <physDesc><!--Descrizione fisica del manoscritto--></physDesc> </msDesc> </sourceDesc> </fileDesc> <encodingDesc> <projectDesc><ab><!--Scopo dell’edizione digitale e altre informazioni rilevanti sul processo--></ab></projectDesc> <editorialDecl><ab><!--Dettagli dei principi editoriali e pratiche applicate durante la codifica--></ab></editorialDecl>
<!--Definizione della tassonomia per la descrizione delle immagini--> <classDecl> <taxonomy xml:id="iconclass"> <bibl> <title>ICONCLASS</title> <ref target="http://iconclass.org/">http://iconclass.org/</ref> </bibl> </taxonomy> </classDecl> </encodingDesc> <profileDesc> <langUsage> <language ident="it">Italiano</language> <language ident="la">Latino</language> <language ident="gr">Greco</language> </langUsage> </profileDesc> <revisionDesc><!-- Inserire un <change> per ogni tipo o gruppo di cambiamenti fatti al documento dopo l'esportazione da Transkribus--> <change when="" who=""><!-- Inserire una descrizione dei cambiamenti fatti specificando @when e @who--></change> </revisionDesc> </teiHeader> </TEI>

In particolare, per la sezione <respStmt> è stato definito un vocabolario controllato che distingue le diverse tipologie di intervento. In prospettiva di un progetto più ampio, ciascun responsabile potrà essere identificato con un codice univoco tramite l’attributo @xml:id. Ciò permette di richiamare questi identificativi in vari punti del documento, ad esempio nella sezione <revisionDesc>, per attribuire con precisione i cambiamenti effettuati.
La sezione <sourceDesc> raccoglie le informazioni bibliografiche sulla fonte da cui è stato tratto il testo digitalizzato. Questi dati sono organizzati attraverso l’elemento <msDesc>, previsto dal modulo TEI “manuscript description”, pensato per documentare in dettaglio le fonti manoscritte primarie. In particolare:

  • <msIdentifier> registra la collocazione e la segnatura del manoscritto;
  • <msContents> descrive i contenuti intellettuali dell’opera;
  • <physDesc> illustra le caratteristiche materiali del supporto.


Nel <encodingDesc>  invece è stata integrata la tassonomia ICONCLASS, standard internazionale per la classificazione e il recupero delle immagini secondo soggetti iconografici, così da garantire una cornice semantica condivisa per la descrizione dei disegni presenti nel manoscritto.

La sezione <profileDesc> definisce invece le lingue principali utilizzate nel documento, associando a ciascuna un codice identificativo (@ident) secondo lo standard ISO 639.

3. Il <facsimile>

Subito dopo il <teiHeader> è inserito l’elemento <facsimile>, secondo il modulo TEI per la rappresentazione delle fonti primarie.
Questo elemento è necessario per collegare il testo digitale alle immagini del manoscritto, consentendo di stabilire con precisione la corrispondenza tra trascrizione e facsimile.
Le informazioni contenute nel <facsimile> vengono generate automaticamente durante l’esportazione.

4. La marcatura della struttura

Il <text> rappresenta il corpo principale del file XML.
All’interno si trova il <body>, che contiene la trascrizione del manoscritto organizzata in partizioni logiche.
Queste suddivisioni sono state definite dopo un’analisi dettagliata del volume in esame e di altri volumi dell’Enciclopedia, con l’obiettivo di rendere il testo navigabile e coerentemente strutturato.

Per ottenere la suddivisione logica desiderata, è stato necessario innanzitutto rivedere e segmentare le regioni direttamente in Transkribus.
Queste regioni sono poi state marcate tramite tag strutturali, già presenti in Transkribus o creati ad hoc per il progetto.
Alcune elementi strutturali vengono invece generati automaticamente al momento dell’esportazione in XML-TEI.

Tag generati automaticamente in esportazione:

  • <div> → suddivide il testo in unità logiche.
    Per rendere più chiara la struttura, a ciascun <div> è stato associato l’attributo @type, che distingue le diverse sezioni del testo ( main; entry; subentry) e un attributo @xml:id, per garantire un’identificativo stabile. Inoltre, per assicurarsi che tutti gli elementi strutturali di una stessa voce venissero inclusi nello stesso <div>, è stata utilizzata anche la funzionalità di relazioni (links) prevista da Transkribus per i tag strutturali. Senza tale accorgimento, infatti, l’esportazione avrebbe generato una divisione separata per ogni singola regione di testo.

  • <pb/> → segna le interruzioni di pagina

  • <lb/> → indica l’inizio delle linee

Tag marcati in Transkribus:

Fenomeno strutturale

Tag Transkribus predefinito

Tag Transkribus personalizzato

Output TEI

Elemento TEI

Numero di pagina

Page-number

<fw type=”page-number”place=”top”>Numero di pagina </fw>

<fw> (form work): con l’attributo @type che ne specifica la funzione e @place che indica la posizione.

Titolo principale/ Titoli voci e sottovoci

Heading

<head>Titolo</head>

<head> (heading)

Titolo corrente

Header

<fw type=”running-head” place=”top” >Titolo corrente</fw>

<fw> (form work):con l’attributo @type che ne specifica la funzione e @place che indica la posizione.

Disegni

Caption

<figure>

<figDesc></figDesc></figure>;

<figure><figDesc></figDesc><ab>Testo in figura </ab></figure>

<figure> (figure);<figDesc>(figure description)

Sezioni di testo

  

<ab></ab>

<ab> (anonymous block)

Sezioni di testo continue

ab-continued

<ab></ab>

<ab> (anonymous block)

Elementi al margine

Marginalia

<note place=”margin-right”>Testo sul margine destro</note>;

<note> (note): con l’attributo @place che indica la posizione (es. margin-right;margin-left)

5. Marcatura del contenuto

Se la marcatura strutturale consente di suddividere il testo in unità logiche e gerarchiche, la marcatura del contenuto interviene invece a livello testuale.
Grazie a questo livello è possibile:

  • riconoscere e descrivere fenomeni linguistici e grafici, come incertezze, aggiunte o cancellature, direttamente all’interno della trascrizione;

  • annotare fenomeni semantici, come citazioni, nomi di persone, luoghi o oggetti, che possono essere messi in relazione con informazioni esterne e reti di dati aperti (linked data) per arricchire e contestualizzare il testo.

In Transkribus, questa annotazione si realizza attraverso i tag testuali, che possono essere applicati direttamente a parole o frasi e arricchiti da proprietà.
Alcuni tag sono già predefiniti nel software, altri sono stati creati appositamente per il progetto. Il nome del tag creato in Transkribus corrisponde sempre al nome dell’elemento TEI di destinazione (a meno che non venga diversamente specificato).
Le proprietà associate ai tag in Transkribus vengono invece convertite, in fase di esportazione, negli attributi TEI dell’elemento corrispondente.

Fenomeni grafici: 

  • Aggiunte<add>

  • Parole incerte<unclear>

Fonti letterarie e citazioni:

Per la marcatura delle fonti citate da Pirro Ligorio.
Sono stati creati due tag specifici:

  • <bibl> → citazioni bibliografiche

  • <quote> → passaggi testuali riportati

Entrambi possono contenere la proprietà @source, che in esportazione diventa un collegamento verso un documento TEI esterno: l’Elenco delle citazioni bibliografiche.
Questo file raccoglie liste di autorità con identificativi univoci (@xml:id), evitando ripetizioni e varianti (es. “Stephano Byzantio” / “Stephano grammatico”).

Grazie all’attributo @sameAs, i riferimenti possono essere collegati anche a repertori esterni come Wikidata o VIAF, favorendo l’interoperabilità.

Persone e Luoghi:

Per le entità nominate nel testo sono stati introdotti due tag:

  • <persName> per gli antroponimi (tag “person” in Transkribus)

  • <placeName> per i toponimi (tag “place” in Transkribus)

Entrambi sono dotati di un attributo @ref, che rimanda a documenti TEI esterni:

  • Elenco delle persone (autori e figure storiche)

  • Elenco dei luoghi (geografia antica e moderna)

Ogni voce è descritta in modo normalizzato e, quando possibile, collegata a repertori di autorità esterni (es. Wikidata, Pleiades).

Oggetti:

Per gli oggetti d’arte citati da Ligorio è stato usato il tag:

  • <seg>

L’attributo @type specifica che si tratta di un oggetto mentre, @subtype permette di distinguere le tipologie:

  • monument

  • coin

  • inscription

  • sculpture

Per le iscrizioni è stata aggiunta anche la proprietà @xml:lang, che registra la lingua (es. latino o greco).
Quando disponibile, un ulteriore attributo @source collega direttamente al database Census of Antique Works of Art and Architecture.

Divinità e allegorie:

Le figure divine e allegoriche, con i loro epiteti, sono state marcate con:

  • <rs type="all_god">

Questo consente di distinguere e recuperare facilmente tutte le occorrenze legate a divinità o personificazioni.

Riferimenti incrociati interni:

Per i richiami che Ligorio inserisce all’interno del testo è stato introdotto il tag:

  • <ptr target="#id">

L’attributo @target rimanda all’identificativo di un’altra sezione (<div>) dello stesso volume o di altri volumi dell’Enciclopedia.
Nei casi in cui è necessario indirizzare come destinazione del link punti del testo specifici, vengono utilizzati i tag <anchor/> contrassegnato dal relativo @xml:id.

In prospettiva, questo sistema permetterà di costruire una rete di rimandi intertestuali navigabile.

Post produzione dei file TEI:

Per ottenere file TEI coerenti con le esigenze metodologiche e scientifiche del progetto, è stata necessaria anche una fase di post-produzione in Oxygen, a seguito della trasformazione XSL ottenuta.

Le operazioni principali hanno riguardato:

  • Correzioni automatiche (Find/Replace in Oxygen):

    • sostituzione di simboli provvisori (es. denario, sesterzio) con i corrispondenti codici Unicode;

    • sostituzione dei trattini di fine riga con <lb break="no"/>, per garantire la corretta ricerca delle parole spezzate.

  • Integrazioni manuali:

    • attribuzione dei valori di @type e degli identificativi univoci (@xml:id) ai <div>;

    • compilazione del <teiHeader>;

    • aggiunta dei valori ai <ptr/>, resasi necessaria perché in Transkribus non erano ancora stati definiti gli @xml:id delle sezioni.

In prospettiva, quest’ultima operazione potrà essere svolta direttamente in Transkribus, poiché i valori associati ai <div> sono definibili a priori.