Vai al contenuto

LA TRASCRIZIONE

Ultimo aggiornamento: ottobre 2022

1.Individuazione del documento da trascrivere

Per questo progetto la trascrizione si concentrerà su alcuni nuclei dell’Enciclopedia dell’Antichità di Pirro Ligorio ordinata alfabeticamente e conservata all’Archivio di Stato di Torino, scelti per la significatività dei dati strutturali o dei contenuti.
Il documento di riferimento principale è il volume XV (libro XVII) che comprende tutta la lettera R.
I 18 volumi manoscritti che compongono l’Enciclopedia sono disponibili online tramite la Digital Library dell’Archivio di Stato di Torino.

2.Le piattaforme HTR:

Le più note sono eScriptorium e Transkribus.

I motivi per cui preferire l’uso di piattaforme HTR per la trascrizione di documenti:

  • Hanno un’interfaccia di facile uso anche per gli umanisti.
  • Possono essere usati per scritti di natura e lingua differente.
  • L’immagine del documento e lo spazio di trascrizione o editor di testo sono affiancati.
  • Permettono di evidenziare la linea che si sta trascrivendo riducendo significativamente la possibilità di errore grazie alla segmentazione (manuale o automatica). La segmentazione consiste nell’identificare sull’immagine di un testo le regioni di testo o text region e le linee o baseline.
  • Forniscono una tastiera virtuale con simboli e caratteri speciali.
  • Permettono di lavorare in gruppo su uno stesso documento.
  • Con gli strumenti di ricerca si possono cercare parole trascritte nel documento (keyword spotting).
  • Permettono di scegliere tra una trascrizione manuale o automatica che consente tramite la tecnologia HTR il riconoscimento del testo (solo dopo aver trascritto a mano un certo numero di pagine sul quale far allenare la macchina neurale).
  • È possibile esportare il testo in più formati (PDF, Word, XML ecc.).

Lo scopo di questo progetto è sperimentare le potenzialità di una piattaforma HTR, anche per la natura della ricerca che auspica ad analizzare più livelli del testo. Queste piattaforme, infatti, sono integrate con una serie di strumenti che non solo facilitano la trascrizione, ma permettono l’annotazione di metadati per la realizzazione di edizioni digitali molto complesse.

3.Transkribus

Transkribus è una piattaforma per la digitalizzazione, il riconoscimento del testo e il riconoscimento della struttura dei documenti storici basata sull’AI. È stata creata nell’ambito del progetto UE Horizon 2020 “READ” da un consorzio di gruppi di ricerca guidato dall’Università di Innsbruck.

È possibile avere maggiori informazioni su Transkribus, scaricare il software e imparare ad usare tutte le sue funzioni sul loro sito.

La scelta di questa piattaforma è collegata alla collaborazione con la Bibliotecha Hertiziana che sostiene Transkribus per la creazione della sua biblioteca digitale offrendo poi questo strumento al progetto Ligorio Digitale.
In particolare, per questo progetto di ricerca è stato svolto uno stage presso la biblioteca sotto la guida di Elisa Bastianello, Digital Pubblications Manager della Bibliotecha Hertiziana.

Ciò non ha escluso la sperimentazione della piattaforma HTR Escriptorium tramite la partecipazione ad un workshop organizzato dalla Biblioteca Nazionale francese, a Parigi. A seguito di alcune valutazioni e per motivi legati a competenze e mezzi tecnici richiesti per l’utilizzo della piattaforma Escriptorium, la scelta della piattaforma HTR per questo progetto è ricaduta su Transkribus.

4.Installazione della piattaforma e creazione di un account 

Creazione della collezione
ID 128439 Enciclopedia del mondo antico – Pirro Ligorio.

Caricamento immagini del documento sulla piattaforma
ID 855487 Enciclopedia del mondo antico R (15) – 450 pagine.

5.Rilevamento della struttura del testo o Layout Analysis

Per trascrivere un documento in Transkribus si deve prima fare la segmentazione in regioni di testo (text region) e linee di base (baseline). Infatti affinché l’HTR funzioni il testo e l’immagine devono essere collegati.
Nel nostro caso si è scelto di non fare subito la segmentazione automatica del documento intero, ma di procedere a blocchi di pagine. Ciò permette di porre maggiore attenzione alla fase di controllo e correzione, a seguito della segmentazione automatica, in cui bisogna assicurarsi che tutto il testo sia stato inserito in una regione di testo.
Inoltre per facilitare la trascrizione si è deciso di creare più regioni di testo laddove sono presenti iscrizioni o immagini con testo. 
Successivamente si passa al controllo delle linee per cui potrebbe essere necessario questo tipo di correzioni:

  • unire due linee con il tasto merge qualora ve ne sia più di una su una stessa riga di testo.
  • nel caso dell’aggiunta di una o più parole su una riga da parte dell’Autore dividere le linee , creare poi l’interlinea dove si trova il testo aggiunto e ristabilire il corretto ordine di lettura (questa è un’operazione che la segmentazione non fa automaticamente).

Correggere l’ordine di lettura delle regioni di testo e delle linee non è rilevante per l’addestramento di un modello, ma si è preferito stabilire un corretto ordine di lettura per anticipare un lavoro utile alla creazione dell’edizione digitale.

6.Definizione dei criteri di trascrizione e inizio della trascrizione

La prima parte di questa fase consiste nel trascrivere manualmente il numero di pagine richieste da Transkribus (circa 75 pagine) per iniziare ad addestrare la macchina neurale al riconoscimento automatico del testo. 
Per gestire la trascrizione si è cercato di rimanere più fedeli possibile alla scrittura di Pirro Ligorio. 

Criteri di trascrizione: 

  • Normalizzazione della “V” in “U”, tranne che nelle iscrizioni latine;
  • In caso di parole su cui non si è sicuri della corretta trascrizione usare il tag “Unclear”;
  • Se una parola risulta illeggibile segnarla tramite tre punti (…) e il tag “Unclear”;
  • Uso dell’angle dash (presente nella tastiera virtuale di Transkribus) al posto del trattino per la divisione in sillabe delle parole a fine riga;
  • Mantenimento dei segni diacritici e della punteggiatura così come usati dall’Autore;
  • Resa del maiuscoletto con il maiuscolo.

L’utilizzo del tag “Unclear” è fondamentale in fase di addestramento del modello poiché permette di escludere le parole non chiare. Laddove è presente il tag unclear in fase di allenamento il programma è programmato per  escludere l’intera linea.

Si noti che questi criteri di trascrizione hanno come fine la sola creazione del modello di trascrizione automatica e potrebbero variare per l’edizione digitale.

7.Trascrizione della voce Ravenna

A seguito della trascrizione della voce Ravenna (pagine 20-44, secondo la numerazione usata in Transkribus e di cui ci si avvalerà da ora in avanti in questo documento), dal quale è iniziato il nostro lavoro, composta da 25 pagine è stato possibile operare degli accorgimenti per migliorare la fase di trascrizione e riscontrare le eventuali difficoltà nell’uso della piattaforma.
Per esempio all’interno della tastiera virtuale mancavano dei simboli usati dall’Autore. È possibile inserire nuovi simboli e caratteri speciali dal pulsante edit sulla tastiera inserendo il loro Unicode. Oppure si possono inserire gruppi di Unicode modificando il file virtualKeyboards.xml presente all’interno della cartella Transkribus.

Alcuni dei simboli aggiunti per questo progetto:

Nel caso dei simboli appartenenti al gruppo ancient symbols (serie:10190–101CF) si  sono però riscontrati degli errori.
Nonostante la tastiera riconosca il simbolo, in fase di trascrizione  questi non vengono correttamente visualizzati. Ciò si può notare per i simboli del sesterzio romano e del denario romano (nell’immagine riga 3-3; 3-5; 3-6).


Si è tentato quindi di modificare il font utilizzato nella piattaforma ricercando quello che potesse leggere questi unicode come il font Junicode o il New Athena. Una soluzione che in questo caso non ha funzionato. Poiché non è stato possibile trovato altro modo all’interno di Transkribus si è optato quindi per sostituire quei simboli con altri – da un gruppo unicode che siamo sicuri non verrà mai usato nel nostro testo – e allenare il modello così. In questo caso si sono scelti dei simboli dal gruppo unicode Astronomical Symbols, già presente in Transkribus, per sostituire il denaro e il sesterzio romano:

𐆘 – ☿  

𐆖 – ♀

Essendo previsto di lavorare successivamente sul documento in formato XML si provvederà in quella circostanza a sostituire nuovamente questi simboli con quelli realmente usati nel testo. Si è comunque segnalato il problema al team di Transkribus.

Ancora, trascrivendo la voce Ravenna, si è notato che rendere il maiuscoletto con il maiuscolo non è sempre possibile per la difficoltà nel riconoscerlo in alcune lettere, ad esempio: L, O, S, Q.
E anche che i segni diacritici usati nella scrittura greca risultavano poco comprensibili.

Per questo motivo si è resa necessaria la modifica dei criteri di trascrizione.

8.Modifica dei criteri di trascrizione

  • Normalizzazione della “V” in “U”, tranne che nelle iscrizioni latine;
  • In caso di parole su cui non si è sicuri della corretta trascrizione usare il tag “Unclear”;
  • Se una parola risulta illeggibile segnarla tramite tre punti (…) e il tag “Unclear”;
  • Uso dell’angle dash (presente nella tastiera virtuale di Transkribus) al posto del trattino per la divisione in sillabe delle parole a fine riga;
  • Mantenimento dei segni diacritici e della punteggiatura così come usati dall’Autore tranne per le parti in lingua greca;
  • Laddove non si distingua l’uso di maiuscolo e maiuscoletto, si trascrive seguendo le norme grammaticali della lingua italiana (ad esempio, gli articoli determinativi la, le sono stati trascritti in maiuscolo se preceduti da un punto; San e Santo sono stati trascritti con la S maiuscola; la città di Classe in maiuscolo; la parola colonia in minuscolo ecc.).