LA CREAZIONE DEL MODELLO HTR
Ultimo aggiornamento: novembre 2022
- Impostazioni dei criteri per la creazione del primo modello Pylaia
- Impostazione dei criteri per la creazione del primo modello CITlab HTR+
- Risultati e scelta del modello
- Generazione della trascrizione con il modello Ligorio 0.1 HTR
- Creazione del secondo modello HTR
- Risultati e scelta del modello
- Creazione del terzo modello HTR
Corretta la trascrizione della voce Ravenna secondo i nuovi criteri, si è proseguito con la trascrizione di altre pagine del volume R (pagine 1-19; 45-77), poi revisionate e segnate con lo stato di Ground Truth: pagine dattiloscritte che hanno il solo scopo di essere adatte all’addestramento HTR.
Transkribus supporta due motori di riconoscimento del testo scritto: PyLaia e CITlab-HTR+.
I due motori lavorano in modo simile, la differenza è che in PyLaia si possono impostare un maggior numero di parametri, utile per chi è più esperto del funzionamento delle macchine neurali, mentre HTR+ solitamente da risultati migliore quando si hanno linee di testo curve o ruotate.
Si è optato per provarli entrambi.
Impostazione dei criteri per la creazione del primo modello PyLaia
- Inserimento del Model Name: Ligorio 0.1
- Inserimento della description: Modello di riconoscimento dei manoscritti dell’Enciclopedia del mondo antico di Pirro Ligorio.
- Impostazione della lingua: Italiano, Latino e Greco.
Esclusione delle linee con il tag Unclear. - Transcription version: Ground Truth only (da pagina 1 a 77).
- Impostazione del validation set al 10%.
Impostazione dei criteri per la creazione del primo modello CITlab-HTR+
- Inserimento del Model Name: Ligorio 0.1 HTR.
- Inserimento della description: Modello di riconoscimento dei manoscritti dell’Enciclopedia del mondo antico di Pirro Ligorio.
- Impostazione della lingua: Italiano, Latino e Greco.
- Esclusione delle linee con il tag Unclear.
- Transcription version: Ground Truth only (da pagina 1 a 77).
- Impostazione del validation set al 10%.
Risultati e scelta del modello
In base ai dati ottenuti, sia per il CER (tasso di errore) del Train Set che per il Validation Set (il valore più significativo in quanto mostra come la macchina neurale si comporta su pagine su cui non è stato addestrato) il modello più accurato risulta essere: Ligorio 1.0 HTR
Nota che i risultati con un CER di 10% o inferiore possono essere considerati molto efficienti per la trascrizione automatica.
Generazione della trascrizione con il modello Ligorio 0.1 HTR
- Controllo della segmentazione delle pagine (secondo i criteri esposti nella sezione “Rilevamento delle regioni di testo o Layout analysis”).
- Generazione della trascrizione.
È importante, in fase di scelta dei criteri per la generazione automatica del testo, impostare i due campi: Keep originale line polygons e Enable Keyword spotting.
- Correzione della trascrizione generata secondo i criteri di trascrizione sopra descritti.
Questo modello è stato usato per trascrivere le pagine dalla 104 alla 120.
Creazione del secondo modello HTR
Dopo aver impostato le nuove pagine trascritte e revisionate (fino a pagina 120) con lo status di Grund Thruth, usando gli stessi criteri si è creato un nuovo modello Pylaia e uno CitLab HTR+ denominati entrambi Ligorio 0.2.
Risultati e scelta del modello
Come si può notare in entrambi i casi il CER del Validation Set, che è il dato che ci interessa, è migliorato rispetto ai modelli Ligorio 1.0. Il modello CitLab HTR+ rimane comunque il migliore.
Creazione del terzo modello HTR
Con le stesse modalità di creazione dei primi due modelli, si è proceduto a creare il terzo modello Pylaia e CitLab HTR+, aumentando le pagine in ground truth: fino alla pagina 200.
Nonostante si noti un peggioramento nel CER del modello CitLab HTR+ si è deciso di considerare il modello Ligorio 0.3 HTR come il modello definitivo per questo progetto. Il peggioramento, infatti, è dovuto alla presenza in questo training di molte più iscrizioni in greco che hanno aumentato la complessità del testo.
Da novembre 2022 il modello Ligorio 0.3 HTR è stato reso pubblico. Nel frattempo però il motore CitLab HTR+ è stato dismesso da Transkribus, perciò il modello attualmente utilizzabile è il Ligorio 0.3 PyL: https://readcoop.eu/model/ligorio-0-3/
Questa fase del progetto è stata presentata al Transkribus Users conference (TUC22) tenutosi il 29 e 30 settembre 2022 ad Innsbruck, Austria.