2. Tag strutturali

Utilizza i tag strutturali per suddividere i documenti in sezioni strutturali come paragrafi, intestazioni, margini o categorie personalizzate

Passo precedente: Riconoscimento del layout


I tag strutturali sono utili quando si desidera etichettare gli elementi del layout (regioni di testo e linee) ed esportare queste informazioni nell'XML insieme alle coordinate di ciascuna forma o quando si desidera limitare il riconoscimento del testo a determinate aree invece di riconoscere l'intera pagina. 

Per lavorare con i tag strutturali, è necessario innanzitutto renderli visibili. Fare clic sull'icona "Impostazioni" nel menu a sinistra dell'immagine e selezionare "Gestisci tipi di struttura".

In questa finestra, fare clic sull'icona dell'occhio per rendere visibili i tag strutturali predefiniti. È inoltre possibile aggiungere etichette personalizzate: fare clic su "Aggiungi nuovo tipo di struttura", quindi digitare il nome e scegliere il colore. Ricordarsi di salvare le impostazioni prima di tornare all'editor.

Per assegnare un tag strutturali a una regione di testo o a una linea, selezionare la forma e fare clic con il pulsante destro del mouse su di essa: la prima voce di menu è "Assegna tipo di struttura". Fare clic su di esso e scegliere il tag corrispondente da assegnare alla forma selezionata. Qui vengono visualizzati solo i tag che sono stati resi visibili nelle Impostazioni. Se si desidera eliminare un tag strutturali, fare clic su "nessuno" nell'elenco dei tag.

Per assegnare lo stesso tag a più regioni contemporaneamente, tenere premuto CTRL e selezionare le regioni interessate, quindi fare clic con il pulsante destro del mouse e scegliere il tag strutturale.

In Impostazioni, è possibile attivare l'opzione per mostrare le etichette della struttura e i colori, nonché modificare le dimensioni delle etichette.

Le informazioni sui tag strutturali saranno poi esportate nel file XML della pagina. 

Inoltre, è possibile limitare il riconoscimento del testo solo alle regioni di testo etichettate con specifici tag strutturali. Dopo aver selezionato il modello, fare clic su Configura e selezionare i tag appropriati. Deselezionare l'opzione "Elimina testo da altre regioni" per mantenere il testo nelle altre regioni di testo. Questa funzione è utile, ad esempio, quando si desidera estrarre solo il testo di una determinata regione di testo o quando si dispone di testo scritto a mano e stampato e si desidera utilizzare due modelli diversi sulla stessa pagina.

Facendo clic con il tasto destro del mouse su una forma, è possibile aggiungere una relazione tra le forme. In questo modo, è possibile collegare elementi di layout correlati per ulteriori casi d'uso. I dati relazionali saranno incorporati anche nell'XML del documento.

Il tipo di relazione più comune è la relazione Articolo: si può usare quando il testo di un articolo è suddiviso tra due o più colonne per collegare tra loro le diverse regioni di testo che compongono l'articolo e indicare l'ordine di lettura. In Impostazioni, è possibile creare nuove Relazioni, che possono essere di due tipi: follow by e same as.

Le informazioni strutturali possono essere utilizzate anche per addestrare un modello P2PaLA (per ora, P2PaLA è disponibile solo in Transkribus eXpert. Potete etichettare la struttura delle vostre pagine in Transkribus e poi addestrare il modello P2PaLA e applicarlo ai vostri documenti in Transkribus eXpert).

Prossimo passo: P2PaLA

 


 

Transkribus eXpert (deprecato)

Con i tag strutturali, è possibile suddividere i documenti in sezioni strutturali come paragrafi, intestazioni o numeri di pagina e aggiungere categorie di tag personalizzate per le proprie esigenze. Inoltre, è possibile addestrare i modelli P2PaLa a riconoscere automaticamente la struttura dei documenti.

Non c'è bisogno di etichettare ogni caratteristica dei documenti: concentrati sulla marcatura delle sezioni che ti interessano.

Prima di tutto, aprire il documento in Transkribus eXpert. L'interfaccia di etichettatura strutturale si trova facendo clic sulla scheda "Metadati" e poi sulla scheda "Strutture". Al centro della scheda si possono vedere i diversi tipi di struttura predefiniti. 

Per creare le proprie categorie di tag, fare clic sul pulsante "Personalizza". Si aprirà la finestra "Configurazione tag". Per creare una nuova categoria di tag, è sufficiente digitare il nome nella casella vuota in fondo alla finestra, quindi fare clic sul pulsante verde più. In questa finestra è possibile personalizzare i colori dei tag facendo clic sulla sezione colorata accanto a un tag e scegliendo il colore desiderato. I nuovi tag creati saranno automaticamente disponibili anche per tutti i documenti in tutte le collezioni.

È possibile assegnare tag alle regioni di testo e alle regioni di riga di ogni pagina del documento. Per inserire un'etichetta, fare clic sul pulsante "Visibilità dell'elemento" nel menu principale e assicurarsi che le regioni di testo e le regioni di linea siano visibili nel documento. Selezionare la regione di testo o la linea nella finestra dell'immagine, fare clic con il pulsante destro del mouse sulla forma selezionata e quindi scegliere l'etichetta desiderata in "Assegna tipo di struttura". In alternativa, è possibile aggiungere il tag facendo clic sul pulsante verde più a destra della categoria di tag desiderata nella scheda "Strutture".

Potete selezionare ed etichettare più regioni contemporaneamente tenendo premuto il tasto "CTRL" sulla tastiera e facendo clic sul documento.

La scheda strutturale consente anche di:

  • Assegnare un "Tipo di pagina" a ciascuna pagina del documento. Le opzioni possibili sono: Prima di copertina, Retro di copertina, Titolo, Indice, Contenuto, Vuoto, Altro. Una volta aperta la pagina, scegliere la definizione appropriata facendo clic sulla freccia accanto alle opzioni "Tipo di pagina" e scegliendo il tipo desiderato. Il tipo di pagina non è rilevante per la formazione P2PaLA.
  • Collegare due tag strutturali con i pulsanti "Collegamenti", ad esempio un collegamento tra una riga e la nota a piè di pagina collegata a quella riga. Il primo pulsante consente di creare tale collegamento e il secondo di rimuoverlo. Si prega di notare che per la formazione P2PaLA, il collegamento delle forme non è rilevante.
  • Rimuovere un tag strutturale: selezionare la regione taggata e poi fare clic sul pulsante rosso 
  • Mostra i nomi e i colori dei tag strutturali nella finestra dell'immagine;
  • Cliccare sul pulsante a forma di stella accanto a ciascun tag strutturale per accedere alle opzioni avanzate: qui è possibile annotare tutte le regioni di testo vuote con il tag strutturale desiderato; eliminare da tutte le pagine del documento un determinato tag strutturale; rinominare un tag strutturale assegnato con un altro nome.

  • Sezione Layout: qui si trova una panoramica dei tipi strutturali del documento e frammenti di testo trascritto. Potrebbe essere più rapido consultare questo elenco piuttosto che cercare una particolare riga o regione di testo nell'immagine. Per passare alla regione di testo o di linea desiderata, fare doppio clic sulla regione nella sezione "Layout". L'immagine e l'editor di testo salteranno automaticamente a questa riga. I tag aggiunti vengono visualizzati nella colonna "Struttura". Accanto al tipo di struttura è presente una piccola freccia verso il basso. Facendo clic su di esso, è possibile modificare rapidamente il tag della struttura; se si fa clic su "elimina" (è il primo elemento dell'elenco), il tag strutturale verrà eliminato.

Le informazioni strutturali possono essere utilizzate anche per l'addestramento di un modello P2PaLA, in grado di riconoscere automaticamente la struttura dei documenti e di etichettarli. Leggete la pagina P2PaLA per sapere come preparare i dati di addestramento, addestrare un modello e applicarlo a nuove pagine.