1. Automatische Transkription Ihrer Dokumente

Wenden Sie die Texterkennung auf Ihre Dokumente an, um sie automatisch zu transkribieren

Vorheriger Schritt: Dateien hochladen


Um Ihre Dokumente automatisch zu transkribieren, müssen Sie zuerst die Seiten oder Dokumente auswählen, die Sie transkribieren möchten. Klicken Sie dann im linken Menü unter „Tools“ auf „Text-Erkennung“.

Wählen Sie nun das am besten geeignete Textmodell für Ihre Dokumente aus.

Ein Textmodell ist der KI-Algorithmus, der auf eine bestimmte Anzahl von Daten (Bilder und Transkriptionen) trainiert wird und in der Lage ist, die wahrscheinlichste Zeichenfolge für jede segmentierte Textzeile zu erkennen. Es gibt kein allgemeines Modell für alle Handschriften, daher müssen Sie das am besten geeignete für das Skript und die Sprache Ihrer Dokumente auswählen.

In Transkribus können Sie sowohl die öffentlichen Modelle, die von der Transkribus-Community und dem Transkribus-Team zur Verfügung gestellt werden, als auch die privaten Modelle auswählen, die Sie selbst trainiert haben. Sie können Ihre Suche nach Sprache, Name, Art der Dokumente filtern...

Zwei zusätzliche Optionen, die Sie auswählen können, bevor Sie die Texterkennung starten, sind:

  • Smart Search: ermöglicht eine erweiterte und leistungsfähigere Art der Suche nach den automatisch generierten Transkriptionen. Lesen Sie mehr darüber auf der Smart Search-Seite.
  • Sprachmodell: wird automatisch während des Modelltrainings erstellt und basiert auf den Trainingsdaten. Die Wirkung von Sprachmodellen muss im Einzelfall getestet werden: In vielen Fällen sind sie in der Lage, die Erkennung zu verbessern, aber bisher gibt es auch Fälle, in denen dies nicht der Fall ist.

Nachdem Sie das Modell und alle Optionen ausgewählt haben, klicken Sie auf die Schaltfläche „Start“, um die Erkennung zu starten. Sie können den Status der Texterkennung überprüfen, indem Sie auf „Jobs“ klicken. Wenn die Erkennung abgeschlossen ist, öffnen Sie eine erkannte Seite: Das automatisch generierte Transkript wird auf der rechten Seite des Bildschirms angezeigt. 

Wenn Sie die Texterkennung starten, werden die Bilder zunächst automatisch in Textbereiche und -linien segmentiert. Dieser Schritt, Layouterkennung genannt, verbindet den Text und das Bild. Wenn Ihre Dokumente ein komplexes Layout haben (z. B. Tabellen, Zeitungen, Postkarten, Marginalien, mehrere Spalten usw.), kann es zweckmäßig sein, die Layout-Erkennung als separaten Schritt auszuführen, um sie vor der Texterkennung zu überprüfen und zu korrigieren. Wenn dies Ihr Fall ist, werfen Sie einen Blick auf den Abschnitt Layout-Erkennung.

In den folgenden Abschnitten werden die Hauptaspekte der Texterkennung und die Auswahl des besten Modells für Ihre Dokumente ausführlicher erläutert.

 

Nächster Abschnitt: Auswahl eines Modells

 


 

Transkribus eXpert (veraltet)

Um Ihre Dokumente automatisch zu transkribieren, gehen Sie zur Registerkarte „Extras“ im Abschnitt „Texterkennung“ und klicken Sie auf die Schaltfläche „Ausführen“. Wählen Sie im Popup-Fenster die zu verarbeitende (n) Seite(n)/Dokument(e) aus und klicken Sie dann auf „HTR-MODELL auswählen“. Hier können Sie das am besten geeignete Textmodell für Ihre Dokumente auswählen. 

Ein Textmodell ist der KI-Algorithmus, der auf eine bestimmte Anzahl von Daten (Bilder und Transkriptionen) trainiert wird und in der Lage ist, die wahrscheinlichste Zeichenfolge für jede segmentierte Textzeile zu erkennen. Es gibt kein allgemeines Modell für alle Handschriften, daher müssen Sie das am besten geeignete für das Skript und die Sprache Ihrer Dokumente auswählen.

Sie können sowohl die öffentlichen Modelle, die von der Transkribus-Community und dem Transkribus-Team zur Verfügung gestellt werden, als auch die privaten Modelle auswählen, die Sie selbst trainiert haben. Du kannst deine Suche nach Motor, Sprache und Name filtern. 

Erweiterte Einstellungen, die Sie auswählen können, sind:

    Bestehende Linienpolygone verwenden:Verwenden Sie diese Option, wenn Sie die Linienpolygone manuell korrigiert haben, weil die Berechnung der Polygone aus den Basislinien bei Ihren Dokumenten nicht gut funktioniert hat. Polygone vereinfachen: um die Anzahl der Punkte der Linienpolygone zu reduzieren. Fügen Sie geschätzte Wortkoordinaten hinzu:Fügen Sie ungefähre Begrenzungsrahmen für jedes Wort in der Zeile hinzu (Sie können dann entscheiden, die Wortrahmen mit dem Augensymbol in der Hauptleiste oben ein-/auszublenden). Beschränken Sie das Struktur-Tag:Beschränken Sie die Texterkennung nur auf die Textbereiche, die mit dem ausgewählten Struktur-Tag markiert sind. Sie können entscheiden, ob Sie den Text in den anderen Regionen behalten oder löschen möchten.

Nachdem Sie das Modell ausgewählt haben, klicken Sie auf "OK", um die Erkennung zu starten. Sie können den Status der Texterkennung überprüfen, indem Sie auf die Schaltfläche "Jobs" in der oberen Hauptleiste klicken. Wenn die Erkennung abgeschlossen ist, laden Sie die Seite neu: Das automatisch generierte Transkript wird im Texteditor angezeigt, 

Wenn Sie die Texterkennung starten, werden die Bilder zuerst automatisch in Textbereiche und -linien segmentiert. Dieser Schritt, Layouterkennung genannt, verbindet den Text und das Bild. Wenn Ihre Dokumente ein komplexes Layout haben (z. B. Tabellen, Zeitungen, Postkarten, Marginalien, mehrere Spalten usw.), kann es zweckmäßig sein, die Layout-Erkennung als separaten Schritt auszuführen, um sie vor der Texterkennung zu überprüfen und zu korrigieren. Wenn dies Ihr Fall ist, werfen Sie einen Blick auf diese Seite.