2. Vorbereiten von Trainingsdaten

Transkribieren Sie mindestens 25 Seiten, bevor Sie ein Texterkennungsmodell trainieren: Diese Seiten sind die Daten (Ground Truth), auf denen sich das Modell selbst trainiert und lernt, ein neues Skript zu erkennen

Vorheriger Schritt: Texterkennungsmodelle trainieren


Bevor Sie mit dem Training eines Texterkennungsmodells beginnen, müssen Sie die Ground Truth-Daten vorbereiten, d. h. die Bilder und die entsprechenden genauen Transkriptionen, auf denen das Modell lernt. 

Ground Truth ist ein Begriff, der im maschinellen Lernen verwendet wird. In Transkribus wird es verwendet, um die Bilder und die entsprechenden Transkriptionen anzuzeigen, die verwendet werden, um die künstliche Intelligenz zu trainieren. Die Transkriptionen sollten so genau wie möglich sein, da jeder Fehler in der Ground Truth das Modell darin trainiert, etwas Falsches zu lernen. 

Abhängig von der Art des Materials und der Anzahl der Hände sind zwischen 5.000 und 15.000 Wörter (etwa 25-75 Seiten) transkribiertes Material erforderlich, um zu beginnen. Im Allgemeinen lernen die neuronalen Netze der Texterkennungs-Engine schnell: Je mehr Trainingsdaten sie haben, desto besser werden die Ergebnisse sein.

Wenn Sie an gedrucktem Material arbeiten, sollten 5.000 Wörter ausreichen, um eine gute Zeichenfehlerrate zu erreichen.

Bei handschriftlichen Dokumenten empfehlen wir, das Modell mit mindestens 10.000 Wörtern pro Hand zu trainieren. Modelle, die an großen Trainingsdaten (mehr als 100.000 Wörter) mit vielen Händen aus dem gleichen Zeitraum und der gleichen Region trainiert werden, sollten in der Lage sein, Hände zu erkennen, die während des Trainings in keiner Weise gesehen wurden: Die Ergebnisse werden jedoch wahrscheinlich etwas schlechter sein als die Zeichenfehlerrate (die an den Validierungsdaten gemessen wird).

Die Ground Truth sollte Beispiele aller Skripte enthalten, die Ihr Modell transkribieren können soll. Es ist möglich, Modelle zu trainieren, die in der Lage sind, zwei oder mehr Hände, Sprachen, Schriftarten oder Alphabete gleichzeitig zu erkennen: Alle diese Varianten müssen jedoch repräsentativ in der Ground Truth vorhanden sein.

Die Seiten, die in die Ground Truth aufgenommen werden sollen, sind daher wichtig, da sie die Effektivität des Modells beeinflussen. Wenn Sie zum Beispiel ein Modell trainieren möchten, das die Hände von drei verschiedenen Schriftstellern erkennt, müssen Sie etwa 10.000 Wörter für jeden Schriftsteller transkribieren. Im Falle eines Schriftstellers, dessen Handschrift sich im Laufe der Zeit geändert hat, sollte die Ground Truth Seiten umfassen, die über verschiedene Jahre geschrieben wurden und für die Änderungen repräsentativ sind.

Um die Ground Truth zu erstellen, gibt es zwei Möglichkeiten:

  1. Manuell:
    Führen Sie die Layout-Erkennung auf den Seiten aus, die in die Ground Truth aufgenommen werden sollen, und transkribieren Sie sie genau, wie auf der Seite Händisch transkribieren erläutert. Dann speichern Sie sie als Ground Truth.

  2. Teilweise automatisch, teilweise manuell:
    Wenn es ein Texterkennungsmodell gibt, das ausreichend gut auf Ihre Dokumente wirkt, Sie aber ein genaueres trainieren möchten, können Sie das Modell zunächst auf Ihren Dokumenten ausführen, wie auf dieser Seite erläutert. Korrigieren Sie dann manuell die automatisch generierten Transkriptionen und speichern Sie sie als Ground Truth.

In beiden Fällen ist es wichtig, dass die Ground Truth-Transkriptionen so genau und korrekt wie möglich sind und dass Sie mit Ihren redaktionellen Entscheidungen übereinstimmen.

Konventionen

Der häufigste Ansatz besteht darin, ein konsistentes Transkript zu erstellen, das genau das darstellt, was Sie in Ihrem Dokument gelesen haben, einschließlich Fehler und Satzzeichen. Dies ist der Fall bei einer diplomatischen Transkription: Wörter, Groß- und Kleinbuchstaben, Hoch- und Tiefbuchstaben sowie Satzzeichen werden so transkribiert, wie sie im Dokument erscheinen. Der Vorteil dieses Ansatzes ist ein starkes Modell, das genau das transkribiert, was im Bild gezeigt wird.

Die neuronalen Netze könnten jedoch bis zu einem gewissen Grad lernen, unsere Transkriptionskonventionen anzuwenden. Wenn die Konventionen in allen unseren Transkriptionen konsequent übernommen werden und die Ground Truth groß genug ist, könnte das Modell lernen, Wörter zu trennen, die in den Dokumenten kombiniert erscheinen, die historische Rechtschreibung zu normalisieren, Hoch- und Tiefstellen wie im Rest des Textes zu transkribieren und Abkürzungen zu lösen (siehe nächster Punkt).

Insbesondere:

  • Diakritische Zeichen (z. B. Akzente, Zirkumflexe, Cedillen, Bindestriche, Tildes): Es hängt von Ihnen ab, ob Sie möchten, dass das Texterkennungsmodell eine diplomatische Transkription erstellt oder Wörter gemäß der modernen Rechtschreibung normalisiert. Beide Ansätze sind in Ordnung; Sie müssen nur einen auswählen und konsequent sein.

  • i/j und I/J: die Buchstaben „i“ und „j“ wurden oft synonym verwendet. Sie können entscheiden, die Buchstaben so zu transkribieren, wie sie im Dokument erscheinen, oder der heute verwendeten Schreibweise zu folgen.

    • u/v und U/V: Historische Dokumente verwenden häufig "v" am Wortanfang und "u" in der Mitte und am Ende. Sie können entscheiden, die Buchstaben so zu transkribieren, wie sie im Dokument erscheinen, oder der heute verwendeten Schreibweise zu folgen.
    • Ligaturen: sind gebräuchliche Kombinationen von Buchstaben, um ein neues Zeichen zu bilden. Sie können vollständig transkribiert werden, indem die einzelnen Zeichen verwendet werden, aus denen die Ligatur besteht (z. B. „præs“ wird zu „praes“).
    • S-Zeichen: Die Buchstaben "s" können in verschiedenen Formen erscheinen. Normale und lange „s“ (mit Unterlänge) können beide als normale „s“ oder entsprechend ihrer Form als „s“ oder „ſ“ (U-017F) transkribiert werden. Doppeltes „s“ oder „ß“ (scharfes „s“ oder „Eszett“) werden nach dem Originaltext transkribiert.
    • Wörter mit Trennstriche: Wenn Wörter mit Trennstrichen am Ende der Zeile erscheinen, sollten sie transkribiert und gemäß dem Originaltext aufgeteilt werden. Fügen Sie am Zeilenende nur dann ein „-“ hinzu, wenn vorhanden.
    • Textstile: Mit der Schaltfläche Tags können Sie Wörter oder Wortteile als fett, kursiv, durchgestrichen, unterstrichen, hochgestellt oder tiefgestellt markieren. Wenn Sie diese Tags beim Training des Modells trainieren, werden die Tags beim Erkennen neuer Seiten automatisch hinzugefügt (derzeit ist diese Funktion nur in Transkribus eXpert verfügbar: Lesen Sie mehr darüber auf der Seite Modell-Einrichtung und Training).
    • Schriftarten: Verschiedene Schriftarten wie Kurrent oder Antiqua sind nicht besonders gekennzeichnet.

    Jeder Benutzer kann die Konventionen verwenden, die am besten zu seinen Bedürfnissen passen. Wichtig ist, konsequent zu sein: Wir empfehlen, Ihre Entscheidungen zu beachten, während Sie die Ground Truth-Seiten transkribieren und die Konventionen hinzufügen, die Sie im Feld Details des Texterkennungsmodells verwendet haben.

    Abkürzungen

    Je nach Ihren Bedürfnissen können Sie sich entscheiden, das Modell zu trainieren, um:

    • Behalten Sie die verkürzte Form bei: Transkribieren Sie die Abkürzungen so, wie sie in den Dokumenten erscheinen, und verwenden Sie die Grundzeichen oder die Sonderzeichen, die den vom Autor geschriebenen Zeichen am ähnlichsten sind.
    • Transkribieren Sie die erweiterte Form: Die neuronalen Netze sind oft in der Lage, Erweiterungen zu erkennen und zu verwenden, insbesondere wenn sie häufig auftreten. Du musst nur die Erweiterung der Abkürzung in die Transkriptionen schreiben und darauf achten, sie immer auf die gleiche Weise zu lösen.  
    • Markieren Sie die Abkürzung und fügen Sie die entsprechende Erweiterung als Eigenschaft hinzu: Transkribieren Sie in der Ground Truth die Abkürzungen, wie sie erscheinen, markieren Sie sie und fügen Sie das erweiterte Formular im Feld "Erweiterung" hinzu (Eigenschaft des Abkürzungs-Tags).   Aktivieren Sie beim Training des Modells die Option, die Abkürzungs-Tags auch mit Erweiterungen zu trainieren (diese Funktion ist derzeit nur in Transkribus eXpert verfügbar: Lesen Sie mehr darüber auf der Seite Modell-Einrichtung und Training).

     

    Nächster Abschnitt: Modell-Einrichtung und Training

     


     

    Transkribus eXpert (veraltet)

    Bevor Sie mit dem Training eines Texterkennungsmodells beginnen, müssen Sie die Ground Truth-Daten vorbereiten, d. h. die Bilder und die entsprechenden genauen Transkriptionen, auf denen das Modell lernt. 

    Ground Truth ist ein Begriff, der im maschinellen Lernen verwendet wird. In Transkribus wird es verwendet, um die Bilder und die entsprechenden Transkriptionen anzuzeigen, die verwendet werden, um die künstliche Intelligenz zu trainieren. Die Transkriptionen sollten so genau wie möglich sein, da jeder Fehler in der Ground Truth das Modell darin trainiert, etwas Falsches zu lernen. 

    Abhängig von der Art des Materials und der Anzahl der Hände sind zwischen 5.000 und 15.000 Wörter (etwa 25-75 Seiten) transkribiertes Material erforderlich, um zu beginnen. Generell lernen die neuronalen Netze der Handwritten Text Recognition Engine schnell: Je mehr Trainingsdaten sie haben, desto besser sind die Ergebnisse.

    Wenn Sie an gedrucktem Material arbeiten, sollten 5.000 Wörter ausreichen, um eine gute Zeichenfehlerrate zu erreichen.

    Bei handschriftlichen Dokumenten empfehlen wir, das Modell mit mindestens 10.000 Wörtern pro Hand zu trainieren. Modelle, die an großen Trainingsdaten (mehr als 100.000 Wörter) mit vielen Händen aus dem gleichen Zeitraum und der gleichen Region trainiert werden, sollten in der Lage sein, Hände zu erkennen, die während des Trainings in keiner Weise gesehen wurden: Die Ergebnisse werden jedoch wahrscheinlich etwas schlechter sein als die Zeichenfehlerrate (die an den Validierungsdaten gemessen wird).

    Die Ground Truth sollte Beispiele aller Skripte enthalten, die Ihr Modell transkribieren können soll. Es ist möglich, Modelle zu trainieren, die in der Lage sind, zwei oder mehr Hände, Sprachen, Schriftarten oder Alphabete gleichzeitig zu erkennen: Alle diese Varianten müssen jedoch repräsentativ in der Ground Truth vorhanden sein.

    Die Seiten, die in die Ground Truth aufgenommen werden sollen, sind daher wichtig, da sie die Effektivität des Modells beeinflussen. Wenn Sie ein Modell trainieren möchten, das die Hände von drei verschiedenen Schriftstellern erkennt, müssen Sie etwa 10.000 Wörter für jeden Schriftsteller transkribieren. Im Falle eines Schriftstellers, dessen Handschrift sich im Laufe der Zeit geändert hat, sollte die Ground Truth Seiten umfassen, die über verschiedene Jahre geschrieben wurden und für die Änderungen repräsentativ sind.

    Um die Ground Truth zu erstellen, gibt es zwei Möglichkeiten:

    1. Manuell:
      Führen Sie die Layout-Erkennung auf den Seiten aus, die in die Ground Truth aufgenommen werden sollen; transkribieren Sie sie genau im Texteditor und speichern Sie sie als Ground Truth.

    2. Teilweise automatisch, teilweise manuell:
      Wenn es ein Texterkennungsmodell gibt, das ausreichend gut mit Ihren Dokumenten funktioniert, Sie aber ein genaueres trainieren möchten, können Sie das Modell zunächst auf Ihren Seiten ausführen. Korrigieren Sie dann manuell die automatisch generierten Transkriptionen und speichern Sie sie als Ground Truth.

    In beiden Fällen ist es wichtig, dass die Ground Truth-Transkriptionen so genau und korrekt wie möglich sind und dass Sie mit Ihren redaktionellen Entscheidungen übereinstimmen.

    Konventionen

    Der häufigste Ansatz besteht darin, ein konsistentes Transkript zu erstellen, das genau das darstellt, was Sie in Ihrem Dokument gelesen haben, einschließlich Fehler und Satzzeichen. Dies ist der Fall bei einer diplomatischen Transkription: Wörter, Groß- und Kleinbuchstaben, Hoch- und Tiefbuchstaben sowie Satzzeichen werden so transkribiert, wie sie im Dokument erscheinen. Der Vorteil dieses Ansatzes ist ein starkes Modell, das genau das transkribiert, was im Bild gezeigt wird. Die neuronalen Netze könnten jedoch bis zu einem gewissen Grad lernen, unsere Transkriptionskonventionen anzuwenden. Wenn die Konventionen in allen unseren Transkriptionen konsequent übernommen werden und die Ground Truth groß genug ist, könnte das Modell lernen, Wörter zu trennen, die im Dokument kombiniert erscheinen, die historische Rechtschreibung zu normalisieren, Hoch- und Tiefstellen im Einklang mit dem Rest des Textes zu transkribieren und Abkürzungen zu lösen (siehe nächster Punkt).  

    Insbesondere:

      • Diakritische Zeichen (z. B. Akzente, Zirkumflexe, Cedillen, Bindestriche, Tildes): Es hängt von Ihnen ab, ob Sie möchten, dass das Texterkennungsmodell eine diplomatische Transkription erstellt oder Wörter gemäß der modernen Orthographie normalisiert. Beide Ansätze sind in Ordnung; Sie müssen nur einen auswählen und konsequent sein.
      • i/j und I/J: die Buchstaben "i" und "j" wurden oft synonym verwendet. Sie können entscheiden, die Buchstaben so zu transkribieren, wie sie im Dokument erscheinen, oder der heute verwendeten Schreibweise zu folgen.
      • u/v und U/V: Historische Dokumente verwenden häufig "v" am Wortanfang und "u" in der Mitte und am Ende. Sie können entscheiden, die Buchstaben so zu transkribieren, wie sie im Dokument erscheinen, oder der heute verwendeten Schreibweise zu folgen.
      • Ligaturen: sind gebräuchliche Kombinationen von Buchstaben, um ein neues Zeichen zu bilden. Sie können vollständig transkribiert werden, indem die einzelnen Zeichen verwendet werden, aus denen die Ligatur besteht (z. B. „præs“ wird zu „praes“).
      • S-Zeichen: Die Buchstaben "s" können in verschiedenen Formen erscheinen. Normale und lange „s“ (mit Unterlänge) können beide als normale „s“ oder entsprechend ihrer Form als „s“ oder „ſ“ (U-017F) transkribiert werden. Doppeltes „s“ oder „ß“ (scharfes „s“ oder „Eszett“) werden nach dem Originaltext transkribiert.
      • Wörter mit Bindestrich: Wenn Wörter mit Bindestrich am Ende der Zeile erscheinen, sollten sie transkribiert und gemäß dem Originaltext aufgeteilt werden. Fügen Sie am Zeilenende nur dann ein „-“ hinzu, wenn vorhanden.
      • Textstile: Mit der Formatierungsleiste am unteren Rand des Texteditors können Sie Wörter oder Teile von Wörtern als fett, kursiv, tiefgestellt, hochgestellt, unterstrichen und durchgestrichen markieren. Wenn Sie diese Tags während des Trainings des Modells trainieren, werden die Tags automatisch hinzugefügt, wenn neue Seiten erkannt werden (mehr darüber auf der Seite Modell-Einrichtung und Training).
      • Schriftarten: verschiedene Schriftarten wie Kurrent oder Antiqua sind nicht besonders gekennzeichnet.

    Jeder Benutzer kann die Konventionen verwenden, die am besten zu seinen Bedürfnissen passen. Wichtig ist, konsequent zu sein: Wir empfehlen, Ihre Entscheidungen zu beachten, während Sie die Seiten transkribieren und die Konventionen aufschreiben, die Sie im Feld Details des Modells verwendet haben.

    Abkürzungen

    Je nach Ihren Bedürfnissen können Sie sich entscheiden, das Modell zu folgendem zu trainieren:

    • Behalten Sie die verkürzte Form: Transkribieren Sie die Abkürzungen so, wie sie in den Dokumenten erscheinen, und verwenden Sie die Grundzeichen oder die Sonderzeichen, die den vom Autor geschriebenen Zeichen am ähnlichsten sind.
    •   Die erweiterte Form transkribieren: Die neuronalen Netzwerke sind oft in der Lage, Erweiterungen zu erkennen und zu verwenden, insbesondere wenn sie häufig auftreten. Du musst nur die Erweiterungen der Abkürzungen in den Transkriptionen schreiben und darauf achten, sie immer auf die gleiche Weise zu lösen.  
      • Markieren Sie die Abkürzung und fügen Sie die entsprechende Erweiterung als Eigenschaft hinzu: Transkribieren Sie in der Ground Truth die Abkürzungen, wie sie erscheinen, markieren Sie sie und fügen Sie das erweiterte Formular im Feld "Erweiterung" hinzu (Eigenschaft des Abkürzungs-Tags).   Aktivieren Sie beim Training des Modells die Option, die Abkürzungs-Tags auch mit Erweiterungen zu trainieren (lesen Sie mehr darüber auf der Seite Modell-Einrichtung und Training).