← Zur Blogübersicht

HTR und LLMs in der Manuskriptanalyse: Warum die Blackbox nicht reicht

Zwischen automatischer Texterkennung, großen Sprachmodellen und quellengebundener Analyse

HTR und LLMs können historische Handschriften erschließen. Für wissenschaftliche Manuskriptanalyse reicht eine glatte Textausgabe aber nicht aus: Entscheidend ist, ob eine Lesung an sichtbare Evidenz, Unsicherheit und Modellinput zurückgebunden werden kann.

Historische Handschriften maschinell zu erschließen, klingt zunächst nach einem klaren technischen Problem: Man gibt ein Bild in ein System, und das System liefert Text zurück.

Genau dieses Prinzip steht hinter vielen klassischen HTR-Verfahren.

HTR steht für Handwritten Text Recognition, also die automatische Erkennung handschriftlicher Texte. In vielen Projekten lautet das Grundschema:

Bild → Texterkennung → Transkription

Das kann beeindruckend gut funktionieren. Besonders dann, wenn ein System auf eine bestimmte Schrift, eine bestimmte Sammlung oder einen bestimmten Schreiber trainiert wurde. Für große Archivbestände, serielle Quellen, Amtsbücher, Register oder relativ gleichförmige Handschriften kann HTR ein starkes Werkzeug sein.

Bei historischen Manuskripten bleibt jedoch ein methodisches Problem:

Eine gute Ausgabe ist nicht automatisch eine begründete Ausgabe.

Das Blackbox-Problem

Viele KI- und HTR-Systeme liefern am Ende einen Text. Was dazwischen passiert, bleibt für Nutzer oft schwer nachvollziehbar.

Das System sieht ein Bild, verarbeitet es intern und gibt eine Lesung aus. Diese Lesung kann richtig sein. Sie kann plausibel sein. Sie kann aber auch an einer kritischen Stelle geglättet, ergänzt oder falsch sicher formuliert sein.

Genau hier beginnt das Blackbox-Problem. Für wissenschaftliche Arbeit reicht die Frage nicht:

Was gibt das System als Text aus?

Die wichtigere Frage lautet:

Warum kommt das System zu dieser Lesung?

Bei historischen Handschriften ist diese Frage entscheidend. Eine Quelle besteht nicht nur aus Wörtern. Sie besteht aus sichtbaren Befunden: Zeilenstruktur, Schriftformen, Glyphen, Kürzungszeichen, Ligaturen, beschädigten Stellen, Rasuren, Randnotizen, Nachträgen, Flecken, Materialspuren und unsicheren Zeichenformen.

Wenn ein System diese Befunde intern verarbeitet, aber am Ende nur einen glatten Text ausgibt, verschwindet ein wesentlicher Teil der wissenschaftlichen Arbeit. Die Unsicherheit ist dann nicht weg. Sie ist nur unsichtbar geworden.

HTR: stark, aber trainingsintensiv

Klassische HTR-Systeme haben einen klaren Vorteil: Sie können für bestimmte Handschriftentypen sehr leistungsfähig sein.

Dafür benötigen sie in der Regel Trainingsdaten. Ein Mensch transkribiert und korrigiert zunächst Seiten als Referenzmaterial. Das System lernt aus diesen Beispielen. Je einheitlicher die Schrift, je besser die Bildqualität und je größer die Menge an Trainingsdaten, desto stabiler kann das Ergebnis werden.

Das ist sinnvoll, wenn viele ähnliche Seiten vorliegen. Problematisch wird es, wenn nur wenige Seiten verfügbar sind, mehrere Schreiberhände auftreten, die Schrift stark variiert, Kürzungen häufig sind, das Material beschädigt ist oder einzelne Glyphen mehrdeutig bleiben.

Dann kann HTR weiterhin hilfreich sein, aber die Ausgabe muss kontrolliert werden. Gerade bei mittelalterlichen Handschriften ist nicht nur entscheidend, ob ein Wort ungefähr stimmt. Entscheidend ist, welche sichtbare Form tatsächlich vorliegt.

LLMs: flexibel, aber plausibilitätsstark

Große Sprachmodelle, also LLMs, funktionieren anders als klassische HTR-Systeme. Sie können Bilder beschreiben, Textvorschläge machen, Strukturen erklären, Varianten formulieren und historische Zusammenhänge sprachlich aufbereiten.

Diese Flexibilität ist ein Vorteil. Sie bringt aber ein neues Risiko mit sich: LLMs sind stark darin, aus unvollständigen Informationen plausible Sprache zu erzeugen.

Für viele Aufgaben ist das nützlich. Für quellengebundene Manuskriptanalyse ist es riskant. Ein LLM kann aus einem unsicheren Zeichen eine flüssige Lesung machen, eine beschädigte Stelle sinnvoll ergänzen oder eine Abkürzung auflösen, weil der Kontext es nahelegt.

Das Problem ist nicht, dass das Modell schwach wäre. Das Problem ist, dass es zu gut darin ist, Unsicherheit in Sprache zu verwandeln.

Lesen oder begründen?

Bei historischen Handschriften geht es nicht nur darum, Text zu erzeugen. Es geht darum, eine Lesung zu begründen.

Eine wissenschaftlich belastbare Lesung sollte zeigen können, auf welchen Bildbereich sie sich bezieht, welche sichtbaren Zeichenformen vorliegen, welche Stellen sicher sind, welche Alternativen möglich bleiben und ob eine beschädigte Stelle wirklich gelesen oder nur rekonstruiert wurde.

Ebenso wichtig ist die Frage, ob die Koordinate am Originalbild, am Segment oder an einem Modellinput festgemacht wurde. Hat das Modell tatsächlich die Bildfassung gesehen, auf die sich der Befund bezieht?

Für eine reine Texterkennung sind solche Fragen oft nachgeordnet. Für quellengebundene Manuskriptanalyse sind sie zentral.

Der Modellinput ist nicht automatisch die Quelle

Ein weiterer Punkt wird häufig unterschätzt: Das Bild, das ein KI-Modell analysiert, ist nicht zwingend identisch mit der ursprünglichen Bilddatei.

Zwischen Originalbild und Modellinput können Upload, Skalierung, Komprimierung, Formatumwandlung, Zuschnitt, Segmentierung, interne Bildvorverarbeitung oder Reduktion der Auflösung liegen.

Eine KI-Aussage über ein Bild ist deshalb zunächst nur eine Aussage über genau die Bildfassung, die dem Modell tatsächlich vorlag. Sie ist nicht automatisch ein Befund am Original.

Für eine ernsthafte Manuskriptanalyse muss dokumentiert werden, welches Bild analysiert wurde: Originaldatei, Bildmaße, Hashwert, Segment, Crop, Modellinput, Koordinatenraum und Transformationen.

Mehr dazu im Beitrag Wenn der Modellinput nicht die Quelle ist.

Warum „Bild → Text“ nicht genügt

Das klassische Ziel vieler Systeme lautet: Aus dem Bild soll Text werden. Für viele Anwendungen reicht das. Für wissenschaftliche Handschriftenanalyse reicht es nicht.

Bei historischen Quellen ist der Text nicht einfach im Bild vorhanden wie ein maschinenlesbarer Code. Er muss aus sichtbaren Spuren erschlossen werden.

Bild → Befund → Struktur → Segment → Glyph → Minimcluster → Abkürzung → Kandidat → Lesung → Qualitätsprüfung

Jede dieser Ebenen kann Fehler erzeugen. Wenn ein System diese Ebenen überspringt und direkt Text ausgibt, entsteht scheinbare Klarheit. Die Ausgabe wirkt sauber, aber der Weg dorthin bleibt unklar.

Das ist besonders problematisch bei Minimclustern, Kürzungszeichen, beschädigten Buchstaben, Ligaturen, Randzeichen, über- oder unterzeiligen Formen, späteren Korrekturen und schlecht erhaltenen Bereichen.

Was HTR und LLMs leisten können

HTR und LLMs sind nicht nutzlos. Im Gegenteil. Beide können wichtige Rollen spielen.

HTR kann helfen, größere Mengen ähnlicher Handschriften effizient zu erschließen. LLMs können helfen, Befunde zu strukturieren, Varianten zu formulieren, Unsicherheiten lesbar darzustellen und komplexe Analyseprozesse verständlicher zu machen.

Aber beide Systeme sollten nicht als letzte Autorität behandelt werden. Sie sind Werkzeuge. Nicht die Quelle.

Das Ziel: transparente Transkription

Eine transparente Manuskriptanalyse sollte nicht nur sagen: Das steht dort. Sie sollte zeigen, warum diese Lesung vorgeschlagen wird. Ebenso wichtig ist die Frage, wo die Lesung unsicher bleibt.

Dafür braucht es Systeme, die nicht nur einen Endtext erzeugen, sondern Analyseartefakte speichern: Bildsegmente, Koordinaten, Layoutdaten, Glyphbefunde, Minimcluster, Varianten, Unsicherheitsmarker, Qualitätsprüfungen und Modellinput-Nachweise.

So wird aus bloßer Texterkennung eine überprüfbare Analyse.

Blackbox vermeiden heißt nicht KI vermeiden

Der kritische Punkt ist nicht: KI ja oder nein. Der kritische Punkt ist: Welche Rolle bekommt die KI?

Wenn KI als Blackbox eingesetzt wird, erzeugt sie Text, aber der Nutzer sieht nicht, ob die Lesung auf sichtbarer Evidenz beruht oder auf Plausibilität.

Wenn KI dagegen in eine nachvollziehbare Pipeline eingebettet wird, kann sie sehr nützlich sein. Dann lautet die Reihenfolge nicht:

Bild → KI → fertiger Text

Sondern:

Bild → dokumentierter Befund → technische Analyse → KI-gestützte Auswertung → Variantenprüfung → Unsicherheitsstatus → begründete Lesung

Das verändert die Rolle der KI grundlegend. Sie ist dann nicht der Richter über die Quelle, sondern ein Werkzeug innerhalb eines kontrollierten Analyseprozesses.

Trainingsaufwand ist nicht das einzige Problem

Oft wird die Diskussion auf eine praktische Frage reduziert: Brauchen wir Trainingsdaten oder nicht?

HTR braucht häufig projektspezifisches Training. LLMs benötigen dieses Training auf Nutzerebene oft nicht im gleichen Sinn, weil sie bereits breit vortrainiert sind. Aber das löst nicht automatisch das wissenschaftliche Problem.

Auch ein LLM ohne projektspezifisches Training muss zeigen können, worauf seine Aussage beruht. Die entscheidende Frage lautet daher nicht nur, wie viel Training ein System braucht, sondern wie gut es seine Lesung an den sichtbaren Befund zurückbinden kann.

Unsicherheit ist kein Fehler

In vielen automatischen Systemen wirkt Unsicherheit wie ein Mangel. Das System soll möglichst sicher, glatt und vollständig sein.

Für historische Quellen ist das problematisch. Eine unsichere Stelle ist nicht automatisch ein Fehler des Systems. Sie kann ein realer Zustand der Quelle sein.

Vielleicht ist der Buchstabe beschädigt. Vielleicht ist die Abkürzung mehrdeutig. Vielleicht ist ein Minimcluster nicht sicher auflösbar. Vielleicht reicht die Bildqualität nicht. Vielleicht gibt es mehrere plausible Lesungen.

Dann ist die richtige Ausgabe nicht ein glatter Text. Die richtige Ausgabe ist eine markierte Unsicherheit.

Fazit: nicht schneller zum Text, sondern sauberer zur Lesung

HTR und LLMs verändern die Arbeit mit historischen Handschriften. Sie können Zugänge erleichtern, große Mengen Material erschließen und erste Lesungen ermöglichen.

Aber sie lösen nicht automatisch das Grundproblem der Quellenkritik. Bei historischen Manuskripten ist der Text nicht nur ein Ergebnis. Er ist eine Hypothese über sichtbare Spuren.

Deshalb reicht eine Blackbox-Ausgabe nicht aus. Wer wissenschaftlich mit Handschriften arbeitet, braucht nicht nur eine Antwort auf die Frage, was dort steht, sondern auch auf die Fragen: Wo sieht man das? Wie sicher ist es? Welche Alternative bleibt möglich? Welche Bildfassung wurde analysiert? Welche Unsicherheit wurde dokumentiert?

Die Zukunft der digitalen Manuskriptanalyse liegt deshalb nicht nur in besseren Modellen. Sie liegt in besseren Nachweissystemen.

Nicht die KI erzeugt die Wahrheit. Die Quelle bleibt der Maßstab.