Ableitungskette
Die dokumentierte Folge aller Bildfassungen vom Ausgangsbild über Crops, Segmente, Skalierungen oder Modellinputs. Sie zeigt, auf welcher konkreten Bildfassung ein Befund beruht.
Dieses Glossar erklärt zentrale Begriffe aus HISTORIAMP, digitaler Paläographie, KI-gestützter Bildanalyse, OCR/HTR, MUFI, Unicode, Glyphanalyse, Bildintegrität und artefaktbasierter Pipeline-Methodik.
HISTORIAMP behandelt historische Handschriften nicht als reine OCR-Aufgabe. Die Begriffe auf dieser Seite beschreiben eine Pipeline, in der sichtbare Evidenz, Segmentierung, Glyphbefunde, Unsicherheit, Modellinput und spätere Lesung getrennt dokumentiert werden.
Alle Begriffe werden angezeigt.
Die dokumentierte Folge aller Bildfassungen vom Ausgangsbild über Crops, Segmente, Skalierungen oder Modellinputs. Sie zeigt, auf welcher konkreten Bildfassung ein Befund beruht.
Ein rechteckiger Koordinatenbereich, der eine Zone, ein Segment oder einen Befund im Bild markiert.
Ein geplantes Wissenssystem, das wiederkehrende Glyphvarianten, Abkürzungsformen, Schreiberprofile, Layoutmuster und typische Lesungen speichern kann.
Die Eigenschaft des Systems, Fehler später nachvollziehen zu können, weil Runs, Artefakte, Prompts, Segmente und Ergebnisse gespeichert bleiben.
Ein Forschungsfeld, das digitale Methoden mit geisteswissenschaftlichen Fragestellungen verbindet. HISTORIAMP positioniert sich in diesem Feld als quellengebundene Manuskriptanalyse-Plattform.
Ein sichtbares Risiko an Bildrändern, etwa abgeschnittene Zeichenformen, randnahe Markierungen oder unklare Randbereiche, die für spätere Analyse geschützt werden müssen.
Ein einzelner technischer oder visueller Befund, etwa eine auffällige kleine Form über einer Zeile, ein randnaher Strich oder ein dichter Minimcluster.
Abkürzung für Handwritten Text Recognition. Klassische HTR-Systeme zielen häufig auf „Bild → Text“. HISTORIAMP setzt dagegen auf „Bild → Befund → Struktur → Lesung“.
Der Einsatz von KI-Modellen innerhalb einer kontrollierten Pipeline. Die KI liefert dabei keine unbegründete Wahrheit, sondern prüfbare Analysebeiträge.
Strukturinformationen über die Seite, etwa Textzonen, Bildbereiche, Zeilenräume, Ränder, Segmentgrenzen oder sichtbare Gruppierungen.
Eine verständlichere Textfassung für allgemeine Nutzer. Sie ist ausdrücklich eine interpretierende Ebene und nicht identisch mit der diplomatischen Transkription.
Large Multimodal Model. Ein Modell, das Bild- und Texteingaben verarbeiten kann. In HISTORIAMP darf ein LMM analysieren, aber die erste Befundschicht nicht ersetzen.
Randnahe Zeichen, Notizen oder Markierungen. In HISTORIAMP werden sie zunächst als sichtbare Randbefunde behandelt, bevor eine Funktion zugeschrieben wird.
Die Trennung zwischen diplomatischer Transkription, kritischer Lesung und lesbarer Version. Jede Ebene hat eine andere Funktion und darf nicht vermischt werden.
Die neutrale technische Datenvorbereitung des Servers. Sie speichert, segmentiert und verwaltet Daten, interpretiert aber keine Manuskriptinhalte.
Die wissenschaftliche Untersuchung historischer Schriftformen. HISTORIAMP berührt paläographische Fragen, trennt aber streng zwischen sichtbarem Befund und späterer Klassifikation.
Die Regel, dass keine Wörter oder Zeichen rekonstruiert werden dürfen, wenn dafür keine sichtbare Grundlage im Bild vorhanden ist.
Die Zusammenführung von Ergebnissen aus mehreren Segmenten, Modulen oder Modellläufen.
Ein geplantes Analysemodul zur Untersuchung farblich oder formal abweichender Einträge, die mit einer Rubrikatorhand zusammenhängen können. Eine solche Zuordnung muss jedoch belegt werden.
Die wissenschaftliche Analyseebene von HISTORIAMP. Sie ist von der technischen Infrastruktur getrennt.
Die Zerlegung einer Manuskriptseite in überprüfbare Ebenen wie Layout, Segment, Glyph, Minim, Abbreviatur, Lesung und Qualitätskontrolle.
Eine aufgelöste Abkürzung oder ergänzte Lesung ohne ausreichende visuelle Grundlage.
Der Vergleich konkurrierender Lesungen, Handschriftenbefunde oder Transkriptionsvorschläge.
Alles, was am konkreten Bild sichtbar beobachtet werden kann: Oberfläche, Zeichenformen, Abstände, Farbunterschiede, Beschädigungen, Randspuren oder auffällige Markierungen.
Eine abgeleitete Bildfassung, zum Beispiel ein skaliertes Bild, ein Crop, ein Segment, ein komprimiertes Bild oder ein für ein Modell vorbereiteter Input.
Die technische Prüfung, ob eine Bilddatei vollständig, eindeutig registriert und für eine bestimmte Analyse belastbar ist.
Die konkrete Bilddatei oder Bildfassung, auf die sich ein Befund bezieht. In HISTORIAMP muss klar sein, ob der Befund am Originalbild, an einem Segment oder an einem Modellinput entstanden ist.
Die technische Prüfung einer hochgeladenen Bilddatei, etwa Dateityp, Bildgröße, Lesbarkeit, Pixelzahl und Verarbeitbarkeit.
Eine Bounding Box in Prozentkoordinaten. Sie beschreibt eine Position relativ zur jeweiligen Bildfläche und nicht als absolute Pixelposition.
Eine Prüfschicht, die sicherstellt, dass jede Koordinate an einen definierten Bildraum gebunden ist und korrekt auf Original, Segment oder Modellinput zurückgeführt werden kann.
Die Regel, dass keine Koordinate ohne Angabe ihres Koordinatenraums verwendet werden darf. Eine Koordinate ist nur innerhalb einer bestimmten Bildfassung gültig.
Ein kontrollierter Bildausschnitt. Crops können für Detailprüfungen verwendet werden, müssen aber als eigene Bildartefakte dokumentiert werden.
Eine visuelle Vorschau des Bildes mit eingeblendetem Raster. Sie hilft, Bildbereiche und Tiles in der Workbench zu prüfen.
Ein Rasteransatz zur Bildaufteilung. In HISTORIAMP ist es ein Debug- und Viewer-Werkzeug, nicht die eigentliche wissenschaftliche Segmentierungsentscheidung.
Eine technische Zwischenspeicherung von Bilddaten, um wiederholtes Laden großer Dateien zu vermeiden.
Eine Bildregistratur, die Hash, Run-ID, Dateiname und Zeitstempel speichert. Sie hilft, identische Bilder wiederzuerkennen und Analysehistorien nachvollziehbar zu halten.
Der Grad, zu dem ein Modellinput noch der registrierten Ausgangsdatei entspricht. Skalierung, Komprimierung oder Cropping können die Input Fidelity verändern.
Eine Segmentierung, die sich an sichtbaren Strukturen der Quelle orientiert, nicht nur an einem technischen Raster.
Die digitale Bildfassung einer historischen Handschrift. Für HISTORIAMP ist entscheidend, welche konkrete Bildfassung analysiert wurde.
Die Rückführung eines Befundes aus Segment, Crop oder Modellinput auf die Position im registrierten Ausgangsbild.
Ein sichtbarer Bereich der Quelle, der vor allem Oberfläche, Beschädigung, Flecken, Ränder oder leere Flächen zeigt. Er wird nicht automatisch als bedeutungslos ausgeschlossen.
Ein Nachweis darüber, welche Bildfassung ein Modell tatsächlich erhalten hat: Hash, Maße, Crop, Skalierung, Komprimierung und Koordinatenraum.
Die konkrete Bild- oder Textfassung, die einem KI-Modell tatsächlich übergeben wird. Sie ist nicht automatisch identisch mit der ursprünglichen Quelle.
Die gespeicherte Fassung eines Modellinputs inklusive technischer Metadaten. Sie macht spätere Modellbehauptungen überprüfbar.
Die bewusste Überlappung benachbarter Segmente. Sie verhindert, dass Zeichen oder Strukturen an Segmentgrenzen abgeschnitten werden.
Eine Segmentierungsstrategie, bei der sich Bildsegmente überschneiden. Dadurch erscheinen kritische Bildstellen in mehreren Kontextfenstern.
Ein kontrollierter Bildbereich, der für Analysezwecke gespeichert und später auf seine Originalposition zurückgeführt werden kann.
Eine geplante technische Zwischenspeicherung von Segmenten zur effizienteren Verarbeitung.
Metadaten zu einem Segment, etwa ID, Datei, x/y-Position, Breite und Höhe. Sie ermöglichen die Rückführung auf das Originalbild.
Eine geplante Warteschlange für die systematische Verarbeitung einzelner Segmente durch Module.
Die Information, zu welchem Segment ein Befund gehört und wie dieses Segment im Ausgangsbild positioniert ist.
Die Aufteilung eines Bildes in analysierbare Bereiche. Segmentierung ist in HISTORIAMP ein methodisch kritischer Schritt, weil frühe Verluste spätere Lesungen verfälschen können.
Ein rechteckiger Rasterausschnitt eines Bildes. Tiles dienen der technischen Orientierung und dem Viewer, sind aber nicht zwingend die primäre wissenschaftliche Analysebasis.
Ein Werkzeug der Workbench, mit dem einzelne Rasterausschnitte betrachtet werden können.
Ein visuell unterscheidbarer Bereich im Bild, etwa eine größere schreibähnliche Fläche, ein Randbereich, ein farblich abweichender Bereich oder eine Materialzone.
Die Erkennung sichtbarer Zonen innerhalb eines Manuskriptbildes. In HISTORIAMP sollen Zonen nicht funktional überinterpretiert werden.
Eine Abbreviatur ist eine historische Kürzungsform in einer Handschrift. In HISTORIAMP wird sie nicht still aufgelöst, sondern zunächst als sichtbarer Befund behandelt und erst danach als mögliche Lesung geprüft.
Eine Lesung, die nicht nur behauptet wird, sondern auf konkrete visuelle Evidenz, Segmente, Glyphbefunde, Varianten und Unsicherheiten zurückgeführt werden kann.
Eine möglichst quellennahe Transkription, die Zeichen, Kürzungen, Unsicherheiten und sichtbare Besonderheiten nicht still glättet.
Eine sichtbare Zeichenform im Manuskriptbild. Ein Glyph ist zunächst eine Form im Bild und noch nicht automatisch ein moderner Buchstabe oder Unicode-Codepoint.
Eine geplante Prüfinstanz, die technische Glyphbefunde mit MUFI-/Unicode-Kandidaten, Modelloutputs und Transkriptionsbehauptungen vergleicht.
Eine interne Kennung für eine dokumentierte Glyphform. Sie trennt die sichtbare Form von späteren Lesungen, Unicode-Zuweisungen oder Font-Darstellungen.
Eine vorgeschaltete visuelle Kontrollschicht, die kritische glyphische Auffälligkeiten markiert, bevor ein Modell daraus einen Text macht.
Eine aufbereitete Lesung, bei der Abkürzungen und editorische Entscheidungen sichtbar gemacht werden. Sie steht zwischen diplomatischer Transkription und lesbarer Version.
Eine aus Befunden abgeleitete Textannahme. In HISTORIAMP muss eine Lesung auf sichtbare Evidenz und dokumentierte Unsicherheit zurückführbar sein.
Eine verbundene oder verschmolzene Zeichenform. Ligaturen können zu Fehlinterpretationen führen, wenn sie zu früh in getrennte Buchstaben aufgelöst werden.
Ein kurzer vertikaler Strich in historischen Schriftformen. Mehrere Minims können schwer unterscheidbare Cluster bilden.
Die Regel, dass Minimcluster nicht automatisch interpretiert oder durch sprachliche Plausibilität ergänzt werden dürfen.
Eine verdichtete Gruppe ähnlicher Strichformen, bei der verschiedene Lesungen möglich sein können. Minimcluster gehören zu den zentralen Fehlerquellen historischer Transkription.
Die Medieval Unicode Font Initiative. Für HISTORIAMP ist MUFI ein Referenz- und Kodierungsraum, aber kein Beweis für eine Lesung.
Eine Liste möglicher Zeichen- oder Codepoint-Kandidaten nach einem dokumentierten Glyphbefund. Kandidaten sind Hinweise, keine endgültige Entscheidung.
Eine automatisierte visuelle Befundinstanz, die kritische Sonderformen markiert und mögliche Kodierungsräume vorbereitet, ohne selbst zu transkribieren.
Eine spätere lesungsnahe Einheit innerhalb der Pipeline. Ein Token darf erst dann stabilisiert werden, wenn seine visuelle Grundlage dokumentiert ist.
Die Regel, dass Wort- oder Token-Grenzen nur dort angenommen werden dürfen, wo sichtbare Trennungen oder ausreichend dokumentierte Befunde vorliegen.
Eine mögliche Lesungs- oder Transkriptionsfassung, die neben anderen Varianten bestehen kann, solange der Bildbefund keine eindeutige Entscheidung erzwingt.
Eine Transkription, die ihre Grundlagen offenlegt: Bildstelle, Segment, Glyphbefund, Unsicherheit und alternative Lesungen.
Ein gespeichertes Zwischenergebnis der Pipeline, zum Beispiel Segmentdaten, Glyphbefunde, Variantenlisten oder Unsicherheitsberichte. Analyseartefakte machen den Weg zur Lesung nachvollziehbar.
Ein Verfahren, bei dem nicht nur ein fertiger Text erzeugt wird, sondern jeder relevante Zwischenschritt als prüfbares Artefakt erhalten bleibt.
Eine geplante Oberfläche, mit der gespeicherte Analyseartefakte eines Runs durchsucht, geprüft und verglichen werden können.
Der Bereich von HISTORIAMP, in dem alle Analyseergebnisse, Metadaten, Segmentinformationen und Prüfbefunde strukturiert gespeichert werden.
Die Möglichkeit, eine Lesung später kritisch zu prüfen: Welche Bildstelle, welches Segment, welcher Glyphbefund und welche Unsicherheit haben zu dieser Lesung geführt?
Ein vereinfachter Nutzungsmodus für Anwender, die vor allem eine lesbare Ausgabe benötigen. Im Gegensatz zum Research Mode zeigt er nicht zwingend alle Analyseebenen im Detail.
Eine beobachtbare Eigenschaft der Quelle oder eines Bildsegments. Ein Befund ist noch keine Interpretation und keine endgültige Lesung.
Ein gespeicherter visueller oder technischer Befund, etwa eine markierte auffällige Glyphform mit Koordinaten, Segmentbezug und Unsicherheitsstatus.
Eine Analyseebene, die sichtbare Eigenschaften dokumentiert, bevor daraus eine Transkription oder Interpretation entsteht.
Unsicherheit wird nicht verborgen, sondern ausdrücklich markiert. Sie ist ein Analyseergebnis und kein Systemfehler.
Die wissenschaftliche Arbeit an Textüberlieferungen, bei der Lesungen, Varianten, Eingriffe und Entscheidungen nachvollziehbar dokumentiert werden.
Die konkrete Grundlage einer Aussage. In HISTORIAMP bedeutet Evidenz primär: ein sichtbarer, dokumentierter Bildbefund.
Der Vergleich zwischen technischem Bildbefund, Modellbehauptung, Transkriptionsvorschlag und späterer Ausgabe.
Die maßgebliche Grundlage der Analyse. In HISTORIAMP ist die Quelle nicht der erzeugte Text, sondern die dokumentierte Bildgrundlage.
Eine Analyse, bei der jede Behauptung auf die konkrete Quelle oder eine dokumentierte Bildfassung zurückgeführt werden muss.
Ein detaillierter Nutzungsmodus, der die vollständige Analysepipeline, Artefakte, Varianten und Unsicherheiten sichtbar macht.
Eine stille Normalisierung liegt vor, wenn ein unsicherer oder besonderer Bildbefund im Ergebnis geglättet wird, ohne dass die Unsicherheit sichtbar bleibt.
Ein Artefakt, das dokumentiert, wo und warum die Analyse unsicher ist.
Eine sichtbare Markierung für unsichere Lesungen oder Befunde, zum Beispiel `⟦...??⟧`.
Ein Verweis auf die konkrete visuelle Grundlage einer Lesung, etwa ein Segment, ein Glyphfinding oder ein dokumentierter Bildbereich.
Die Regel, dass sichtbare Evidenz Vorrang vor sprachlicher, historischer oder statistischer Plausibilität hat.
Die Fähigkeit, eine Analyse nicht nur als Ergebnis, sondern als dokumentierten Weg von der Quelle zur Lesung zu prüfen.
Ein Analysemodul für Kürzungsformen. Es soll sichtbare Zeichen, Kürzungsstriche oder Zusatzformen untersuchen, ohne sie vorschnell in moderne Vollformen umzuwandeln.
Die schrittweise Verarbeitung einer Manuskriptquelle von der Bildprüfung über Layout, Segmente, Glyphen, Minimcluster und Abbreviaturen bis zur begründeten Lesung und Qualitätskontrolle.
Ein Modul, das mehrere Befunde oder Lesungsvorschläge vergleicht. Ziel ist nicht Mehrheit um jeden Preis, sondern eine begründete Entscheidung mit dokumentierter Unsicherheit.
Ein Modul zur Untersuchung einzelner sichtbarer Zeichenformen. Es soll grafische Merkmale erfassen, bevor eine Lesung daraus abgeleitet wird.
Ein geplantes Modul zur Analyse wiederkehrender Glyphformen. Langfristig kann es helfen, Schreiberprofile oder formale Muster innerhalb eines Codex zu erkennen.
Ein geplantes Modul zur Trennung verschiedener visueller Bereiche, etwa Text, Illustration, Ornament, Randbereich oder andere grafische Strukturen.
Ein technisches System, das ein Bild in rechteckige Rasterbereiche zerlegt. Es dient vor allem der Orientierung, Visualisierung und technischen Kontrolle.
Ein vorgeschaltetes Modul, das Bilddateien, Hashes, Maße, Formate, Metadaten, Ableitungen und Modellinput-Fassungen dokumentiert. Es liest und interpretiert keinen Text.
Ein geplantes Modul zur kontrollierten Bildvorbereitung, etwa für Rotation, Kontrast, Perspektive oder andere technische Korrekturen.
Ein Modul zur Untersuchung der Seitenstruktur: sichtbare Bereiche, Zeilenanordnung, Textzonen, Randbereiche und strukturelle Trennungen.
Ein Modul zur Analyse von Zeilenstrukturen, Zeilenverläufen, Abständen, Unterbrechungen und problematischen Übergängen.
Das vorgeschaltete Modul für Bildintegrität, Input Fidelity und Koordinatenintegrität. Es prüft die technische Belastbarkeit der Bildgrundlage.
Das erste Analysemodul der Pipeline. Es beschreibt nur sichtbare Eigenschaften der Quelle und erzeugt keine Transkription.
Ein Modul zur Analyse der sichtbaren Seiten- und Layoutstruktur.
Ein Modul bzw. Systembereich zur kontrollierten Aufteilung in relevante Analysebereiche, etwa Zeilen-, Wort- oder Glyphbereiche.
Ein Modul zur Analyse einzelner sichtbarer Glyphformen.
Ein Modul zur Untersuchung von Minimstrukturen und verdichteten Strichgruppen.
Ein Modul zur Analyse sichtbarer Kürzungsformen und möglicher Abbreviaturen.
Eine geplante visuelle Lupe für auffällige Glyphbereiche und mögliche MUFI-/Unicode-Kandidaten. Sie erzeugt Befunde, keine fertigen Lesungen.
Ein Modul zur Erstellung einer diplomatischen oder quellengebundenen Transkription auf Basis dokumentierter Befunde.
Ein Modul zum Vergleich konkurrierender Lesungen und Befunde.
Ein Modul zur Prüfung von Struktur, Konsistenz, Unsicherheiten, visueller Grundlage und möglichen Fehlern.
Ein Modul zur Analyse von Minimstrukturen. Es soll verhindern, dass dichte Strichgruppen vorschnell zu sicheren Wörtern rekonstruiert werden.
Ein spezialisierter Pipeline-Schritt mit klar begrenzter Aufgabe, etwa Bildprüfung, Layoutanalyse, Glyphanalyse, Transkription oder Qualitätskontrolle.
Die koordinierte Ausführung mehrerer Module in einer festgelegten Pipeline.
Eine Verzerrung, die entsteht, wenn frühe technische oder interpretative Annahmen spätere Ergebnisse beeinflussen. HISTORIAMP versucht dies durch getrennte Module und Artefakte zu reduzieren.
Ein Prüfmodul für Konsistenz, visuelle Grundlage, Unsicherheiten, Fehlerquellen und mögliche unzulässige Glättungen.
Das System zur Erzeugung von Bildsegmenten. In HISTORIAMP dient es der vollständigen Bildabdeckung und dem Schutz vor Informationsverlust.
Das Modul, das die Quelle auf sichtbare Eigenschaften prüft, ohne Text zu lesen oder Bedeutung zu interpretieren.
Ein geplantes Modul zur Erkennung verschiedener Textbereiche oder visueller Zonen innerhalb einer Manuskriptseite.
Ein Modul zur Erstellung einer Transkription. In HISTORIAMP darf sie keine unsicheren Stellen still glätten.
Ein geplantes Modul zum Vergleich mehrerer Manuskripte, Lesungen oder Überlieferungsvarianten.
Das Python-Webframework, auf dem die Serverinfrastruktur von HISTORIAMP basiert.
Die technische Ebene von HISTORIAMP: Upload, Speicherung, Validierung, Segmentierung, Artefaktverwaltung, API und Modulorchestrierung. Sie interpretiert keine Manuskriptinhalte.
Eine Bildverarbeitungsbibliothek, die in HISTORIAMP für technische Aufgaben wie Segmentierung, Kantenanalyse oder Bildoperationen genutzt werden kann.
Eine Bibliothek versionierter Modul-Prompts. Sie macht nachvollziehbar, mit welcher Anweisung ein Modul gearbeitet hat.
Eine isolierte Analyseausführung. Jeder Upload erzeugt einen eigenen Run mit eigener Verzeichnisstruktur, Bilddaten, Segmenten, Modulergebnissen und Logs.
Die eindeutige Kennung eines Analyse-Runs. Sie verbindet Bild, Segmente, Artefakte und Modulergebnisse.
Das Prinzip, dass jede Analyse vollständig in einem eigenen Run-Verzeichnis gespeichert wird. Dadurch bleiben Analysen reproduzierbar und voneinander getrennt.
Eine technische Sicherung, die parallele Schreibzugriffe auf denselben Run verhindern soll.
Die technische Basis von HISTORIAMP: FastAPI-Server, Upload, Speicherung, Runs, Segmentierung, APIs und Artefaktverwaltung.
Ein Nachverfolgungssystem, das Run-ID und Trace-Run-ID nutzt, um Analysewege, Modulschritte und Ergebnisse reproduzierbar zu machen.
Eine Kennung zur Nachverfolgung einzelner Pipeline-Schritte oder Ausführungswege innerhalb eines Runs.
Die Arbeitsoberfläche von HISTORIAMP. Sie dient dem Upload, der Bildanzeige, Grid- und Segmentansicht, Modulsteuerung und Ergebnisprüfung.