Wie arbeitet das Bundesarchiv mit KI?
Das erste KI-Projekt haben wir schon vor einigen Jahren begonnen, als wir die in Kurrentschrift verfassten Akten des Reichskolonialamts lesbar und durchsuchbar gemacht haben. Hier knüpfen unsere aktuellen KI-Projekte an: Sie drehen sich momentan vor allem um das Erstellen durchsuchbarer Transkriptionen unseres Archivguts. Dadurch kann der vollständige Text eines Aktenbestandes zur Verfügung gestellt und durchsucht werden, wodurch sich der Zugang zu unseren Beständen verbessert. Da gängige KI-Modelle auf zeitgenössisches und sehr homogenes Schriftgut ausgelegt sind, erkennen sie zum Beispiel handschriftliche Anmerkungen, wie sie oft in unseren Akten zu finden sind, häufig nicht. Wir müssen deshalb die eingesetzten KI-Modelle an unsere Bestände anpassen und intensiv trainieren.
Im Bestand R 1001 Reichskolonialamt, der wichtig zur Aufarbeitung der deutschen Kolonialgeschichte ist, haben wir das erfolgreich erprobt. Dieser war schon lange vollständig digitalisiert, aber in großen Teilen in Kurrentschrift verfasst und deshalb für die meisten Menschen schwer zu lesen. Wir haben den Bestand genommen, dafür ein Texterkennungsmodell trainiert und Transkriptionen von allen Seiten aus R 1001 hergestellt. Diese Transkriptionen können Nutzerinnen und Nutzer jetzt im Benutzersaal in Berlin-Lichterfelde durchsuchen.
Aktuell testen wir an dem Bestand R 43 Reichskanzlei, ob sich Transkriptionen in guter Qualität auch mit Open-Source-Tools herstellen lassen. Da befinden wir uns gerade in der Testphase, das heißt, wir transkribieren schon mal ausgewählte Aktenseiten, testen die dann an unserem Texterkennungsmodell und schauen anschließend, wie gut die Qualität ist, was verbessert werden muss und wo noch Trainingsdaten für das Modell benötigt werden.
Auch bei audiovisuellen Medien erproben wir den Einsatz von KI: In einem Test an 26 ausgewählten Filmen aus unserem Filmarchiv haben wir das gesamte gesprochene Wort innerhalb eines Films transkribieren lassen und sind sehr zufrieden mit den ersten Ergebnissen.
Welche Chancen und Herausforderungen bietet der Einsatz von KI im Archivwesen?
KI ermöglicht es uns, Arbeiten anzugehen, die sonst nicht umsetzbar wären – beispielsweise die Erstellung durchsuchbarer Transkriptionen: Niemand würde sich hinsetzen und den gesamten Inhalt eines Bestandes abschreiben. Durchsuchbare Transkriptionen ermöglichen einen besseren Zugang zu unseren Beständen, können Nutzerinnen und Nutzern mehr Informationen zur Verfügung stellen und machen sie zugleich barriereärmer.
Auch bei der Extraktion von Informationen aus unserem Archivgut kann KI eine gute Unterstützung sein. Das zeigt sich gerade in einem Projekt mit den Kolleginnen und Kollegen aus dem Stasi-Unterlagen-Archiv. In einem Projekt werden von einer zentralen Kartei der Stasi Informationen wie Name, Vorname oder Geburtsdatum durch eine KI extrahiert und diese Informationen dann in der Datenbank gespeichert – dadurch entsteht eine größere Datengrundlage, welche die Recherche und die Erschließung vereinfacht.
Gleichzeitig birgt jede neue Technologie neben Chancen auch Risiken, beispielsweise hinsichtlich Datenschutzfragen oder weil Angaben von KI-Sprachmodellen nicht korrekt sind. Deswegen schauen wir uns auch jeden Anwendungsfall genau an und überlegen, ob der Einsatz von KI hier sinnvoll und sicher ist.
Wie verändert KI das Archivwesen?
Wir sehen eine große Veränderung in den Erwartungen unserer Nutzerinnen und Nutzer: Durch die große Verbreitung von Texterkennung im Alltag sind sie es gewohnt, wie bei Suchmaschinen direkt alle Informationen aus einem Dokument zu erhalten, und sind dann überrascht, dass das bei unseren Digitalisaten noch nicht möglich ist.
Da lässt sich KI einsetzen, um unseren Nutzerinnen und Nutzern mehr Informationen zur Verfügung zu stellen: Einerseits durch durchsuchbare Transkriptionen, andererseits lassen sich langfristig relevante Informationen aus den Beständen extrahieren und in unsere Datenbanksysteme einpflegen. Dadurch können die Bestände dann von unseren Fachkolleginnen und -kollegen auch besser recherchiert und erschlossen werden. KI eröffnet uns viele Möglichkeiten, mehr Informationen aus unserem Archivgut zu extrahieren und das Archivgut besser zugänglich zu machen – KI wird uns weiter begleiten.