Methoden und Wissen
Mit künstlicher Intelligenz Dokumente klassifizieren
02. Januar 2024 / Annekathrin Gut
Wie bewältigt man große Mengen an Dokumenten?
Die Marketing-Broschüren, der Vertriebs-Pitch, alle Rechnungen seit 2003 und sämtliche Umsatzstatistiken: „Unsere Dokumente sollen in die Cloud“, sagen immer mehr Unternehmen, vor allem seitdem häufiger mobil gearbeitet wird. Denn Cloud-Computing ist praktisch: Mitarbeitende können überall auf Firmenunterlagen zugreifen. Wenn das gesamte Wissen einer Firma in die Cloud wandern soll, kommen schnell zigtausend verschiedene Dokumente zusammen. Wie organisiert man diese sinnvoll?
Helfen kann dabei künstliche Intelligenz – sowohl mit Out-of-the-box-Lösungen als auch mit Individualentwicklungen. Wichtig ist, das eigentliche Ziel nicht aus den Augen zu verlieren: Eine Ablagestruktur ist kein Selbstzweck, sondern Beschäftigte sollen schneller ihre Dokumente finden.
Ordner – brauchen wir die in der Cloud noch?
Dreißig Dokumente lassen sich von Hand durchsuchen. Bei 300.000 wird das schon schwieriger. Sven Sieverding, Microsoft 365-Entwickler bei der HEC, fragt grundsätzlich: „Ist die Idee einer Ordnerstruktur noch so sinnvoll?“ Und gibt gleich selbst die Antwort: „Diese Denkweise ist historisch in Stein gemeißelt, aber heutzutage total unpraktisch.“
Die herkömmliche Ablage von Dokumenten birgt aus Sicht des Experten mehrere Gefahren: Zum einen gibt es Redundanzen („Warum liegt das aktuelle Infoblatt sowohl im Ordner Produktmanagement als auch im Vertrieb – und welches ist aktuell?“). Zum anderen entsteht Desorientierung („Muss ich jetzt alle Ordner einzeln durchklicken, um das Dokument zu finden?“).
Metadaten: Dokumente automatisch finden
Die Alternative zur Suche per Hand heißt „Metadaten“. Jedem Dokument werden ein oder mehrere Attribute angehängt, zum Beispiel Datum, Typ, Vorgang, Thema, Prozess, Kunde oder Projekt. Die Suchanfrage „Zeig mir bitte alle Eingangsrechnungen an…“ wird mit einem Klick erledigt.
Experte Sven Sieverding empfiehlt, zuvor eine sinnvolle Informationsarchitektur anzulegen: „Eine Struktur für die Metadaten würde ich nicht zu komplex machen.“ Alle, die bei Social Media oder im SEO-Marketing aktiv sind, kennen das: Man legt sich eine Liste der wichtigsten Keywords oder Hastags an, die das Unternehmen und seine Projekte kennzeichnen.
KI trainieren: Wie kommen die Metadaten ans Dokument?
300.000 Dokumente sollen mit Metadaten versehen werden: Wer damit nicht tagelang Werkstudierende beschäftigen möchte, holt sich technologische Hilfe. Künstliche Intelligenz (KI) sichtet Dokumente und klassifiziert sie sinnvoll. Das geht im Übrigen auch bei E-Mails oder Chatverläufen.
Zunächst muss der Algorithmus der KI auf der Basis aussagekräftiger Daten so trainiert werden, dass er Muster erkennen kann – zum Beispiel ob ein Dokument zu einem bestimmten Projekttyp gehören könnte. Aus den 300.000 Dokumenten werden beispielsweise 1.000 für das Training ausgewählt. Vor dem perfekten Ergebnis steht die Anlernphase, in der die KI noch Fehler macht.
„Das funktioniert umso besser, je mehr die KI begreift, wie meine Dokumente funktionieren“, erklärt Sven Sieverding. „Im Zweifel braucht man mehr Dokumente fürs Training.“ Weniger Trainingsdaten sind dagegen erforderlich, wenn die Dokumente immer gleich aufgebaut sind, wie zum Beispiel Rechnungen.
Erst wenn die KI gelernt hat, die Metadaten passend zuzuordnen, werden die restlichen Dokumente hochgeladen. Und: Die KI lernt weiterhin selbstständig dazu. Je mehr „Übung“ sie bekommt, desto besser werden die Ergebnisse.
KI-Standardlösung: Microsoft Viva Topics
Für diesen Prozess gibt es fertige KI-Lösungen, zum Beispiel Microsoft Viva Topics. Die KI ist bereits in der Arbeitsplattform Microsoft Teams integriert und kann mit einer Lizenz aktiviert werden. Wird dann ein Dokument in Teams hochgeladen, fügt Topics ihm automatisch Themen („Topics“) hinzu. Zuvor sollten die Nutzer:innen einige grundlegende Stichworte bestimmen – siehe oben.
Auch MS Viva Topics muss trainiert werden. Dazu lässt man das Programm über einige hochgeladene Dokumente laufen. „So lernt die KI und wird immer schlauer“, erklärt Microsoft-Experte Sven Sieverding. Selbst wenn das Thema nicht explizit im Text genannt ist, erkennt die KI das Dokument und ordnet es zu. Nebenbei bemerkt: Natürlich können alle Dokumente in Teams zusätzlich in der bekannten Ordnerstruktur abgelegt werden.
Topics schafft außerdem Verbindungen zwischen Dokumenten. So werden Begriffe im Dokument mit einem Hyperlink versehen. Mit dem Mauszeiger öffnet sich ein Fenster, das verknüpfte Dokumente und Änderungsversionen anzeigt. Das geht sogar, wenn sich Nutzer:innen in einem E-Mail- oder Chatverlauf befinden. Microsoft erleichtert mit Topics also nicht nur die Auffindbarkeit von Informationen, sondern bietet auch ein komplexes Wissensmanagement.
Individuelle KI-Lösungen
Wer das Microsoft Universum nicht nutzen kann oder möchte, für den gibt es neben anderen Standardanwendungen auch individuelle Lösungen. Die HEC hat einige Anwendungen speziell für die Anforderungen von mittelständischen Unternehmen entwickelt. „Uns geht es darum, KI in die Anwendung zu bringen und einen echten Mehrwert zu schaffen“, erklärt Sven Tröger, Data Scientist und KI-Koordinator der HEC. „Wir möchten, dass auch mittelständische Unternehmen von der neuen Technologie profitieren können.“
KI-Methoden können sinnvoll eingesetzt werden, um Prozesse Ressourcen-optimierend, kosteneffizient, nachhaltig und wertschöpfend zu gestalten. Dabei müssen die Anwendungsgebiete von KI-Methodiken nicht immer unendlich komplex oder besonders innovativ sein. „Oft sind das schon Low Hanging Fruits“, hat Sven Tröger festgestellt. „Ein großer Mehrwert entsteht oft schon bei scheinbar einfachen und sich wiederholenden Aufgaben.“
Für einen internationalen Seefrachtspediteur haben die HEC-Kollegen zum Beispiel Informationen aus E-Mails extrahiert, um Sendungsmasken anhand von historischen Daten mit Vorschlägen zu füllen. Beim Spediteur dauert nun die Bearbeitung deutlich kürzer, es werden Kosten gespart und die neu gewonnene Zeit kann für andere, wertschaffende Aufgaben genutzt werden.
Das Beispiel lässt sich auf viele Szenarien übertragen, in denen Informationen extrahiert oder mit Wissen angereichert werden müssen. Auch Dokumente (zum Beispiel Rechnungen, Verträge oder Bestellungen) bieten viele Möglichkeiten. Sie lassen sich mit Hilfe einer Texterkennung analysieren und in weiteren Schritten verarbeiten. Rechnungsinformationen können beispielsweise extrahiert und mit dem Wissen vergangener Buchungen angereichert werden. Dadurch können Sachbearbeitenden valide Vorschläge zu Kontierungen gemacht werden, um sie in ihrer täglichen Arbeit zu unterstützen
Welche Lösung für wen?
Wann eignet sich welche Lösung für welches Unternehmen? MS Viva Topics punktet mit seiner Integration in Teams und einem informativen Vorschaufenster. Allerdings verlangt es für diesen Service regelmäßige Lizenzgebühren. Sollen nur einmalig 300.000 historische Dokumente im Rahmen einer Migration in die Cloud hochgeladen und klassifiziert werden, dann ist vielleicht eine einfache Individuallösung günstiger. Wenn 500 Dokumente, also kleinere Datenmengen, verarbeitet werden müssen, dann lohnt sich das Training einer KI möglicherweise gar nicht.
Eine fachliche Abschätzung ist in jedem Fall sinnvoll. Sven Tröger und seine Kolleg:innen sichten die vorhandenen Unternehmensdaten, analysieren sie und entwickeln Machbarkeitsstudien. Unternehmen, die sich unsicher sind, können in der HEC Datensprechstunde eine kostenlose Erstberatung bekommen.
KI hilft in vielen Fällen
„KI ist die Lösung für das Problem, dass du zu viele Dokumente hast“, sagt Sven Sieverding. Und in unserer komplexen Welt kommen immer neue, noch nicht klassifizierte Aufgaben hinzu. „Themen sind ja etwas Fluides und verändern sich mit der Zeit“, so der Microsoft-Experte. KI hilft, diese Komplexität zu bewältigen.