Eine Person sitzt am Laptop

Methoden und Wissen

Mit künstlicher Intelligenz Dokumente klassifizieren

02. Januar 2024 / Annekathrin Gut

Wie bewältigt man große Mengen an Dokumenten?

Die Marke­ting-Broschü­ren, der Vertriebs-Pitch, alle Rech­nun­gen seit 2003 und sämt­li­che Umsatz­sta­tis­ti­ken: „Unsere Doku­mente sollen in die Cloud“, sagen immer mehr Unter­neh­men, vor allem seit­dem häufi­ger mobil gear­bei­tet wird. Denn Cloud-Compu­ting ist prak­tisch: Mita­r­bei­tende können über­all auf Firmen­un­ter­la­gen zugrei­fen. Wenn das gesamte Wissen einer Firma in die Cloud wandern soll, kommen schnell zigtau­send verschie­dene Doku­mente zusam­men. Wie orga­ni­siert man diese sinn­voll?

Helfen kann dabei künst­li­che Intel­li­genz – sowohl mit Out-of-the-box-Lösun­gen als auch mit Indi­vi­du­al­ent­wick­lun­gen. Wich­tig ist, das eigent­li­che Ziel nicht aus den Augen zu verlie­ren: Eine Abla­g­e­struk­tur ist kein Selbst­zweck, sondern Beschäf­tigte sollen schnel­ler ihre Doku­mente finden.

Ordner – brau­chen wir die in der Cloud noch?

Drei­ßig Doku­mente lassen sich von Hand durch­su­chen. Bei 300.000 wird das schon schwie­ri­ger. Sven Siever­ding, Micro­soft 365-Entwick­ler bei der HEC, fragt grund­sätz­lich: „Ist die Idee einer Ordner­struk­tur noch so sinn­voll?“ Und gibt gleich selbst die Antwort: „Diese Denk­weise ist histo­risch in Stein gemei­ßelt, aber heut­zu­tage total unprak­tisch.“

Die herkömm­li­che Ablage von Doku­men­ten birgt aus Sicht des Exper­ten mehrere Gefah­ren: Zum einen gibt es Redun­dan­zen („Warum liegt das aktu­elle Info­blatt sowohl im Ordner Produkt­ma­na­ge­ment als auch im Vertrieb – und welches ist aktu­ell?“). Zum ande­ren entsteht Deso­ri­en­tie­rung („Muss ich jetzt alle Ordner einzeln durch­kli­cken, um das Doku­ment zu finden?“).

IT-Berater im Gespräch

Meta­da­ten: Doku­mente auto­ma­tisch finden

Die Alter­na­tive zur Suche per Hand heißt „Meta­da­ten“. Jedem Doku­ment werden ein oder mehrere Attri­bute ange­hängt, zum Beispiel Datum, Typ, Vorgang, Thema, Prozess, Kunde oder Projekt. Die Such­an­frage „Zeig mir bitte alle Eingangs­rech­nun­gen an…“ wird mit einem Klick erle­digt.

Experte Sven Siever­ding empfiehlt, zuvor eine sinn­volle Infor­ma­ti­ons­a­r­chi­tek­tur anzu­le­gen: „Eine Struk­tur für die Meta­da­ten würde ich nicht zu komplex machen.“ Alle, die bei Social Media oder im SEO-Marke­ting aktiv sind, kennen das: Man legt sich eine Liste der wich­tigs­ten Keywords oder Hastags an, die das Unter­neh­men und seine Projekte kenn­zeich­nen.

KI trai­nie­ren: Wie kommen die Meta­da­ten ans Doku­ment?

300.000 Doku­mente sollen mit Meta­da­ten verse­hen werden: Wer damit nicht tage­lang Werk­stu­die­rende beschäf­ti­gen möchte, holt sich tech­no­lo­gi­sche Hilfe. Künst­li­che Intel­li­genz (KI) sich­tet Doku­mente und klas­si­fi­ziert sie sinn­voll. Das geht im Übri­gen auch bei E-Mails oder Chat­ver­läu­fen.

Zunächst muss der Algo­rith­mus der KI auf der Basis aussa­ge­kräf­ti­ger Daten so trai­niert werden, dass er Muster erken­nen kann – zum Beispiel ob ein Doku­ment zu einem bestimm­ten Projekt­typ gehö­ren könnte. Aus den 300.000 Doku­men­ten werden beispiels­weise 1.000 für das Trai­ning ausge­wählt. Vor dem perfek­ten Ergeb­nis steht die Anlern­phase, in der die KI noch Fehler macht.

„Das funk­tio­niert umso besser, je mehr die KI begreift, wie meine Doku­mente funk­tio­nie­ren“, erklärt Sven Siever­ding. „Im Zwei­fel braucht man mehr Doku­mente fürs Trai­ning.“ Weni­ger Trai­nings­da­ten sind dage­gen erfor­der­lich, wenn die Doku­mente immer gleich aufge­baut sind, wie zum Beispiel Rech­nun­gen.

Erst wenn die KI gelernt hat, die Meta­da­ten passend zuzu­ord­nen, werden die rest­li­chen Doku­mente hoch­ge­la­den. Und: Die KI lernt weiter­hin selbst­stän­dig dazu. Je mehr „Übung“ sie bekommt, desto besser werden die Ergeb­nisse.

KI-Stan­dard­lö­sung: Micro­soft Viva Topics

Für diesen Prozess gibt es fertige KI-Lösun­gen, zum Beispiel Micro­soft Viva Topics. Die KI ist bereits in der Arbeits­platt­form Micro­soft Teams inte­griert und kann mit einer Lizenz akti­viert werden. Wird dann ein Doku­ment in Teams hoch­ge­la­den, fügt Topics ihm auto­ma­tisch Themen („Topics“) hinzu. Zuvor soll­ten die Nutzer:innen einige grund­le­gende Stich­worte bestim­men – siehe oben.

Auch MS Viva Topics muss trai­niert werden. Dazu lässt man das Programm über einige hoch­ge­la­dene Doku­mente laufen. „So lernt die KI und wird immer schlauer“, erklärt Micro­soft-Experte Sven Siever­ding. Selbst wenn das Thema nicht expli­zit im Text genannt ist, erkennt die KI das Doku­ment und ordnet es zu. Neben­bei bemerkt: Natür­lich können alle Doku­mente in Teams zusätz­lich in der bekann­ten Ordner­struk­tur abge­legt werden.

Topics schafft außer­dem Verbin­dun­gen zwischen Doku­men­ten. So werden Begriffe im Doku­ment mit einem Hyper­link verse­hen. Mit dem Maus­zei­ger öffnet sich ein Fens­ter, das verknüpfte Doku­mente und Ände­rungs­ver­si­o­nen anzeigt. Das geht sogar, wenn sich Nutzer:innen in einem E-Mail- oder Chat­ver­lauf befin­den. Micro­soft erleich­tert mit Topics also nicht nur die Auffind­bar­keit von Infor­ma­ti­o­nen, sondern bietet auch ein komple­xes Wissens­ma­na­ge­ment.

Zwei Männer am Laptop

Indi­vi­du­elle KI-Lösun­gen

Wer das Micro­soft Univer­sum nicht nutzen kann oder möchte, für den gibt es neben ande­ren Stan­dar­dan­wen­dun­gen auch indi­vi­du­elle Lösun­gen. Die HEC hat einige Anwen­dun­gen spezi­ell für die Anfor­de­run­gen von mittel­stän­di­schen Unter­neh­men entwi­ckelt. „Uns geht es darum, KI in die Anwen­dung zu brin­gen und einen echten Mehr­wert zu schaf­fen“, erklärt Sven Tröger, Data Scien­tist und KI-Koor­di­na­tor der HEC. „Wir möch­ten, dass auch mittel­stän­di­sche Unter­neh­men von der neuen Tech­no­lo­gie profi­tie­ren können.“

KI-Metho­den können sinn­voll einge­setzt werden, um Prozesse Ressour­cen-opti­mie­rend, kosten­ef­fi­zi­ent, nach­hal­tig und wert­schöp­fend zu gestal­ten. Dabei müssen die Anwen­dungs­ge­biete von KI-Metho­di­ken nicht immer unend­lich komplex oder beson­ders inno­va­tiv sein. „Oft sind das schon Low Hanging Fruits“, hat Sven Tröger fest­ge­stellt. „Ein großer Mehr­wert entsteht oft schon bei schein­bar einfa­chen und sich wieder­ho­len­den Aufga­ben.“

Für einen inter­na­ti­o­na­len Seefracht­s­pe­di­teur haben die HEC-Kolle­gen zum Beispiel Infor­ma­ti­o­nen aus E-Mails extra­hiert, um Sendungs­mas­ken anhand von histo­ri­schen Daten mit Vorschlä­gen zu füllen. Beim Spedi­teur dauert nun die Bear­bei­tung deut­lich kürzer, es werden Kosten gespart und die neu gewon­nene Zeit kann für andere, wert­schaf­fende Aufga­ben genutzt werden.

Das Beispiel lässt sich auf viele Szena­rien über­tra­gen, in denen Infor­ma­ti­o­nen extra­hiert oder mit Wissen ange­rei­chert werden müssen. Auch Doku­mente (zum Beispiel Rech­nun­gen, Verträge oder Bestel­lun­gen) bieten viele Möglich­kei­ten. Sie lassen sich mit Hilfe einer Texter­ken­nung analy­sie­ren und in weite­ren Schrit­ten vera­r­bei­ten. Rech­nungs­in­for­ma­ti­o­nen können beispiels­weise extra­hiert und mit dem Wissen vergan­ge­ner Buchun­gen ange­rei­chert werden. Dadurch können Sach­be­a­r­bei­ten­den valide Vorschläge zu Kontie­run­gen gemacht werden, um sie in ihrer tägli­chen Arbeit zu unter­stüt­zen

Welche Lösung für wen?

Wann eignet sich welche Lösung für welches Unter­neh­men? MS Viva Topics punk­tet mit seiner Inte­gra­tion in Teams und einem infor­ma­ti­ven Vorschau­fens­ter. Aller­dings verlangt es für diesen Service regel­mä­ßige Lizenz­ge­büh­ren. Sollen nur einma­lig 300.000 histo­ri­sche Doku­mente im Rahmen einer Migra­tion in die Cloud hoch­ge­la­den und klas­si­fi­ziert werden, dann ist viel­leicht eine einfa­che Indi­vi­du­al­lö­sung güns­ti­ger. Wenn 500 Doku­mente, also klei­nere Daten­men­gen, vera­r­bei­tet werden müssen, dann lohnt sich das Trai­ning einer KI mögli­cher­weise gar nicht.

Eine fach­li­che Abschät­zung ist in jedem Fall sinn­voll. Sven Tröger und seine Kolleg:innen sich­ten die vorhan­de­nen Unter­neh­mens­da­ten, analy­sie­ren sie und entwi­ckeln Mach­bar­keits­s­tu­dien. Unter­neh­men, die sich unsi­cher sind, können in der HEC Datensprechstunde eine kostenlose Erstberatung bekommen.

KI hilft in vielen Fällen

„KI ist die Lösung für das Problem, dass du zu viele Doku­mente hast“, sagt Sven Siever­ding. Und in unse­rer komple­xen Welt kommen immer neue, noch nicht klas­si­fi­zierte Aufga­ben hinzu. „The­men sind ja etwas Flui­des und verän­dern sich mit der Zeit“, so der Micro­soft-Experte. KI hilft, diese Komple­xi­tät zu bewäl­ti­gen.

Das Thema interessiert Sie? Sprechen Sie uns an.

Sven Sieverding

Sven Sieverding

Beratung Microsoft 365

0421 20750 0 E-Mail senden
Sven Tröger

Sven Tröger

KI-Koordination und Data Science

0421 20750 204 E-Mail senden