Wer ist unser Kunde?
Fr. Meyer's Sohn (FMS) ist ein globales Speditions- und Logistikunternehmen in Familienbesitz, das sowohl See-, Luft-, als auch Landtransporte organisiert und somit für seine Kund:innen die gesamte Transportkette abdeckt.
Mit welcher Fragestellung ist FMS zu uns gekommen?
Ein wesentlicher Teil der Arbeit von FMS ist die Erfassung von Kundenaufträge im Transportmanagementsystem (TMS), um Sendungen anzulegen. Fehlende Informationen werden hierbei von Disponent:innen mithilfe ihres intrinsischen Wissens vervollständigt.
FMS benötigte eine Lösung, die mittels statistischer Methoden und maschinellen Lernens fehlende Informationen aus E-Mails von Kund:innen möglichst genau schätzt (imputation) und eine Schnittstelle zum automatischen Erfassen von Sendungsdaten in E-Mails ermöglicht.
Eine Herausforderung entstand durch das unregelmäßige Fehlen von Daten und durch heterogene Datentypen, für die einzelne Modelle trainiert werden mussten. Eine andere bestand darin, die Felder der Maske fachlich sinnvoll zu befüllen.
Wie sind wir vorgegangen? In welchen Phasen haben wir gearbeitet?
Das Projekt setzten wir in zwei Phasen um:
- In der ersten Phase analysierten wir eine Teilmenge der vorhandenen Daten und erhoben bestehende Geschäftsregeln. Neben Standardaufgaben wie der Datenbereinigung legten wir hier ein besonderes Augenmerk auf das Association Rule Mining, um verdeckte Regel zu identifizieren. Wir wählten MissForest als geeignetes Modell zum Vervollständigen aus. Anhand einer Testfunktion implementierten und evaluierten wir es mit zufällig fehlenden Werten. Zudem konzpierten wir eine Pipeline zur Datenvorbereitung und setzten diese mit Hilfe von maßgeschneiderten Transformern - also einzelnen Datenvorbereitungsschritten - um.
- In der zweiten Phase des Projektes ging es intensiv um die Auswertung und Verbesserung der Ergebnisse. Dazu implementierten wir ein weiteres Modell sowie eine Benchmark zum Vergleichen. Die Modelle passten wir auf den vollständigen Datensatz an und überarbeiteten die Implementation der Pipeline, um die Kompatibilität mit bestehenden Transformern aus sklearn zu gewährleisten. Das Deployment der Modelle wurde beispielhaft mithilfe des Frameworks flask als API aufgezeigt.
Fehlende Pflichtfelder werden nun einfach vervollständigt.
Wie sieht die von uns geschaffene Lösung aus?
Eine unvollständige Sendung kann nun als JSON mit einem POST-Request an die API geschickt werden. Sie wird mit allen Pflichtfeldern vervollständigt als JSON zurückgegeben. Für die Imputation stehen zwei Modelle zur Verfügung, die nun in der Praxis erprobt werden, um Sachbearbeiter:innen zukünftig durch fachlich stimmige Vorschläge zu unterstützen.
Die eingesetzten Technologien (Auswahl)
- JupyterLab (Python 3)
- scikit-learn
- flask
- pandas
- numpy
Ihr Ansprechpartner für dieses Projekt
