Wie Unternehmen ChatGPT und andere Sprachmodelle nutzen

ChatGPT-Check

Ist der Chatbot von OpenAI ein bessereres Large Language Model?

ChatGPT verspricht, als erster Chatbot mit seinen Nutzer:innen wirklich intelligente Dialoge in natürlicher Sprache führen zu können. Darüber hinaus scheint seine Kreativität immens: Er kann Texte verfassen, Business-Pläne erstellen oder sogar Programmcode schreiben. Doch wie bei allen Sprachmodellen, in der Fachsprache Large Language Models genannt, ist Vorsicht geboten. Auch ChatGPT ist nur so schlau wie das, worauf er trainiert wurde.

Wir haben den Check gemacht. Von den Grundlagen über Anwendungsmöglichkeiten bis hin zu den echten Risiken von ChatGPT: Wie gut ist der Chatbot von OpenAI?

Was konnten Chatbots bisher?

Angeblich können Chatbots viele Probleme lösen. Insbesondere im Kundenkontakt erhoffen sich viele Anbieter smoothe Lösungen für sich und ihre Kund:innen. Nicht umsonst findet sich auf jeder namhaften B2C-Website auch ein Pop-up für den unmittelbaren Kontakt durch einen „Wie kann ich Ihnen weiterhelfen“-Chatbot.

In der Realität sind Chatbots für Kund:innen leider oft eine frustrierende Erfahrung: Sie sind unflexibel bei der Eingabe von Daten, lösen die Aufgaben nur auf streng vorgegebenen Wegen und geben den Kund:innen beim Scheitern des Vorgangs das Gefühl, nicht ernstgenommen zu werden.

Was wäre nun, könnte ein Chatbot tatsächliche Gespräche führen, und könnte es auch Fließtexte verlässlich und flexibel auf interne Business-Logik mappen?

Was ist ChatGPT?

Am 30. November 2022 veröffentlichte die amerikanische Firma OpenAI ihren Chatbot ChatGPT. ChatGPT ist ein Transformer Large Language Model, das mit der Nutzer:in auf eine Art und Weise kommuniziert, dass man meinen könnte, man spräche mit einem Menschen. Seit dem 1. März 2023 kann ChatGPT per API abgefragt werden.

Während ChatGPT definitiv die erste öffentlich zugängliche, große künstliche Intelligenz für den Dialog mit technischen Systemen ist, ist die Technologie schon älter und kommt alles andere als aus dem Nichts. Andere haben sich auch schon daran versucht: Meta veröffentlichte am 22. November 2022 seinen Research-Paper-Versteher Galactica, zog ihn aber wegen Toxizität und der Unfähigkeit, Fakt von Fiktion zu unterscheiden, innerhalb von drei Tagen wieder aus dem Verkehr. Google veröffentlichte sein LaMDa-Modell zwar erst in diesem Jahr unter dem Namen Bard, angekündigt hatte der Konzern es aber schon Mitte 2021.

Wie funktioniert ChatGPT?

Alle Large Language Models sind neuronale Netzwerke, die als Eingabe eine numerische Repräsentation von Text erhalten, also eine tabellarische Umsetzung von Wörtern in Werte. Diese numerische Repräsentation kodiert das gemeinsame Auftreten von Wörtern – und damit überraschend gut die Semantik von Sprache.

Auf dieser Repräsentation eines Trainingsdatensatzes lernen die GPT-Modelle, welche Konstellationen von Wörtern mit welcher Wahrscheinlichkeit in einem Text auftreten. Anhand dieser versucht das Modell, einen Chatverlauf zu einem sinnvollen Ende zu bringen, indem es das nächste Wort vorhersagt. ‚Sinnvoll‘ bedeutet hierbei ‚statistisch wahrscheinlich‘. Damit das Modell flexibel bleibt, wählt es nicht immer nur den wahrscheinlichsten Antwortpfad, sondern zufällig einen aus den x Wahrscheinlichsten.

Das zugrundeliegende neuronale Netzwerk ist eine Verbesserung (Finetuning) des GPT-3 (Generative Pretrained Transformer) -Modells, GPT-3.5 turbo, in einer Implementierung, die auf das Erfüllen von Anweisungen (InstructGPT) spezialisiert ist.

GPT-3 wurde auf einem sehr großen Datensatz trainiert. Dieser enthält Common Crawl und WebText2 (‚das‘ Internet), Books1 und Books2 (tausende Bücher) und die gesamte Wikipedia – diese ist am Umfang gemessen das kleinste Element.

Um dieses Datenvolumen als Zahlen repräsentieren zu können, braucht das Modell 175 Milliarden Parameter, also Erinnerungen an den Trainingstext. Oder anders gesagt: Heuristiken zu den Zusammenhängen von beobachteter Sprache.

Die von OpenAI verwendeten Version wurde mittels Reinforcement Learning from Human Feedback verbessert: Menschen haben die Ausgaben des Modells bewertet, um die Antworten weniger toxisch zu machen und inhaltlich zu verbessern.

Was können ChatGPT und vergleichbare generative Large Language Models?

ChatGPT soll als Assistent wirken. Dies deckt sich teilweise auch mit tatsächlich beobachtbaren Stärken.

Unterstützung bei Textgeneration und Korrektur

Der Chatbot kann aus losen Anweisungen Entwürfe für Code, Blogartikel – nein, nicht diesen! – und Textcontent jeder Art generieren, nicht nur auf Deutsch und auf Englisch. Hierbei ist seine Stärke das allgemein Gehaltene, also die ungefähre Form von Text.
Programmcode für wohlverstandene Probleme kann je nach Spezifikation in der Regel direkt kompiliert und ausgeführt werden. Ein Blogartikel würde dem noch ungeübten Auge vielleicht gar nicht als maschinell generiert auffallen.
Modelle dieser Art können auch korrektiv angewendet werden. Mit etwas Glück findet ChatGPT Fehler in Programmcode und korrigiert alle Rechtschreibfehler – ohne neue einzubauen.

Ein dickes Aber: Kein Output sollte unhinterfragt als fertiges Produkt verwendet werden. Fehler, Missverständnisse und Ineffizienzen sind dank der statistischen Natur der Algorithmen unausweichlich. Außerdem sind klassische Modelle in ihren Trainingsdaten auf einen Zeitraum begrenzt, können also nur bedingt auf neuestes Wissen zugreifen.

Sensible Daten wie interne E-Mails oder Sitzungsnotizen sollten nicht an externe Sprachmodelle weitergegeben werden. Diese Daten werden auf den Servern der Anbieter abgespeichert und sind damit nicht mehr ausreichend geschützt.

Klassische Chatbot Funktion

Mit einer API zur Abfrage von Prompts (Eingabeaufforderungen) eröffnet sich die Möglichkeit, generative Sprachmodelle in einen eigenen Chatbot zu integrieren. Large Language Models ermöglichen das Erkennen und Zuordnen von Inhalten zu internen Funktionsaufrufen – und damit endlich intelligente Chatbots, die nicht nur auf Fragen treffende Antworten herausgeben (wie Q&A-Funktionalitäten), sondern auch korrektes Vorgehen ableiten können.

Allerdings gibt es auch Schwierigkeiten bei wichtiger generativer Funktionalität, wie Verlässlichkeit des Service oder Garantien über Inhalte des generierten Textes. Im Kundenkontakt ist das sogenannte „toxische Verhalten“ besonders gefährlich.

Warum produzieren Large Language Models toxische Ausgaben?

Die neuronalen Netzwerke kodieren beobachtete Wortkonstellationen über ihre Trainingsdaten. Da der Trainingsdatensatz aus Text besteht, der von Menschen produziert wurde, enthält dieser auch all die unerwünschten Inhalte, die im Internet veröffentlicht wurden. Dazu gehören Wortkonstellationen, die rassistisches, sexistisches, homophobes, transphobes und antisemitisches Gedankengut kodieren. Die Large Language Models reproduzieren diese in entsprechendem Kontext.

OpenAI legt großen Wert darauf, ChatGPT und KI im Ganzen sicher zu machen. Hierzu werden beispielsweise Ausgaben, die unerwünschtes Gedankengut enthalten, in Warnhinweise zu ethischem Verhalten umgewandelt. Es handelt sich aber um ein offenes Problem, solche Ausgaben zu erkennen und zu verhindern.

Wrap up: Unser Fazit zu Einsatz, Risikomanagement und Informationssicherheit

Wir besprachen, was ChatGPT ist, wie ein Large Language Model funktioniert und wofür man es gut benutzen kann. Nicht nur wegen organisatorischer Faktoren – wie europäischer regulatorischer Ansätze und dem Datenschutz – sondern auch wegen ethischer Probleme ist der Aufbau von Infrastruktur um Large Language Models derzeit nicht risikofrei.

Es gibt zwar schon jetzt Open Source Alternativen zu ChatGPT. Diese haben jedoch die gleichen technischen Beschränkungen – und häufig viel schlechtere oder gar keine Safety-Implementierungen. Auch muss abgewogen werden, ob es sich lohnt, große Modelle lokal laufen zu lassen. Für einen simplen Chatbot lohnt sich dieser Aufwand kaum.

Die Empfehlung lautet für Large Language Models wie für Künstliche Intelligenz im Allgemeinen. Um nicht abgehängt zu werden, müssen Unternehmen prüfen, ob und wie sich Prozesse durch den Einsatz von KI verbessern lassen oder ob mit KI neue Wertschöpfungsmöglichkeiten entstehen können, die es zu entdecken und abzuschöpfen gilt. Bei alledem sind insbesondere bei Einbindung von externen Modellen Risikomanagement (rechtlich, organisatorisch, technisch) und Informationssicherheit wichtige Themen.

Generative KI steht noch in ihren Anfängen und kann schon jetzt beeindrucken. Sie bleibt, auch wenn Regulatorien sicher folgen werden. Durch flexible Implementierungen können sich Unternehmen jetzt gut für die Zukunft aufstellen.

Unser Experte

Gabriel Storch

ist angehender Informatiker und Werkstudent im KI-Team bei der HEC. Seine Schwerpunkte liegen hier unter anderem auf Chatbots und maschineller Spracherkennung. Die Möglichkeit, durch quantitative Aussagen Wertschaffung für Alle zu ermöglichen und zu begünstigen, treibt ihn an. Dabei soll Data Science helfen.

Mehr über Leistungen in KI und Data Science erfahren