Kontakt aufnehmen

Sie wünschen mehr Informationen oder haben eine Frage? Schreiben Sie uns:

captcha
Datenschutzerklärung.

LLMs: die größten Datensammler unserer Zeit!


Veröffentlicht am 27.01.2024 von ANNA-LENA HOHNBERG
Avatar

LLMs: die größten Datensammler unserer Zeit!

 

KI & Datenschutz: kann das funktionieren?

 

Der Schutz der eigenen Daten ist wichtig, das dürfte nicht nur das 2018 für alle EU-Staaten verbindliche Datenschutzgesetz demonstrieren. Gerade für Unternehmen stellt der Datenschutz oftmals eine Herausforderung dar, Datensammlern wird das Leben schwer gemacht.

Die modernsten Datensammler unserer Zeit sind wohl LLMs und somit haben auch sie ein DSGVO-Thema inne.

Die gute Nachricht vorweg: KI und Datenschutz schließen sich grundsätzlich nicht aus. Doch gilt es einiges zu beachten, möchte man mit LLMs datenschutzkonform arbeiten. Auch die Datensicherheit spielt dabei eine sehr große Rolle und hängt unmittelbar mit dem Handling von personenbezogenen Daten zusammen.

 

 

Aber zunächst ein kurzer Exkurs: Wie genau arbeiten LLMs?

 

Language Models (LMs) wie Large Language Models (LLMs) werden mit großen Datenmengen trainiert. Sie wissen das, was man ihnen gibt. Allerdings ist zu erwähnen, dass der Trainingsstand – beispielsweise bei GPT4- nicht bis in die heutige Zeit reicht und aktuelle Informationen auswirft. Die GPT4-Trainingsdaten haben maximal einen Stand bis Mitte 2022. Wie die Handball Nationalmannschaft in der vergangenen Woche gegen Ungarn gespielt hat, weiß das LLM also nicht.

Das LLM ist also nur so gut, wie die Daten, mit denen es trainiert wird. Und tagtäglich fließen neue (persönliche) Informationen und Daten in die LLMs, in dem wir sie bemühen, unsere Aufgaben zu erledigen. Das ist bestimmt vielen nicht so bewusst. „Erstelle mir meinen Lebenslauf…“, „Schreibe mir einen Brief mit folgenden Informationen, mit folgendem Empfänger…“ usw.  

Arbeite ich also mit einer frei verfügbaren Version eines LLMs, was an vielen Schreibtischen der Republik der Fall sein dürfte, so können meine „reingekippten“ Daten zu Trainingszwecken genutzt werden, was auch der Grund ist, warum die Modelle „frei verfügbar sind. Somit sind meine Daten also u.U. auch frei greifbar für andere Nutzer mit den richtigen Prompts.

Meine Texte mit Firmeninterna und persönlichen Daten sind somit also absolut nichts für ChatGPT und Co. War euch das bewusst?

Mittlerweile gibt es auch kostenpflichtige Businessversionen der LLMs, die meine Daten nicht zu Trainingszwecken nutzen. Eine Alternative und zumindest eine sicherere Variante.

 

 

Ein eigenes LLM für mein Unternehmen.

 

Immer mehr Firmen wollen ihr eigenes Large Language Model und es mit firmeneigenen Daten trainieren, es beispielsweise als firmeninternes „Wikipedia“ nutzen oder für repetitive Aufgaben einsetzen. Die Einsatzmöglichkeiten sind jedenfalls vielseitig.

Das macht aber für Firmen meist nur Sinn, wenn sie es mit vertraulichen Daten trainieren können und eben auch mit personenbezogenen Daten, damit es lückenlos arbeiten kann, hilfreich ist und im Daily Business Sinn macht.

Da stellt sich schnell eine Frage: welchen Anbieter wähle ich? Nutze ich ein Closed Source oder ein Open Source Modell?

 

 

Closed Source vs. Open Source

 

GPT4 und Co. beispielsweise ist ein Closed Source Modell, das ich auch kotenpflichtig für mein Unternehmen individuell trainieren kann.  Die Server von Closed-Source-Modellen wie GPT4 stehen unter anderem irgendwo in den USA. Das bedeutet, dass die Anbieter der LLMs dafür Sorge tragen, dass keine Unbefugten Zugriff auf meine Daten erhalten und „meine“ Informationen sicher sind. Ich muss also volles Vertrauen in den Anbieter haben und die Verantwortung in andere Hände legen. Das ist wiederum aber nicht so einfach, muss ich als Unternehmen letztlich auch die volle Verantwortung für meine Datensicherheit und DSGVO-konformes Datenhandling tragen.

Im Gegensatz zu einer Closed-Source-Variante bin ich bei Open-Source-Modellen wesentlich flexibler: ich selbst kann den Anbieter aussuchen, bei dem meine Daten gehostet werden. Oder noch besser: ich stelle mir meinen eigenen Server in den Keller und habe damit alles in meiner Hand und eben auch die volle Kontrolle über meine Daten und ihren Schutz. Diese Wahl habe ich bei Closed-Source-Anbietern nicht.

Die Speicherung von Daten in der Cloud kann übrigens auch DSGVO-konform erfolgen. Dabei ist es von zentraler Bedeutung, sicherzustellen, dass Administratoren keinen Zugriff auf die eingegebenen Daten oder Prompts haben. Dies kann durch Maßnahmen wie Verschlüsselung und strikte Zugriffskontrollen gewährleistet werden. Diese Sicherheitsvorkehrungen gewährleisten, dass die Daten ausschließlich von autorisierten Personen genutzt werden können, wodurch die Privatsphäre der Nutzer effektiv geschützt wird.

 

Die Zukunft von LLMs in Unternehmen liegt bei Open-Source-Modellen, da sind wir uns ganz sicher.

Es gilt, schon bei der Planung von „KI in meinem Unternehmen“ alle Vor- und Nachteile der Modelle zu beleuchten und vor allem Sicherheitsaspekte zu berücksichtigen. Sind meine vertraulichen Daten sicher und wie genau sieht mein Zugriffs- und Rechtemanagement aus, kann es eine durchgängige Ende-zu-Ende-Verschlüsselung geben?

 

Fakt ist: sobald man LLMs mit vertraulichen und persönlichen Daten speisen möchte, ist es gut, die Kontrolle über sie zu behalten. Ob Cloudlösung oder Server im Keller: wenn ich die Verantwortung tragen möchte und muss, brauche ich eine vollständige und lückenlose „Schlüsselliste“ zu meinen Serverraum.

tisson & company article img