Contact us.

Would you like to know more about our products or do you have a question?

captcha
Our Data Privacy Policy.

Daten, Daten, Daten! Aber bitte hochwertig!


Published on 12/09/2024from HORST TISSON
Avatar

Die Qualität der Daten ist für die Arbeit mit Künstlicher Intelligenz entscheidend. Na klar, wird jetzt der ein oder andere schon denken. Denn wir haben bereits gelernt: je hochwertiger die Daten sind, desto besser kann die KI trainiert werden und die Daten verarbeiten und auswerten. Doch: was bedeutet eigentlich „hochwertige Daten“?

 

Werfen wir einen Blick auf den eigenen Desktop. Liegen dort die unterschiedlichsten Dateien aus verschiedensten Kategorien? Mobilfunkrechnung_April, Präsentation_Neu, Präsentation_NeuNeu, Präsentation_aktuell, Foto1.jpg , Auflistung_Mitarbeiterdaten.xls usw. Gar nicht so einfach, hier den Überblick zu behalten.

Machen wir nun eine kleine Übung: im ersten Schritt löschen wir alle alten Dateien, die nicht relevant sind. Was kann weg, was ist relevant? Und keine Angst: das wird kein Tutorial, wie man seinen Desktop aufräumt.

Im zweiten Schritt legen wir Ordner an (sollten die nicht schon existieren). Sortieren wir nun die Rechnungen in den Rechnungsordner usw. Innerhalb kürzester Zeit ist der Desktop übersichtlicher und wir können besser mit den Dateien arbeiten. Nicht relevante und nicht aktuelle Informationen sind im besten Fall gelöscht, alle anderen kategorisiert.

So ähnlich kann man sich den Beginn der Aufbereitung bei Daten für die Arbeit mit KI vorstellen. Natürlich weitaus komplexer und umfangreicher.

Es lassen sich folgende „Todos“ bei der Aufbereitung von Daten zusammenfassen:

 

 

  • Datenquellen identifizieren: welche Daten sind relevant, wo liegen diese vor?
  • Datenqualität prüfen: sind meine Daten aussagekräftig und vollständig für die Arbeit, die ich mit Ihnen plane?
  • Daten bereinigen:  Duplikate entfernen, alte Dateien löschen, Fehlinformationen entfernen, Werte vervollständigen
  • Daten strukturieren: einheitliche Bezeichnungen und Formate finden, Daten kategorisieren und eindeutig labeln
  • Datenschutz und Compliance sicherstellen: Datenschutzrichtlinien prüfen, Daten evtl. anonymisieren und Zugriffsrechte definieren
  • Daten für das KI-Modell vorbereiten: Trainingsdaten, Testdaten und Validierungsdaten erstellen.
  • Automatisierung durch Tools: Nutzung von Bibliotheken und Datenmanagementtools

 

 

Die Vorbereitung und Aufarbeitung der Daten ist sehr entscheidend für den Erfolg der Arbeit mit KI in Bezug auf Genauigkeit und aussagekräftige Ergebnisse. Deswegen lohnt es sich, viel Zeit zu investieren und sehr sorgfältig zu arbeiten.

tisson & company article img

Foto: Wesley Thinge (Unsplash)

1. Datenidentifikation und -kategorisierung

Erfassung von Datenquellen:

  • Kundendaten (CRM-Systeme)
  • Schadensmeldungen
  • Vertragsdaten
  • Maklerprotokolle
  • Sensor- oder IoT-Daten (z. B. Telematik in der Kfz-Versicherung)
  • Externe Datenquellen (z. B. Wetterdaten oder demografische Daten)

 

Kategorisierung: Die Daten werden in strukturierte (Tabellen, Datenbanken) und unstrukturierte Daten (PDFs, Bilder, E-Mails) aufgeteilt.

Relevanzanalyse: Es wird geprüft, welche Daten für spezifische KI-Anwendungen (z. B. Schadensbewertung, Risikoberechnung) nützlich sind.

 

2. Datenbereinigung

Dubletten entfernen: Überprüfung auf doppelte Datensätze, insbesondere in Kundendatenbanken.

Lücken füllen: Fehlende Datenpunkte identifizieren und, wenn möglich, aus anderen Quellen ergänzen.

Standardisierung: Einheitliche Formate (z. B. Datumsangaben oder Adressen), Konsistenz in Bezeichnungen (z. B. "Auto" vs. "Kfz").

 

 

 

3. Datenintegration

Zusammenführung: Daten aus verschiedenen Quellen (z. B. CRM, Schadenssysteme, externe Daten) in einem zentralen Data Warehouse oder Data Lake konsolidieren.

Schnittstellen schaffen: APIs oder Datenpipelines einrichten, um Echtzeitdaten oder Batch-Updates zu integrieren.

Formatangleichung: Sicherstellen, dass Daten aus verschiedenen Quellen in kompatiblen Formaten vorliegen.

 

 

4. Datenannotierung

Für KI-Anwendungen wie Bilderkennung (z. B. bei Schadensfotos) oder Textanalyse (z. B. bei Schadensberichten):

Tagging: Daten manuell oder halbautomatisch mit relevanten Kategorien versehen.

Beispiel: Bilder von Fahrzeugschäden mit Schadenskategorien annotieren.

Labeling: Daten mit Ausgabenkennzeichnungen versehen (z. B. "Genehmigt" oder "Abgelehnt" bei Schadensmeldungen).

5. Datenqualitätssicherung

Qualitätsprüfungen: Sicherstellen, dass Daten vollständig, akkurat und aktuell sind.

Outlier-Analyse: Identifizieren und Überprüfen von Ausreißern, die KI-Modelle verfälschen könnten.

Regelmäßige Aktualisierung: Datenbanken auf dem neuesten Stand halten.

 

6. Daten-Sicherheit und Compliance

 KI-Modelle mit datenschutzfreundlichen Ansätzen trainieren, z. B. durch Differential Privacy.

Revisionssicherheit: Alle Änderungen an Daten dokumentieren.

Regulatorische Anforderungen erfüllen:

DSGVO (Datenminimierung, Transparenz)

Versicherungsaufsichtsrecht (BAFIN-Richtlinien)

 

7. Datenbereitstellung für KI

Feature Engineering: Wichtige Merkmale aus den Daten extrahieren (z. B. Schadenhöhe, Fahrzeugalter, Region).

Datenpartitionierung: Trainingsdaten, Testdaten und Validierungsdaten erstellen

„KI-freundliche“ Formate: Daten in Formate wie CSV, JSON oder Parquet konvertieren, die für Machine-Learning-Modelle geeignet sind.

 

Gerade bei Versicherungen und in Unternehmen, die mit sensiblen Daten arbeiten, ist „Sicherheit“ bei der Verarbeitung der Informationen besonders wichtig. Versicherungen sollten also auf eigene KI-Systeme setzen, die sie mit ihren Informationen füttern und von denen sie wissen, wo die Server stehen, im besten Fall sogar im eigenen Serverraum. Deswegen ist Open Source ein großes Thema: mit vollem Zugriff und Kontrolle. Wer also sicherstellen möchte (und muss), dass die eigenen Daten das Haus nicht verlassen, der setzt auf die wirklich eigene KI (mehr Informationen zum Beispiel unter www.oskis.de).

 

Wer in die Arbeit mit KI startet, sollte sich ganzheitlich beraten lassen und es macht Sinn, den kompletten Datenaufbereitungsprozess bereits von Profis begleiten zu lassen. Nur so kann sichergestellt werden, dass sie immer sicher gehandelt werden. 

tisson & company article img

OSKIS: www.oskis.de