Datenklassifikation mit LLMs – was sich wirklich ändert
Stammdaten-Klassifikation ist seit Jahren der heimliche Engpass im PIM. Generative Sprachmodelle ändern hier mehr, als die Marketingfolien zugeben – sie verstehen unstrukturierte und mehrsprachige Produktbeschreibungen, liefern eine prüfbare Begründung pro Code und extrahieren Klassen-Attribute (Bauart, Funktionsmerkmale) gleich mit. GS1 GPC, eCl@ss und kundeneigene Taxonomien – auf einer dedizierten Azure-Instanz in der Schweizer Region.
Stammdaten als Engpass – und wie LLMs ihn lösen
In nahezu jeder digitalen Lieferkette steht und fällt der Erfolg mit der Qualität der Stammdaten. Klassifikationssysteme wie GS1 GPC, eCl@ss oder UNSPSC liefern den semantischen Rahmen – aber die eigentliche Arbeit bleibt das Zuordnen einzelner Artikel zu den richtigen Codes.
In den meisten Unternehmen passiert das heute manuell. Mit allen Folgen: hohe Aufwände, Inkonsistenzen, lange Listungsprozesse, schlechte Such-/Filter-Erfahrungen für Endkunden.
Warum LLMs hier wirklich helfen
LLMs sind keine Allzweckwaffe. Aber bei Klassifikation spielen sie ihre Stärken aus:
- Sprache verstehen, auch unstrukturiert – Produktbeschreibungen sind selten in einem sauberen Schema, oft mehrsprachig, oft mit Tippfehlern und unklaren Markennamen.
- Begründung mitliefern – anders als klassische ML-Klassifikatoren können LLMs erklären, warum ein Artikel in einer bestimmten Kategorie landet. Das macht Audits und Stichproben handhabbar.
- Attribute extrahieren, nicht nur klassifizieren – neben dem Brick-Code lassen sich Klassen-Attribute (Bauart, Funktionsmerkmale, Signalverbindungen) gleich mit extrahieren.
Drei Architektur-Optionen
| Option | Charakteristik |
|---|---|
| API-Integration | Bestehende Pipelines bleiben – Classifier wird per HTTP angesprochen |
| Standalone-App | Eigenes UI für Stammdaten-Teams; gut für Hand-Pflege |
| Embedded | Eingebettet in vorhandenes System (z.B. SAP MM, PIM-Tool) |
Welche Option die richtige ist, hängt vom Volumen (50 neue Artikel pro Tag vs. 50.000) und der Datenherkunft (manuelle Eingabe vs. Lieferanten-Feed) ab.
Datensicherheit: warum „dedicated" zählt
Public-Hosted LLMs sind für Stammdaten-Klassifikation problematisch – Produktdaten sind Wettbewerbsdaten. Eine dedizierte LLM-Instanz (z.B. in der Microsoft-Azure- Schweiz-Region) löst das: keine Persistierung, kein Training auf Ihren Daten, mandantengeschützte Umgebung.
Was sich verändert, wenn Klassifikation funktioniert
- Stammdaten-Listung verkürzt sich von Tagen auf Stunden
- Manuelle Prüfschritte sinken auf Stichproben
- Such-Erfahrung für Endkunden verbessert sich messbar
- Marktplatz-Anbindungen werden möglich, die vorher zu aufwändig waren
- Digitaler Produktpass wird realisierbar – nicht nur als Compliance-Last, sondern als Hebel
Was zu beachten ist
- Bei Brick-Code-Wahl gibt es Grauzonen – der Classifier muss die Begründung mitliefern, damit Sie überprüfen können
- Eigentaxonomien brauchen ein Trainings-Set – kleine Beispielmengen reichen, aber ganz ohne geht es nicht
- Compliance ist eine Eigenleistung der Architektur – keine LLM-Funktion ersetzt das Datenschutz-Konzept
Stand: 2026-05-10
