Datenklassifikation mit LLMs – was sich wirklich ändert

Stammdaten-Klassifikation ist seit Jahren der heimliche Engpass im PIM. Generative Sprachmodelle ändern hier mehr, als die Marketingfolien zugeben – sie verstehen unstrukturierte und mehrsprachige Produktbeschreibungen, liefern eine prüfbare Begründung pro Code und extrahieren Klassen-Attribute (Bauart, Funktionsmerkmale) gleich mit. GS1 GPC, eCl@ss und kundeneigene Taxonomien – auf einer dedizierten Azure-Instanz in der Schweizer Region.

Stammdaten als Engpass – und wie LLMs ihn lösen

In nahezu jeder digitalen Lieferkette steht und fällt der Erfolg mit der Qualität der Stammdaten. Klassifikationssysteme wie GS1 GPC, eCl@ss oder UNSPSC liefern den semantischen Rahmen – aber die eigentliche Arbeit bleibt das Zuordnen einzelner Artikel zu den richtigen Codes.

In den meisten Unternehmen passiert das heute manuell. Mit allen Folgen: hohe Aufwände, Inkonsistenzen, lange Listungsprozesse, schlechte Such-/Filter-Erfahrungen für Endkunden.

Warum LLMs hier wirklich helfen

LLMs sind keine Allzweckwaffe. Aber bei Klassifikation spielen sie ihre Stärken aus:

Sprache verstehen, auch unstrukturiert – Produktbeschreibungen sind selten in einem sauberen Schema, oft mehrsprachig, oft mit Tippfehlern und unklaren Markennamen.
Begründung mitliefern – anders als klassische ML-Klassifikatoren können LLMs erklären, warum ein Artikel in einer bestimmten Kategorie landet. Das macht Audits und Stichproben handhabbar.
Attribute extrahieren, nicht nur klassifizieren – neben dem Brick-Code lassen sich Klassen-Attribute (Bauart, Funktionsmerkmale, Signalverbindungen) gleich mit extrahieren.

Drei Architektur-Optionen

Option	Charakteristik
API-Integration	Bestehende Pipelines bleiben – Classifier wird per HTTP angesprochen
Standalone-App	Eigenes UI für Stammdaten-Teams; gut für Hand-Pflege
Embedded	Eingebettet in vorhandenes System (z.B. SAP MM, PIM-Tool)

Welche Option die richtige ist, hängt vom Volumen (50 neue Artikel pro Tag vs. 50.000) und der Datenherkunft (manuelle Eingabe vs. Lieferanten-Feed) ab.

Datensicherheit: warum „dedicated" zählt

Public-Hosted LLMs sind für Stammdaten-Klassifikation problematisch – Produktdaten sind Wettbewerbsdaten. Eine dedizierte LLM-Instanz (z.B. in der Microsoft-Azure- Schweiz-Region) löst das: keine Persistierung, kein Training auf Ihren Daten, mandantengeschützte Umgebung.

Was sich verändert, wenn Klassifikation funktioniert

Stammdaten-Listung verkürzt sich von Tagen auf Stunden
Manuelle Prüfschritte sinken auf Stichproben
Such-Erfahrung für Endkunden verbessert sich messbar
Marktplatz-Anbindungen werden möglich, die vorher zu aufwändig waren
Digitaler Produktpass wird realisierbar – nicht nur als Compliance-Last, sondern als Hebel

Was zu beachten ist

Bei Brick-Code-Wahl gibt es Grauzonen – der Classifier muss die Begründung mitliefern, damit Sie überprüfen können
Eigentaxonomien brauchen ein Trainings-Set – kleine Beispielmengen reichen, aber ganz ohne geht es nicht
Compliance ist eine Eigenleistung der Architektur – keine LLM-Funktion ersetzt das Datenschutz-Konzept

Stand: 2026-05-10

SFOUR Consulting — Übersicht · Kontakt