RAG-Wissensbot auf der BTP

Worum es geht

Ein Modell – egal ob Claude, GPT oder Llama – hat ein Trainings-Schnittdatum und keine Kenntnis Ihrer internen Dokumente. Wenn Sie einen Mitarbeiter fragen, wo die Reisekostenrichtlinie steht, ein Modell ohne RAG erfindet eine Antwort, die plausibel klingt, aber falsch ist. RAG (Retrieval Augmented Generation) löst das, indem das Modell bei jeder Frage erst Ihre Quellen durchsucht, dann die Antwort daraus formuliert – mit Verweis.

Architektur

mermaid flowchart TD Q[User-Frage] E[Anfrage-Embedding] V[Vektorsuche] F[Volltextsuche] RR[Re-Ranking] S[Top-5 Quellen-Snippets] L[LLM-Call via AI Hub] A[Antwort mit Quellen-Liste] Q --> E E --> V E --> F V --> RR F --> RR RR --> S S --> L L --> A click Q call mmdInfo() "Die Frage des Users – kann frei formuliert sein, mehrsprachig oder umgangssprachlich. Wir behandeln sie als Suchanfrage, nicht als Kommando. Vor dem Embedding läuft optional ein Anfrage-Reformulierer, der zu kurze oder mehrdeutige Fragen verfeinert." click E call mmdInfo() "Die Frage wird mit text-embedding-3-large in einen 3072-dimensionalen Vektor übersetzt. Dieser Vektor codiert semantische Bedeutung – ähnliche Fragen liefern ähnliche Vektoren, auch wenn sie andere Wörter benutzen. Das ist die Basis für die Vektorsuche." click V call mmdInfo() "Die HANA Cloud Vector Engine sucht die zwanzig semantisch ähnlichsten Dokument-Chunks. Cosine-Similarity gegen alle indexierten Embeddings, in Millisekunden. Stark bei Synonymen und Umschreibungen – Reise findet auch Geschäftsreise und Travel." click F call mmdInfo() "Klassische Volltextsuche mit BM25 in HANA. Stark bei eindeutigen Bezeichnern wie Materialnummern, IBAN, SAP-Hinweis-IDs oder Auftragsnummern. Wo Vektoren scheitern, treffen Volltext-Indexe. Beide Verfahren laufen parallel." click RR call mmdInfo() "Ein Cross-Encoder bewertet jedes Treffer-Paar (Frage, Snippet) im Kontext und sortiert die Top-Fünf neu. Genauer als die initialen Vektor- und Volltext-Scores, aber teurer pro Vergleich. Deshalb wird Re-Ranking nur auf den ersten zwanzig Treffern angewendet." click S call mmdInfo() "Die fünf relevantesten Quellen-Snippets – jeder mit Dokument-ID, Seitenzahl und letztem Änderungsdatum. Diese Metadaten ermöglichen klickbare Quellverweise im UI und einen Audit-Trail für Compliance." click L call mmdInfo() "Der eigentliche LLM-Call läuft über den AI Hub auf der BTP. Das System-Prompt ist streng: Antworte NUR aus den gelieferten Quellen, bei Lücken sage 'kein Hinweis in den Quellen'. Das Modell bekommt Frage und Snippets – kein Halluzinations-Spielraum." click A call mmdInfo() "Die finale Antwort enthält den Antworttext, eine Liste der genutzten Quellen mit klickbarem Verweis und einen Confidence-Wert. Der User kann jederzeit zur Originalquelle springen – keine Black-Box, sondern ein nachvollziehbarer Wissensdienst."

Wo Hybrid-Search den Unterschied macht

Pure Vektorsuche ist toll für semantische Treffer ("Reise" findet auch "Geschäftsreise", "Dienstreise", "Travel"). Aber sie schlägt bei eindeutigen Bezeichnern manchmal fehl – Materialnummern, IBAN, SAP-Hinweise-IDs, Auftragsnummern.

Frage Vektor allein Hybrid
"Reisekostenpauschale" gut gut
"Material 1234567" mittelmässig gut
"SAP-Hinweis 3217098" schlecht gut
"Kunde mit IBAN CH93 0076 ..." schlecht gut
"Wie unterschieden sich A und B?" gut gut

Hybrid-Search kombiniert beide Welten und re-ranked dann mit einem Cross-Encoder, der die Frage und jeden Treffer paarweise bewertet – präziser als die initiale Vektorsuche.

Quellen-Pipeline

Wissen ist nur so gut wie seine Pflege. Wir bauen die Pipeline so, dass Quellen automatisch aktualisiert werden:

1. Quellen-Inventar

Pro Wissensdomäne dokumentieren wir, welche Quellen relevant sind:

2. Ingestion-Worker

Ein BTP-Service holt regelmässig die Quellen ab:

Jeder Chunk trägt Metadaten: Quell-URL, Last-Modified, Section, Sprache, Audience (öffentlich vs. intern), Owner.

3. Lifecycle

Confidence und Halluzinations-Mitigation

Die Antwort kommt mit drei Signalen:

Bei niedrigem Score → der Bot sagt: "Keine eindeutige Antwort in den verfügbaren Quellen. Möchten Sie an die Fachstelle X weiterleiten?"

Drei reale Anwendungsbereiche

a) Onboarding-Bot für neue Mitarbeitende

Wissensbasis: HR-Richtlinien, Office-Manual, Onboarding-Checkliste, Code-of-Conduct, IT-Policies. Reduziert First-Level-Anfragen ans HR um 40-60% in den ersten 90 Tagen.

b) Field-Service-Knowledge

Wissensbasis: Service-Manuals, Hersteller-Dokumentation, frühere Service-Reports, SAP Plant Maintenance Notifications. Service- Techniker können auch ohne aktuelle Erfahrung mit einem Anlagentyp fundiert reagieren.

c) Compliance-Q&A für Fachbereiche

Wissensbasis: ISMS, Datenschutz-Richtlinie, Reise- und Spesenrichtlinie, Beschaffungsrichtlinien, FINMA-Rundschreiben (für Banken). Mitarbeitende bekommen Antworten in Sekunden statt Anrufe an die Compliance-Abteilung.

KPIs

Kennzahl Ziel-Korridor
Source-Hit-Rate > 85 %
Halluzinations-Rate (Stichprobe) < 3 %
First-Response-Latency < 3 s P95
User-Satisfaction (CSAT) ≥ 4.3 / 5
Quote der "kein Hinweis"-Antworten 5–15 %
Cost-per-Query (avg) < 0.02 CHF

Was wir transparent halten

Was wir nicht versprechen

Stand: 2026-05-10

SFOUR Consulting — Übersicht · Kontakt