HANA Cloud Vector Engine – kurz erklärt
Worum es geht
Klassische RAG-Setups brauchen drei Komponenten: einen Embedding-Service (Modell), eine Vektor-Datenbank (Pinecone, Weaviate, Qdrant, pgvector) und eine LLM-Inference-Schicht. Die Vektor-Datenbank war oft Quelle von Komplexität – Lifecycle, Backup, Compliance, Lizenz.
Die HANA Cloud Vector Engine (verfügbar seit 2024, GA für Produktion seit Mitte 2024) löst das in der SAP-Welt: Vektoren werden in der vorhandenen HANA Cloud gespeichert und abgefragt. Eine Komponente weniger.
Was sie kann
- Vektor-Datentyp in der HANA-Tabelle (
REAL_VECTOR(1536)oderREAL_VECTOR(3072)etc.) - Cosine-Distance-Suche über klassisches SQL:
SELECT ... ORDER BY COSINE_SIMILARITY(vec, ?) DESC LIMIT 10 - Hybrid-Search – Kombination mit klassischer Volltextsuche und strukturierten Filtern in einer einzigen SQL-Query
- Indizes für schnelle Approximate-Nearest-Neighbor-Suche
- Berechtigungen wie für andere HANA-Daten (Schemas, Rollen)
Wo die Grenzen sind
- Skalierung: bis ~10 Millionen Vektoren mit guter Performance auf Standard-HANA-Cloud-Tarifen. Darüber hinaus lohnt sich eine spezialisierte Vektor-DB
- Specialized-Index-Tuning: weniger flexibel als pgvector mit ivfflat/hnsw-Tuning oder spezialisierte Engines wie Milvus
- Multi-Tenancy: ein HANA-Tenant pro Mandant, wenn strikte Trennung gefordert ist
Wann die richtige Wahl
Sinnvoll:
- Sie haben HANA Cloud sowieso (RAG-Setups in BTP-Welten)
- Vektor-Volumen unter 10 Mio.
- Wunsch nach minimaler Architektur-Komplexität
- SAP-Daten in Hybrid-Search (Vektor + strukturiert)
Eher nicht sinnvoll:
- Sehr grosse Vektor-Volumina (> 100 Mio.)
- Hochspezialisierte Indizierung (z.B. Multi-Vector pro Dokument)
- Wunsch nach Multi-Cloud-Provider-Unabhängigkeit
Konkretes Beispiel
```sql -- Tabelle für Wissensbasis-Chunks CREATE TABLE knowledge_chunks ( id NVARCHAR(36) PRIMARY KEY, doc_id NVARCHAR(120), chunk_text NCLOB, embedding REAL_VECTOR(1536), last_modified TIMESTAMP, audience NVARCHAR(20) );
-- Hybrid-Search: Vektor + Filter SELECT id, doc_id, chunk_text, COSINE_SIMILARITY(embedding, ?) AS score FROM knowledge_chunks WHERE audience = 'public' AND last_modified > ADD_MONTHS(CURRENT_DATE, -6) ORDER BY score DESC LIMIT 10; ```
Eine einzige Abfrage, ein einziger System-Roundtrip.
Faustregel
Wer eine RAG-Anwendung baut und HANA Cloud bereits hat: Vector Engine ist der Default. Wer einen reinen AI-Stack ohne SAP aufsetzt: spezialisierte Vektor-DB sinnvoller.
Stand: 2026-04-30
