Pipeline-Uebersicht
Wie Quellsystemdaten von Roh-Exporten in einen diagnostizierten, herstelleragnostischen analytischen Datensatz transformiert werden.
1. Ausgangspunkt: Der Quellsystem-Export
Abschnitt betitelt „1. Ausgangspunkt: Der Quellsystem-Export“Jede Organisation verwaltet ihre operativen Daten durch ein oder mehrere Quellsysteme — ERP-Plattformen, branchenspezifische Software oder benutzerdefinierte Tools. Von Domain Packs unterstuetzte Quellsysteme umfassen Skidata, CargoWise, SAP MM, Navision und viele mehr.
Die Organisation exportiert ihre Daten als Dateiensatz — typischerweise Excel-Arbeitsmappen oder CSV-Dateien. Diese Dateien sind die rohe Wahrheit. Sie enthalten alles — aber sie sind unordentlich, herstellerspezifisch und nicht analysebereit.
2. Konvertierung: Vom Herstellerformat zu kanonischen CSVs
Abschnitt betitelt „2. Konvertierung: Vom Herstellerformat zu kanonischen CSVs“Der erste Schritt ist, den Quellsystem-Export in ein standardisiertes CSV-Format zu bringen. Hier lebt das herstellerspezifische Wissen.
3. Die Medallion-Architektur: Bronze → Silver → Gold
Abschnitt betitelt „3. Die Medallion-Architektur: Bronze → Silver → Gold“3.1 Bronze: Strukturelle Einnahme
Abschnitt betitelt „3.1 Bronze: Strukturelle Einnahme“Was es tut: Liest jede CSV-Datei genau wie sie ist in die Datenbank. Keine Transformation, kein Filtern, kein Urteilen.
Was es hinzufuegt: source_file und row_number fuer Rueckverfolgbarkeit.
Source-System Dispatch: Nur hier erscheinen herstellerspezifische Spaltennamen. Ab Bronze aufwaerts ist das Datenmodell vollstaendig quellsystem-agnostisch.
3.2 Silver: Validierung und Domain-Logik
Abschnitt betitelt „3.2 Silver: Validierung und Domain-Logik“Was es tut: Nimmt jede Bronze-Tabelle und wendet Domain-Wissen an — Bereinigung, Typkonvertierung, Validierung.
Das Designprinzip: kein stilles Filtern. Silver verwirft nie eine Zeile. Jede Zeile bekommt is_valid und invalid_reason.
3.3 Gold: Das zertifizierte Produkt
Abschnitt betitelt „3.3 Gold: Das zertifizierte Produkt“Was es tut: Filtert Silver auf nur gueltige Zeilen. Das ist der finale, vertrauenswuerdige Datensatz — der Produktvertrag.
Die Gold-Ebene ist formal versioniert durch einen Contract (gold_contract.v1.json).
4. Qualitaet als erstklassiger Buerger
Abschnitt betitelt „4. Qualitaet als erstklassiger Buerger“Die Pipeline transformiert nicht nur Daten — sie misst ihre eigene Qualitaet auf jeder Stufe (Silver Quality Metrics, Gold Quality Metrics, Reconciliation).
5. Multi-Tenant und organisationsuebergreifende Analytik
Abschnitt betitelt „5. Multi-Tenant und organisationsuebergreifende Analytik“Jeder Tenant bekommt sein eigenes isoliertes Schema in der Datenbank. Die Platform-Ebene sitzt ueber allen Tenants und erstellt Union-Views ueber Organisationen.
6. Diagnose: Das Signal-Framework
Abschnitt betitelt „6. Diagnose: Das Signal-Framework“Signals sind automatisierte diagnostische Abfragen, die den Datensatz nach Anomalien, Ineffizienzen und potenziellen finanziellen Risiken durchsuchen.
Wie Signals funktionieren
Abschnitt betitelt „Wie Signals funktionieren“Jedes Signal:
- Operiert ausschliesslich auf Gold Entities
- Sucht nach einem bestimmten Muster oder einer Anomalie
- Produziert standardisierte Findings
Der Findings Contract
Abschnitt betitelt „Der Findings Contract“Jedes Signal gibt Zeilen mit derselben Struktur aus: finding_id, tenant_id, probe_id, severity, entity_type, entity_id, time_bucket, money_at_risk, evidence.
7. Ausblick
Abschnitt betitelt „7. Ausblick“Geplante Verbesserungen: automatisierte Einnahme, inkrementelle Loads, temporale Gueltigkeit von Referenzdaten und zusaetzliche Signal-Typen.
Siehe die englische Referenz fuer die vollstaendige Dokumentation mit allen Detailtabellen.