Vue d'ensemble du pipeline
Comment les données des systèmes source sont transformées d’exports bruts en un jeu de données analytique diagnostiqué et agnostique du fournisseur.
L’architecture Medallion : Bronze → Silver → Gold
Section intitulée « L’architecture Medallion : Bronze → Silver → Gold »Bronze : Ingestion structurelle
Section intitulée « Bronze : Ingestion structurelle »Lit chaque fichier CSV tel quel dans la base de données. Pas de transformation, pas de filtrage. Ajoute source_file et row_number pour la traçabilité. C’est le seul endroit où apparaissent les noms de colonnes spécifiques au fournisseur.
Silver : Validation et logique métier
Section intitulée « Silver : Validation et logique métier »Prend chaque table Bronze et applique la connaissance métier — nettoyage, cast de types, validation et vérifications d’intégrité référentielle. Chaque ligne reçoit is_valid et invalid_reason. Principe de conception : pas de filtrage silencieux. Silver ne supprime jamais une ligne.
Gold : Le produit certifié
Section intitulée « Gold : Le produit certifié »Filtre Silver aux seules lignes valides. C’est le jeu de données final et de confiance — le Contract produit. Formellement versionné à travers un Contract (gold_contract.v1.json).
La qualité comme citoyen de premier rang
Section intitulée « La qualité comme citoyen de premier rang »Le pipeline ne se contente pas de transformer les données — il mesure sa propre qualité à chaque étape :
- Silver Quality Metrics — combien de lignes sont valides vs invalides
- Gold Quality Metrics — combien de lignes ont survécu de Silver à Gold
- Réconciliation — les totaux financiers s’additionnent-ils
Multi-tenant et analytique inter-organisations
Section intitulée « Multi-tenant et analytique inter-organisations »Chaque tenant obtient son propre schéma isolé. La couche Platform crée des vues union à travers les organisations avec tenant_id.
Le framework Signal
Section intitulée « Le framework Signal »Une fois les données certifiées et unifiées dans Gold, le vrai travail analytique commence. Les Signals sont des requêtes diagnostiques automatisées qui scannent le jeu de données pour des anomalies, inefficacités et risques financiers potentiels.
Pour la vue d’ensemble complète du pipeline incluant le modèle de données détaillé, les règles de validation par entité, les descriptions de Signals et les perspectives futures, voir la version anglaise.