Data Management : une mise à jour s’impose
Améliorer la qualité des données est devenu une des principales préoccupations des institutions financières.
La digitalisation à marche forcée du secteur Banque-Finance-Assurance et l’intégration des données extra-financières (ESG pour Environnement Social Gouvernance) liée au développement de la Finance Durable ont un fort impact sur les équipes de Data Management.
Ces tendances renforcent le besoin de repenser le fonctionnement des référentiels valeurs et de mettre en place des contrôles et processus automatisés. Pour distribuer des informations de qualité au sein de l’organisation, il est nécessaire de déployer de nouveaux outils basés sur le traitement avancée de la donnée et l’intelligence artificielle.
Nous avons développé une toolbox IA, « WeeRemediate », qui permet de remédier et d’industrialiser les contrôles qualités sur les référentiels de données. En quelques semaines avec WeeRemediate, nous avons pu corriger les codifications de plus 12.000 fonds représentant près de 40% des AUM (Asset Under Management) couverts par une grande institutions financières.
Le principal frein à l’adoption d’un tel outil est celui de l’acceptation des responsables métiers (Référentiel, Risque, Opérations, Finance, etc..) de faire confiance à un algorithme pour réaliser la validation et la correction de données sensibles. Avec cette série d’articles, nous allons expliquer comment fonctionne WeeRemediate pour montrer qu’un tel outil est bien plus fiable qu’une remédiation manuelle.
Dans ce premier article nous revenons sur les grands principes du data management. Dans le second article, nous présentons les impacts du manque de qualité des référentiels sur une organisation. Finalement, nous allons voir comment WeeRemediate arrive à traiter les causes racines des problèmes de qualité des données de façon fiable et sécurisée.
Bernard Trevisan, un alchimiste du XVe siècle, passa une grande partie de sa vie et de sa considérable fortune à la recherche du secret de la transformation des métaux communs en or. Il réalisa au moment de sa mort que « Pour faire de l’or, il faut de l’or. »
Les référentiels de données font partie des constituants essentiels d’une organisation, en particulier en finance où le traitement de l’information est le cœur de l’activité. Le rôle des référentiels est souvent méconnu. Nous revenons dans ce premier article sur leur grand principe de fonctionnement afin de mieux comprendre « où ça grince ». Cela permettra de bien appréhender comment nous adressons les problèmes évoqués dans l’article suivant : Le danger des référentiels valeurs.
Les référentiels de données sont rattachés aux processus de Data Management de l’entreprise.
Ces processus garantissent que les données de référence sont tenues à jour et coordonnées dans toute l’entreprise. L’objectif est d’organiser, gérer et distribuer les données qui nécessitent une homogénéité au sein de la structure et qui ont une large utilisation dans l’organisation.
Les référentiels contiennent les données non-transactionnelles communes de l’entreprise.
Ces données de référence donnent le contexte aux données transactionnelles. Cela comprend les détails (définitions et identificateurs) des objets internes et externes impliqués dans les opérations commerciales comme les informations sur les clients, les produits, les employés, les fournisseurs et les domaines contrôlés (plage de valeurs des codes).
Figure 2 – Les entités gérées dans les référentiels de données
Contrairement aux données opérationnelles, les données de référence sont principalement statiques et sont rattachées à des notions évoluant peu dans le temps. Elles sont sémantiquement stables et sont définies de la même façon dans l’ensemble de l’organisation.
Les référentiels s’alimentent de fournisseurs internes comme les systèmes de gestion, externes comme les Data Providers (Bloomberg, Reuters, State Street, Morning Star, MSCI, Six Telekurs, …) ou de référentiels officiels (Anna, GLEIF, …).
Figure 3 – Exemple de flux entrants des référentiels
Faciliter les interactions entre les acteurs avec l’usage d’identifiants
De nombreux codes sont associés aux entités et doivent être maintenus. Voici quelques exemples connus : le code BIC des contreparties pour le paiement-livraison sur SWIFT ou le LEI pour les entités légales et les codes ISIN, Cusip, Sedol et autres Ticker pour l’identification des instruments financiers.
A l’exception de quelques codes critiques comme le LEI, la maintenance des codes externes n’est pas prise en charge par les équipes de Data Management ou les équipes métiers.
Il y a une hétérogénéité très forte sur ces codes marchés et il est impossible d’obtenir leur complétude. Il n’existe pas de référentiel officiel ou de fournisseurs de services qui permettent de réconcilier ces identifiants entre-deux (cf. l’initiative de la GLEIF et de l’ANNA pour tenter d’associer LEI et ISIN).
Distribution des données de référence dans le système d’information
Au moment de leur création, des codes internes sont attribués pour chaque entité gérée afin de les identifier de façon unique.
Ces identifiants peuvent être complétés par des références externes qui permettront de communiquer avec des acteurs externes. Par exemple pour le règlement/livraison (BIC), la gestion du collatéral et des instructions de paiement (Alert Code), le reporting réglementaire (LEI) ou le trading sur les plateformes électroniques (Access Code), etc..
Les données de référentiels sont transmises à l’ensemble des systèmes de gestion de l’entreprise soit par des extractions (transfert en « batch » quotidien de fichiers généralement au format csv), soit par des bus de données ou EAI dans des messages au format, si possible, standardisé comme le FMPL (schéma XML de l’ISDA).
Figure 4 – Distribution des données de références
Comme il s’agit de solutions de conception relativement anciennes, on note l’absence d’API (Application Programming Interface) permettant d’interagir en lecture ou en écriture avec leur contenu.
Il y a également peu de mécanismes d’automatisation disponibles. Un module de création en masse est parfois présent mais il n’est pas capable de réaliser des mises à jour.
Autres grandes absentes, les fonctions de recherche et d’extraction en masse et en libre-service par les utilisateurs ou de catalogues de données permettant de connaitre le contenu complet du référentiel ainsi que les modèles de données et les processus associés. Les extractions se font donc par le support IT et peuvent prendre plusieurs jours.
Tous les compléments d’information sont ajoutés manuellement par les équipes de Data Management. Ceux-ci ne sont généralement pas contrôlés ni maintenus dans le temps. L’étape de création ne fonctionne pas nécessairement mieux car de nombreuses codifications externes sont manquantes au moment de l’ajout des valeurs dans le référentiel. Par exemple, le code ISIN d’un fonds peut être disponible plusieurs jours voire semaines après la demande d’on-boarding par l’Asset Manager.
Conclusion
La donnée de référence est l’huile qui permet le bon fonctionnement du moteur et les référentiels sont les pompes qui permettent la distribution à l’ensemble de ses composants. Si la donnée est de trop mauvaise qualité ou si la distribution n’est pas assez efficace, cela augmente la friction entre les différents composants et le moteur casse. Nous ne sommes plus très loin de la rupture au sein des institutions financières.
Suite de notre série sur le Data Management – une mise à jour s’impose : Le danger des référentiels valeurs.