Informatica
Fondée en 1993, cette société Californienne a développé à ses débuts un outil ETL, PowerCenter, qui est encore à ce jour, un des plus répandus chez les clients Grands Comptes.
En plus de 20 ans, PowerCenter s’est vu doté de nouvelles fonctionnalités, de toujours plus de paramètres offrant un choix d’options techniques rarement atteint, de connecteurs aux différentes plateformes exploitant la Data (Big Data, Cloud, CRM, MDM, BDD relationnelles ou non, ERP, ESB…), d’une nouvelle interface et surtout d’une communauté assidue.
PowerCenter ayant été son outil phare, l’éditeur a également développé son expertise à travers d’autres aspects de la Data Gouvernance comme la Data Quality (IDQ et sa partie profiling), le Master Data Management (MDM), l’anonymisation des données (TDM), les glossaires et les dictionnaires d’entreprise (Axon et EDC) ou encore la surveillance et la protection dynamique de données (Secure@Source).
Bien évidemment, la liste de ces produits n’est pas exhaustive et il ne s’agit pas ici de revenir sur chacune des solutions développées par Informatica mais d’en présenter les principales.
Data Quality Management
Informatica Data Quality est la première étape obligatoire à tout système d’information voulant de la donnée fiable.
C’est cette fiabilité qui permettra d’être plus pertinent sur les campagnes marketing, d’améliorer l’expérience Client et d’être la première brique de la Data Gouvernance de l’entreprise.
La qualité de la donnée comprend 3 grandes phases :
Analyser : connaître l’état dans lequel sont nos données et savoir sous quels formats elles sont stockées par application source, cela implique de déterminer une façon commune de formater ces données. On parle alors de standardisation.
Informer : le résultat de l’analyse doit être interprété par la (les) personnes devant gérer ces données (DataSteward généralement). Cela demande également un suivi et une gestion au fil du temps de l’évolution de la qualité des données.
Corriger : lorsque l’on détecte qu’une donnée n’est pas correcte (par des règles de gestion, ou par comparaisons avec des référentiels de données externes comme les outils de RNVP pour les adresses postales) il s’agit de proposer une correction automatique ou manuelle de ces données.
IDQ permet justement d’enrichir, de corriger, de valider et de standardiser la donnée. Pour construire les règles de mise en qualité, on réalise un profil des données brutes à l’aide du module Analyst.
Celui-ci va détecter les doublons, les erreurs de typologie et de format et assurer un reporting de l’évolution de la qualité des données.
Master Data Management
La solution Master Data Management s’est étoffée pour devenir multidomaine. Elle permet de centraliser vos données Clients, Fournisseurs, RH…
Le but d’un outil de MDM est de déterminer pour une entité (personne, produit, organisation…) quelles sont les informations les plus fiables et les plus pertinentes au sein du SI.
Pour une personne par exemple, il s’agira de connaître son numéro de téléphone, son email ou son rôle dans une organisation à partir de sources multiples au fil du temps (un email renseigné il y a plusieurs années n’est peut-être plus utilisé par la personne).
Les informations fiables ainsi obtenues s’appellent les Golden Records. De plus, un outil de MDM permet d’identifier de façon unique une personne.
La déduplication des données est la grande force de ce type de produit car il peut, à partir de plusieurs sources des données fragmentaires, obtenir des données complètes et à jour en combinant toutes ces sources.
Informatica propose des solutions dites ‘360’ spécifiques aux entités métier (Customer, Product, Supplier, Relate) contenant des modèles et des accélérateurs prédéfinis, réduisant ainsi le temps d’installation et permettant d’observer très rapidement les premiers retours sur investissement.
Ces solutions de référentiels sont l’étape suivante de la mise en qualité des données dans une stratégie de Data Gouvernance.
L’objectif étant finalement de diffuser la meilleure version possible des données et de tracer la provenance de l’information.
Test Data Masking
La nouvelle règlementation européenne sur l’usage des données personnelles (RGPD) impose à tous les gestionnaires de données des règles strictes depuis le 25 mai 2018.
Il faut bien différencier 2 cadres d’utilisations :
Les données hors production : nécessaires pour réaliser les développements et les tests y afférant, il convient d’utiliser des dataset cohérents mais anonymisés.
En effet, lorsque l’on manipule des données personnelles, il est pertinent d’analyser des données nettoyées (cf. IDQ).
La réglementation RGPD nous contraint donc à utiliser des données anonymées.
Pour que cela ait un sens lors de l’analyse (ou profiling, cf. IDQ), il faut qu’un email dispose d’une certaine syntaxe (si le nom et le prénom sont présents, il faut pouvoir les retrouver dans l’email en question).
L’outil TDM (Test Data Masking) permet de transformer de façon irréversible des données selon des règles qui empêchent de remonter aux valeurs initiales : si Pierre Dupont est transformé en Paul Durant, on ne doit jamais être en mesure de savoir à partir de Paul Durant que c’est en fait Pierre Dupont.
De plus, la règle de transformation doit s’appliquer à toutes les sources où se trouvent les informations sur Pierre Dupont. On garde ainsi la cohérence globale des données, ce qui permet de générer des jeux de tests avec des données anonymes mais cohérentes entre elles.
C’est ce que l’on appelle le Persistant Data Masking.
Les données de production : l’autre aspect qu’impose la réglementation RGPD est le droit à l’oubli ou l’anonymisation des données dans les systèmes en production.
Pour cela on peut utiliser l’outil Dynamic Data Masking qui rend illisibles les informations personnelles en production
Pour conclure
Informatica n’a pas non plus oublié l’interopérabilité de ses produits permettant ainsi de les exploiter de manière centralisée grâce à une administration partagée et une architecture de type SOA. Cette stratégie facilite d’autant plus la mise en place d’une Data Gouvernance tout en gardant une certaine homogénéité dans l’utilisation des solutions.
C’est en construisant ce catalogue qu’Informatica est devenu une référence dans le domaine de la Data et ce n’est d’ailleurs pas une coïncidence s’il figure parmi les leaders depuis plus de 14 ans dans les classements Gartner.
Toujours dans l’idée d’innover et d’intégrer les dernières technologies de façon pertinente, après le Big Data et le Cloud, l’éditeur a développé une plateforme de centralisation et d’exploitation des metadata de ses propres outils à l’aide d’apprentissage automatique et d’IA : le moteur CLAIRE.
Pour résumer cette courte review, l’éditeur a su développer des outils efficaces permettant de gérer la donnée à tous les niveaux, de l’analyse de données (IDQ et sa partie profiling) en passant par la centralisation (MDM, Data Hub), pour finir sur la gouvernance globale (EDC/Axon).
C’est très certainement cette ligne directrice qui en a fait une des entreprises les plus complètes en matière de catalogue.