J'ai testé Talend Open Profiler Convertir en PDF Version imprimable Suggérer par mail

Talend a lancé début Juillet 2008 la première version de son outil de data profiling : Talend Open Profiler (TOP).

talend_open_profiler.png

Je vous propose donc dans cet article de repréciser ce qu'est le Data Profiling et de découvrire Talend Open Profiler via deux vidéos d'exemple afin de se faire une première idée des domaines fonctionnels du data profiling couvert par cette permière version de TOP.

Pour tout ceux qui ne sont pas encore très familiers avec le Data Profiling, voici la définition que vous trouverez sur Wikipedia :

Le data profiling est le processus qui consiste à examiner les données dans les différentes sources de données existantes (bases de données, fichiers,...) et à collecter des statistiques et des informations sur ces données.

Le data profiling a pour objectif :
    ▪    d'identifier les données réutilisables pour d'autres fins,
    ▪    d'avoir des mesures sur la qualité des données et sur la conformité par rapport aux standards de l'entreprise,
    ▪    d'évaluer les risques engendrés par l'intégration de ces données dans de nouvelles applications,
    ▪    d'évaluer si les métadonnées décrivent correctement les données sources,
    ▪   d'avoir une bonne compréhension de l'enjeu des données sources sur les projets à venir afin d'anticiper de mauvaises surprises. La découverte tardive de problèmes de données peut entrainer des dépassements de délais et de budget sur un projet (ex. avoir à modifier le format d'un code à des centaines d'endroits sur son projet mais aussi éventuellement sur des projets connexes en cours développement, avoir à reconstruire les référentiels associés, avoir à rediscuter et à revalider des documents contractuels,...).
    ▪    d'avoir une vue globale des données pour permettre la Gestion des données de référence ou la gouvernance des données afin de renforcer la qualité des données.

 Le Data Profiling est donc une sucession d'analyses, de travaux et de processus devant permettre une bonne gouvernance de la qualité des données de l'entreprise.

Maintenant, voici deux vidéos (mettre le son pour avoir les explications audio) permettant de confronter l'implémentation faite du Data Profiling par Talend au sein de TOP.

1ère partie : Installation de TOP : 

2ème partie : 2 exemples d'utilisation de TOP

 Conclusion de cet preview

Comme je l'indique dans la vidéo, cette première version de TOP ne couvre que les fonctions basiques, mais essentielles, du Data profiling.

Certes, nous ne retrouvons pas toutes les fonctions avancées d'une solution de Data Profiling comme cette d'Oracle (via Trillium) ou mêmes comme celle de SQL Server 2008 (il y aura prochainement un acticle sur le sujet, mais la mise en oeuvre de TOP est vraiment très simple et les performances sont au rendez-vous. 

Je suis certain que les développeurs de Talend se feront une joie d'ajouter, dans les prochaines versions de Talend Open Profilier, de nouvelles fonctions  permettant une analyse plus en profondeur  de la qualité des données (on ne peut pas pour l'instant sélectionner les enregistrements ne respectant pas un parterne spécifique) et que nous aurons dans les 18/24 prochains mois une version 2.0 de TOP digne des solutions propriétaires actuelles du Data Profiling.

En conclusion, je pense que cette V1 de Talend Open Profilier n'est certainement pas au TOP des solutions de Data Profiling, mais je suis persuadé qu'il donne le TOP départ de la généralisation des outils de Data Profiling au sein des entreprises.

» No Comments
There are no comments up to now.
» Post Comment
Only registered users can write a comment.
Please login or register.
 
< Précédent   Suivant >
Joomla Template by Joomlashack
Joomla Templates by JoomlaShack Joomla Templates