Modèle etl

Alors que les outils ETL ont traditionnellement été pour les développeurs et le personnel informatique, la nouvelle tendance est de fournir ces capacités aux utilisateurs professionnels afin qu`ils puissent eux-mêmes créer des connexions et des intégrations de données en cas de besoin, plutôt que d`aller au personnel informatique. [12] Gartner fait référence à ces utilisateurs non-techniques en tant qu`intégrateurs citoyens. [13] l`intégration de données provenant de différents silos dans une base de données relationnelle nécessite un investissement significatif dans la phase d`extraction, de transformation, de chargement (ETL) de tout projet de données. Avant de créer une application qui exploite des données intégrées, les architectes de données doivent d`abord rapprocher toutes les données de leurs systèmes sources, en finalisant le schéma avant que les données puissent être ingérés. Cet effort de modélisation des données peut prendre des années. De plus, des efforts supplémentaires seront nécessaires pour chaque modification d`un système de données d`entrée ou d`une exigence d`application. Pour passer d`un ETL traditionnel à un ETL piloté par des événements, vous avez besoin d`un système de messagerie distribué tel qu`Apache Kafka ou Apache Pulsar. Apache Kafka est un moteur de messagerie en temps réel rapide, évolutif et durable de l`Apache Software Foundation. Apache Pulsar est un autre système de messagerie distribuée Open source créé à l`origine chez Yahoo et qui fait maintenant partie de la Apache Software Foundation. Apache Kafka et Apache Pulsar prennent en charge la publication-subscribe Pattern, alias Pub-Sub. Vous pouvez également utiliser un service de messagerie basé sur le Cloud entièrement géré comme IBM message Hub et Amazon Kinesis Data streams. IBM message Hub est basé sur Apache Kafka et proposé comme Apache Kafka en tant que service.

Bien qu`Amazon Kinesis Data Streams soit inspiré par Apache Kafka, il ne s`agit pas d`un remplacement d`Apache Kafka. Le cycle ETL typique de la vie réelle se compose des étapes d`exécution suivantes: ce poste est une collaboration entre O`Reilly et MarkLogic. Voir notre déclaration d`indépendance éditoriale. Évidemment, nous devons identifier et capturer tous les changements d`État importants associés aux entités. Par exemple, un système de concessionnaire automobile typique aura des entités clientes et automobiles. Sur un haut niveau, nous pouvons identifier les événements suivants pour notre entité automobile, bien sûr, du point de vue de la gouvernance, vous ne voulez pas réellement changer les données. Vous pouvez utiliser le modèle d`enveloppe MarkLogic pour encapsuler les données nouvellement harmonisées autour des données originales afin de conserver leur forme d`origine. Vous pouvez également transformer les données stockées dans des index sans modifier physiquement les données stockées dans les documents. Enfin, vous pouvez utiliser la plateforme pour implémenter un modèle Data-As-a-service, transformant les données sur l`exportation à mesure qu`elles sont accessibles par des applications en aval.

Les fournisseurs ETL Benchmark leurs systèmes d`enregistrement à plusieurs TB (téraoctets) par heure (ou ~ 1 Go par seconde) à l`aide de serveurs puissants avec plusieurs CPU, plusieurs disques durs, plusieurs connexions de réseau Gigabit, et beaucoup de mémoire. Dans l`étape de transformation des données, une série de règles ou de fonctions sont appliquées aux données extraites afin de les préparer pour le chargement dans la cible finale.



SSCP   CAS-002   9L0-066   350-050   642-999   220-801   74-678   642-732   400-051   ICGB   c2010-652   70-413   101-400   220-902   350-080   210-260   70-246   1Z0-144   3002   AWS-SYSOPS   70-347   PEGACPBA71V1   220-901   70-534   LX0-104   070-461   HP0-S42   1Z0-061   000-105   70-486   70-177   N10-006   500-260   640-692   70-980   CISM   VCP550   70-532   200-101   000-080   PR000041   2V0-621   70-411   352-001   70-480   70-461   ICBB   000-089   70-410   350-029   1Z0-060   2V0-620   210-065   70-463   70-483   CRISC   MB6-703   1z0-808   220-802   ITILFND   1Z0-804   LX0-103   MB2-704   210-060   101   200-310   640-911   200-120   EX300   300-209   1Z0-803   350-001   400-201   9L0-012   70-488   JN0-102   640-916   70-270   100-101   MB5-705   JK0-022   350-060   300-320   1z0-434   350-018   400-101   350-030   000-106   ADM-201   300-135   300-208   EX200   PMP   NSE4   1Z0-051   c2010-657   C_TFIN52_66   300-115   70-417   9A0-385   70-243   300-075   70-487   NS0-157   MB2-707   70-533   CAP   OG0-093   M70-101   300-070   102-400   JN0-360   SY0-401   000-017   300-206   CCA-500   70-412   2V0-621D   70-178   810-403   70-462   OG0-091   1V0-601   200-355   000-104   700-501   70-346   CISSP   300-101   1Y0-201   200-125  , 200-125  , 100-105  , 100-105  , 102-400   1Z0-051   1Z0-144   70-488   000-089   210-065   CRISC   210-060   70-270   070-461   000-106   9A0-385   70-347   2V0-621D   2V0-621D   HP0-S42   ICBB   350-001  , 350-080   70-462   CISM   000-080   OG0-093   100-101   1Z0-060   ITILFND   70-487   500-260   70-177   CAS-002   CCA-500   2V0-621   400-101   MB6-703   70-487   70-486   1Z0-144   300-115   000-106   9L0-066   500-260   ITILFND   PR000041   70-346   101-400   300-208   000-089   210-260   ICGB   N10-006   9A0-385   642-999   SSCP   300-101   JN0-102   70-177   1Z0-060   640-916   JK0-022   640-911   ITILFND   200-125  ,