Modèle etl

Alors que les outils ETL ont traditionnellement été pour les développeurs et le personnel informatique, la nouvelle tendance est de fournir ces capacités aux utilisateurs professionnels afin qu`ils puissent eux-mêmes créer des connexions et des intégrations de données en cas de besoin, plutôt que d`aller au personnel informatique. [12] Gartner fait référence à ces utilisateurs non-techniques en tant qu`intégrateurs citoyens. [13] l`intégration de données provenant de différents silos dans une base de données relationnelle nécessite un investissement significatif dans la phase d`extraction, de transformation, de chargement (ETL) de tout projet de données. Avant de créer une application qui exploite des données intégrées, les architectes de données doivent d`abord rapprocher toutes les données de leurs systèmes sources, en finalisant le schéma avant que les données puissent être ingérés. Cet effort de modélisation des données peut prendre des années. De plus, des efforts supplémentaires seront nécessaires pour chaque modification d`un système de données d`entrée ou d`une exigence d`application. Pour passer d`un ETL traditionnel à un ETL piloté par des événements, vous avez besoin d`un système de messagerie distribué tel qu`Apache Kafka ou Apache Pulsar. Apache Kafka est un moteur de messagerie en temps réel rapide, évolutif et durable de l`Apache Software Foundation. Apache Pulsar est un autre système de messagerie distribuée Open source créé à l`origine chez Yahoo et qui fait maintenant partie de la Apache Software Foundation. Apache Kafka et Apache Pulsar prennent en charge la publication-subscribe Pattern, alias Pub-Sub. Vous pouvez également utiliser un service de messagerie basé sur le Cloud entièrement géré comme IBM message Hub et Amazon Kinesis Data streams. IBM message Hub est basé sur Apache Kafka et proposé comme Apache Kafka en tant que service.

Bien qu`Amazon Kinesis Data Streams soit inspiré par Apache Kafka, il ne s`agit pas d`un remplacement d`Apache Kafka. Le cycle ETL typique de la vie réelle se compose des étapes d`exécution suivantes: ce poste est une collaboration entre O`Reilly et MarkLogic. Voir notre déclaration d`indépendance éditoriale. Évidemment, nous devons identifier et capturer tous les changements d`État importants associés aux entités. Par exemple, un système de concessionnaire automobile typique aura des entités clientes et automobiles. Sur un haut niveau, nous pouvons identifier les événements suivants pour notre entité automobile, bien sûr, du point de vue de la gouvernance, vous ne voulez pas réellement changer les données. Vous pouvez utiliser le modèle d`enveloppe MarkLogic pour encapsuler les données nouvellement harmonisées autour des données originales afin de conserver leur forme d`origine. Vous pouvez également transformer les données stockées dans des index sans modifier physiquement les données stockées dans les documents. Enfin, vous pouvez utiliser la plateforme pour implémenter un modèle Data-As-a-service, transformant les données sur l`exportation à mesure qu`elles sont accessibles par des applications en aval.

Les fournisseurs ETL Benchmark leurs systèmes d`enregistrement à plusieurs TB (téraoctets) par heure (ou ~ 1 Go par seconde) à l`aide de serveurs puissants avec plusieurs CPU, plusieurs disques durs, plusieurs connexions de réseau Gigabit, et beaucoup de mémoire. Dans l`étape de transformation des données, une série de règles ou de fonctions sont appliquées aux données extraites afin de les préparer pour le chargement dans la cible finale.