Général
Radzivon Alkhovik
Passionné d'automatisation low-code
3 juillet 2024
Un pipeline de données est une série d'étapes qui permettent le flux automatisé de données d'une ou plusieurs sources vers une destination à des fins de stockage, d'analyse ou autres. Un pipeline de données typique se compose de trois composants principaux :
L’objectif principal d’un pipeline de données est d’assurer le mouvement efficace et fiable des données des sources vers les systèmes cibles, où elles peuvent être utilisées pour le reporting, l’analyse, l’apprentissage automatique et d’autres applications basées sur les données.
Principaux plats à emporter: Les pipelines de données automatisent le flux de données des sources vers les destinations, permettant un traitement, un stockage et une analyse efficaces. Les pipelines Big Data gèrent des ensembles de données massifs et complexes caractérisés par le volume, la vitesse et la variété, à l'aide de technologies telles que le stockage distribué, le traitement parallèle, l'ingestion en temps réel et les bases de données NoSQL. La conception et la mise en œuvre de pipelines de données nécessitent de prendre en compte la sécurité, l'évolutivité, la tolérance aux pannes, la qualité, la surveillance, la gouvernance et l'intégration, tandis que l'avenir implique l'IA/ML, le sans serveur, le cloud natif, le temps réel, l'informatique de pointe, DataOps et les architectures décentralisées.
Un pipeline de données typique se compose de trois composants principaux :
La source de données est le point de départ d'un pipeline de données. C'est là que les données proviennent et sont extraites. Les sources de données peuvent être diverses et varier en fonction des systèmes et des exigences de l'organisation. Voici quelques exemples courants de sources de données :
Une fois les données extraites de la source, elles entrent dans la phase de traitement des données. C'est là que diverses transformations et manipulations sont appliquées aux données pour les préparer au système cible. Les étapes de traitement spécifiques dépendent des exigences en matière de données et des attentes du système cible. Voici quelques opérations de traitement de données courantes :
L'étape de traitement des données implique souvent l'utilisation d'outils et de frameworks de transformation de données comme Apache Spark, Apache Flink ou Apache NiFi, qui offrent de puissantes capacités de traitement et de transformation de données distribuées.
Une fois les données traitées, elles sont chargées dans le système cible, qui est la destination finale de la gestion du pipeline de données. Le choix de la destination des données dépend du cas d'utilisation prévu et des exigences des consommateurs de données. Voici quelques exemples courants de destinations de données :
La destination des données est l'endroit où les données sont consommées par divers consommateurs de données, tels que les analystes commerciaux, les scientifiques de données ou les applications en aval, pour piloter la prise de décision, la création de rapports ou d'autres cas d'utilisation axés sur les données.
Un pipeline de Big Data est un pipeline de données spécialisé conçu pour gérer les défis uniques posés par des ensembles de données massifs, complexes et en croissance rapide, communément appelés « Big Data ». Le Big Data est caractérisé par les « trois V » :
Pour relever ces défis, les pipelines Big Data s'appuient sur des infrastructures informatiques distribuées telles qu'Apache Hadoop ou Apache Spark. Ces infrastructures permettent le traitement parallèle de grands ensembles de données sur des clusters d'ordinateurs, ce qui permet un traitement des données efficace et évolutif. En répartissant les données et le traitement sur plusieurs nœuds, les pipelines Big Data peuvent gérer le volume et la vitesse des données plus efficacement.
Les pipelines Big Data utilisent également des technologies comme Apache Kafka pour l'ingestion et le traitement des données en temps réel. Apache Kafka est une plateforme de streaming distribuée qui permet la collecte, le stockage et le traitement de flux de données volumineux en temps réel. Elle agit comme une file d'attente de messages et permet le découplage des producteurs et des consommateurs de données, ce qui permet un traitement des données évolutif et tolérant aux pannes.
De plus, les pipelines Big Data utilisent souvent des bases de données NoSQL comme MongoDB ou Cassandra pour stocker et interroger des données non structurées ou semi-structurées. Ces bases de données sont conçues pour gérer de gros volumes de données et fournir des modèles de données flexibles qui peuvent s'adapter à la variété de types de données couramment rencontrés dans les scénarios Big Data.
En exploitant ces technologies et architectures, les pipelines Big Data permettent aux entreprises de traiter et d'analyser efficacement des ensembles de données volumineux, d'obtenir des informations précieuses en temps réel ou quasi réel et de gérer les divers types et structures de données présents dans les environnements Big Data. Les entreprises peuvent ainsi prendre des décisions basées sur les données, optimiser leurs opérations et acquérir un avantage concurrentiel à l'ère du Big Data.
La mise en œuvre d’un exemple de pipeline de données bien conçu offre plusieurs avantages clés aux organisations :
Les pipelines de données automatisent l'ensemble du flux de données, éliminant ainsi le besoin d'interventions manuelles et réduisant le risque d'erreurs. Cette automatisation rationalise le traitement des données, permet une livraison plus rapide des données et améliore l'efficacité opérationnelle globale.
Grâce à la capacité de traiter les données en temps réel ou quasi réel, les pipelines de bases de données permettent aux entreprises d'obtenir rapidement des informations exploitables. Cela est particulièrement utile dans des scénarios tels que la détection de fraude, les recommandations en temps réel ou la surveillance de l'IoT, où la prise de décision instantanée est cruciale.
Le pipeline de données est conçu pour évoluer horizontalement (en ajoutant des nœuds à un cluster) ou verticalement (en augmentant les ressources des nœuds individuels) afin de s'adapter aux volumes de données croissants et aux exigences de traitement. Cette évolutivité garantit que le pipeline peut gérer des charges de données croissantes sans compromettre les performances.
Les pipelines de données incluent souvent des étapes de nettoyage, de validation et d'enrichissement des données, qui contribuent à maintenir des normes de qualité des données élevées. En détectant et en corrigeant les anomalies, les incohérences et les erreurs de données dès le début du pipeline, les organisations peuvent garantir l'exactitude et la fiabilité des données qui atteignent les systèmes cibles.
En automatisant les flux de données et en optimisant l'utilisation des ressources, les pipelines de données peuvent réduire considérablement les coûts associés au traitement manuel des données. De plus, la capacité à traiter les données en temps réel peut conduire à une prise de décision plus rapide, ce qui peut se traduire par des économies de coûts et des opportunités de revenus accrues.
Les pipelines de données peuvent être classés en fonction de divers facteurs, tels que le mode de traitement, l'approche d'intégration des données ou l'environnement de déploiement. Voici quelques types courants de pipelines de données :
Les pipelines de traitement par lots traitent les données en gros blocs discrets à des intervalles planifiés, par exemple toutes les heures, tous les jours ou toutes les semaines. Cette approche convient aux scénarios où le traitement en temps réel n'est pas nécessaire et où l'accent est mis sur la gestion efficace de gros volumes de données. Les pipelines de traitement par lots sont couramment utilisés pour des tâches telles que l'entreposage de données, les opérations ETL (extraction, transformation, chargement) et la formation de modèles d'apprentissage automatique hors ligne.
Les pipelines de données en continu traitent en continu les données au fur et à mesure de leur génération, ce qui permet d'obtenir des informations en temps réel ou quasi réel. Ces pipelines sont conçus pour gérer des flux de données à grande vitesse provenant de sources telles que des appareils IoT, des flux de médias sociaux ou des données de parcours de clics. Les pipelines de streaming sont idéaux pour les cas d'utilisation qui nécessitent un traitement immédiat des données, tels que la détection de fraude en temps réel, les recommandations en temps réel ou la surveillance et les alertes en temps réel.
Les pipelines d'intégration de données se concentrent sur la combinaison de données provenant de plusieurs sources hétérogènes dans une vue unifiée. Ces pipelines impliquent souvent des processus ETL ou ELT (Extract, Load, Transform) pour extraire des données de diverses sources, les transformer pour les adapter à un schéma ou un format commun et les charger dans un référentiel de données centralisé, tel qu'un entrepôt de données ou un lac de données. Les pipelines d'intégration de données permettent aux organisations de briser les silos de données et de créer une source unique de vérité pour l'analyse et la création de rapports.
Les pipelines de données cloud-native sont conçus pour exploiter les capacités et les services offerts par les plateformes de cloud computing, telles qu'Amazon Web Services (AWS), Google Cloud Platform (GCP) ou Microsoft Azure. Ces pipelines tirent parti des technologies cloud-native telles que l'informatique sans serveur, le stockage de données géré et les outils d'analyse basés sur le cloud pour créer des solutions de traitement de données évolutives, flexibles et rentables. Les pipelines de données cloud-native offrent des avantages tels que la mise à l'échelle automatique, la tarification à l'utilisation et la réduction des frais généraux opérationnels.
Un flux de travail de pipeline de données typique implique les étapes suivantes :
L'intégration de pipelines de données dans vos processus métier peut considérablement améliorer vos capacités de gestion et d'analyse des données. Latenode, une puissante plateforme d'automatisation et d'intégration, simplifie ces processus, facilitant ainsi la gestion efficace des tâches de pipeline de données. Ce guide explique comment intégrer des pipelines de données à Latenode et propose une approche complète pour exploiter ses fonctionnalités.
Les organisations choisissent Latenode pour ses capacités robustes, qui incluent :
Latenode simplifie les connexions API avec sa bibliothèque complète de connecteurs et d'adaptateurs prédéfinis, permettant aux utilisateurs de :
Latenode propose des outils intuitifs pour la cartographie et la transformation des données :
La conception des workflows d'intégration est simple grâce à l'interface glisser-déposer de Latenode :
Après avoir créé des flux d'intégration, déployez-les et surveillez-les directement depuis l'interface de Latenode :
À titre d’exemple, nous allons Automatisez le processus d'extraction de données brutes d'une source, de leur conversion dans un format utilisable et de leur chargement dans le système cible à l'aide de Latenode.
En tirant parti de Latenode, les organisations peuvent surmonter les défis associés à la transformation des données, en garantissant des données de haute qualité, compatibles et prêtes à l'emploi pour l'analyse et la prise de décision.
Si vous avez besoin d'aide ou de conseils pour créer votre propre script ou si vous souhaitez reproduire celui-ci, contactez notre communauté Discord, où se trouvent les experts en automatisation Low-code.
L'architecture d'un pipeline de données peut varier en fonction des exigences spécifiques, des technologies et de l'échelle du flux de traitement des données. Cependant, une architecture de pipeline de données typique comprend les composants suivants :
Il s'agit des origines des données qui circulent dans le pipeline. Les sources de données peuvent être diverses, allant des bases de données relationnelles et des bases de données NoSQL aux API, aux fichiers journaux et aux plateformes de streaming comme Apache Kafka.
Cette couche est chargée de collecter les données provenant de différentes sources et de les intégrer au pipeline. Elle peut impliquer l'utilisation de connecteurs, d'API ou de cadres de traitement de flux pour extraire les données en temps réel ou par lots.
Le moteur de traitement des données est le composant principal du pipeline, chargé d'exécuter les transformations et les calculs des données. Les moteurs de traitement de données les plus courants sont Apache Spark, Apache Flink et Apache Beam. Ces moteurs offrent des capacités de calcul distribué pour traiter efficacement des données à grande échelle.
La couche de stockage des données est l'endroit où les données traitées sont conservées pour une analyse ou une consommation ultérieure. Il peut s'agir d'un entrepôt de données comme Amazon Redshift ou Google BigQuery, d'un lac de données comme Amazon S3 ou Azure Data Lake Storage, ou d'une base de données NoSQL comme MongoDB ou Cassandra. Le choix du stockage dépend de facteurs tels que le volume de données, les performances des requêtes et les modèles d'accès aux données.
La couche d'orchestration des données est responsable de la planification, de la coordination et du suivi de l'exécution des différentes tâches et dépendances au sein du pipeline. Elle garantit que les données circulent sans problème d'une étape à l'autre et gère les mécanismes de récupération des erreurs et de nouvelle tentative. Des outils comme Apache Airflow, Luigi ou Argo Workflows sont couramment utilisés pour l'orchestration des données.
La couche de consommation de données est l'endroit où les données traitées sont consultées et utilisées par divers consommateurs de données. Il peut s'agir d'outils de veille économique pour la création de rapports et la visualisation, de modèles d'apprentissage automatique pour l'analyse prédictive ou d'applications en aval qui s'appuient sur les données traitées.
Les composants de surveillance et de journalisation sont essentiels pour garantir la santé et la fiabilité du pipeline d'ingestion de données. Ils permettent de suivre des indicateurs tels que le débit de données, la latence de traitement et les taux d'erreur, et offrent une visibilité sur les performances du pipeline. Des outils tels que Prometheus, Grafana et la pile ELK (Elasticsearch, Logstash, Kibana) sont couramment utilisés pour la surveillance et la journalisation.
Bien que les pipelines de données et les pipelines ETL (Extraction, Transformation, Chargement) partagent certaines similitudes, il existe des différences clés entre les deux :
Les pipelines de données ont une portée plus large que les pipelines ETL. Alors que les pipelines ETL se concentrent spécifiquement sur l'extraction, la transformation et le chargement des données, les pipelines de données peuvent englober différents types de workflows de traitement de données, notamment le streaming en temps réel, le traitement d'événements complexes et les workflows d'apprentissage automatique.
Les pipelines ETL fonctionnent traditionnellement en mode batch, où les données sont traitées à intervalles réguliers, par exemple quotidiennement ou hebdomadairement. Cela entraîne une latence plus élevée entre l'ingestion des données et leur disponibilité dans le système cible. Les pipelines de données, en revanche, peuvent prendre en charge le traitement par lots et en temps réel, ce qui permet un traitement des données à faible latence si nécessaire.
Les pipelines de données offrent plus de flexibilité en termes d'exigences de traitement des données et peuvent s'adapter à diverses sources et destinations de données. Ils peuvent gérer des données structurées, semi-structurées et non structurées, et peuvent s'intégrer à divers magasins de données et cadres de traitement. Les pipelines ETL, en revanche, suivent souvent une structure plus rigide et sont principalement conçus pour les données structurées et les scénarios d'entreposage de données traditionnels.
Les pipelines ETL impliquent généralement des transformations et des mappages de données complexes pour conformer les données sources au schéma cible. Ces transformations sont souvent effectuées dans une zone de préparation avant que les données ne soient chargées dans le système cible. Les pipelines de données, tout en prenant en charge les transformations de données, peuvent avoir des exigences de transformation plus simples et peuvent tirer parti des transformations sur place ou des approches de schéma à la lecture.
Lors de la conception et de la mise en œuvre de pipelines de données, plusieurs considérations clés doivent être prises en compte pour garantir l'efficacité, la fiabilité et l'évolutivité du pipeline :
Il est essentiel de garantir la sécurité et la confidentialité des données sensibles tout au long du processus. Cela comprend la mise en œuvre du chiffrement des données en transit et au repos, l'application de contrôles d'accès et de mécanismes d'authentification, et le respect des réglementations pertinentes en matière de protection des données telles que le RGPD ou la loi HIPAA. Des techniques de masquage, de tokenisation ou d'anonymisation des données peuvent être utilisées pour protéger les informations sensibles.
Le pipeline de données doit être conçu pour évoluer de manière fluide afin de gérer l'augmentation des volumes de données et des exigences de traitement. Cela implique de sélectionner des technologies et des architectures qui peuvent évoluer horizontalement (en ajoutant plus de nœuds à un cluster) ou verticalement (en augmentant les ressources des nœuds individuels). Des techniques d'optimisation des performances, telles que le partitionnement, l'indexation et la mise en cache, doivent être appliquées pour garantir un traitement des données et des performances de requête efficaces.
Il est essentiel d'intégrer la tolérance aux pannes et la résilience dans le pipeline de données pour gérer les pannes et garantir l'intégrité des données. Cela comprend la mise en œuvre de mécanismes de retraitement des données, de gestion des erreurs et de récupération. Des techniques telles que les points de contrôle, la réplication des données et les opérations idempotentes peuvent contribuer à atténuer l'impact des pannes et à garantir la cohérence des données.
Le maintien de la qualité des données tout au long du pipeline est essentiel pour une analyse et une prise de décision précises. La mise en œuvre de contrôles de validation des données, de routines de nettoyage des données et de processus de rapprochement des données permet de garantir l'intégrité et la fiabilité des données. Des règles de qualité des données, telles que les contrôles de plage, de format et de cohérence, doivent être définies et appliquées à différentes étapes du pipeline.
Des mécanismes complets de surveillance et d'alerte doivent être mis en place pour identifier et résoudre de manière proactive les problèmes dans le pipeline d'ingénierie des données. Cela comprend la surveillance du flux de données, de la latence de traitement, des taux d'erreur et de l'utilisation des ressources. La définition de mesures appropriées et la configuration d'alertes basées sur des seuils prédéfinis permettent de détecter les anomalies et de déclencher des actions correctives en temps opportun.
Des pratiques efficaces de gouvernance des données doivent être mises en place pour garantir une gestion des données, un contrôle d'accès et une conformité appropriés. La lignée des données, qui suit l'origine, le mouvement et la transformation des données tout au long du pipeline, doit être conservée pour assurer la transparence et la traçabilité. Les outils de gestion des métadonnées peuvent aider à capturer et à documenter la lignée des données, ce qui facilite la compréhension de la provenance et de la qualité des données.
Les pipelines de données doivent souvent s'intégrer à diverses sources de données, cadres de traitement et systèmes de stockage. Il est essentiel de garantir une intégration et une interopérabilité transparentes entre ces composants pour assurer un flux de données fluide et une friction minimale des données. L'utilisation d'interfaces, de connecteurs et de formats de données standardisés peut contribuer à l'intégration et permettre un échange de données facile entre différents systèmes.
Les pipelines de données trouvent des applications dans divers secteurs et domaines, aidant les organisations à exploiter la puissance des données pour divers cas d'utilisation. Voici quelques applications courantes des pipelines de données :
Alors que les volumes de données continuent de croître de manière exponentielle et que de nouvelles technologies émergent, l’avenir des pipelines de données semble prometteur et passionnant. Voici quelques exemples de tendances et de développements clés qui façonnent l’évolution des pipelines de données :
L’intégration des capacités d’intelligence artificielle (IA) et d’apprentissage automatique (ML) dans les pipelines de données devient de plus en plus courante. L’IA et le ML peuvent améliorer divers aspects des pipelines de données, tels que :
L’adoption de modèles informatiques sans serveur et d’architectures cloud natives transforme la manière dont les données de pipeline sont créées et déployées. Les plateformes sans serveur, telles qu’AWS Lambda, Google Cloud Functions ou Azure Functions, permettent aux développeurs de se concentrer sur l’écriture de la logique de traitement des données sans se soucier de la gestion de l’infrastructure. Cette approche permet une plus grande évolutivité, une plus grande flexibilité et une meilleure rentabilité, car les ressources sont automatiquement provisionnées et mises à l’échelle en fonction de la charge de travail.
Les technologies cloud natives, telles que Kubernetes et la conteneurisation, gagnent également du terrain dans les architectures de pipeline de données. Ces technologies permettent la création de flux de traitement de données portables, évolutifs et résilients qui peuvent s'exécuter de manière transparente dans différents environnements cloud ou infrastructures sur site.
La demande croissante d'informations en temps réel et la prolifération des sources de données en streaming favorisent l'adoption de pipelines de données en temps réel et en streaming. Des technologies comme Apache Kafka, Apache Flink et Apache Beam fournissent des cadres robustes pour la création de pipelines de données à faible latence et à haut débit capables de traiter les données en temps réel ou quasi-réel.
Les pipelines de données en temps réel permettent aux entreprises de réagir rapidement aux évolutions des conditions commerciales, de détecter les anomalies dès qu'elles se produisent et de prendre des décisions basées sur les données à la volée. Cela est particulièrement pertinent dans des domaines tels que la détection des fraudes, les recommandations en temps réel, la surveillance de l'IoT et la maintenance prédictive.
La prolifération des appareils IoT (Internet des objets) et le besoin de traitement en temps réel à la périphérie favorisent l'intégration de l'informatique de pointe aux pipelines de données. L'informatique de pointe implique le traitement des données au plus près de la source, réduisant ainsi les besoins en latence et en bande passante.
Les pipelines de données qui intègrent des fonctionnalités de calcul de pointe peuvent traiter et analyser les données des capteurs, les données des machines et d'autres flux de données IoT directement en périphérie, ce qui permet des temps de réponse plus rapides et réduit la quantité de données à transmettre aux systèmes centraux. Cela est particulièrement utile dans des scénarios tels que l'automatisation industrielle, les villes intelligentes et les véhicules connectés.
DataOps, une méthodologie qui combine développement agile, automatisation et collaboration, gagne du terrain dans l'écosystème des pipelines de données. DataOps vise à rationaliser le cycle de vie des pipelines de données, du développement au déploiement et à la surveillance, en appliquant les principes DevOps aux flux de données.
L'automatisation est un élément clé de DataOps. Elle implique l'utilisation d'outils et de cadres pour automatiser divers aspects du développement, des tests, du déploiement et de la surveillance du pipeline de données. L'automatisation permet de réduire les erreurs manuelles, d'améliorer la productivité et d'accélérer les itérations et les expérimentations.
Le paradigme architectural du maillage de données émerge comme une nouvelle approche de gestion et de traitement des données dans des environnements distribués à grande échelle. Le maillage de données prône une architecture de données décentralisée, où les données sont traitées comme un produit et détenues par les équipes qui les créent et les consomment.
Dans une architecture de maillage de données, les pipelines de données sont conçus comme des produits de données autonomes et orientés domaine qui peuvent être développés, déployés et maintenus de manière indépendante par des équipes autonomes. Cette approche favorise la démocratisation des données, permet une rentabilisation plus rapide et permet aux organisations de faire évoluer leurs capacités de traitement des données plus efficacement.
Les pipelines de données sont devenus un élément indispensable des architectures de données modernes, permettant aux organisations d'exploiter la puissance des données pour une prise de décision éclairée, une efficacité opérationnelle et l'innovation. À mesure que les volumes de données continuent de croître et que de nouvelles sources de données émergent, l'importance de pipelines de données robustes, évolutifs et flexibles ne fera que croître.
En comprenant les concepts clés, les avantages et les considérations des pipelines de données, les organisations peuvent concevoir et mettre en œuvre des flux de traitement de données efficaces qui répondent à leurs besoins métier spécifiques. Qu'il s'agisse de traitement par lots, de streaming en temps réel ou de scénarios d'intégration de données complexes, les pipelines de données constituent la base pour transformer les données brutes en informations exploitables.
À mesure que la technologie continue d’évoluer, l’avenir des pipelines de données semble prometteur, avec des avancées dans l’intelligence artificielle, les architectures sans serveur, l’informatique de pointe et les paradigmes de maillage de données ouvrant la voie à des capacités de traitement de données plus intelligentes, autonomes et décentralisées.
En restant à la pointe de ces développements et en adoptant les meilleures pratiques en matière de conception et de mise en œuvre de pipelines de données, les organisations peuvent se positionner pour tirer le meilleur parti de leurs actifs de données et favoriser le succès basé sur les données à l’ère numérique.
ETL (Extract, Transform, Load) et ELT (Extract, Load, Transform) sont deux approches de l'intégration des données. Dans ETL, les données sont extraites de la source, transformées pour s'adapter au schéma cible, puis chargées dans le système cible. Dans ELT, les données sont extraites de la source et chargées dans le système cible sous leur forme brute, puis des transformations sont appliquées au sein du système cible. L'ELT devient de plus en plus populaire avec l'avènement des entrepôts de données et des lacs de données basés sur le cloud, car il permet plus de flexibilité et d'évolutivité dans le traitement des données.
Le choix entre les pipelines de données par lots et en streaming dépend de votre cas d'utilisation et de vos exigences spécifiques. Le traitement par lots est adapté lorsque vous disposez de gros volumes de données pouvant être traitées périodiquement et que les informations en temps réel ne sont pas essentielles. Les pipelines par lots sont souvent utilisés pour des tâches telles que l'entreposage de données, l'analyse de données historiques et l'apprentissage automatique hors ligne. Les pipelines de données en streaming, en revanche, sont idéaux lorsque vous devez traiter et analyser des données en temps réel ou quasi réel. Les pipelines en streaming sont utilisés pour des cas d'utilisation tels que la détection de fraude, les recommandations en temps réel, la surveillance de l'IoT et l'analyse en temps réel.
Il existe plusieurs outils et cadres populaires pour créer des pipelines de données, chacun ayant ses propres atouts et cas d'utilisation. Certaines options largement utilisées incluent :
Assurer la qualité des données dans un pipeline de données implique la mise en œuvre de diverses techniques et bonnes pratiques :
Le développement et la maintenance du pipeline de données s'accompagnent de plusieurs défis que les organisations doivent relever :
Pour relever ces défis, il faut combiner une conception soignée, une architecture robuste et l’utilisation d’outils et de cadres appropriés. Cela implique également d’établir les meilleures pratiques, de mettre en œuvre des tests et une surveillance automatisés et de favoriser la collaboration entre les ingénieurs de données, les scientifiques de données et les autres parties prenantes impliquées dans le cycle de vie du pipeline de données.
Première demande + Deuxième demande