CV du
consultant
Réf PROF00007541
Compétences
BDD
Data Azure CLOUDERA Databricks datalake dataset DSN ETL HDFS HIVE MYSQL NoSQL ORACLE POSTGRESQL StockageConnaissances fonctionnelles
Accessibilité Acquisition Analyse audit Cloud CRM Dataiku Déploiement DISTRIBUTION FACEBOOK flux Fonction Formation FRAUDE FRONTEND GOLD google Industrialisation Kafka MAILS Méthodes Modernisation Paiements Performance pipelines PROCESSUS Production Rédaction ROI Sphinx Strategies TESTS WEBLangages
PYTHON Spark ASP Batch Confluence Django Docker Excel Flask Hadoop JAVA JIRA JSON Keras Microservices MongoDB Numpy Pandas Programmation PySpark Pytorch R scala SCRIPT Selenium SHELL sonar SQL TensorFlow VBA XMLMéthodes
AGILE api Architecture Conception CSV développement DEVOPS elasticsearch Gouvernance Implementations integration MIGRATION Modélisation planification PROJET Qualité RECETTE REST SupportOutils
Azure Data Factory Apache Airflow GitLab Grafana Prometheus Sklearn SonarQube VaultRéseaux et Middleware
AWS KUBERNETES Monitoring Nginx réseaux TerraformSystèmes
APACHE GIT INFRASTRUCTURE LINUX Messagerie UNIX WINDOWSDiplômes et formations
Pays / régions
Expérience professionnelle
Profil
PROF00007541
Data Engineer doté de plus de 4 années d'expérience dans la conception, le développement et l'optimisation de pipelines de données robustes et évolutifs. Expert dans la manipulation de grandes quantités de données, l'intégration de sources de données variées et la mise en place de solutions ETL performantes. Compétences solides en programmation Python et Scala, en traitement de données distribuées avec Apache Spark et en gestion de bases de données SQL et NoSQL. Fort esprit analytique et capacité à travailler en équipe pour résoudre des problématiques complexes liées aux données.
Savoir faire / Compétences fonctionnelles
• Analyse de données avancées
• Développement de modèles prédictifs
• Visualisation de données
Compétences techniques
• Programmation
Python, Django, SQL, Java, Scala, Shell, VBA
• Big Data
SPARK, Hadoop, Hive, ElastichSearch, Nifi, Scoop, Airflow, Apache Oozie, Dataiku, Cloudera, Dictionnaire de données - Apache Atlas
• DevOps
Git/Gitlab, Docker, Docker Swarm,DVC(Data Version Control), Kubernetes,
Ray, FastAPI, Flask, TensorflowServing, Vault, TorchServe,MINIO(S3),
Sphinx, Locust, Black, SonarQube
• Cloud
Azure, AWS
• Bases de données
Oracle, MongoDB, MYSQL, NOSQL
• Déploiement
Kubernetes, Nginx, Gunicorn, FastAPI, Flask, TorchServe, TensorFlow
Serving, Apache Oozie, Livy
• OS
Linux, Unix, Windows
Formations / certifications
• 2020
Diplôme d’ingénieur en Big Data - Ecole d'Ingénieurs du Littoral Côte d'Opale - Calais
• 2023
AWS Solution Architect
Google TensorFlow Developer Certificate.
Expériences Professionnelles
AXA - Data Engineer
Développeur Python
Avril 2022- Aujourd’hui
Projet 1 :
Réalisations :
• Identification et chargement des données à partir de plusieurs sources.
o Base de données relationnelles : PostgresSQL
o Base de données non relationnelles : MongoDB
o API Rest internes et externes
o Système de messagerie : kafka
• Etude de faisabilité des fonctionnalités métier demandées
• Participation à la mise en place d’une architecture technique et d’une feuille de route de livraison de composantes techniques
• Conception et création de plusieurs bases de données pour le stockage des données (PostgresSQL/MongoDB)
• Conception et mise en œuvre d'un End2End pipeline ETL prêt pour la production.
• Collecte de données à partir des réseaux sociaux via du web scraping avec Selenium: récupération des images, vidéos, commentaires,…
• Acquisition de données à partir d'APIs externes: Graph API et autres.
• Déploiement des scripts de scraping de données sur un registre interne PyPI en utilisant un pipeline CI/CD.
• Mise en place de plus de 30 DAGs (Directed Acyclic Graphs) Apache Airflow, avec l'intégration d'Apache Kafka pour le streaming, afin de synchroniser les données vers une instance MongoDB.
• Intégration de Sentry dans Apache Airflow pour une gestion proactive des erreurs.
• Déploiement d'un End2End pipeline ETL vers un environnement de production conteneurisé en utilisant Docker.
• Création d'un pipeline CI/CD pour stocker des modèles de machine learning dans un stockage d'objets MINIO.
• Développement d'un Data Lake avec l'écosystème Hadoop en suivant une architecture Lambda.
• Streaming avec Apache Kafka et stockage sur Hadoop HDFS.
• Traitement par lots des données avec Apache Nifi et stockage dans HDFS.
• Analyse de données stockés dans HDFS en utilisant Apache Spark et création de (Bronze -> Silver -> Gold) layers.
• Mise en place des tests unitaires pour tous les scripts avec pytest.
• Développement d'APIs avec Django pour l'équipe de front-end.
• Utilisation de CookieCutter pour créer des templates de scripts efficaces.
• Implémentation des stratégies de logging
• Migration de la stack du data lake on-premise vers Azure :
• Mise en place de l'infrastructure avec Terraform :
• Déploiement de l'infrastructure nécessaire à l'aide de Terraform, comprenant la gestion des identités et des ressources telles qu'Azure Synapse, Azure Data Lake Storage et les espaces de travail Spark.
• Utilisation de Terraform pour automatiser et standardiser le déploiement des ressources dans les différents environnements sur Azure.
• Intégration des données avec Azure Synapse Pipeline :
• Orchestration des Données : Création de pipelines dans Azure Synapse pour intégrer les données dans Azure Data Lake Storage (ADLS).
• Ingestion par Batch et en Streaming : Utilisation d'Azure Synapse Pipeline pour gérer à la fois le stockage par batch et l'ingestion en temps réel via Azure Event Hubs.
• Pipelines ETL avec Spark :
• Développement de pipelines ETL à l'aide des notebooks Spark dans Azure Synapse et Azure Data Factory pour gérer le flux des données à travers les couches Bronze, Silver et Gold, en respectant le "contrat de données" du client.
• Stockage des données transformées en format Parquet dans Azure Data Lake Storage.
Environnement tech : Python, Docker, Apache Airflow, Apache KAFKA, VBA, Git, Gitlab CI/CD, SonarQube, Scala, Apache Hadoop, Apache Spark, Apache Hive, Object Storage MINIO, MongoDB, PostgreSQL, Selenium, CookieCutter, Vault
Projet 2 :
Réalisations :
• Spécification Identification avec l’équipe technique des problématiques de gestion de notification entre les modules développés et les utilisateurs finaux
• Participation à l’évaluation des solutions de gestion de messages envisageables
• Choix de la solution Kafka pour gérer les échanges de messages entre es microservices et pour les utilisateurs métier
• définitions des formats des messages à échanger et choix des technos de stockage entre :
o Json
o Protobuf
• Mise en place d’un protocole d’échange entre les services API
• Implémentation de ce protocole et test d’échange de messages
• Implémentation d’un simulateur échangeant de manière artificielle de plusieurs messages entre les API afin de tester la robustesse et la scalabilité de la solution
• Utilisation des messages Kafka protobuf pour envoyer du contenu à des applications métiers tierce :
o Envoi de rapports
o Envoi des mails
o Envoi de messages
o Envoi des données multimedias (images, texte, videos)
• Déploiement e la solution en pré prod puis en production
• Formation de l’équipe technique sur l’utilisation du protocole d’échange de message en entrée sortie
• Documentation technique et support
• Modernisation et automatisation des processus de traitement de données dans un datalake sur AWS:
• Automatisation des processus ETL avec AWS Glue et Apache Kafka :
• Mise en œuvre d’un pipeline ETL complet en utilisant AWS Glue pour extraire, transformer et charger les données de diverses sources vers le datalake.
• Automatisation de la récupération des données via des scripts et l'API du CRM, avec Apache Kafka pour l'ingestion en streaming. Les données initiales étaient stockées dans la couche bronze sur Amazon S3.
• Utilisation d’un Glue Crawler pour détecter automatiquement les schémas des fichiers et enregistrer les métadonnées dans le Data Catalog d'AWS Glue, optimisant ainsi l'organisation des données dans le datalake.
• Orchestration des pipelines ETL avec Spark et Airflow :
• Développement de pipelines Spark pour orchestrer le flux des données à travers les couches Bronze, Silver, et Gold. Les données transformées étaient stockées en format
• Parquet sur Amazon S3 pour améliorer leur accessibilité et performance.
• Utilisation d’Airflow pour automatiser et orchestrer le déclenchement des jobs ETL, permettant une intégration fluide avec les autres services AWS.
• Intégration d’AWS Lambda pour déclencher automatiquement un DAG Apache Airflow dès l’ajout de nouvelles données dans Amazon S3 via Kafka.
Environnement technique : Python, Spark, Scala, Kubernetes, Kafka, Pytorch, Tensorflow,YOLO,
Keras, sklearn, pandas, MONGODB, PANDAS, NUMPY, Grafana, Prometheus, Cadviser, Rclone,
Cvat, LabelImg, tensorflow Board, Git, Docker, VBA, DVC(Data Version Control), Kubernetes, Ray,
FastAPI, Flask, TensorflowServing, TorchServe, MINIO(S3), Sphinx, Locust, Black, Django, Shell,
Gitlab
Projet 3 : Scoring de risque des clients et recommandation intelligente basé sur l’analyse contenu et la géolocalisation
• Compréhension du besoin avec les métiers
• Résumer l’expression du besoin et les specification métiers formulées
• Proposition d’une architecture formée de 2 parties :
o Partie collecte de données OpenData
o Partie Recommandation basée sur le contenu de la géolocalisation
• Validation de l’achitecture avec l’équipe technique et métiers
• Modélisation et création d’une base de données pour recevoir toutes les informations nécessaires
• Adaptation des modules existants de chargement des données pour collecter les informations demandées par les métiers
• Stockage des informations collectées dans la base de données créé
• Modélisation d’un score basé sur l’enrichissement des données par des modèles machine learning crée par l’équipe Data Science
• Présentation et validation du modèle avec l’équipe Data Science et l’équipe métiers
• Implémentation du score et test de scalabilité
• Mise en place d’un module de rrecommandation basé sur le score calculé afin de proposer des services adéquats à chaque client en fonction de :
o Sa géolocalisation
o Son score client
o L’analyse du contenu liée au client
• Déploiement du sytème de scoring recommandation et de stockage dans l’environnement de pré prod et intégration de la solution
• Résolution des conflits et amélioration des pipelines de traitement
• Feedback à l’équipe Data Science pour améliorer les modèles
• Feedback aux métiers sur les règles implémentées dans le système
• Implémentation des retours proposés et validés par l’équipe Data Scienc et les métiers
• Création, exposition et test de 35 services Web REST pour l’utilisation des fonctionnalités par l’équipe Front
• Optimisation de code pour réduire le temps de traitement
• Ecriture des tests unitaires
• Préparation des pipelines CI (Intégration continue)
• Prise en compte des anomalies et des retours métier sur les trois modules
• Dockerisation de chaque module et déploiement sur un cluster Kubernetes
• Monitoring du cluster de production de prod avec Grafana
• Déploiement en production de la solution
• Documentation technique et réalisation d’un guide utilisateur
• Participation sur la formation des utilisateurs finaux
Environnement technique : Python, Spark, Databricks, Kubernetes, Kafka, Pytorch, Tensorflow,YOLO,
Keras, sklearn, pandas, MONGODB, PANDAS, NUMPY, Graphana, Promethious, Cadviser, Rclone,
Cvat, LabelImg, tensorflow Board, Git, VBA, Docker, DVC(Data Version Control), Kubernetes, Ray,
FastAPI, Flask, TensorflowServing, TorchServe, MINIO(S3), Sphinx, Locust, Black, Django, Shell, Gitlab
ASP (Agence Service de paiement)
Data Engineer
Avril 2021 – Mars 2022)
Réalisations :
CONTEXTE : Construction d’un Datalake, DataLab et accompagnement des équipes métiers. Développement et mise en place des projet Data et Data science
INTERLOCUTEURS : Responsables Métiers et les PO, développeurs, data scientists et data architect
RÔLE : Data Engineer
• Participation à plusieurs projets et expertise technique sur les implémentations :
1. Construction d’un datalake cloudera, DataLab et gouvernance des données
2. Mise en place des cas d’usage liés à la détection de la fraude
3. Génération automatique des rapports de performances
4. Vision 360° du bénéficiaire
• Préparer et animer le comité technique mensuel
• Participer à la rédaction des spécifications techniques de plusieurs cas d’usages liés au big data et au monitoring
• Participation aux ateliers de cadrages et rédaction des mémoires techniques
• Audit et recette technique de l’infrastructure livrée pour le Datalake et le DataLab
• Participation aux ateliers avec les métiers pour le listing et la priorisation des cas d’usages ayant un ROI élevé : détection de fraude et génération automatique des rapports de performance
• Participation à la planification du plan de charge de l’équipe projet sur Jira – documentation sur confluence
Projet 1 : Détection de la fraude par croisement des données internes déclaratives et des données satellitaires
• Déversement des données déclaratives internes liées aux paiements dans le datalake à partir de
sources multiples:
o Bases de données relationnelles : Oracle, PostgreSQL,
o fichiers non structurés (Json et xml)
o fichiers structurés (csv et excel)
o consommation d’API externes
o Flux de données parquets
o Flux d’images
• Chargement des images satellite des parcelles concernées par les déclarations
• Préparation nettoyage et alignement des données :
o Module de nettoyage de données selon la source
o Modélisation d’une base de données relationnelle pour faire la correspondance entre les
données hétérogènes multisources
• Ajouter des tables dans la base de données pour sauvegarder les règles métiers exprimées par les
experts du domaine
• Modélisation d’un moteur de règle générique qui stock les règles métiers d’une manière dynamique
• Développement d’un script qui charge les règles métiers dans une pile d’execution
• Intégration des règles métiers de type intermédiaire et complexe dans l’application
• Intégration et déploiement des modèles Data Science développés par l’équipe Data Science visant le
scoring des dossiers agriculteur.
• Implémenter des règles métiers comlexes combinant entre les scoring Data Science et les règles
intiiales
• Croisement entre les données satellite et les déclarations de bénéficiaires
• Déploiement de la méthode de détection de fraude par méthode de classification développée par les Data Scientists
• Évaluation des performances des modèles et de la scalabilité de l’application
• Proposition d’allègement sur les méthodes de calcul pour pouvoir passer à large échelle
• Validation de la méthode proposée par les architectes et les métiers
• Industrialisation et déploiement de la méthode proposée
• Rédaction de la documentation technique
Projet 2 : Génération automatique des rapports de performances
• Participation à ds ateliers de spécification métiers et rédaction des comptes rendus
• Déterminer la liste des indicateurs à générer à partir de la DSN communiquée à l’Union Européenne
• Spécification des contrats d’interfaces avec les différentes agences régionales
• Collecte des données des agences et industrialisation de chargement des données :
o Fichiers csv
o Fichiers Json
o Accès direct aux bases de données
• Implémentation des règles de calculs d’indicateurs avec complexités évolutives
o Lot 1 : Des règles d’agriculture biologique
o Lot 2 : Les indicateurs de jeunes agriculteurs
o Lot 3 : 15 indicateurs simples de la DSN
o Lot 4 : 30 indicateurs complexes de la DSN
• Participation à la recette et prise en compte des Feedbacks métiers
• Ajustement des développements et redéploiement des indicateurs
• Tests de performance sur des scénarios de génération des rapports
• Génération des premiers rapports et collecte des feedbacks métiers
• Développement d’un outil de simulation de calcul d’indicateurs par ajustement des règles
• Documentations techniques et formation des utilisateurs métiers
ENVIRONNEMENT TECHNIQUE : Python, plateforme Datalake Hadoop distribution Cloudera, Dictionnaire de données - Atlas, Test et qualité de code : Pytest et Sonar, base de données : Oracle, PostgreSQL, Hive, Python, R, RShiny, Scala, PySpark, Dataiku, ElasticSearch, ArcGic, Docker, Kafka, Nifi, Scoop, Apache Oozie, Gitlab, Gitlab CI, Méthodologie Agile, Jira, Confluence
Deepecho
Data Engineer
Septembre 2020 – Février 2021
Projet : Migration d’un environnement legacy vers le cloud Azure
Réalisations :
• Assurer la gestion de l'orchestration d'Apache Airflow en définissant des tâches pour récupérer les données des appareils échographiques des médecins, les stocker dans une data lake,...
• Assurer la connexion entre notre Azure Cloud Dataset et la plateforme d'annotation CVAT.
• Pre-processing, détection d'objet et segmentation des images foetale échographique en utilisant la librairie Detectron2.
• Rédaction de la documentation technique.
Environnement technique: Python, Apache Airflow, Java, Azure Blob Storage, Facebook Detectron2, CVAT, Tensorflow, sklearn, Git
Consultants similaires
Compétences : Data, Qlik, qlikview, SCRUM, SQL, AGILE, Business Intelligence, ...
consultant Retenir
Compétences : Data, Qlik Sense, AGILE, allemand, AML, Analyse, ANGLAIS, ...
consultant Retenir
Compétences : Business, Data, Modélisation Données, Qlik, SQL
consultant Retenir
Compétences : informatique, PYTHON, react, Ruby, AI, ansible, api, ...
consultant Retenir
Compétences : Power BI, POWERSHELL, PYTHON, Qualité, SQL, ServiceNow, ...
consultant Retenir
Compétences : Azure Cloud, Data, PYTHON, scala, Spark, Databricks, ...
consultant Retenir
Compétences : BI, Power BI, PYTHON, SAP Analytics Cloud, SQL, Excel, ...
consultant Retenir
Compétences : Data, Databricks, scala, Spark, APACHE, api, AWS, Azure, ...
consultant Retenir
Compétences : CISCO, DNS, IP, PYTHON, Wireshark, Analyse de données, ...
consultant Retenir
Compétences : Azure Cloud, Azure Data Factory, Data, Databricks, ...
consultant Retenir