
CV du
consultant
Réf PROF00008474
Compétences
BDD
Data Databricks DBT Azure Cassandra CLOUDERA datalake Hbase HDFS HIVE hortonworks MYSQL ORACLE StockageConnaissances fonctionnelles
Kafka Analyse ANGLAIS Assurance benchmark CAISSE Cloud Déploiement DISTRIBUTION Exploitation FERROVIAIRE Finance Fonction Français Français Incidents informatique international MCO MEP MOBILE Modernisation Neo4j Ordonnancement pipelines Production Réconciliation Rédaction SOFTWARE statistiques transformation Tuning TWITTER WEB workflowsLangages
PYTHON scala Spark ACM Batch C Confluence Docker ELK Hadoop HTML JAVA JAVASCRIPT JIRA JQUERY JS MongoDB PHP react SAFe SQLMéthodes
AGILE api Architecture Conception développement EXIGENCES Jenkins Management Maven MIGRATION PROJET Qualité SCRUM supervision Support TestingOutils
airflow Datadog GitLab Grafana Kibana OpenMetadata Openshift OrdonnanceurRéseaux et Middleware
KUBERNETES ansible AWS DYNATRACE Monitoring Reseau réseauxSystèmes
AD APACHE SystèmesDiplômes et formations
Pays / régions
Expérience professionnelle
13 ans d’expérience dans le domaine du Big Data, avec des contributions actives à des projets open source majeurs tels qu’Apache Spark, Kafka, Cassandra, Akka etc.
Informatique
• Scala, Java, Python, C, C++
• Delta Lake, Spark, Akka, Kafka, Data Bricks, Azure, Synapse, AWS
• Airflow, DBT, OpenMetadata
• Docker, Kubernetes, Openshift, Argo CD, SOPS, Gitlab CI, Ansible, Jenkins, Rundeck
• Cassandra, Hbase, MongoDb, DynamoDb, Oracle, Postgress, MySQL
• Azure, AWS, Cloudera, HortonWorks, Trunk Data Platform (TDP)
• Node.js, React, JavaScript, JQUERY, PHP, HTML
Compétences
Contribution aux Projets Open Sources Apache Spark
• Contribution à l’optimisation des performances des jointures Spark via une règle Catalyst personnalisée : ReplaceExceptWithFilter
• Ajout d’un paramètre d’échelle pour les fonctions floor et ceil
• Ajout d’une nouvelle fonction mathématique : prise en charge du mode d’arrondi décimal : up, down, half_down
• Correction de bug : utilisation de TimeZone.getDefault lorsque timeZoneId est nul dans ZoneAwareExpression
• Nouvelle fonctionnalité : support de l’ajout de règles de pré-optimisation personnalisées – JIRA Spark-22080
Spark Testing Base
• Correction de bug : ajout d’une assertion de taille des colonnes dans DataFrameSuiteBaseLike.assertDataFrame
• Nouvelle méthode utilitaire : assertSmallDataFrameDataEquals
Contribution aux Projets Open Sources Cassandra
• Implémentation d’un module Java pour la réconciliation de données dans le code source de Cassandra priority-register (branche 2.0.0)
Akka
• Contribution à la correction de la documentation technique d’Akka HTTP
Lightbend / Typesafe Config
• Amélioration de la bibliothèque de configuration Typesafe pour enrichir les logs et faciliter le débogage du code
ENCODERS
• Développement d’un connecteur en C++ pour relier l’application ENCODERS à une base de données cloud
YCSB
• Participation à un projet de benchmark de données répliquées via YCSB (Yahoo! Cloud Serving Benchmark)
Atouts
• Engagement Professionnel Implication et sens des responsabilités dans le travail.
• Création des valeurs Capacité à générer de l’impact concret et durable à travers les missions réalisées.
Parcours académique
• Doctorat en informatique — CNAM, Paris
De 2012 à 2016
• Master des science mention Software Engineering — VIT, Vellore, Inde
2012
LANGUES
• Anglais Bilingue
• Français Courant
Expériences Professionnelles
Data Engineer Senior/ Data Architecte
EDF, Nanterre
Depuis mars 2024
Projet : Lakehouse - Transformation de la plateforme Data Lake vers une Architecture LakeHouse
• Migration des données et des services du cluster Hadoop HortonWorks (HDP) vers Trunk Data Platform (TDP).
• Refonte des pipelines de données : passage de HDFS vers le stockage objet S3.
• Optimisation et tuning des jobs Spark (Batch et Streaming) dans le cadre de la migration HDP → TDP.
• Modernisation des services de chaîne du froid : migration d’Akka vers des applications conteneurisées sur OpenShift.
• Refonte du système de supervision : mise à jour du monitoring et de l’alerting.
• Substitution de l’ordonnanceur Oozie par Apache Airflow : conception, déploiement et automatisation des DAGs.
• Mise en place de pipelines Airflow pour la centralisation et le croisement des données.
• Développement et déploiement d’une chaîne CI/CD dédiée à la gestion des DAGs Airflow.
• Mise en place de Data-Aware Scheduling via les fonctionnalités Inlets et Outlets d’Airflow.
• Centralisation des métadonnées et du data lineage avec OpenMetadata.
• Création de dashboards d’alerting sur Grafana pour la surveillance des ressources.
• Mise en place de dashboards de monitoring applicatif avec Kibana et Dynatrace.
• Support de niveau 3 pour l’équipe MCO (Maintien en Condition Opérationnelle).
• Participation active aux cérémonies Agile : SCRUM et SAFe.
Environnement technique : Airflow, DBT, Kubernetes, Argo CD, OpenShift, SOPS, OpenMetada, TDP, Spark, Kafka, Akka, OpenShift, Grafana, Dynatrace, GitlabCI.
Data Engineer Senior
SNCF / ITNOVEM, Seine-Saint-Denis
De mai 2021 à mars 2024
Projet : Naomi – Traitement des ventes et après-ventes de billets de transport
• Mise en place d'une plateforme de traitement des données liées aux ventes et après-ventes de cartes et billets de voyage.
• Développement de pipelines de valorisation des données métier à l’aide de Spark sur Databricks.
• Ingestion de données dans Azure Synapse (Data Warehouse).
• Stockage, fusion (merge) et interrogation des données au format Delta Lake.
• Archivage des données dans le Data Lake Azure.
• Développement de workflows d’ordonnancement de jobs Spark via Rundeck.
• Mise en place d’une chaîne CI/CD pour les déploiements continus et accompagnement jusqu’à la mise en production (MEP).
• Supervision et monitoring des applications via Datadog.
Projet : Météo – API météorologique adaptée aux besoins de la SNCF
• Participation à la conception d’un projet d’accès aux données météo d’observation et de prévision fournies par Météo France, avec gestion de filtres et de paramètres complexes.
• Rédaction du Contrat d’Interface pour la documentation technique et fonctionnelle.
• Construction d’une base de données référentielle pour le formatage des données météorologiques au format Ariane (standard ferroviaire).
• Conception du modèle de données pour l’application.
• Définition et mise en œuvre de la pipeline de traitement des données dans l’environnement Azure.
Environnement technique : Databricks, Azure, Synapse, Delta Lake, Datadog, Rundeck, Scala, Java, Spark, Maven, Jenkins, JIRA, GitLab, Confluence.
Data engineer
EDF, Nanterre
De septembre 2017 à mai 2021
Projet : DATALAKE IT – Centralisation des données EDF sur une plateforme Big Data HortonWorks
• Mise en place d’un Data Lake sur des clusters Big Data basés sur la distribution HortonWorks.
• Conception et développement de workflows d’ingestion en temps réel via des APIs Akka et des topics Kafka.
• Traitement des données en temps réel avec Spark Streaming.
• Développement d’APIs Akka pour l’exposition sécurisée des données par habilitation.
• Mise en œuvre de pipelines de valorisation des données avec ordonnancement des jobs Spark via Oozie.
• Archivage des données dans des fichiers structurés stockés sur HDFS.
• Déploiement d’une chaîne CI/CD assurée par l’infogérant pour la mise en production (MEP).
• Mise en place d’une solution de supervision basée sur Fluentd et ELK : installation et configuration des agents Fluentd, adaptation du code pour l’envoi des logs au collecteur.
• Création de dashboards Grafana pour l’analyse des logs et la génération d’alertes en cas d’incidents.
• Participation active aux cérémonies Agile (SCRUM et SAFe).
Environnement technique : Scala, Java, Spark (Batch & Streaming), Kafka, Akka, ELK, Fluentd, Oozie, Yarn, HDFS, S3, HBase, Hive, Ansible, SBT, Jenkins, JIRA, GitLab, Confluence, Neo4j.
Data Engineer
Ecole Polytechnique, Saclay
De mars 2016 à septembre 2017
Projet : Caisse Nationale d’Assurance Maladie – Étude de causalité entre prescriptions médicamenteuses et hospitalisations
• Mise en place de workflows d’ingestion de données issues de systèmes hétérogènes.
• Démarche de nettoyage, dénormalisation et mise en forme des données.
• Croisement des données de prescription de médicaments avec les données d’hospitalisation des patients.
• Reconstitution de données manquantes pour permettre une valorisation analytique complète.
• Mise à disposition des données dans un format structuré, conforme aux attentes des Data Scientists pour l’application de modèles mathématiques.
Projet : Détection de communautés sur les réseaux sociaux – Analyse de données Twitter
• Mise en place de la chaîne de collecte et d’ingestion des données Twitter à partir de comptes cibles.
• Nettoyage, dénormalisation et structuration des données pour exploitation.
• Production de statistiques afin de vérifier la véracité et la qualité des données collectées.
• Formatage des données selon les exigences des modèles d’analyse mathématique et comportementale.
Environnement Technique : Scala, Java, Python, Hadoop, Spark SQL, Private cluster, Mesos.
Research Engineer
Stanford Research Institute, California, USA
D'août 2014 à octobre 2014
Projet : Implémentation d’un réseau de distribution des données via drones et mobiles entre différentes équipes de l’armée dans le champ de guerre, financé par DARPA (Defense Advanced Research Projects Agency).
• Etudier le comportement de MANETS (Mobile AdHoc Network)
• Implémenter un schéma pour intégrer les données de MANET sur Cassandra.
• Implémenter un connecteur Cassandra pour ENCODERS.
• Implémenter un nouveau module Cassandra pour le traitement de données.
Publication : Priority Register: Application-defined replacement orderings for ad hoc reconciliation
Publications Scientifiques
• [AKDM 2016] (Journal): Sathiya Prabhu Kumar, Sylvain Lefebvre, Raja Chiky, Olivier Hermant, LibRe: A Better Consistency-Latency Tradeoff for Quorum Based Replication Systems, Advances in Knowledge Discovery and Management Vol 7. (AKDM-7), 2016.
• [SCDM 2015]: Sathiya Prabhu Kumar, Sylvain Lefebvre, Minyoung Kim, Mark Oliver Stehr, Priority Register: Application-defined Replacement Orderings for Ad Hoc Reconciliation, 3rd Workshop on Scalable Cloud Data Management, Co-located with the IEEE BigData Conference. Santa Clara, CA, October 29th 2015.
• [GLOBE 2015]: Sathiya Prabhu Kumar, Sylvain Lefebvre, Raja Chiky, Eric-Gressier Soudan, CaLibRe: A Better Consistency-Latency Tradeoff for Quorum Based Replication Systems, International Conference on Data Management in Cloud, Grid and P2P Systems, Valencia, Spain.
• [IWCIM’14]: Sathiya Prabhu Kumar; Sylvain Lefebvre; Raja Chiky, Evaluating Consistency on the fly using YCSB, International Workshop on Computational Intelligence for Multimedia understanding 2014, Paris, France.
• [PaPEC 2014]: Sylvain Lefebvre, Sathiya Prabhu Kumar, Raja Chiky, Simizer: evaluating consistency trade offs through simulation, EuroSys-2014, Amsterdam, Netherland.
• [ACMCompute’13]: Sathiya Prabhu Kumar; Raja Chiky; Sylvain Lefebvre; Eric-Gressier Soudan, LibRe: A Consistency protocol for Modern Storage Systems, ACM Compute 2013, Vellore, India.
• [ICSCS 2012]: S. Lefebvre, R. Chiky, Sathiya Prabhu Kumar, LISITE ISEP, WACA: Workload And Cache Aware Load Balancing policy for web services, 1st International Conference on Systems and Computers Science, 2012.
• [RNTI 2013]: Sylvain Lefebvre and Sathya Prabhu Kumar and Raja Chiky, WACA: Politique de répartition de charge des services web dans une architecture de type Cloud, Revue des Nouvelles Technologies de l'Information, 2013.
• [NOTERE 2012]: S. Lefebvre, R. Chiky, Sathiya Prabhu Kumar. LISITE ISEP WACA: Politique de répartition de charge des services web dans une architecture de type Cloud, in Conférence annuelles des Nouvelles TEchnologies de la REpartition, 2012.
Consultants similaires
Compétences : Confluence, Data, JIRA, PYTHON, SCRUM, Conception, ...
consultant Retenir
Compétences : Azure, BI, Cloud, Data, ACCESS, Administration, AGILE, ...
consultant Retenir
Compétences : Data, ETL, PYTHON, SOFTWARE, airflow, SQL, AGILE, ANGLAIS, ...
consultant Retenir
Compétences : Cloud, Confluence, Data, PROJET, PYTHON 3, data analysis, ...
consultant Retenir
Compétences : Data, DAX, Power BI, PYTHON, SSIS, Azure Data Factory, ...
consultant Retenir
Compétences : Azure Data Factory, Data, datalake, PYTHON, SCRUM, ...
consultant Retenir
Compétences : Confluence, Excel, JIRA, PYTHON, SQL, Blockchain, Business, ...
consultant Retenir
Compétences : JAVASCRIPT, PYTHON, PYTHON 3, Angular, api, Architecture, ...
consultant Retenir
Compétences : CI/CD, Django, Docker, KUBERNETES, PYTHON, JAVASCRIPT, ...
consultant Retenir
Compétences : AGILE, api, Assurance, Data, PHP, Banque, css, HTML, ...
consultant Retenir