Se rendre au contenu

Nettoyage et Préparation des Données avec Numpy et Pandas

Data > Data Science & Machine Learning


Une formation de 3 jours pour maîtriser la préparation des données avec Python : collecte via scraping et APIs, nettoyage, transformation, performance et industrialisation des pipelines de données.

La formation en 6 mots clés

Numpy

Pandas

Nettoyage de données

Data preparation

Data Science

Python

Informations Pratiques et Programme

Prérequis


Connaissance du langage Python

Durée


3 jours

Contenu Technique de la Formation


La formation aborde les contenus techniques suivants :

  • Scrapping de données
  • Techniques de récupération des données
  • Automatisation

Objectifs de la Formation


Les objectifs visés par cette formation sont :

  • Comprendre le fonctionnement du scrapping
  • Exploiter les différentes méthodes de récupération de données
  • Automatiser la récupération de données
  • Identifier la meilleure solution de scrapping pour un besoin donné

Table des Matières


La base du traitement par lot (scraping)

  • Parcourir le système de fichiers
  • Gérer proprement l’encoding
  • Lire et écrire des fichiers
  • Analyser le JSON, le CSV et l’XML
  • Les générateurs


Parcours de données sur le Web

  • Rappel sur le protocole HTTP
  • Requêtes simples avec Request
  • Stocker les données avec SQLAlchemy
  • Analyser du HTML avec Beautiful Soup


Questions de performances

  • Threads et GIL
  • Utiliser plusieurs cœurs avec le multiprocessing
  • Programmation I/O asynchrone
  • Performances et éthiques
  • Utilisation d’une forme de cache : disque, RAM et redis
  • Introduire un délai aléatoire
  • Le fichier robot.txt
  • Exercices


Les API professionnelles

  • Authentifications et token
  • Anatomie d’une API REST
  • Retry propre
  • Gérer le rate limiting
  • Gestion des erreurs
  • Logging de l’application
  • Exemple avec un client twitter fait à la main
  • Exercices


Industrialiser le crawling

  • Scrappy
  • Introduction aux mécanismes de base du Framework
  • Exercices


Selenium, un browser headless

  • Utiliser Selenium à la main
  • Utiliser Scrappy et Selenium ensemble


En Pratique


  • La formation d’algorithmique de base est fortement orientée sur la pratique. Les participants ont l’occasion de mettre en pratique les différentes notions théoriques enseignées tout au long de la formation.
  • Suppression des Valeurs Manquantes
  • Remplacement des Valeurs Manquantes
  • Nettoyage et Standardisation des Chaînes de Caractères
  • Conversion des Types de Données
  • Traitement des Valeurs Extrêmes (Outliers)
  • Encodage des Variables Catégorielles
  • Filtrage et Tri des Données

Modalités et Inscription


Cette formation est proposée selon deux formules pour s'adapter au mieux à vos besoins :


Session régulière

Des sessions sont organisées à intervalles réguliers. Demandez les prochaines dates planifiées pour vous inscrire à la prochaine session.


Sur mesure & intra-entreprise

Vous souhaitez former vos équipes directement dans vos locaux ou adapter le programme technique à votre contexte d'entreprise ? Contactez-nous pour obtenir un devis personnalisé.

Obtenir cette formation

Prêt à maîtriser le nettoyage et la préparation des données avec Python ? Rejoignez la prochaine session ou contactez-nous pour organiser cette formation dans vos locaux.


Devis sur-mesure

S'inscrire à cette formation

Remplissez le formulaire pour obtenir plus d'informations.