Skip to Content

Introduction aux APIs pour l'Extraction de Données

Data > Data Engineering, Architecture & Cloud


Une formation de 2 jours pour maîtriser l'extraction de données via APIs et scraping Python : traitement par lot, parcours web, performances, APIs professionnelles, industrialisation et Selenium.

La formation en 6 mots clés

API

Web scraping

Extraction de données

Selenium

Data Engineering

Python

Informations Pratiques et Programme

Prérequis


Connaissance du langage Python

Durée


2 jours

Contenu Technique de la Formation


La formation aborde les contenus techniques suivants :

  • Introduction aux API (Application Programming Interface)
  • Principes de base des API RESTful
  • Authentification et autorisation (OAuth, API Keys)
  • Formats de données (JSON, XML)
  • Utilisation des API pour l'extraction de données
  • Gestion des erreurs et des limitations des API

Objectifs de la Formation


Les objectifs visés par cette formation sont :

  • Comprendre ce qu'est une API et comment elle fonctionne
  • Maîtriser les principes des API RESTful
  • Apprendre les mécanismes d'authentification et d'autorisation pour les API
  • Savoir manipuler et interpréter les formats de données JSON et XML
  • Être capable d'utiliser des API pour extraire des données
  • Gérer les erreurs et comprendre les limitations lors de l'utilisation des API

Table des Matières


La base du traitement par lot (scraping)

  • Parcourir le système de fichiers
  • Gérer proprement l’encoding
  • Lire et écrire des fichiers
  • Analyser le JSON, le CSV et l’XML
  • Les générateurs


Parcours de données sur le Web

  • Rappel sur le protocole HTTP
  • Requêtes simples avec Request
  • Stocker les données avec SQLAlchemy
  • Analyser du HTML avec Beautiful Soup


Questions de performances

  • Threads et GIL
  • Utiliser plusieurs cœurs avec le multiprocessing
  • Programmation I/O asynchrone
  • Performances et éthiques
  • Utilisation d’une forme de cache : disque, RAM et redis
  • Introduire un délai aléatoire
  • Le fichier robot.txt
  • Exercices


Les API professionnelles

  • Authentifications et token
  • Anatomie d’une API REST
  • Retry propre
  • Gérer le rate limiting
  • Gestion des erreurs
  • Logging de l’application
  • Exemple avec un client twitter fait à la main
  • Exercices


Industrialiser le crawling

  • Scrappy
  • Introduction aux mécanismes de base du Framework
  • Exercices


Selenium, un browser headless

  • Utiliser Selenium à la main
  • Utiliser Scrappy et Selenium ensemble


En Pratique


  • La formation d’algorithmique de base est fortement orientée sur la pratique. Les participants ont l’occasion de mettre en pratique les différentes notions théoriques enseignées tout au long de la formation.
  • Exercices d'application sur l'utilisation des API pour récupérer des données
  • Travaux pratiques sur l'authentification et l'extraction de données en utilisant des API publiques
  • Analyse et manipulation de données en formats JSON et XML

Modalités et Inscription


Cette formation est proposée selon deux formules pour s'adapter au mieux à vos besoins :


Session régulière

Des sessions sont organisées à intervalles réguliers. Demandez les prochaines dates planifiées pour vous inscrire à la prochaine session.


Sur mesure & intra-entreprise

Vous souhaitez former vos équipes directement dans vos locaux ou adapter le programme technique à votre contexte d'entreprise ? Contactez-nous pour obtenir un devis personnalisé.

Obtenir cette formation

Prêt à exploiter les APIs pour extraire et automatiser vos collectes de données ? Rejoignez la prochaine session ou contactez-nous pour organiser cette formation dans vos locaux.


Devis sur-mesure

S'inscrire à cette formation

Remplissez le formulaire pour obtenir plus d'informations.