Prérequis
Connaissance du langage Python
Durée
3 jours
Contenu Technique de la Formation
La formation aborde les contenus techniques suivants :
- Scrapping de données
- Techniques de récupération des données
- Automatisation
Objectifs de la Formation
Les objectifs visés par cette formation sont :
- Comprendre le fonctionnement du scrapping
- Exploiter les différentes méthodes de récupération de données
- Automatiser la récupération de données
- Identifier la meilleure solution de scrapping pour un besoin donné
Table des Matières
La base du traitement par lot (scraping)
- Parcourir le système de fichiers
- Gérer proprement l’encoding
- Lire et écrire des fichiers
- Analyser le JSON, le CSV et l’XML
- Les générateurs
Parcours de données sur le Web
- Rappel sur le protocole HTTP
- Requêtes simples avec Request
- Stocker les données avec SQLAlchemy
- Analyser du HTML avec Beautiful Soup
Questions de performances
- Threads et GIL
- Utiliser plusieurs cœurs avec le multiprocessing
- Programmation I/O asynchrone
- Performances et éthiques
- Utilisation d’une forme de cache : disque, RAM et redis
- Introduire un délai aléatoire
- Le fichier robot.txt
- Exercices
Les API professionnelles
- Authentifications et token
- Anatomie d’une API REST
- Retry propre
- Gérer le rate limiting
- Gestion des erreurs
- Logging de l’application
- Exemple avec un client twitter fait à la main
- Exercices
Industrialiser le crawling
- Scrappy
- Introduction aux mécanismes de base du Framework
- Exercices
Selenium, un browser headless
- Utiliser Selenium à la main
- Utiliser Scrappy et Selenium ensemble
En Pratique
- La formation d’algorithmique de base est fortement orientée sur la pratique. Les participants ont l’occasion de mettre en pratique les différentes notions théoriques enseignées tout au long de la formation.
- Suppression des Valeurs Manquantes
- Remplacement des Valeurs Manquantes
- Nettoyage et Standardisation des Chaînes de Caractères
- Conversion des Types de Données
- Traitement des Valeurs Extrêmes (Outliers)
- Encodage des Variables Catégorielles
- Filtrage et Tri des Données
Modalités et Inscription
Cette formation est proposée selon deux formules pour s'adapter au mieux à vos besoins :
Session régulière
Des sessions sont organisées à intervalles réguliers. Demandez les prochaines dates planifiées pour vous inscrire à la prochaine session.
Sur mesure & intra-entreprise
Vous souhaitez former vos équipes directement dans vos locaux ou adapter le programme technique à votre contexte d'entreprise ? Contactez-nous pour obtenir un devis personnalisé.