Web Scraping
Description
La formation aborde des contenus techniques tels que la récupération et le scraping de données ainsi que l'automatisation.
Cette formation s’adresse aux personnes travaillant dans l’analyse des données.
What are the aims of the training?
Les objectifs visés par cette formation sont :
-
Comprendre le fonctionnement du scraping
-
Exploiter les différentes méthodes de récupération de données
-
Automatiser la récupération de données
-
Identifier la meilleure solution de scraping pour un besoin donné
What do you need to know to follow the training?
Connaissance du langage Python
Training programme
La base du traitement par lot (scraping)
-
Parcourir le système de fichiers
-
Gérer proprement l’encoding
-
Lire et écrire des fichiers
-
Analyser le JSON, le CSV et l’XML
-
Les générateurs
Parcours de données sur le Web
-
Rappel sur le protocole HTTP
-
Requêtes simples avec Request
-
Stocker les données avec SQLAlchemy
-
Analyser du HTML avec Beautiful Soup
Questions de performances
-
Threads et GIL
-
Utiliser plusieurs coeurs avec le multiprocessing
-
Programmation I/O asynchrone
-
Performances et éthiques
-
Utilisation d’une forme de cache : disque, RAM et redis
-
Introduire un délai aléatoire
-
Le fichier robot.txt
-
Exercices
Les API professionnelles
-
Authentifications et token
-
Anatomie d’une API REST
-
Retry propre
-
Gérer le rate limiting
-
Gestion des erreurs
-
Logging de l’application
-
Exemple avec un client twitter fait à la main
-
Exercices
Industrialiser le crawling
-
Scrapy
-
Introduction aux mécanismes de base du Framework
-
Exercices
Selenium, un browser headless
-
Utiliser Selenium à la main
-
Utiliser Scrapy et Selenium ensemble
Exercices pratiques
La formation d’algorithmique de base est fortement orientée sur la pratique. Les participants ont l’occasion de mettre en pratique les différentes notions théoriques enseignées tout au long de la formation.
Les exercices proposés portent plus particulièrement sur :
-
Suppression des Valeurs Manquantes
-
Remplacement des Valeurs Manquantes
-
Nettoyage et Standardisation des Chaînes de Caractères
-
Conversion des Types de Données
-
Traitement des Valeurs Extrêmes (Outliers)
-
Encodage des Variables Catégorielles
-
Filtrage et Tri des Données