Web Scraping
Description
La formation aborde des contenus techniques tels que la récupération et le scraping de données ainsi que l'automatisation.
Cette formation s’adresse aux personnes travaillant dans l’analyse des données.
Quels sont les buts de la formation ?
Les objectifs visés par cette formation sont :
Comprendre le fonctionnement du scraping
Exploiter les différentes méthodes de récupération de données
Automatiser la récupération de données
Identifier la meilleure solution de scraping pour un besoin donné
Que devez vous connaître pour suivre la formation ?
Connaissance du langage Python
Programme de la formation
La base du traitement par lot (scraping)
Parcourir le système de fichiers
Gérer proprement l’encoding
Lire et écrire des fichiers
Analyser le JSON, le CSV et l’XML
Les générateurs
Parcours de données sur le Web
Rappel sur le protocole HTTP
Requêtes simples avec Request
Stocker les données avec SQLAlchemy
Analyser du HTML avec Beautiful Soup
Questions de performances
Threads et GIL
Utiliser plusieurs coeurs avec le multiprocessing
Programmation I/O asynchrone
Performances et éthiques
Utilisation d’une forme de cache : disque, RAM et redis
Introduire un délai aléatoire
Le fichier robot.txt
Exercices
Les API professionnelles
Authentifications et token
Anatomie d’une API REST
Retry propre
Gérer le rate limiting
Gestion des erreurs
Logging de l’application
Exemple avec un client twitter fait à la main
Exercices
Industrialiser le crawling
Scrapy
Introduction aux mécanismes de base du Framework
Exercices
Selenium, un browser headless
Utiliser Selenium à la main
Utiliser Scrapy et Selenium ensemble
Exercices pratiques
La formation d’algorithmique de base est fortement orientée sur la pratique. Les participants ont l’occasion de mettre en pratique les différentes notions théoriques enseignées tout au long de la formation.
Les exercices proposés portent plus particulièrement sur :
Suppression des Valeurs Manquantes
Remplacement des Valeurs Manquantes
Nettoyage et Standardisation des Chaînes de Caractères
Conversion des Types de Données
Traitement des Valeurs Extrêmes (Outliers)
Encodage des Variables Catégorielles
Filtrage et Tri des Données



Chargement...