Web Scraping

Loader DigitalCityChargement...

Web Scraping

(Réf.2025-058)
3
Jour(s)
FR
Autres
CEFORA
Company
Employé
For a Fee
Day

Organised by :

Training partners :

Description

La formation aborde des contenus techniques tels que la récupération et le scraping de données ainsi que l'automatisation.

Cette formation s’adresse aux personnes travaillant dans l’analyse des données.

What are the aims of the training?

Les objectifs visés par cette formation sont : 

  • Comprendre le fonctionnement du scraping 

  • Exploiter les différentes méthodes de récupération de données 

  • Automatiser la récupération de données 

  • Identifier la meilleure solution de scraping pour un besoin donné 

What do you need to know to follow the training?

Connaissance du langage Python 

Training programme

La base du traitement par lot (scraping) 

  • Parcourir le système de fichiers 

  • Gérer proprement l’encoding 

  • Lire et écrire des fichiers 

  • Analyser le JSON, le CSV et l’XML 

  • Les générateurs 

Parcours de données sur le Web 

  • Rappel sur le protocole HTTP 

  • Requêtes simples avec Request 

  • Stocker les données avec SQLAlchemy 

  • Analyser du HTML avec Beautiful Soup 

Questions de performances 

  • Threads et GIL 

  • Utiliser plusieurs coeurs avec le multiprocessing 

  • Programmation I/O asynchrone 

  • Performances et éthiques 

  • Utilisation d’une forme de cache : disque, RAM et redis 

  •  Introduire un délai aléatoire 

  •  Le fichier robot.txt 

  •  Exercices 

Les API professionnelles 

  • Authentifications et token 

  • Anatomie d’une API REST 

  • Retry propre 

  • Gérer le rate limiting 

  • Gestion des erreurs 

  •  Logging de l’application 

  •  Exemple avec un client twitter fait à la main 

  •  Exercices 

Industrialiser le crawling 

  •  Scrapy 

  •  Introduction aux mécanismes de base du Framework 

  •  Exercices 

Selenium, un browser headless 

  •  Utiliser Selenium à la main 

  •  Utiliser Scrapy et Selenium ensemble 

Exercices pratiques 

La formation d’algorithmique de base est fortement orientée sur la pratique. Les participants ont l’occasion de mettre en pratique les différentes notions théoriques enseignées tout au long de la formation. 

Les exercices proposés portent plus particulièrement sur : 

  •  Suppression des Valeurs Manquantes 

  •  Remplacement des Valeurs Manquantes 

  •  Nettoyage et Standardisation des Chaînes de Caractères 

  •  Conversion des Types de Données 

  •  Traitement des Valeurs Extrêmes (Outliers) 

  •  Encodage des Variables Catégorielles 

  •  Filtrage et Tri des Données 

Find more training courses on these topics

How do I register for the course?

Cette formation apparaît au catalogue de Digitalcity.Brussels - Pôle Formation Emploi mais aucune date n’a encore été planifiée.