Nettoyage et préparation des données avec Numpy et Pandas
Beschrijving
De cursus behandelt de volgende technische inhoud:
-
Schrapen van gegevens
-
Technieken voor gegevensherstel
-
Automatisering
Wat zijn de doelstellingen van de opleiding?
De doelstellingen van deze training zijn :
-
Begrijpen hoe scrapping werkt
-
De verschillende methoden voor gegevensherstel benutten
-
Gegevensherstel automatiseren
-
De beste scrappingoplossing voor een bepaalde vereiste identificeren
Wat moet je weten om de cursus te volgen?
Kennis van de taal Python
Opleidingsprogramma
De basis van batchverwerking (scraping)
-
Door het bestandssysteem bladeren
-
Beheer van schone codering
-
Lezen en schrijven van bestanden
-
JSON, CSV en XML analyseren
-
Generatoren
Door gegevens bladeren op het web
-
Een herinnering aan het HTTP-protocol
-
Eenvoudige verzoeken met Request
-
Gegevens opslaan met SQLAlchemy
-
HTML analyseren met Beautiful Soup
Prestatieproblemen
-
Draden en GIL
-
Meerdere cores gebruiken met multiprocessing
-
Asynchroon I/O programmeren
-
Prestaties en ethiek
-
Een vorm van cache gebruiken: schijf, RAM en redisks
-
Een willekeurige vertraging introduceren
-
Het robot.txt bestand
-
Oefeningen
Professionele API's
-
Authenticatie en tokens
-
Anatomie van een REST API
-
Schoon opnieuw proberen
-
Beheer van snelheidslimieten
-
Beheer van fouten
-
Toepassingsregistratie
-
Voorbeeld van een met de hand gemaakte twitter-client
-
Oefeningen
Crawling industrialiseren
-
Scrappy
-
Introductie tot de basismechanismen van het Framework
-
Oefeningen
Selenium, een browser zonder hoofd
-
Selenium met de hand gebruiken
-
Scrappy en Selenium samen gebruiken
Praktische oefeningen
De Basiscursus Algoritmen is zeer praktijkgericht. Deelnemers krijgen de kans om de verschillende theoretische concepten die tijdens de cursus aan bod komen in de praktijk te brengen.
De oefeningen omvatten in het bijzonder
-
Ontbrekende waarden verwijderen
-
Ontbrekende waarden vervangen
-
Opschonen en standaardiseren van tekenreeksen
-
Conversie van gegevenstypes
-
Behandeling van extreme waarden (uitschieters)
-
Categorische variabele coderen
-
Gegevens filteren en sorteren



Een ogenblik, aub...