Scrapy: Web Scraping & Crawling with Python

Partager par email

×

Scrapy est un framework d’analyse Web gratuit et à source ouverte, écrit en Python. Scrapy est utile pour le grattage et l'extraction Web de données structurées pouvant être utilisées pour un large éventail d'applications utiles, telles que l'exploration de données, le traitement de l'information ou l'archivage historique.

Code Titre Durée Prix HT
SCRAPY01 Scrapy: Web Scraping & Crawling with Python 4 jours Nous consulter

Objectifs

  • Création d'un bot Web dans Scrapy
  • Explorer un ou plusieurs sites Web et extraire des données
  • Déploiement de Spider sur ScrapingHub
  • Se connecter à des sites Web avec Scrapy
  • Utiliser Scrapy en tant que script autonome
  • Utilisation de Scrapy avec Sélénium
  • Construire Scrapy Advanced Spider
  • Plus de fonctions offertes par Scrapy une fois le traitement fini
  • Modification et utilisation des paramètres Scrapy
  • Exportation des données extraites par Scrapy dans des fichiers CSV, Excel, XML ou JSON
  • Stockage des données extraites par Scrapy dans des bases de données MySQL et MongoDB
  • Plusieurs projets de Scraping Web réels

Public

Personnes familiarisées avec Python et souhaitant apprendre à créer un robot d’exploration et un robot Web efficaces pour naviguer entre les sites Web et extraire le contenu de pages contenant des informations utiles.

Pré-requis

Connaissances de base en traitement de données, programmation (idéalement en python), formation Les données structurées sur le web ou connaissances de HTTP, HTML, CSS, XML, JSON, XPath, CSS selectors, regex.

Post-Formation

Méthodes

Afin de mobiliser les participants, de multiplier les échanges et de faciliter l’assimilation des connaissances, cette formation alterne exposés théoriques et applications pratiques / cas concrets / travaux sur ordinateur.

Programme

More about Scrapy

Scrapy Arguments
Scrapy Close Function
Scrapy Items

Export Output to Files

Scrapy Feed Exports to CSV, JSON, or XML
Export Output to Excel
Downloading Images with Scrapy Pipelines
Renaming Images with Scrapy Pipelines

Scrapy Project #1: Scraping Website Eng Jobs

Website Scraper - Overview
Creating Scrapy Website Spider
Website Scrapy Spider #1 – Titles
Website Scrapy Spider #2 – One Page
Website Scrapy Spider #3 – Multiple Pages
Website Scrapy Spider #4 – Job Descriptions
Editing Scrapy settings.py
Final Scrapy Tutorial, Website Spider Code

Extracting Data to Databases - MySQL & MongoDB

Installing MySQL
MySQL Installation and Usage
Writing Data to MySQL
Installing MongoDB
MongoDB Installation and Usage
Writing Data to MongoDB

Scrapy Project #2: Web Scraping

Scraping Subjects
Scraping Courses
Code Update

Scrapy Advanced Topics

Scrapy User Agent
Scraping Tables
Scraping JSON Pages
Scrapy FormRequest

Scrapy Project #3: Web Scraping

Scraping Project Overview
Extracting Initial URLs
Crawling Internal Pages
Scrapy Form Requests
Scraping Data
Checking Data Existence
Scraping Data from Table

Project #4: Web Scraping

Scraping Project: Overview & Requirements
Logging in
Finding Profiles
Scraping Data Points from Profiles
Connecting to Profiles

Solved Web Scraping Exercises

Yield Data Items from 2 Functions
How to Order Exported Data
Xpath contains() and starts-with() functions
Extracting Hidden Phone Number with Selenium
Extracting Hidden Phone Number without Selenium
Using Multiple Proxies with Crawlera (Optional)

Environnement

Python Browser Firefox Chrome R

Mot-clés

Robot Bot WebScraping Python Selenium

Commander