Crawler des sitemaps XML avec R et xsitemap

Les sitemaps XML, pour rappel, sont des fichiers présents à la racine de votre site et listent l’ensemble des urls importantes d’un point de vue SEO, de votre site. Dans certains contextes, vous serez amené à souhaiter récupérer les urls des sitemaps pour mener des analyses.

Comment récupérer les urls d’un sitemap ?

install.packages("devtools")
library(devtools)
install_github("pixgarden/xsitemap")
library(xsitemap)

# This is the main function. Add domain hostname or an XML URL as a parameter
sitemap_urls <- xsitemapGet("https://www.asos.com/product-sitemap-index-COM.xml")

# Will check if sitemap urls are sending 200 http code.Beware it can take some time depending on the number of URLs
sitemap_urls_code <- xsitemapCheckHTTP(xsitemap_urls)

# Will search for xml sitemap URL inside robots.txt
sitemap_urls_blocked_by_robots.txt = xsitemapGetFromRobotsTxt(sitemap_urls)

Laisser un commentaire