Crawler des sitemaps XML avec R et xsitemap

Les sitemaps XML, pour rappel, sont des fichiers présents à la racine de votre site et listent l’ensemble des urls importantes d’un point de vue SEO, de votre site. Dans certains contextes, vous serez amené à souhaiter récupérer les urls des sitemaps pour mener des analyses.

Comment récupérer les urls d’un sitemap ?

install.packages("devtools")
library(devtools)
install_github("pixgarden/xsitemap")
library(xsitemap)

# This is the main function. Add domain hostname or an XML URL as a parameter
sitemap_urls <- xsitemapGet("https://www.asos.com/product-sitemap-index-COM.xml")

# Will check if sitemap urls are sending 200 http code.Beware it can take some time depending on the number of URLs
sitemap_urls_code <- xsitemapCheckHTTP(xsitemap_urls)

# Will search for xml sitemap URL inside robots.txt
sitemap_urls_blocked_by_robots.txt = xsitemapGetFromRobotsTxt(sitemap_urls)

0 commentaires

Soumettre un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Découvrez aussi …

Qu’est-ce le SEO et comment fonctionne t-il ?

Qu’est-ce le SEO et comment fonctionne t-il ?

Vous souhaitez comprendre ce qu'est le SEO et son fonctionnement ? Bonne nouvelle, vous êtes au bon endroit. Nous vous avons concocté un guide simple, concis et efficace pour mieux appréhender le SEO et ses enjeux.L'une des questions les plus fréquentes parmi nos...

Comment pousser Google à crawler vos sitemaps ?

Comment pousser Google à crawler vos sitemaps ?

Si vous êtes SEO, vous savez que les sitemaps XML sont importants pour le crawl et l'indexation de vos pages. Il existe plusieurs enjeux majeurs à travers les sitemaps XML : Les urls poussées dans les sitemaps doivent regroupées vos pages importantes d'un point de vue...

10 principes UX à connaître

10 principes UX à connaître

L'UX au service de votre site web Créer un site web n'est pas chose aisée. Cela exige un parfaite compréhension et analyse de la cible. Selon vous serez amener à adapter la navigation, le style ou encore le wording de votre site. Cependant, certaines règles restent...

How to create XML Sitemap with R

How to create XML Sitemap with R

XML sitemaps are must have when you want to make sure Google crawl your pages. To create XML sitemaps, it exists multiple free and paid solutions. Well, this article will show you how to create XML sitemaps for free with a simple R script. This method does not need to...

Créer un sitemap XML avec Python

Créer un sitemap XML avec Python

Qu'est-ce qu'un sitemap XML ? Un sitemap XML est un fichier qui vise à lister l'ensemble de vos urls importantes pour le SEO. Vous pouvez en créer plusieurs par thématique ou type de pages. Il existe certaines limitations concernant les sitemaps XML. Pour rappel, les...