Comment récupérer les PAA (People Also Ask) dans Google via R

Après avoir vu ce que sont les PAA (People Also Ask) et comment les scraper sans coder je vous propose une solution plus adaptée pour ceux / celles qui souhaitent effectuer cette opération sur des dizaines, voire des centaines de mots clés. Pour cela, je vous propose un petit script R qui devrait répondre à votre besoin.

Script R pour récupérer les questions PAA dans Google

setwd(insert your working directory)
# Je charge dans une variable la liste des librairies que je vais utiliser
packages < c("dplyr","httr","Rcurl")

# J'installe automatiquement les librairies necessaires & non installees
if (length(setdiff(packages, rownames(installed.packages()))) > 0) {
  install.packages(setdiff(packages, rownames(installed.packages())))  
}

library(dplyr)
library(httr)
library(RCurl)

mykeywords = c("yourKW","yourKW","yourKW","yourKW") my_user_agent <- "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.13; rv:59.0) Gecko/20100101 Firefox/59.0"

PAA = vector(mode="list", length(mykeywords))

for (i in 1: length(mykeywords))
{ url_to_check <- paste0("https://www.google.com/search?q=",mykeywords[i],"&ie=utf-8&oe=utf-8&client=firefox-b")

PAA[[i]] = GET(url_to_check, user_agent(my_user_agent)) %>%
htmlParse(encoding = "UTF-8") %>%
xpathSApply('//div[/*]/g-accordion-expander/div/div', xmlValue) }

PAA = dplyr::bind_cols(PAA)

PAA = PAA[!apply(is.na(PAA) | PAA == "", 1, all),]
names(PAA) = c("yourKW","yourKW","yourKW","yourKW") write.csv(PAA, file = "paa_google_topic.csv")

à vous de jouer 😉

Laisser un commentaire