Guillaume HERNANDEZ

Disclaimer : cet article est une traduction partielle de l’article de Phantombuster réalisée dans un cadre pédagogique, lien vers l’article source : https://phantombuster.com/blog/automation/how-to-generate-b2b-leads-from-google-maps-like-a-god-5Zn7MlLpZctXYzIF6o0cL9.

Phantombuster est un outil d’automation et d’extraction de datas. Il permet notamment de scrapper des sites internet de façon plus ou moins précise. Dans le cadre de cet article, nous utiliserons 2 scripts Phantombuster : un script pour scraper les résultats Google Maps et constituer une base de données (désigné par la suite sous l’acronyme BDD) Google Sheet (le tableur de Google Drive) avec : https://phantombuster.com/automations/google-maps/23412/google-maps-search-export et un script pour scraper des sites internet et récupérer des informations de contact. Il parcourra chaque site web obtenu par le biais de Google Maps et extraira chaque adresse électronique, numéro de téléphone et comptes Instagram, Facebook, LinkedIn et Twitter associés. Bien sûr, faites très attention au RGPD si vous utilisez le scraper, vous ne pouvez pas stocker en BDD ou contacter n’importe quels emails sans preuve de consentement.

Pourquoi passer par un scraper ?

Voici les chiffres réels pour cet exemple particulier :
Configuration (temps humain) : 5min
Temps d’exécution (temps du robot) : 8min06sec (étape 1) + 1h32min (étape 2) = 1h40min

Étape 1 : Google Maps

  • Extraction de Google Maps : 08m06s
  • Restaurants trouvés : 201
  • Sites web de restaurants trouvés : 183 (91%)
  • Numéros de téléphone de restaurants trouvés : 183 (91%)

Étape 2 : Crawling des infos de contact

  • Pages Facebook trouvées : 101
  • Pages Instagram trouvées : 78
  • Comptes Twitter trouvés : 109
  • Adresses e-mail trouvées : 178

Pour cet article, l’auteur a pris un sujet au hasard qui lui est venu à l’esprit. Attention quand même, selon les secteurs, les fiches Google My Business peuvent être complètes ou pratiquement vides. Néanmoins ça permet de bien dégrossir le travail.

C’est parti, on commence avec l’étape 1

Pour l’étape 1 on passera par https://phantombuster.com/automations/google-maps/23412/google-maps-search-export pour extraire les informations de chaque fiche Google Maps/Google My Business :

  • Numéro de téléphone
  • Site internet
  • Adresse
  • Avis moyen
  • Catégorie
  • Horaires

Comment faire ?

Tout d’abord il faut aller sur Phantombuster et lancer le script mis en lien juste au dessus. Le script vous demandera l’adresse url de vorte fichier Google Sheet, à noter que ce fichier doit reprendre le modèle que Phantombuster donne en lien et remis ici : https://docs.google.com/spreadsheets/d/1j_WXVPIkVPppqh0C5JCCmlUft0xdf4hWFZrTUVEDIFQ/copy?id=1j_WXVPIkVPppqh0C5JCCmlUft0xdf4hWFZrTUVEDIFQ. Si vous ne souhaitez scrapper qu’une adresse Google Maps, alors on peut directement la mettre dans le champ demandé :

Si vous utilisez le fichier Google Sheet, vous devrez aussi renseigner des adresses URL de pages de recherches Google Maps. On va donc voir comment en récupérer :

  1. Dans un premier temps il faut aller sur : https://www.google.fr/maps
  2. Lancer sa recherche
  3. Récupérer l’adresse URL :

On colle et c’est parti :

Bien sûr, si vous fonctionnez avec un fichier Google Sheet, il ne faudra pas oublier de le partager au minimum en lecture pour que Phantombuster puisse y accéder, pour cela il faut aller dans « partager » –> « obtenir un lien de partage » –> mettre tous les utilisateurs du lien de partage en admin puis copier coller le lien. Puis on sauvegarde avec le bouton Save.

Ensuite Phantombuster, nous demande de configurer le scraper :

On pensera bien à mettre le Browser’s language sur « fr » sinon on va scraper avec un navigateur en Anglais, ce serait dommage ! De base, le nombre de résultats scrapé est de 200, on peut le diminuer ou l’augmenter selon le marché.

Ensuite il nous demande si on veut lancer le scrap une fois ou de façon régulière, dans notre cas on lancera le scrap une seule fois. 

C’est bon, le robot est configuré, maintenant on peut le lancer !

Une fois le téléchargement terminé, cliquez sur download CSV pour récupérer le fichier.

Remarque : si vous avez choisi « école de commerce » comme moi en exemple, vous risquez de vous arrêtez avant d’arriver à 200, tout simplement parce que Google Maps n’a pas réussi à trouver les 200 adresses.

Maintenant on peut ouvrir le fichier et c’est le bordel ! :'(

On va devoir transformer le fichier CSV en fichier Excel, cette partie du tutoriel sera réalisée sous Excel. Selon votre version d’Excel, vous aurez, ou pas, la même présentation du menu.  A noter que si vous utilisez Office 365 comme moi, vous avez quelque chose comme 5 licences Microsoft Office incluses dans l’abonnement.

L’idéal sera de fermer Excel et de le réouvrir sur un Excel vide :

Ensuite on va aller dans le menu données –> ouvrir à partir d’un fichier CSV

On indique ensuite l’adresse du fichier et on se retrouve avec cette fenêtre :

La prévisualisation nous montre qu’il y a du mieux, mais ce n’est pas encore exactement ce que l’on souhaite, si on regarde bien, tous les accents partent en cacahuète, on va revoir toucher à l’origine du fichier pour le mettre en 65001:Unicode (UTF-8). Si tout est sur une colonne, alors il faut changer le délimiteur pour le mettre sur « virgule ».

On voit que c’est beaucoup mieux, on va donc pouvoir cliquer sur « charger » pour finaliser l’opération ! Et voilà, vous avez transformé votre CSV en fichier Excel, vous pouvez maintenant l’enregistrer. A noter qu’il y a d’autres méthodes pour transformer un CSV en Excel, j’ai choisi cette méthode car elle me semble plus simple pour des néophytes, mais ce n’est pas la plus rapide !

Etape 2, crawler les sites internet

Pour crawler les site internet, on aura besoin d’utiliser le script : https://phantombuster.com/automations/toolbox/22972/data-scraping-crawler, on va donc suivre sa documentation.

Pour cette étape, rebelote, on suite les consignes du logiciel. Comme on a beaucoup de sites internet différents, on va passer par un fichier Google Sheet pour que Phantom Buster scrape toutes les urls en une seule fois. Voici le modèle de fichier Google Sheet à dupliquer : https://docs.google.com/spreadsheets/d/1–55rReLQf0LsGxQRVYXY-IEKOlv_W58UwgJiZIhbSc/copy?id=1–55rReLQf0LsGxQRVYXY-IEKOlv_W58UwgJiZIhbSc

Le modèle prévoit une seule colonne dans laquelle on va entrer les adresses URL des sites internet, il gère aussi très mal les doublons. On va donc retourner sur notre fichier Excel et supprimer les doubons sur la colonne et trier la colonne website sur l’affichage des sites internet pour ne pas avoir de trous dans la liste des urls :

Il ne faut cocher que la case website, attention ça devrait supprimer quelques adresses postales :

Pensez à sauvegarder le fichier si vous le fermez, on aura besoin de garder le même ordre de tri pour la fusion de ce fichier Excel avec celui issu de l’étape 2.

Ensuite on copie-colle la liste sur le modèle mis à disposition par PhantomBuster. On prend le lien de partage du Google Sheet et on n’oublie pas de passer tous les utilisateurs du lien en éditeur, sinon ça ne fonctionnera pas.

A l’étape suivante, le scraper vous demandera quelles informations vous souhaitez récupérer sur le site, dans le cadre de cet exercice on cochera toutes les case :

Après on fait « save » « save » « save » et « Launch » et on voit ce que ça donne !

Une dernière étape reste à faire, Phantombuster pour envoie un CSV, on va donc devoir le remettre en fichier Excel comme tout à l’heure, je ne vous remets pas la démarche, il n’y aura pas de nouveauté.

Pour finir, on devra fusionner les bases de données. Comme on a trié les deux fichiers de la même façon, il n’y aura plus qu’à mettre le résultat de votre deuxième Excel à la suite des colonnes du fichier du premier Excel pour obtenir une unique base de données.

Laisser un commentaire