Lire les logs d’un mutualisé OVH avec GoAccess

Je vous ai présenté GoAccess il y a quelques temps pour interpréter vos logs Apache. Cette fois, je vais vous expliquer comment permettre à GoAccess d'interpréter les fichiers produits par les serveurs mutualisés d'OVH.

Le logo de GoAccess.

Configuration

Une fois GoAccess installé, éditez ou créez le fichier .goaccessrc au niveau de votre home utilisateur et ajoutez-y les lignes suivantes :

  • log-format %h %v - %^[%d:%t %^] "%r" %s %b "%R" "%u"
  • time-format %H:%M:%S
  • date-format %d/%b/%Y

Récupérer les logs chez OVH

Je ne peux que vous conseiller d'aller ajouter un utilisateur pouvant accéder aux logs histoire de pouvoir utiliser son mot de passe dans un script qui automatisera la tâche de récupération (dans un cron mensuel par exemple). Ce guide dédié vous expliquera comment faire.

Connectez-vous ensuite à l'espace de gestion des logs à l'aide de l'adresse suivante : https://logs.ovh.net/votredomaine.tld.

Lancer l'analyse

Comme vu dans mon précédent billet sur ce sujet, vous pouvez directement analyser les archives à l'aide de la commande zcat.

zcat /var/log/apache2-backup/domain.tld/2017-03/domain.tld-* | goaccess -c --ignore-crawlers -a

Ajouter le domaine aux requêtes

Lorsque plusieurs domaines sont configurés, il est utile de pouvoir connaître lequel est responsable d'une requête en particulier. Pour cela, la commande awk permet de placer automatiquement cette information au bon endroit.

zcat /var/log/apache2-backup/domain.tld/2017-03/domain.tld-* | awk '$7=$2$7' | goaccess -c --ignore-crawlers -a

Pourquoi j’ai quitté Google Analytics

Depuis le début du mois d'avril, je n'utilise plus Google Analytics. Il me servait essentiellement à connaître les statistiques de visites sur ce blog (ainsi que sur mes autres sites). Je vous avais fait part de cette envie lors de la présentation de l'outil d'analyse de logs GoAccess. C'est désormais chose faite.

Un panneau nous indiquant la sortie de secours.

Pour les curieux, et peut-être aussi pour faire prendre conscience à ceux qui, par habitude, ne penseraient pas à revenir sur ce choix, je me suis dit qu'un retour pourrait être utile.

  • Ce blog est majoritairement consulté par des technophiles dotés de bloqueurs de traqueurs analytics/pubs et je me suis rendu compte que les stats entre GoAccess et Analytics n'avaient rien à voir,
  • j'ai tendance à croire qu'une trace dans un log sera toujours plus fiable qu'un événement JavaScript (chaque ressource demandée par un client, même arrêtée inopinément est tracée),
  • je refuse d'engraisser gratuitement les algorithmes de Google avec les contenus que je produis, et par là même occasion de suivre et analyser les faits et gestes de mes lectrices et lecteurs,
  • étrangement le taux d'utilisateurs de Chrome est beaucoup -beaucoup- plus élevé sur Google Analytics que sur GoAccess (tirez-en les conclusions que vous voulez) (oui, je suis pro-Firefox et j'assume),
  • j'essaie autant que possible de me passer des services proposés par Google quand une alternative viable et libre existe. Cette entreprise, dont le nombre de monopoles ne cesse de croître, fait bien ce qu'elle veut des données que je lui offre et ça fait bien longtemps maintenant que j'ai adopté la maxime « si c'est gratuit, c'est que c'est toi le produit »,
  • ce sera toujours un script en moins à charger (j'en ai d'ailleurs profité pour supprimer les quelques scripts externes qui traînaient - coucou Gravatar),
  • je devais consulter le tableau de bord Analytics une fois tous les deux mois et GoAccess me donne toutes les métriques dont j'ai besoin pour m'assurer que tout fonctionne normalement.

Je pourrais continuer comme ça longtemps mais les points principaux sont là. Et vous, c'est pour quand ?

GoAccess pour analyser ses logs Apache

Pourquoi utiliser GoAccess ?

Dans mon cas, je souhaite me débarrasser de Google Analytics dont je n'utilise qu'1% des fonctionnalités. Je cède à ce dernier beaucoup trop d'informations concernant les visiteurs de mes sites. L'idée était de continuer à connaître les pages les plus visitées, les erreurs rencontrées et une potentielle chute de fréquentation pouvant provenir d'un problème technique. Quoi de plus fiable que d'analyser des logs en remplacement d'un bout de JavaScript souvent bloqué par UBlock Origin ou Adblock Plus.

En résumé :

  • je donne moins d'informations à Google
  • j'évite le chargement d'un script externe à mes visiteurs
  • je peux quand même continuer à vérifier que tout va bien

La seule contrepartie dans mon cas étant la récupération des logs chez OVH que je pense automatiser dans la foulée.

goaccess-logo

Installation

Un paquet GoAccess est sûrement disponible pour votre distribution Linux ou vous pouvez le compiler depuis les sources. Je vous renvoie pour cela à la documentation d'installation.

Commandes

Dans les exemples suivants, j'utiliserais le fichier de log présent sur mon disque à l'emplacement /var/log/apache2/access.log.

Utilisation de base

goaccess -f /var/log/apache2/access.log

Ignorer les crawlers/bots/spiders avec l'option --ignore-crawlers

goaccess -f /var/log/apache2/access.log --ignore-crawlers

Lire des logs archivées

zcat /var/log/apache2/access.log*.gz | goaccess

Génération d'un rapport au format HTML

goaccess -f /var/log/apache2/access.log --ignore-crawlers -a -o report.html

GoAccess HTML report screenshot

Lancer un tableau de bord d'analyse en temps réel

goaccess -f /var/log/apache2/access.log -o /var/www/report.html --real-time-html

Remplacez /var/www/report.html par un endroit accessible par votre serveur web. Il ne vous restera plus qu'à accéder à ce dashboard via l'adresse https://<votre-domaine>/report.html.

Choisir le bon parseur pour Apache

Il se peut que la commande précédente n'apporte pas le résultat escompté. En effet, les logs peuvent être construits de nombreuses manières. Pour que GoAccess comprenne les données issues du fichiers que vous lui fournissez, utilisez l'option -c.

goaccess -f /var/log/apache2/access.log -c

Un menu va vous proposer les différents parseurs disponibles. Pour d'Apache, nous utiliserons le premier : NCSA Combined Log Format. Le deuxième, NCSA Combined Log Format with Virtual Host, est à sélectionner lors de l'utilisation de virtuals hosts.

Vous pouvez à tout moment éditer les règles de parsing avec les touches suivantes :

  • touche c pour modifier le format du log
  • touche d pour modifier la date
  • touche t pour le temps

Les différentes options disponibles pour ces expressions régulières sont disponible sous l'encart SPECIFIERS du manuel de GoAccess.