2.1 Structure des archives

Celles-ci, telles que nous les avons reçues, et une fois nettoyées par l’entreprise 2, sont stockées sur des fichiers quotidiens dont les lignes ont l’allure suivante:

142.149.110.99 P0-97795710-26 [1/1/2001:0:0:11] booster la cnnection a internet
193.250.163.23 P0-97834398-107 [1/1/2001:9:56:38] "moteurs de recherche"
152.162.12.144 P0-97267473-17 [1/1/2001:10:56:28]"gabriel faur e"
205.188.98.157 P0-97759141-325 [1/1/2001:13:17:29] louer une maison, bail?
La première colonne correspond au numéro IP de la machine de la personne qui se connecte à Goosta. Dans les faits, c’est souvent le numéro IP du modem du fournisseur d’accès et les « reroutages 3 », fréquents, complexifient la recherche de la localisation géographique de l’émetteur —déjà délicate dans les cas favorables.

La seconde correspond à un cookie, accepté ou refusé —qui peut aider à singulariser (et non à authentifier) l’auteur de la requête, au moins dans le cadre d’une session— mais qui parfois n’est attaché qu’à une machine collective.

La troisième colonne est évidemment la date.

La quatrième va retenir la majeure partie de notre attention: c’est l’expression de la requête de l’internaute. Les exemples précédents mettent déjà en évidence la présence de signes de tous types (guillemets, ponctuation...) et la présence de fautes de frappe ou d’orthographe. Malgré tout, la variété des requêtes (intégrant même des caractères de contrôle) est telle qu’un nettoyage draconien s’impose avant de pouvoir en opérer un premier traitement.