Celles-ci, telles que nous les avons reçues, et une fois nettoyées par l’entreprise 2, sont stockées sur des fichiers quotidiens dont les lignes ont l’allure suivante:
142.149.110.99 | P0-97795710-26 | [1/1/2001:0:0:11] | booster la cnnection a internet |
193.250.163.23 | P0-97834398-107 | [1/1/2001:9:56:38] | "moteurs de recherche" |
152.162.12.144 | P0-97267473-17 | [1/1/2001:10:56:28] | "gabriel faur e" |
205.188.98.157 | P0-97759141-325 | [1/1/2001:13:17:29] | louer une maison, bail? |
La seconde correspond à un cookie, accepté ou refusé —qui peut aider à singulariser (et non à authentifier) l’auteur de la requête, au moins dans le cadre d’une session— mais qui parfois n’est attaché qu’à une machine collective.
La troisième colonne est évidemment la date.
La quatrième va retenir la majeure partie de notre attention: c’est l’expression de la requête de l’internaute. Les exemples précédents mettent déjà en évidence la présence de signes de tous types (guillemets, ponctuation...) et la présence de fautes de frappe ou d’orthographe. Malgré tout, la variété des requêtes (intégrant même des caractères de contrôle) est telle qu’un nettoyage draconien s’impose avant de pouvoir en opérer un premier traitement.