Atelier Internet mai 96

Actualités et nouveautés	Le colloque de 1999	Articles
Bilans, débats, comptes rendus	Dernier ouvrage	Pointeurs et Bibliographie
Page de garde		Vos commentaires et propositions

Compte rendu de la septième séance de l'atelier Internet

(10 mai 1996)

Ce n'est en fait qu'une partie de la septième séance qui est exposée ici: il s'agissait de mesurer quelques pratiques et de donner quelques résultats primaires. Mais déjà apparaissent des problèmes de méthode et de déontologie:

I. Déontologie.

Le fichier qui sert de témoin de l'enquête est un fichier qui enregistre les en-tête des courriers qui transitent par le serveur; rappelons que ce serveur héberge une centaine de comptes d'étudiants et chercheurs en sciences sociales (sociologie, histoire, anthropologie, économie) et en lettres au sens large (anglais, américain, grec, latin...). Pour les experts, ce fichier s'appelle Ťsyslogť et il est d'accès public si l'administrateur ne pense pas à le masquer; ses informations, tout en étant indigestes, sont souvent lisibles par paquets de trois lignes du type:
référence; numéro-du-message;
émetteur; référence;
référence; destinataire;

On peut ainsi réapparier ces messages sous la forme:
référence; émetteur; destinataire;

D'autres informations permettent de connaître la taille des messages, leur (pseudo-)bonne réception, la date d'émission et celle de réception.

Les personnes inquiétées par les problèmes de confidentialité découvrent donc que:
- s'il est heureux que le contenu des messages, réellement confidentiel, n'est pas analysé
- les constructeurs d'ordinateurs permettent Ťpar défautť à n'importe quel membre d'un réseau de savoir à quelle heure x a envoyé un message de y octets à z. Ce qui reste assez inquiétant.

On remarquera par ailleurs que des questions parfois posées comme Ťles hommes utilisent-ils Internet plus que les femmesť ou Ťles étudiants... plus que les enseignantsť trouveront des réponses suite à l'analyse de tels fichiers, et que rien n'empêche l'enquêteur d'utiliser ces sources et de procéder à une anonymisation des émetteurs et récepteurs avant de constituer le fichier qui permettra de dessiner le graphe de leurs relations électroniques; ceci, non seulement avant la diffusion de ce fichier à autrui, mais aussi avant même que l'enquêteur ne tente lui-même une analyse dudit fichier: en l'occurrence, c'est ce qui a été fait ici, tout en gardant trois classes d'utilisateurs: ceux qui ont un compte sur le serveur, ceux qui ont un compte sur un autre serveur du réseau local (composé de plus d'un millier de machines), ceux de l'extérieur; les utilisateurs du premier groupe auront un code aléatoire (et non stable au fil des expériences) compris entre 1 et 999; pour les seconds, ce code sera compris entre 1001 et 9999; les troisièmes auront une référence supérieure à 10000; plus qu'un excès de précaution, cette anonymisation relève aussi du confort intellectuel du sociologue: si le total des expéditeurs et destinataires se limite à 500 personnes, les inter-relations pourraient s'élever à 25000 (x1 peut écrire à x1... x500, x2 peut écrire à x1... x500, x500 peut écrire à x1... x500); dans les faits, dans le cadre de l'enquête explicitée au paragraphe suivant, 4200 inter-relations ont été dénombrées, pour un total de 9300 courriers; il y a là déjà de quoi désespérer le plus fin des espions...

II. Méthodologie.

De l'exhaustif à l'échantillon biaisé.
Voici comment a été réalisée cette première enquête:

L'ensemble des courriers repérés entre le 23 mars et le 12 avril 1996 par le fichier Ťsyslogť du serveur précité a Ťservi de terrainť. Dans les faits, cela pose déjà divers problèmes:
- les syslog quotidiens du serveur (un Next) suppriment certains repères de messages (parmi les 200 dernières lignes du jour);
- réciproquement, certaines lignes sont dupliquées (sorte de compensation du premier problème, qui peut être aisément corrigée: Ťsort -u ...ť).
- certains courriers, adressés à divers destinataires, ont été gérés de façon non systématique, en privilégiant ceux qui sont hébergés par le serveur: si x écrit à y arobase-anti__spam serveur, z arobase-anti__spam serveur et t arobase-anti__spam la-bas.qqpart, en fait deux paquets seront envoyés: l'un pour y et z, vers le serveur, l'autre pour t. Le premier paquet est privilégié aux dépens du second (procédure aisément modifiable, mais l'auteur avait fait ces raccordements avant de partir traiter ces données sur un petit ordinateur; la suite de cette confidence serait Ťvive Perl, portable sur les portables de tout type!ť...).
- certains courriers (messages d'erreurs) ont été supprimés: si postmaster, root ou mailer-agent envoient un courrier à z, c'est souvent parce que z en a émis un avec une mauvaise adresse: le courrier du postmaster a été supprimé, mais pas le ou les courriers antérieurs mal adressés; comme les usagers insistent souvent plusieurs fois avant d'être convaincus du caractère défectueux de leur tentative, les statistiques sont ainsi faussées;
- de façon analogue, il aurait peut-être fallu supprimer les Cc (copies personnelle): si x écrit à z, avec copie à lui-même, faut-il supprimer cette copie? Certains (comme l'auteur de ces lignes) s'envoyent des courriers en guise de pense-bête; il n'est donc pas sûr que la suppression de telles copies soit à privilégier (pratiques sociales à mettre en évidence).
- enfin une désagréable découverte a permis à l'enquêteur, semi-profane du monde Unix, de découvrir que les courriers n'ont pas une référence unique (qui est du type AAxy: xy étant un nombre compris dans le cycle 1-32000), même dans la même journée. Il a donc fallu dissocier et réassocier des émetteurs et destinataires de courriers. Commençons par citer deux exemples appareillés sans problème (les dates servent ici de preuve):

AA29113:from=<x arobase-anti__spam math-info.univ-paris23fr>, size=1495, class=0, received from bbb.ens.fr (129.199.xy.zt):date=Apr  2 19&to=<y arobase-anti__spam serveur.ens.fr>, delay=00:00:01, stat=Sent, mailer=local:date=Apr  2 19

AA29113:from=z, size=2285, class=0, received from local:date=Mar 24 14&to=lambda <u arobase-anti__spam him.net>, delay=00:00:01, stat=Sent, mailer=defaultroute:date=Mar 24 14

Autre exemple, lui, problématique (messages 1 et 3 entremêlés):

AA29104:from=<a arobase-anti__spam tut.ens.fr>, size=3420, class=0, received from bbb.ens.fr (129.199.xy.zt):date=Apr  2 19&to=<c arobase-anti__spam serveur.ens.fr>, delay=00:00:01, stat=Sent, mailer=local:date=Mar 24 14

AA29104:from=<divers arobase-anti__spam univ-rennes1.fr>, size=970, class=0, received from bbb.ens.fr (129.199.xy.zt):date=Apr 11 22&to=<d arobase-anti__spam serveur.ens.fr>, delay=00:00:02, stat=Sent, mailer=local:date=Apr 11 22

AA29104:from=<b arobase-anti__spam swim.net>, size=776, class=0, received from bbb.ens.fr (129.199.xy.zt):date=Mar 24 14&to=<e arobase-anti__spam serveur.ens.fr>, delay=00:00:02, stat=Sent, mailer=local:date=Apr  2 19

ici il est clair que a écrit à e et b à c, même si le second message est correct.

- enfin, une autonomie des satellites du serveur faisait que des messages émis ou reçus par ces satellites ne transitaient pas nécessairement par le serveur et ne figuraient donc pas nécessairement dans ces statistiques.
- de plus, le serveur a eu plusieurs pannes le 12 avril. Et donc les mails qui ont une référence du 12 (et 13) avril ont été supprimés.

Si tous ces problèmes ont été supprimés pour permettre une future étude exhaustive, les phénomènes précédents ont été évoqués pour rappeler que:
1. pour la période considérée, l'exhaustif devient échantillon (50% environ?).
2. les biais de cet échantillon ne sont pas mesurables/quantifiables/estimables.
3. une intuition scientifique incite l'auteur de ces lignes à penser que les statistiques de cet échantillon biaisé sont malgré tout fiables.

Ensuite, il a fallu homogénéiser toutes les adresses potentielles d'un individu. Explicitons ce problème via un exemple: Monsieur Jean Dupond, qui possède le compte jdupond sur la machine serveur.ens.fr, pourra recevoir des courriers aux adresses suivantes:
jdupond; jdupond arobase-anti__spam ens.fr; jdupond arobase-anti__spam serveur; jdupond arobase-anti__spam serveur.ens.fr; Jean.Dupond arobase-anti__spam ens.fr; Jean Dupond ; jdupond (Jean Dupond); et les diverses variantes... En pratique, il a été décidé de privilégier les adresses contenant une arobase, puis de faire un tri à l'intérieur de celles-ci; mais on se rend aisément compte de la difficulté à repérer de façon unique un utilisateur d'un réseau local (pour des réseaux extérieurs, la chose est encore plus difficile: on rencontre des x arobase-anti__spam y.z.t, qui sont aussi des x arobase-anti__spam inter.y.z.t, des p.n arobase-anti__spam y.z.t etc. Autant d'identifiants potentiellement distincts que l'on ne peut confondre si l'on ne dispose pas de tables mondiales d'adresses; autrement dit, si l'on ne se fabrique pas des Ťpages jaunesť mondiales avec leurs homonymes, il est impossible de formuler la surjection efficace qui passe de divers identifiants à un individu (en supposant que celui-ci n'ait qu'un seul compte).

III. Premiers résultats.

Un premier fichier a été constitué, qui calcule, pour chaque émetteur ou récepteur de courrier, la somme des courriers émis ou reçus. Autrement dit, si j'envoie 15 courriers et que j'en reçois 30, mon volume total est de 45 (si j'envoie le même courrier à trois personnes, il est compté trois fois).
Si une personne de NYU envoie 15 courriers à des personnes du réseau local et que certaines d'entre elles lui en envoient 10, cette personne extérieure est comptabilisée avec ces 25 courriers (même si cela ne donne aucune information sur ses autres courriers, ses autres pratiques).
Si une liste extérieure a trois abonnés locaux, et qu'elle envoie 100 messages en 20 jours, elle sera repérée avec 300 messages.

501 adresses sont responsables de 9486 courriers émis ou reçus;
On sait par ailleurs que pour 100 comptes existants sur le serveur, une dizaine sont non-utilisés et autant Ťsomnolentť (élèves ou chercheurs temporairement à l'étranger). Effectivement, 81 comptes arobase-anti__spam ici (serveur local) ont émis ou reçu des courriers lors de ces vingt jours de test. A côté, on dénombre 36 comptes arobase-anti__spam ens (réseau Intranet) et 384 adresses extérieures. On peut déjà s'étonner du peu de variété des contacts (501), et se poser la question d'un rapport nombriliste que l'institution entretient avec elle-même (25% des communications);

Regardons les transits les plus importants:

a	1411; b	775; c	606; liste1	372; d arobase-anti__spam ailleurs	357; e	334; f	269; g	240; liste2	237; liste3	226; liste4	147; h	143; i arobase-anti__spam ailleurs	135; liste5	125; j	112; k arobase-anti__spam ailleurs	105; liste6	102.

les adresses listex sont des listes, normalement dépassées en volume par les personnes qui y sont abonnées. a, b, c... sont des utilisateurs du réseau local. Le total de ces exemples est de 5696 courriers (4487 sans les listes).

Autrement dit, en dehors des listes, a priori 11 personnes, mais en fait 8 personnes ( arobase-anti__spam ici) sur 81 sont responsables de 50% du traffic. En effet, les y arobase-anti__spam ailleurs qui émettent le plus de courrier correspondent avec les 8 personnes ayant un compte local (idem pour les listes en fait).

Les 10 premières listes sont responsables de 2291 courriers (25% du trafic); les 17 listes suivantes sont responsables de 185 courriers supplémentaires. Ces listserv sont très spécialisées (ici, en l'occurence orientées Ťlittérairesť)

A. Des usages fortement différenciés.
Si nous nous limitons aux personnes qui ont un compte local, elles sont responsables de 5196 courriers émis ou reçus.
3 personnes ont émis ou reçu entre 600 et 1400 courriers, soit 42% de ces 5196 courriers;
8 personnes sont à l'origine de plus de 100 courriers, soit 73%;
15 personnes sont à l'origine de plus de 60 courriers, soit 84%;
28 personnes sont à l'origine de plus de 20 courriers (soit une moyenne d'un courrier par jour), soit 94%;
43 personnes sont à l'origine de plus de 5 courriers, soit 98%. Les 2% restants sont donc partagés entre l'autre moitié des utilisateurs (38 personnes dont le total de courriers émis ou reçus est compris entre 1 et 4 en 20 jours).

On peut donc en déduire que 2/3 des utilisateurs ont un usage très modéré du mail (moins d'un courrier par jour). Le groupe catalyseur (plus de trois courriers par jour) se compose d'une quinzaine de personnes, soit 18% de la population qui se partage 84% des Ťpratiquesť.

Les graphiques permettent de visualiser cette étonnante courbe de Dini.

A gauche, le pourcentage du trafic, à droite, le nombre moyen de courriers par jour; en abscisse, le pourcentage d'utilisateurs concernés. C'est donc un petit noyau d'individu qui monopolise et dynamise les pratiques.

B. Genre et statut.
Il semble que le sexe n'est pas un critère d'usage, au moins parmi les premiers utilisateurs (2 femmes parmi les 4 premiers, 4 parmi les 10 premiers, 11 parmi les 28 premiers). Le statut professionnel contredit aussi l'idée de jeunes élèves dynamiques opposés aux professeurs moins habitués aux nouvelles techniques:
Parmi les 15 premiers utilisateurs, on distingue 2 élèves, 3 Ťinvitésť et 10 enseignants/chercheurs/ingénieurs de l'institution. Si on veut élargir ces statistiques aux 43 premiers utilisateurs, les Ťseniorsť dominent toujours les Ťjuniorsť: 18 contre 15 et 10 Ťinvitésť (ces derniers sont en général des étrangers quadragénaires dont la position académique n'est pas très fixée).

Ces chiffres peuvent être utilisés de façon inverse: on pourrait mettre en évidence deux groupes: le premier, utilisateurs acharnés, pour qui les catégories standard ne fonctionnent pas (sexe, âge, statut); le second, utilisateurs Ťmoyensť, pour lesquels ces catégories ont peut-être plus de sens. Il faudra fouiller cette intuition.

Les émetteurs de courrier.
Les chiffres mettent en évidence les mêmes pratiques. On remarque que les Ťlistservť sont responsables de 50% des courriers émis.

C. Les relations avec l'étranger.
Statistiques constituées à partir du fichier des émetteurs:
Parmi tous ces émetteurs (374), 57 sont du réseau local et 32 de l'ENS. (On trouvera 18 récepteurs ENS et 78 locaux).
La propension universitaire (pour ne pas dire locale, au sens où l'on communique avec des amis de l'ENS actuellement à l'étranger) est forte: parmi les sites français hors Intranet émetteurs d'au moins 3 courriers, on note

8 émetteurs de Jussieu; 
5 mgm.fr (Montpellier);
4 msh-paris.fr;
3 univ-rennes1.fr;
3 ensmp.fr et...;
9 compuserve.com;

La palme des sites étrangers revient à ac.uk (17 courriers), qui représente l'ensemble des sites académiques de Grande-Bretagne; ensuite vient gmd.de (13 courriers), qui est en fait un site miroir de plusieurs listserv américaines.

On dénote en revanche une multitude de sites américains: mit (5), muohio (5), nyu (7), cornell (7), princeton (4), uchicago (4), uiowa (4), suivis par ucla, uga, columbia et harvard (3 chacun); au total 81 Ť.eduť pour 16 Ť.cať (dont 4 pour l'université de Montréal umontreal.ca)

D. Premières conclusions
On est étonné par l'existence d'un noyau dur composé d'un petit nombre de personnes qui monopolise le courrier électronique tout en servant de catalyseur pour les autres. Mais si ces Ťgros utilisateursť s'opposent aux praticiens occasionnels, ils définissent à eux seuls la Ťnormeť: la moyenne des courriers est de 64, et les utilisateurs au dessus de cette moyenne sont exactement les 15 dynamiseurs déjà repérés. Face à cette Ťnormeť visible, minoritaire, il y a la Ťnormeť statistique: le nombre médian de courriers est de 7.

Cette disproportion des valeurs ne doit pas nous faire oublier que le courrier électronique semble encore très peu utilisé: seulement 8 personnes reçoivent (ou émettent) plus de 5 courriers par jour. A l'opposé la moitié des usagers génère un trafic inférieur à 3 courriers par semaine.

Nous comptons prochainement compléter cette enquête et utiliserons le fichier anonymisé précédemment évoqué pour construire le graphe des relations électroniques des utilisateurs.

D'autres statistiques ont été produites pour mesurer les usages des groupes de news en France et JB a commenté les statistiques générales qu'il produit depuis plusieurs années (WAIS, Gopher, Web, volume etc.). Elles seront aussi prochainement commentées ici.

Actualités et nouveautés	Le colloque de 1999	Articles
Bilans, débats, comptes rendus	Dernier ouvrage	Pointeurs et Bibliographie
Page de garde		Vos commentaires et propositions