Équipe Réseaux, Savoirs & Territoires

ENS

logo AI

Actus | Articles et textes de référence | Cours et séminaires | L'équipe | Le RAIL | Outils | Art, débats et expériences | Diapos | Archives

Master Sibist. UE 2
Méthodes et outils de traitement, d'analyse et de représentation des données

Éric Guichard, MCF HDR à l'Enssib
Responsable de l'UE

Septembre 2018

Sommaire

1  Présentation
2  Programme synthétique
    2.1  Initiation Linux
    2.2  Premières explorations de données
    2.3  Croisement de variables, analyses multi-variées
    2.4  Articulation entre l'analyse et la représentation graphique
3  Autres

UE de 50h de cours/étudiants. Cours de 13h30 à 16h30 le lundi, en salle 1.08, à partir du 24 septembre 2018.

1  Présentation

Cette UE permet d'acquérir des connaissances pratiques et théoriques relatives au traitement des « données », que Bruno Latour nomme des « obtenues ». Celles-ci seront nativement numériques pour les besoins de la pédagogie. L'accent sera mis sur la complexité ou l'inadaptation de ces données (phénomène bien plus fréquent qu'on ne l'avoue), sur les divers modes d'exploration et de lecture rapide de ces données (outils dédiés fichiers, orientés bases de données, représentations graphiques) et sur quelques méthodes statistiques adaptées aux données massives et multivariées.

2  Programme synthétique

2.1  Initiation Linux

Ce système d'exploitation est doté de nombreux outils internes performants, aisément complétés par des logiciels sophistiqués téléchargeables. C'est lui qui, aujourd'hui, permet des usages informatiques vraiment industriels, même s'il a toujours des défauts. On sollicitera avec profit le manuel disponible à l'adresse http://barthes.enssib.fr/cours/informatique-pour-litteraires/2015/Linux-memo2015.pdf.

2.2  Premières explorations de données

Des sources variées, issues de la recherche, seront utilisées tout au long du cours : enquête sociologique (5600 personnes, 20 à 100 questions), logs de serveurs web (plus de 100 000 lignes), textes littéraires (l'oeuvre de Voltaire), résultats électoraux, données de data.gouv.fr et de Wikipédia, etc. Ces données seront donc structurées ou non, nécessiteront des nettoyages, des recodages. Ici, la méthode est reine, et fait la différence avec les simples recettes.

Ces opérations se réaliseront de deux façon différentes: par une approche bases de données, qui sollicitera les diverses sous-approches du champ (sqlite, no-sql, etc.) et les mettra en perspective en relation avec les dernières évolutions informatiques, et par une approche système de fichiers (plus classique, mais toujours efficace pour les experts, tant qu'on ne manipule pas des Tera de données). Un expert du domaine (EPFL) interviendra sur ce point, et précisera les aspects épistémologiques et méthodologiques de ces approches toujours mouvantes et nécessairement « opportunistes », au sens où une recette générale est toujours moins pertinente qu'une solution ad hoc répondant à un problème précis.

2.3  Croisement de variables, analyses multi-variées

Une fois les fichiers de travail organisés, reste à les analyser : qu'ils soient déjà structurés en « variables » ou qu'ils soient traduits en de telles formes pour les besoins de la problématique. Ici seront introduites les analyses statistiques de tableaux de deux variables, les analyses multivariées (factorielles, classification, etc.) et l'accent sera mis sur leur interprétation.

Les savoir-faire des points 2.1 et 2.2 seront systématiquement réutilisés à cette occasion.

2.4  Articulation entre l'analyse et la représentation graphique

Dans les trois axes précédents, le graphique (carte, sortie d'analyse multivariée, graphe) aide à conforter une hypothèse ou un argument. Les apports heuristiques de ces représentations seront mis en évidence de façon empirique (production, transformation d'images organisées, commentaire). On insistera aussi sur la rédaction d'un document compréhensible qui explique le fonds de sources, leur traitement, les résultats obtenus, et qui intègre des productions graphiques. Les dimensions rhétorique, méthodologique et épistémologique de ces points seront détaillées.

L'approche bases de données se conclura elle-aussi avec des productions graphiques.

3  Autres

  • Évaluation : devoir individuel de quatre heures. Tous documents et ordinateurs autorisés, sauf téléphones portables et outils de communication en ligne.

  • Site de référence: http://barthes.enssib.fr

  • Mail du responsable : Eric.Guichard@enssib.fr

Page créée le 17 septembre 2018, modifiée le 17 septembre 2018