La recherche textuelle (cf. CC ch. 6)
La fréquence et la disponibilité des mots (cf. CC sur la lisibilité d'un texte)
Dans tout texte, les mots les plus fréquents sont les mots grammaticaux, dits aussi mots outils ou mots fonctionnels : de est toujours le mot le plus fréquent d'un texte d'une certaine longueur (le texte "La baguette en péril" compte comme texte "d'une certaine longueur"). Les mots outils prépositions, conjonctions, pronoms, articles, adjectifs possessifs, démonstratifs, interrogatifs, adverbes grammaticaux (ne... pas, très, bien, etc.), verbes auxiliaires sont dans presque tous les cas des mots courts et monosyllabiques. Il ne faut pas confondre "fréquent" et "nombreux". Les mots les plus nombreux de tout texte, mais en même temps moins fréquents que les mots outils, sont les mots lexicaux, dits aussi mots pleins, dont une partie constituent des mots thématiques liés au thème du texte (dans un grand corpus comprenant un grand nombre de textes différents les thèmes tendent à disparaître dans la généralité de la langue) : noms, verbes, adjectifs qualificatifs, adverbes lexicaux (par exemple en -ment, comme lentement, rapidement, etc.). Ils sont dans la majorité des cas plus longs et ont plus de syllabes que les mots outils.
Il est donc facile de faire un relevé des mots outils puisque tout texte en contient, et contient toujours les plus fréquents (donc les plus "invisibles") tels que de, d', le, la, l', les, et, est, que... En revanche, l'occurrence des mots lexicaux est étroitement liée au sujet du texte. Deux exemples : 1) le texte "La baguette en péril", qui contient 942 mots de texte (mots graphiques s'entend) et 411 mots ou formes différents ; 2) le corpus "Corpus 56" qui contient (dans une base comprenant 56 articles publiés dans la dernière partie du 20e siècle dans divers journaux, magazines et sites web canadiens, français et suisses) 109 417 mots de texte et 15 021 mots/formes différents. Observations : a) plus un texte est long (plus un corpus est grand) et plus le rapport entre mots de texte et mots différents est large (cf. 942 / 411 vs. 109 417 / 15 021) ; b) le mot le plus fréquent dans "Baguette" et "Corpus" est de (f. 59 dans le premier, 5 204 dans le second) ; c) alors que le mot lexical le plus fréquent dans "Baguette" est le mot thématique pain (f. 15, le 8e mot le plus fréquent), dans "Corpus56" le mot pain n'a qu'une fréquence de 24 et est, avec 18 autres mots, le 402e mot le plus fréquent du corpus. Le mot pain doit son existence dans le corpus surtout au fait que celui-ci comprend l'article "La baguette en péril" ! Comme on peut lire dans le descriptif de "Corpus56" : "Les genres et les sujets sont variés: le documentaire, la critique, la polémique, l'interview; le bonheur, le cinéma, la danse, le théâtre, la musique, les disques, les livres, la littérature, le sport, la mode, les médias, Internet, le bilinguisme, l'enseignement des langues, l'école, le téléphone scolaire, les jeunes, l'enfance, les personnalités, l'aide sociale, la santé, la génétique, le cerveau, la météorologie, l'énergie, la cuisine, le pain, Venise, les beaux villages du monde, le Canada en Chine, l'Afrique du Sud, le tourisme, les régions dynamiques ou en crise, le mondialisme, la géopolitique, le pouvoir, la politique, la sociologie, la bourse, l'entrepreneurship, les enquêtes policières, la chasse au trésor...".
Alors pour bien cerner les mots qui sont nécessaires pour une compétence linguistique de base (le niveau-seuil qui varie avec la facilité et la difficulté de l'expression langagière, élémentaire, intermédiaire ou avancée), on doit non seulement tenir compte de la fréquence des mots, mais aussi de leur disponibilité selon le sujet à traiter (le vocabulaire du pain, du sport, de la santé, de la politique, etc.). Pour reprendre la discussion de CC concernant les formules d'Henry (CC pp. 54 et 64-65), on peut dire que plus il y a de mots différents dans un texte, plus sa lecture tendra à être difficile.
Classification des textes
CC mentionne plusieurs typologies, dont :
textes narratifs vs. textes informatifs
la description, la séquence, la causalité, le problème/solution, la comparaison
le texte informatif, le texte incitatif, le texte expressif, le texte poétique, le texte ludique.
Les analystes ne sont pas d'accord sur la question de la typologie des textes, mais on doit remarquer que les textes sont souvent de nature mixte, actualisant en même temps plusieurs types. Il est donc important de pouvoir reconnaître, dans ces textes mixtes, un type dominant, ce qu'on appelle une dominante.
Études contextuelles
Importance des variables contextuelles, comme les titres, les images et un cadre de référence de la part du lecteur (connaissances pragmatiques, connaissance du type de publication dont le recueil de contes, le roman, le magazine, le journal quotidien, la revue savante, etc.)
Dans un cadre pédagogique, les questions portant sur le texte de lecture peuvent avoir un effet bénéfique sur la compréhension du texte.
En ce concerne le médium du texte écrit essentiellement papier vs. écran , il est important de se rappeler que CC écrivait au début des années 1990 et que la qualité des écrans s'est beaucoup améliorée en quinze ans !
Études sémantiques
Constatation générale importante de la part de CC : "Ces recherches ont mis en évidence le fait que la familiarité avec un sujet ou l'intérêt qu'on lui porte influencent directement la compréhension et la mémorisation d'un texte." (Mise en relief ajoutée par RW.)
Analyse des arguments (on dit aussi variables) de la part de Meyer et Kintsch : agent, patient, instrument, origine, destination, etc.
Validation des textes pour leur pertinence à différents niveaux d'enseignement/apprentissage
CC dit (p. 61) que l'analyse des arguments serait un des moyens de déterminer la pertinence d'un texte pour tel ou tel niveau d'enseignement/apprentissage. D'autres moyens comprendraient la mesure de la lisibilité (dont la fréquence des mots), l'épreuve de closure (cf. le test cloze), les questions de compréhension.
La lecture en langue seconde
En gros, les mêmes principes et les mêmes questions gouvernent la lecture en L2 ou en L1. Il faut ajouter, pour la lecture en L2, l'importance des congénères, ou cognates (cf. notes de la semaine 8). CC distingue entre congénères homographes (mots de même graphie) et congénères parographes (différences de graphie systémiques), mais à mon avis (RW) c'est une fausse distinction, puisque dans les deux cas les formes (écrites comme orales) relèvent du système de chaque langue (si table s'écrit de cette façon en anglais et en français, la prononciation du mot n'est pas la même dans les deux langues la graphie et la prononciation sont conformes au système de chaque langue).
La structure des textes (CC p. 66)
Ce qui est dit par CC sur l'organisation d'un texte et la reconnaissance de sa structure vaudrait pour la lecture en L1 et en L2.
L'articulation du texte (cf. CC pp. 57 et 67)
Au sujet de la fréquence des mots, nous avons distingué entre mots grammaticaux (ou mots outils) et mots lexicaux (ou mots pleins). Les mots outils fonctionnent essentiellement au niveau de la phrase pour en articuler les arguments représentés par les mots lexicaux. Certains des mots lexicaux sont aussi des mots thématiques liés étroitement au sujet du texte (cf. le mot pain dans le texte "La baguette en péril") et, dans ce sens, dépassent le cadre immédiat de la phrase. Au niveau du texte global, il y a deux sortes de mots ou expressions importants : les mots thématiques et les connecteurs ou articulateurs logiques, tels que d'abord, alors, ensuite, enfin, en conséquence, donc, en revanche, or, etc. Parmi les mots connecteurs ou articulateurs, il convient de mentionner les pronoms de troisième personne, comme il, elle, ceux-ci ou celle-là, qui reprennent des noms comme l'apprenant, madame Dupont, Julie, la salle de classe, le laboratoire, les arbres, etc. Une personne nommée au complet la première fois portera le plus souvent un nom réduit dans la suite du texte : Marie Dubois deviendra Dubois ou Marie, selon le style du texte (article de journal ou conte de fées, par exemple).
Les champs référentiels et socio-culturels des textes (CC pp. 68-69)
Plus le sujet et la réalité socio-culturelle véhiculée par le texte sont familiers, meilleure en sera la compréhension. CC cite le cas d'apprenants iraniens lisant en anglais (L2) un conte iranien et un conte américain ; la compréhension du premier conte était, comme on pouvait s'y attendre, meilleure que celle du second. On pourrait ajouter (RW) que la réalité québécoise, donc canadienne, voire nord-américaine, est plus facile à véhiculer à des apprenants canadiens anglophones que la réalité française d'Europe. Les contes de fées (Cendrillon) et d'imagination (Harry Potter) sont universels.
Les documents authentiques
L'approche communicative favorise l'emploi de documents authentiques. Certains critiques déclarent que les documents authentiques posent souvent trop de difficultés pour l'apprenant de niveau élémentaire ou intermédiaire et préconisent l'utilisation de textes simplifiés. La solution de compromis, adopté par la plupart des programmes et d'enseignants, est de fournir, pour les documents authentiques, des aides de lecture dont notamment la préparation de pré-lecture, qui consiste, entre autres choses, à présenter la matière thématique du texte, soit dans des textes prépatoires fabriqués par le programme ou l'enseignant, soit dans des discussions entre l'enseignant et les apprenants, soit dans des questions à réponse orale ou écrite. Il faut prendre soin aussi que les documents authentiques utilisés soit intéressants et motivants (cf. la section précédente sur les champs référentiels et socio-culturels).