Snejina Sonina

 

University of Toronto

 

L'importance des sources informatiques dans l'étude de la terminologie de la mode:

la liste " exhaustive " deux ans après

 

 

1. Question d'exhaustivité

2. Catalogues en-ligne utilisables et inutilisables

3. Corpus échantillon

4. Traitement des fichiers par TACT, logiciel d'indexation et d'interrogation interactive des données textuelles

4.1. Termes fréquents

4.2. Termes complexes et mots " suspects "

4.3. Termes peu fréquents

5. Traitement des fichiers séparés

6. Utilisation des moteurs de recherche pour vérifier le statut terminologique des néologismes

7. En guise de conclusion

 

 

1. Question d'exhaustivité

 

Deux ans de la recherche ont montré qu'on ne peut pas parler de l'exhaustivité de la liste des termes extraits de l'Internet dont il y avait question au cours du colloque de Toronto. http://www.chass.utoronto.ca/french/foire2000/colloque/sonina.htm

En tout cas, sûrement pas, quand il s'agit de la terminologie de la mode : la mode était toujours très changeante, mais l'Internet l'a fait encore plus insaisissable! Le travail avec le corpus vestimentaire plus large que celui de la chaussure a prouvé que pendant le temps nécessaire à créer des échantillons de base et de saturation et à les traiter, le contenu des sites web change considérablement. Comment peut-on espérer à recevoir une liste exhaustive même pour la période limitée avec cet état des choses?

D'autre part la comparaison des donnés extraites des sources électroniques (catalogues en-ligne) et des celles des sources textuelles (catalogues imprimés) permet de parler d'une exhaustivité relative des listes électroniques. Non seulement le dépouillement du catalogue imprimé de " Palais de la Chaussure " n'a rien ajouté à la liste reçue des sources électroniques au cours de la recherche précédente mais la liste des termes imprimés s'est affirmée plus pauvre et plus traditionnelle. Les catalogues imprimés donnent l'impression d'être beaucoup plus soignés en comparaison avec leurs confrères électroniques. Cependant, la nonchalance orthographique des sources électronique ne peut que rendre un bon service à un lexicologue : elle met en relief toutes les nouveautés en démontrant cet état d'oscillation de forme des termes non-lexicalisés. En plus, les auteurs des catalogues en-ligne semblent être beaucoup moins puristes que ceux des catalogues imprimés et ils utilisent plus d'emprunts, ce qui reflète mieux, paraît-il, l'état actuel de la langue.

 

Décidément, il paraît qu'on ne peut parler que de la liste des termes " électroniques " qui, sans prétendre à être exhaustive, serait, néanmoins, suffisante à faire une recherche sur le fonctionnement et le développement de la terminologie de la mode vestimentaire, tout en étant plus complète et plus riche que la liste des termes " imprimés ".

 

2. Catalogues en-ligne utilisables et inutilisables

 

Puisque la recherche préliminaire sur l'exemple du domaine de la chaussure a justifié l'utilisation des catalogues électroniques comme des sources idéales pour créer le corpus-échantillon, la nouvelle investigation a été commencée par la prospection des catalogues convenables en utilisant les méthodes élaborées en l'an 2000.

 

Comme pendant la recherche précédente, beaucoup de sites se sont montrés peu commode ou même inutilisable pour une recherche terminologique mais pour d'autres raisons. Tel est le site Promod http://www.promod.com/odyssee/src/home.asp?lg=FR&ck=o qui semble être commode pour acheter en-ligne grâce à son moteur de recherche, mais qui n'offre que des images comme résultat. Pour obtenir le nom et la description de chaque modèle il faut cliquer sur chaque image ce qui prend trop de temps en comparaison avec des sites qui procurent de brèves descriptions pour chacun de plusieurs vêtements représentés sur la même page et, donc, permettent de copier plusieurs termes à la fois. Par exemple, le catalogue de la Redoute offre le plus souvent une page de neuf images de vêtement accompagnées de leurs noms, de courtes descriptions de leurs traits caractéristiques, de leur marque et prix : http://www.laredoute.fr/redoutefr/sBoutique/1,1170,,00.html

Le catalogue Quelle http://www.quelle.fr/default_femmes.asp souvent permet de copier à la fois plus de 60 descriptions qui ne contiennent que juste ce qu'il faut pour une recherche terminologique (même pas de marque et pas de prix!) - " Le tailleur-jupe bi-stretch se fait remarquer " - mais, malheureusement, les vêtements ne sont pas classés par le produit mais plutôt par le style ou par usage - Détente, Maternité, Ville, Lingerie-Nuit, Soirée, etc. - ce qui fait ce catalogue inutilisable pour la création des fichiers séparés pour chaque type de vêtement " vestes ", " jupes ", " pantalon "... Rien n'est parfait dans ce monde virtuel!

 

3. Corpus échantillon

 

Finalement, six catalogues électroniques ont été choisis pour la création de corpus-échantillon de base, plus catalogue Quelle pour corpus de saturation :

 

Damart (France + USA +GB)

http://www.damart.com.au/

http://www.damartusa.com/

La Redoute (moteur de recherche : donne une liste de produits)

http://www.laredoute.fr/redoutefr/sBoutique

www.lamodefrancaise.tm.fr/Laredoute/60-70/mes/marques/

www.lamodefrancaise.tm.fr/Laredoute/70-80/mes/graphisme/

Trois Suisses (rubriques, pages courtes - 6 items)

http://www.3suisses.fr/

Quelle (allemand + français France)

http://www.quelle.fr/default_femmes.asp

Saint James (France, bilingue)

http://www.saint-james.fr/index.asp

Sport village (bilingue, mais court)

http://www.sports-village.com/frdef/_clic2.cfm?affiche_types=0&categorie_id=251

Camaïeu (français France)

http://www.camaieu.fr/

Le corpus échantillon de base a été créé à partir des catalogues en ligne cités ci-dessus : ce corpus se compose du fichier spécial pour les termes génériques et des fichiers séparés pour chaque terme générique. La création de ces fichiers séparés était possible grâce à l'existence des rubriques spéciales pour des vêtements principaux dans la plupart des catalogues électroniques ce qui permettait d'extraire des termes de chaque sous-arbre terminologique séparément. Les données des catalogues comme Quelle qui ne classifient pas leur marchandise selon le produit, ont constitué le corpus échantillon de saturation. Ce corpus servira à vérifier la plénitude des données du corpus échantillon de base.

 

4. Traitement des fichiers par TACT, logiciel d'indexation et d'interrogation interactive des données textuelles

 

Les tables des matières des catalogues en-ligne qui classifient leur marchandise par le produit ont été copiées-collées dans un fichier spécial pour les termes génériques. (GENERI.htm) Ce fichier traité par le TACT a permit de qualifier certains termes comme génériques et d'autres comme utilisés occasionnellement comme tels. Deux critères principaux ont été utilisés : fréquences et distribution. Si un terme se rencontre dans les tables des matières de deux catalogues différents au moins, il peut être reconnu générique pour le groupement des catalogues choisis, et, puisque ces catalogues sont considérés comme corpus-échantillon pour la terminologie vestimentaire contemporaine, pour cette terminologie en général.

Le dépouillement des sept catalogues choisis pour la recherche a donné 24 courtes listes des mots utilisés pour nommer des " rayons " virtuels des ventes. Chacun des catalogues utilisables de ce point de vue en a donné au moins trois : pour les vêtements de femme, pour les vêtements d'homme et pour les vêtements d'enfant. Après être soumis à l'opération de TACT procurant une liste de mots complète [complete word-list] le fichier contenant ces courts inventaires a été transformé en un long répertoire (GENERILST.htm) avec les fréquences affichées à droite.

 

4.1. Termes fréquents

 

Les termes affirmant la fréquence plus haute que 3 peuvent être reconnus comme génériques immédiatement puisque évidemment ils ont été utilisés dans les tables de matière de plus d'un catalogue. Tels sont les termes :

accessoires . . . . . . . . 8

bermudas. . . . . . . . . . 8

blouson . . . . . . . . . . 4

blousons. . . . . . . . . . 7

cardigans . . . . . . . . . 4

chaussettes . . . . . . . . 4

chaussures. . . . . . . . .15

chemise . . . . . . . . . . 4

chemises. . . . . . . . . . 6

chemisiers. . . . . . . . . 6

corsaires . . . . . . . . . 4

jeans . . . . . . . . . . . 4

jupes . . . . . . . . . . . 7

lingerie. . . . . . . . . . 7

maillots. . . . . . . . . . 6

manteaux. . . . . . . . . . 4

pantalon. . . . . . . . . . 5

pantalons . . . . . . . . .11

parka . . . . . . . . . . . 1

parkas. . . . . . . . . . . 6

polo. . . . . . . . . . . . 3

polos . . . . . . . . . . . 9

pull. . . . . . . . . . . . 5

pulls . . . . . . . . . . . 9

pyjamas . . . . . . . . . . 5

robes . . . . . . . . . . . 9

sac . . . . . . . . . . . . 3

sacs. . . . . . . . . . . . 2

short . . . . . . . . . . . 3

shorts. . . . . . . . . . . 7

sweat . . . . . . . . . . . 4

sweats. . . . . . . . . . . 6

sweat-shirts. . . . . . . . 2

tee-shirt . . . . . . . . . 6

tee-shirts. . . . . . . . . 2

t-shirts. . . . . . . . . . 4

veste . . . . . . . . . . . 4

vestes. . . . . . . . . . . 4

 

Pour chacun de ces termes un fichier séparé a été créé. La fréquence affichée à droite à aidée beaucoup en montrant combien de rubriques contenant les descriptions des modèles concrets de chaque vêtement il fallait chercher dans les catalogues. Par exemple, puisque le terme " veste(s) " montre la fréquence 4+4=8 il faut que son fichier contienne les résultats du dépouillement de 8 rubriques, et cela ne vaut pas la peine d'en chercher plus dans ces catalogues. Le fichier dans lequel les tables de matière ont été copiées-collées a aussi facilité ce travail.

 

4.2. Termes complexes et mots " suspects "

 

Certains termes de la liste de fréquences apparaissaient douteux : ils semblaient être déplacés parmi les prétendants au statut générique ou paraissaient être composants des termes complexes. Il fallait bien vérifier les contextes des mots fréquents comme " bain ", " nuit ", " ville " qui sont définitivement des parties des termes complexes, ainsi que des mots peu fréquents mais évidemment déplacés comme " coats " or " shirts ".

Chaque terme " suspect " a été interrogé à l'aide de TACT du point de vue de ses contextes - opération facile et immédiate - le simple appui sur les touches 'insérer' et 'entrer' pendant le parcours de la liste des fréquences offre instantanément toutes les distributions du terme en question.

Les anglicismes " coats " et " shirt " semblent être vraiment inapproprié dans la liste extraite des tables des matières - Pourquoi utiliserait-on un mot anglais au lieu des beaux français " manteau " et " chemise "? - leurs contextes expliquent tout immédiatement : il s'agit des termes " duffle coats " et " tee shirt " écris sans trait d'union.

Des quinze occurrences (Chaussures.LST.htm) du terme " chaussures " sept fois il se rencontre seul, trois fois dans le contexte " Chaussures de sport ", deux fois comme " Chaussures Loisirs ", encore deux fois comme " Chaussures ville " et une fois comme " Chaussures Running ". Cependant, aucun groupe de mots ne peut pas être ajouté à la liste des termes génériques : toutes les occurrences de " chaussures de sport " et " chaussures ville " viennent du même catalogue 3suisses - celui-là des rubriques Femme, Sport, Bébé, celui-ci de celles Homme, Garçon et filles; les deux groupes " chaussures loisir " proviennent du catalogue St-James des rubriques Freestyle et Ville.

Le terme " lingerie-nuit " listé après " lingerie " incite à vérifier les contextes de celui-ci : ce qui démontre que de ces sept occurrences il est isolé trois fois et quatre fois il forme le groupe " lingerie de nuit " qui doit être ajouter à la liste des termes génériques. Le mot " maillots " apparaît cinq fois comme " maillots de bain " et une fois comme " maillots de corps ", donc, il s'agit du terme " maillots de bain " et non de celui " maillots ".

Une astuce trouvée au cours de la recherche : pour repérer tous les termes complexes formés à l'aide de la préposition " de " il suffit de demander à TACT à afficher tous les contextes de " de " (De.LST.htm) listé avec la fréquence de 20 - Et voilà, ils sont tous sur la même page, ce qui permet de vérifier la plénitude de la liste des termes complexes encore une fois.

 

4.3. Termes peu fréquents

 

Les termes qui affichent la fréquence 2 ou 3 ont été examinés du point de vue de leurs contextes et de leur distribution.

 

caleçons. . . . . . . . . . 2

caracos . . . . . . . . . . 3

casquette . . . . . . . . . 2

ceintures . . . . . . . . . 2

chaussant . . . . . . . . . 2

chaussants. . . . . . . . . 1

chaussons . . . . . . . . . 2

collants. . . . . . . . . . 2

culottes. . . . . . . . . . 2

ensembles . . . . . . . . . 3

pantacourt. . . . . . . . . 2

pantacourts . . . . . . . . 1

polaire . . . . . . . . . . 3

slips . . . . . . . . . . . 2

sous-pull . . . . . . . . . 2

sous-vêtements. . . . . . . 3

soutiens-gorge. . . . . . . 2

sur-chemise . . . . . . . . 1

surchemises . . . . . . . . 1

surfwear. . . . . . . . . . 2

survêtement . . . . . . . . 2

survêtements. . . . . . . . 1

tailleurs . . . . . . . . . 3

tops. . . . . . . . . . . . 2

 

Parfois les contextes identiques des deux ou trois occurrences du terme sont suffisants pour voir que tous les deux ou tous les trois proviennent du même catalogue. Dans ce cas le mot se trouve éliminé immédiatement des prétendants à être inclus dans la liste des termes génériques. Dans les cas moins évidents, il faut revenir au fichier des tables des matières pour vérifier la distribution et garder les termes qui ont été mentionnés dans deux catalogues différents. Il est suffisant de voir que dans un catalogue le terme en question est mentionné une fois seulement pour arrêter la recherche de ces autres distributions - cela va de soi que la deuxième fois il se rencontre dans un autre catalogue électronique. C'est souvent le cas des vêtements exclusivement féminins, comme " caraco " qui ne peut se rencontrer que dans le rayon " femme ". Par contre, des vêtements unisexes à la fréquence 2 se prouvent très souvent provenant du même catalogue, comme " chaussons " ou " sous-pull " qui sont cités sous la rubrique Femme et sous celle Homme dans la table des matières du catalogue Damart qui se spécialise sur les vêtements confort et, donc, offre un rayon entier des chaussons et des sous-pulls qui ne sont pas tellement values par d'autres sociétés de vente. La même distribution caractérise le terme " sur-chemise " ou " surchemises " : malgré leur orthographe et leur forme grammaticale différentes les deux variantes proviennent des rubriques Homme et Femme du même catalogue Damart. Les deux variantes " chaussant " et " chaussants " proviennent du catalogue la Redoute mais des rubriques Homme et Sport, ce qui réaffirme le fait que les catalogues en-ligne ne sont pas trop soignés du point de vue de l'orthographe ou de l'uniformité. Ils ne sont trop puristes non plus : l'anglicisme " tops " a été employé dans deux catalogues, La Redoute et 3 Suisses, et, donc, a été reconnu comme terme français.

Finalement, la liste ci-dessous a été réduite à une liste plus courte des termes qui peuvent être inclus dans la liste des termes génériques :

 

caleçons. . . . . . . . . . 2

caracos . . . . . . . . . . 3

ensembles . . . . . . . . . 3

pantacourt. . . . . . . . . 2

pantacourts . . . . . . . . 1

sous-vêtements. . . . . . . 3

survêtement . . . . . . . . 2

survêtements. . . . . . . . 1

tailleurs . . . . . . . . . 3

tops. . . . . . . . . . . . 2

 

Certains termes avec la fréquence 2 ont été éliminés de la liste pour la seule raison que leurs rubriques n'offrent pas beaucoup de matériel pour la création du fichier séparé : les termes comme " slip ", " culotte ", " soutiens-gorge " et leurs dépendants ont été copiés dans le fichier " lingerie " ou " sous-vêtements ", comme le terme " ceintures " dans le fichier " accessoires ". Ainsi était le destin de tous les autres termes qui ont démontré la fréquence faible et qui ne se sont rencontrés que dans un catalogue : leurs " rayons " ont été copiés dans les fichiers de leurs hyperonymes. D'autre part le seul fait que ces termes ont été utilisés pour nommer les rubriques des catalogues peut être suffisant pour reconnaître le statut terminologisé ou lexicalisé des anglicismes, puisque ce fait veut dire qu'ils sont considérés comme absolument compréhensible pour les acheteurs francophones.

 

5. Traitement des fichiers séparés

 

Tous les fichiers séparés ont été traités par TACT de la même manière que le fichier des termes génériques qui était choisi comme exemple pour cette communication virtuelle pour la raison d'être le plus court et contenant des termes largement connus. Pour le traitement des fichiers séparés de chaque terme générique l'opération de contextualisation a été la plus importante : elle permettait de repérer des termes complexes qui décris des modèles concrets des vêtements et constituent la plupart des termes de la mode.

 

6. Utilisation des moteurs de recherche pour vérifier le statut terminologique des néologismes

 

Les néologismes - comme pantacourt, pantailleur - ont été examinés du point de vue de leur terminologisation à l'aide de l'exploitation des moteurs de recherche (google, yahoo) et cette épreuve basé sur le matériel " dilué " a permis de reconnaître pour certains termes leur caractère terminologique confirmé par un grand nombre d'occurrences dans des documents de nature différente. Par exemple, pantacourt est définitivement un terme parce que les moteurs de recherche donnent un grand nombre de résultats : Le 28 janvier 2002, Google - 518, Yahoo - 144. Pantailleur ne peut être considéré que comme un canadianisme pas encore terminologisé, parce que les résultats de recherche sont beaucoup plus modestes : Google et Yahoo - 2 (les deux viennent de sites canadiens : une page d'un magazine de mode québécois et l'autre d'une société de vente canadienne - http://www.multimania.com/dodue/mode/additionelle.htm ;

http://www.finds-stores.com/lauracanada/fr/inthespotlight/Holiday_2001.pdf)

 

7. En guise de conclusion

 

Comme pendant la recherche précédente, l'Internet a rendu un grand service pour la constitution du corpus échantillon des termes de la mode et le logiciel TACT a beaucoup facilité le traitement de ce corpus pour en créer une base de données.

Deux opérations procurées par ce logiciel TACT se sont montrées les plus importantes pour la création des bases de données : l'une donne la liste des termes avec leur fréquence, l'autre cite toutes les occurrences du terme en question avec ses contextes.

La première opération est utile pour relever des termes simples génériques, elle transforme des documents contenant des descriptions de vêtements copiées-collées en vrac en une longue colonne de mots avec leurs fréquences affichées à droite. Cette opération est surtout applicable aux documents qui contiennent des informations retirées des tables des matières des catalogues ou des sources qui n'offrent pas de possibilité à choisir un type de vêtement concret, comme " veste " ou " pantalon " par exemple, mais proposent des pages comme " en ville " ou " sport/loisir " englobant toutes sortes d'habillements correspondants.

La deuxième opération est absolument nécessaire pour repérer des termes complexes. Les documents contenant des données spécialisées concernant un seul type de vêtement, comme par exemple " veste ", se retrouvent modifiés par TACT en une longue " page " dont le centre est occupé par la colonne qui ne répète sur chaque ligne que l'hyperonyme " veste " en question, à gauche et à droite de cette colonne toutes les cooccurrences de l'hyperonyme sont citées - cinq mots de chaque coté. Ce type de document facilite beaucoup le travail de repérage et de comptage des termes complexes.



S. Sonina,
(University of Toronto)
Toronto, 17 mai 2002


Retour au programme