University of Toronto
L'importance des sources informatiques dans l'étude de la terminologie
de la mode:
la liste
" exhaustive " deux ans après
2. Catalogues en-ligne utilisables et inutilisables
4.2. Termes complexes et mots " suspects "
5. Traitement des fichiers séparés
6. Utilisation des moteurs de recherche pour vérifier le
statut terminologique des néologismes
Deux ans de la recherche ont montré
qu'on ne peut pas parler de l'exhaustivité de la liste des termes extraits de
l'Internet dont il y avait question au cours du colloque de Toronto. http://www.chass.utoronto.ca/french/foire2000/colloque/sonina.htm
En tout cas, sûrement pas, quand il s'agit de
la terminologie de la mode : la
mode était toujours très changeante, mais l'Internet l'a fait encore plus
insaisissable! Le travail avec le
corpus vestimentaire plus large que celui de la chaussure a prouvé que pendant
le temps nécessaire à créer des échantillons de base et de saturation et à les
traiter, le contenu des sites web change considérablement. Comment peut-on
espérer à recevoir une liste exhaustive même pour la période limitée avec cet
état des choses?
D'autre part la comparaison des donnés
extraites des sources électroniques (catalogues en-ligne) et des celles des
sources textuelles (catalogues imprimés) permet de parler d'une exhaustivité
relative des listes électroniques. Non seulement le dépouillement du catalogue
imprimé de " Palais de la Chaussure " n'a rien ajouté à la liste
reçue des sources électroniques au cours de la recherche précédente mais la
liste des termes imprimés s'est affirmée plus pauvre et plus traditionnelle.
Les catalogues imprimés donnent l'impression d'être beaucoup plus soignés en
comparaison avec leurs confrères électroniques. Cependant, la nonchalance
orthographique des sources électronique ne peut que rendre un bon service à un
lexicologue : elle met en relief toutes les nouveautés en démontrant cet
état d'oscillation de forme des termes non-lexicalisés. En plus, les auteurs des catalogues en-ligne
semblent être beaucoup moins puristes que ceux des catalogues imprimés et ils
utilisent plus d'emprunts, ce qui reflète mieux, paraît-il, l'état actuel de la
langue.
Décidément,
il paraît qu'on ne peut parler que de la liste des termes
" électroniques " qui, sans
prétendre à être exhaustive, serait, néanmoins, suffisante à faire une
recherche sur le fonctionnement et le développement de la terminologie de la mode
vestimentaire, tout en étant plus complète et plus riche que la liste des
termes " imprimés ".
2. Catalogues en-ligne utilisables et inutilisables
Puisque la recherche préliminaire sur l'exemple
du domaine de la chaussure a justifié l'utilisation des catalogues
électroniques comme des sources idéales pour créer le corpus-échantillon, la
nouvelle investigation a été commencée par la prospection des catalogues
convenables en utilisant les méthodes élaborées en l'an 2000.
Comme pendant la recherche
précédente, beaucoup de sites se sont montrés peu commode ou même inutilisable
pour une recherche terminologique mais pour d'autres raisons. Tel est le site Promod
http://www.promod.com/odyssee/src/home.asp?lg=FR&ck=o
qui semble être commode pour acheter en-ligne grâce à son moteur de recherche,
mais qui n'offre que des images comme résultat. Pour obtenir le nom et la
description de chaque modèle il faut cliquer sur chaque image ce qui prend trop
de temps en comparaison avec des sites qui procurent de brèves descriptions
pour chacun de plusieurs vêtements représentés sur la même page et, donc,
permettent de copier plusieurs termes à la fois. Par exemple, le catalogue de
la Redoute offre le plus souvent une page de neuf images de vêtement
accompagnées de leurs noms, de courtes descriptions de leurs traits
caractéristiques, de leur marque et prix : http://www.laredoute.fr/redoutefr/sBoutique/1,1170,,00.html
Le
catalogue Quelle http://www.quelle.fr/default_femmes.asp
souvent permet de copier à la fois plus de 60 descriptions qui ne contiennent
que juste ce qu'il faut pour une recherche terminologique (même pas de marque
et pas de prix!) - " Le tailleur-jupe bi-stretch se fait remarquer "
- mais, malheureusement, les vêtements ne sont pas classés par le produit mais
plutôt par le style ou par usage - Détente, Maternité, Ville, Lingerie-Nuit,
Soirée, etc. - ce qui fait ce catalogue inutilisable pour la création des
fichiers séparés pour chaque type de vêtement " vestes ",
" jupes ", " pantalon "... Rien n'est parfait dans ce monde
virtuel!
Finalement,
six catalogues électroniques ont été choisis pour la création de
corpus-échantillon de base, plus catalogue Quelle pour corpus de
saturation :
Damart (France +
USA +GB)
La Redoute
(moteur de recherche : donne une liste de produits)
http://www.laredoute.fr/redoutefr/sBoutique
www.lamodefrancaise.tm.fr/Laredoute/60-70/mes/marques/
www.lamodefrancaise.tm.fr/Laredoute/70-80/mes/graphisme/
Trois
Suisses (rubriques, pages courtes - 6 items)
Quelle
(allemand + français France)
http://www.quelle.fr/default_femmes.asp
Saint James
(France, bilingue)
http://www.saint-james.fr/index.asp
Sport
village (bilingue, mais court)
http://www.sports-village.com/frdef/_clic2.cfm?affiche_types=0&categorie_id=251
Camaïeu
(français France)
Le corpus
échantillon de base a été créé à partir des catalogues en ligne cités
ci-dessus : ce corpus se compose du fichier spécial pour les termes
génériques et des fichiers séparés pour chaque terme générique. La création de ces
fichiers séparés était possible grâce à l'existence des rubriques spéciales
pour des vêtements principaux dans la plupart des catalogues électroniques ce
qui permettait d'extraire des termes de chaque sous-arbre terminologique
séparément. Les données des catalogues comme Quelle qui ne classifient pas leur
marchandise selon le produit, ont constitué le corpus échantillon de
saturation. Ce corpus servira à vérifier la plénitude des données du corpus
échantillon de base.
4. Traitement des fichiers par TACT, logiciel d'indexation et d'interrogation interactive des
données textuelles
Les tables des matières des
catalogues en-ligne qui classifient leur marchandise par le produit ont été
copiées-collées dans un fichier spécial pour les termes
génériques. (GENERI.htm) Ce fichier traité par le TACT a permit
de qualifier certains termes comme génériques et d'autres comme utilisés
occasionnellement comme tels. Deux critères principaux ont été utilisés :
fréquences et distribution. Si un terme se rencontre dans les tables des
matières de deux catalogues différents au moins, il peut être reconnu générique
pour le groupement des catalogues choisis, et, puisque ces catalogues sont
considérés comme corpus-échantillon pour la terminologie vestimentaire
contemporaine, pour cette terminologie en général.
Le dépouillement des sept catalogues
choisis pour la recherche a donné 24 courtes listes des mots utilisés pour
nommer des " rayons " virtuels des ventes. Chacun des catalogues
utilisables de ce point de vue en a donné au moins trois : pour les
vêtements de femme, pour les vêtements d'homme et pour les vêtements d'enfant.
Après être soumis à l'opération de TACT procurant une liste de mots complète
[complete word-list] le fichier contenant ces courts inventaires a été
transformé en un long répertoire (GENERILST.htm)
avec les fréquences affichées à droite.
Les termes affirmant la fréquence plus haute
que 3 peuvent être reconnus comme génériques immédiatement puisque évidemment
ils ont été utilisés dans les tables de matière de plus d'un catalogue. Tels
sont les termes :
accessoires . . . . . . . . 8
bermudas. . . . . . . . . . 8
blouson . . . . . . . . . . 4
blousons. . . . . . . . . . 7
cardigans . . . . . . . . . 4
chaussettes . . . . . . . . 4
chaussures. . . . . . . . .15
chemise . . . . . . . . . . 4
chemises. . . . . . . . . . 6
chemisiers. . . . . . . . . 6
corsaires . . . . . . . . . 4
jeans . . . . . . . . . . . 4
jupes . . . . . . . . . . . 7
lingerie. . . . . . . . . . 7
maillots. . . . . . . . . . 6
manteaux. . . . . . . . . . 4
pantalon. . . . . . . . . . 5
pantalons . . . . . . . . .11
parka . . . . . . . . . . . 1
parkas. . . . . . . . . . . 6
polo. . . . . . . . . . . . 3
polos . . . . . . . . . . . 9
pull. . . . . . . . . . . . 5
pulls . . . . . . . . . . . 9
pyjamas . . . . . . . . . . 5
robes . . . . . . . . . . . 9
sac . . . . . . . . . . . . 3
sacs. . . . . . . . . . . . 2
short . . . . . . . . . . . 3
shorts. . . . . . . . . . . 7
sweat . . . . . . . . . . . 4
sweats. . . . . . . . . . . 6
sweat-shirts. . . . . . . . 2
tee-shirt . . . . . . . . . 6
tee-shirts. . . . . . . . . 2
t-shirts.
. . . . . . . . . 4
veste . .
. . . . . . . . . 4
vestes. . . . . . . . . . . 4
Pour chacun de ces termes un fichier séparé a
été créé. La fréquence affichée à droite à aidée beaucoup en montrant combien
de rubriques contenant les descriptions des modèles concrets de chaque vêtement
il fallait chercher dans les catalogues. Par exemple, puisque le terme
" veste(s) " montre la fréquence 4+4=8 il faut que son fichier
contienne les résultats du dépouillement de 8 rubriques, et cela ne vaut pas la
peine d'en chercher plus dans ces catalogues. Le fichier dans lequel les tables
de matière ont été copiées-collées a aussi facilité ce travail.
4.2. Termes complexes et mots
" suspects "
Certains termes de la liste de fréquences
apparaissaient douteux : ils semblaient être déplacés parmi les
prétendants au statut générique ou paraissaient être composants des termes
complexes. Il fallait bien vérifier les contextes des mots fréquents comme
" bain ", " nuit ", " ville " qui sont
définitivement des parties des termes complexes, ainsi que des mots peu
fréquents mais évidemment déplacés comme " coats " or
" shirts ".
Chaque
terme " suspect " a été interrogé à l'aide de TACT du point de vue de
ses contextes - opération facile et immédiate - le simple appui sur les touches
'insérer' et 'entrer' pendant le parcours de la liste des fréquences offre
instantanément toutes les distributions du terme en question.
Les anglicismes " coats " et " shirt " semblent être vraiment inapproprié dans la liste extraite des tables des matières - Pourquoi utiliserait-on un mot anglais au lieu des beaux français " manteau " et " chemise "? - leurs contextes expliquent tout immédiatement : il s'agit des termes " duffle coats " et " tee shirt " écris sans trait d'union.
Des quinze
occurrences (Chaussures.LST.htm) du terme
" chaussures " sept fois il se rencontre seul, trois fois dans le
contexte " Chaussures de sport ", deux fois comme " Chaussures
Loisirs ", encore deux fois comme " Chaussures ville " et une
fois comme " Chaussures Running ". Cependant, aucun groupe de mots ne
peut pas être ajouté à la liste des termes génériques : toutes les
occurrences de " chaussures de sport " et " chaussures
ville " viennent du même catalogue
3suisses - celui-là des rubriques Femme, Sport, Bébé, celui-ci de celles Homme,
Garçon et filles; les deux groupes " chaussures loisir " proviennent
du catalogue St-James des rubriques Freestyle et Ville.
Le terme " lingerie-nuit " listé
après " lingerie " incite à vérifier les contextes de celui-ci :
ce qui démontre que de ces sept occurrences il est isolé trois fois et quatre
fois il forme le groupe " lingerie de nuit " qui doit être ajouter à
la liste des termes génériques. Le mot " maillots " apparaît cinq
fois comme " maillots de bain " et une fois comme " maillots de
corps ", donc, il s'agit du terme " maillots de bain " et non de
celui " maillots ".
Une astuce trouvée au cours de la
recherche : pour repérer tous les termes complexes formés à l'aide de la
préposition " de " il suffit de demander à TACT à afficher tous les contextes de " de " (De.LST.htm) listé avec la fréquence de 20 - Et
voilà, ils sont tous sur la même page, ce qui permet de vérifier la plénitude
de la liste des termes complexes encore une fois.
Les termes qui affichent la
fréquence 2 ou 3 ont été examinés du point de vue de leurs contextes et de leur
distribution.
caleçons. . . . . . . . . . 2
caracos . . . . . . . . . . 3
casquette . . . . . . . . . 2
ceintures . . . . . . . . . 2
chaussant . . . . . . . . . 2
chaussants. . . . . . . . . 1
chaussons . . . . . . . . . 2
collants. . . . . . . . . . 2
culottes. . . . . . . . . . 2
ensembles . . . . . . . . . 3
pantacourt. . . . . . . . . 2
pantacourts . . . . . . . . 1
polaire . . . . . . . . . . 3
slips . . . . . . . . . . . 2
sous-pull . . . . . . . . . 2
sous-vêtements. . . . . . . 3
soutiens-gorge. . . . . . . 2
sur-chemise . . . . . . . . 1
surchemises . . . . . . . . 1
surfwear. . . . . . . . . . 2
survêtement . . . . . . . . 2
survêtements. . . . . . . . 1
tailleurs . . . . . . . . . 3
tops. . . . . . . . . . . . 2
Parfois les
contextes identiques des deux ou trois occurrences du terme sont suffisants
pour voir que tous les deux ou tous les trois proviennent du même catalogue.
Dans ce cas le mot se trouve éliminé immédiatement des prétendants à être
inclus dans la liste des termes génériques. Dans les cas moins évidents, il
faut revenir au fichier des tables des matières pour vérifier la distribution
et garder les termes qui ont été mentionnés dans deux catalogues différents. Il
est suffisant de voir que dans un catalogue le terme en question est mentionné
une fois seulement pour arrêter la recherche de ces autres distributions - cela
va de soi que la deuxième fois il se rencontre dans un autre catalogue
électronique. C'est souvent le cas des
vêtements exclusivement féminins, comme " caraco " qui ne peut se
rencontrer que dans le rayon " femme ". Par contre, des vêtements
unisexes à la fréquence 2 se prouvent très souvent provenant du même catalogue,
comme " chaussons " ou " sous-pull " qui sont cités sous la
rubrique Femme et sous celle Homme dans la table des matières du catalogue
Damart qui se spécialise sur les vêtements confort et, donc, offre un rayon
entier des chaussons et des sous-pulls qui ne sont pas tellement values par
d'autres sociétés de vente. La même distribution caractérise le terme
" sur-chemise " ou " surchemises " : malgré leur
orthographe et leur forme grammaticale différentes les deux variantes
proviennent des rubriques Homme et Femme du même catalogue Damart. Les deux
variantes " chaussant " et " chaussants " proviennent du
catalogue la Redoute mais des rubriques Homme et Sport, ce qui réaffirme le
fait que les catalogues en-ligne ne sont pas trop soignés du point de vue de
l'orthographe ou de l'uniformité. Ils ne sont trop puristes non plus :
l'anglicisme " tops " a été employé dans deux catalogues, La Redoute
et 3 Suisses, et, donc, a été reconnu comme terme français.
Finalement, la liste ci-dessous a été réduite à
une liste plus courte des termes qui peuvent être inclus dans la liste des
termes génériques :
caleçons. . . . . . . . . . 2
caracos . . . . . . . . . . 3
ensembles . . . . . . . . . 3
pantacourt. . . . . . . . . 2
pantacourts . . . . . . . . 1
sous-vêtements. . . . . . . 3
survêtement . . . . . . . . 2
survêtements. . . . . . . . 1
tailleurs . . . . . . . . . 3
tops. . . . . . . . . . . . 2
Certains
termes avec la fréquence 2 ont été éliminés de la liste pour la seule raison
que leurs rubriques n'offrent pas beaucoup de matériel pour la création du
fichier séparé : les termes comme " slip ",
" culotte ", " soutiens-gorge " et leurs dépendants ont été
copiés dans le fichier " lingerie " ou " sous-vêtements ",
comme le terme " ceintures " dans le fichier " accessoires ".
Ainsi était le destin de tous les autres termes qui ont démontré la fréquence
faible et qui ne se sont rencontrés que dans un catalogue : leurs
" rayons " ont été copiés dans les fichiers de leurs hyperonymes.
D'autre part le seul fait que ces termes ont été utilisés pour nommer les
rubriques des catalogues peut être suffisant pour reconnaître le statut
terminologisé ou lexicalisé des anglicismes, puisque ce fait veut dire qu'ils
sont considérés comme absolument compréhensible pour les acheteurs
francophones.
5.
Traitement des fichiers séparés
Tous les fichiers séparés ont été
traités par TACT de la même manière que le fichier des termes génériques qui
était choisi comme exemple pour cette communication virtuelle pour la raison
d'être le plus court et contenant des termes largement connus. Pour le
traitement des fichiers séparés de chaque terme générique l'opération de
contextualisation a été la plus importante : elle permettait de repérer
des termes complexes qui décris des modèles concrets des vêtements et
constituent la plupart des termes de la mode.
6. Utilisation des moteurs de recherche pour vérifier le statut terminologique des néologismes
Les néologismes - comme pantacourt, pantailleur -
ont été examinés du point de vue de leur terminologisation à l'aide de l'exploitation
des moteurs de recherche (google, yahoo) et cette épreuve basé sur le matériel
" dilué " a permis de reconnaître pour certains termes leur caractère
terminologique confirmé par un grand nombre d'occurrences dans des documents de
nature différente. Par exemple, pantacourt est définitivement un
terme parce que les moteurs de recherche donnent un grand nombre de
résultats : Le 28 janvier 2002, Google - 518, Yahoo - 144. Pantailleur
ne peut être considéré que comme un canadianisme pas encore terminologisé,
parce que les résultats de recherche sont beaucoup plus modestes : Google
et Yahoo - 2 (les deux viennent de sites canadiens : une page d'un
magazine de mode québécois et l'autre d'une société de vente canadienne - http://www.multimania.com/dodue/mode/additionelle.htm
;
http://www.finds-stores.com/lauracanada/fr/inthespotlight/Holiday_2001.pdf)
Comme pendant la recherche
précédente, l'Internet a rendu un grand service pour la constitution du corpus
échantillon des termes de la mode et le logiciel TACT a beaucoup facilité le
traitement de ce corpus pour en créer une base de données.
Deux opérations procurées par ce logiciel TACT se sont montrées les plus importantes pour la création des bases de données : l'une donne la liste des termes avec leur fréquence, l'autre cite toutes les occurrences du terme en question avec ses contextes.
La première opération est utile pour relever
des termes simples génériques, elle transforme des documents contenant des
descriptions de vêtements copiées-collées en vrac en une longue colonne de mots
avec leurs fréquences affichées à droite. Cette opération est surtout
applicable aux documents qui contiennent des informations retirées des tables
des matières des catalogues ou des sources qui n'offrent pas de possibilité à
choisir un type de vêtement concret, comme " veste " ou " pantalon "
par exemple, mais proposent des pages comme " en ville " ou
" sport/loisir " englobant toutes sortes d'habillements
correspondants.
La deuxième opération est absolument nécessaire pour repérer des termes complexes. Les documents contenant des données spécialisées concernant un seul type de vêtement, comme par exemple " veste ", se retrouvent modifiés par TACT en une longue " page " dont le centre est occupé par la colonne qui ne répète sur chaque ligne que l'hyperonyme " veste " en question, à gauche et à droite de cette colonne toutes les cooccurrences de l'hyperonyme sont citées - cinq mots de chaque coté. Ce type de document facilite beaucoup le travail de repérage et de comptage des termes complexes.
S. Sonina,
(University of Toronto)
Toronto, 17 mai 2002