2. Transcription du texte
2.1. Les caractères
2.2. Les unités de texte, unités de concordance
2.3. La typographie et les langues du Thresor
2.4. Corrections apportées au texte
2.1. les caractères
Le texte saisi est celui qui va de la page 1 à la page 674, c'est-à-dire le dictionnaire proprement dit;
ont donc été délaissées les pièces liminaires et les annexes, ainsi que
l'intitulé de la première page, les numéros de page et de folio, et les en-têtes de
rubriques (les lettres initiales des subdivisions du texte).
Pour des raisons de consultabilité, i/j et u/v sont modernisés dans
le cas des langues européennes modernes; ils gardent leur valeur typographique textuelle dans celui du latin.
Ainsi divorse est à chercher sous div..., diuortium sous diu... Cela n'a pas
toujours été sans poser de problèmes: pour «Hlouis»,
«euuier» et «rouaisons», l'incertitude concernant la valeur de u
subsiste après consultation de Nicot, Huguet, Godefroy, Wartburg et les autres commentateurs. Les accents
sur les mots latins n'ont pas été saisis. Le tilde de justification typographique a été
transcrit en la consonne nasale appropriée ([cõcernãt -> concernant,
cõcedã -> concedam]); 9 a été changé en
us (Efflux9 -> Effluxus); [...]; la perluette est transcrite en et
(& -> et, &c. -> etc.). Le pied-de-mouche est remplacé
par l'astérisque [le signe ¶ n'est pas disponible en ASCII, alors qu'il l'est en ISO Latin 1]; le signe
de section par un dièse [de même pour le signe §]. Les accents virtuels -- c'est-à-dire
ceux qui apparaissent sur la minuscule mais qui sont conventionnellement supprimés sur la majuscule --
sont rétablis: ainsi À (prép.), Ô (interj.), És
(prép.). Les dix-huit mots donnés en caractères hébreux ont été
translittérés en lettres romaines, diacrisées au besoin; les références textuelles
sont les suivantes: 29.239 [= page 29, col. 2, ligne 39], 29.243, 64.272, 65.180, 166.266, 328.109, 449.120, 466.175,
569.261, 580.169, 580.171, 638.103, 638.104. Les 1280 mots (mots, syllabes, lettres) grecs imprimés en
caractères grecs ont été translittérés selon les correspondances suivantes (ne
sont indiquées ici que les lettres minuscules):
alpha | a | | nu | n |
bêta | b | | xi | x |
gamma | g | | omicron | o |
delta | d | | pi | p |
epsilon | é | | rho | r |
zêta | dz | | sigma | s |
êta | ê | | tau | t |
thêta | th | | upsilon | u |
iota | i | | phi | ph |
kappa | k | | khi | kh |
lambda | l | | psi | ps |
mu | m | | oméga | ô |
| | esprit rude | h |
2.2. les unités de texte, unités de concordance
L'unité de texte, unité de concordance, est le mot graphique. Le refus (impossibilité) de
séparation homographique et de lemmatisation (v. 3) trouve ici une suite logique. Les lexies
'composées' sont souvent décomposées en mention ou en usage. Le parce
abhorré de la linguistique moderne trouve donc sa place dans la concordance, comme il peut trouver,
à côté de par ce, son autonomie syntaxique dans le texte: «parce (comme
dit Dioscoride) que» (118.183). Les mini-concordances permettent de retrouver les variantes
syntagmatiques du type par ce que/parce que, pour ce que/pource que; on peut
comparer afin/affin/à fin, dequoy/de quoy au moyen de la concordance globale (afin, affin, dequoy) et de la
mini-concordance contexte droit (à fin, de quoy). [Dans la base interactive, c'est la recherche de la
cooccurrence (toutes les combinaisons sont interrogeables) qui remplace la mini-concordance (choix de syntagmes
fixe).]
Il n'est pas toujours aisé de situer la frontière graphique entre les mots, c'est-à-dire de
décider s'il y a ou non un espace pertinent entre deux lettres. L'espacement des lettres italiques est
irrégulier, leur corps variable. C'est que l'italique garde, plus que le romain, un caractère scriptural.
Le volume important de A fait que la suite de lettres Afin peut correspondre soit à deux mots
graphiques (À fin), soit à un seul (Afin); le a minuscule fait lever
l'ambiguïté, puisqu'il porte l'accent grave lors qu'il est considéré comme mot à
part (le texte contient à fin et afin); la séquence Affin est aussi sans
équivoque. Autre cas épineux: à côté des dequoy et de quoy
clairs, il y a des occurrences où l'espace entre le e et le q est ambigu. La séquence
tres... (tresbien, tresgrand, etc.) n'est jamais ambiguë, pour deux raisons: dans le
système de la langue du seizième siècle, il est toujours collé au mot, soit directement,
soit par l'intermédiaire du trait d'union; le s long n'est jamais imprimé en position finale.
Les unités sont tantôt des mots, tantôt des racines, affixes, désinences, syllabes, lettres
ou chiffres. Le pied-de-mouche (transcrit par l'astérisque) et le signe de section (dièse) sont
donnés à la fin de la concordance après les chiffres arabes. Le point d'abréviation
n'a pas été retenu dans la nomenclature de la concordance, de sorte que l. est confondu avec
l (lettre ou chiffre romain -- cf. 4.1). [Dans la base interactive on peut chercher la cooccurrence de l
et du point.]
Les séquences avec apostrophe ou trait d'union intérieur ont subi deux traitements différents.
Si l'apostrophe ou le trait d'union a été considéré comme joncteur de mots libres, un
espace a été saisi après l'apostrophe et devant le trait d'union: c' est, dit -il.
La concordance contient donc à côté de c (et de ce), -il
à côté de il, -cy à côté de cy, etc. Les
séquences à apostrophe ou trait d'union figé ont été laissées telles
quelles: aujourd'huy, d'avantage, m'amour, quelqu'un, port'enseigne, arriere-feudataire, s' entr'obliger, s'
entre-joingnants. La frontière entre 'libre' et 'figé' est, bien entendu, arbitraire; la règle
d'or, comme pour toute décision concernant la transcription du texte, est le système dominant
sous-tendant le texte -- système implicite observable à travers la fréquence des formes, parfois
explicité dans les commentaires du lexicographe. Les variantes viennent souvent appuyer une décision:
davantage, s' entrejoindre, etc. [Dans la base interactive, il n'y a pas besoin de traiter l'apostrophe et le trait
d'union de deux façons différentes: pour c'est, aujourd'huy, dit-il ou
arriere-feudataire, par exemple, il suffit de chercher la cooccurrence des trois éléments:
c + ' + est, etc.] Le trait d'union en fin de ligne est parfois problématique: tres-/bien
représente soit tres-bien, soit tresbien -- les deux formes sont présentes dans le texte.
C'est toujours le système dominant qui a guidé nos choix.
Lorsque, dans une discussion le plus souvent étymologique, un mot est décomposé
phonétiquement en syllabes («Rage, Il vient de Rabies, en muant
i vocal en i consonant, comme qui diroit Rab jes» 535.133), l'espace intersyllabique est remplacé
par le signe « + », ce qui garde l'unité du mot (rab + jes)
-- on utiliserait
aujourd'hui le trait d'union.
À l'instar de Nicot, qui considère les mots comme des formes avant de s'occuper de leur fonction
et de leur signification (voir tasche, pis, don à 3), nous n'avons pas donné de statut particulier
aux noms propres (cf. «BAR, Est une ville [...] Bar aussi est une diction
indeclinable, qui empire le mot auquel elle est jointe par composition, comme en Barlue, et Barlong»).
Les noms propres composés sont donc séparés en mots graphiques distincts (Pierre / de
/ la / Lune). Le texte appuie cette décision: «AIX, en
Provence», «AIX, La Chappelle»; «Boulongne sur
la mer», «BOULONGNE, la grasse sur la mer»;
«Henry II», «Henry deuxiesme», «Henry deuxieme de ce
nom»; «du Fouilloux», «le Fouilloux»,
«Fouilloux».
L'unité lexicographique formelle de base est l'alinéa; les débuts d'alinéa sont
signalés par le signe « | ». [Par « \ » dans la base
interactive.
2.3. la typographie et les langues du Thresor
Le Thresor utilise l'italique, le grand romain, le romain moyen, le petit romain, le grec et l'hébreu.
Les indices typographiques donnés dans la concordance sont les suivants:
italique | l |
PETIT ROMAIN | 2 |
romain moyen | 3 |
grand romain | 4 |
grec | 5 |
hébreu | 6 |
non alphanumérique (ex. pied-de-mouche) | 0 |
Les différents types ont les fonctions principales suivantes:
italique | français |
PETIT ROMAIN | vedettes en majuscules (normalement noms propres) |
romain moyen | latin, et français en renvoi |
grand romain | vedettes |
grec | mots grecs |
hébreu | mots hébreux |
Les langues du Thresor sont nombreuses. L'indiciation que nous avons adoptée est la suivante (les
étiquettes textuelles, lorsqu'elles existent, sont données en italique):
A | anglais | anglis, anglois, angloise |
B | barbare | barbare, barbares |
C | chaldéen | chald, chaldaice, chaldée, chaldéen |
D | allemand | alemagne, alemand, alemands, alemans,
allemand, allemands, allemans, allemant,
germani, germania, germanica, germanice,
germanis, germanus, teuthonica |
E | espagnol | aragonois, castillan, esp, espagn, espagne,
espagnol, espagnole, espagnols, espaigne,
valencien |
F | français | franc, france, franci, francis, francois,
françois, françoise, galli, gallica, gallice,
gallico, gaule |
G | grec | dorica, doriens, graeca, graece, graeci,
graecis, graeco, grec, grece, grecque, grecs |
H | bébreu | hebraea, hebraei, hebraeis, hebraeos,
hebraeum, hebraica, hebraice, hebraique,
hebrieu, hebrieux, iudaeis |
I | italien | ital, itali, italia, italie, italien, italienes,
italienne, italiens, italis, lombards, venitiens |
J | persien | persien |
K | russe | moscouitis, moscovites |
L | latin | anciens, latin, latine, latinement, latines,
latini, latinis, latinise, latinisé, latinisent,
latinizez, latinos, latins, romains |
M | moresque | moresque, morisque |
N | flamand | flamans, flamen, flamend, flamens, flandres,
flandri, flandris |
P | portugais | portugais, portugois |
Q | punique | punique |
R | arabe | arabe, arabes, arabesque, arabica, arabique,
egyptien |
S | syriaque | suriene, syriaque |
T | turc | turcis, turcs, turquesque, turquesques |
U | hongrois | hongres, hongrois |
V | gaulois | celtes, celtiques, gallorum, gaullois, gaulois |
W | suisse | suisses, suysse |
X | tartaresque | tartares, tartaresque, tartarin, tartaris |
Y | scythique | scythique |
Z | danois | dennemarche |
? | incertain | alij, anciennement, aucuns, etc. |
- | hors langue | par exemple, le pied-de-mouche, les
représentations graphiques d'unités de
mesure 59.133 et 376.165 |
L'arbitraire de ce classement pragmatique est évident. Les bases du classement sont principalement textuelles
et géographiques. L'utilisateur de la concordance, armé de la liste de mots-clefs donnée ici,
a les moyens de juger les cas d'espèce.
À l'intérieur du domaine français, les différentes localisations dialectales et
géographiques sont indiquées dans le texte du Thresor par les mots suivants (cf. 5.2):
allobrogibus
anjou
aquitanis
balonenses
baissin
bordelois
bourbonnois
bourguignons
burdegalenses
coenomanis
coulomniers
daulphiné
dauphiné
dauphinois
delphin
dialectes
gascoigne
gascon
hannoyers
hennoyers
languedoc
languedocs
languedoque
lionnois
lorrains
lugd
lugdu
lugdunensibus
| manceau
manceaux
marseille
massiliae
meaulx
meaux
molins
montagnars
moulins
narbon
narbonenses
narbonensibus
narbonne
normand
normandie
normands
normans
northm
northmand
northmanis
northmannos
nortmannos
orleans
ouy
par
paris
parisiensibus
| pic
picard
picardi
picardie
picardis
picards
pictonibus
poictevins
poictou
provençal
provençaux
provence
provinces
rochelle
rochelois
rothomagensibus
salonibus
savoisien
savoye
savoysien
savoysiens
tolosae
tolosains
touraine
vermandois
village
villageois
villages
villagois
villes |
Alors que la caractérisation typographique des
mots de texte a été une tâche facile (mis à part
quelques cas comme «Cremasterwv» 117.212 [les deux dernières lettres sont respectivement
oméga et nu]), l'attribution des étiquettes linguistiques a présenté des
difficultés considérables.
Les raisons en sont multiples.
L'orientation historique et panlinguistique
(encyclopédique, au sens usuel et technique du terme)
du dictionnaire fait que très souvent un mot (forme
ou signe) est à cheval sur plusieurs langues; si les
éléments de l'énoncé sont discrets («X en langue A,
X en langue B»), l'indiciation est simple («(indice A) X... (indice B) X...»); en formule elliptique
(«X en langue A, en langue B»), elle est complexe («(indice AB) X...»). Le latin vulgaire
des termes de botanique est indicié «FL»; de même, les formes intermédiaires
«Saul ja», «Sim ja», «Ten vis» et «Jan
varius» s.v. Saulge. Latin vulgaire et langue vernaculaire sont entremêlés dans des articles
tels que Marque, Marquis et Conte (voir aussi la concordance s.v. latinisé).
Les éléments mentionnés de l'énoncé lexicographique (mots, syntagmes,
affixes, racines, syllabes, lettres) peuvent provenir, en principe, de n'importe quelle langue, quelle que soit la langue
de l'énoncé lui-même. Les règles générales sont ici les suivantes:
1) Les entrées relèvent toujours du français: a) si Nicot dit «X est pur Italien», «Y est un mot Arabesque», nous considérons cette propriété comme concernant
l'étymologie; b) s'il nous semble évident que l'expression donnée en entrée fonctionne
aussi dans une autre langue, nous mettons un indice complexe: les éléments de «Lecta, Publicata, et registrata» (370.160) sont indiciés «FL» (cf.
«Leuës, publiées, et enregistrées» 372.162); les quatre premiers mots de
«Cabo de bõna speranza, Le cap de bonne esperance» (96.217) sont indiciés
«FP».
2) Les éléments -- étymons, analogues, variantes, équivalents -- donnés comme
informations sur l'entrée sont normalement marqués («Italien»,
«Espagnol», etc.) pour toute langue sauf le français, le latin et le grec; une
étymologie grecque est marquée par une étiquette («vient du Grec», etc.)
ou par les caractères grecs de l'étymon; une étymologie latine sera le plus souvent
marquée («Latin»); pour les équivalents, la langue non marquée est le
latin, parfois aussi le grec (sauf dans la mesure où il est marqué par les caractères grecs --
ex: «Jouer au sainct pierre, ou aux cinq pierres Psêphologéin» 355.271 [le grec
est ici translittéré]). Dans cette deuxième catégorie, il y a eu de nombreux cas
problématiques, donnant lieu quelquefois à l'indice « ? ».
Le passage de la mention à l'usage, courant dans le discours ordinaire (genèse du néologisme
d'emprunt), a lieu aussi dans le discours du dictionnaire: «Clairon [...] Aucuns le
rendent en Latin Lituus [...] Acron en ce passage dit que Lituus sonne le grelle [...] le
Lituus est crochu» (p. 126); «en cette signification il vient du mot Chaldée
Pasuk, qui signifie un vers [...] Esquels Pasuks [...]» (466.168 et ss.); «telle espece
de soldats que les Latins appeloyent Volones [...] tels soldats appelez Volones, estoyent serfs [...]
Tite Live parlant desdits Volons [...] tels volons n'estoient de droict militaire» (pp. 668-9 s.v. Voluntaire).
Le problème ici est de déterminer le point à partir duquel le mot non français
commence à fonctionner en français et doit prendre l'indice double français +
non-français.
Nicot, comme les autres érudits de son temps, pensait et écrivait avec une même facilité
en langue vernaculaire, latin et grec. (Le latin lui était pourtant plus maternel que le grec:
«léikhéin dicunt Graeci, quod nos Lingere» 374.104 [grec translittéré].)
Le discours de base du Thresor est la plupart du temps rédigé én français,
souvent en latin, exceptionnellement en grec, ce qui à la limite produit l'énoncé trilingue
suivant: «Et per katakhrêsin Pour ce que le Latin dit [...]» (483.175) [grec
translittéré] -- v. aussi p. 369, s.v. Lasche. Il ne s'agit pas ici de mots non français
fonctionnant dans un discours français, mais d'un discours plurilingue; d'où la décision de
considérer «i.» comme latin (id est) et «c.» comme français
(c'est à dire), que ces mots soient imprimés en italique ou en romain (l'imprimeur, Denys
Duval, avait lui aussi ses problèmes). C'est le contexte dominant qui a déterminé l'indiciation
des occurrences ambiguës de l'homographe bilingue « & » (et). Les
indications de catégorie grammaticale et d'accentuation sont des items d'information insérés
dans le discours articulateur. Ces indications, le plus souvent en romain, abrégées et suivies d'un
point, peuvent être formellement marquées («foem.», «gener.»,
«adiectiu.», «plural.» latins; «adiectif.», «actif.»,
«pluriel.» français); quand elles ne le sont pas («m.», «f.»,
«acut.», «penac.», «adiect.», «act.», etc.) et que le contexte
immédiat ne permet pas de trancher (par ex. «ores est masc.», «genre
masc.» sont du français), nous maintenons l'ambivalence textuelle en les indiciant 'français
ou latin' («F/L»).
Comme dernier exemple de délimitation linguistique, nous mentionnerons le cas des mots fictifs et
spéculatifs. Dans ses commentaires étymologiques, Nicot dira d'un radical qu'il est
«inusité» en français («Accoller [...]
Composé de ad et coller inusité»); il sera amené, d'après
l'étymologie qu'il propose ou qu'il cite, à avancer des graphies/prononciations hypothétiques
(«comme si l'on disoit Essaur» s.v. Essor, «quasi Exoreillé» s.v.
Essaureillé, «qu'on devroit pour son origine escrire Quatir» s.v. Catir). Nicot avait
manifestement le sens de la structure de la langue (voir, par exemple, les analyses distributionnelles qu'il fait s.v.
Deschirer, Fellé, Fellure, Griffe, Portail, Porte; l'analyse 'sémique' qu'il donne s.v. Dressoir); certains
dérivés consignés dans la nomenclature, et qui sont des hapax dans le texte, semblent
être là pour exploiter les virtualités du système -- Nicot le dira à l'occasion:
«Derrain [...] Dont le feminin seroit Derraine», «Derrainier [...] Dont le feminin seroit Derrainiere». Toutes ces formes
hypothétiques sont indicices «F»; les mots potentiels latins («comme si on disoit
Iacobellus en Latin», «Quasi Iacobella», p. 343) sont indiciés «L».
Les mots-clefs de ce lexique virtuel sont quasi, inusité, les verbes au conditionnel diroit, seroit,
devroit, le syntagme comme si. Une forme proposée ou proscrite à un endroit du texte
peut être actualisée sans commentaire ailleurs (cf. soldat à 3.3); c'est le cas, par
exemple, de encotonner, proscrit s.v. Encoronner et tout de suite après présenté en
vedette.
2.4. corrections apportées au texte
Les corrections que nous avons cru nécessaire de faire sont données dans la liste qui suit. Lorsque
la forme correcte a pu être contrôlée dans une des éditions du Dictionaire
françois-latin, nous signalons ce fait au moyen du signe « + » à gauche de
l'entrée. Les items sont classés par ordre alphabétique des formes corrigées, qui se
trouvent en deuxième position. La liste se termine par la rubrique «Alignement de la marge
gauche» dans laquelle nous corrigeons les mises en saillie et mises en retrait fautives (dans le système
du texte, la mise en saillie correspond au début de l'alinéa). [La liste n'est pas donnée ici;
dans la base interactive, la forme correcte proposée est suivie de la forme originale mise entre
délimiteurs conventionnels.]
[Retour à la table] -- [Suite]