Les URLs que vous allez choisir vont d'abord être rapatriés, et ce en fonction des options que vous aurez sélectionnées (cf. explications).
Ensuite, un ensemble de dictionnaires va être créé :
- Mots par page pour chaque site
- Mots par site
- Mots pour l'ensemble des sites (tous, tous sans les hapax, et tous sans les hapax et les mots commançant par un chiffre)
- Références par page pour chaque site
- Références par site
- Références pour l'ensemble des sites (tous, tous sans les hapax, et tous sans les e-mails et la majorité des liens vers les sites téléchargés)


Quelques explications :
- Si vous choisissez un téléchargement non récursif, seules les pages explicitement demandées (ou les pages par défaut dans le cas de dossiers) seront téléchargées.
En revanche, si vous choisissez un téléchargement récursif, les pages liées aux pages demandées seront aussi téléchargées.
- Vous pouvez ensuite spécifier le nombre maximum de niveaux de récursivité, c'est-à-dire le nombre maximum de liens à suivre lors du téléchargement.
Si vous choisissez une valeur non comprise entre 1 et 99, la valeur 5 sera prise par defaut.
- Exemple :
Sur la page A il y a un lien vers la page B, sur la B un lien vers la page C, et sur la C un lien vers la page D. Vous demandez de récupérer la page A.
Dans tous les cas, la page A sera téléchargée. Si le nombre de niveaux est à 1, seule la page B sera aussi téléchargée ; s'il est à 2, les pages B et C seront téléchargées ; s'il est à 3 ou plus, les pages B, C et D seront téléchargées.
0 n'est pas accepté. Pour n'avoir que la page A, il suffit de demander directement son URL sans récursivité.
- Vous pouvez également choisir de remonter ou non dans les dossier parents, c'est-à-dire de récupérer ou non les pages liées ne se trouvant pas dans le dossier (ou un des sous-dossiers) de l'URL demandé.
N.B. : Même si vous choisissez de remonter dans les dossiers parents, les liens vers des pages se trouvant sur un serveur différent ne seront jamais suivis.
- Exemple :
Le dossier X contient les sous-dossiers Y et Z. Si vous demandez le téléchargement du dossier Z et que l'une de ses pages contient un lien vers une page de X ou Y, elle ne sera récupérée que si vous avez choisi de remonter dans les dossiers parents.
|