Les articles sont de longueur très inégale, allant de la demi-page jusqu'à une trentaine de pages pour un des articles "dossier spécial". Ils ont paru surtout au cours des trois dernères années: 1979 (1 article), 1986 (1), 1988 (3), 1993 (1), 1996 (14), 1997 (25), 1998 (10), 1999 (1).
Les genres et les sujets sont variés: le documentaire, la critique, la polémique, l'interview; le bonheur, le cinéma, la danse, le théâtre, la musique, les disques, les livres, la littérature, le sport, la mode, les médias, Internet, le bilinguisme, l'enseignement des langues, l'école, le téléphone scolaire, les jeunes, l'enfance, les personnalités, l'aide sociale, la santé, la génétique, le cerveau, la météorologie, l'énergie, la cuisine, le pain, Venise, les beaux villages du monde, le Canada en Chine, l'Afrique du Sud, le tourisme, les régions dynamiques ou en crise, le mondialisme, la géopolitique, le pouvoir, la politique, la sociologie, la bourse, l'entrepreneurship, les enquêtes policières, la chasse au trésor...
Le corpus contient 109 417 mots de texte (occurrences de mots-formes graphiques). Le trait d'union et l'apostrophe sont traités comme des délimiteurs; ainsi "rue Raymond-Losserand" = trois mots (rue, raymond, losserand), "il s'agit" = 3 mots (il, s, agit).
Le champ de référence des contextes affichés par TACTweb contient les informations suivantes: année, mois, source, numéro d'article (dans le corpus);
À la différence d'une base de textes où les propriétés textuelles sont soigneusement respectées, une base corpus vise la langue par l'accumulation de contextes discursifs. Par conséquent, la masse quantitative entraîne inévitablement une certaine baisse de qualité au niveau du détail: relecture plus schématique (les articles sont passés par un logiciel de vérification orthographique, qui ne capte pas tout), acceptation indifférente de "A" et de "À" pour "à" majuscule (en règle générale il y a des exceptions les textes français emploient "A", les textes canadiens "À"), par exemple; autre exemple: les textes saisis par lecteur optique contiennent encore quelques occurrences de dates qui commencent par la lettre "l" au lieu du chiffre "1". L'utilisateur de la présente base jouit au moins d'un outil de contrôle que les bases corpus évolutives n'offrent pas habituellement: les listes de mots de texte (voir ci-après).
Il faut noter aussi que la base est conçue comme un corpus d'occurrences et non comme une base textuelle menant à la lecture du texte. Les contextes affichables ne dépassent pas cinq lignes et les articles ne sont identifiés que par leur numéro d'ordre dans le corpus (avec date de parution et source).