Le chiffrement par substitution est la méthode de codage d’un texte la plus ancienne et la plus simple à pratiquer. C’est aussi la plus facile à décoder.
Ce tableau indique la fréquence moyenne des lettres dans un texte écrit en français. Il a été établi à partir d’un nombre de caractères de plusieurs millions, provenant de textes variés. Certaines fréquences sont « proches » (entre A et S, entre R et U…). Plus le texte à décoder sera court et plus l’ordre des fréquences pourra varier autour de ces moyennes.
Ces fréquences sont spécifiques à la langue française. Si le E domine dans nombre de langues européennes, les lettres suivantes sont présentes dans un ordre différent.
En anglais, la lettre H apparaît en neuvième position : ETAONIRSH. En italien, les voyelles A, E, I, O sont prépondérantes : EIAONRTL.
Le texte suivant, extrait du livre Mathematica (David Bessis, Le Seuil, 2022) et qui contient deux fois le mot « mathématiques » et une fois le mot « mathématicien », a été codé par substitution. Saurez-vous le décoder ?
« nrwxnyewzwOxvwiynldyznffwiwdewyzwymkehwmkenqOwyrkvwiynldlffncnwrrwyweilOv-
wzkdyrwyrnviwyzwmkehylOwrrwwyepiwywdewwzwfkcldrlgnqOwweyeiOceOiwwrkvwiynl-
dywciwewyweil-OvwzkdyrkewewzwymkehwmkencnwdyweykppwrrwrndeOnenldmkehw-
mkenqOwwrrwcldynyewwdzwyiwpiwywdekenldymwdekrwywezwyywdykenldykbyeiknew-yylOvwdevnyOwrrwyqOnryiwyywdewdeclmmwwvnzwdewyweqOnrwOipilcOiwdezOprk-
nyni. »
L’Oulipo
Les fréquences d’occurrence des lettres ont intéressé un mouvement littéraire créé en 1960 par François Le Lionnais (1901‒1984) et Raymond Queneau (1903‒1976), l’Ouvroir de littérature potentielle (Oulipo). L’écrivain Georges Perec (1936‒1982), qui avait rejoint l’Oulipo, se plaisait à utiliser des contraintes littérales dans ses œuvres. Il a ainsi écrit un roman de trois cents pages, La Disparition (Denoël, 1969), sans jamais utiliser la lettre E, ce qui est un exploit. Il s’agit d’un lipogramme, texte qui exclut une lettre de l’alphabet. En 1972, il publie un autre texte, Les Revenentes (Julliard), dans lequel la seule voyelle utilisée est le E, moyennant de sévères entorses à l’orthographe. On appelle un tel texte un monovocalisme.
À cette époque, on considérait que l’ordre des fréquences des lettres dans un texte en langue française était ESARTULINOC. Ce n’est pas que la langue ait beaucoup changé depuis, mais (plus vraisemblablement) que les outils numériques permettent aujourd’hui d’aller beaucoup plus loin qu’avec le comptage des lettres « à la main » pratiqué alors. En partant des lettres ESARTULINO et en leur adjoignant une des seize autres lettres, Perec a construit une série de poèmes en forme d’anagrammes. Ceux-ci s’inscrivent dans une matrice 11 × 11. En voici un exemple où le F a été ajouté. La première ligne et la première colonne se correspondent, ainsi que la diagonale montante, qui ne comprend que des E.
« Soif nulâtre où l’anis tréfilant ruse, offrant lieu (son flair eut sous aile front las) t’enfouiras : très loin fut le fusain, or refusant loi et filon saur. »