Accès membres : identifiez-vous !     Dernière remise à jour du site : le Mar. 11 Novembre 2014 à 14:51:19

wxFrantz's Concept

Comptage des bigrammes et trigrammes

Dans la même logique que l'analyse des fréquences d'apparition des caractères présentée dans le chapitre précédent, nous allons nous intéresser à présent aux fréquences d'apparition des bigrammes et trigrammes.

Comptage des bigrammes et trigrammes en français

Les tableaux et graphiques ci-dessous ont été créés en utilisant le script de cette page sur des textes en français de 636.663 caractères (soit 480.490 lettres, après suppression des espaces et de la ponctuation) composés de textes de :

Après analyse de ces textes, il apparait 533 bigrammes et 4.973 trigrammes différents.

Fréquences d'apparition des 20 bigrammes les plus fréquents

BigrammeNbre
apparition
Fréquence
es11.8782,47 %
re10.4632,18 %
en10.1712,12 %
le9.2771,93 %
de9.0301,88 %
ai8.6221,79 %
er7.8831,64 %
te7.6711,60 %
nt7.6681,60 %
ou7.5051,56 %
 
BigrammeNbre
apparition
Fréquence
et7.1171,48 %
on6.8881,43 %
se6.4961,35 %
it6.3761,33 %
el5.9601,24 %
qu5.9281,23 %
la5.7811,20 %
ne5.6781,18 %
an5.6241,17 %
ur5.2311,09 %

Fréquences d'apparition des 20 trigrammes les plus fréquents

TrigrammeNbre
apparition
Fréquence
ent3.7600,78%
ait3.4610,72%
que3.3280,69%
ede2.5610,53%
les2.2100,46%
ant2.1000,44%
ous2.0800,43%
lle2.0210,42%
eme1.9850,41%
tre1.9750,41%
 
TrigrammeNbre
apparition
Fréquence
res1.9580,41%
ais1.9500,41%
des1.9070,40%
ere1.9050,40%
our1.7910,37%
qui1.7600,37%
men1.6690,35%
ela1.6090,33%
une1.6010,33%
ien1.6000,33%

Script de comptage des bigrammes et trigrammes




Dernière modification de cette page le 20 novembre 2012 à 15:58
Sauf mention contraire, le contenu de cette page est sous licence Creative Commons Paternité et Conditions de partage à l'identique
Page générée en 63.08 millisecondes | Votre adresse IP : 3.15.139.248 | Me contacter

             
Impossible de se connecter : Access denied for user 'wxfrantz'@'172.20.245.55' (using password: YES)