Частотность букв таджикского языка Первые исследования по частотности букв в таджикском языке были предприняты в 2001 году[1] и связывались с определениями «наилучшей» раскладки букв на компьютерной клавиатуре и объёма репрезентативной выборки для получения достоверных статистических результатов. Ниже приведены результаты на основе статистической обработки произведений отдельных поэтов и писателей и сформирована общая картина частотности букв в классической и современной таджикской литературе.[2][3]
Статистика
Статистика частотности букв таджикского языка без учёта пробелов:
Ранг |
Буква |
Употреблений |
Частотность |
Информативность
|
1 |
А |
195836 |
16,54 %
|
16.54 |
0,429
|
0.429
|
2 |
О |
100038 |
8,45 %
|
8.45 |
0,301
|
0.301
|
3 |
Р |
87084 |
7,35 %
|
7.35 |
0,277
|
0.277
|
4 |
И |
86991 |
7,35 %
|
7.35 |
0,277
|
0.277
|
5 |
Н |
81061 |
6,84 %
|
6.84 |
0,265
|
0.265
|
6 |
Д |
80182 |
6,77 %
|
6.77 |
0,263
|
0.263
|
7 |
У |
55282 |
4,67 %
|
4.67 |
0,206
|
0.206
|
8 |
Б |
52717 |
4,45 %
|
4.45 |
0,200
|
0.2
|
9 |
М |
49675 |
4,19 %
|
4.19 |
0,192
|
0.192
|
10 |
Т |
42325 |
3,57 %
|
3.57 |
0,172
|
0.172
|
11 |
С |
32392 |
2,74 %
|
2.74 |
0,142
|
0.142
|
12 |
К |
32105 |
2,71 %
|
2.71 |
0,141
|
0.141
|
13 |
Ш |
30861 |
2,61 %
|
2.61 |
0,137
|
0.137
|
14 |
Ҳ |
30175 |
2,55 %
|
2.55 |
0,135
|
0.135
|
15 |
З |
28835 |
2,43 %
|
2.43 |
0,131
|
0.131
|
16 |
Е |
25284 |
2,13 %
|
2.13 |
0,118
|
0.118
|
17 |
Г |
22190 |
1,87 %
|
1.87 |
0,108
|
0.108
|
18 |
В |
18755 |
1,58 %
|
1.58 |
0,095
|
0.095
|
19 |
Х |
18248 |
1,54 %
|
1.54 |
0,093
|
0.093
|
20 |
Л |
14694 |
1,24 %
|
1.24 |
0,079
|
0.079
|
21 |
Ӯ |
13967 |
1,18 %
|
1.18 |
0,076
|
0.076
|
22 |
Ф |
12976 |
1,10 %
|
1.1 |
0,071
|
0.071
|
23 |
П |
12425 |
1,05 %
|
1.05 |
0,069
|
0.069
|
24 |
Ч |
10000 |
0,84 %
|
0.84 |
0,058
|
0.058
|
25 |
Ҷ |
8748 |
0,74 %
|
0.74 |
0,052
|
0.052
|
26 |
Й |
8447 |
0,71 %
|
0.71 |
0,051
|
0.051
|
27 |
Ӣ |
7874 |
0,66 %
|
0.66 |
0,048
|
0.048
|
28 |
Я |
6870 |
0,58 %
|
0.58 |
0,043
|
0.043
|
29 |
Ё |
6454 |
0,54 %
|
0.54 |
0,041
|
0.041
|
30 |
Қ |
4650 |
0,39 %
|
0.39 |
0,031
|
0.031
|
31 |
Ғ |
2734 |
0,23 %
|
0.23 |
0,020
|
0.02
|
32 |
Э |
1503 |
0,13 %
|
0.13 |
0,012
|
0.012
|
33 |
Ъ |
1488 |
0,13 %
|
0.13 |
0,012
|
0.012
|
34 |
Ж |
867 |
0,07 %
|
0.07 |
0,008
|
0.008
|
35 |
Ю |
574 |
0,05 %
|
0.05 |
0,005
|
0.005
|
|
Сумма |
1184307 |
100,00 % |
|
4,358 |
|
Статистика частотности букв таджикского языка с учётом пробела:
Ранг |
Буква |
Употреблений |
Частотность |
Информативность
|
1 |
Пробел |
265983 |
18,34 %
|
18.34 |
0,449
|
0.449
|
2 |
А |
195836 |
13,50 %
|
13.5 |
0,390
|
0.39
|
3 |
О |
100038 |
6,90 %
|
6.9 |
0,266
|
0.266
|
4 |
Р |
87084 |
6,00 %
|
6 |
0,244
|
0.244
|
5 |
И |
86991 |
6,00 %
|
6 |
0,243
|
0.243
|
6 |
Н |
81061 |
5,59 %
|
5.59 |
0,233
|
0.233
|
7 |
Д |
80182 |
5,53 %
|
5.53 |
0,231
|
0.231
|
8 |
У |
55282 |
3,81 %
|
3.81 |
0,180
|
0.18
|
9 |
Б |
52717 |
3,63 %
|
3.63 |
0,174
|
0.174
|
10 |
М |
49675 |
3,43 %
|
3.43 |
0,167
|
0.167
|
11 |
Т |
42325 |
2,92 %
|
2.92 |
0,149
|
0.149
|
12 |
С |
32392 |
2,23 %
|
2.23 |
0,122
|
0.122
|
13 |
К |
32105 |
2,21 %
|
2.21 |
0,122
|
0.122
|
14 |
Ш |
30861 |
2,13 %
|
2.13 |
0,118
|
0.118
|
15 |
Ҳ |
30175 |
2,08 %
|
2.08 |
0,116
|
0.116
|
16 |
З |
28835 |
1,99 %
|
1.99 |
0,112
|
0.112
|
17 |
Е |
25284 |
1,74 %
|
1.74 |
0,102
|
0.102
|
18 |
Г |
22190 |
1,53 %
|
1.53 |
0,092
|
0.092
|
19 |
В |
18755 |
1,29 %
|
1.29 |
0,081
|
0.081
|
20 |
Х |
18248 |
1,26 %
|
1.26 |
0,079
|
0.079
|
21 |
Л |
14694 |
1,01 %
|
1.01 |
0,067
|
0.067
|
22 |
Ӯ |
13967 |
0,96 %
|
0.96 |
0,065
|
0.065
|
23 |
Ф |
12976 |
0,89 %
|
0.89 |
0,061
|
0.061
|
24 |
П |
12425 |
0,86 %
|
0.86 |
0,059
|
0.059
|
25 |
Ч |
10000 |
0,69 %
|
0.69 |
0,050
|
0.05
|
26 |
Ҷ |
8748 |
0,60 %
|
0.6 |
0,044
|
0.044
|
27 |
Й |
8447 |
0,58 %
|
0.58 |
0,043
|
0.043
|
28 |
Ӣ |
7874 |
0,54 %
|
0.54 |
0,041
|
0.041
|
29 |
Я |
6870 |
0,47 %
|
0.47 |
0,037
|
0.037
|
30 |
Ё |
6454 |
0,45 %
|
0.45 |
0,035
|
0.035
|
31 |
Қ |
4650 |
0,32 %
|
0.32 |
0,027
|
0.027
|
32 |
Ғ |
2734 |
0,19 %
|
0.19 |
0,017
|
0.017
|
33 |
Э |
1503 |
0,10 %
|
0.1 |
0,010
|
0.01
|
34 |
Ъ |
1488 |
0,10 %
|
0.1 |
0,010
|
0.01
|
35 |
Ж |
867 |
0,06 %
|
0.06 |
0,006
|
0.006
|
36 |
Ю |
574 |
0,04 %
|
0.04 |
0,004
|
0.004
|
|
Сумма |
1450290 |
100,00 % |
|
4,246 |
|
Примечания
- ↑ Усманов З. Д., Солиев О. М. Проблема раскладки символов на компьютерной клавиатуре — Душанбе: Ирфон, 2010, 104 с.
- ↑ Усманов З. Д., Косимов А. А. Частотность букв таджикской литературы — Доклады Академии наук Республики Таджикистан, 2015, т.58, № 2, с. 112—115
- ↑ Косимов А. А. Басомади такроршавии ҳарфҳои адабиёти тоҷик — Маҷаллаи «Шафақ», Нашрияи Кумиҷроияи Ҳизби Халқии Демократии Тоҷикистон дар шаҳри Хуҷанд, 24.11.2015, № 21, с. 2.
|