Частота букв в русском языке. Как я учился слепой печати Буквы чаще всего встречающиеся в словах

Посмотрите на клавиатуре клавиши "F" и "J" и вы увидите небольшие зацепки. Это наш проводник в мире слепой печати.

Начав изучать слепую печать, я столкнулся с ощущением будто что-то не так в нашей раскладке. Дело было в несовпадении частот встречаемости букв в русском языке с их расположением на клавиатуре.

Как вы думаете, какая буква чаще всего встречается в русском языке? А если бы вы были на "Поле чудес", какую букву назвали бы в первую очередь? Чаще всего встречается буква "О", а реже всего - "Ф". Нет ни одного исконно-русского слова, начинающегося на букву "Ф".

Вот таблица распределения вероятностей букв в русских текстах:

Вероятность

Вероятность

Вероятность

Вероятность

Буква "Ф" встречается в 45 раз меньше "О" , а занимает такое же удобное место как и "О". Кто был тот человек, который принял этот стандарт? Ответ на этот вопрос вы найдете в статье Трагедия запятой : "... подумайте, запятая встречается гораздо чаще чем точка, а между тем запятая расположена в верхнем регистре. Этого нет ни в одном языке мира, кроме русского...".

Просмотрев таблицу, вы могли убедиться в следующем: чтобы печатать вслепую можно выучить расположение не всех букв, а только, например, 20 - они встречаются в более чем 90 % случаях. Я не верю, что человек, часто печатающий, не может запомнить расположение клавиш и работать не глядя на них. Все дело в привычке. Обратите внимание: в любой службе, где оформляют бумаги, операторы смотрят на клавиатуру, хотя печатают очень быстро.

Но я понял, в составлении раскладки вероятность учитывалась . Только она расчитана была на тех... кто печатает, смотря на клавиатуру!!!

Легко заметить, все наиболее часто встречаемые буквы расположены в поле прямой видимости, а встречающиеся реже - вынесены на периферию.

С английской раскладкой дело обстоит немного хуже:

Программы для слепой печати . Их много, обзоры вы можете посмотреть на http://www.urikor.net . Я выбрал Соло и Стамина . Решил начать с Соло. Она оказалась платной, но была доступна демо. Чтобы выполнить 1! упражнение по печати 2 символов нужно прочитать больше 10 страниц - этакий "тренажер" по скорочтению.

И дальше вас не пропустят пока вы все не прочитаете и не выполните норматив. Я почти собрался удалять программу, как мне пришло письмо с сайта Соло, где интересовались моими успехами. Письмо было длинное, и я подумал:" Вот молодцы, научились быстро печатать и пишут всем большие письма".

Но изучив письмо внимательно, я понял, что оно составлено роботом-автоответчиком, хотя подписано человеком. Теперь я понял, для чего в анкете меня так много спрашивали о моих интересах и цвете волос. Соло я удалил.

Сам я занимался с программой Stamina . Она сделана с душой! Вы можете даже не заниматься с программой, а скачать ее ради одной справки. Это самая смешная справка!


Как я запоминал клавиши.
"фыва" и "олдж" вы выучите быстро. Каждому пальцу по букве. Итого уже 8! Учил я их не в Staminе, а в программе с сайта http://www.urikor.net . А дальше запоминал сами движения. Например, у многих при изучении слепой печати возникают трудности с буквой "и". Разместив пальцы на "фыва" и "олдж", мне, чтобы нажать на клавишу "и" нужно сделать полный поворот правого указательного пальца.

При таком повороте я могу попасть только на клавишу "и". Для каждого пальца я запомнил такие движения: "п" - левый указательный влево, "к" - вверх, "е" - вверх и вправо и т.д.

Проблемы : так как раскладка не оптимизирована для слепой печати, то получается, что сходные буквы лежат зеркально друг другу, это клавиши "а" и "о", "к" и "г". И что интереснее: упражнения для указательных пальцев даются одновременно! , т.е. учат одновременно "а" и "о", "е" и "н" , "п" и "р".

На мой взгляд это неправильно - в мозгу происходит путанница. По крайней мере, я путаюсь иногда. Когда будете учиться слепой печати, подумайте над движениями - потом трудно переучиваться. Кстати существует проблема с работой на клавиатуре у некоторых женщин, из-за длинных ногтей они нажимают другие клавиши.

И вот когда я все выучил и решил, что буду печатать в слепую, настал следующий этап - "лень" . Каждый день мне нужно было много печатать и так как скорость с подглядыванием больше, то я все время подглядывал. Спустя пару месяцев я победил себя и заклеил все клавиши наклейками от видеокассет.

Внимание : если вы не заклеите клавиши, то привычка вас победит. Когда я работаю на клавиатурах, где видны буквы, у меня возникает соблазн подсмотреть. Теперь обратного пути нет и это первая статья написанная полностью вслепую.

Зачем мне это. Пока испытываю чувство глубокого удовлетворения. Скорость пока немного меньше, чем с подглядыванием да и ошибки пока есть, но уже печатая эту статью, заметил как повышается скорость и иногда я забываюсь, а потом смотрю - напечатано. Как будто сознание снимает блоки.

Интересно наблюдать как учишься сам, ведь такого опыта больше не будет. Теперь планирую научиться играть на пианино. Я даже думаю, что знаю как играть(!), нужно только Вспомнить.

P.S.
Прошел год. Печатаю только вслепую и на большой скорости. Если вы работаете за компьютером, обязательно научитесь печатать вслепую. Это проще чем вы думаете.
Вот небольшая заметка Инны Иголкиной о том как, она училась печатать вслепую.

Написал забавный php-скрипт. Погонял через него все тексты на« Спектаторе» на предмет языка. Всего в текстах употребляется 39110 разных словоформ. Сколько именно разных слов - определить довольно сложно. Чтобы хоть как-то приблизиться к этой цифре, я брал только первые 5 букв слова и сравнивал их. Получилось 14373 таких комбинаций. С большой натяжкой это можно назвать словарным запасом« Спектатора».

Потом я взял слова и иследовал их на предмет частоты повторения букв. В идеале надо брать какой-нибудь словарь, для полноты картины. Прогонять тексты нельзя, нужно только уникальные слова. В тексте же одни слова повторяются чаще, чем другие. Итак, получились следующие результаты:

о - 9.28%
а - 8.66%
е - 8.10%
и - 7.45%
н - 6.35%
т - 6.30%
р - 5.53%
с - 5.45%
л - 4.32%
в - 4.19%
к - 3.47%
п - 3.35%
м - 3.29%
у - 2.90%
д - 2.56%
я - 2.22%
ы - 2.11%
ь - 1.90%
з - 1.81%
б - 1.51%
г - 1.41%
й - 1.31%
ч - 1.27%
ю - 1.03%
х - 0.92%
ж - 0.78%
ш - 0.77%
ц - 0.52%
щ - 0.49%
ф - 0.40%
э - 0.17%
ъ - 0.04%

Тем, кто поедет на« Поле чудес», советую заучить эту таблицу наизусть. И называть слова в таком порядке. Так, например, казалось бы, такая« привычная» буква« б» употребляется реже, чем« редкая» буква« ы». Помнить надо также и то, что в слове не одни гласные. И что если вы угадали одну гласную, то нужно начинать идти по согласным. И кроме того, слово угадывается именно по согласным. Сравните:« **а**и*е» и« ср*вн*т*». И в том и в другом случае - это слово« сравните».

И еще одно соображение. Как вы учили английский? Помните? Э пен, э пенсил, э тэйбл. Что вижу - о том и пою. А смысл?.. Как часто вы в нормальной жизни говорите слово« карандаш»? Если задача - научить говорить как можно быстрее и эффективнее, то и учить надо соответствующе. Проводим анализ языка, выделяем самые употребимые слова. И учить начинаем именно с них. Чтобы более-менее говорить на английском языке, достаточно всего полторы тысячи слов.

Еще одно баловство: составлять слова из букв случайным образом, но учитывая частоту появления, чтобы было похоже на нормальные слова. В первой же десятке« случайных» четырехбуквенных слов выскочило« осел». В следующей полсотне - слова« мчим» и« нато». Но, увы, очень много неблагозвучных комбинаций, таких, как« блтт» или« нрро».

Поэтому - следующий шаг. Я разбил все слова на двухбуквенные сочетания и начал случайным образом (но с учетом частоты повторения) комбинировать их. Стали в больших количествах получатся слова, похожие на« нормальные». Например:« коивдиот»,« воабма»,« апый»,« депоид»,« дебяко»,« орфа»,« поеснавы»,« озза»,« ченя»,« риторя»,« урдеед»,« утоичи»,« стых»,« сапоть»,« гравда»,« абабап»,« обарто»,« еелует»,« лярезы»,« мыни»,« бромомер» и даже« тодебыст».

Куда применить... есть варианты. Например, написать генератор красивых фирменных игривых имен. Для йогуртов. Типа,« мемолисо» или« уторорерто». Или - генератор футуристических стихов« Бурлюк-php»:« опелдиий миатон, линоаз окмиая... деесопен одесон».

И есть еще один вариант. Надо попробовать...

Некоторые статистические данные об использовании русских слов:

  • Средняя длина слова 5.28 символа.
  • Средняя длина предложения 10.38 слов.
  • 1000 наиболее частотных лемм покрывает 64.0708% текста.
  • 2000 наиболее частотных лемм покрывают 71.9521% текста.
  • 3000 наиболее частотных лемм покрывают 76.5104% текста.
  • 5000 наиболее частотных лемм покрывают 82.0604% текста.

После заметки мне пришло вот такое письмо:


Здравствуйте, Дмитрий!

Проанализировав статью« Язык до Киева доведет» и ту ее часть, где Вы описываете свою программу, возникла идея.
Вами написанный скрипт кажется мне предназначенным абсолютно не для« Поля чудес» в большей мере, а для другого.
Первое самое разумное применение результатов работы Вашего скрипта - определение порядка букв при программировании кнопок для мобильных устройств. Да, да - именно в мобильниках и нужно все это.

Я распределил это по волнам ()

Далее распределение по кнопкам:
1. Все буквы из первой волны уходят на 4 кнопки в первый ряд
2. Все буквы из второй волны тоже на остальные 4 кнопки в тот же первый ряд
3. Все буквы из третьей волны туда же на оставшиеся две кнопки
4. 4,5 и 6 волны уходят во второй ряд
5. 7,8,9 волны уходят на третий ряд, причем 9-я волна уходит вся полностью (не смотря на кажущееся большое количество букв) в третий ряд 9-й кнопки, что-бы 10 кнопку оставить под всякие там знаки препинания (точка, запятая и прочее).

Я думаю все понятно и так, без детальных обьяснений. Но все же не могли бы Вы обработать Вашим скриптом (включая знаки припинания) тексты следующего содержания:

А потом выложить статистику? Мне показалось? что тексты максимально отражают нашу современную речь, а ведь мы как говорим, так и пишем sms.

Заранее большое спасибо.

Итак, анализировать частоту повторения букв можно двумя способами. Способ 1. Взять текст, найти в нем уникальные (не повторяющиеся) словоформы и анализировать их. Способ хорош для построения статистики по словам русского языка, а не по текстам. Способ 2. Не искать в тексте уникальные слова, а сразу перейти к подсчету частоты повторения букв. Получаем частоту букв в русском тексте, а не в русских словах. Для создания клавиатур и прочего нужно использовать именно этот способ: на клавиатуре набираются именно тексты.

Клавиатуры должны учитывать не только частоту букв, но и самые упортебимые слова (словоформы). Не так уж и трудно догадаться, какие именно слова самые употребимые: это, во-первых, служебные части речи, ибо роль у них такая - служить всегда и везде, и местоимения, роль у которых не менее важная: заменять в речи любую вещь/человека (это, он, она). Ну и основные глаголы (быть, сказать). По результатам анализа перечисленных выше текстов я получил такие самые« популярные» слова:« и, не, в, что, он, я, на, с, она, как, но, его, это, к, а, все, ее, было, так, же, то, сказал, за, ты, о, у, ему, мне, только, по, меня, бы, да, вы, от, был, когда, из, для, еще, теперь, они, сказала, уже, него, нет, была, ей, быть, ну, ни, если, очень, ничего, вот, себя, чтобы, себе, этого, может, того, до, мы, их, ли, были, есть, чем, или, ней» и так далее.

Возвращаясь к клавиатурам - очевидно, что в клавиатуре буквосочетания« не»,« что»,« он»,« на» идругие должны находится как можно ближе друг к другу, или если не вплотную, то каким-то наиболее оптимальным образом. Нужно провести исследования, каким именно образом пальцы движутся по клавиатуре, найти самые« удобные» позиции и поместить в них самые употребляемые буквы, не забывая, однако, про буквосочетания.

Проблема, как всегда, одна: даже если и получиться создать Уникальную Клавиатуру, куда деть миллионы людей, которые уже привыкли к qwerty/йцукен?

Насчет же мобильных устройств... Наверное, it makes sense. По крайней мере, буквы« о»,« а»,« е» и« и» должны точно находиться на одной клавише. Знаки препинания в порядке частоты употребления: , . - ? ! " ; :) (

Самой распространённой буквой в алфавите русского языка можно смело назвать «о». Не «а», хотя все дети учат первые слова именно с этой буквой: «мама», «папа» или «дай». Не «и», хотя может показаться, что мы часто употребляем ее как соединительный союз.

Как показывают данные, именно буква «о» имеет частотность, превышающую 0, 1%, по сравнению с другими гласными буквами алфавита, у которых частотность составляет, например, 0,07-0,08%, это немало

Среди согласных на первом месте стоит буква «н».

Такие данные получают путем анализа частотности в НКРЯ – Национальном корпусе русского языка, по специальной формуле. НКРЯ – это электронный архив письменных и устных текстов, который состоит примерно из 230 миллионов словоупотреблений.

Рассматривая самую популярную букву нашего алфавита, стоит упомянуть об интересном явлении, которое называется «тавтограмма». Это своеобразная литературная разминка, где нужно составить рассказ или стихотворение, начинающееся с одной и той же буквы. Кстати, буква, с которой начинается больше всего слов русского языка (не путайте с частотностью употребления) - это «п», но среди гласных несомненное лидерство принадлежит нашему сегодняшнему фавориту.

«Одиноко. Очень. Осколки обаяния осыпались осенним однообразием. Олимп остался отдаленной отдушиной. Очень отдаленной. Остались обиды, опрометчивые определения оттаявшей оттепели, обусловленные огнем осязания. Остальное оказалось отрицательным, отторгнутым, обманутым обществом. Отпрыски осени оступились, облетели остатками озерных очей. Одни окна остались открытыми. Обозленные отпечатки отдельных омонимов омрачены отвергнутыми одеждами олицетворения. Оранжевые оттенки облепихи очерчены огромным отражением одиночества. Остальное – окостенение, оцепенение обреченности. Острова обросли обетами от очерков о определенности. Остывающие обрезки ольхи образовали одноименные окружности, обусловленные охрипшими окриками. Официальное обернулось отражением общего, отменив отрицательные определенности. Осевшие образы обидчиво объясняли осеннюю околесицу, обзывая обратное обманом. Отроки отчаянно обрисовывали очарованную осень, отрицая объективное отношение… Осень облетала оранжевыми осколками облепихи, оставляя осточертевшие оспаривания одиноким ответам…»

Забавно, правда? Не такая уж и чепуха выходит:)

Кстати, в английском языке самой распространенной буквой является “е". А согласной – “t"

Ну, и тавтограмма на английском языке:

Minerva-like majestic Mary moves.

Law, Latin, Liberty, learned Lucy loves.

Eliza"s elegance each eye espies.

Serenely silent Susan"s smiles surprise.

From fops, fools, flattery, fairest Fanny flies.

А вы знаете, что некоторые буквы алфавита встречаются в словах чаще остальных...Причем частота употребляемости гласных букв в языке выше, чем согласных.

Какие буквы русского алфавита чаще или реже всего встречаются в словах, используемых для написания текста?

Выявлением и исследованием общих закономерностей занимается статистика. С помощью этого научного направления можно ответить на поставленный выше вопрос, сосчитав количество каждой из букв русского алфавита, применяемых слов, выбрав отрывок из произведений различных авторов. Для собственного интереса и ради занятия от скуки каждый может проделать это самостоятельно. Я же сошлюсь на статистику уже проведенного исследования...

Русский алфавит кириллический. За время своего существования он пережил несколько реформ, в результате которых сложилась современная русская азбучная система, включающая 33 буквы.

о — 9.28%
а — 8.66%
е — 8.10%
и — 7.45%
н — 6.35%
т — 6.30%
р — 5.53%
с — 5.45%
л — 4.32%
в — 4.19%
к — 3.47%
п — 3.35%
м — 3.29%
у — 2.90%
д — 2.56%
я — 2.22%
ы — 2.11%
ь — 1.90%
з — 1.81%
б — 1.51%
г — 1.41%
й — 1.31%
ч — 1.27%
ю — 1.03%
х — 0.92%
ж — 0.78%
ш — 0.77%
ц — 0.52%
щ — 0.49%
ф — 0.40%
э — 0.17%
ъ — 0.04%

Русская буква, имеющая наибольшую частотность в использовании - это гласная «О », как здесь уже справедливо предположили. Есть и характерные примеры, наподобие «ОбОрОнОспОсОбнОсти » (7 штук в одном слове и ничего экзотического или удивительного; очень привычно для русского языка). Высокая популярность буквы «О» во многом объясняется таким грамматическим явлением, как полногласие. То есть, «холод» вместо «хлад» и «мороз» вместо «мраз».

А в самом начале слов чаще всего встречается согласная буква «П ». Это лидерство также уверенно и безоговорочно. Скорее всего, объяснение даёт большое количество приставок на букву «П»: пере-, пре-, пред-, при-, про- и другие.

Частота использования букв основа криптоанализа.