0:Статистико-комбинаторные. дистрибутивно-статистические и дешифровочные методы в грамматике

Материал из Викиверситета
Перейти к навигации Перейти к поиску
Fairytale up blue.png
Вы находитесь в Инкубаторе

Создать уровень выше


Важная область прикладного использования знаний о частоте использования тех или иных языковых структур — компьютерная лингвистика.

Многие компьютерные программы, связанные с функционированием языка, используют алгоритмы, основывающиеся на данных о частоте употребления фонем, морфем, лексических единиц и синтаксических конструкций. Например, программы автоматической коррекции орфографии содержат словари (чаще всего) только наиболее частотных лексем.

Редкие слова пользователь может вводить в свой индивидуальный словарь. Аналогичные словари используются в программах автоматического распознавания письменного текста и речи (типа Fine Reader).

Так, согласно статистико-дистрибутивному методу автоматического индексирования информативными для данного текста считаются скопления слов, расположенных достаточно близко друг от друга, частота которых превосходит некоторую пороговую величину, например, среднюю частоту слов в документе (метод ACSI-Matic).

В процессе дешифровки также могут использоваться данные о частоте употребления графем, морфем и слов, а также их взаимном расположении. К настоящему времени разработаны продуктивные алгоритмы дешифровки, основанные на частоте и дистрибуции элементов кодированного текста; ср. дешифровочные алгоритмы Б. В. Сухотина, статистико-комбинаторный метод Н.Д.Андреева. Близки к задачам дешифровки формальные процедуры «открытия» морфемного состава неописанного языка, предложенные 3. Харрисом.