Doomed to Wordpress

Serious Reflections During the Life of Jeremy Fisher

   

Subscribe
Subscribe to a syndicated feed of my weblog, brought to you by the wonders of RSS.

Flavours
There's more than one way to view this weblog; try these flavours on for size.

  • index
  • circa 1993
  • RSS
  • Links
    These are a few links to my other sites.

  • Ставропигиальныя Пластинки
  • Анкылым
  • Русское Шрифтовое Зало
  • Gopher (Proxied)
  • More about Gopher
  •        

    2016/04/02

    Глокая куздра как критерий русскости

    Уже много лет я думаю о создании нормального поисковика для посрамления корпоративного поделия Гугла.

    Однажды я даже пытался было взяться за одну из подзадач этого дела — распознавание языка и анализ морфологии. И оказалось, что практически все существующие морфологические анализаторы работают со словарями — конечными наборами данных. Практически все определители языка используют всё те же словари, N-граммы (которые также получены из словарей или из текстов) и/или рассчитаны на обучение — то есть не работают «из коробки», и успех их зависит от качества исходных словарей или текстов и старательности обучающего.

    При таком подходе создание морфологических анализаторов для малых языков (либо мало представленных в электронном виде) упирается в непосильную задачу составления словарей или поиска приемлемых текстов (которые, в свою очередь, в интернете найти не так-то просто из-за отсутствия способа опознать данный язык).

    И при этом словарный подход вообще не кажется мне удачным. Ибо человек вполне способен определить язык текста, не зная ничего ни о каких словарях.

    В советское время была выпущена книжка «Определитель языков мира по письменности», а в «Химии и жизни» была статья «Как узнать незнакомый язык». Книжку я лишь скачал и ещё не читал, но статья на неё ссылается. Статьёй же я всё детство зачитывался. Описанный там способ мне всегда казался само собой разумеющимся. Точно так же обычно построены определители животных или растений: ищется в тексте некий признак (буква, буквосочетание, служебное слово), в зависимости от результата ищется следующее, пока не пройдём всю череду признаков, уникально идентифицирующих язык.

    Исходить нужно из того, что словарный подход вообще не работает в некоторых случаях. Например, знаменитую фразу «Глокая куздра штеко будланула бокра и курдячит бокрёнка» наше сознание легко идентифицирует как русскую, хотя слов таких в словарях нет (кроме «и»), мало того, даже отдельные вырванные из неё подфразы типа «штеко будланула» или «куздра курдячит» вполне могут быть опознаны как русские или по крайней мере (восточно-)славянские.

    Таким образом, задача определения языка выполняется, если фраза про глокую куздру (или даже её фрагменты) может быть распознана как русская без помощи каких-либо словарей, без какого-либо обучения (конкретному языку) и без предопределённых списков N-грамм (хотя в процессе анализа некие внутренние списки и могут создаваться). Морфологические (и синтаксические) анализаторы должны обрабатывать эту фразу как любую другую на русском языке.

    UPD: Уже закончив эту заметку, я обнаружил и стал читать книжку венгерской переводчицы Като Ломб «Как я изучаю языки», где она рассказывает, как самостоятельно «расшифровывает» язык, в том числе склонение и спряжение. Естественно, такая расшифровка возможна лишь при некотором знании других языков, родственных или типологически близких расшифровываемому. Однако это всё равно позволяет ограничить набор требуемых исходных данных. Вот несколько цитат из книги, иллюстрирующих метод:

    Первой книгой для учебного чтения был один из романов Голсуорси. Через неделю я стала догадываться, о чем там идет речь, через месяц я понимала; а через два месяца уже наслаждалась текстом.

    А однажды на рассвете, в конце декабря, я приступила к самостоятельной расшифровке первого китайского предложения. Было уже совсем поздно, когда я добилась результата.

    Я без промедления купила роман Ивана Ольбрахта «Анна-пролетарка» и, пользуясь своим уже привычным способом, распутала по тексту загадку склонений и спряжений.

    Прочтя книгу, я проверила себя по хорошему учебнику Рудольфа Кирая, верно ли я вывела из текста основные грамматические правила.

    permanent link