Автоматическое выделение русских лексических конструкций

Данное исследование реализуется совместными усилиями коллектива НКРЯ и кафедры математической лингвистики СПбГУ. Проект является частью ресурса FrameBank (http://framebank.ru).

Участники проекта

О.Н. Ляшевская, Национальный исследовательский университет Высшая школа экономики, Москва, Россия, olesar@gmail.com
О.А. Митрофанова, Санкт-Петербургский государственный университет, Санкт-Петербург, Россия, alkonost-om@yandex.ru
М.А. Грачкова, Санкт-Петербургский государственный университет, Санкт-Петербург, Россия
П.В. Паничева, EPAM Systems, Россия
С.В. Романов, ЗАО «Интернет-Проекты», Санкт-Петербург, Россия
А.С. Шиморина, Институт лингвистических исследований РАН, Санкт-Петербург, Россия
А.С. Шурыгина, Российский государственный гуманитарный университет, Москва, Россия

На ранних этапах в работе участвовали:

В.В. Белик, Санкт-Петербургский государственный университет, Санкт-Петербург, Россия
В.В. Кадина, Санкт-Петербургский государственный университет, Санкт-Петербург, Россия
Н.С. Кузнецова, Санкт-Петербургский государственный университет, Санкт-Петербург, Россия
А.С. Мухин, Санкт-Петербургский государственный университет, Санкт-Петербург, Россия
В.С. Савицкий, Санкт-Петербургский государственный университет, Санкт-Петербург, Россия

Цель проекта

Цель проекта – предложить основанную на статистических методах технологию автоматического распознавания конструкций, связанных с той или иной лексической единицей. В качестве основного лингвистического ресурса задействован Национальный корпус русского языка (НКРЯ, http://www.ruscorpora.ru/), отличающийся богатством текстового наполнения, а также детальностью и многоплановостью лингвистической разметки. Использование потенциала корпусной разметки (прежде всего, морфологической и лексико-семантической) находится в фокусе настоящего исследования.
Автоматическое выделение конструкций рассматривается как процедура, сопряженная с автоматическим разрешением лексико-семантической неоднозначности, поскольку употребление многозначных слов в отдельных значениях ассоциируется с семействами конструкций.
Наши исследования конструкций с использованием тегов лексико-семантических классов, а также разработка самообучающегося модуля для классификации контекстов и выделения конструкций, модуля визуализации данных о конструкциях, являются уникальными в мировой практике.
Работа по проекту была поддержана грантом РФФИ «От корпуса к словарю: автоматические методы выявления и построения каталога русских конструкций» (2010-2012).

Современные исследования в области выделения конструкций

В настоящее время ведется активное обсуждение методов и алгоритмов выделения конструкций (Sahlgren, Knutsson 2009; Proceedings of the NAACL… 2010). Большие успехи достигнуты в области извлечения n-грамм (коллокаций, неоднословных целостностей – ср. (Manning, Sch?tze 2002, среди многих других; для русского языка – Ягунова, Пивоварова 2011). Однако идиоматизированные конструкции, а также конструкции с нестандартной синтаксической структурой, хотя они подробно описаны в исследовательской литературе (Борисова 1995, Иорданская, Мельчук 2007), представляют серьезную проблему в автоматической обработке текста. Автоматизация выделения конструкций из русскоязычных текстов усложняется такими особенностями материала, как свободный порядок слов и богатое словоизменение, снижающие предсказуемость формальной организации конструкций. По этой причине выделение конструкций с опорой на n-граммы, допустимое, например, в англоязычных текстах, в нашем случае не всегда приводит к желаемым результатам: фрагменты конструкций могут не иметь явного выражения в рамках заданного контекста, могут выходить за пределы синтаксических групп и т.д.
Существует ряд проектов, в которых особое внимание уделяется формализации лексико-синтаксических связей единиц текста, например,
PropBank (http://verbs.colorado.edu/~mpalmer/projects/ace.html)
NomBank (http://nlp.cs.nyu.edu/meyers/NomBank.html)
FrameBank (https://framenet.icsi.berkeley.edu/fndrupal/)
DeepDict (http://gramtrans.com/deepdict/)
Sketch Engine (http://www.sketchengine.co.uk/)
StringNet (http://nav3.stringnet.org/) и т.д.
Среди них есть исследования и на материале русского языка: Word Sketches для русского языка (Захаров, Хохлова 2010), работы по извлечению лексико-синтаксических шаблонов (http://lspl.ru/, Большакова, Носков 2010) и т.д. Тем не менее, электронные ресурсы, отражающие сочетаемостные предпочтения и рамки валентностей русской лексики, недостаточно разработаны. Также остаются нерешенными применительно к русскому материалу многие проблемы анализа конструкций, например, автоматическая оценка композиционности конструкций на основе моделей дистрибутивной семантики, ср., например, (Порицкий, Волчек, в печати; Baroni, Bernardi, Zamparelli, to appear; Mitchell, Lapata 2010).

Baroni M., Bernardi R. and Zamparelli R. To appear. Frege in space: A program for compositional distributional semantics. Linguistic Issues in Language Technologies // http://clic.cimec.unitn.it/composes/materials/frege-in-space.pdf
Manning C., Sch?tze H. Collocations // Foundations of Statistical NLP. 2002.
Proceedings of the NAACL HLT Workshop on Extracting and Using Constructions in Computational Linguistics. Los Angeles, CA, 2010.
Mitchell J., Lapata M. Composition in Distributional Models of Semantics. Cognitive Science, 34:8, 2010 // http://onlinelibrary.wiley.com/doi/10.1111/j.1551-6709.2010.01106.x/pdf
Sahlgren M., Knutsson O. Workshop on Extracting and Using Constructions in NLP. NODALIDA’09. SICS Technical Report T2009:10, 2009.
Большакова Е.И., Носков А.А. Система для поиска и выделения конструкций в текстах на естественном языке // Двенадцатая национальная конференция по искусственному интеллекту с международным участием (КИИ-2010): Труды конференции. Т. 4. М., 2010.
Борисова Е.Г. Коллокации. Что это такое и как их изучать. М., 1995.
Захаров В.П., Хохлова М.В. Анализ эффективности статистических методов выявления коллокаций в текстах на русском языке// Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог – 2010». М., 2010.
Иорданская Л.Н., Мельчук И.А. Смысл и сочетаемость в словаре. М., 2007.
Порицкий В., Волчек О. Построение векторной семантической модели на основе русскоязычных текстов: первые эксперименты (в печати)
Ягунова Е.В., Пивоварова Л.М. От коллокаций к конструкциям // Русский язык: конструкционные и лексико-семантические подходы. СПб., 2011.

Лингвистические данные

В центре внимания исследовательской группы находятся
(1) отдельные русские существительные, представляющие различные лексико-семантические группы: дом, вид, орган, лук, глава и т.д.,
(2) целостные лексико-семантические группы существительных – названий инструментов (бритва, веник, весло, карандаш, коса, лом, лопата, метла, ножницы, топор, щетка), обозначений речевых действий (дискуссия, комплимент, обращение, обсуждение, ответ, похвала, рекомендация, вопрос, вранье, выражение);
(3) прилагательные: близкий, верный и т.д.,
(4) глаголы: прописать, справиться, занести, заносить и т.д.
Анализируемые лексемы отличаются количеством значений, характером развития полисемии/омонимии, степенью связанности значений между собой. Следует отметить, что мы используем трактовку неоднозначности, принятую в компьютерной лингвистике и допускающую условное приравнивание омонимичных коррелятов к многозначным словам. Разметка значений слов в контекстах НКРЯ проводилась на основе Семантического словаря НКРЯ.
Рассмотрим реализацию морфологической и лексико-семантической разметки НКРЯ на примере слова дом в контексте
Этот дом сейчас пустует
Этот <w> <ana lex='дом' gr='S,m,inan=sg,nom' sem='r:concr t:constr top:contain'/> дом </ana></w> сейчас пустует.
В аннотации отражены тег леммы lex='дом', грамматические теги gr='S,m,inan=sg,nom' (имя существительное, мужской род, неодушевленность, единственное число, именительный падеж), лексико-семантические теги sem='r:concr t:constr top:contain', (предметное имя существительное, входящее в тематический класс здания и сооружения, с топологическим статусом вместилище). Подробнее о морфологической и лексико-семантической разметке см. http://www.ruscorpora.ru/

Конструкция: что это такое?

С точки зрения структурной организации, конструкция – это комбинация целевого слова и слотов, заполняемых регулярными контекстными маркерами. Как контекстные маркеры рассматриваются теги, доступные в многоуровневой разметке контекстов НКРЯ: теги лемм (lex – лексема, которой принадлежит словоформа), морфологические теги (gr – грамматические признаки словоформ: частеречная принадлежность, значения грамматических категорий и т.д.), лексико-семантические теги (sem – признаки, указывающие на принадлежность слова к определенному лексико-семантическому классу). Данная трактовка конструкций согласуется с основными идеями грамматики конструкций (Fillmore 1988; Goldberg 1995, 2006; Tomasello 2003; Кузнецова 2007) и дистрибутивной семантики (Pad?, Lapata 2007).
Как конструкции нами рассматриваются, например, следующие сочетания целевых слов и элементов их контекстного окружения:
ОТВЕТ + PR|на + t:speech r:abstr|приветствие, вопрос, высказывание, рапорт, реплика
V pf tran inf act|найти, дать + A m sg acc inan plen|простой, однозначный + ОТВЕТ + PR|на +S m inan sg acc|вопрос
r:ord der:num t:ord r:qual|первый + ЛЮБОВЬ
ЛЮБОВЬ + PR|с + ANUM m sg gen|первый + S f inan sg gen|взгляд

В исследованиях, опирающихся на конструкционные подходы в лингвистике, используется широкое понимание конструкции: в общем случае, это сложный знак, значение которого не выводится из значения составляющих и компоненты которого взаимодействуют между собой и взаимообуславливают друг друга (Рахилина 2010; Оскольская, Сай 2010, Овсянникова и др. 2011). Лексически-ориентированные конструкции предполагают организацию вокруг одного или нескольких фиксированных лексических элементов (например, коллокация, коллострукция, морфо-синтаксическая схема, модель управления, комбинация с лексической функцией, синтаксическая группа с фиксированными лексическими слотами, или конструкция «малого синтаксиса», и др.).
Идентификация лексических конструкций в корпусе связана с двумя важными задачами. Во-первых, сочетаемость и синтаксис довольно больших слоев лексики исследованы недостаточно. Во-вторых, процедура выделения конструкций связана с разрешением лексико-семантической неоднозначности. Если слово многозначно, то, в идеале, каждое значение характеризуется своим кругом конструкций – тем самым, анализ семейств близких конструкций дает информацию, позволяющую распознавать и разграничивать значения многозначного слова. Кроме того, эксперимент с автоматическим выделением конструкций позволяет проверить теоретическую гипотезу о генерализациях в ходе усвоения языка ребенком (D?browska 2004). Эта гипотеза гласит, что человеку свойственно обобщать сходные часто повторяемые цепочки слов в виде единиц более абстрактного уровня (=конструкций), причем ключами для генерализации могут служить единицы морфологического, лексемного, синтаксического и любого другого уровня.
Конструкция, понимаемая таким образом, это многоярусная структура, призванная компактно и в достаточной мере полно описать сочетаемостные возможности целевого слова, ассоциированные с его лексическим значением, и задать сочетаемость не только в терминах лемм/словоформ, но и с точки зрения грамматических и лексико-семантических классов. Данный взгляд на конструкции отражает идею взаимосвязи и взаимопроникновения различных уровней языка (от фонетического/графического до лексического) и позволяет рассмотреть языковые выражения не в их проекции на один из множества уровней (как представлялось бы с точки зрения модульного подхода), а как многоярусные структуры. Наше определение конструкции не противоречит традици-онному, однако несколько выходит за его рамки. Предлагаемое нами понимание конструкции позволяет, в отличие от метода n-грамм, относится избирательно к сочетаемостным возможностям целевых слов, учитывать тенденции в сочетаемости целевого слова и его соседей в контексте, описывать как лексическую сочетаемость, так и сочетаемость на уровне классов, не только устойчивые, но и свободные сочетания, важным образом отражающие типовое употребление слова в тексте.

D?browskaE. Language, Mind and Brain: Some Psychological and Neurological Constraints on Theories of Grammar. Edinburgh University Press, Edinburgh and Georgetown University Press, Georgetown, 2004.
Fillmore Ch.J. The Mechanisms of Construction Grammar // Proceedings of the Berkeley Linguistic Society. Vol. 14. 1988.
Goldberg A.E. Constructions at Work: the Nature of Generalization in Language. Oxford: Oxford University Press, 2006.
Goldberg A.E. Constructions. A Construction Grammar Approach to Argument Structure. Chicago, IL/London: University of Chicago Press, 1995.
Pad? S., Lapata M. Dependency-based construction of semantic space models // Computational Linguistics 33 (2): 2007.
Sahlgren M. The Word-Space Model (PhD thesis). Stockholm University. 2006.
Tomasello M. Constructing a Language: A Usage-Based Approach to Child Language Acquisition. Cambridge, MA: Harvard University Press, 2003.
Кузнецова Ю.Л. Грамматика конструкций. Обзор // Научно-техническая информация. Серия 2, № 4, 2007.
Овсянникова М.А., Оскольская С.А., Сай С.С. Русский язык: конструкционные и лексико-семантические подходы // Вопросы языкознания, № 5, 2011.
Оскольская С.А., Сай С.С. Круглый стол «Русский язык: конструкционные и лексико-семантические подходы» // Вопросы языкознания, № 1, 2010.
Рахилина Е.В. (ред.) Лингвистика конструкций. М., 2010.

Используемые методы и подходы

Подход к анализу данных, примененный в рамках проекта, представляет собой разновидность модели дистрибутивной семантики и предполагает реализацию автоматической классификации контекстов употребления слов, векторной модели экспериментальной выборки, метода опорных векторов, алгоритма классификации с учителем.
При обучении имеют место следующие процедуры: предобработка; машинное обучение; распознавание образов.
На этапе предобработки в экспериментальной выборке определяется число контекстов на каждое из значений слова. Для каждого из значений формируются эталонная выборка (случайным образом отобранные контексты со снятой неоднозначностью, где реализуется рассматриваемое значение) и тестовая выборка (контексты, для которых проводится автоматическое разрешение неоднозначности без учёта априорной лингвистической информации). На этапе машинного обучения проводится формирование статистических образов для значений слова. Образ значения есть вектор в векторном пространстве, координаты которого определяются частотами встречаемости тегов лемм (lex), морфологических тегов (gr) и лексико-семантических тегов (sem) в эталонной выборке. Устанавливаются дистрибуции тегов в выборке. На этапе распознавания образов тестовые контексты представляются как вектора в векторном пространстве. Измеряется расстояние между контекстными векторами и каждым из образов значений. Близость контекстных векторов по отношению к образам определяется с помощью меры Cos. Выбирается образ, к которому контекстный вектор расположен ближе всего. Анализируемому слову в контексте приписывается значение ближайшего образа. В завершение процедуры проводится проверка качества распознавания: сравниваются результаты автоматической и ручной обработки контекстов, вычисляется доля правильных и ошибочных решений для каждого из значений.
Автоматическое выделение конструкций производится на основе статистических данных о сочетаемости целевых слов и контекстных маркеров их значений: тегов лемм (lex), морфологических тегов (gr) и лексико-семантических тегов (sem). Сочетаемостная информация извлекается из обучающей выборки. Результат автоматической обработки выборок отражается в виде списка частотных конструкций (комбинаций целевого слова и статистически значимых левосторонних и правосторонних контекстных маркеров) с данными о частоте встречаемости каждой конструкции и с перечнями лексем, реализующих значения контекстных маркеров в составе конструкций. Разработанный метод позволяет выявлять конструкции разного объема (от биграмм и выше) и наполнения (конструкции – комбинации целевых слов, лексико-семантических тегов, грамматических тегов и лемм).
Автоматическая кластеризация конструкций предполагает объединение конструкций в группы на основе общности их компонентов (тегов лемм, лексико-семантических тегов, морфологических тегов). Данная процедура отражает идею о выделении конструкций по принципу «bottom-up generalization», например:
ДИСКУССИЯ+PR|о,по,на
A|r:qual|горячий,долгий,жесткий,серьезнейший,старый,широкий+ДИСКУССИЯ
ДИСКУССИЯ+PR|о+S|r:abstr|вред,ценность,целесообразность,красота
ДИСКУССИЯ+PR|на+ S|t:pers|тема
V|начать,организовать+ДИСКУССИЯ
V+A|r:qual|+ДИСКУССИЯ+PR+S|t:pers|+S|r:abstr|

Сформированные таким образом семейства конструкций, в случае многозначных целевых слов, ассоциируются с отдельными значениями, что открывает возможность использовать данные о конструкциях в задачах автоматического разрешения лексико-семантической неоднозначности.

Примеры конструкций

В настоящий момент мы можем получать конструкции с двухслойной структурой, т.е. компоненты конструкции могут одновременно характеризоваться не более чем двумя признаками: морфологическими тегами и тегами лемм, или лексико-семантическими тегами и тегами лемм. Например,

S f inan pl acc|слеза + УМИЛЕНИЕ
t:stuff r:concr t:liq|слеза + УМИЛЕНИЕ

t:word r:concr r:abstr|слово + БЛАГОДАРНОСТЬ
S n inan pl ins|слово + БЛАГОДАРНОСТЬ
S n inan pl acc|слово + БЛАГОДАРНОСТЬ

Наибольший интерес вызывают конструкции с компонентами, в состав которых входят лексико-семантические теги, поскольку чаще всего с ними ассоциируются группы лемм, выражающих общее значение и характеризующихся близкими дистрибутивными свойствами. Например:

r:rel|риторический, мировой, процедурный, спорный, шекспировский, практический, методический + ВОПРОС
ОБСУЖДЕНИЕ + t:ment r:abstr|проект, концепция + r:abstr|благоустройство, реформирование, реформа
ОТВЕТ + FW + t:speech r:abstr|запрос, призыв, вопрос, приветствие, просьба, высказывание, похвала, рапорт, реплика

Наши данные позволяют проследить развертку простейшей структуры в сложную многокомпонентную конструкцию и исследовать видоизменение состава конструкции по пути движения от простого к сложному. Например,

t:poss|дать, получить, давать + ОТВЕТ
r:qual|простой, неточный, точный, вероятный, логичный, нужный, вразумительный, ясный, приличный + ОТВЕТ
r:rel|готовый, однозначный, стандартный, истинный, числовой, заданный, релевантный, эмоциональный, содержательный, необязывающий, отрицательный, утвердительный, хлесткий, окончательный, известный, конкретный, официальный, адекватный, отечественный, обстоятельный, определенный, реактивный, обоснованный, очевидный, зачаточный, энергичный, соответствующий, стойкий + ОТВЕТ
t:move t:poss|найти + r:qual|простой, точный, приличный + ОТВЕТ + FW + t:speech r:abstr|вопрос
t:poss|давать, дать + r:rel|конкретный, однозначный, окончательный + ОТВЕТ + FW + вопрос
ответ + PR|на + t:speech r:abstr|приветствие, вопрос, высказывание, рапорт, реплика
V pf tran inf act|найти, дать + A m sg acc inan plen|простой, однозначный + ОТВЕТ + PR|на ++S m inan sg acc|вопрос
найти, дать + простой, однозначный + ОТВЕТ + на + вопрос

Для получения графических представлений, отражающих структуру и наполнение конструкций, был задействован модуль pattern.graph (http://www.clips.ua.ac.be/pages/pattern-graph), разработанный на языке Python и предназначенный для визуализации различных типов связей в тексте на естественном языке.

Графическое представление конструкции
ОТВЕТ + PR|на + t:speech r:abstr| приветствие, вопрос, высказывание, рапорт, реплика

Графическое представление конструкции
ЛЮБОВЬ + PR|с + ANUM m sg gen|первый + S f inan sg gen|взгляд

Важнейшие результаты

1. Проведен сбор корпусных данных о контекстах употребления целевых слов в НКРЯ; осуществлена подготовка тестовых выборок контекстов для обучения компьютерного инструмента WSD и CxI.
2. Разработано программное обеспечение для кластеризации контекстов, разрешения лексико-семантической неоднозначности слов, автоматического выделения и классификации конструкций, работающее с корпусной разметкой и позволяющее получать статистическую информацию о наполнении позиций в пределах контекстного окна. В компьютерном инструменте WSD и CxI реализованы алгоритмы машинного обучения, классификации, кластеризации, также использовались векторная модель и машина опорных векторов. Определены наилучшие параметров обработки контекстных выборок.
3. Проведены эксперименты по автоматическому разрешению лексико-семантической неоднозначности слов и выделению конструкций c использованием лексической, семантической, грамматической информации, извлекаемой из контекстов для целевых слов, проверен ряд гипотез.
4. Проведены эксперименты по автоматическому выделению и кластеризации конструкций с помощью усовершенствованного компьютерного инструмента WSD и CxI. Осуществлена верификация данных о конструкциях. Разработан модуль визуализации конструкций.
5. Разработаны данные для пилотной версии каталога русских лексических конструкций. Обработаны контекстные выборки и выделены конструкции для 200 целевых слов (объем выборок ~ 3 млн с/у).

Перспективы

1. Представление в конструкции трех слоев разметки одновременно (леммы, грамматические теги, лексико-семантические теги).
2. Дифференциация обязательных и факультативных элементов конструкций.
3. Переход к динамической организации модуля визуализации для описания многокомпонентных, а также пересекающихся конструкций.
4. Модернизация используемой модели дистрибутивной семантики для оценки композиционности конструкций.

Основные публикации

1. Lashevskaja O., Mitrofanova O. Disambiguation of Taxonomy Markers in Context: Russian Nouns // 17th Nordic Conference of Computational Linguistics (NODALIDA–2009): NEALT Proceedings Series. Odense, 2009. Vol. 4.
2. Lyashevskaya O., Mitrofanova O., Grachkova M., Romanov S., Shimorina A., and Shurygina A. Automatic Word Sense Disambiguation and Construction Identification Based on Corpus Multilevel Annotation // Text, Speech and Dialogue. Proceedings of the 14th International Conference TSD 2011, Pilsen, Czech Republic, September 1–5, 2011. Springer-Verlag, 2011.
3. Mitofanova O., Belik V., Kadina V. Corpus Analysis of Selectional Preferences in Russian // Computer Treatment of Slavic and East European Languages: Fourth International Seminar. Bratislava, Slovakia, 25–27 October 2007. Proceedings. Bratislava, 2007.
4. Mitrofanova O., Lashevskaja O., Panicheva P. Statistical Word Sense Disambiguation in Contexts for Russian Nouns Denoting Physical Objects // 11th International Conference on Text, Speech and Dialogue (TSD 2008), Brno, Czech Republic, 8-12 September 2008. [Lecture Notes in Computer Science, vol. 5246]. Berlin – Heidelberg: Springer, 2008.
5. Mitrofanova O., Mukhin A., Panicheva P., Savitsky V. Automatic Word Clustering in Russian Texts // Text, Speech and Dialogue. Proceedings of the 10th International Conference TSD 2007, Plzen, Czech Republic, September 2007. / Eds. V. Matousek, P. Mautner et al. LNAI 4629. Springer-Verlag, 2007.
6. Грачкова М.А., Ляшевская О.Н., Митрофанова О.А., Романов С.В., Шиморина А.С., Шурыгина А.С. Автоматическое выделение конструкций с опорой на многоярусную разметку НКРЯ // Труды международной конференции «Корпусная лингвистика – 2011». СПб., 2011.
7. Грачкова М.А., Ляшевская О.Н., Митрофанова О.А., Паничева П.В., Шиморина А.С. Модель данных для каталога русских лексических конструкций (на примере имен речевых действий в НКРЯ) // Труды международной конференции «Корпусная лингвистика–2013». СПб., 2013.
8. Ляшевская О.Н. Генитивная и инструментальная конструкции формы: сходства и различия // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной Международной конференции «Диалог» (2010). Вып. 9 (16). М., 2010.
9. Ляшевская О.Н., Митрофанова О.А., Грачкова М.А., Шиморина А.С., Шурыгина А.С., Романов С.В. К построению инвентаря русских именных конструкций // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая - 3 июня 2012г.). Вып. 11 (18).- М.: Изд-во РГГУ, 2012.
10. Митрофанова О.А. О решающем правиле для определения устойчивости и связанности сочетаний слов // Четвёртая научно-практическая конференция «Прикладная лингвистика в науке и образовании». СПб., 2008.
11. Митрофанова О.А., Белик В.В., Кадина В.В. Корпусное исследование сочетаемостных предпочтений частотных лексем русского языка // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции "Диалог–2008". М.: Издательство РГГУ, 2008.
12. Митрофанова О.А., Грачкова М.А., Шиморина А.С., Ляшевская О.Н. Лексические, семантические и морфологические признаки контекстов в разрешении неоднозначности русских существительных // XXXIX Международная филологическая конференция. Секция математической лингвистики. СПб., 2010.
13. Митрофанова О.А., Кадина В.В., Савицкий В.С. Исследование семантической синтагматики в свете дихотомии "словарь <=> корпус" // Петербургское лингвистическое общество: Научные чтения – 2006. Приложение к журналу "Язык и речевая деятельность". Т. 7. Издательство Факультета филологии и искусств СПбГУ, 2008.
14. Митрофанова О.А., Кадина В.В., Савицкий В.С. Словарь и корпус как источники данных о синтагматических связях лексических единиц // Труды международной конференции "Корпусная лингвистика–2006". Издательства СПбГУ и РХГА, 2006.
15. Митрофанова О.А., Ляшевская О.Н., Грачкова М.А., Романов С.В., Шиморина А.С., Шурыгина А.С. Опыт автоматической каталогизации русских именных конструкций (на материале НКРЯ) // Труды XV Всероссийской объединенной конференции «Интернет и современное общество» (IMS-2012), Санкт-Петербург, Россия, 2012.
16. Митрофанова О.А., Ляшевская О.Н., Грачкова М.А., Романов С.В., Шиморина А.С., Шурыгина А.С. На пути к созданию каталога русских именных конструкций (на материале НКРЯ) // Материалы XLI международной филологической конференции. Секция Прикладная и математическая лингвистика. СПб., 2012.
17. Митрофанова О.А., Ляшевская О.Н., Грачкова М.А., Шиморина А.С., Шурыгина А.С., Романов С.В. Эксперименты по автоматическому разрешению лексико-семантической неоднозначности и выделению конструкций (на материале Национального корпуса русского языка) // Структурная и прикладная лингвистика. Вып. 9. СПб., 2012.
18. Митрофанова О.А., Ляшевская О.Н., Грачкова М.А., Шиморина А.С., Шурыгина А.С., Романов С.В. Автоматическое разрешение лексико-семантической неоднозначности и выделение конструкций (на материале Национального корпуса русского языка) // Лексикология. Лексикография. Корпусная лингвистика. ИЛИ РАН, СПб, 2012.
19. Митрофанова О.А., Ляшевская О.Н., Паничева П.В. Эксперименты по статистическому разрешению лексико-семантической неоднозначности русских имен существительных в корпусе // Труды международной конференции «Корпусная лингвистика–2008». СПб.: С.-Петербургский гос. университет, Факультет филологии и искусств, 2008.
20. Шиморина А.С. Автоматический анализ лексических значений слов в контекстах НКРЯ (на материале одной ЛСГ) // Информационные технологии в лексикографии. СПб., 2011.
21. Шурыгина А.С. Исследование контекстных маркеров значений для автоматического разрешения неоднозначности имен существительных в русском языке // Материалы XIII международной научной конференции студентов-филологов. СПб., 2010.
22. Шурыгина А.С. Определение оптимальных параметров контекстного окна для автоматического разрешения лексико-семантической неоднозначности (на материале Национального корпуса русского языка) // Сборник трудов конференции "Инженерия знаний и технологий семантического веба (KESW-2011)". СПб., 2011.
23. Шурыгина А.С. Определение оптимальных параметров контекстного окна для автоматического разрешения лексико-семантической неоднозначности и выделение конструкций с опорой на многоуровневую разметку корпуса (на материале НКРЯ) // Материалы XIV международной научной конференции студентов-филологов. СПб., 2011.