Частотный словарь рассказов А. И. Куприна. Авторы-составители: А. О. Гребенников, Н. А. Данилова. Под ред. Г. Я. Мартыненко

Автор: Авторы-составители: А. О. Гребенников, Н. А. Данилова
Название: Частотный словарь рассказов А. И. Куприна
Место изд-я: СПб.: Изд-во С.-Петерб. ун-та, 2006. — 552 с.
Редактор: Г. Я. Мартыненко
Реферат

Словарь содержит упорядоченный по алфавиту и частотам перечнь всех лексем, содержащихся в 90 рассказах А. И. Куприна общим объемом около 300 000 словоупотреблений. К словарю прилагается таблица частотного распределения лексем, отражающая лексико- , статистическую структуру текста.
Словарь состоит из 5 частей: алфавитно-частотный словник; частотный словник; таблица распределения рангов и частот слов; список омонимов; приложение — некоторые статистические характеристики словаря и их аппроксимация.
В алфавитно-частотный словник включены все 21163 лексемы, употребленные в рассказах, что составляет 288 260 словоупотреблений, расположенный по алфавиту с указанием частоты для каждого слова (за исключением имен собственных).
Частотный словник содержит все лексемы, расположенные в порядке убывания частот (за исключением имен собственных). Внутри групп с одинаковой частотой слова расположены по алфавиту. Слева от слова указывается его ранг, т. е. номер по порядку убывания частот (для двух или более слов с одинаковой частотой дается их ранговый интервал). Справа , приводится частота слова. Ради экономии места слова с частотами 2 и 1 вынесены в отдельные списки, где они расположены не в столбик, а в строку. Таблица частотного распределения рангов и частот слов содержит количественные данные о ранге и количестве слов с данной частотой.
Основной единицей частотного словаря является лексема. Отдельным словоупотреблением в словаре считается все, что в принятом для работы издании напечатано отдельно (т.е. между двумя ближайшими пробелами), независимо от тесноты смыслового соединения друг с другом. В связи с этим большинство фразеологических единиц и сложных союзов не выделяется самостоятельно, а расписывается пословно. Сокращенные формы являются вариантами полной формы лексемы, в том числе и буквенные сокращения: г. — господин.
Общепринятые сокращения (т.д., т.е., т.п.) рассматриваются в текстовой форме как соответствующие сочетанию слов. Также как сочетание слов рассматриваются фонетически сокращенные формы типа: Ваше-сокородие -ваш, высокородие,
Существительные приводятся к форме именительного падежа единственного числа (или множественного — если нет единственного). Супплетивные формы от разных основ считаются разными лексемами: человека — человек; людей — люди. Существительные от одной основы, имеющие разные формы рода, указываются как разные слова. Сложные существительные с дефисом рассматриваются как одна лексема: барышня-невеста. Вариантные формы существитель¬ных типа -ние и -нъе не различаются. Фонетически удлиненные формы с повторами букв считаются вариантами исходных форм: в-вон — вон. Кроме того, вариантами соответствующих исходных форм считаются случаи имитации просторечия типа: амператыръ -император, агроматный — громадный и т.п.
Прилагательные сводятся к полной форме в именительном падеже единственного числа мужского рода. Формы превосходной степени прилагательных признаются отдельными лексемами. Сложные имена-прилагательные даются как отдельное слово: спокойно-страстный, старый-престарый.
Глаголы (включая деепричастия) приводятся к инфинитиву. Видовые формы глагола считаются разными словами. Формы с возвратными частицами даются отдельными лексемами. В составном глагольном сказуемом обе формы возводятся к инфинитиву: стала ждать — стать, ждать.
Причастия возводятся к инфинитиву только при наличии зависимых слов.
Личные местоимения репрезентируются именительным падежом, остальные — именительным падежом единственного числа (мужского рода — если есть изменение по родам).
Числительные сводятся к именительному падежу, порядковые, кроме того — к единственному числу мужского рода. Составные числительные с дефисом рассматриваются как одна лексема.
Неизменяемые слова считаются представленными своей словарной формой, т.е. лемма совпадает со словоформой.
При выделении имей собственных также в качестве основной единицы выступает слово, независимо от тесноты своего смыслового соединения с соседними словами. Таким образом, имя, фамилия и отчество персонажа вновь рассматриваются как три различных слова, при этом сложные имена и фамилии считаются одним словом: Августа-Виктория. Исключения составляют реальные или псевдонимные имена деятелей мировой истории и культуры: Лев Толстой, Сара Бернар, Петр Великий. Если в тексте рассказа персонаж называется помимо основного вымышленным именем или кличкой, словообразовательно несоотносимой с реальным именем, то такие имена рассматриваются отдельно. Притяжательные прилагательные, образованные от встречающихся в тексте собственных имен, сводятся к полной словарной форме соответствующего имени: колин — Николаг1. Названия книг, газет и т.п. также рассматриваются как одна лексема и приводятся в кавычках. В названиях улиц, площадей, губерний и т.п. как собственные фиксируются лишь непосредственно названия, написанные с прописной буквы. Слова улица, площадь, губерния и т.п. включаются в основной частотный словарь. Собственные имена, употребляющиеся как нарицательные, написанные со строчной буквы, указываются в общем частотном словаре: аллах.
Если в тексте словаря представлен один из омонимов, то его значение не разъясняется. В случае, когда встречаются два и более омонимов, эти лексемы разделены в словаре и снабжаются порядковыми числовыми показателями. Соответствующие этим показателям значения омонимов раскрыты в списке омонимов.
Субстантивированные прилагательные помечаются непосредственно в частотном словаре.
Омографы (если встречаются оба варианта) различаются постановкой ударения.
Церковнославянские слова приводятся к современным словарным формам.
Несмотря на описываемые ограничения, авторы стремился максимально полно сохранить и показать богатство словарного состава рассказов А.И.Куприна.
Статистические характеристики словаря включают в себя таблицу эмпирической и теоретической (т. е. полученной в результате аппроксимации) зависимости между объемом выборки (в словоупотреблениях) и объемом словаря (в лексемах), а также прогностические данные о нарастании указанных характеристик вне диапазона наблюдений.