«Он видел их семью своими глазами»
Можешь выбрать подходящую к заголовку поста картинку?
Тогда научи робота! Он тоже хочет.
Команда проекта Открытый корпус просит хабралюдей помочь разметить свободно доступный (CC-BY-SA) корпус текстов. Под катом мы расскажем о том, что такое корпус, зачем он нужен, как обстоят дела с корпусами в России и за рубежом, почему так плохо и какой у нас план.
Корпус текстов — это лингвистическая база данных, включающая тексты, разные метаданные, относящиеся к этим текстам, а также грамматические разборы входящих в них слов и предложений. Метаданные и грамматические разборы — это разметка. Она бывает разных уровней: морфологическая, синтаксическая, семантическая, и т.д. Без размеченных корпусов текстов трудно (или даже невозможно) разрабатывать софт для анализа текста. Для программ, использующих машинное обучение, из размеченного корпуса берётся обучающая выборка. В остальных случаях корпус нужен для тестирования.
Размеченные корпуса существуют для многих языков мира. Чаще всего корпус текстов доступен через специализированные поисковые машины, позволяющие выбирать примеры употребления различных языковых конструкций. Эти сервисы предназначены для лингвистов. Скачивать корпуса целиком оттуда нельзя, т.к. входящие в них тексты чаще всего защищены копирайтом. Для разработки лингвистического софта нужны корпуса, которые можно скачивать целиком, вместе с разметкой. На Хабре уже писали об этом здесь (про POS-tagging) и здесь (про синтаксис).
Корпуса текстов в России и за рубежом
Здесь у русского языка всё не так хорошо, как, например, у английского, для которого есть несколько разных доступных и вручную размеченных корпусов текстов. Это не удивительно как минимум потому, что на английском говорит больше людей, чем на русском. Удивительно, что даже для венгерского языка, на котором говорят в 10 раз меньше людей, чем на русском, есть доступный и размеченный корпус размером больше 1 млн. слов.
А что у нас?
Национальный корпус русского языка (НКРЯ), создаваемый совместными усилиями многих организаций (включая Институт русского языка РАН), доступен только в режиме поиска по корпусу. Из 6 млн. слов, размеченных вручную, можно скачать только выборку размером 180 тысяч слов, в которой предложения идут с нарушенным порядком. Если вы хотите сделать морфологический анализатор со снятием неоднозначности, то вам придётся либо воспользоваться этими 180 тысячами, которых чаще всего будет недостаточно для машинного обучения, либо попробовать какой-нибудь другой язык, например, польский. Такое положение дел, очевидно, не способствует развитию компьютерной лингвистики в нашей стране.
Для того, чтобы русский язык не попадал в категорию «under-resourced languages», мы решили сделать новый Открытый корпус русского языка, учитывая опыт создания НКРЯ и других проектов. Поскольку Национальный корпус предоставляет хороший интерфейс поиска, и, таким образом, решает задачи связанные с поиском примеров употребления различных слов и конструкций, мы решили сфокусироваться на создании свободно доступного корпуса для разработчиков: его можно скачать и использовать для машинного обучения или для тестирования. Поиска по нему нет, но это не страшно, т.к. он есть в НКРЯ. Чтобы вопрос копирайта не мешал распространению в корпус включаются только тексты либо доступные на условиях лицензии Creative Commons, либо находящиеся в общественном достоянии. Разметка создаётся на условиях CC-BY-SA.
На предыдущем этапе нашей работы (в 2011 году) мы собрали корпус в 700 тыс. слов и расставили вручную границы слов и предложений. Эти данные уже можно скачивать. Сейчас нашей основной целью является снятие неоднозначности в морфологической разметке. Эту работу тоже нужно делать вручную, её много, и мы просим вас нам помочь.
Вспомним школу или что такое морфологическая разметка
Морфологическая разметка (tagging, part-of-speech tagging) — это сопоставление каждому слову в тексте его словарной формы («большого» — «БОЛЬШОЙ», «столу» — «СТОЛ», «читал» — «ЧИТАТЬ») и указание грамматических характеристик слова: род, число, падеж, время и др. Первичная морфологическая разметка делается по словарю автоматически. Мы используем словарь проекта АОТ, доработанный для наших целей. Для большинства слов разметка получается неоднозначной, т. е. для многих слов в тексте в словаре находится несколько гипотез. Чаще всего только одна из гипотез является правильной. Бывают и неоднозначные предложения, имеющие несколько вариантов разбора. Например:
«Эти типы стали есть в цехе»
СТАЛЬ (существительное) или СТАТЬ (глагол)?
«Он видел их семью своими глазами»
СЕМЬЯ (существительное) или СЕМЬ (числительное)?
Такие примеры встречаются редко. Морфологический разбор становится однозначным в контексте предложения: прочитав его целиком, мы можем определить, в какой именно форме стоит то или иное слово. Например, для предложения «Мама мыла раму» в конечном итоге должен быть построен вот такой разбор:
Проведя морфологический анализ при помощи словаря, только одно из слов мы сможем разобрать однозначно. Для слов «МЫЛА» и «РАМУ» мы получим четыре и две гипотезы соответственно:
Снять морфологическую неоднозначность — это значит выбрать одну правильную гипотезу для каждого слова. Для носителей языка это, чаще всего, не представляет трудности.
У нас есть план!
Чтобы упростить задачу снятия неоднозначности, мы разделили её на простые вопросы, которые вместе представляют собой дерево решений для каждого примера неоднозначности. В случае со словом «МЫЛА», первый вопрос будет «Существительное или глагол?». Для предложения «Мама мыла раму» снятие неоднозначности на этом закончится, т. к. это глагол, а глагольная гипотеза только одна. В других случаях нужно будет ответить ещё на один или, в худшем случае, ещё на два вопроса.
Однотипные вопросы мы объединили в группы. Участник может выбрать тип вопросов и отвечать только на вопросы этого типа про случайно выбранные слова в их контекстах, сфокусировавшись, таким образом, на одной задаче. Так размечать быстрее, т.к. не тратится время на переключение между разными типами вопросов.
Чтобы разметка была достаточно точной, каждый вопрос задаётся трём разным людям, и только если ответы полностью совпадают, и никто не написал комментариев, они используются без перепроверки. Если один ответ отличается от двух других, или если оставлен комментарий, то этот пример проверяет модератор.
Сколько у нас этого плана?
По грубым подсчётам, чтобы снять неоднозначность в собранной на настоящий момент коллекции текстов, с учётом того, что вопросы задаются трижды, нужно ответить на 4 миллиона 3.75 миллиона вопросов (на 250 тысяч вопросов ответы уже получены). Если в этом будут участвовать 100 человек, то получится по 40 тысяч вопросов на человека. 40 тысяч — это много, а человеческие жертвы нам не нужны. Если 1000 человек, то по 4 тысячи. Это несколько часов работы. Если 10000, то по 400 вопросов, что занимает 20-30 минут.
Для участия в проекте можно использовать приступы прокрастинации, время по дороге на работу (интерфейс разметки работает на смартфонах) и другие вынужденные паузы в полезной деятельности. В этом смысле разметка корпуса похожа на пасьянс, только полезнее. Поскольку никаких особенных лингвистических знаний не требуется, то каждый дочитавший до этого места может принять участие, и мы вместе создадим морфологический слой разметки корпуса. На этой странице находится пошаговая инструкция по разметке.
Недавно мы начали собирать и публиковать подмножество предложений, в которых вся неоднозначность уже снята. Этот подкорпус пока очень маленький — около 9500 слов. По мере того, как идёт разметка, он становится больше, и, в дальнейшем, эти данные можно будет использовать для создания свободно доступных морфологических анализаторов, умеющих снимать неоднозначность.
Открытый корпус. Не стесняйтесь снимать неоднозначность!
Морфологический корпус
Центральный кампус – структурная часть УНПК «Международный университет Кыргызстана», являющаяся базовым подразделением академического консорциума, использует в своей деятельности современные модели развития высшего образования с применением инновационных техник обучения.
Учебные программы учреждений Центрального кампуса подготовлены с учетом опыта ведущих университетов мира.
В настоящее время, на базе учреждений кампуса, реализуется ряд образовательных и научных проектов с партнерскими ВУЗами СНГ, США, Южной Азии и Азиатско-Тихоокеанского региона.
Выпускники целенаправленно ориентированы на построение дальнейшей карьеры на трудовых рынках СНГ, Европы и Азиатского региона.
В учебном процессе активно используются дистанционные, мультимедийные, анимационные, видеотехники обучения.
В Центральном кампусе реализуются программы академической мобильности с Вузами партнерами из России, Казахстана.
Программы :
Центральный кампус УНПК «МУК» имеет очень удобное расположение, находится в западной части города и развитую инфраструктуру.
Материальная база Центрального кампуса — одна из лучших в стране. Просторные аудитории оснащены мультимедийным оборудованием, новыми компьютерами со всем необходимым программным обеспечением. На территории кампуса действует Молодежный центр, основанный в 2018 году. Со дня своего основания Молодежный центр проводит постоянную работу, целью которой является развитие творческих способностей у студенческой молодежи, организация досуга, привлечение студентов к активной общественной и культурной жизни университета, создание условий для общения учащихся и сотрудников университета в сфере досуга. В структуру Молодежного центра входят: научная библиотека, где на первом этаже расположены – отдел абонемента и читальный зал, на втором этаже расположены – отдел электронных ресурсов, красный конференц зал, синий конференц зал, студенческий совет УНПК «МУК», ENACTUS.
Также на территории кампуса действует Спортивный комплекс, включающий в себя большой зал для занятий всеми видами спорта, тренажёрный зал для сотрудников и студентов университета.
Восточный кампус – это структурная часть УНПК «Международный университет Кыргызстана», является важным подразделением академического консорциума, где реализуется ряд образовательных программ международного направления, а также действует несколько научных подразделений и колледж «Таалим».
Программы:
Программы:
Восточный кампус УНПК «МУК» находится в восточной части города и имеет очень удобное расположение и развитую инфраструктуру.
Действующий с 2003 года медицинский факультет университета (Международная школа медицины) за время свой деятельности накопил значительный опыт в области развития медицинского образования и науки, основанный на традициях академической медицины советской школы и новых технологиях обучения и исследовательской деятельности.
В настоящее время Международная школа медицины занимает Восточный медицинский кампус академического консорциума «Международный университет Кыргызстана», являясь его структурным подразделением.
Приоритетом работы школы является создание профессиональной инновационной среды способствующей максимальному вовлечению сотрудников и студентов в процесс обучения и научной деятельности.
На базе Международной школы медицины реализуется программа подготовки врачебных кадров «Лечебное дело» (“General medicine”), ведется научная работа по широкому кругу направлений медицины. В собственных клиниках и аффилиированных госпиталях предоставляются медицинские услуги населению республики.
Факультет действует в соответствии с выданной Министерством образования и науки Кыргызской Республики лицензией, где обучаются студенты из более, чем двенадцати стран, помимо студентов из Кыргызстана.
Действующая программа обучения разработана в соответствии со стандартами медицинского образования принятыми в странах Европы и Британского Содружества.
Студенческий кампус МШМ УНПК «МУК»
Студенческий кампус Международной школы медицины УНПК «МУК» имеет самую современную инфраструктуру и условия, необходимые для проживания студентов. Общежитие МШМ располагает 204 просторными и комфортабельными комнатами, которые оборудованы ванными комнатами с холодной и горячей водой, двуярусными кроватями, учебными столами, стульями, шкафами, детекторами дыма, а также студенты обеспечены 24 часовым электропитанием, бесплатным Wi-Fi и центральной системой отопления. Общежитие располагает собственной столовой, где имеется 3-х разовое горячее питание.
Общежитие имеет пункт неотложной медицинской помощи с постоянным врачом, тренажерный зал, читальный зал, где студенты могут спокойно сосредоточиться на учебе, полностью оборудованный и современный конференц-зал для встреч и дискуссий и площадки для игр крикет, мини футбол, волейбол и теннис.
Морфологический корпус МШМ УНПК «МУК»
Основной целью создания Научно-исследовательского учебного морфологического корпуса Международной Школы Медицины является интеграция учебного и научного процесса, а также теоретико-методологическое и практико-организационное обеспечение процесса обучения и повышения качества образовательных услуг на дисциплинах морфологического профиля на основе компетентностного подхода.
В структуру Морфологического корпуса входит:
Кафедра фундаментальных дисциплин
Кафедра анатомии
Кафедра патологии
Кафедра химико-биологических дисциплин
Анатомический музей
Демонстрационный патанатомический зал
Симуляционно-тренировочный центр
Электронная библиотека с читальным залом
Научно-практические лаборатории
Университетская клиника УНПК «МУК»
Университетская клиника Международной школы медицины Некоммерческого образовательного учреждения Учебно-научно-производственного комплекса «Международный университет Кыргызстана» (МШМ «МУК») имеет в своем составе следующие подразделения:
Благодаря Университетской клинике МШМ «МУК» студенты имеют доступ к осмотру пациентов и возможность работать с ними, диагностике заболеваний и лечению больных, проведению медицинских манипуляций, послеоперационных перевязок и хирургической обработке ран, проведению новокаиновых блокад, внутривенных и внутримышечных инъекций, катетеризации мочевого пузыря и другим процедурам.
На базе подразделений Университетской клиники студенты принимают участие в обходах, консилиумах и в обсуждениях состояний больных на клинических конференциях, круглых столах с участием профессорско-преподавательского состава МШМ «МУК».
Помимо этого, университетскую клинику посещают высококвалифицированные специалисты-медики из стран СНГ, Индии и Пакистана, где они проводят демонстрационные операции (мастер-класс) в целях обмена опытом и проведения консультаций пациентов.
На базе подразделений клиники имеются такие отделения, как амбулаторно-консультативное, диагностическое и лечебно-реабилитационное, терапия, кардиология, детское отделение и дневной стационар, где студенты проходят производственную практику.
Кыргызская Республика, 720007,
г. Бишкек, ул. Л. Толстого, 17А/1
ОКПО 29763954
ИНН 02612201610272
Кыргыз Республикасы, 720007,
Бишкек шаары, Л.Толстой көчөсү, 17А/1
Тел.: +996 (312) 64-23-37, 64-11-63
Факс: +996 (312) 64-23-28
The Kyrgyz Republic, 720007,
Bishkek, 17A/1, St. Tolstoy
Морфология
Морфологический стандарт Национального корпуса русского языка
Представление в корпусе информации о морфологических формах и значениях (часть речи, род, падеж, вид…) является самостоятельной научной проблемой. Решения, принятые в корпусе, в основном опираются на морфологическую модель, представленную в «Грамматическом словаре русского языка» А. А. Зализняка (М., 1977; изд., М., 2003).
Однако специфика корпуса как универсального средства исследования языка диктует некоторые особые решения; именно этой спецификой продиктованы все отступления от модели Грамматического словаря, содержащиеся в нашем стандарте.
Структура морфологической информации
Морфологическая информация, приписываемая произвольному слову в тексте, состоит из «полей», или групп помет:
Лексема, которой принадлежит словоформа (указывается «словарная запись» данной лексемы и ее принадлежность к той или иной части речи).
Множество грамматических признаков данной лексемы, или словоклассифицирующие характеристики (например, род для существительного, переходность для глагола).
Множество грамматических признаков данной словоформы, или словоизменительные характеристики (например, падеж для существительного, число для глагола).
Информация о нестандартности грамматической формы, орфографических искажениях и т. п.
Морфологический разбор (или множество морфологических разборов), приписанный каждой словоформе в составе поисковой выдачи, высвечивается в отдельном окне при щелчке на словоформе курсором мыши.
В основу метаязыка грамматических помет, ввиду предполагаемой широкой международной аудитории пользователей Корпуса, положена система сокращенных помет («тегов») на основе латинского алфавита. В то же время предусмотрена возможность использования при поиске традиционных названий категорий на русском языке (в форме «грамматические признаки»).
Ниже приводим инвентарь всех используемых в корпусе грамматических помет. Для пояснения в скобках даются примеры.
Части речи
Значения грамматических категорий
Одушевленность:
Число:
Падеж:
Краткая/полная форма:
Степень сравнения:
Переходность:
Залог:
Форма (репрезентация) глагола:
Наклонение:
Время:
Прочие признаки:
Часть указанных помет (а именно, второй винительный падеж, дистрибутивный дательный падеж, звательная форма, счётная форма, форма по+сравнительная степень, общий род, зооним) присутствуют только в корпусе со снятой грамматической омонимией.
Множественные разборы
В отдельных случаях в морфологической разметке допускается указание у одной и той же словоформы нескольких разборов, а именно:
Для прилагательных, совпадающих с причастиями (открытый), в неоднозначных случаях в качестве исходной дается как (ОТКРЫТЫЙ), так и глагол (ОТКРЫТЬ).
Ставится множественная помета в случаях, когда однозначный выбор лексемы или грамматического значения в данном контексте невозможен (не видел родного отца gen/acc; манекену anim/inan; спазмами исходная форма СПАЗМ/СПАЗМА и т. п.)
Информация о нестандартности и особенностях записи
Кроме того, в корпусе с неснятой грамматической омонимией используется особая помета ( bastard ) для несловарной формы (не входящей в словарь автоматического анализатора, а порожденной по аналогии, например, форма вроде Махабхарата получает несколько гипотетических разборов, в том числе от псевдолексем махабхаронок, махабхарать и т. п.); по мере пополнения словаря анализатора число таких форм будет уменьшаться. С целью снижения «шума» при поиске по корпусу с неснятой грамматической омонимией иногда бывает целесообразно исключить поиск по подобным формам; для ряда задач, напротив, можно ограничить поиск именно ими.
Корпусный словарь неоднословных лексических единиц
Морфология
Морфологический стандарт Национального корпуса русского языка
Представление в корпусе информации о морфологических формах и значениях (часть речи, род, падеж, вид…) является самостоятельной научной проблемой. Решения, принятые в корпусе, в основном опираются на морфологическую модель, представленную в «Грамматическом словаре русского языка» А. А. Зализняка (М., 1977; изд., М., 2003).
Однако специфика корпуса как универсального средства исследования языка диктует некоторые особые решения; именно этой спецификой продиктованы все отступления от модели Грамматического словаря, содержащиеся в нашем стандарте.
Структура морфологической информации
Морфологическая информация, приписываемая произвольному слову в тексте, состоит из «полей», или групп помет:
Лексема, которой принадлежит словоформа (указывается «словарная запись» данной лексемы и ее принадлежность к той или иной части речи).
Множество грамматических признаков данной лексемы, или словоклассифицирующие характеристики (например, род для существительного, переходность для глагола).
Множество грамматических признаков данной словоформы, или словоизменительные характеристики (например, падеж для существительного, число для глагола).
Информация о нестандартности грамматической формы, орфографических искажениях и т. п.
Морфологический разбор (или множество морфологических разборов), приписанный каждой словоформе в составе поисковой выдачи, высвечивается в отдельном окне при щелчке на словоформе курсором мыши.
В основу метаязыка грамматических помет, ввиду предполагаемой широкой международной аудитории пользователей Корпуса, положена система сокращенных помет («тегов») на основе латинского алфавита. В то же время предусмотрена возможность использования при поиске традиционных названий категорий на русском языке (в форме «грамматические признаки»).
Ниже приводим инвентарь всех используемых в корпусе грамматических помет. Для пояснения в скобках даются примеры.
Части речи
Значения грамматических категорий
Одушевленность:
Число:
Падеж:
Краткая/полная форма:
Степень сравнения:
Переходность:
Залог:
Форма (репрезентация) глагола:
Наклонение:
Время:
Прочие признаки:
Часть указанных помет (а именно, второй винительный падеж, дистрибутивный дательный падеж, звательная форма, счётная форма, форма по+сравнительная степень, общий род, зооним) присутствуют только в корпусе со снятой грамматической омонимией.
Множественные разборы
В отдельных случаях в морфологической разметке допускается указание у одной и той же словоформы нескольких разборов, а именно:
Для прилагательных, совпадающих с причастиями (открытый), в неоднозначных случаях в качестве исходной дается как (ОТКРЫТЫЙ), так и глагол (ОТКРЫТЬ).
Ставится множественная помета в случаях, когда однозначный выбор лексемы или грамматического значения в данном контексте невозможен (не видел родного отца gen/acc; манекену anim/inan; спазмами исходная форма СПАЗМ/СПАЗМА и т. п.)
Информация о нестандартности и особенностях записи
Кроме того, в корпусе с неснятой грамматической омонимией используется особая помета ( bastard ) для несловарной формы (не входящей в словарь автоматического анализатора, а порожденной по аналогии, например, форма вроде Махабхарата получает несколько гипотетических разборов, в том числе от псевдолексем махабхаронок, махабхарать и т. п.); по мере пополнения словаря анализатора число таких форм будет уменьшаться. С целью снижения «шума» при поиске по корпусу с неснятой грамматической омонимией иногда бывает целесообразно исключить поиск по подобным формам; для ряда задач, напротив, можно ограничить поиск именно ими.
Корпусной словарь неоднословных лексических единиц
Морфологический разбор слова
Понятие о частях речи
Морфология — это раздел грамматики, в котором изучаются части речи. Всего в русском языке 10 частей речи: они делятся на самостоятельные, служебные и междометия.
Части речи — это группа слов, которая выделяется по следующим признакам:
по лексическим значениям,
по морфологическим признакам и грамматическим категориям,
по их синтаксическим функциям в составе предложений.
Самостоятельные части речи
Служебные части речи
Называют предметы, действия, признаки, состояние, количество, признак действия или указывают на них.
Выражают различные отношения между знаменательными словами и предложениями и придают различные оттенки словам и предложениям.
Выражают чувства или побуждения, но не называют их.
Причастия и деепричастия — это особые формы глагола. Их редко относят к категории самостоятельных частей речи.
А теперь узнаем, как выполняется морфологический разбор слова. Рассмотрим примеры разбора:
Рассмотрим примеры морфологического разбора, чтобы понять схему разбора слов предложения в русском языке.
Морфологический разбор существительного
Мы сформулировали, что значит морфологический разбор слова. А теперь разберемся, как это работает для каждой части речи.
План разбора имени существительного
Начальная форма (именительный падеж, единственное число).
Роль в предложении.
Образец для разбора существительного:
Дети не любят пить молоко.
Молоко — существительное, начальная форма — молоко.
Нарицательное, неодушевленное, среднего рода, 2-го склонения, в винительном падеже, единственном числе (множественного не имеет), прямое дополнение.
Морфологический разбор прилагательного
Морфологический разбор прилагательного
Начальная форма — инфинитив (именительный падеж, единственное число).
для качественных — степень сравнения, полная или краткая форма;
для всех — падеж, число, род (в ед.ч.).
Образец для разбора прилагательного:
Меня окружают высокие люди.
Высокие — имя прилагательное, начальная форма: высокий.
Качественное: полное; в положительной степени сравнения, в среднем роде, именительном падеже, множественном числе, является определением.
Морфологический разбор числительного
Порядок разбора числительного
Начальная форма (именительный падеж для количественного, именительный падеж, единственное число, мужской род — для порядкового).




