Система разметки текста ObjectATE

Выполнено при поддержке гранта РГНФ 09-04-12144в

Современные научные описания грамматического строя языков составляются на основе лингвистически размеченных корпусов. Пользователями этих корпусов становятся не только лингвисты, но и представители других гуманитарных дисциплин. Со своими сложностями сталкиваются и создатели лингвистически размеченных корпусов древних письменных памятников: их лексика и грамматика не изучены в полном объеме, а сами тексты не свободны от разного рода ошибок и темных мест. Разметка таких текстов должна быть в первую очередь ручной.

Системы обработки текста ATE и ObjectATE (Object-oriented ancient text editor) разрабатываются в Отделе лингвистического источниковедения Институте русского языка им. В. В. Виноградова РАН. С их помощью ведется ручная и полуавтоматическая разметка морфологии и синтаксиса в древнерусских текстах – переводных памятниках и летописях. Система ObjectATE призвана быть максимально гибкой и многофункциональной, позволяющей создателю корпуса самостоятельно строить любые единицы лингвистического анализа по собственным (а не только по общепринятым) моделям. В основе системы лежит объектно-ориентированный подход к организации данных.

Подробнее...

Материалы

Шрифты Flavius New, FlavExp New
Программа ObjectATE и демонстрационные базы данных (Windows XP/Vista, 32 bit, zip-архив) и краткое руководство пользователя

Описание работы с программой на примере демонстрационной базы появится на сайте позже.

Публикации и материалы конференций

Презентация доклада на конференции El'Manuscript 2008
Тезисы доклада на конференции "Современные информационные технологии и письменное наследие" (El'Manuscript 2008)

Статья в сборнике трудов конференции "Диалог 2009"
Презентация на конференции "Диалог 2009"
Плакат для стендовой сессии на конференции "Диалог 2009"

Результаты работы:

Два крупных проекта, подготовленные и размеченные с помощью систем ATE и ObjectATE и представленные в сети Интернет, – база древнерусских берестяных грамот и морфологический разбор Киевской и Галицко-Волынской летописей. Также имеются Интернет-версии подготовленных с помощью системы древнерусских переводов.

Проведена морфологическая разметка и подготовлены к изданию словоуказатели "Пчелы", "Жития Андрея Юродивого", "Изборника 1076 г.". Ведется синтаксическая разметка "Пчелы", "Жития Андрея Юродивого", "Киевской летописи".

Ссылки:

Институт русского языка им. В. В. Виноградова РАН
gate.io
Рукописные памятники Древней Руси (древнерусские берестяные грамоты, русские летописи, рукописная книга)
Диалог - международная конференция по компьютерной лингвистике
Портал "Манускрипт": славянское письменное наследие
Сообщество "Письменное наследие"
AOT - автоматическая обработка текста
Emdros - the database engine for analyzed or annotated text
GATE - General Architecture for Text Engineering

А. А. Пичхадзе, А. В. Сахарова, А. И. Зобнин.
Обратная связь: r u s y a z [ a t ] y a n d e x [ d o t ] r u .

15.12.2009.