Мы поговорили с участницами проекта - студентками ШИЯ Анастасией Зыбковец и Ириной Хрыстыч о том, что такое параллельный корпус, каково работать в проекте и что полезного в нем найдут другие студенты.
Девочки, расскажите, как вы узнали о проекте, кто его организатор? Сколько в нем участников, из каких вузов?
Ася: Изначально корпус возник как проект Института русского языка им. Виноградова (ИРЯ РАН), РГГУ и Хэйлунцзянского университета. Затем проектом перестали активно заниматься, но в последнее время работу над корпусом доверили нам (студентам) и главным координатором назначили Кирилла Семенова.
Кирилл - выпускник Вышки, он обучался на программе "Компьютерная лингвистика".
Я Кирилла знала и раньше, так как мы учились в лицее, поэтому я была очень рада, когда он пришел к нам на пару по китайскому языку и рассказал о корпусе. Проектом заинтересовались и мои одногруппницы, поэтому в нашей команде есть и несколько студенток ШИЯ. В целом нас сейчас примерно 30-40 человек – это китаисты, лингвисты и программисты. Среди членов команды есть и студенты Вышки с других направлений, студенты МГУ, сотрудники Института Конфуция РГГУ, Института русского языка им. Виноградова (ИРЯ РАН) и даже китайских университетов!
Ира, можешь рассказать о самом проекте? Что такое параллельные корпуса и для чего они нужны?
Ира: Наш проект — это развитие одной из ветвей НКРЯ (национального корпуса русского языка), а именно русско-китайского параллельного корпуса. Эта идея появилась, так как изучающих китайский язык становится все больше, но нет никакой надежной базы для лингвистов-китаеведов. Более того, наша команда провела долгое время в поисках какого-либо аналога, который обладал всеми теми качествами, которыми наш корпус обладает сейчас, а именно:
1. Русско-китайская пара языков.
2. Доступность онлайн.
3. Удобная система поиска и лингвистическая разметка.
Также есть проект в Пекине, который сейчас находится в разработке, однако у него нет тех характеристик, которые есть у нас.
Для лингвистов, языковедов, переводчиков, конечно же, да и просто для изучающих китайскую культуру людей этот корпус — палочка-выручалочка. В нем собраны тексты разных авторов на двух языках, которые с помощью выравнивания становятся понятными, доступными и легко читабельными объемами информации. Кстати говоря, корпус регулярно пополняется, и в нем уже 2,3 миллиона слов, а это около 30 текстов авторов обеих культур - и русской, и китайской.
Как и от кого вы получили грант? Что для этого нужно было сделать? Ася:Мы получили финансирование
Центра академического развития студентов (ЦАРС) ВШЭ и от
ФГН .
Для этого наша группа представила план нашего исследования и ожидаемые результаты. Затем мы подвели итоги работы и стали победителями в обоих конкурсах, таким образом получив финансирование для своего научного проекта.
Для кого важен ваш проект? Что в нем полезного для студентов?Ира:Этот проект может быть полезен и важен для любого человека, заинтересованного в изучении китайского языка и китайской культуры. Во-первых, тексты корпуса снабжены не только параллельным переводом, но и грамматическими значениями. Поэтому он станет неотъемлемой частью учебного процесса для изучающих и преподающих китайский язык. Во-вторых, для переводчиков это очень важный элемент, так как русская и китайская культура и язык очень разные, и бывают случаи не прямой переводимости каких-либо слов или выражений или, например, проблема сочетаемости слов. Как раз тут-то и приходит на помощь параллельный корпус. В-третьих, для китаистов и переводоведов — это тоже важный наглядный ресурс для сравнительного анализа лингвистических аспектов языков и выделения их особенностей.
Говоря о студентах, они по большей части относятся к группе изучающих китайский язык. Конечно, многие слова и выражения оказываются незнакомыми, а машинный перевод с помощью того же Google-переводчика еще пока несовершеннен :) Поэтому для студентов-китаистов очень полезно иметь под рукой ресурс с "живыми" текстами, на которые спокойно можно опираться.
Почему вы решили принять участие в проекте? Какая у вас роль?Ася: Я решила принять участие по нескольким причинам. Во-первых, я сама учу китайский язык, поэтому мне было очень интересно познакомиться еще ближе с этим языком и проанализировать его с разных сторон. Во-вторых, работа с корпусом дает возможность проводить множество научных исследований, которые ранее еще никто не делал, это меня также подкупило. Поэтому, кстати говоря, я и решила посвятить свой диплом теме, связанной с корпусом, то есть я буду рассказывать о том, как он устроен, как может помочь при переводе и чем он отличается от онлайн-версии словаря БКРС. Ну и в-третьих, мне всегда нравилось коммуницировать с людьми, организовывать мероприятия и участвовать в них. Так как Кирилл предложил мне заняться СММ, то мне эта должность как раз идеально подошла. У меня было много обязанностей, но в основном я узнавала у координаторов пабликов о возможности рекламы нашего проекта, договаривалась с организаторами об участии в конференциях, делала посты и репосты в нашем паблике в ВК
https://vk.com/ruzh_corp и в Facebook
https://www.facebook.com/ruzhcorp. Также я договаривалась с дизайнером, который придумал нам тот логотип, который вы видите сейчас! Потому задач достаточно, все и не перечислить, но я мне действительно очень нравится то, чем я занимаюсь.
Ира: Я работала напрямую с инструкцией для корпуса. Надо отметить, что она уже присутствовала в корпусе, но была написана сложным профессиональным языком, понятным только специалистам. Однако мы со моей командой успешно переписали ее и сделали из неё доступную, понятную всем пользователям инструкцию.
Что самое интересное в ходе работы? С какими трудностями вам приходится столкнуться?Ира:Это очень субъективный вопрос, я считаю, но мне кажется, что это расширение своего кругозора. Этот проект лично меня познакомил с интересными людьми, общение с которыми раскрыло во мне то, о чем я даже не подозревала. Более того, мы сотрудничаем не только в российскими образовательными учреждениями, но и с китайскими, а общение с носителями языка, который ты изучаешь – это бесценный опыт, который должен иметь место быть. Более того, осознание того, что ты являешься частью создания чего-то нового, захватывает дух!
Конечно, трудности были, как же без них. Во-первых, сложности были с составлением инструкции к корпусу, в чем я была задействована прямым образом. Было сложно понять, ЧТО и КАК написать, чтобы пользователь любого уровня владения корпусами мог спокойно сориентироваться. Также были финансовые проблемы; мы не сразу получили финансирование от Вышки. Были небольшие проблемы с нехваткой человеческих ресурсов, особенно отмечу, что раньше не хватало «прогеров». Но основная трудность, с который мы встречаемся и по сей день, это то, что у нас у всех очень разные задачи, и для того, чтобы объяснить человеку, что происходит в той или иной рабочей группе, приходится потратить очень много сил и времени. И из-за этого случались застои: когда одна группа просто не знает, что делать, а вторая не может ей помочь, потому что не понимает, что к чему.
С кем вы сотрудничали, во время создания параллельного корпуса и с кем работаете сейчас? Привлекаете ли каких-то внешних специалистов?Ася:Во время создания корпуса мы сотрудничали с МГУ и Институтом Конфуция РГГУ. На данный момент нам с проектом помогают такие ученые как:
Плунгян В.А. (МГУ, ИРЯ РАН)
Рахилина Е.В. (ВШЭ)
Холкина Л.С. (ИК РГГУ)
Ульянова К.А. (ИК РГГУ)
Малых В.А. (МФТИ/Huawei)
Также с нами работают студенты и сотрудники других вузов:
Чжэцзянский университет
Хэйлунцзянский университет
Санкт-Петербургский государственный университет (СПбГУ).
Разумеется, мы привлекаем и внешних специалистов, так как у нас много задач, и нам очень нужны профессиональные программисты и лингвисты. Поэтому мы всегда рады новым участникам нашей команды! Кстати говоря, более подробную информацию о наших вакансиях можно найти здесь:
https://ruzhcorp.github.io/pages/vacancy/ (ред.)
Какие теперь цели у вашей команды?Ира:Сейчас мы продолжаем активно развивать и наполнять наш корпус. 2,3 миллиона слов – это, конечно же, не наш предел. Мы хотим расширить не только объем, но и набор жанров и варианты китайского языка. Поэтому мы в поисках полезной литературы публицистического стиля, текстов на гоюй (стандартный язык Тайваня) и на вэньянь. Затем очень важной целью является адаптировать интерфейс для широкого круга пользователей. Мы хотим, чтобы любой пользователь нашего подкорпуса чувствовал себя комфортно, работая с материалами. Также одним из векторов развития является популяризация корпуса. SMM-специалисты из нашей команды активно знакомят аудиторию с идеей корпуса, нарабатывают связи и предлагают сотрудничество с другими китаеведческими ресурсами (например, паблики в социальной сети «ВКонтакте»). Мы таргетируемся выйти также в Инстаграмм и в Тикток со временем. Ну, и last but not least, как говорится, хотим приумножить количество научных публикаций. Это очень важный шаг, так как он не только финансово нас обеспечит, но и предоставит возможность (которую мы, конечно же, не упустим) стать более известными в научной среде, потому что одно дело, когда нашим корпусом пользуются студенты и любители китайской культуры, а когда о нас знают профессора, кандидаты и другие специалисты – это кардинально меняет ситуацию.
Мы желаем проекту дальнейших успехов и развития и благодарим вас за интервью!
Автор статьи: Оксана Чеченко