Коллективный интеллект, «Митлабс» и будущее русского языка

Эта статья стоит того, чтобы потратить время на чтение

Мы «Митлабс» — компания, которая разрабатывает и внедряет NLP (naturallanguageprocessing) бизнес-решения.

Языковое неравенство в цифровом мире как оно есть

Так вышло, что большая часть нашей работы направлена на удовлетворение потребностей англоязычного населения планеты. Это проще — есть готовые инструменты и «теплое» community, есть гарантия спроса и платежеспособности клиента.

При этом нас удивляет бедность инструментов для русского языка — родного языка для тысяч программистов, создающих решения для всего мира.

Все это является одним из проявлений «языкового неравенства» — зачастую будущее языка зависит не от количества его носителей и культурной значимости, а от каких-то более приземленных вещей.

В новом цифровом мире глобальная картина языкового неравенства приобретает более актуальные очертания. Современная способность машин понимать, обрабатывать и генерировать речь основывается на машинном обучении, на нейронных сетях, на глубоких нейронных сетях, на таланте программистов и дата-инженеров и на том, насколько много хороших, проверенных подготовленных данных для каждого языка. Английский язык лидирует в большинстве программных языковых решений. Число разработанных приложений для английского языка велико не только потому, что у него много носителей, но и потому, что для английского языка, усилиями компаний, университетов и государства, с 90-х годов XX века создаются машиночитаемые корпуса английского языка.

Датасет — это набор данных, в данном случае данных, пригодных для машинного обучения.

Свои наборы датасетов для создания диалоговых систем «машина-человек» создали как гиганты: Google (GoogleSimulatedDialogue (GSim) dataset), Microsoft (MetaLWOzdataset, FramesDataset), Facebook (ThebAbIproject), так и небольшие университетские команды (DailyDialog: A ManuallyLabelledMulti-turnDialogueDataset).

Наборы данных, содержащие диалоги между людьми, создаются для обучения машин поддерживать естественных диалог с человеком: примеры реализации таких задач мы видим как в решениях гигантов (Сири, Алиса), так и в решениях небольших компаний (например, проект компании «Митлабс» построен вокруг извлечения данных из переписки между клиентом и заказчиком, но работает он только для английского языка).

Чем больше наборов для конкретного языка – тем лучше работают программы-переводчики, чат боты и т. д.

Таким образом, формируется второй контур языкового неравенства: достаточно популярный язык может не войти в новую цифровую эпоху просто потому, что его носители не позаботились создать для него достаточное количество данных для обучения своих машин.

Долой англоязычный гнет — экономическая игра для борьбы с несправедливостью!

Мы стараемся сделать свой маленький шаг для исправления этой несправедливости в отношении русского языка и создаем небольшой машиночитаемый датасет для диалогов на русском языке.

В текущей ситуации, очевидно, что «спасение утопающих — дело рук самих утопающих» и нам необходимо на горизонтальном уровне строить систему по сбору, анализу, разметке такой информации.

Коллективный интеллект — то есть краудсорсинг и краудфандинг выглядит лучшим решением для задачи сбора разнородной диалоговой переписки, разметки ее и обнародованию.

Для решения нашей задачи мы придумали экономическую игру, в которой игроки должны зарабатывать очки, заключая сделки с другими игроками, используя созданные нами чат-комнаты.

Мы надеемся, что эта инициатива получит поддержку, и в нашу игру будут играть многие, пополняя базу данных для будущих лингвистов, разработчиков и всех интересующихся обработкой естественного языка.

Целью игры было создание русского датасета в «домене» продажи: сбор диалогов на русском языке относительно покупки и продажи разнообразных вещей, обсуждение цены и условий. На основе действий игроков формируется звуковой и текстовый датасет, состоящий из текстовой диалоговой переписки команд и сопровождающих переписку звуковых переговоров команд.

Сбор, разметка и методики создания текстовых корпусов с разметкой «диалоговых» речевых актов описаны в ISO 24617-2, этим же стандартом введен язык разметки диалоговых актов DiAML (DialogActMarkupLanguage) и таксономия DITT++. Готовый датасет должен состоять из размеченных текстовых данных в формате «.csv» и связанных с данными звуковых файлов с записью речи игроков.

При помощи Школы эффективных коммуникаций «Репное» нам удалось провести целое мероприятие, посвященное проблемам современной лингвистики: в стенах Школы эксперт Александр Чадович Пиперски прочел ученикам курса 2019-2020 года лекцию: «Заменит ли компьютер лингвистов и переводчиков?»

И, конечно, нам было приятно видеть подтверждение наших идей на этом слайде лектора:

 

Итак, создаем ресурсы: ключевой задачей оказалось поддержание интересов игроков, для этого мы выбрали смешные товары и не менее нелепые дополнительные условия. Роли игроков предполагали частичное несовпадение интересов, например, «Любознательный» покупатель обязан был выспрашивать подробности товара и дополнительные условия, а «Занятой» продавец мог потратить только ограниченное количество сообщений.

Объект продажи: Цена Дополнительные услуги Скидки Дополнительное задание
Портрет Николая Первого с собакой 150000 Билет в масонскую ложу Трейд-ин. Скидка предоставляется если вы сдаете свой старый портрет Николая Первого с собакой. Получите прямой ответ на вопрос о том, готов ли клиент к восстановлению монархии, получите прямой ответ, готов ли клиент стать крепостным.

 

Игроки, настолько вжились в роль, что переписка быстро отошла от установленных правил русского языка и стала похожей на разговорную речь в мессенджерах, чатах и т. д., то, что Анна Зализняк называет «спонтанной письменной речью».

В настоящий момент мы обрабатываем результаты. После завершения разметки и обработки, тексты, игра, ее правила и правила для организаторов будут выложены на наш репозиторий с открытой лицензией (MIT), которая позволит использовать результаты любому заинтересованному лицу.