Кринж, рофл и топчан: как мы узнаём новые слова и путаемся в старых

Канапе

15.11.2020

Помните, раньше были календари «Слово дня»? Переворачиваешь страницу и узнаёшь новое слово. А вы задумывались, откуда мы узнаём слова в современном мире? В своём блоге об этом рассказывают школьники, которые в Образовательном центре «Сириус» на октябрьской лингвистиической программе за 10 дней собрали базу в 6 миллионов слов, проанализировали около 1000 источников и запустили телеграм-бота.

Откуда мы узнаём слова?

Дервиш, топчан, скирда, выпестовать — знаете эти слова? А мем, бейдж и мерчендайзер? Мы оказались в такой же ситуации — первые четыре слова нам были не знакомы, хотя Национальный корпус русского языка (НКРЯ), основной цифровой источник русскоязычных текстов с лексико-грамматической разметкой, показал, что слова из первой группы встречаются в сотни раз чаще, чем из второй. Возникает вопрос: неужели самая крупная платформа о русском языке не отражает современную популярность слов?

Результаты поиска в НКРЯ по словам 'дервиш' и 'бейдж'.

Ответ прост: да. Именно поэтому в «Сириусе» мы выбрали проект «Откуда мы узнаём слова?». История у проекта в Центре сложившаяся: уже третий год школьники лингвистических смен «Сириуса» исследуют то, как подростки понимают русский язык (предыдущие темы — «Что такое сложные слова» в 2018 году, «Сложность родственных слов в русском языке» в 2019). В этом году мы проводили опросы, создавали на их основе корпус и анализировали более шести тысяч слов из почти тысячи источников. Но обо всем по порядку.

НКРЯ — еще одно непонятное слово, или кому и зачем нужны корпусы?

Корпус — это отобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка. Для нашего проекта мы сначала рассматривали различные корпусы и хотели понять, насколько они отражают частотность употребляемых подростками слов.

В НКРЯ содержатся художественные, публицистические и официальные тексты, бóльшая часть которых написана до середины XX века. А тексты из интернета (которые являются крупным, если не основным, источником информации подростков) не дают перевеса по частотности.

Детский корпус, который, кажется, должен лучше отражать речь современных подростков, состоит в основном из детской литературы советского периода. Для примера, слова вождь и комсомолец встречаются в нём чаще, чем воспитатель, и немного реже, чем школьник.

Google Books мог бы быть неплохим ресурсом, но он собран из автоматически распознанных текстов Библиотеки Конгресса, и из-за этого нередко находит слова, которых нет в изначальных текстах.

Что выдаёт Google Books по запросу 'сторис'.

Что выдаёт Google Books по запросу 'кринж' — «Боже отринул нас».

Из-за отсутствия корпуса, по которому можно было бы судить о реальной частотности слов в речи подростков, возникают проблемы при составлении текстов, ориентированных на подростковую аудиторию: книг, учебников, статей в интернете. Согласно существующим корпусам, слово может оказаться частотным (а это значит, что оно понятно, пояснения к нему не требуются), а на самом деле оно может быть неизвестно школьникам.

Мы спросили у своих учителей, какие слова не понимали их ученики. Оказалось, что многие школьники не знают слова нега, которое в НКРЯ встречается целых 1286 раз. Сравните с репостом, рофлом и вайбом — их в Национальном корпусе нет вовсе. Поэтому мы решили определить источники пополнения лексикона подростков, составить из полученных источников корпус текстов и проверить гипотезу, что этот корпус будет лучше отражать известные подросткам слова.

Летящий Чижик

Итак, мы решили узнать, откуда к нам «прилетают» новые слова. Для этого провели опрос в нашей команде, состоявшей из 15 школьников и трёх взрослых — наших руководителей. Источниками пополнения словарного запаса мы назвали, например, разговоры с семьёй и друзьями, книги, Википедию, паблики во ВКонтакте, фильмы, образовательные сайты и видео, задания на олимпиадах и в учебниках, игру в «Шляпу» и даже меню. Из сорока названных нами ресурсов мы отобрали 15 наиболее популярных и, что важно, удобных для сбора текстов.

Почему всех бесят феминитивы и что всё-таки значит слово «флексить»

Две дюжины слов

На этом наши опросы не прекратились. Нам очень хотелось узнать, из каких источников приходит больше всего слов. Мы провели опрос в нашей проектной группе и выяснили, какие новые слова мы недавно узнали и откуда. Список получился внушительный: 317 слов. Мы старались подобрать как можно больше, поэтому просили помощи у своих друзей и родственников, которые с энтузиазмом вспоминали новые для них слова и их источники.

Мы создали в таблице базу данных из слов, рассортировали их по источникам (получилось 12 столбцов) и проверили частотность каждого слова во ВКонтакте и в НКРЯ, затем взяли из каждого столбика по одному слову с примерно одинаковой частотностью во ВКонтакте и составили из них опрос «Недюжинная дюжина», в котором спрашивали возраст респондента и то, насколько хорошо он знает данное слово (по шкале «хорошо знаю — примерно представляю — не знаю»).

К сожалению, опрос оказался непоказательным: мы не смогли понять, какие источники чаще всего дают новые слова, поэтому изменили подход и создали «Чёртову дюжину». Она состояла из 13 слов, взятых из нашего списка, которые были либо частотными во ВКонтакте и нечастотными в НКРЯ, либо наоборот: частотными в НКРЯ и нечастотными во ВКонтакте. Мы выдвинули гипотезу, что слова из первой группы — более известные подросткам, и эта гипотеза подтвердилась.

На графике зелёным цветом обозначена частотность слова в НКРЯ, розовым — в Детском корпусе, красным — знание этого слова подростками (13-19 лет), синим — знание взрослыми от 39 лет. Как видно, частотность слова в каком-то из корпусов вообще не влияет на то, насколько хорошо это слово известно тинейджерам.

Сим-сим, откройся!

Нам очень хотелось собрать и добавить в корпус тексты переписок во ВКонтакте, так как сейчас люди, особенно подростки, активно пользуются соцсетями. Конечно, мы не могли просить случайных респондентов и даже друзей присылать нам переписки, поэтому мы собирали только свои собственные реплики, не содержащие личной информации.

При этом мы обнаружили, что некоторые слова, например, профиль, бюджет и этап часто встречаются в сообщениях. Мы предположили, что эти слова просто изменили своё значение: профиль — это ЕГЭ по математике профильного уровня, бюджет — обучение на бюджетной основе, а этап — очередной тур олимпиады (возможно, на этот вывод повлияла сбитая выборка).

Python, телеграм-бот, сайт с Корпусом нового поколения, и мы все еще на лингвистике

После сбора данных настал самый долгий, но необходимый этап — анализ результатов опроса и скачивание текстов. Опрос «Летящие входящие» мы обработали очень быстро при помощи программы в Python. Тексты постов из пабликов во ВКонтакте и комментарии к ним тоже удалось собрать автоматически. И всё-таки книги, субтитры к фильмам и сериалам и тексты песен нам пришлось скачивать вручную. Было долго и нудно, но мы справились!

Есть все мы, а есть Андрей Зализняк: история жизни великого русского лингвиста

Внезапно! Нас забанили

Если вам до сих пор казалось, что все шло так гладко, то сейчас мы разрушим эту иллюзию. О том, что обработка информации — это долгое и скучное дело, мы уже говорили выше: 10 часов совместной работы из двадцати часов, отведенных на проект. Но у нас было еще несколько проблем.

Первая — нас забанили на сайте субтитров. Несколько человек одновременно занималось скачиванием субтитров к фильмам и сериалам, и в какой-то момент всех сразу заблокировали за то, что скачивали слишком много. Выход — пришлось пользоваться другими сайтами, менее удобными.

Вторая проблема — сбитая выборка. Так как мы распространяли опрос в своих соцсетях, значительную часть респондентов составили люди, активно участвующие в олимпиадах, готовящиеся к экзаменам (ОГЭ и ЕГЭ) и интересующиеся наукой. По этой причине в нашей подборке наиболее популярными оказались паблики про олимпиады и экзамены, а самым популярным стал «Цитириус» — паблик с двумя сотнями подписчиков (участников лингвистической смены «Сириуса»), где публикуются цитаты ребят и преподавателей.

Также мы заметили, что из 254 ответивших на вопрос об образовательных сайтах 15 человек ссылались на сайт Саратовского техникума железнодорожного транспорта. Популярнее (22 упоминания) был только Arzamas. Оказалось, что мама девочки из нашей группы, работающая в СТЖТ, отправила опрос своим студентам, поэтому они записали сайт техникума в качестве образовательного (что, конечно, немного сомнительно, потому что мы ожидали от респондентов сайты вроде Арзамаса и Постнауки).

Что для нас лингвистика? — Наша жизнь

Что же значит этот лингвистический проект для нас? Могло сложиться впечатление, что весь проект — это сплошные опросы и таблицы. Но для нас это важное дело: вклад, пусть пока и маленький, но в большую науку, частью которой нам так хочется стать. Это незабываемый опыт и яркие впечатления. Мы работали с преподавателями-лингвистами над реальными задачами, и руководители не просто говорили, что нужно делать, а делились с нами своим опытом и объясняли, для чего нужен каждый этап работы. Практика всегда увлекательнее, хоть и сложнее, чем необходимая и даже интересная теория. Ведь решали мы задачи грантов по автоматическому определению сложности слов для детей разного возраста и созданию подкорпуса детской литературы НКРЯ.

«Другие дети не менее любопытны, чем я». Как 15-летний школьник выяснил происхождение слова «голимый»

Шесть шестых, или наша команда и каково в ней работать

Мы работали достаточно большой командой, но уже с первого дня разделились на несколько групп. Каждая группа занималась чётко поставленной задачей, благодаря чему нам удалось справиться с проектом всего за 10 дней. Ребята в команде были очень разные, и каждый мог свободно выбрать наиболее интересную и комфортную задачу. Работа в группах шла параллельно. Пока одни занимались составлением опросов, другие писали программы для их обработки. Пока одни обрабатывали «Чижика», другие составляли опрос по новым словам. Пока одни анализировали полученные данные и делали красивые графики, другие готовили выступление и подводили итоги проекта.

На первой встрече проектной группы мы не знали друг друга, но быстро познакомились и сразу сработались. И ребята, и руководители оказались доброжелательными, понимающими и заинтересованными в результате проекта людьми, так что работать в команде единомышленников было очень легко и приятно.

А еще мы замечательно провели время вместе: много шутили и даже придумывали мемы. Предлагаем вам на них посмотреть.

Почему-то респонденты «Чижика» считали сайты вузов и сайты с готовыми домашними заданиями (а также сайты интернет-магазинов) образовательными.

Когда мы искали слова во ВКонтакте, чтобы проверить их частотность, мы видели их не в тех значениях и контекстах, в каких ожидалось.

При поиске субтитров к фильму «Лёд» находились разные другие фильмы, но никак не нужный нам.

Респонденты «Чижика» иногда присылали странные ответы. Например, на нашу просьбу назвать последние прослушанные русскоязычные песни, кто-то ответил очень лаконично: «Вивальди».

В русском языке есть прекрасное слово 'вёдро' (тёплая ясная солнечная сухая погода). Однако ВКонтакте приравнивает 'ё' к 'е', поэтому при поиске слова 'вёдро' во ВКонтакте мы нашли только посты про сосуд цилиндрической формы с ручкой в виде дужки.

Нам кажется, что успех этого проекта не только в том, что мы выполнили в срок все задачи и успешно выступили с результатами на итоговой конференции в «Сириусе», но и в том, что работа продолжилась после окончания смены: мы писали этот лонгрид, создавали сайт, обсуждали сложности языка и не прекращали общаться в чате.

В конце хочется сказать большое спасибо всей нашей команде, каждому её участнику, потому что каждый внёс свой вклад в проект. Отдельное спасибо нашим руководителям, Борису Иомдину, Софье Манухиной и Дмитрию Морозову, за возможность поучаствовать в настоящем лингвистическом исследовании, чудесно проведённое время и новый опыт.

Проектная группа: Алина Зулкарнаева, Алла Большакова, Анна Казакова, Вера Краснобаева, Екатерина Лексина, Екатерина Ткаченко, Елена Миронова, Елизавета Бесараб, Елизавета Олейникова, Елизавета Щукина, Константин Гогричиани, Лев Янушевич, Николай Тугарев, Олеся Репина, Рита Назарова.

Над текстом работали: Елизавета Бесараб, Елизавета Олейникова, Елизавета Щукина, Борис Иомдин, Софья Манухина, Алина Зулкарнаева, Екатерина Ткаченко.

Также благодарим всех тех, кто участвовал в опросах и распространял их, кто отвечал на наши (порой странные) вопросы и кто вместе с нами думал над логотипами.

Вы находитесь в разделе «Блоги». Мнение автора может не совпадать с позицией редакции.