Кринж, рофл и топчан: как мы узнаём новые слова и путаемся в старых

7 555

Кринж, рофл и топчан: как мы узнаём новые слова и путаемся в старых

7 555

Помните, раньше были календари «Слово дня»? Переворачиваешь страницу и узнаёшь новое слово. А вы задумывались, откуда мы узнаём слова в современном мире? В своём блоге об этом рассказывают школьники, которые в Образовательном центре «Сириус» на октябрьской лингвистиической программе за 10 дней собрали базу в 6 миллионов слов, проанализировали около 1000 источников и запустили телеграм-бота.

Откуда мы узнаём слова?

Дервиш, топчан, скирда, выпестовать — знаете эти слова? А мем, бейдж и мерчендайзер? Мы оказались в такой же ситуации — первые четыре слова нам были не знакомы, хотя Национальный корпус русского языка (НКРЯ), основной цифровой источник русскоязычных текстов с лексико-грамматической разметкой, показал, что слова из первой группы встречаются в сотни раз чаще, чем из второй. Возникает вопрос: неужели самая крупная платформа о русском языке не отражает современную популярность слов?

Результаты поиска в НКРЯ по словам 'дервиш' и 'бейдж'.

Ответ прост: да. Именно поэтому в «Сириусе» мы выбрали проект «Откуда мы узнаём слова?». История у проекта в Центре сложившаяся: уже третий год школьники лингвистических смен «Сириуса» исследуют то, как подростки понимают русский язык (предыдущие темы — «Что такое сложные слова» в 2018 году, «Сложность родственных слов в русском языке» в 2019). В этом году мы проводили опросы, создавали на их основе корпус и анализировали более шести тысяч слов из почти тысячи источников. Но обо всем по порядку.

НКРЯ — еще одно непонятное слово, или кому и зачем нужны корпусы?

Корпус — это отобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка. Для нашего проекта мы сначала рассматривали различные корпусы и хотели понять, насколько они отражают частотность употребляемых подростками слов.

В НКРЯ содержатся художественные, публицистические и официальные тексты, бóльшая часть которых написана до середины XX века. А тексты из интернета (которые являются крупным, если не основным, источником информации подростков) не дают перевеса по частотности.

Детский корпус, который, кажется, должен лучше отражать речь современных подростков, состоит в основном из детской литературы советского периода. Для примера, слова вождь и комсомолец встречаются в нём чаще, чем воспитатель, и немного реже, чем школьник.

Google Books мог бы быть неплохим ресурсом, но он собран из автоматически распознанных текстов Библиотеки Конгресса, и из-за этого нередко находит слова, которых нет в изначальных текстах.

Что выдаёт Google Books по запросу 'сторис'.
Что выдаёт Google Books по запросу 'кринж' — «Боже отринул нас».

Из-за отсутствия корпуса, по которому можно было бы судить о реальной частотности слов в речи подростков, возникают проблемы при составлении текстов, ориентированных на подростковую аудиторию: книг, учебников, статей в интернете. Согласно существующим корпусам, слово может оказаться частотным (а это значит, что оно понятно, пояснения к нему не требуются), а на самом деле оно может быть неизвестно школьникам.

Мы спросили у своих учителей, какие слова не понимали их ученики. Оказалось, что многие школьники не знают слова нега, которое в НКРЯ встречается целых 1286 раз. Сравните с репостом, рофлом и вайбом — их в Национальном корпусе нет вовсе. Поэтому мы решили определить источники пополнения лексикона подростков, составить из полученных источников корпус текстов и проверить гипотезу, что этот корпус будет лучше отражать известные подросткам слова.

Летящий Чижик

Итак, мы решили узнать, откуда к нам «прилетают» новые слова. Для этого провели опрос в нашей команде, состоявшей из 15 школьников и трёх взрослых — наших руководителей. Источниками пополнения словарного запаса мы назвали, например, разговоры с семьёй и друзьями, книги, Википедию, паблики во ВКонтакте, фильмы, образовательные сайты и видео, задания на олимпиадах и в учебниках, игру в «Шляпу» и даже меню. Из сорока названных нами ресурсов мы отобрали 15 наиболее популярных и, что важно, удобных для сбора текстов.

Так, например, очень сложно за 10 дней найти ситуации разговоров с друзьями, при которых подросток узнаёт новое слово, и записать их. К тому же для дальнейшего анализа нам нужны были именно письменные тексты, а ресурсов оперативного перевода устной речи в письменную не было. По той же причине мы не смогли включить в список источников подкасты.

Затем мы составили две Google-формы: «Летящие входящие» и «Чижик-Пыжик, где ты был?». Долго придумывали цепляющие названия, чтобы заинтересовать респондентов и подтолкнуть их отвечать на наши вопросы. В первой форме спрашивали, насколько часто люди пользуются теми пятнадцатью источниками информации, которые мы ранее определили как самые частотные. Нам хотелось узнать, откуда чаще всего «прилетают» «входящие» слова к подросткам в голову. Шкала была такая: «часто — редко — иногда — никогда». С помощью «Летящих входящих» мы выявили наиболее популярные источники информации среди подростков, о которых потом спрашивали в «Чижике». Опрос «Летящие входящие» прошли 1062 респондента: 4 человека младше 13 лет, 518 — 13-19 лет и 481 — старше 19 лет. Благодаря этому опросу мы также убедились, что Facebook непопулярен среди тинейджеров, поэтому далее его не рассматривали.

«Чижик-Пыжик» — опросник с открытыми ответами, где мы просили написать последние прочитанные книги, просмотренные YouTube-каналы, сообщества в соцсетях, фильмы и сериалы, посещённые образовательные сайты и прослушанные песни. Словом, Чижик-Пыжик, где ты был, что читал и что смотрел? В «Чижике» мы получили 400 ответов-названий ресурсов, из которых 160 фильмов, 100 сериалов, 120 песен, 275 книг, 200 YouTube-каналов, 260 пабликов во ВКонтакте и 80 образовательных сайтов. Эти данные мы взяли за основу для Корпуса нового поколения. Сейчас в Корпусе пока нет текстов с образовательных сайтов и YouTube-каналов, так как собрать тексты из этих источников — трудоемкая работа, которая требует и бóльшего количества времени, и бóльших знаний программирования для автоматического преобразования различных форматов высказываний в текст.

Две дюжины слов

На этом наши опросы не прекратились. Нам очень хотелось узнать, из каких источников приходит больше всего слов. Мы провели опрос в нашей проектной группе и выяснили, какие новые слова мы недавно узнали и откуда. Список получился внушительный: 317 слов. Мы старались подобрать как можно больше, поэтому просили помощи у своих друзей и родственников, которые с энтузиазмом вспоминали новые для них слова и их источники.

Мы создали в таблице базу данных из слов, рассортировали их по источникам (получилось 12 столбцов) и проверили частотность каждого слова во ВКонтакте и в НКРЯ, затем взяли из каждого столбика по одному слову с примерно одинаковой частотностью во ВКонтакте и составили из них опрос «Недюжинная дюжина», в котором спрашивали возраст респондента и то, насколько хорошо он знает данное слово (по шкале «хорошо знаю — примерно представляю — не знаю»).

К сожалению, опрос оказался непоказательным: мы не смогли понять, какие источники чаще всего дают новые слова, поэтому изменили подход и создали «Чёртову дюжину». Она состояла из 13 слов, взятых из нашего списка, которые были либо частотными во ВКонтакте и нечастотными в НКРЯ, либо наоборот: частотными в НКРЯ и нечастотными во ВКонтакте. Мы выдвинули гипотезу, что слова из первой группы — более известные подросткам, и эта гипотеза подтвердилась.

На графике зелёным цветом обозначена частотность слова в НКРЯ, розовым — в Детском корпусе, красным — знание этого слова подростками (13-19 лет), синим — знание взрослыми от 39 лет. Как видно, частотность слова в каком-то из корпусов вообще не влияет на то, насколько хорошо это слово известно тинейджерам.

Сим-сим, откройся!

Нам очень хотелось собрать и добавить в корпус тексты переписок во ВКонтакте, так как сейчас люди, особенно подростки, активно пользуются соцсетями. Конечно, мы не могли просить случайных респондентов и даже друзей присылать нам переписки, поэтому мы собирали только свои собственные реплики, не содержащие личной информации.

При этом мы обнаружили, что некоторые слова, например, профиль, бюджет и этап часто встречаются в сообщениях. Мы предположили, что эти слова просто изменили своё значение: профиль — это ЕГЭ по математике профильного уровня, бюджет — обучение на бюджетной основе, а этап — очередной тур олимпиады (возможно, на этот вывод повлияла сбитая выборка).

Python, телеграм-бот, сайт с Корпусом нового поколения, и мы все еще на лингвистике

После сбора данных настал самый долгий, но необходимый этап — анализ результатов опроса и скачивание текстов. Опрос «Летящие входящие» мы обработали очень быстро при помощи программы в Python. Тексты постов из пабликов во ВКонтакте и комментарии к ним тоже удалось собрать автоматически. И всё-таки книги, субтитры к фильмам и сериалам и тексты песен нам пришлось скачивать вручную. Было долго и нудно, но мы справились!

Чтобы к нашему корпусу, который мы делали на своем сервере, был доступ у любого заинтересованного, мы создали телеграм-бот Корпуса нового поколения — «Канапе-бот» (@NGCorpusBot). При помощи бота можно узнать частотность любого слова в нашем корпусе и его подкорпусах (то есть отдельно в текстах книг, постов или комментариев, в сообщениях или субтитрах), определить, какие слова в КНП самые частотные, и получить ссылку на статью по искомому слову в НКРЯ для сравнения.

Логотип Корпуса нового поколения. Аббревиатура (КНП) напоминает слово 'канапе', поэтому мы изобразили слова «нанизанными» на шпажку. Кстати, как мы узнали из исследования, 'канапе' — это не только бутерброд на шпажке, но еще и диван — в таком значении его знают большинство взрослых. При этом в НКРЯ в значении «диван» слово канапе встречается почти в 6 раз чаще, чем в значении «бутерброд».
Как работает телеграм-бот.

Для распространения Корпуса нового поколения мы создали сайт slovozrast.ru. Над ним мы начали работать уже после окончания программы в «Сириусе», и сейчас с удовольствием продолжаем участвовать в проекте. На портале можно познакомиться с другим проектом, который был сделан совместно с другими ребятами из «Сириуса» в прошлые годы (смотрите раздел «Коварные слова»). Кстати, название «Словозраст» — это и про возраст слова, и про возраст читателей нового поколения (подростков).

Логотип сайта slovozrast.ru.

Внезапно! Нас забанили

Если вам до сих пор казалось, что все шло так гладко, то сейчас мы разрушим эту иллюзию. О том, что обработка информации — это долгое и скучное дело, мы уже говорили выше: 10 часов совместной работы из двадцати часов, отведенных на проект. Но у нас было еще несколько проблем.

Первая — нас забанили на сайте субтитров. Несколько человек одновременно занималось скачиванием субтитров к фильмам и сериалам, и в какой-то момент всех сразу заблокировали за то, что скачивали слишком много. Выход — пришлось пользоваться другими сайтами, менее удобными.

Вторая проблема — сбитая выборка. Так как мы распространяли опрос в своих соцсетях, значительную часть респондентов составили люди, активно участвующие в олимпиадах, готовящиеся к экзаменам (ОГЭ и ЕГЭ) и интересующиеся наукой. По этой причине в нашей подборке наиболее популярными оказались паблики про олимпиады и экзамены, а самым популярным стал «Цитириус» — паблик с двумя сотнями подписчиков (участников лингвистической смены «Сириуса»), где публикуются цитаты ребят и преподавателей.

Также мы заметили, что из 254 ответивших на вопрос об образовательных сайтах 15 человек ссылались на сайт Саратовского техникума железнодорожного транспорта. Популярнее (22 упоминания) был только Arzamas. Оказалось, что мама девочки из нашей группы, работающая в СТЖТ, отправила опрос своим студентам, поэтому они записали сайт техникума в качестве образовательного (что, конечно, немного сомнительно, потому что мы ожидали от респондентов сайты вроде Арзамаса и Постнауки).

Что для нас лингвистика? — Наша жизнь

Что же значит этот лингвистический проект для нас? Могло сложиться впечатление, что весь проект — это сплошные опросы и таблицы. Но для нас это важное дело: вклад, пусть пока и маленький, но в большую науку, частью которой нам так хочется стать. Это незабываемый опыт и яркие впечатления. Мы работали с преподавателями-лингвистами над реальными задачами, и руководители не просто говорили, что нужно делать, а делились с нами своим опытом и объясняли, для чего нужен каждый этап работы. Практика всегда увлекательнее, хоть и сложнее, чем необходимая и даже интересная теория. Ведь решали мы задачи грантов по автоматическому определению сложности слов для детей разного возраста и созданию подкорпуса детской литературы НКРЯ.

А еще лингвистика — захватывающая и важная наука, потому что занимается она изучением языка, без которого мы с вами не обходимся ни дня. Лингвистика для подростков — это прекрасная гимнастика для ума, развивающая логику, то есть базовый навык для любого другого занятия.

Шесть шестых, или наша команда и каково в ней работать

Мы работали достаточно большой командой, но уже с первого дня разделились на несколько групп. Каждая группа занималась чётко поставленной задачей, благодаря чему нам удалось справиться с проектом всего за 10 дней. Ребята в команде были очень разные, и каждый мог свободно выбрать наиболее интересную и комфортную задачу. Работа в группах шла параллельно. Пока одни занимались составлением опросов, другие писали программы для их обработки. Пока одни обрабатывали «Чижика», другие составляли опрос по новым словам. Пока одни анализировали полученные данные и делали красивые графики, другие готовили выступление и подводили итоги проекта.

На первой встрече проектной группы мы не знали друг друга, но быстро познакомились и сразу сработались. И ребята, и руководители оказались доброжелательными, понимающими и заинтересованными в результате проекта людьми, так что работать в команде единомышленников было очень легко и приятно.

А еще мы замечательно провели время вместе: много шутили и даже придумывали мемы. Предлагаем вам на них посмотреть.

Почему-то респонденты «Чижика» считали сайты вузов и сайты с готовыми домашними заданиями (а также сайты интернет-магазинов) образовательными.
Когда мы искали слова во ВКонтакте, чтобы проверить их частотность, мы видели их не в тех значениях и контекстах, в каких ожидалось.
При поиске субтитров к фильму «Лёд» находились разные другие фильмы, но никак не нужный нам.
Респонденты «Чижика» иногда присылали странные ответы. Например, на нашу просьбу назвать последние прослушанные русскоязычные песни, кто-то ответил очень лаконично: «Вивальди».
В русском языке есть прекрасное слово 'вёдро' (тёплая ясная солнечная сухая погода). Однако ВКонтакте приравнивает 'ё' к 'е', поэтому при поиске слова 'вёдро' во ВКонтакте мы нашли только посты про сосуд цилиндрической формы с ручкой в виде дужки.

Нам кажется, что успех этого проекта не только в том, что мы выполнили в срок все задачи и успешно выступили с результатами на итоговой конференции в «Сириусе», но и в том, что работа продолжилась после окончания смены: мы писали этот лонгрид, создавали сайт, обсуждали сложности языка и не прекращали общаться в чате.


В конце хочется сказать большое спасибо всей нашей команде, каждому её участнику, потому что каждый внёс свой вклад в проект. Отдельное спасибо нашим руководителям, Борису Иомдину, Софье Манухиной и Дмитрию Морозову, за возможность поучаствовать в настоящем лингвистическом исследовании, чудесно проведённое время и новый опыт.

Проектная группа: Алина Зулкарнаева, Алла Большакова, Анна Казакова, Вера Краснобаева, Екатерина Лексина, Екатерина Ткаченко, Елена Миронова, Елизавета Бесараб, Елизавета Олейникова, Елизавета Щукина, Константин Гогричиани, Лев Янушевич, Николай Тугарев, Олеся Репина, Рита Назарова.

Над текстом работали: Елизавета Бесараб, Елизавета Олейникова, Елизавета Щукина, Борис Иомдин, Софья Манухина, Алина Зулкарнаева, Екатерина Ткаченко.

Также благодарим всех тех, кто участвовал в опросах и распространял их, кто отвечал на наши (порой странные) вопросы и кто вместе с нами думал над логотипами.

Вы находитесь в разделе «Блоги». Мнение автора может не совпадать с позицией редакции.