Блоги

Закон Зипфа: как связаны математика и быстрое изучение иностранного языка

mgb

Джордж Зипф

Лингвистика — это наука, которая требует усидчивости и даже математических наклонностей. Наш блогер Марк Блау часто рассказывает об интересных учёных в этой области знаний. Сегодня он делится тем, как связаны графики со словами, и рассказывает, какой словарь поможет научиться читать на иностранном языке за год.

Кто такой Джордж Зипф

«В каждой естественной науке заключено столько истины, сколько в ней есть математики» (Иммануил Кант). Математикам свойственен некоторый снобизм. Вслед за И. Кантом они считают, что в каждом разделе знания есть лишь столько настоящей науки, сколько в нём математики. Они недалеки от истины. Математика — это концентрированная логика, а любая наука претендует на то, чтобы быть логичной, точной и однозначной в своих утверждениях. Поэтому, насколько это возможно, любая наука старается использовать математические методы.

Американский ученый Джордж Кингсли Зипф (George Kingsley Zipf; 1902–1950) знаменит тем, что первым применил в лингвистике статистические методы, то есть «обвенчал» филологию с математикой. Зипф — американец, но его фамилия явно немецкого происхождения. В силу этого по-русски её могут читать и произносить трояко: и Ципф, и Зипф, и Зиф. Об этом следует помнить, ведя поиск информации об учёном в русскоязычном интернете.

В 1923 году Джордж Зипф поступил в Гарвардский колледж, который окончил с отличием через год. Своё образование филолога Зипф продолжил в Германии. Он учился сначала в Берлинском, а потом в Боннском университете. Именно здесь он пришёл к убеждению, что язык необходимо исследовать как природное явление, потому что он является не результатом соглашения между людьми, а результатом некоторого естественного процесса коммуникации. Оказалось, что этот процесс можно исследовать математическими методами.

Начать эти исследования Зипфу удалось позже. Пока же, возвратившись из Германии в США, он защитил в Гарвардском университете докторскую диссертацию по сравнительной филологии и остался работать преподавателем немецкого языка. Одновременно с преподавательской работой он вёл научную деятельность, продолжал свои работы в области лингвистики и уже в 1935 году издал книгу «Психобиология языка», которая была впоследствии издана в Европе — в Германии и во Франции.

В годы Второй мировой войны Зипф вёл в Гарвардском университете курс немецкого языка для начинающих. Как преподаватель он поставил своей целью организовать учебный процесс таким образом, чтобы значительно ускорить изучение языка. В частности, Зипф добивался того, чтобы к концу первого года обучения студент мог бы читать по-немецки со словарём.

В ходе своей преподавательской работы, применяя методы математической статистики к языку, он открыл закон, который впоследствии был назван в его честь

Этот закон оказал большое влияние на развитие лингвистики, в частности на внедрение в неё математических методов исследования.

К сожалению, жизнь учёного оказалась недолгой. В 1950 году врачи обнаружили у него злокачественную опухоль. Сделанная операция не помогла, и 25 сентября 1950 года Джордж Зипф скончался.

Закон Зипфа

Закон «имени себя» Джордж Зипф открыл, будучи преподавателем иностранного языка. Он задумался над совершенствованием методики преподавания, чтобы повысить эффективность обучения.

Одна из сторон процесса изучения чужого языка — расширение словарного запаса. Хочешь говорить на языке — учи слова этого языка. Конечно, учить их, читая словарь, что называется, от корки до корки и запоминая все встречающиеся в алфавитном порядке слова, — способ не самый лучший. Одни слова встречаются в языке чаще, а другие реже. Некоторые — совсем редко.

Вы знаете, что такое тантамареска и чем она отличается от тинтамара? Между тем эти слова входят в словарь русского языка. Правда, они очень редкие

Словарный запас нужно расширять по другому принципу. В первую очередь следует учить наиболее употребительные слова. Таких слов относительно немного — около 2000. Сначала следует осваивать наиболее часто употребляемые в языке слова, потом — слова, которые используются реже, и, наконец, слова, применяемые совсем редко, для украшения и индивидуализации речи.

Если уж и учить иностранные слова по словарю, то словарь этот должен быть не алфавитным, а частотным. В частотном словаре слова располагаются не по алфавиту, а по частоте встречаемости в текстах на изучаемом языке. Например, слово, которое в алфавитном словаре, состоящем из миллиона слов, встретится 100 тысяч раз, в частотном словаре будет стоять раньше слова, частота встречаемости которого 10 тысяч раз на миллион. В свою очередь, это второе слово будет находиться в частотном словаре ближе к началу, чем слово, встречающееся только тысячу раз на миллион слов.

Позицию слова в частотном словаре иначе называют рангом этого слова. Чем выше ранг слова, тем реже оно встречается в языке, тем дальше от начала это слово находится в частотном словаре. Очевидно, что у служебных слов (предлогов, артиклей и так далее) будет самый низкий ранг. Эти слова встречаются в тексте часто, но, как правило, они короткие и большой смысловой нагрузки не несут. Уже в первом десятке слов частотного словаря появятся и слова значащие. Именно их следует давать студенту при обучении в первую очередь. Так что частотный словарь изучаемого языка насущно необходим студенту, а ещё более — преподавателю.

Чтобы создать такой словарь, надо посчитать частоту встречаемости всех слов определённого языка и расположить их по мере убывания этого параметра. Здесь возникают две проблемы. Во-первых, выбрать текст или группу текстов, которые могли бы представлять весь язык. Набор текстов, способный представлять весь язык в целом, называют ещё корпусом языка. Лингвисты считают, что объём корпуса языка должен быть не менее миллиона слов, а составлять его следует из самых разных источников, от газетных статей до классических текстов. Дело это очень ответственное и требующее настоящего филологического чутья.

Из каких источников образуется корпус английского языка

Вторая проблема — огромный объём вычислений. После того как составлен корпус языка, надо посчитать частоты встречаемости для каждого из слов. До появления компьютеров это было технически невозможно. Сейчас же простенькую программку для компьютера, считающую частоту встречаемости слов, может написать и сообразительный школьник, но проблем от этого не стало меньше, они просто перешли на другой уровень сложности.

Поэтому частотные словари появились относительно недавно. Первый такой словарь английского языка, «The Teacher's Word Book», вышел в свет в 1921 году. Этот словарь включал 10 тысяч самых употребительных английских слов. В 1944 году он был переиздан в увеличенном объёме (30 тысяч слов). Первый частотный словарь русского языка тоже был издан в США в 1953 году. Он содержал около 5 тысяч слов. Первый частотный словарь современного русского языка появился в 1963 году в Таллине. В нём было представлено две с половиной тысячи наиболее употребительных слов. В 1977 году был издан первый частотный словарь русского языка, который создали с помощью компьютера на базе корпуса текстов в миллион слов.

В любом случае понятно, почему, будучи преподавателем иностранного языка в Гарвардском университете, Джордж Зипф заинтересовался проблемой частоты встречаемости слов в языке. Его первая работа в этой области вышла в 1932 году. Зипф исследовал частоту распределения слов в таких далеких друг от друга языках, как латынь и китайский. Китайского языка Зипф не знал, но в это время у него работал аспирант-китаец и несколько студентов-китайцев. Они сделали главную часть работы по подбору корпуса текстов на этом языке.

Затем отдельно по латинскому и по китайскому корпусу определялась частота встречаемости каждого из входящих в него слов. После чего были составлены частотные словари. Для этого все слова латинского языка расположили в порядке убывания частоты встречаемости (возрастания рангов). Точно так же был составлен частотный словарь китайского языка.

Оказалось, что произведение частоты встречаемости слова и его ранга в частотном словаре для каждого языка — величина постоянная

Аналитически закон Зипфа можно было выразить формулой fr = c, где f — частота встречаемости слова в тексте; r — ранг (порядковый номер) слова в частотном словаре; с — постоянная величина, значение которой различается для разных языков.

Кривая, описывающая закон Зипфа, — гипербола, довольно быстро спадающая и с тянущимся затем почти горизонтальным «хвостом». В спадающей части этой кривой находятся самые употребляемые слова, а в хвосте — слова, употребляемые редко. Зато именно в этой части происходят многие чудеса, благодаря которым в языке появляются новые слова, но об этом в следующий раз.

Кривая, выражающая закон Зипфа, — гипербола

Вы находитесь в разделе «Блоги». Мнение автора может не совпадать с позицией редакции.

mgb

Выбор редакции

Какой крем сделает вас моложе? Непроплаченный гайд по составам косметики — для всех, кому уже есть 35

Каким навыкам важно научить ребенка, чтобы он смог противостоять травле

Почему ребенок не слышит ваши «Я-сообщения»: как правильно говорить с подростком

«Неинтересно» или «не интересно»: как писать правильно