Вдохновившись идеей самого большого вокабуляра в хип-хопе, инженер-исследователь Varun Jewalikar захотел составить похожий анализ но уже более широкого ряда артистов разных жанров. Я прошелся по списку самых продаваемых музыкантов, и решил копнуть глубже. Оказалось, что самым большим разнообразием слов в своих текстах обладает Eminem.
Перевод выполнен от имени автора.
Список достаточно большой (99 музыкантов и 25 жанров ), и чтобы анализ получился достаточно интересным и маленьким я решил не рассказывать каким образом он проводился. Собрав данные с сайта «Musixmatch» у меня получился следующий анализ.
Вот эти самые 93 музыканта из того самого списка, рассортированы по жанрам. (93 потому что Bruce Springsteen, Chicago, Def Leppard, Journey, The Beach Boys and The Doors из основного списка 99
артистов не давали разрешения Musixmatch использовать тексты свои песен. Поэтому в анализ их включить нельзя).
Целью является сравнение размеров словарных запасов музыкантов. Некоторые из них выпустили намного больше песен, чем другие из-за более долгой карьеры на сцене или из-за своего музыкального
направления.
Чтобы анализ не получился неправильным из-за разного количества песен, я включил в него только 100 самых плотных по количеству слов песен каждого артиста. Только 6 из всех музыкантов имеют менее 100 песен, поэтому это довольно хороший предел. Также 100 песен включают 8-10 альбомов, которые охватывают от 5 до 10 лет работы. Это дает правдивое представление об общем словарном запасе музыкантов.
Вот несколько значений, с которыми мы познакомимся:
Словарный запас: Количество уникальных слов (на любом языке) используемые музыкантом в 100(или меньше) песнях с самым большим количеством слов за свою карьеру.
Текстовая наполненность: Общее количество слов (на любом языке) используемые музыкантом в 100(или меньше) песнях с самым большим количеством слов за свою карьеру.
Интервал новых слов(NWI): В среднем количество слов, после которых музыкантом используется новое слово. Это коэффициент (Текстовая наполненность/ Словарный запас). NWI от n означает что каждое n-слово – это новое слово в тексте артиста, которое он/она никогда раньше не употреблял(а) в своих песнях.
В списке всего 4 рэпера и все они на вершине топа по размеру словарного запаса. Среди них Eminem далее Jay-z, 2Pac, Kanye West и The Black Eyed Peas с большим отрывом. У Эминема также самый
большой коэффициент количества слов в песне 1018.5.
По тому, какие у него четкие и описательные песни, не удивительно, что Боб Дилан расположился так высоко. Он также довольно высоко по Интервалу новых слов (№11), в среднем он использует новое слово после каждых 9 слов.
Эти суперзвезды выпускали песни на множестве популярных языков. Их словарные запасы были суммированы, что привело к достаточно высокому значению в общем топе. Этого результата я не ожидал, когда начинал анализ.
Я не ожидал, что такая поп-сенсация, как она расположится так высоко, так как они полагаются на простоту в своих песнях. Также она единственная, кто попал в топ 15 артистов по размеру словарного запаса и также по общему количеству проданных сертифицированных альбомов.
И кто сказал, что песни нельзя продавать без текста.
В среднем размер словарного запаса среди всех музыкантов это 2677 слов. Около 40 музыкантов имеют словарный запас в пределах 400 слов в среднем. Достигните словарным запасом в текстах своих песен этого диапазона и вы станете одним из самых продаваемых артистов.
Три самых продаваемых артиста за все время расположились довольно низко по размеру словарного запаса. Не удивительно, что простота их песен ломает географические, возрастные и языковые барьеры, и их почитают во всем мире. Наоборот Mariah Carey находится достаточно высоко в обоих чартах (9 место по продажам и 20 место по размеру словарного запаса).
Следующая таблица показывает средний словарный запас артистов разных жанров. В скобках дано количество артистов, которые представляют этот жанр. Так как наш список содержит только 93 музыканта, то это не самое лучшее обобщение.
Можно заметить некоторые закономерности. Хип-хоп на голову выше всех других жанров. Фолк занимает второе место, но так как в списке всего один его представитель ( Боб Дилан), это совсем не является показателем. Поп- жанр с наибольшим количеством музыкантов и его средний словарный запас (2464 слова) близок к среднему словарному запасу всех артистов (2677 слов). Тоже самое применимо и к жанру Рок.
В топе 93 самых продаваемых артистов существует большая вариация размеров словарных запасов, и по сути, нет никакой взаимосвязи между коммерческим успехом музыканта и размерам его словарного запаса.
Не надо понимать, что в этом анализе говорится, что один исполнитель лучше другого, это просто еще один взгляд на работу этих замечательных артистов. Мы просто получаем возможность заглянуть в умы различных авторов песен, некоторые могут разорвать твое сердце парой строчек, в то время как другие рисуют сложные замысловатые образы тысячью слов. Вырванная цитата из песни Джона Леннона достаточно хорошо объясняет всю эту дилемму: «Половина из того, что я говорю, не имеет смысла, но я говорю это чтобы достигнуть ваших умов».
Все данные текстов песен и другие данные (картинки, альбомы, треклисты) взяты с Musixmatch API. Python использовался для обработки данных и анализа текстов песен. Анализ может быть улучшен, если убрать все звуки типа (оу, ааа, и др) и остальных слов, которых нет в словаре. Данные и коды могут быть опубликованы, если кто- то заинтересуется этим.
Самый большой вокабуляр в хип-хопе сравнивает словарные запасы различных музыкантов по первым 35000 слов написанных ими. Вместо того, чтобы сравнивать количество слов, мы взяли 100 песен с самым большим количеством слов. Просто из любопытства( ну и ради некой завершенности) мы использовали тот же метод для расчета по первым 10000 слов написанных каждым артистом. Результаты двух исследований не сильно отличаются, первая пятерка музыкантов не поменялась. Первая десятка та же, с небольшим изменением. Andrea Bocelli переместился с №8 на №6, а Black Eyed Peas передвинулись с №6 на №7, а Julio Iglesias с №7 на №8. Никаких заметных изменений в целом больше нет. Таким образом, мы использовали 100 песен как некое ограничение так как это более музыкально.