Петербургские ученые научили нейросеть различать эмоциональную речь человека
Ученые СПбГУ обучили нейросеть распознавать эмоциональную речь людей. Современные технологии уже могут это делать, но когда человек в своей речи ярко выражает эмоции, плачет или громко кричит, то задача сильно усложняется. Как рассказали ТАСС авторы разработки, ИИ учился на основе интервью с жертвами Холокоста,
«Лингвисты Санкт-Петербургского государственного университета модифицировали нейросеть Wav2Vec 2.0, „научив“ ее распознавать речь людей, рассказывающих о сильном эмоциональном потрясении, которое они пережили. Нейросеть была обучена на интервью с жертвами Холокоста, записанными фондом мемориального комплекса истории Холокоста Яд ва-Шем», — сообщили в СПбГУ.
В ходе своей работы ученые обработали более 26 часов разговоров. Они также составили социолингвистическую разметку, определи пол, возраст, примерный регион происхождения и родной язык людей из интервью. Все эти признаки значительно влияют на акцент и лексику человека, а значит, и на то, как качественно речь будет распознаваться ИИ.
«Мы использовали предобученную на русском языке глубокую нейросеть Wav2Vec 2.0. Идея ее работы заключается в том, чтобы выучить сопоставление каждого звука устной речи человека соответствующей букве алфавита. Конкретно данная архитектура нейросети также использует так называемый механизм внимания, для того чтобы научиться „обращать внимание“ на значимые для определения той или иной буквы по звуку признаки, что значительно повышает качество результата», — рассказал магистрант кафедры математической лингвистики СПбГУ Михаил Долгушин.
NicoElNino / Shutterstock / Fotodom