Обратная связь
crowdsourcing DARPA Enterprise 2.0 facilitator Gartner Google IBM idea management Imaginatik knowledge management open innovation social business Social Organization Social Platforms Spigit tacit knowledge wit-проект Witology Агенство стратегических инициатив бизнес-лига Деятельное сообщество инвестиции инновации кейсы коллективный интеллект команда Witology краудрекрутинг краудсорсеры краудсорсинг краудсорсинг-проект краудсорсинг-проекты краудфандинг менеджмент идей метаразум методология мотивация Национальная предпринимательская инициатива НПИ облачное предприятие облачные предприятия общественное благо открытые инновации отчеты предсказания приз производство знаний публикации краудсорсеров рынки предсказаний Сбербанк семинар синтеллектуальный краудсорсинг Социально-семантические сети Социальное предприятие социальные платформы социальные сети социальные технологии Социальный бизнес социо-семантическая сеть ТеМП фасилитатор футбол эпоха социализации и коллаборативизации

В поиске радости, грусти и вредности

Просмотров3274
Комментариев8

6a82d4cdedf76a8e9440aaf890752573.jpg
Традиционный японский рисунок-перевертыш, иллюстрация с сайта asianoffbeat.com


На прошедшем витосеминаре стажер отдела M&A Станислав Пак рассказал нам про алгоритмы машинного обучения для классификации и кластеризации данных, в том числе такие алгоритмы как k-means, EM, kNN, Naive Bayes, SVM, ST. Изюминку выступления составили алгоритмы, применяемые для классификации текстов по эмоциям, о которых в рамках этого поста мы и собираемся рассказать.

Зачем, собственно, нам классифицировать текст по эмоциям?

Понимая эмоциональную окраску сообщения и имея, к примеру, интернет-магазин, мы можем отслеживать удовлетворенность пользователей сервисом в социальных сетях (например), выявлять «эмоциональные тренды» вокруг определенной темы, генерировать рекламные сообщения. В рамках нашей платформы, используя эти данные, мы могли бы и построить эмоциональный портрет пользователя, и определить критические темы, и наделить математическую модель взаимодействия пользователей на платформе дополнительными параметрами – эмоциональной окраской связи между пользователями.

Возможностей к применению масса, почему же на русском языке дальше статей дело почти не идет (один онлайн-сервис и ряд ECM-систем со встроенным «анализом тональности текста»)?
Во-первых, направление является необычайно молодым, и исследователи только в течение последних лет начали уделять ему внимание.

Во-вторых, существующие алгоритмы  часто основаны на различных специальных словарях и корпусах текстов (а как мы уже писали, они в России находятся на стадии разработки).

И все же, обратимся к существующим методам, используемым для классификации текстов  по эмоциям.

Следует отметить, что вне зависимости от алгоритма, первый шаг заключается в выделении классов эмоций, принадлежность текстов к которым мы будем выявлять (например, злость, недовольство, страх, веселье, печаль, удивление).

Итак, на семинаре нам было представлено восемь методов, выявленных докладчиком при анализе исследований на эту тему (см. Источники):

1. Метод, основанный на словаре WordNet-Affect, содержащий слова с тегами эмоций. В качестве меры близости текста и класса эмоций метод берет количество слов из этого класса, которые встретились в тексте.
2. Метод, основанный на метрике близости (например, на частоте встречаемости), которая строится между текстом и единственным словом, представляющим эмоцию (joy, fear, sadness, etc).
3. Метод, базирующийся на методе №2, где вместо слова, выражающего эмоцию, следует взять вектор синонимов для этого слова из WordNet-Affect Synsets, и далее оценить близость между вектором слов и текстом.
4. Метод, базирующийся на методе №3, включающий в вектор синонимы из словаря WordNet-Affect Synsets для всех слов, относящихся к эмоции, и далее сравнивающий его также с текстом.
5. Метод, в рамках которого для классификации используется байесовский классификатор, обученный на блогах ЖЖ. Предполагается, что авторы блогов адекватно выставляют теги эмоций к своим статьям.
6. Метод UPAR7, также использующий словарь синсетов WordNet и словарь SentiWordNet, содержащий оценку слов — положительная, отрицательная и нейтральная.  В рамках метода происходит выделение ключевых слов, анализ их эмоциональной окраски, а также сравнение «положительного» и «отрицательного» в заголовках, что в итоге дает достаточно точную оценку эмоции текста (источник).
7. Метод UA, основанный на статистике выдач поисковиков Yahoo, MyWay, AlltheWeb. Исследования были проведены на  классификации заголовков журнально-газетных статей. В рамках метода можно делать запросы с заголовком и названием эмоции (или его синонимами), делать запросы отдельно с заголовком и названием. В качестве меры близости заголовка и эмоции можно брать отношение размера выдачи для первого запроса к размеру выдач двух других.
8. Метод SWAT, основанный на разделении текста на слова с определенной эмоцией (радоваться. Грустить),с неопределенной эмоцией (закричал) и их последующем раздельном и совместном анализе (полное описание)

Кроме того, в исследованиях, связанных с классификацией текстов, используются: метод опорных векторов (например, в спам-фильтрах, хотя это не классическое применение), деревья решений, семейства instance-based алгоритмов (например, k  ближайших соседей).

Таким образом, методы классификации текстов по эмоциям существуют и доказывают свою эффективность в рамках различных исследований, но пока не на русском языке. Мы думаем, что совместная работа лингвистов и математиков в ближайшем будущем приведет к достойным результатам и для русских текстов. И одной из первых эти результаты продемонстрирует наша платформа!

Авторы текста: Гончарова Дарья, Станислав Пак

Источники:

1) Learning to Identify Emotions in Text. Carlo Strapparava, Rada Mihalcea.
2) Emotion Analysis of Internet Chat, Shashank and Pushpak Bhattacharyya
3) Construction of a Blog Emotion Corpus for Chinese Emotional Expression Analysis, Changqin Quan, Fuji Re

  • Опубликовать в Facebook
avatar

Darya Goncharova

Senior Analyst, Project Department
0
Исмаилов Азамат
28 Ноябрь 2013
Один средневековый ученый писал, что есть: 1) предмет 2) мысль о нём 3) звук, который выражает эту мысль 4) знак на письме, который выражает звук, который в свою очередь выражает мысль, к-рый ..
Но при этом погрешностей на уровне 3 меньше, чем на 4 уровне. Поэтому лучше учиться у живого учителя, чем читать его книгу.
Это я к тому, что ПИСАТЬ, про состоявшийся семинар, как-то старомодно,в век youtub(а). Поговорите со своим начальством, если это не секретно, можно видео записывать и выложить. Я конечно же за страну не отвечаю, но какая-то часть вам будет благодарна. Вы ведь всё равно занимаетесь просвещением публики. А то так, вы в роли Сенкевича:), он путешествовал по миру и рассказывал об этом, а нам оставалось верить ему на слово.
Ответить Ссылка 0
0
Daria Goncharova
28 Ноябрь 2013
Азамат! Спасибо за комментарий.

Все существующие видео наших семинаров выложены на нашем канале Vimeo: http://vimeo.com/user7862600/videos . К сожалению Youtube такие объемы не тянет.

Наши видео пока не отличаются особым качеством записи и звука, но при большом желании разобраться в нем можно=)
Приятного просмотра
Ответить Родитель Ссылка 0
0
Наташа
28 Ноябрь 2013
Да, сразу вспомнился ВААЛ. Применяемая на практике только дилетантами или любителями пустить пыль в глаза несведующим.

Идея классификации текста по эмоциям хороша, но реализация сомнительна. Упомянутая вами программа АнализПисем Отче наш оценивает, как «Плохой, неприличный, неискренний + +», а текст вашего поста... посмотрите для интереса сами.
Ответить Ссылка 0
0
VRus
28 Ноябрь 2013
Лет 7 назад интернет-знакомый указал программу ВААЛ, предназначенную "для проведения фоносемантической экспертизы текста, помогающей создавать настоящие шедевры, будь то пресс-релиз, статья в глянцевый журнал, исковое заявление в суд, рекламное объявление или любовное письмо. Для этого используется анализ "психологических" характеристик текста, которые не осознаются автором, но играют не менее важную роль в восприятии и воздействии текста, чем осознаваемые."

Помню мы тогда всем форумом смеялись от души. Типа "слово свинья вызывает ощущение чего-то легкого,.." Однако знакомый говорил что смех смехом, но в алгоритме задействованы серьезные идеи.
Ответить Ссылка 0
0
VRus
28 Ноябрь 2013
Ну вот счас погуглил и обнаружил статью на эту тему, включая, какие собственно соображения были туда заложены: http://www.yugzone.ru/software/vaal.htm
Ответить Родитель Ссылка 0
0
Daria Goncharova
28 Ноябрь 2013
VRus, спасибо за ссылку!
Для использования программы, пожалуй, следует только понять, как далеко мы ушли от пещерного человека и его восприятия эмоциональной окраски звуков и что сильнее на нас влияет - контекст и смысл слова или эмоциональная окраска звуков. И таким образом проанализировав "характеристики" целевой аудитории, сделать вывод о нужности такого инструмента.
Ответить Родитель Ссылка 0
0
VRus
28 Ноябрь 2013
Можно сравнить результаты фоносемантического анализа и всех прочих методов. Если будет корреляция, значит мы недалеко ушли от пещерного человека )) Сама по себе мысль о влиянии звучания может быть здравая, но тут еще вопрос, насколько адекватно создатели ВААЛ отразили её в технологии, как они всё это определяли. Знакомый говорил что вроде существовала боле мощная версия программы, не мини.
Ответить Родитель Ссылка 0
0
Daria Goncharova
28 Ноябрь 2013
Отличная идея!
Однако, потенциальные результаты немножко пугают)
Ответить Родитель Ссылка 0