Интеллектуальный анализ данных

В рамках проекта проводилась разработка и испытание алгоритмов извлечения семантически нетривиальной информации о среде коммуникации производственного чата регионального предприятия в целях повышения эффективности работы службы безопасности.

Входные данные

В качестве входных данных использовались протоколы персонального общения участников производственного чата небольшого регионального завода.

Основные характеристики входных данных:

  • Предоставлены протоколы общения за 142 календарных дня (период с 16.03.2005 по 4.08.2005)
  • За указанный период было отмечено появление в среде 242 различных пользователей (при это реальное число различных коммуникаторов меньше, т.к. некоторые изменяли своё имя в процессе общения).
  • Среднее число сообщений одного пользователя за указанный период составило 576.
  • Максимальное число сообщений одного пользователя за указанный период составило 12058.
  • 102 (из 242) пользователя послали за указанный период 100 или более сообщений. В дальнейшем эта группа пользователей именуется хорошо обусловленной.
  • Общий размер протокола составляет 85.5 мб, что делает невозможным его анализ «вручную».

Краткий перечень полученных результатов

На основе автоматического анализа протоколов удалось собрать следующую информацию:

  • О предприятии:
    • Суточный режим работы.
    • Наличие трёх смен.
    • Определена принадлежность некоторых пользователей конкретным отделам.
  • Об участниках общения:
    • Автоматически определен пол приблизительно 75% пользователей.
    • Автоматически определены около 20 пар типа «любовь» и около 10 пар типа «дружба».
    • Определены наиболее 5 влиятельных (авторитетных) пользователь и очерчен круг влияния каждого из них.
    • Определено дерево наиболее вероятных путей распространения информации в сообществе.
    • Определены 18 небольших группы постоянного общения.
    • Определены явные психологические зависимости для примерно 20 пользователей.
    • Определены несколько наиболее характерных представителей следующих типов общения: «служебное общение», «дружеское общение», «поиски партнера», «невзаимный интерес».
  • О событиях на предприятии:
    • Проведение субботника на производстве.
    • Корпоративный выезд на отдых.
    • Фактические даты выплаты авансов и окладов.

Все полученные результаты были проверены и положительно охарактеризованы экспертом — сотрудником службы безопасности предприятия, работавшим там с начала анализируемого периода и являвшегося одним из участников производственного чата.

Подробное изложение полученных результатов

Анализ средних частот суточного и недельного общения

Рассчитана статистика интенсивности суточного общения:

Из нее определены время начала работы, время обеденного перерыва, время окончания основной работы, наличие «вечерних» и «ночных» сотрудников.

С помощью статистического анализа содержимого сообщений определено наличие 3-хсменной работы предприятия в анализируемый период времени (подтверждено экспертом):

Анализ статистики интенсивности недельного общения показал полное отсутствие активности по воскресениям и наличие небольшой активности по субботам.

Наибольшая активность общения в будние дни проявляется по средам и понедельникам.

Автоматическое разбиение сотрудников на группы

Для автоматического разбиения сотрудников на группы использовались индивидуальные статистики интенсивности суточного общения, рассчитанные для хорошо обусловленной группы пользователей. Корреляционный анализ этих статистик позволил после многомерного шкалирования выявить наличие как минимум двух явно выраженных групп.

Анализ «красной» группы пользователей показал, что в вечерний период их суммарное общение составляет более 95% общего общения в чате.

Гипотеза о том, что «красную» группу составляют работники отделов IT, охраны и службы безопасности, была полностью подтверждена экспертом (из 21 пользователя «красной группы» 20 действительно оказались сотрудниками этих трёх отделов, а оставшийся 1 пользователь оказался супругой сотрудника СБ).

Автоматическое определение пола пользователей

Для автоматического определения пола применялся комплексный метод.

На первом этапе использовался базовый синтаксический метод анализа содержания сообщений, давший уверенные результаты для 117 из 242 (48%) пользователей и предполагаемые результаты еще для 21 (8.6%) пользователей.

Проверка результатов применения базового метода экспертом показала наличие ошибок приблизительно в 5% случаев.

Затем на уверенных результатов производилась калибровка параметров дополнительного статистического метода. После калибровки дополнительный метод использовался для определения пола пользователей, чей пол оставался неизвестным. Дополнительный метод дал уверенные результаты еще для 35 (14.5%) пользователей.

Проверка результатов применения дополнительного статистического метода экспертом показала наличие ошибок приблизительно в 25% случаев.

Определенные пола пользователей в дальнейшем использовались для раскраски последующих диаграмм (сильные связи, зависимости, группы общения). При этом пол, определенный первым методом обозначался полной закраской узла, а результаты второго метода отображались окраской границ узла.

Выявление сильных связей между пользователями

Для выявления наличия сильных связей между пользователями чата использовался статистический метод нормировки полей общения.

Метод позволил выявить 10 явных гетерогенных пар сильно связанных пользователей и, кроме того, еще 6 кластеров общения более сложной структуры.

Эксперт однозначно подтвердил наличие реальной супружеской, интимной или дружеской связи по меньшей мере для 80% определенных автоматически связей.

Выявление сильных зависимостей пользователей

Для выявления сильных (невзаимных) зависимостей пользователей использовался модифицированный статистический метод нормировки полей общения.

Применение метода выявило 20 гетерогенных и 6 гомогенных невзаимных зависимостей между пользователями чата. Проведение точной оценки результатов экспертом не представляется возможным в виду их специфики.

Выявление наиболее вероятных путей распространения информации

Выявление наиболее вероятных путей распространения информации среди пользователей чата производилось статистическим методом, учитывающим наличие связи между пользователями и интенсивность общения между ними. Центром (источником) распространения информации был выбран наиболее общительный пользователь.

Иерархия значимости пользователей, соответствующая дереву распространения информации, была положительно оценена экспертом.

На основании пересечения множества деревьев распространения информации с различными корнями было произведено автоматическое выделение крупных кластеров общения с центрами — распространителями информации.

Это, в свою очередь позволило определить список из 5 наиболее влиятельных пользователей и установить сферы их влияния.

Выделение групп постоянного общения

Для выделения кругов постоянного дружеского общения использовался алгоритм кластеризации, основанный на последовательном изъятии ребер максимальной «напряженности», адаптированный для обработки взвешенных орграфов.

Применение метода позволило выявить 18 явно выраженных групп постоянного общения между пользователями. Состав групп был подтвержден экспертом.

Анализ индивидуальных ритмов общения пользователей

Для анализа специфики общения каждого пользователя была использована генерация диаграммы ритма общения, которая строилась отдельно для каждого пользователя на основании данных за весь период времени.

Визуальный анализ диаграмм ритмов общения различных пользователей позволил выделить несколько наиболее характерных ритмов общения и соответствующих им пользователей. Приведем некоторые из них:

«Служебное общение»

Основные характеристики:

  • Постоянные диалоги с различными пользователями.
  • Преобладают короткие диалоги.
  • Диалоги инициируются как самим пользователем, так и собеседниками с приблизительно равной частотой.

«Личное общение»

Основные характеристики:

  • Постоянные диалоги с одним и тем же пользователем.
  • Наличие затяжных диалогов.
  • Диалоги инициируются как самим пользователем, так и собеседником с приблизительно равной частотой.

«Поиски партнера»

Основные характеристики:

  • Нерегулярное общение.
  • Диалоги с большим количеством различных пользователей (преимущественно противоположного пола).
  • Затяжные диалоги, количество исходящих сообщений в рамках диалога часто существенно превышает число входящих сообщений.
  • Диалоги в среднем чаще инициируются самим пользователем.

«Невзаимный интерес»

Основные характеристики:

  • Нерегулярные диалоги с одним и тем же постоянным собеседником.
  • Почти все диалоги инициируются самим пользователем.
  • Количество исходящих сообщений в рамках диалога часто существенно превышает число входящих сообщений.

Выявленные типы пользователей подтверждены экспертом для продемонстрированных наиболее характерных представителей.

Анализ событий, имеющих локальную частоту выше ожидаемой

Статистический анализ текстов сообщений позволил выделить всплески обсуждения определенных тем, локализованные во времени. В ряде случаев эти всплески соответствуют внешним событиям, вызывающим бурный отклик в среде. Автоматизированное выявление таких всплесков позволило определить следующий список событий, произошедших на предприятии за анализируемый период:

  • Субботник 15 мая 2005 года.
  • Корпоративный выезд на отдых 26 мая 2005 года.
  • Выплата авансов ~25 числа каждого месяца.
  • Выплата окладов ~13 числа каждого месяца.

Наличие этих событий и их даты подтверждены экспертом.

Другие возможные исследования

В качестве дальнейшего развития представленных исследований могут быть предложены, например:

  • Исследование динамики изменение групп общения (ссоры/примирения, склейка групп, переход пользователей из одной группы в другую).
  • Выявление пользователей, общающихся под несколькими разными именами.
  • Оценка общей психологической окраски общения среды и её изменения во времени.
  • Выявление явных классов общения по ритму общения в группе и наиболее ярких представителей каждого класса.