SlideShare a Scribd company logo
Кейсы
Машинное обучение в задачах сегментации клиентов:
активность использования цифровых сервисов (1/2)
 Экономически активные клиенты
уходят в мобильный интернет
 Новые каналы – мессенджеры
ШАГ III
Выявление
характерных черт
Идентификация
ШАГ II
Группа Особенности
 Хотят казаться более
продвинутыми
Ограниченный
пользовательский опыт
 Потребители цифровых
технологий
Используют цифровые
технологии в быту,
но не на работе
 Люди, вовлеченные
в цифровую экономику
Наиболее экономически
и социально активные
2
1
ШАГ I
Сегментация
с использованием
нелинейных методов
СЕГМЕНТАЦИЯ КЛИЕНТОВ НА ОСНОВЕ ОТВЕТОВ
В ЗАВИСИМОСТИ ОТ СЕГМЕНТА
МОЖНО ОПРЕДЕЛИТЬ
ПРИОРИТЕТНЫЕ КАНАЛЫ
И ПОТРЕБНОСТИ
МЕТОДЫ визуализация данных большой
размерности с использованием LargeVis
Выводы
3
19
По Вашему мнению, какой процент наиболее экономически
активных людей в России – агентов цифровой экономики –
регулярно используют мобильный интернет?
A. 15%
B. 30%
C. 45%
D. 70%
20
2
 активно используют интернет
в работе 80%
 регулярно пользуются
проводным интернетом 35%
 регулярно пользуются
мобильным интернетом 30%
 регулярно используют
мессенджеры 15%
 регулярно пользуются
электронной почтой 25%
 активно используют интернет в работе 40%
 пользователи домашнего интернета 60%
 регулярно пользуются проводным интернетом 45%
 регулярно пользуются электронной почтой 10%
 Активные агенты цифровой экономики
 Потребители
цифровых технологий
 последний раз пользовались
интернетом вчера 20%
 регулярно пользуются
поисковыми сервисами 10%
 Последователи трендов
1
3
Машинное обучение в задачах сегментации клиентов:
активность использования цифровых сервисов (2/2)
21
Персональный финансовый менеджер (PFM):
Как может выглядеть (1/2)
2019 2022 2025 20252028
Получена новая
рекомендация!
Запланированные
события
1. Покупка авто ХV
+
2019
2. Покупка дома ХV
2022
3. Свадьба ХV
2025
4. Рождение
ребенка
ХV
2028
Жизнь
Год
Профиль Рекомендации
Подписка Настройки
СЕГОДНЯ
19.09.2016
22:59
22
События/цели 2016 2017 2018 2019 …2022
800 т.р. 100%
4 800 т.р. 7,7% 11,4% 15% 18,6%
Первый взнос
в размере 28%
1 500 т.р. 2,8% 4% 5,3% 6,7%
Накоплено 10,2%
от суммы
Подтвердить исполнение рекомендации
1. Открыть вклад на сумму 1 250 000 рублей (списание с VISA **** 2567). Вид вклада «Цифровой». Срок 36 месяцев. Процент – 7,7% в год
2. Оформить поручение на ежемесячное перечисление на вклад «Цифровой» свободного остатка в размере 15 000 руб. с зарплатной карты Visa **** 2567
при зачислении зарплаты
V
Посмотреть детали
Эффект от выполнения рекомендации
Актуально на 19.09.2019
Предлагаем
Рекомендация Х Отказаться от рекомендацииХ
23
Персональный финансовый менеджер (PFM):
Индивидуальные рекомендации для клиента (2/2)
Рекуррентные нейросети (RNN):
Постановка и формализация задачи (1/2)
АРХИТЕКТУРА
 слой представлений
категория транзакции → векторное представление
 рекуррентный слой(-и)
последовательность представлений →
последовательность внутренних состояний
 полносвязный слой
последнее внутреннее представление →
вектор предсказаний
БИЗНЕС ЗАДАЧА реализовать классификатор,
позволяющий автоматически выделять пользователей
с определенными шаблонами поведения
ШАБЛОН ПОВЕДЕНИЯ категории транзакций,
которые пользователь совершит в ближайшее время
ФОРМАЛИЗАЦИЯ ЗАДАЧИ
 Исходные данные
• лог транзакций 66 451 пользователей, транзакция: дата, mcc-код, тип, сумма, валюта, страна и пр.
• классификация транзакций на 28 категорий по mcc-коду и типу
 Предобработанные данные (объекты)
• последовательности из 100 категорий подряд идущих транзакций одного пользователя
 Задача предсказания
• предсказать вероятности всех 28 категорий для следующих 3-х транзакций пользователя
 Критерий качества
• площадь под кривой точность-полнота, усредненная по всем категориям и по редким категориям
24
Рекуррентные нейросети (RNN):
Результаты (2/2)
РЕЗУЛЬТАТЫ
 после выбора архитектуры
сети, подбора гиперпараметров
и экспериментов по работе
с редкими классами
 качество на отложенной
по времени выборке
АЛГОРИТМ
AUC ПО ВСЕМ
КЛАССАМ
AUC ПО РЕДКИМ
КЛАССАМ
Рекуррентная нейросеть 0.1885 0.1091
Random Forest 0.1766 0.1011
AUC ПО КЛАССАМ
Рекуррентная сеть
RandomForest
25
Исходные данныеПостановка задачи (матем. интерпретация)
Оптимизация наличного денежного обращения:
Постановка задачи. Модели (1/2)
 имеются временные ряды X(t) по снятию наличности
с каждого банкомата, с дневной периодичностью
 необходимо предсказать выдачу наличности
на 30 дней вперед
 большое количество выбросов
 изменение трендов временного ряда, после нулевых значений
 небольшая глубина данных
Используемые модели
1. Baseline Model
Строилась на среднем
за 3 недели (по дню недели)
2. Random Forest
Признаки:
 Лаги
 День недели
 Дни до зарплаты
3. Facebook Prophet 4. Holt-Winters Model
26
Оптимизация наличного денежного обращения:
Кластеризация. Результаты (2/2)
Кластеризация
Итоговая модель (Blending моделей)
MAPE ≈ 70%
27
Идентификация мошенников физических лиц:
Графовые методы
ШАГ III
Выявление признаков
мошеннического
окружения (графы)
ШАГ IIШАГ I
Сбор обучающей
выборки: заявки
с мошенничеством
МЕТОДЫ: графовая аналитика, деревья решений,
логистическая регрессия
Обучение модели
и тестирование
на потоке новых заявок
РЕЗУЛЬТАТЫ ПИЛОТА
При тестировании на потоке модель
выявила 8 заявок с признаками
мошенничества, по результатам
детального анализа заявок
по 5 из них мошенничество
подтвердилось
ВНЕДРЕНИЕ – 1 КВАРТАЛ 2018
Связи с другими заемщиками
Связи
с работодателями
Связи по общей
информации:
место жительство,
адреса, телефоны
Связи
с другими
продуктами
28
Пример:
 «Билетов на рейс Москва-Анапа нет, может, Вам
подойдут билеты на рейс Пекин-Мадрид?»
Recurrent NN (LSTM, seq2seq), Convolutional NN, Feed Forward Networks, Memory Networks
Трансформация чего-либо в вектора: word2vec, char2vec, sence2vec, mood2vec, persona2vec etc
К чему приводит? Неклиенториентированность
 «Сколько у меня денег на счету?»
 «У вас нет денег»
Критерии оценки чат-бота:
Понял правильно и ответил
Не понял и отправил на человека
Решил, что понял и ответил глупость >15% (по факту)
Нейросетевой искусственный интеллект iPavlov:
Современные технологии (1/3)
29
Нейросетевой искусственный интеллект iPavlov:
Данные (2/3)
Источники данных
 Открытая информация из интернета (форумы о банках, порталы банков, порталы вопросов/ответов)
 Публично доступная информация для клиентов Сбербанка
 Актуальная информация Сбербанка (локации банкоматов)
 Анонимизированные данные расшифровок звонков в call-center
 Внутренняя документация Сбербанка
Генерация данных для обучения DeepMind
 Amazon Turk для английского языка
 Яндекс Толока для русского языка
 Проведение хакатонов
 Создание публичных геймифицированных чатботов
 Включение чатботов в комп. игры (например, Minecraft)
Запланированные наборы данных
 Данные аналог SQuAD для банков на англ.
 Банковские форумы на англ. языке
 Sberbank QuAD
 Банковские форумы на русском языке
 Банковская документация на англ./русс.
 Анонимизированные данные Банка
30
Нейросетевой искусственный интеллект iPavlov.
Проблемы и решения (3/3)
Проблемы Решения
Чистая нейросетка выдает то, что придется
Стандартные ответы не всегда подходят, скрипты
писать долго
Нет выборки для обучения
Неясно как тестировать качество, необходимо
анализировать каждый диалог вручную
Устаревающая информация в обучающей выборке
Например, сегодня отделение банка, которое
рекомендовали вчера, уже закрыто в связи с переездом
Непротиворечивость поведения и имитация
личности, некоторые звонят просто поболтать
Оторванность от реальных условий бизнеса
Отвечать нужно быстро, есть несвязанные темы
 Не только нейросети (rule-based, онтология, фильтры и пр.)
 Учим вопросы, отвечаем шаблонами
 Решения на графах, как использует Google Translate для
выбора наиболее подходящего варианта из предложенных
(Beam Search)
 Датасеты. Принцип: As the tree so the fruit
 Новая система оценки качества – имитация асессоров
 Knowledge storages. Комбинация с Information Retrieval
и Wiki системой (актуальность)
 Граф RDF диалога, память модель личности,
в т.ч. через persona2vec и dialog2vec
 Тесная связь с реальными задачами
31

More Related Content

Кейсы машинного обучения в Сбербанке

  • 2. Машинное обучение в задачах сегментации клиентов: активность использования цифровых сервисов (1/2)  Экономически активные клиенты уходят в мобильный интернет  Новые каналы – мессенджеры ШАГ III Выявление характерных черт Идентификация ШАГ II Группа Особенности  Хотят казаться более продвинутыми Ограниченный пользовательский опыт  Потребители цифровых технологий Используют цифровые технологии в быту, но не на работе  Люди, вовлеченные в цифровую экономику Наиболее экономически и социально активные 2 1 ШАГ I Сегментация с использованием нелинейных методов СЕГМЕНТАЦИЯ КЛИЕНТОВ НА ОСНОВЕ ОТВЕТОВ В ЗАВИСИМОСТИ ОТ СЕГМЕНТА МОЖНО ОПРЕДЕЛИТЬ ПРИОРИТЕТНЫЕ КАНАЛЫ И ПОТРЕБНОСТИ МЕТОДЫ визуализация данных большой размерности с использованием LargeVis Выводы 3 19
  • 3. По Вашему мнению, какой процент наиболее экономически активных людей в России – агентов цифровой экономики – регулярно используют мобильный интернет? A. 15% B. 30% C. 45% D. 70% 20
  • 4. 2  активно используют интернет в работе 80%  регулярно пользуются проводным интернетом 35%  регулярно пользуются мобильным интернетом 30%  регулярно используют мессенджеры 15%  регулярно пользуются электронной почтой 25%  активно используют интернет в работе 40%  пользователи домашнего интернета 60%  регулярно пользуются проводным интернетом 45%  регулярно пользуются электронной почтой 10%  Активные агенты цифровой экономики  Потребители цифровых технологий  последний раз пользовались интернетом вчера 20%  регулярно пользуются поисковыми сервисами 10%  Последователи трендов 1 3 Машинное обучение в задачах сегментации клиентов: активность использования цифровых сервисов (2/2) 21
  • 5. Персональный финансовый менеджер (PFM): Как может выглядеть (1/2) 2019 2022 2025 20252028 Получена новая рекомендация! Запланированные события 1. Покупка авто ХV + 2019 2. Покупка дома ХV 2022 3. Свадьба ХV 2025 4. Рождение ребенка ХV 2028 Жизнь Год Профиль Рекомендации Подписка Настройки СЕГОДНЯ 19.09.2016 22:59 22
  • 6. События/цели 2016 2017 2018 2019 …2022 800 т.р. 100% 4 800 т.р. 7,7% 11,4% 15% 18,6% Первый взнос в размере 28% 1 500 т.р. 2,8% 4% 5,3% 6,7% Накоплено 10,2% от суммы Подтвердить исполнение рекомендации 1. Открыть вклад на сумму 1 250 000 рублей (списание с VISA **** 2567). Вид вклада «Цифровой». Срок 36 месяцев. Процент – 7,7% в год 2. Оформить поручение на ежемесячное перечисление на вклад «Цифровой» свободного остатка в размере 15 000 руб. с зарплатной карты Visa **** 2567 при зачислении зарплаты V Посмотреть детали Эффект от выполнения рекомендации Актуально на 19.09.2019 Предлагаем Рекомендация Х Отказаться от рекомендацииХ 23 Персональный финансовый менеджер (PFM): Индивидуальные рекомендации для клиента (2/2)
  • 7. Рекуррентные нейросети (RNN): Постановка и формализация задачи (1/2) АРХИТЕКТУРА  слой представлений категория транзакции → векторное представление  рекуррентный слой(-и) последовательность представлений → последовательность внутренних состояний  полносвязный слой последнее внутреннее представление → вектор предсказаний БИЗНЕС ЗАДАЧА реализовать классификатор, позволяющий автоматически выделять пользователей с определенными шаблонами поведения ШАБЛОН ПОВЕДЕНИЯ категории транзакций, которые пользователь совершит в ближайшее время ФОРМАЛИЗАЦИЯ ЗАДАЧИ  Исходные данные • лог транзакций 66 451 пользователей, транзакция: дата, mcc-код, тип, сумма, валюта, страна и пр. • классификация транзакций на 28 категорий по mcc-коду и типу  Предобработанные данные (объекты) • последовательности из 100 категорий подряд идущих транзакций одного пользователя  Задача предсказания • предсказать вероятности всех 28 категорий для следующих 3-х транзакций пользователя  Критерий качества • площадь под кривой точность-полнота, усредненная по всем категориям и по редким категориям 24
  • 8. Рекуррентные нейросети (RNN): Результаты (2/2) РЕЗУЛЬТАТЫ  после выбора архитектуры сети, подбора гиперпараметров и экспериментов по работе с редкими классами  качество на отложенной по времени выборке АЛГОРИТМ AUC ПО ВСЕМ КЛАССАМ AUC ПО РЕДКИМ КЛАССАМ Рекуррентная нейросеть 0.1885 0.1091 Random Forest 0.1766 0.1011 AUC ПО КЛАССАМ Рекуррентная сеть RandomForest 25
  • 9. Исходные данныеПостановка задачи (матем. интерпретация) Оптимизация наличного денежного обращения: Постановка задачи. Модели (1/2)  имеются временные ряды X(t) по снятию наличности с каждого банкомата, с дневной периодичностью  необходимо предсказать выдачу наличности на 30 дней вперед  большое количество выбросов  изменение трендов временного ряда, после нулевых значений  небольшая глубина данных Используемые модели 1. Baseline Model Строилась на среднем за 3 недели (по дню недели) 2. Random Forest Признаки:  Лаги  День недели  Дни до зарплаты 3. Facebook Prophet 4. Holt-Winters Model 26
  • 10. Оптимизация наличного денежного обращения: Кластеризация. Результаты (2/2) Кластеризация Итоговая модель (Blending моделей) MAPE ≈ 70% 27
  • 11. Идентификация мошенников физических лиц: Графовые методы ШАГ III Выявление признаков мошеннического окружения (графы) ШАГ IIШАГ I Сбор обучающей выборки: заявки с мошенничеством МЕТОДЫ: графовая аналитика, деревья решений, логистическая регрессия Обучение модели и тестирование на потоке новых заявок РЕЗУЛЬТАТЫ ПИЛОТА При тестировании на потоке модель выявила 8 заявок с признаками мошенничества, по результатам детального анализа заявок по 5 из них мошенничество подтвердилось ВНЕДРЕНИЕ – 1 КВАРТАЛ 2018 Связи с другими заемщиками Связи с работодателями Связи по общей информации: место жительство, адреса, телефоны Связи с другими продуктами 28
  • 12. Пример:  «Билетов на рейс Москва-Анапа нет, может, Вам подойдут билеты на рейс Пекин-Мадрид?» Recurrent NN (LSTM, seq2seq), Convolutional NN, Feed Forward Networks, Memory Networks Трансформация чего-либо в вектора: word2vec, char2vec, sence2vec, mood2vec, persona2vec etc К чему приводит? Неклиенториентированность  «Сколько у меня денег на счету?»  «У вас нет денег» Критерии оценки чат-бота: Понял правильно и ответил Не понял и отправил на человека Решил, что понял и ответил глупость >15% (по факту) Нейросетевой искусственный интеллект iPavlov: Современные технологии (1/3) 29
  • 13. Нейросетевой искусственный интеллект iPavlov: Данные (2/3) Источники данных  Открытая информация из интернета (форумы о банках, порталы банков, порталы вопросов/ответов)  Публично доступная информация для клиентов Сбербанка  Актуальная информация Сбербанка (локации банкоматов)  Анонимизированные данные расшифровок звонков в call-center  Внутренняя документация Сбербанка Генерация данных для обучения DeepMind  Amazon Turk для английского языка  Яндекс Толока для русского языка  Проведение хакатонов  Создание публичных геймифицированных чатботов  Включение чатботов в комп. игры (например, Minecraft) Запланированные наборы данных  Данные аналог SQuAD для банков на англ.  Банковские форумы на англ. языке  Sberbank QuAD  Банковские форумы на русском языке  Банковская документация на англ./русс.  Анонимизированные данные Банка 30
  • 14. Нейросетевой искусственный интеллект iPavlov. Проблемы и решения (3/3) Проблемы Решения Чистая нейросетка выдает то, что придется Стандартные ответы не всегда подходят, скрипты писать долго Нет выборки для обучения Неясно как тестировать качество, необходимо анализировать каждый диалог вручную Устаревающая информация в обучающей выборке Например, сегодня отделение банка, которое рекомендовали вчера, уже закрыто в связи с переездом Непротиворечивость поведения и имитация личности, некоторые звонят просто поболтать Оторванность от реальных условий бизнеса Отвечать нужно быстро, есть несвязанные темы  Не только нейросети (rule-based, онтология, фильтры и пр.)  Учим вопросы, отвечаем шаблонами  Решения на графах, как использует Google Translate для выбора наиболее подходящего варианта из предложенных (Beam Search)  Датасеты. Принцип: As the tree so the fruit  Новая система оценки качества – имитация асессоров  Knowledge storages. Комбинация с Information Retrieval и Wiki системой (актуальность)  Граф RDF диалога, память модель личности, в т.ч. через persona2vec и dialog2vec  Тесная связь с реальными задачами 31