Data mining

Data mining

Дмитрий Никотин
http://meetmarket.ru/
dmitrynikotin@gmail.com

Данных все больше и больше

Управленец
не может вручную обработать большие
массивы данных и принять решение

Проблема
имеется достаточно крупная база данных

Проблема
предполагается, что в базе данных находятся
некие «скрытые знания»*

«скрытые знания»*
1.

ранее не известные — то есть такие знания, которые должны
быть новыми (а не подтверждающими какие-то ранее
полученные сведения);

2.

нетривиальные — то есть такие, которые нельзя просто так
увидеть (при непосредственном визуальном анализе данных или
при вычислении простых статистических характеристик);

3.

практически полезные — то есть такие знания, которые
представляют ценность для исследователя или потребителя;

4.

доступные для интерпретации — то есть такие знания, которые
легко представить в наглядной для пользователя форме и легко
объяснить в терминах предметной области.

Проблема

Цель

Проблема

Цель
Обнаружить «знания»*, скрытые в больших объёмах
исходных «сырых» данных

«знания»*

• исходные данные (сырые данные) – необработанные массивы
данных, получаемые в результате наблюдения за некой
динамической системой (например, данные о котировках акций за
прошедший год);
• информация – обработанные данные, которые несут в себе некую
информационную ценность для пользователя; сырые данные,
представленные в более компактном виде;
• знания —отображают скрытые взаимосвязи межу объектами,
которые не являются общедоступными (в противном случае, это
будет просто информация).

Data mining
Извлечение знаний

Задачи, решаемые методами
Data Mining

• Классификация — отнесение входного вектора (объекта, события,
наблюдения) к одному из заранее известных классов.
• Кластеризация — разделение множества входных векторов на группы
(кластеры) по степени «похожести» друг на друга.
• Сокращение описания — для визуализации данных, упрощения счета и
интерпретации, сжатия объемов собираемой и хранимой информации.
• Ассоциация — поиск повторяющихся образцов. Например, поиск «устойчивых
связей в корзине покупателя».
• Прогнозирование – нахождение будущих состояний объекта на основании
предыдущих состояний (исторических данных)
• Анализ отклонений — например, выявление нетипичной сетевой активности
позволяет обнаружить вредоносные программы.
• Визуализация данных.

Инструменты
Data Mining

В опросе прин��ли участие
1880 специалистов

Самый большой объем данных для анализа?

Применение
Data mining

Пример 1. Ритейл (торговые сети)

Дано:
1. Большая торговая сеть имеет сотни магазинов по всей РФ,
десятки тысяч активных товаров.
2. Данные о продажах каждого товара в каждом конкретном
магазине в каждый момент времени (день или час) хранится в
учетной системе компании.
3. Торговая сеть ежедневно должна заказывать товары в свои
магазины.
Проблема:
Ежедневно в матрице, например [5000 Х 10 000] должно стоять
значение — сколько везти этого товара?

Проблема:
Ежедневно в матрице, например [10.130 Х 1.000.000 ]* должно стоять
например [10.130 Х 1.000.000 ]*
• Walmart — крупнейшая в мире розничная сеть, в которую входит
более 10130 магазинов.
• Walmart - имеет более 1.000.000 наименований продукции.

Источник:
www.walmart.com

Проблема:
Ежедневно в матрице, например [10.130 Х 1.000.000 ]* должно стоять
например [10.130 Х 1.000.000 ]*
• Walmart — крупнейшая в мире розничная сеть, в которую входит
более 10130 магазинов.
• Walmart - имеет более 1.000.000 наименований продукции.

Никакая армия аналитиков и товароведов
не справятся с решениям такой задачи.
Источник:
www.walmart.com

1. Если сеть закажет меньше, чем будет реальный спрос, то получит УБЫТКИ из-за
дефицита (и потеряет наценочную стоимость).

2. Если сеть закажет больше товаров, чем будет реальный спрос, то получит
УБЫТКИ из-за стоимости хранения товаров на складе, замороженных средств,
порчи товара после истечения срока годности.

ФАКТ: улучшение прогнозирующей модели способно снизить
издержки торговой сети на 1-2 процента от оборота.

Оборот

▲ $408,1 млрд (2010 год)

2% - 8,160,000,000

2% - 8,160,000,000
Олег Владимирович Дерипаска - 14 место среди миллиардеров России

Пример 2. Образование

Educational Data Mining

Пример 2. Образование

Educational Data Mining
методы исследования данных, использующихся в образовательных
целях, для принятия решений в сфере образования.

Цель
улучшить образовательный процесс

Цель
улучшить образовательный процесс
•
•
•

направить студентов в нужное русло
дать рекомендации преподавателям
понять феномен образования

Онлайн система
Используются лог-файлы, в которых содержится вся информация о работе
пользователя на сайте (клики, переходы, оценки и многое другое)

Онлайн система
Используются лог-файлы, в которых содержится вся информация о работе
пользователя на сайте (клики, переходы, оценки и многое другое)

Традиционная система
(университет,школа)
Тоже возможно, но в данном случае мы обладаем очень разобщенной и
недостаточной информацией на данный момент

Методы
Помимо стандартных методов :
• кластеризации
• классификации
• регрессии
• корреляции
• визуализации
• Статистики
В EDM используются и некоторые специфичные, например, из
области психометрики.

Зачем?
помогают разбивать студентов на группы
по восприятию информации*

позволяет адаптировать образовательный
процесс под студента
подбирать соответствующий тип контента и
определённым образом его организовывать

Проект в сфере онлайн-образования, основанный профессорами Стэнфордского
университета Эндрю Нг и Дафной Келлер.
Посещаемость – 2.7 млн человек
Текущий статус – публичное бета тестирование

Целевая аудитория

У нас есть студент, который хочет понять как
управлять персоналом.

Когда студент хочет получить знания в интернете – он использует
образовательную онлайн систему.
Она взаимодействует со студентом, обеспечивая
индивидуализированный контент и адаптированную помощь.

Источник: информация об обучении и его личных данных, которые он
заполняет в профиле или из ответов на анкеты курсов.

Система собирает детализированную информацию о том, какой контент
студент открывает чаще всего (задание, видео, текст).
А также скорость, длительность и частоту его просмотра.
После сохраняет в базу данных.

Полученная информация обрабатывается и основываясь на полученных
моделях обучения, система пытается наилучшим образом адаптировать
курс под студента.

Также система может дать рекомендации других курсов. Существует
огромное количество рекомендационных алгоритмов*, которые можно
использовать.

Если система видит, что студент очень быстро справляется с домашними
заданиями, быстро проматывает учебный материал, то она может
предложить ему “обходные” (сокращённые) пути прохождения курса —
более сложные задания, прохождение на более сложную ступень при
сдаче экзамена и пр.

В ином случае она поможет сгенерировать адаптированную
подсказку.
Если у студента возникли проблемы с какой-то частью курса ( это
можно понять на основе ошибок в домашних заданиях и вопросам на
форуме)

Система может дать рекомендацию по дополнительному материалу
или перенаправить его на соответствующую главу.

У нас есть преподаватель, который хочет улучшить
курс.

При создании курса, основываясь на анализе уже имеющихся курсов,
преподаватель сможет заранее предсказывать поведение студента и
адаптировать материал под его нужды.

Во время курса очень важно получать фитбек (ответную реакцию) о
процессе обучения. Например, это может быть интегральная оценка или
динамика работы студентов по курсу.

Также у преподавателя есть возможность классифицировать обучающихся
по группам, например, по успеваемости, активности, полу, возрасту,
бекграунду и пр.

Система предоставляет инструменты для частоты и распределения
ошибок, которые совершают студенты.
С помощью дополнительных параметров, например таких как
просмотренные темы, предыдущие оценки, возможно понять причины
ошибок.

Автоматически создавать модели студента и наставника.
Основываясь на данных о преподавателях и студентах, здесь как раз помогут
психометрики, можно подбирать наилучшие комбинации студент-наставник, что
должно повысить усваиваемость материала.

В заключение об использовании EDM
Основные направления, по которым ведутся разработки, можно посмотреть на
диаграмме. Данные собраны по 300 работам до 2009 года.

Пример 3. Data mining на службе у HR

Microsoft и IBM и Google сейчас используют программы для математического
анализа ценности каждого отдельного сотрудника.

Комплексный анализ документооборота, почтовой переписки, SMS-сообщений и
прочих каналов коммуникации — с распознаванием эмоций, поведенческих
привычек и прочих невербальных характеристик каждого пользователя.

Data mining
Будущее здесь

Обсудим?
• vk.com/dmitry_nikotin
• facebook.com/dmitry.nikotin
• twitter.com/Dmitry_Nikotin

dmitrynikotin@gmail.com

Data mining

More Related Content

Data mining