SlideShare a Scribd company logo
Data mining

Дмитрий Никотин
http://meetmarket.ru/
dmitrynikotin@gmail.com
Данных все больше и больше
Управленец
не может вручную обработать большие
массивы данных и принять решение
Проблема
Проблема
имеется достаточно крупная база данных
Проблема
имеется достаточно крупная база данных
предполагается, что в базе данных находятся
некие «скрытые знания»*
«скрытые знания»*
1.

ранее не известные — то есть такие знания, которые должны
быть новыми (а не подтверждающими какие-то ранее
полученные сведения);

2.

нетривиальные — то есть такие, которые нельзя просто так
увидеть (при непосредственном визуальном анализе данных или
при вычислении простых статистических характеристик);

3.

практически полезные — то есть такие знания, которые
представляют ценность для исследователя или потребителя;

4.

доступные для интерпретации — то есть такие знания, которые
легко представить в наглядной для пользователя форме и легко
объяснить в терминах предметной области.
Проблема
имеется достаточно крупная база данных
предполагается, что в базе данных находятся
некие «скрытые знания»*

Цель
Проблема
имеется достаточно крупная база данных
предполагается, что в базе данных находятся
некие «скрытые знания»*

Цель
Обнаружить «знания»*, скрытые в больших объёмах
исходных «сырых» данных
«знания»*

• исходные данные (сырые данные) – необработанные массивы
данных, получаемые в результате наблюдения за некой
динамической системой (например, данные о котировках акций за
прошедший год);
• информация – обработанные данные, которые несут в себе некую
информационную ценность для пользователя; сырые данные,
представленные в более компактном виде;
• знания —отображают скрытые взаимосвязи межу объектами,
которые не являются общедоступными (в противном случае, это
будет просто информация).
Data mining
Data mining
Извлечение знаний
Задачи, решаемые методами
Data Mining
• Классификация — отнесение входного вектора (объекта, события,
наблюдения) к одному из заранее известных классов.
• Кластеризация — разделение множества входных векторов на группы
(кластеры) по степени «похожести» друг на друга.
• Сокращение описания — для визуализации данных, упрощения счета и
интерпретации, сжатия объемов собираемой и хранимой информации.
• Ассоциация — поиск повторяющихся образцов. Например, поиск «устойчивых
связей в корзине покупателя».
• Прогнозирование – нахождение будущих состояний объекта на основании
предыдущих состояний (исторических данных)
• Анализ отклонений — например, выявление нетипичной сетевой активности
позволяет обнаружить вредоносные программы.
• Визуализация данных.
Инструменты
Data Mining
В опросе прин��ли участие
1880 специалистов
Самый большой объем данных для анализа?
Применение
Data mining
Пример 1. Ритейл (торговые сети)

Дано:
1. Большая торговая сеть имеет сотни магазинов по всей РФ,
десятки тысяч активных товаров.
2. Данные о продажах каждого товара в каждом конкретном
магазине в каждый момент времени (день или час) хранится в
учетной системе компании.
3. Торговая сеть ежедневно должна заказывать товары в свои
магазины.
Проблема:
Ежедневно в матрице, например [5000 Х 10 000] должно стоять
значение — сколько везти этого товара?
Проблема:
Ежедневно в матрице, например [10.130 Х 1.000.000 ]* должно стоять
значение — сколько везти этого товара?
например [10.130 Х 1.000.000 ]*
• Walmart — крупнейшая в мире розничная сеть, в которую входит
более 10130 магазинов.
• Walmart - имеет более 1.000.000 наименований продукции.

Источник:
www.walmart.com
Проблема:
Ежедневно в матрице, например [10.130 Х 1.000.000 ]* должно стоять
значение — сколько везти этого товара?
например [10.130 Х 1.000.000 ]*
• Walmart — крупнейшая в мире розничная сеть, в которую входит
более 10130 магазинов.
• Walmart - имеет более 1.000.000 наименований продукции.

Никакая армия аналитиков и товароведов
не справятся с решениям такой задачи.
Источник:
www.walmart.com
Зачем?
1. Если сеть закажет меньше, чем будет реальный спрос, то получит УБЫТКИ из-за
дефицита (и потеряет наценочную стоимость).

2. Если сеть закажет больше товаров, чем будет реальный спрос, то получит
УБЫТКИ из-за стоимости хранения товаров на складе, замороженных средств,
порчи товара после истечения срока годности.
В цифрах
ФАКТ: улучшение прогнозирующей модели способно снизить
издержки торговой сети на 1-2 процента от оборота.

Оборот

▲ $408,1 млрд (2010 год)

2% - 8,160,000,000
2% - 8,160,000,000
Олег Владимирович Дерипаска - 14 место среди миллиардеров России
Пример 2. Образование

Educational Data Mining
Пример 2. Образование

Educational Data Mining
методы исследования данных, использующихся в образовательных
целях, для принятия решений в сфере образования.
Цель
улучшить образовательный процесс
Цель
улучшить образовательный процесс
•
•
•

направить студентов в нужное русло
дать рекомендации преподавателям
понять феномен образования
Как?
Онлайн система
Используются лог-файлы, в которых содержится вся информация о работе
пользователя на сайте (клики, переходы, оценки и многое другое)
Онлайн система
Используются лог-файлы, в которых содержится вся информация о работе
пользователя на сайте (клики, переходы, оценки и многое другое)

Традиционная система
(университет,школа)
Тоже возможно, но в данном случае мы обладаем очень разобщенной и
недостаточной информацией на данный момент
Методы
Помимо стандартных методов :
• кластеризации
• классификации
• регрессии
• корреляции
• визуализации
• Статистики
В EDM используются и некоторые специфичные, например, из
области психометрики.
Зачем?
помогают разбивать студентов на группы
по восприятию информации*
позволяет адаптировать образовательный
процесс под студента
подбирать соответствующий тип контента и
определённым образом его организовывать
Проект в сфере онлайн-образования, основанный профессорами Стэнфордского
университета Эндрю Нг и Дафной Келлер.
Посещаемость – 2.7 млн человек
Текущий статус – публичное бета тестирование
Целевая аудитория
У нас есть студент, который хочет понять как
управлять персоналом.
Когда студент хочет получить знания в интернете – он использует
образовательную онлайн систему.
Она взаимодействует со студентом, обеспечивая
индивидуализированный контент и адаптированную помощь.

Источник: информация об обучении и его личных данных, которые он
заполняет в профиле или из ответов на анкеты курсов.
Система собирает детализированную информацию о том, какой контент
студент открывает чаще всего (задание, видео, текст).
А также скорость, длительность и частоту его просмотра.
После сохраняет в базу данных.
Полученная информация обрабатывается и основываясь на полученных
моделях обучения, система пытается наилучшим образом адаптировать
курс под студента.
Также система может дать рекомендации других курсов. Существует
огромное количество рекомендационных алгоритмов*, которые можно
использовать.
Если система видит, что студент очень быстро справляется с домашними
заданиями, быстро проматывает учебный материал, то она может
предложить ему “обходные” (сокращённые) пути прохождения курса —
более сложные задания, прохождение на более сложную ступень при
сдаче экзамена и пр.
В ином случае она поможет сгенерировать адаптированную
подсказку.
Если у студента возникли проблемы с какой-то частью курса ( это
можно понять на основе ошибок в домашних заданиях и вопросам на
форуме)

Система может дать рекомендацию по дополнительному материалу
или перенаправить его на соответствующую главу.
У нас есть преподаватель, который хочет улучшить
курс.
При создании курса, основываясь на анализе уже имеющихся курсов,
преподаватель сможет заранее предсказывать поведение студента и
адаптировать материал под его нужды.
Во время курса очень важно получать фитбек (ответную реакцию) о
процессе обучения. Например, это может быть интегральная оценка или
динамика работы студентов по курсу.
Также у преподавателя есть возможность классифицировать обучающихся
по группам, например, по успеваемости, активности, полу, возрасту,
бекграунду и пр.
Система предоставляет инструменты для частоты и распределения
ошибок, которые совершают студенты.
С помощью дополнительных параметров, например таких как
просмотренные темы, предыдущие оценки, возможно понять причины
ошибок.
Автоматически создавать модели студента и наставника.
Основываясь на данных о преподавателях и студентах, здесь как раз помогут
психометрики, можно подбирать наилучшие комбинации студент-наставник, что
должно повысить усваиваемость материала.
В заключение об использовании EDM
Основные направления, по которым ведутся разработки, можно посмотреть на
диаграмме. Данные собраны по 300 работам до 2009 года.
Пример 3. Data mining на службе у HR

Microsoft и IBM и Google сейчас используют программы для математического
анализа ценности каждого отдельного сотрудника.

Комплексный анализ документооборота, почтовой переписки, SMS-сообщений и
прочих каналов коммуникации — с распознаванием эмоций, поведенческих
привычек и прочих невербальных характеристик каждого пользователя.
Data mining
Будущее здесь
Обсудим?
• vk.com/dmitry_nikotin
• facebook.com/dmitry.nikotin
• twitter.com/Dmitry_Nikotin

dmitrynikotin@gmail.com

More Related Content

Data mining

  • 3. Управленец не может вручную обработать большие массивы данных и принять решение
  • 6. Проблема имеется достаточно крупная база данных предполагается, что в базе данных находятся некие «скрытые знания»*
  • 7. «скрытые знания»* 1. ранее не известные — то есть такие знания, которые должны быть новыми (а не подтверждающими какие-то ранее полученные сведения); 2. нетривиальные — то есть такие, которые нельзя просто так увидеть (при непосредственном визуальном анализе данных или при вычислении простых статистических характеристик); 3. практически полезные — то есть такие знания, которые представляют ценность для исследователя или потребителя; 4. доступные для интерпретации — то есть такие знания, которые легко представить в наглядной для пользователя форме и легко объяснить в терминах предметной области.
  • 8. Проблема имеется достаточно крупная база данных предполагается, что в базе данных находятся некие «скрытые знания»* Цель
  • 9. Проблема имеется достаточно крупная база данных предполагается, что в базе данных находятся некие «скрытые знания»* Цель Обнаружить «знания»*, скрытые в больших объёмах исходных «сырых» данных
  • 10. «знания»* • исходные данные (сырые данные) – необработанные массивы данных, получаемые в результате наблюдения за некой динамической системой (например, данные о котировках акций за прошедший год); • информация – обработанные данные, которые несут в себе некую информационную ценность для пользователя; сырые данные, представленные в более компактном виде; • ��нания —отображают скрытые взаимосвязи межу объектами, которые не являются общедоступными (в противном случае, это будет просто информация).
  • 14. • Классификация — отнесение входного вектора (объекта, события, наблюдения) к одному из заранее известных классов. • Кластеризация — разделение множества входных векторов на группы (кластеры) по степени «похожести» друг на ��руга. • Сокращение описания — для визуализации данных, упрощения счета и интерпретации, сжатия объемов собираемой и хранимой информации. • Ассоциация — поиск повторяющихся образцов. Например, поиск «устойчивых связей в корзине покупателя». • Прогнозирование – нахождение будущих состояний объекта на основании предыдущих состояний (исторических данных) • Анализ отклонений — например, выявление нетипичной сетевой активности позволяет обнаружить вредоносные программы. • Визуализация данных.
  • 16. В опросе приняли участие 1880 специалистов
  • 17. Самый большой объем данных для анализа?
  • 19. Пример 1. Ритейл (торговые сети) Дано: 1. Большая торговая сеть имеет сотни магазинов по всей РФ, десятки тысяч активных товаров. 2. Данные о продажах каждого товара в каждом конкретном магазине в каждый момент времени (день или час) хранится в учетной системе компании. 3. Торговая сеть ежедневно должна заказывать товары в свои магазины. Проблема: Ежедневно в матрице, например [5000 Х 10 000] должно стоять значение — сколько везти этого товара?
  • 20. Проблема: Ежедневно в матрице, например [10.130 Х 1.000.000 ]* должно стоять значение — сколько везти этого товара? например [10.130 Х 1.000.000 ]* • Walmart — крупнейшая в мире розничная сеть, в которую входит более 10130 магазинов. • Walmart - имеет более 1.000.000 наименований продукции. Источник: www.walmart.com
  • 21. Проблема: Ежедневно в матрице, например [10.130 Х 1.000.000 ]* должно стоять значение — сколько везти этого товара? например [10.130 Х 1.000.000 ]* • Walmart — крупнейшая в мире розничная сеть, в которую входит более 10130 магазинов. • Walmart - имеет более 1.000.000 наименований продукции. Никакая армия аналитиков и товароведов не справятся с решениям такой задачи. Источник: www.walmart.com
  • 23. 1. Если сеть закажет меньше, чем будет реальный спрос, то получит УБЫТКИ из-за дефицита (и потеряет наценочную стоимость). 2. Если сеть закажет больше товаров, чем будет реальный спрос, то получит УБЫТКИ из-за стоимости хранения товаров на складе, замороженных средств, порчи товара после истечения срока годности.
  • 25. ФАКТ: улучшение прогнозирующей модели способно снизить издержки торговой сети на 1-2 процента от оборота. Оборот ▲ $408,1 млрд (2010 год) 2% - 8,160,000,000
  • 26. 2% - 8,160,000,000 Олег Владимирович Дерипаска - 14 место среди миллиардеров России
  • 28. Пример 2. Образование Educational Data Mining методы исследования данных, использующихся в образовательных целях, для принятия решений в сфере образования.
  • 30. Цель улучшить образовательный процесс • • • направить студентов в нужное русло дать рекомендации преподавателям понять феномен образования
  • 32. Онлайн система Используются лог-файлы, в которых содержится вся информация о работе пользователя на сайте (клики, переходы, оценки и многое другое)
  • 33. Онлайн система Используются лог-файлы, в которых содержится вся информация о работе пользователя на сайте (клики, переходы, оценки и многое другое) Традиционная система (университет,школа) Тоже возможно, но в данном случае мы обладаем очень разобщенной и недостаточной информацией на данный момент
  • 34. Методы Помимо стандартных методов : • кластеризации • классификации • регрессии • корреляции • визуализации • Статистики В EDM используются и некоторые специфичные, например, из области психометрики.
  • 35. Зачем? помогают разбивать студентов на группы по восприятию информации*
  • 36. позволяет адаптировать образовательный процесс под студента подбирать соответствующий тип контента и определённым образом его организовывать
  • 37. Проект в сфере онлайн-образования, основанный профессорами Стэнфордского университета Эндрю Нг и Дафной Келлер. Посещаемость – 2.7 млн человек Текущий статус – публичное бета тестирование
  • 39. У нас есть студент, который хочет понять как управлять персоналом.
  • 40. Когда студент хочет получить знания в интернете – он использует образовательную онлайн систему. Она взаимодействует со студентом, обеспечивая индивидуализированный контент и адаптированную помощь. Источник: информация об обучении и его личных данных, которые он заполняет в профиле или из ответов на анкеты курсов.
  • 41. Система собирает детализированную информацию о том, какой контент студент открывает чаще всего (задание, видео, текст). А также скорость, длительность и частоту его просмотра. После сохраняет в базу данных.
  • 42. Полученная информация обрабатывается и основываясь на полученных ��оделях обучения, система пытается наилучшим образом адаптировать курс под студента.
  • 43. Также система может дать рекомендации других курсов. Существует огромное количество рекомендационных алгоритмов*, которые можно использовать.
  • 44. Если система видит, что студент очень быстро справляется с домашними заданиями, быстро проматывает учебный материал, то она может предложить ему “обходные” (сокращённые) пути прохождения курса — более сложные задания, прохождение на более сложную ступень при сдаче экзамена и пр.
  • 45. В ином случае она поможет сгенерировать адаптированную подсказку. Если у студента возникли проблемы с какой-то частью курса ( это можно понять на основе ошибок в домашних заданиях и вопросам на форуме) Система может дать рекомендацию по дополнительному материалу или перенаправить его на соответствующую главу.
  • 46. У нас есть преподаватель, который хочет улучшить курс.
  • 47. При создании курса, основываясь на анализе уже имеющихся курсов, преподаватель сможет заранее предсказывать поведение студента и адаптировать материал под его нужды.
  • 48. Во время курса очень важно получать фитбек (ответную реакцию) о процессе обучения. Например, это может быть интегральная оценка или динамика работы студентов по курсу.
  • 49. Также у преподавателя есть возможность классифицировать обучающихся по группам, например, по успеваемости, активности, полу, возрасту, бекграунду и пр.
  • 50. Система предоставляет инструменты для частоты и распределения ошибок, которые совершают студенты. С помощью дополнительных параметров, например таких как просмотренные темы, предыдущие оценки, возможно понять причины ошибок.
  • 51. Автоматически создавать модели студента и наставника. Основываясь на данных о преподавателях и студентах, здесь как раз помогут психометрики, можно подбирать наилучшие комбинации студент-наставник, что должно повысить усваиваемость мате��иала.
  • 52. В заключение об использовании EDM Основные направления, по которым ведутся разработки, можно посмотреть на диаграмме. Данные собраны по 300 работам до 2009 года.
  • 53. Пример 3. Data mining на службе у HR Microsoft и IBM и Google сейчас используют программы для математического анализа ценности каждого отдельного сотрудника. Комплексный анализ документооборота, почтовой переписки, SMS-сообщений и прочих каналов коммуникации — с распознаванием эмоций, поведенческих привычек и прочих невербальных характеристик каждого пользователя.
  • 55. Обсудим? • vk.com/dmitry_nikotin • facebook.com/dmitry.nikotin • twitter.com/Dmitry_Nikotin dmitrynikotin@gmail.com