Data Mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
7. «скрытые знания»*
1.
ранее не известные — то есть такие знания, которые должны
быть новыми (а не подтверждающими какие-то ранее
полученные сведения);
2.
нетривиальные — то есть такие, которые нельзя просто так
увидеть (при непосредственном визуальном анализе данных или
при вычислении простых статистических характеристик);
3.
практически полезные — то есть такие знания, которые
представляют ценность для исследователя или потребителя;
4.
доступные для интерпретации — то есть такие знания, которые
легко представить в наглядной для пользователя форме и легко
объяснить в терминах предметной области.
9. Проблема
имеется достаточно крупная база данных
предполагается, что в базе данных находятся
некие «скрытые знания»*
Цель
Обнаружить «знания»*, скрытые в больших объёмах
исходных «сырых» данных
10. «знания»*
• исходные данные (сырые данные) – необработанные массивы
данных, получаемые в результате наблюдения за некой
динамической системой (например, данные о котировках акций за
прошедший год);
• информация – обработанные данные, которые несут в себе некую
информационную ценность для пользователя; сырые данные,
представленные в более компактном виде;
• ��нания —отображают скрытые взаимосвязи межу объектами,
которые не являются общедоступными (в противном случае, это
будет просто информация).
14. • Классификация — отнесение входного вектора (объекта, события,
наблюдения) к одному из заранее известных классов.
• Кластеризация — разделение множества входных векторов на группы
(кластеры) по степени «похожести» друг на ��руга.
• Сокращение описания — для визуализации данных, упрощения счета и
интерпретации, сжатия объемов собираемой и хранимой информации.
• Ассоциация — поиск повторяющихся образцов. Например, поиск «устойчивых
связей в корзине покупателя».
• Прогнозирование – нахождение будущих состояний объекта на основании
предыдущих состояний (исторических данных)
• Анализ отклонений — например, выявление нетипичной сетевой активности
позволяет обнаружить вредоносные программы.
• Визуализация данных.
19. Пример 1. Ритейл (торговые сети)
Дано:
1. Большая торговая сеть имеет сотни магазинов по всей РФ,
десятки тысяч активных товаров.
2. Данные о продажах каждого товара в каждом конкретном
магазине в каждый момент времени (день или час) хранится в
учетной системе компании.
3. Торговая сеть ежедневно должна заказывать товары в свои
магазины.
Проблема:
Ежедневно в матрице, например [5000 Х 10 000] должно стоять
значение — сколько везти этого товара?
20. Проблема:
Ежедневно в матрице, например [10.130 Х 1.000.000 ]* должно стоять
значение — сколько везти этого товара?
например [10.130 Х 1.000.000 ]*
• Walmart — крупнейшая в мире розничная сеть, в которую входит
более 10130 магазинов.
• Walmart - имеет более 1.000.000 наименований продукции.
Источник:
www.walmart.com
21. Проблема:
Ежедневно в матрице, например [10.130 Х 1.000.000 ]* должно стоять
значение — сколько везти этого товара?
например [10.130 Х 1.000.000 ]*
• Walmart — крупнейшая в мире розничная сеть, в которую входит
более 10130 магазинов.
• Walmart - имеет более 1.000.000 наименований продукции.
Никакая армия аналитиков и товароведов
не справятся с решениям такой задачи.
Источник:
www.walmart.com
23. 1. Если сеть закажет меньше, чем будет реальный спрос, то получит УБЫТКИ из-за
дефицита (и потеряет наценочную стоимость).
2. Если сеть закажет больше товаров, чем будет реальный спрос, то получит
УБЫТКИ из-за стоимости хранения товаров на складе, замороженных средств,
порчи товара после истечения срока годности.
25. ФАКТ: улучшение прогнозирующей модели способно снизить
издержки торговой сети на 1-2 процента от оборота.
Оборот
▲ $408,1 млрд (2010 год)
2% - 8,160,000,000
28. Пример 2. Образование
Educational Data Mining
методы исследования данных, использующихся в образовательных
целях, для принятия решений в сфере образования.
33. Онлайн система
Используются лог-файлы, в которых содержится вся информация о работе
пользователя на сайте (клики, переходы, оценки и многое другое)
Традиционная система
(университет,школа)
Тоже возможно, но в данном случае мы обладаем очень разобщенной и
недостаточной информацией на данный момент
34. Методы
Помимо стандартных методов :
• кластеризации
• классификации
• регрессии
• корреляции
• визуализации
• Статистики
В EDM используются и некоторые специфичные, например, из
области психометрики.
37. Проект в сфере онлайн-образования, основанный профессорами Стэнфордского
университета Эндрю Нг и Дафной Келлер.
Посещаемость – 2.7 млн человек
Текущий статус – публичное бета тестирование
39. У нас есть студент, который хочет понять как
управлять персоналом.
40. Когда студент хочет получить знания в интернете – он использует
образовательную онлайн систему.
Она взаимодействует со студентом, обеспечивая
индивидуализированный контент и адаптированную помощь.
Источник: информация об обучении и его личных данных, которые он
заполняет в профиле или из ответов на анкеты курсов.
41. Система собирает детализированную информацию о том, какой контент
студент открывает чаще всего (задание, видео, текст).
А также скорость, длительность и частоту его просмотра.
После сохраняет в базу данных.
42. Полученная информация обрабатывается и основываясь на полученных
��оделях обучения, система пытается наилучшим образом адаптировать
курс под студента.
43. Также система может дать рекомендации других курсов. Существует
огромное количество рекомендационных алгоритмов*, которые можно
использовать.
44. Если система видит, что студент очень быстро справляется с домашними
заданиями, быстро проматывает учебный материал, то она может
предложить ему “обходные” (сокращённые) пути прохождения курса —
более сложные задания, прохождение на более сложную ступень при
сдаче экзамена и пр.
45. В ином случае она поможет сгенерировать адаптированную
подсказку.
Если у студента возникли проблемы с какой-то частью курса ( это
можно понять на основе ошибок в домашних заданиях и вопросам на
форуме)
Система может дать рекомендацию по дополнительному материалу
или перенаправить его на соответствующую главу.
46. У нас есть преподаватель, который хочет улучшить
курс.
47. При создании курса, основываясь на анализе уже имеющихся курсов,
преподаватель сможет заранее предсказывать поведение студента и
адаптировать материал под его нужды.
48. Во время курса очень важно получать фитбек (ответную реакцию) о
процессе обучения. Например, это может быть интегральная оценка или
динамика работы студентов по курсу.
49. Также у преподавателя есть возможность классифицировать обучающихся
по группам, например, по успеваемости, активности, полу, возрасту,
бекграунду и пр.
50. Система предоставляет инструменты для частоты и распределения
ошибок, которые совершают студенты.
С помощью дополнительных параметров, например таких как
просмотренные темы, предыдущие оценки, возможно понять причины
ошибок.
51. Автоматически создавать модели студента и наставника.
Основываясь на данных о преподавателях и студентах, здесь как раз помогут
психометрики, можно подбирать наилучшие комбинации студент-наставник, что
должно повысить усваиваемость мате��иала.
52. В заключение об использовании EDM
Основные направления, по которым ведутся разработки, можно посмотреть на
диаграмме. Данные собраны по 300 работам до 2009 года.
53. Пример 3. Data mining на службе у HR
Microsoft и IBM и Google сейчас используют программы для математического
анализа ценности каждого отдельного сотрудника.
Комплексный анализ документооборота, почтовой переписки, SMS-сообщений и
прочих каналов коммуникации — с распознаванием эмоций, поведенческих
привычек и прочих невербальных характеристик каждого пользователя.