Главная / Информатика / Data Mining

Презентация на тему: Data Mining

Получить код Наши баннеры

Data Mining ДокладчикиВведение в Data MiningДеревья решенийМетод ближайшего соседа

Докладчики Александра Симонова, Мат-Мех, 5 курс

История Data Mining 1960-е гг. – первая промышленная СУБД система IMS фирмы IBM.1970-е гг. – Conference on Data System Languages (CODASYL)1980-е гг. – SQL1990-е гг. – Data Mining

Возникновение Data Mining. Способствующие факторы совершенствование аппаратного и программного обеспечения; совершенствование технологий хранения и записи данных; накопление большого количества ретроспективных данных; совершенствование алгоритмов об…

Понятие Data Mining Data Mining - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Gregory …

Задачи Data Mining КлассификацияКластеризацияПрогнозированиеАссоциацияВизуализацияанализ и обнаружение отклоненийОцениваниеАнализ связейПодведение итогов

Стадии Data Mining СВОБОДНЫЙ ПОИСК (в том числе ВАЛИДАЦИЯ)ПРОГНОСТИЧЕСКОЕ МОДЕЛИРОВАНИЕАНАЛИЗ ИСКЛЮЧЕНИЙ

Методы Data Mining. Технологические методы. Непосредственное использование данных, или сохранение данных:кластерный анализ, метод ближайшего соседа, метод k-ближайшего соседа, рассуждение по аналогии (этот метод будет рассмотрен подробнее)Выявление …

Методы Data Mining. Статистические методы. Дескриптивный анализ и описание исходных данных.Анализ связей (корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ).Многомерный статистический анализ (компонентный анализ, дискрими…

Методы Data Mining. Кибернетические методы. Искусственные нейронные сети (распознавание, кластеризация, прогноз);Эволюционное программирование (в т.ч. алгоритмы метода группового учета аргументов); Генетические алгоритмы (оптимизация);Ассоциативная …

Визуализация инструментов Data Mining. Для деревьев решений - визуализатор дерева решений, список правил, таблица сопряженности. Для нейронных сетей - в зависимости от инструмента это может быть топология сети, график изменения величины ошибки, демо…

Проблемы и вопросы Data Mining не может заменить аналитика!Сложность разработки и эксплуатации приложения Data Mining. Основные аспекты:Квалификация пользователяСложность подготовки данныхБольшой процент ложных, недостоверных или бессмысленных резул…

Области применения Data mining Database marketers - Рыночная сегментация, идентификация целевых групп, построение профиля клиентаБанковское дело - Анализ кредитных рисков, привлечение и удержание клиентов, управление ресурсамиКредитные компании - Де…

Области применения Data mining. Продолжение. Телекоммуникация и энергетика - Привлечение клиентов, ценовая политика, анализ отказов, предсказание пиковых нагрузок, прогнозирование поступления средствНалоговые службы и аудиторы - Детекция подлогов, п…

Перспективы технологии Data Mining. выделение типов предметных областей с соответствующими им эвристикамисоздание формальных языков и логических средств, с помощью которых будет формализованы рассуждения создание методов Data Mining, способных не то…

Деревья решений. История и основные понятия. Возникновение - 50-е годы (Ховиленд и Хант (Hoveland, Hunt) )Метод также называют деревьями решающих правил, деревьями классификации и регрессии Это способ представления правил в иерархической, последоват…

Деревья решений. Преимущества метода. Интуитивность деревьев решений Возможность извлекать правила из базы данных на естественном языке Не требует от пользователя выбора входных атрибутов Точность моделей Разработан ряд масштабируемых алгоритмов Быс…

Деревья решений. Процесс конструирования. Основные этапы алгоритмов конструирования деревьев:

Деревья решений. Остановка построения дерева. Остановка - такой момент в процессе построения дерева, когда следует прекратить дальнейшие ветвления. Варианты остановки:

Деревья решений. Сокращение дерева или отсечение ветвей. Критерии:Точность распознавания Ошибка

Деревья решений. Алгоритмы. CART . CART (Classification and Regression Tree) разработан в 1974-1984 годах четырьмя профессорами статистики - Leo Breiman (Berkeley), Jerry Friedman (Stanford), Charles Stone (Berkeley) и Richard Olshen (Stanford) CART…

Деревья решений. Алгоритмы. C4.5 . Строит дерево решений с неограниченным количеством ветвей у узла Дискретные значения => только классификацияКаждая запись набора данных ассоциирована с одним из предопределенных классов => один из атрибутов набора …

Деревья решений. Перспективы метода и выводы. Разработка новых масштабируемых алгоритмов (Sprint, предложенный Джоном Шафером) Метод деревьев - иерархическое, гибкое средство предсказания принадлежности объектов к определенному классу или прогнозиро…

1 из 36

Презентация на тему: Data Mining

Скачать эту презентацию

№ слайда 1 Data Mining ДокладчикиВведение в Data MiningДеревья решенийМетод ближайшего сосе

Описание слайда:

Data Mining ДокладчикиВведение в Data MiningДеревья решенийМетод ближайшего соседа

№ слайда 2 Докладчики Александра Симонова, Мат-Мех, 5 курс

Описание слайда:

Докладчики Александра Симонова, Мат-Мех, 5 курс

№ слайда 3 История Data Mining 1960-е гг. – первая промышленная СУБД система IMS фирмы IBM.

Описание слайда:

История Data Mining 1960-е гг. – первая промышленная СУБД система IMS фирмы IBM.1970-е гг. – Conference on Data System Languages (CODASYL)1980-е гг. – SQL1990-е гг. – Data Mining

№ слайда 4 Возникновение Data Mining. Способствующие факторы совершенствование аппаратного

Описание слайда:

Возникновение Data Mining. Способствующие факторы совершенствование аппаратного и программного обеспечения; совершенствование технологий хранения и записи данных; накопление большого количества ретроспективных данных; совершенствование алгоритмов обработки информации.

№ слайда 5 Понятие Data Mining Data Mining - это процесс обнаружения в сырых данных ранее н

Описание слайда:

Понятие Data Mining Data Mining - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Gregory Piatetsky-Shapiro Это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей.

№ слайда 6 Мультидисциплинарность

Описание слайда:

Мультидисциплинарность

№ слайда 7 Задачи Data Mining КлассификацияКластеризацияПрогнозированиеАссоциацияВизуализац

Описание слайда:

Задачи Data Mining КлассификацияКластеризацияПрогнозированиеАссоциацияВизуализацияанализ и обнаружение отклоненийОцениваниеАнализ связейПодведение итогов

№ слайда 8 Стадии Data Mining СВОБОДНЫЙ ПОИСК (в том числе ВАЛИДАЦИЯ)ПРОГНОСТИЧЕСКОЕ МОДЕЛИ

Описание слайда:

Стадии Data Mining СВОБОДНЫЙ ПОИСК (в том числе ВАЛИДАЦИЯ)ПРОГНОСТИЧЕСКОЕ МОДЕЛИРОВАНИЕАНАЛИЗ ИСКЛЮЧЕНИЙ

№ слайда 9 Методы Data Mining. Технологические методы. Непосредственное использование данны

Описание слайда:

Методы Data Mining. Технологические методы. Непосредственное использование данных, или сохранение данных:кластерный анализ, метод ближайшего соседа, метод k-ближайшего соседа, рассуждение по аналогии (этот метод будет рассмотрен подробнее)Выявление и использование формализованных закономерностей, или дистилляция шаблонов:логические методы; методы визуализации; методы кросс-табуляции; методы, основанные на уравнениях

№ слайда 10 Методы Data Mining. Статистические методы. Дескриптивный анализ и описание исход

Описание слайда:

Методы Data Mining. Статистические методы. Дескриптивный анализ и описание исходных данных.Анализ связей (корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ).Многомерный статистический анализ (компонентный анализ, дискриминантный анализ, многомерный регрессионный анализ, канонические корреляции и др.).Анализ временных рядов (динамические модели и прогнозирование).

№ слайда 11 Методы Data Mining. Кибернетические методы. Искусственные нейронные сети (распоз

Описание слайда:

Методы Data Mining. Кибернетические методы. Искусственные нейронные сети (распознавание, кластеризация, прогноз);Эволюционное программирование (в т.ч. алгоритмы метода группового учета аргументов); Генетические алгоритмы (оптимизация);Ассоциативная память (поиск аналогов, прототипов);Нечеткая логика;Деревья решений; этот метод будет рассмотрен подробнее.Системы обработки экспертных знаний.

№ слайда 12 Визуализация инструментов Data Mining. Для деревьев решений - визуализатор дерев

Описание слайда:

Визуализация инструментов Data Mining. Для деревьев решений - визуализатор дерева решений, список правил, таблица сопряженности. Для нейронных сетей - в зависимости от инструмента это может быть топология сети, график изменения величины ошибки, демонстрирующий процесс обучения.Для карт Кохонена: карты входов, выходов, другие специфические карты.Для линейной регрессии - линия регрессии.Для кластеризации: дендрограммы, диаграммы рассеивания.

№ слайда 13 Проблемы и вопросы Data Mining не может заменить аналитика!Сложность разработки

Описание слайда:

Проблемы и вопросы Data Mining не может заменить аналитика!Сложность разработки и эксплуатации приложения Data Mining. Основные аспекты:Квалификация пользователяСложность подготовки данныхБольшой процент ложных, недостоверных или бессмысленных результатовВысокая стоимостьНаличие достаточного количества репрезентативных данных

№ слайда 14 Области применения Data mining Database marketers - Рыночная сегментация, иденти

Описание слайда:

Области применения Data mining Database marketers - Рыночная сегментация, идентификация целевых групп, построение профиля клиентаБанковское дело - Анализ кредитных рисков, привлечение и удержание клиентов, управление ресурсамиКредитные компании - Детекция подлогов, формирование "типичного поведения" обладателя кредитки, анализ достоверности клиентских счетов , cross-selling программыСтраховые компании - Привлечение и удержание клиентов, прогнозирование фингансовых показателейРозничная торговля - Анализ деятельности торговых точек, построение профиля покупателя, управление ресурсамиБиржевые трейдеры - Выработка оптимальной торговой стратегии, контроль рисков

№ слайда 15 Области применения Data mining. Продолжение. Телекоммуникация и энергетика - При

Описание слайда:

Области применения Data mining. Продолжение. Телекоммуникация и энергетика - Привлечение клиентов, ценовая политика, анализ отказов, предсказание пиковых нагрузок, прогнозирование поступления средствНалоговые службы и аудиторы - Детекция подлогов, прогнозирование поступлений в бюджетФармацевтические компании - Предсказание результатов будущего тестирования препаратов, программы испытанияМедицина - Диагностика, выбор лечебных воздействий, прогнозирование исхода хирургического вмешательстваУправление производством - Контроль качества, материально-техническое обеспечение, оптимизация технологического процессаУченые и инженеры - Построение эмпирических моделей, основанных на анализе данных, решение научно-технических задач

№ слайда 16 Перспективы технологии Data Mining. выделение типов предметных областей с соотве

Описание слайда:

Перспективы технологии Data Mining. выделение типов предметных областей с соответствующими им эвристикамисоздание формальных языков и логических средств, с помощью которых будет формализованы рассуждения создание методов Data Mining, способных не только извлекать из данных закономерности, но и формировать некие теории, опирающиеся на эмпирические данные;преодоление существенного отставания возможностей инструментальных средств Data Mining от теоретических достижений в этой области.

№ слайда 17 Литература по Data Mining "Wikipedia about Data Mining" (http://en.wikipedia.org

Описание слайда:

Литература по Data Mining "Wikipedia about Data Mining" (http://en.wikipedia.org/wiki/Data_mining)"Data Mining Tutorials" (http://www.eruditionhome.com/datamining/tut.html)"Thearling intro paper" (http://www.thearling.com/text/dmwhite/dmwhite.htm)"Что такое Data mining?“ (http://www.megaputer.ru/doc.php?classroom/whatis_dm/whatis_dm.html)"INTUIT.ru: Учебный курс - Data Mining“ (http://www.intuit.ru/department/database/datamining/)"Data Mining - подготовка исходных данных“ (http://www.basegroup.ru/tasks/datamining_prepare.htm)

№ слайда 18 Деревья решений. История и основные понятия. Возникновение - 50-е годы (Ховиленд

Описание слайда:

Деревья решений. История и основные понятия. Возникновение - 50-е годы (Ховиленд и Хант (Hoveland, Hunt) )Метод также называют деревьями решающих правил, деревьями классификации и регрессии Это способ представления правил в иерархической, последовательной структуре

№ слайда 19 Деревья решений. Пример 1.

Описание слайда:

Деревья решений. Пример 1.

№ слайда 20 Деревья решений. Пример 2.

Описание слайда:

Деревья решений. Пример 2.

№ слайда 21 Деревья решений. Преимущества метода. Интуитивность деревьев решений Возможность

Описание слайда:

Деревья решений. Преимущества метода. Интуитивность деревьев решений Возможность извлекать правила из базы данных на естественном языке Не требует от пользователя выбора входных атрибутов Точность моделей Разработан ряд масштабируемых алгоритмов Быстрый процесс обучения Обработка пропущенных значений Работа и с числовыми, и с категориальными типами данных

№ слайда 22 Деревья решений. Процесс конструирования. Основные этапы алгоритмов конструирова

Описание слайда:

Деревья решений. Процесс конструирования. Основные этапы алгоритмов конструирования деревьев: "построение" или "создание" дерева (tree building) "сокращение" дерева (tree pruning).

№ слайда 23 Деревья решений. Критерии расщепления. "мера информационного выигрыша" (informat

Описание слайда:

Деревья решений. Критерии расщепления. "мера информационного выигрыша" (information gain measure) индекс Gini, т.е. gini(T), определяется по формуле:Большое дерево не означает, что оно "подходящее"

№ слайда 24 Деревья решений. Остановка построения дерева. Остановка - такой момент в процесс

Описание слайда:

Деревья решений. Остановка построения дерева. Остановка - такой момент в процессе построения дерева, когда следует прекратить дальнейшие ветвления. Варианты остановки:"ранняя остановка" (prepruning) ограничение глубины дерева задание минимального количества примеров

№ слайда 25 Деревья решений. Сокращение дерева или отсечение ветвей. Критерии:Точность распо

Описание слайда:

Деревья решений. Сокращение дерева или отсечение ветвей. Критерии:Точность распознавания Ошибка

№ слайда 26 Деревья решений. Алгоритмы. CART . CART (Classification and Regression Tree) раз

Описание слайда:

Деревья решений. Алгоритмы. CART . CART (Classification and Regression Tree) разработан в 1974-1984 годах четырьмя профессорами статистики - Leo Breiman (Berkeley), Jerry Friedman (Stanford), Charles Stone (Berkeley) и Richard Olshen (Stanford) CART предназначен для построения бинарного дерева решений. Особенности:функция оценки качества разбиения; механизм отсечения дерева; алгоритм обработки пропущенных значений; построение деревьев регрессии.

№ слайда 27 Деревья решений. Алгоритмы. C4.5 . Строит дерево решений с неограниченным количе

Описание слайда:

Деревья решений. Алгоритмы. C4.5 . Строит дерево решений с неограниченным количеством ветвей у узла Дискретные значения => только классификацияКаждая запись набора данных ассоциирована с одним из предопределенных классов => один из атрибутов набора данных должен являться меткой класса. Количество классов должно быть значительно меньше количества записей в исследуемом наборе данных.

№ слайда 28 Деревья решений. Перспективы метода и выводы. Разработка новых масштабируемых ал

Описание слайда:

Деревья решений. Перспективы метода и выводы. Разработка новых масштабируемых алгоритмов (Sprint, предложенный Джоном Шафером) Метод деревьев - иерархическое, гибкое средство предсказания принадлежности объектов к определенному классу или прогнозирования значений числовых переменных. Качество работы зависит как от выбора алгоритма, так и от набора исследуемых данных. Чтобы построить качественную модель, необходимо понимать природу взаимосвязи между зависимыми и независимыми переменными и подготовить достаточный набор данных .

№ слайда 29 Метод "ближайшего соседа" или системы рассуждений на основе аналогичных случаев.

Описание слайда:

Метод "ближайшего соседа" или системы рассуждений на основе аналогичных случаев. Прецедент - это описание ситуации в сочетании с подробным указанием действий, предпринимаемых в данной ситуации. Этапы: сбор подробной информации о поставленной задаче;сопоставление этой информации с деталями прецедентов, хранящихся в базе, для выявления аналогичных случаев;выбор прецедента, наиболее близкого к текущей проблеме, из базы прецедентов;адаптация выбранного решения к текущей проблеме, если это необходимо;проверка корректности каждого вновь полученного решения;занесение детальной информации о новом прецеденте в базу прецедентов.

№ слайда 30 Метод "ближайшего соседа". Преимущества. Простота использования полученных резул

Описание слайда:

Метод "ближайшего соседа". Преимущества. Простота использования полученных результатов.Решения не уникальны для конкретной ситуации, возможно их использование для других случаев.Целью поиска является не гарантированно верное решение, а лучшее из возможных.

№ слайда 31 Метод "ближайшего соседа". Недостатки. Данный метод не создает каких-либо моделе

Описание слайда:

Метод "ближайшего соседа". Недостатки. Данный метод не создает каких-либо моделей или правил, обобщающих предыдущий опытCложность выбора меры "близости" (метрики). Высокая зависимость результатов классификации от выбранной метрики.Необходимость полного перебора обучающей выборки при распознавании, следствие этого - вычислительная трудоемкость. Типичные задачи данного метода - это задачи небольшой размерности по количеству классов и переменных.

№ слайда 32 Метод "ближайшего соседа". Решение задачи классификации новых объектов.

Описание слайда:

Метод "ближайшего соседа". Решение задачи классификации новых объектов.

№ слайда 33 Метод "ближайшего соседа". Решение задачи прогнозирования.

Описание слайда:

Метод "ближайшего соседа". Решение задачи прогнозирования.

№ слайда 34 Метод "ближайшего соседа". Оценка параметра k методом кросс-проверки. Кросс-пров

Описание слайда:

Метод "ближайшего соседа". Оценка параметра k методом кросс-проверки. Кросс-проверка - известный метод получения оценок неизвестных параметров модели. Основная идея - разделение выборки данных на v "складок". V "складки" здесь суть случайным образом выделенные изолированные подвыборки.

№ слайда 35 Метод "ближайшего соседа". Примеры использования и реализации . Использование -

Описание слайда:

Метод "ближайшего соседа". Примеры использования и реализации . Использование - программное обеспечение центра технической поддержки компании Dell, разработанное компанией Inference.Реализация - CBR Express и Case Point (Inference Corp.), Apriori (Answer Systems), DP Umbrella (VYCOR Corp.), KATE tools (Acknosoft, Франция), Pattern Recognition Workbench (Unica, США), а также некоторые статистические пакеты, например, Statistica.

№ слайда 36 ? Вопросы??

Описание слайда:

? Вопросы??

Скачать эту презентацию

Презентации по предмету

DDE (Dynamic Data Exchange)

Цифровые лаборатории Data Harvest

Язык программирования QBasic. Операторы DATA и READ

Презентация на тему: Data Mining

1С-Битрикс: Сайт школы

Программирование

Почему пользователи нарушают закон, приобретая программное обеспечение?

Бесплатные аналоги коммерческих программ для Windows

Первые шаги в мире информатики

Основные понятия контекстной рекламы

1С-Битрикс: Сайт школы

Программирование

Почему пользователи нарушают закон, приобретая программное обеспечение?

Бесплатные аналоги коммерческих программ для Windows

Первые шаги в мире информатики

Основные понятия контекстной рекламы

Объекты и их имена (5-7 класс)

Количественная характеристика информации

Информация и информационные процессы

Графический редактор Paint

Арифметические операции в позиционных системах счисления

Мамба