Классификации. Если переменная у принимает значение на множестве действительных чисел, то задача называется задачей регрессии




НазваниеКлассификации. Если переменная у принимает значение на множестве действительных чисел, то задача называется задачей регрессии
Дата конвертации04.03.2013
Размер445 b.
ТипЗадача



В задаче классификации и регрессии требуется определить значение зависимой переменной объекта на основании значений других переменных, характеризующих данный объект.

  • В задаче классификации и регрессии требуется определить значение зависимой переменной объекта на основании значений других переменных, характеризующих данный объект.

  • Если значениями переменной являются значения конечного множества, то она имеет категориальный тип. Если множество значений переменной у конечна, то задача называется классификацией. Если же множество значений является множеством действительных чисел, то задача называется регрессией.



Имеется множество объектов:

  • Имеется множество объектов:

  • где - исследуемый объект.

  • Каждый объект характеризуется набором переменных:

  • где - независимые переменные, значение которых известны и на основании которых определяется значение зависимой переменной у.





Если множество значений

  • Если множество значений

  • переменной у конечное, то задача называется задачей классификации. Если переменная у принимает значение на множестве действительных чисел , то задача называется задачей регрессии.



В рассматриваемых задачах функциональная зависимость между переменными может быть представлена одним из следующих способов

  • В рассматриваемых задачах функциональная зависимость между переменными может быть представлена одним из следующих способов

  • Классификационные правила

  • Деревья решений

  • Математические функции



Состоят из двух частей:

  • Состоят из двух частей:

  • ЕСЛИ (условие) ТО (заключение) .

  • Преимущества: простота, легкость восприятия, независимость.

  • Однако с последним достоинством связан и главный недостаток данного метода – противоречивость результата.



Это способ представления правил в иерархической структуре. Каждый узел дерева включает проверку первой независимой переменной. От дерева решений можно перейти к правилам. Преобразования от правил в деревьям не всегда возможно в связи с тем, что правила имеют большую свободу к записи.

  • Это способ представления правил в иерархической структуре. Каждый узел дерева включает проверку первой независимой переменной. От дерева решений можно перейти к правилам. Преобразования от правил в деревьям не всегда возможно в связи с тем, что правила имеют большую свободу к записи.





В этом случае объекты рассматриваются как точки в m+1 мерном пространстве признаков. Если используются категориальные переменные, то они преобразовываются к числовому типу.

  • В этом случае объекты рассматриваются как точки в m+1 мерном пространстве признаков. Если используются категориальные переменные, то они преобразовываются к числовому типу.

  • Тогда переменные объекта

  • рассматриваются как координаты.



а функция имеет следующий вид:

  • а функция имеет следующий вид:

  • где - веса независимых переменных, в поиске которых и состоит задача нахождения классификационной функции.



1. Алгоритм построения

  • 1. Алгоритм построения

  • Этот алгоритм строит правила по значению одной независимой переменной. Для любого возможного значения каждой независимой переменной формируется правило, которое классифицирует объекты из обучающей выборки. При этом в заключительной части правила указывается значение независимой переменной, которое наиболее часто встречается у объектов с выбранным значением независимой переменной. В этом случае ошибкой правила является количество объектов, имеющих то же значение рассматриваемой переменной, но не относящейся к выбранному классу.





Численные значения переменных. Если переменная имеет вещественный тип, то количество возможных значений может быть бесконечно. Решение: вся область значений такой переменной разбивают на интервалы таким образом, чтобы каждый из них соответствовал определенному классу в обучающей выборке. В результате б. получен набор дискретных значений, с некоторыми может работать данный алгоритм.

  • Численные значения переменных. Если переменная имеет вещественный тип, то количество возможных значений может быть бесконечно. Решение: вся область значений такой переменной разбивают на интервалы таким образом, чтобы каждый из них соответствовал определенному классу в обучающей выборке. В результате б. получен набор дискретных значений, с некоторыми может работать данный алгоритм.





Метод, рассматривающий несколько независимых переменных, использую формулу Байеса для расчета вероятности. Название- наивное предположение, что все переменные независимы. Вероятность того, что некоторый объект

  • Метод, рассматривающий несколько независимых переменных, использую формулу Байеса для расчета вероятности. Название- наивное предположение, что все переменные независимы. Вероятность того, что некоторый объект

  • относится к классу обозначим как

  • Идея алгоритма заключается в расчете условной вероятности принадлежности объекта к



Другими словами, формируются правила, в условных частях которых сравниваются все независимые переменные с соответствующими возможными значениями. В заключительной части присутствуют все возможные значения зависимой переменной: если

  • Другими словами, формируются правила, в условных частях которых сравниваются все независимые переменные с соответствующими возможными значениями. В заключительной части присутствуют все возможные значения зависимой переменной: если

  • , тогда .

  • Вероятность для всего правила:





Вероятность есть отношение объектов из обучающей выборки, принадлежащих классу , к общему количеству объектов в выборке. В данном примере это:

  • Вероятность есть отношение объектов из обучающей выборки, принадлежащих классу , к общему количеству объектов в выборке. В данном примере это:



Таким образом, необходимо определить, состоится ли игра при следующих значениях независимых переменных (событие Е):

  • Таким образом, необходимо определить, состоится ли игра при следующих значениях независимых переменных (событие Е):



То надо вычислить следующие условные вероятности:

  • То надо вычислить следующие условные вероятности:



Подставляя соответствующие вероятности получим следующие значения:

  • Подставляя соответствующие вероятности получим следующие значения:

  • Вероятность не учитывается, т.к. при нормализации вероятностей для каждого из возможных правил она исчезает. Нормализованная вероятность для правила вычисляется по формуле:



В данном случае можно утверждать, что при указанных условиях игра состоится с вероятностью:

  • В данном случае можно утверждать, что при указанных условиях игра состоится с вероятностью:

  • и не состоится с вероятностью:

  • Таким образом, при указанных условиях более вероятно, что игра не состоится.



Методика разделяй и властвуй.

  • Методика разделяй и властвуй.

  • Рекурсивное разбиение множества объектов их обучающей выборки на подмножества, содержащие объекты, относящиеся к одинаковым классам.

  • Относительно обучающей выборки и множества классов С возможны 3 ситуации:



1. множество содержит один или более объектов, относящихся к одному классу Тогда дерево решений для - это лист, определяющий класс ;

  • 1. множество содержит один или более объектов, относящихся к одному классу Тогда дерево решений для - это лист, определяющий класс ;

  • 2. множество не содержит ни одного объекта (пустое множество). Тогда это снова лист, и класс, ассоциируемый с листом, выбирается из другого множеств, отличного от , например из множества, ассоциированного с родителем;



3. мн-во содержит объекты, относящиеся к разным классам. В этом случае следует разбить множество на некоторые подмножества. Для этого выбирается одна из независимых переменных , имеющих два и более отличных друг от друга значений ; множество разбивается на подмн-ва

  • 3. мн-во содержит объекты, относящиеся к разным классам. В этом случае следует разбить множество на некоторые подмножества. Для этого выбирается одна из независимых переменных , имеющих два и более отличных друг от друга значений ; множество разбивается на подмн-ва

  • где каждое подмн-во , содержит все объекты, имеющие значение для выбранного признака.



Алгоритм использует последовательность тестовых процедур, с помощью которых множество разделяется на подмножества, содержащие объекты только одного класса. Ключевой в алгоритме является процедура построения дерева решений, в котором нетерминальные узлы соответствуют тестовым процедурам, каждая из которых имеет дело с единственным атрибутом объектов из обучающей выборки.

  • Алгоритм использует последовательность тестовых процедур, с помощью которых множество разделяется на подмножества, содержащие объекты только одного класса. Ключевой в алгоритме является процедура построения дерева решений, в котором нетерминальные узлы соответствуют тестовым процедурам, каждая из которых имеет дело с единственным атрибутом объектов из обучающей выборки.



Рассмотрим критерий выбора независимой переменной, от которой будет строиться дерево. Полный набор вариантов разбиения |X| - количество независимых переменных. Рассмотрим проверку переменой , которая принимает m значений  . Тогда разбиение множества всех объектов обучающей выборки N по проверке переменной  даст подмножества  .

  • Рассмотрим критерий выбора независимой переменной, от которой будет строиться дерево. Полный набор вариантов разбиения |X| - количество независимых переменных. Рассмотрим проверку переменой , которая принимает m значений  . Тогда разбиение множества всех объектов обучающей выборки N по проверке переменной  даст подмножества  .



При разделении исходного множества на более мелкие подмножества, используя в качестве критерия для разделения значения выбранной независимой переменной, неопределённость принадлежности объектов конкретным классам будет уменьшаться. Задача состоит в том, чтобы выбрать такие независимые переменные, чтобы максимально уменьшить эту неопределенность и в конечном итоге получить подмножества, содержащие объекты только одного класса. В последнем случае неопределенность равна нулю.

  • При разделении исходного множества на более мелкие подмножества, используя в качестве критерия для разделения значения выбранной независимой переменной, неопределённость принадлежности объектов конкретным классам будет уменьшаться. Задача состоит в том, чтобы выбрать такие независимые переменные, чтобы максимально уменьшить эту неопределенность и в конечном итоге получить подмножества, содержащие объекты только одного класса. В последнем случае неопределенность равна нулю.



Алгоритм C4.5 строит дерево решений с неограниченным количеством ветвей у узла. Данный алгоритм может работать только с дискретным зависимым атрибутом и поэтому может решать только задачи классификации. C4.5 считается одним из самых известных и широко используемых алгоритмов построения деревьев классификации.

  • Алгоритм C4.5 строит дерево решений с неограниченным количеством ветвей у узла. Данный алгоритм может работать только с дискретным зависимым атрибутом и поэтому может решать только задачи классификации. C4.5 считается одним из самых известных и широко используемых алгоритмов построения деревьев классификации.

  • Для работы алгоритма C4.5 необходимо соблюдение следующих требований:



Каждая запись набора данных должна быть ассоциирована с одним из предопределенных классов, т.е. один из атрибутов набора данных должен являться меткой класса

  • Каждая запись набора данных должна быть ассоциирована с одним из предопределенных классов, т.е. один из атрибутов набора данных должен являться меткой класса

  • Классы должны быть дискретными. Каждый пример должен однозначно относиться к одному из классов.

  • Количество классов должно быть значительно меньше количества записей в исследуемом наборе данных.

  • Алгоритм C4.5 медленно работает на сверхбольших и зашумленных наборах данных.



Похожие:

Классификации. Если переменная у принимает значение на множестве действительных чисел, то задача называется задачей регрессии iconОбласть определения- множество всех действительных чисел; Область определения- множество всех действительных чисел

Классификации. Если переменная у принимает значение на множестве действительных чисел, то задача называется задачей регрессии iconСвойства коэффициентов регрессии и проверка гипотез Случайные составляющие коэффициентов регрессии
Оценки стандартных отклонений функции плотности вероятности коэффициентов регрессии (Стандартные ошибки)
Классификации. Если переменная у принимает значение на множестве действительных чисел, то задача называется задачей регрессии icon1. Маги́ческий, или волше́бный квадра́т
Если в квадрате равны суммы чисел только в строках и столбцах, то он называется полумагическим
Классификации. Если переменная у принимает значение на множестве действительных чисел, то задача называется задачей регрессии iconБазы данных 02/25/13
Для хранения бд может использоваться как один компьютер, так и множество взаимосвязанных компьютеров. Если различные части одной...
Классификации. Если переменная у принимает значение на множестве действительных чисел, то задача называется задачей регрессии iconЗадача оптимизации состоит в отыскании максимума или минимума действительной функции от n действительных переменных и определении соответствующих значений аргументов

Классификации. Если переменная у принимает значение на множестве действительных чисел, то задача называется задачей регрессии iconЗамена уравнения h(f(x)) = h(g(x)) уравнением f(x) = g(x) Замена уравнения h(f(x)) = h(g(x)) уравнением f(x) = g(x)
Метод можно применять только в том случае, когда y = h(x) монотонная функция, которая каждое свое значение принимает по одному разу....
Классификации. Если переменная у принимает значение на множестве действительных чисел, то задача называется задачей регрессии iconМировые константы пи и е Введение
Среди бесконечного множества действительных чисел существуют ещё особенные, и не только для математиков, числа π и е. Эти числа имеют...
Классификации. Если переменная у принимает значение на множестве действительных чисел, то задача называется задачей регрессии iconУрок второй урок третий урок четвёртый урок выводы
Определение: Функция, где a,b,c заданные действительные числа,,x действительная переменная, называется квадратичной функцией
Классификации. Если переменная у принимает значение на множестве действительных чисел, то задача называется задачей регрессии iconРассмотрим множество целых чисел Z. Операция деления выполняется не для всех пар чисел из Z
Число а∈ z делится на число b∈Z (b≠0), если существует такое число q∈Z, что a=bq
Классификации. Если переменная у принимает значение на множестве действительных чисел, то задача называется задачей регрессии iconОсновы программирования на языке Java Средства ооп java
Переменная объявленная final может быть проинициализирована ровно один раз, после этого ее значение изменить нельзя
Разместите кнопку на своём сайте:
hnu.docdat.com


База данных защищена авторским правом ©hnu.docdat.com 2012
обратиться к администрации
hnu.docdat.com
Главная страница