Чем отличается задача классификации от кластеризации?
Кластеризация относится к задаче разделения набора данных на группы (кластеры) таким образом, чтобы объекты внутри одного кластера были более похожи друг на друга, чем на объекты из других кластеров.
Кластер содержит набор схожих элементов, которые нужно раскидать по группам в процессе последующего анализа. Зачастую кластерный анализ проводится в тех случаях, когда мы уверены, что все элементы можно как-то сгруппировать. Но предварительно не знаем, по каким признакам это можно сделать.
Мы открываем космос, а не заранее предписываем, как должны выглядеть звезды или галактики.
В отличие от классификации, в кластеризации метки классов не предоставляются, и алгоритмы кластеризации должны самостоятельно определить структуру данных. Главная цель кластеризации — выделить скрытые структуры в данных. Алгоритмы кластеризации идут под методы "k-средних", иерархической кластеризация, DBSCAN ну и так далее.
А вот классификация — задача прогнозирования меток классов для новых экземпляров данных на основе обучающего набора, в котором каждый экземпляр данных имеет уже известную метку класса. Короче говоря, нужно проводить предварительную разметку, распределить все данные по классам.
Задача “классификации” — найти функцию, которая отображает входные данные в заданные классы. Алгоритмы классификации строятся с использованием маркированных данных. Мы уже знаем, по каким признакам будем делить объекты в данных.
Итого:
В классификации имеются явно определенные метки классов для каждого обучающего примера, в то время как в кластеризации метки классов отсутствуют.
Цель классификации — предсказать класс нового экземпляра данных, тогда как цель кластеризации — выделить группы схожих объектов без предварительно определенных классов.
В классификации используются методы обучения с учителем, тот же метод опорных векторов, в то время как в кластеризации применяются методы обучения без учителя.
Вот теперь не путайтесь :)