Лабораторная работа 4
Применение наивных байесовских методов для задач классификации
Для реализации наивных байесовских классификаторов выполним импорт библиотек:
Гауссов наивный байесовский классификатор
Вероятно, самый простой для понимания наивный байесовский классификатор – Гауссов. В этом классификаторе допущение состоит в том, что данные всех категорий взяты из простого нормального распределения. Пускай у нас имеются следующие данные (рис. 1):
рис. 1. Данные для наивной байесовской классификации
Один из самых быстрых способов создания простой модели – допущение о том, что данные подчиняются нормальному распределению без ковариации между измерениями. Для обучения этой модели достаточно найти среднее значение и стандартное отклонение точек внутри каждой из категорий – это все, что требуется для описания подобного распределения.
Элипсы на этом рисунке представляют Гауссову порождающую модель для каждой из меток с ростом вероятности по мере приближении к центру эллипса. С помощью этой порождающей модели для каждого класса мы можем легко вычислить вероятность P(признаков | Li) для каздой точки данных, а следовательно, быстро рассчитать соотношение для апостериорной вероятности и определить, какая из меток с большей вероятностью соответсвует конкретной точке.
Эта процедура реализована в оценивателе sklearn.naive_bayes.GaussianNB:
Сгенерируем какие-нибудь новые данные и выполним предсказание метки:
Теперь у нас есть возможность построить график этих новых данных и понять, где пролегает граница принятия решений (decision boundary) (рис. 2):
Рис. 2. Визуализация Гауссовой наивной байесовской классификации
Мы видим, что граница слегка изогнута, в целом граница при Гауссовом наивном байесовском классификаторе соответствует кривой второго порядка.
Положительная сторона этого байесовского формального представления заключается в возможности естественной вероятностной классификации, рассчитать которую можно с помощью метода predict_proba:
Столбцы отражают апостериорные вероятности первой и второй меток соответственно. Подобные байесовские методы могут оказаться весьма удобным подходом при необходимости получения оценок погрешностей в классификации.
Качество получаемой в итоге классификации не может превышать качества исходных допущений модели, поэтому Гауссов наивный байесовский классификатор зачастую не демонстрирует слишком хороших результатов. Тем не менее во многих случаях – особенно при значительном количестве признаков – исходные допущения не настолько плохи, чтобы нивелировать удобство Гауссова наивного байесовского классификатора.
Достарыңызбен бөлісу: |