2.
Обзор статистических пакетов обработки информации: Statistica, Statgraphics
Plus for Windows
STATISTICA - это универсальная интегрированная система, предназначенная для
статистического анализа и визуализации данных, управления базами данных и разработки
пользовательских приложений, содержащая широкий набор процедур анализа для
применения в научных исследованиях, технике, бизнесе, а также специальные методы
добычи данных. Помимо общих статистических и графических средств в системе имеются
специализированные модули, например, для проведения социологических или
биомедицинских исследований, решения технических и, что очень важно, промышленных
задач: карты контроля качества, анализ процессов и планирование эксперимента. Работа
со всеми модулями происходит в рамках единого программного пакета, для которого
можно выбирать один из нескольких предложенных интерфейсов пользователя.
С помощью реализованных в системе STATISTICA мощных языков программирования,
снабженных специальными средствами поддержки, легко создаются законченные
пользовательские решения и встраиваются в различные другие приложения или
вычислительные среды. Очень трудно представить себе, что кому-то могут понадобиться
абсолютно все статистические процедуры и методы визуализации, имеющиеся в системе
STATISTICA, однако опыт многих людей, успешно работающих с пакетом,
свидетельствует о том, что возможность доступа к новым, нетрадиционным методам
анализа данных (а STATISTICA предоставляет такие возможности в полной мере)
помогает находить новые способы проверки рабочих гипотез и исследования данных.
Система STATISTICA предлагает
пользователю широкий выбор методов
разведочного анализа данных. Программа
вычисляет практически все используемые
описательные
статистики
общего
характера: медиану, моду, квартили,
заданные
пользователем
процентили,
среднее
значение
и
стандартное
отклонение,
квартильный
размах,
доверительные интервалы для среднего,
асимметрию и эксцесс (и их стандартные
ошибки), гармоническое и геометрическое
среднее, а также многие специальные
описательные статистики. Как и во всех других модулях системы STATISTICA,
проведение разведочного анализа данных поддерживают разнообразные графики и
диаграммы, в т.ч. различные виды диаграмм размаха и гистограмм, гистограммы
двумерных распределений (трехмерные и категоризованные), двух- и трехмерные
диаграммы рассеяния с помеченными подмножествами данных, нормальные и
полунормальные вероятностные графики и графики с исключенным трендом, К-К и В-
В графики и т.д. Имеется набор критериев для подгонки нормального распределения к
данным (критерии Колмогорова-Смирнова, Лилиефорса и Шапиро-Уилкса). Процедуры
для подгонки многих других типов распределений можно найти также в описании анализа
процессов и графических возможностей
системы. Практически все описательные
статистики и графики могут быть
построены для данных, категоризованных
(сгруппированных) по значениям одной
или
нескольких
группирующих
переменных. Например, с помощью
нескольких
щелчков
мыши
можно
сгруппировать имеющиеся данные о
людях
по полу и возрасту и
затем
просмотреть
категоризованные
гистограммы,
диаграммы
размаха,
графики на нормальной вероятностной
бумаге, диаграммы рассеяния и т.д. В
случае, если было выбрано более двух категоризующих переменных, автоматически будет
постоен каскадсоответствующих
графиков.
Имеется
возможность
производить
категоризацию по числовым (непрерывным) переменным, например, можно потребовать,
чтобы значения переменной были разбиты на заданное число интервалов; с помощью
средства перекодировки в реальном времени можно задать конкретный специальный
способ перекодировки переменной (возможности практически сколь угодно сложной
перекодировки доступны в любой момент,
причем перекодировка может быть задана
через
соотношения
между
любыми
переменными
файла
данных).
В
дополнение к этому в системе имеется
специализированная
процедура
иерархической группировки, позволяющая
осуществлять категоризацию данных по
многим (до шести) переменным и строить
различные категоризованные графики,
описательные
статистики
и
корреляционные
матрицы для
подгрупп (пользователь
может
в
интерактивном
режиме
cделать
неучитываемыми некоторые из факторов в
полной таблице группировок и изучать статистики для маргинальных таблиц).
Многочисленные возможности форматирования и расстановки меток позволяют получать
таблицы и отчеты презентационного качества, содержащие длинные метки и описания
переменных. При этом важно отметить, что процедура группировки выполняется для
чрезвычайно больших объемов данных (например, по одной категоризующей переменной
можно построить до 300 групп), а ее результаты содержат все соответствующие
статистики дисперсионного анализа (включая полные таблицы ANOVA, критерии
проверки гипотез типа критерия Левена однородности дисперсии, семь различных
апостериорных (post-hoc)критериев и т.д.). Как и во всех других модулях
системы STATISTICA, для достижения высокой - не имеющей аналогов в сравнении с
другими пакетами - точности результатов здесь можно производить вычисления с
повышенной точностью (если нужно - с четырехкратной). Благодаря интерактивному
характеру системы изучение данных становится очень простым делом. Например,
графики и диаграммы для разведочных статистик можно получать непосредственно из
данных любых выходных таблиц, просто указав мышью на отдельные ячейки или группы
ячеек. Одним щелчком мыши можно получать каскады графиков (в том числе сложных,
например, со множественными категориями), которые затем можно просматривать в
режиме подобном демонстрации слайдов, просто нажимая кнопку Продолжить. В
дополнение к большому числу готовых статистических графиков пользователь может
самостоятельно задавать различные типы визуализации исходных данных, описательных
статистик, взаимосвязей между статистиками, группировок и категоризаций с помощью
средств прямого доступа (point-and-click), что позволяет существенно уменьшить
требуемое количество действий мышью. Средства графического разведочного анализа
объединены с собственно статистичекими процедурами, что существенно облегчает
визуальный анализ данных (например, в интерактивном режиме можно удалять выбросы,
выделять подмножества данных, осуществлять сглаживание и подгонку функций, а
богатые средства работы с кистью позволяют легко выявлять и/или выделять нужные
данные).
Достарыңызбен бөлісу: |