7 шагов для развития в области аналитики

Многие задаются вопрос, что нужно с чего начать изучение анализа данных и data mining’а.

Итак, для начала чтобы научиться основам анализа данных, необходимо заняться этим самым анализом. Кроме того не нужно забывать и о теории статистики и машинного обучения, для понимания своих действий. Читать

Построение модели SARIMA с помощью Python+R

Введение

Добрый день, уважаемые читатели.
После написания предыдущего поста про анализ временных рядов на Python, я решил исправить замечания, которые были указаны в комментариях, но при их исправлении я столкнулся с рядом проблем, например при построении сезонной модели ARIMA, т.к. подобной функции а пакете statsmodels я не нашел. В итоге я решил использовать для этого функции из R, а поиски привели меня к библиотеке rpy2 которая позволяетиспользовать функции из библиотек упомянутого языка.
У многих может возникнуть вопрос «зачем это нужно?», ведь проще просто взять R и выполнить всю работу в нем. Я полность согласен с этим утверждением, но как мне кажется , если данные требуют предварительной обработки, то ее проще произвести на Python, а возможности R использовать при необходимости именно для анализа.
Кроме этого, будет показано как интегрировать результаты выдачи работы функции R в IPython Notebook.
Читать

Выбор модели ARMA по АКФ и ЧАКФ

Основными инструментами идентификации порядка модели являются графики, автокорреляционная функция (АКФ), частная автокорреляционная функция (ЧАКФ).

Это решение не является простым и требуется основательно поэкспериментировать с альтернативными моделями. Тем не менее, большинство встречающихся на практике временных рядов можно с достаточной степенью точности аппроксимировать одной из 5 основных моделей, которые можно идентифицировать по виду автокорреляционной (АКФ) и частной автокорреляционной функции (ЧАКФ). Ниже дается список этих моделей. Отметим, что число параметров каждого вида невелико (меньше 2), поэтому нетрудно проверить альтернативные модели.

  1.  p = 1:
    • АКФ — экспоненциально убывает;
    • ЧАКФ — имеет резко выделяющееся значение для лага 1, нет корреляций на других лагах.
  2. p = 2:
    • АКФ имеет форму синусоиды или экспоненциально убывает;
    • ЧАКФ имеет резко выделяющиеся значения на лагах 1, 2, нет корреляций на других лагах.
  3. q = 1:
    • АКФ имеет резко выделяющееся значение на лаге 1, нет корреляций на других лагах.
    • ЧАКФ экспоненциально убывает.
  4. q = 2:
    • АКФ имеет резко выделяющиеся значения на лагах 1, 2, нет корреляций на других лагах.
    • ЧАКФ имеет форму синусоиды или экспоненциально убывает.
  5. p = 1 и q = 1:
    • АКФ экспоненциально убывает с лага 1;
    • ЧАКФ — экспоненциально убывает с лага 1.

Сезонные модели. Мультипликативная сезонная АРПСС представляет естественное развитие и обобщение обычной модели АРПСС на ряды, в которых имеется периодическая сезонная компонента.

В дополнении к несезонным параметрам, в модель вводятся сезонные параметры для определенного лага (устанавливаемого на этапе идентификации порядка модели).

Аналогично параметрам простой модели АРПСС, эти параметры называются: сезонная авторегрессия (ps), сезонная разность (ds) и сезонное скользящее среднее (qs). Таким образом, полная сезонная АРПСС может быть записана как АРПСС (p,d,q)(ps,ds,qs).

Например, модель (0,1,2)(0,1,1) включает 0 регулярных параметров авторегрессии, 2 регулярных параметра скользящего среднего и 1 параметр сезонного скользящего среднего. Эти параметры вычисляются для рядов, получаемых после взятия одной разности с лагом 1 и далее сезонной разности. Сезонный лаг, используемый для сезонных параметров, определяется на этапе идентификации порядка модели.

Общие рекомендации относительно выбора обычных параметров (с помощью АКФ и ЧАКФ) полностью применимы к сезонным моделям. Основное отличие состоит в том, что в сезонных рядах АКФ и ЧАКФ имеют существенные значения на лагах, кратных сезонному лагу (в дополнении к характерному поведению этих функций, описывающих регулярную (несезонную) компоненту АРПСС).