Добрый день уважаемые читатели. На днях я решил занятся переделкой своего блога и перевести его с PHP на Django. И так как в старом блоге была подсветка синтаксиса надо было ее реализовать и здесь. Спонсор поста - szrybvod.ru
7 шагов для развития в области аналитики
Многие задаются вопрос, что нужно с чего начать изучение анализа данных и data mining’а.
Итак, для начала чтобы научиться основам анализа данных, необходимо заняться этим самым анализом. Кроме того не нужно забывать и о теории статистики и машинного обучения, для понимания своих действий. Читать
Построение модели SARIMA с помощью Python+R
Введение
Добрый день, уважаемые читатели.
После написания предыдущего поста про анализ временных рядов на Python, я решил исправить замечания, которые были указаны в комментариях, но при их исправлении я столкнулся с рядом проблем, например при построении сезонной модели ARIMA, т.к. подобной функции а пакете statsmodels я не нашел. В итоге я решил использовать для этого функции из R, а поиски привели меня к библиотеке rpy2 которая позволяетиспользовать функции из библиотек упомянутого языка.
У многих может возникнуть вопрос «зачем это нужно?», ведь проще просто взять R и выполнить всю работу в нем. Я полность согласен с этим утверждением, но как мне кажется , если данные требуют предварительной обработки, то ее проще произвести на Python, а возможности R использовать при необходимости именно для анализа.
Кроме этого, будет показано как интегрировать результаты выдачи работы функции R в IPython Notebook.
Читать
Выбор модели ARMA по АКФ и ЧАКФ
Основными инструментами идентификации порядка модели являются графики, автокорреляционная функция (АКФ), частная автокорреляционная функция (ЧАКФ).
Это решение не является простым и требуется основательно поэкспериментировать с альтернативными моделями. Тем не менее, большинство встречающихся на практике временных рядов можно с достаточной степенью точности аппроксимировать одной из 5 основных моделей, которые можно идентифицировать по виду автокорреляционной (АКФ) и частной автокорреляционной функции (ЧАКФ). Ниже дается список этих моделей. Отметим, что число параметров каждого вида невелико (меньше 2), поэтому нетрудно проверить альтернативные модели.
- p = 1:
- АКФ — экспоненциально убывает;
- ЧАКФ — имеет резко выделяющееся значение для лага 1, нет корреляций на других лагах.
- p = 2:
- АКФ имеет форму синусоиды или экспоненциально убывает;
- ЧАКФ имеет резко выделяющиеся значения на лагах 1, 2, нет корреляций на других лагах.
- q = 1:
- АКФ имеет резко выделяющееся значение на лаге 1, нет корреляций на других лагах.
- ЧАКФ экспоненциально убывает.
- q = 2:
- АКФ имеет резко выделяющиеся значения на лагах 1, 2, нет корреляций на других лагах.
- ЧАКФ имеет форму синусоиды или экспоненциально убывает.
- p = 1 и q = 1:
- АКФ экспоненциально убывает с лага 1;
- ЧАКФ — экспоненциально убывает с лага 1.
Сезонные модели. Мультипликативная сезонная АРПСС представляет естественное развитие и обобщение обычной модели АРПСС на ряды, в которых имеется периодическая сезонная компонента.
В дополнении к несезонным параметрам, в модель вводятся сезонные параметры для определенного лага (устанавливаемого на этапе идентификации порядка модели).
Аналогично параметрам простой модели АРПСС, эти параметры называются: сезонная авторегрессия (ps), сезонная разность (ds) и сезонное скользящее среднее (qs). Таким образом, полная сезонная АРПСС может быть записана как АРПСС (p,d,q)(ps,ds,qs).
Например, модель (0,1,2)(0,1,1) включает 0 регулярных параметров авторегрессии, 2 регулярных параметра скользящего среднего и 1 параметр сезонного скользящего среднего. Эти параметры вычисляются для рядов, получаемых после взятия одной разности с лагом 1 и далее сезонной разности. Сезонный лаг, используемый для сезонных параметров, определяется на этапе идентификации порядка модели.
Общие рекомендации относительно выбора обычных параметров (с помощью АКФ и ЧАКФ) полностью применимы к сезонным моделям. Основное отличие состоит в том, что в сезонных рядах АКФ и ЧАКФ имеют существенные значения на лагах, кратных сезонному лагу (в дополнении к характерному поведению этих функций, описывающих регулярную (несезонную) компоненту АРПСС).
Импорт csv в mysql
Импорт csv файла в таблицу mysql можно произвести через консоль. Алгоритм действий следующий:
- Заходим в консоль MySQL.
mysql -u root
если предстваления нет, то можно его добавить
alias mysql=/usr/local/mysql/bin/mysql
- Выбираем базу данных:
use database_name;
database_name — имя базы данных
- Выполняем команду:
LOAD DATA INFILE 'path_to_file_csv' INTO TABLE your_table FIELDS TERMINATED BY 'del_sym' LINES TERMINATED BY 'end_st' SET id=null;
- path_to_file_csv — имя csv файла
- your_table — имя таблицы для импорта
- del_sym- символ разделения столбцов
- end_st — символы конца строки
Анализ временных рядов с помощью statsmodels+python
Добрый день, уважаемые читатели.
В сегодняшней статье, я попытаюсь описать процесс анализа временных рядов с помощью python и модуля statsmodels. Данный модуль предоставляет широкий набор средств и методов для проведения статистического анализа и эконометрики. Я попытаюсь показать основные этапы анализа таких рядов, в заключении мы построим модель ARIMA.
Для примера взяты реальные данные по товарообороту одного из складских комплексов Подмосковья. Читать
Основные этапы анализ временных рядов
Описание
Временным рядом называется упорядоченная во времени последовательность численных показателей , характеризующих уровни развития изучаемого явления в последовательные моменты или периоды времени.
Целью исследования временного ряда является выявление закономерностей в изменении уровней ряда и построении его модели в целях прогнозирования и исследования взаимосвязей между явлениями.
При исследовании экономического временного ряда его обычно представляют в виде совокупности трех составляющих:
- долговременной тенденции
- периодических колебаний
- случайных колебаний
Различным образом объединяя эти компоненты, можно получить различные модели временного ряда ():
- аддитивную
- мультипликативную
- смешанную
, где — тенденция,
— сезонный компонент,
— случайный компонент
Основная задача эконометрического исследования временного ряда заключается в выявлении и придании количественного выражения составляющим его отдельным компонентам.
Корреляционная зависимость между последовательными уровнями временного ряда называется автокорреляцией уровней временного ряда.
Теснота автокорреляционной связи между уровнями ряда определяется с помощью коэффициентов автокорреляции . А функция от сдвига
,
, называется автокорреляционной функцией (ACF), а график ее называется коррелограммой. Читать
Этапы построения регрессионной модели
Описание.
Регрессией в теории вероятностей и математической статистике принято называть зависимость среднего значения какой-либо величины от некоторой другой величины или от нескольких величин
.
Парной регрессией называется модель, выражающая зависимость среднего значения зависимой переменной от одной независимой переменной
:
,
где – зависимая переменная (результативный признак);
– независимая, объясняющая переменная (признак–фактор).
Парная регрессия применяется, если имеется доминирующий фактор, обуславливающий большую долю изменения изучаемой объясняемой переменной, который и используется в качестве объясняющей переменной.
Множественной регрессией называют модель, выражающую зависимость среднего значения зависимой переменной от нескольких независимых переменных
, т.е.:
.
Множественная регрессия применяется в ситуациях, когда из множества факторов, влияющих на результативный признак, нельзя выделить один доминирующий фактор и необходимо учитывать одновременное влияние нескольких факторов.
Читать
Пример решения задачи множественной регрессии с помощью Python
Введение
Добрый день, уважаемые читатели.
В прошлых статьях, на практических примерах, мной были показаны способы решения задач классификации (задача кредитного скоринга) и основ анализа текстовой информации (задача о паспортах). Сегодня же мне бы хотелось коснуться другого класса задач, а именно восстановления регрессии. Задачи данного класса, как правило, используются при прогнозировании.
Для примера решения задачи прогнозирования, я взял набор данных Energy efficiency из крупнейшего репозитория UCI. В качестве инструментов по традиции будем использовать Python c аналитическими пакетами pandas и scikit-learn.
Читать
Введение в анализ текстовой информации с помощью Python и методов машинного обучения
Введение
Сегодня я продолжу рассказ о применении методов анализа данных и машинного обучения на практических примерах. В прошлой статье мы с вами разбирались с задачей кредитного скоринга. Ниже я попытаюсь продемонстрировать решение другой задачи с того же турнира, а именно «Задачи о паспортах» (Задание №2).
При решении будут показаны основы анализа текстовой информации, а также ее кодирование для построения модели с помощью Python и модулей для анализа данных (pandas, scikit-learn, pymorphy).