Импорт csv в mysql

Импорт csv файла в таблицу mysql можно произвести через консоль. Алгоритм действий следующий:

  1. Заходим в консоль MySQL.
    mysql -u root

    если предстваления нет, то можно его добавить

    alias mysql=/usr/local/mysql/bin/mysql
  2. Выбираем базу данных:
    use database_name;

    database_name — имя базы данных

  3. Выполняем команду:
    LOAD DATA INFILE 'path_to_file_csv' INTO TABLE your_table FIELDS TERMINATED BY 'del_sym' LINES TERMINATED BY 'end_st' SET id=null;
    • path_to_file_csv — имя csv файла
    • your_table — имя таблицы для импорта
    • del_sym- символ разделения столбцов
    • end_st — символы конца строки

Анализ временных рядов с помощью statsmodels+python

Добрый день, уважаемые читатели.
В сегодняшней статье, я попытаюсь описать процесс анализа временных рядов с помощью python и модуля statsmodels. Данный модуль предоставляет широкий набор средств и методов для проведения статистического анализа и эконометрики. Я попытаюсь показать основные этапы анализа таких рядов, в заключении мы построим модель ARIMA.
Для примера взяты реальные данные по товарообороту одного из складских комплексов Подмосковья. Читать

Основные этапы анализ временных рядов

Описание

Временным рядом называется упорядоченная во времени последовательность численных показателей \((y_i,t_i), i=1,2,...,n\), характеризующих уровни развития изучаемого явления в последовательные моменты или периоды времени.

Целью исследования временного ряда является выявление закономерностей в изменении уровней ряда и построении его модели в целях прогнозирования и исследования взаимосвязей между явлениями.
При исследовании экономического временного ряда его обычно представляют в виде совокупности трех составляющих:

  • долговременной тенденции
  • периодических колебаний
  • случайных колебаний

Различным образом объединяя эти компоненты, можно получить различные модели временного ряда (\(Y_t\)):

  • аддитивную \(Y_t = T_t + S_t + \varepsilon_t\)
  • мультипликативную \(Y_t = T_tS_t\varepsilon_t\)
  • смешанную \(Y_t = T_tS_t + \varepsilon_t\)

, где \(T_t\) — тенденция, \(S_t\) — сезонный компонент, \(\varepsilon_t\) — случайный компонент

Основная задача эконометрического исследования временного ряда заключается в выявлении и придании количественного выражения составляющим его отдельным компонентам.

Корреляционная зависимость между последовательными уровнями временного ряда называется автокорреляцией уровней временного ряда.

Теснота автокорреляционной связи между уровнями ряда определяется с помощью коэффициентов автокорреляции \(r_\tau\). А функция от сдвига \(\tau\), \(f(\tau)=r_\tau\), называется автокорреляционной функцией (ACF), а график ее называется коррелограммой. Читать

Этапы построения регрессионной модели

Описание.

Регрессией в теории вероятностей и математической статистике принято называть зависимость среднего значения какой-либо величины y от некоторой другой величины или от нескольких величин х_i .
Парной регрессией называется модель, выражающая зависимость среднего значения зависимой переменной y от одной независимой переменной х:

y = f(x) + \varepsilon,

где у – зависимая переменная (результативный признак); х – независимая, объясняющая переменная (признак–фактор).
Парная регрессия применяется, если имеется доминирующий фактор, обуславливающий большую долю изменения изучаемой объясняемой переменной, который и используется в качестве объясняющей переменной.

Множественной регрессией называют модель, выражающую зависимость среднего значения зависимой переменной y от нескольких независимых переменных х_1, х_2, \dots, х_p, т.е.:

y = f(x1,x2,...,xp).

Множественная регрессия применяется в ситуациях, когда из множества факторов, влияющих на результативный признак, нельзя выделить один доминирующий фактор и необходимо учитывать одновременное влияние нескольких факторов.
Читать

Пример решения задачи множественной регрессии с помощью Python

Введение

Добрый день, уважаемые читатели.
В прошлых статьях, на практических примерах, мной были показаны способы решения задач классификации (задача кредитного скоринга) и основ анализа текстовой информации (задача о паспортах). Сегодня же мне бы хотелось коснуться другого класса задач, а именно восстановления регрессии. Задачи данного класса, как правило, используются при прогнозировании.
Для примера решения задачи прогнозирования, я взял набор данных Energy efficiency из крупнейшего репозитория UCI. В качестве инструментов по традиции будем использовать Python c аналитическими пакетами pandas и scikit-learn.

Читать

Введение в анализ текстовой информации с помощью Python и методов машинного обучения

Введение

Сегодня я продолжу рассказ о применении методов анализа данных и машинного обучения на практических примерах. В прошлой статье мы с вами разбирались с задачей кредитного скоринга. Ниже я попытаюсь продемонстрировать решение другой задачи с того же турнира, а именно «Задачи о паспортах» (Задание №2).
При решении будут показаны основы анализа текстовой информации, а также ее кодирование для построения модели с помощью Python и модулей для анализа данных (pandas, scikit-learn, pymorphy).

Читать

Google Compute Engine теперь доступен для всех

Компания Google наконец-то открыла для всех желающих сервис облачных вычислений Google Compute Engine (GCE), анонсированный полтора года назад. Учитывая опыт компании Google в разработке масштабируемых решений, сервисов для разработчиков и самый большой в мире парк серверов, GCE вполне может составить конкуренцию EC2.

Ко дню премьеры приурочено ещё несколько приятных фишек:

  • снижены цены на инстансы на 10%;
  • поддержка 16-ядерных инстансов (до 104 ГБ RAM) для высокопроизводительных вычислений и баз NoSQL;
  • кроме Debian и CentOS с ядром от Google, теперь в виртуальных машинах можно запускать FreeBSD и любые дистрибутивы Linux с любыми ядрами и программным обеспечением, включая DockerFOGxfs и aufs.

Источник: habrahabr.ru

Отчет о решении задачи кредитного скоринга с помощью python

Введение

Добрый день, уважаемые читатели.
Недавно, бродя по просторам глобальной паутины, я наткнулся на турнир, который проводился банком ТКС в начале этого года. Ознакомившись с заданиями, я решил проверить свои навыки в анализе данных на них.
Начать проверку я решил с задачи о скоринге (Задание №3). Для ее решения я, как всегда, использовал Python с аналитическими модулями pandas и scikit-learn.

Читать