Подсветка кода синтаксиса для связки markdown+highligth.js+Django

Добрый день уважаемые читатели. На днях я решил занятся переделкой своего блога и перевести его с PHP на Django. И так как в старом блоге была подсветка синтаксиса надо было ее реализовать и здесь.

Читать

Построение модели SARIMA с помощью Python+R

Введение

Добрый день, уважаемые читатели.
После написания предыдущего поста про анализ временных рядов на Python, я решил исправить замечания, которые были указаны в комментариях, но при их исправлении я столкнулся с рядом проблем, например при построении сезонной модели ARIMA, т.к. подобной функции а пакете statsmodels я не нашел. В итоге я решил использовать для этого функции из R, а поиски привели меня к библиотеке rpy2 которая позволяетиспользовать функции из библиотек упомянутого языка.
У многих может возникнуть вопрос «зачем это нужно?», ведь проще просто взять R и выполнить всю работу в нем. Я полность согласен с этим утверждением, но как мне кажется , если данные требуют предварительной обработки, то ее проще произвести на Python, а возможности R использовать при необходимости именно для анализа.
Кроме этого, будет показано как интегрировать результаты выдачи работы функции R в IPython Notebook.
Читать

Анализ временных рядов с помощью statsmodels+python

Добрый день, уважаемые читатели.
В сегодняшней статье, я попытаюсь описать процесс анализа временных рядов с помощью python и модуля statsmodels. Данный модуль предоставляет широкий набор средств и методов для проведения статистического анализа и эконометрики. Я попытаюсь показать основные этапы анализа таких рядов, в заключении мы построим модель ARIMA.
Для примера взяты реальные данные по товарообороту одного из складских комплексов Подмосковья. Читать

Пример решения задачи множественной регрессии с помощью Python

Введение

Добрый день, уважаемые читатели.
В прошлых статьях, на практических примерах, мной были показаны способы решения задач классификации (задача кредитного скоринга) и основ анализа текстовой информации (задача о паспортах). Сегодня же мне бы хотелось коснуться другого класса задач, а именно восстановления регрессии. Задачи данного класса, как правило, используются при прогнозировании.
Для примера решения задачи прогнозирования, я взял набор данных Energy efficiency из крупнейшего репозитория UCI. В качестве инструментов по традиции будем использовать Python c аналитическими пакетами pandas и scikit-learn.

Читать

Введение в анализ текстовой информации с помощью Python и методов машинного обучения

Введение

Сегодня я продолжу рассказ о применении методов анализа данных и машинного обучения на практических примерах. В прошлой статье мы с вами разбирались с задачей кредитного скоринга. Ниже я попытаюсь продемонстрировать решение другой задачи с того же турнира, а именно «Задачи о паспортах» (Задание №2).
При решении будут показаны основы анализа текстовой информации, а также ее кодирование для построения модели с помощью Python и модулей для анализа данных (pandas, scikit-learn, pymorphy).

Читать

Отчет о решении задачи кредитного скоринга с помощью python

Введение

Добрый день, уважаемые читатели.
Недавно, бродя по просторам глобальной паутины, я наткнулся на турнир, который проводился банком ТКС в начале этого года. Ознакомившись с заданиями, я решил проверить свои навыки в анализе данных на них.
Начать проверку я решил с задачи о скоринге (Задание №3). Для ее решения я, как всегда, использовал Python с аналитическими модулями pandas и scikit-learn.

Читать

Введение в визуализацию данных при анализе с помощью Pandas

Доброго времени суток, уважаемые читатели.
Как обещалось в предыдущей статье, сегодня я продолжу рассказ о модуле pandas и анализе данных на языке Python. В данной статье хотелось бы затронуть тему быстрой визуализации данных результатов анализа. В этом нам помогут библиотека для визуализации данных matplotlib и среда разработки Spyder.

Читать

Введение в pandas или анализ данных на Python

Сегодня речь пойдет о пакете Pandas. Данный пакет делает Python мощным инструментом для анализа данных. Пакет дает возможность строить сводные таблицы, выполнять группировки, предоставляет удобный доступ к табличным данным, а при наличии mathplotlib дает возможность рисовать графики на полученных наборах данных. Далее будут показаны основы работы с пакетом, такие как загрузка данных, обращение к полям, фильтрация и построение сводных.
Читать

Введение в машинное обучение на python и пакет scikit-learn

Добрый день, уважаемые читатели.  В сегодняшней статье мы с вами рассмотрим основы анализа данных с помощью Python и специального пакета для машинного обучения scikit-learn. На простеньком примере задачи классификации будет показаны основные этапы анализа, такие как:

  • предварительная обработка данных и их кодирование

  • преобразование данных к виду входных данных для применения методов машинного обучения

  • Построение и оценка точности модели.

Читать

Новая версия модуля GeoPandas для Python

Сегодня  в репозитории PyPi выложено обновление модуля GeoPandas.

Данный модуль призван облегчить работу с географическими данными. Модуль позволяет вам с легкостью выполнять операции в Python, которые иначе требуют пространственной базы данных, такой как PostGIS