Ключевые библиотеки по анализу данных: Pandas

Помимо NumPy, одной из важнейших библиотек для анализа данных является Pandas. По сути, работа Pandas с данными выстроена на основе той же библиотеки NumPy, которая является инструментом более низкого уровня.

Pandas предоставляет специальные структуры данных, а также операции, позволяющие манипулировать временными рядами и числовыми таблицами. Впрочем, само название говорит за себя и происходит от эконометрического термина "панельные данные", который применяется в целях описания многомерных структурированных наборов информации. Распространяется Pandas под лицензией BSD.

На практике те же системные аналитики данных, как правило, используют плоские таблицы, типа Excel и SQL. При этом библиотека Pandas позволяет работать с 2-мерными таблицами на Python.

Пример таблицы в Pandas:

Таким образом, Pandas представляет собой высокоуровневую библиотеку, позволяющую выполнять следующие функции:

  • построение сводных таблиц;
  • выделение колонок;
  • применение фильтрации по параметрам;
  • группировка по параметрам;
  • запуск функций (сложение, нахождение медианы/максимального/среднего/минимального значений);
  • объединение таблиц и многое другое.

Есть возможность создавать и многомерные таблицы.

Если хотите знать про Pandas больше, возможно, вас заинтересует следующий перевод.

Ну и, разумеется, вас вряд ли оставит равнодушным курс "Системный аналитик. Advanced".