Ключевые библиотеки по анализу данных: Pandas
Помимо NumPy, одной из важнейших библиотек для анализа данных является Pandas. По сути, работа Pandas с данными выстроена на основе той же библиотеки NumPy, которая является инструментом более низкого уровня.
Pandas предоставляет специальные структуры данных, а также операции, позволяющие манипулировать временными рядами и числовыми таблицами. Впрочем, само название говорит за себя и происходит от эконометрического термина "панельные данные", который применяется в целях описания многомерных структурированных наборов информации. Распространяется Pandas под лицензией BSD.
На практике те же системные аналитики данных, как правило, используют плоские таблицы, типа Excel и SQL. При этом библиотека Pandas позволяет работать с 2-мерными таблицами на Python.
Пример таблицы в Pandas:
Таким образом, Pandas представляет собой высокоуровневую библиотеку, позволяющую выполнять следующие функции:
- построение сводных таблиц;
- выделение колонок;
- применение фильтрации по параметрам;
- группировка по параметрам;
- запуск функций (сложение, нахождение медианы/максимального/среднего/минимального значений);
- объединение таблиц и многое другое.
Есть возможность создавать и многомерные таблицы.
Если хотите знать про Pandas больше, возможно, вас заинтересует следующий перевод.
Ну и, разумеется, вас вряд ли оставит равнодушным курс "Системный аналитик. Advanced".