Аналитика данных, анализ и проектирование систем: подборка последних статей на Хабр OTUS

Как подобрать уровень значимости α и мощность для A/B теста

Когда то я думал, выбор правильного уровня значимости α и мощности для A/B теста — это простое дело, пока не столкнулся с этой проблемой на практике. Сидишь, анализируешь результаты, думаешь, что все идет по плану, а потом вдруг выясняется, что твои выводы сомнительны из-за неправильно выбранных параметров тестирования.

Цель A/B теста — не просто узнать, какой вариант лучше, а получить достоверные результаты, на основе которых можно принимать обоснованные решения.

В этой статье рассмотрим как подобрать уровень значимости α.

Z-test

Z-тест, известный также как z-критерий Фишера, представляет собой набор статистических методов для проверки гипотез, которые базируются на предположении о нормальном распределении данных. Эти методы часто используются для анализа, являются ли средние значения двух наборов данных одинаковыми, при условии, что дисперсия генеральной совокупности известна. Еще они применяются для анализа стандартизированных выборочных средних. Расчёт Z-статистики производится путём деления разности между анализируемой случайной величиной и её математическим ожиданием на стандартную ошибку этой величины:

$z={\frac {{\overline {X}}-\,m}{\mathrm {SE} }}$

где X случайная величина выборочного среднего, m — значение математического ожидания, SE — стандартная ошибка этой величины.

В помощь бизнес-аналитику 1С

Большие языковые модели, в просторечии их еще называют искусственным интеллектом, уже больше года, как находятся в центре внимания специалистов и пользователей. Их область применения очень обширна. Бизнес и учет тут не являются исключением. Уже опробованы различные способы применения этой технологии в бизнесе. Эти способы могут быть относительно простыми или довольно сложными.

Параллельное выполнение в R

Параллельные вычисления – подход к проектированию и выполнению программ, который позволяет ускорить обработку данных и вычисления, используя множество процессоров или ядер процессора одновременно.

В ЯП R паралельное выполнение также имеет свои варианты реализации. Рассмотрим их в статье.

Обзор библиотеки Stan в R

Stan — это библиотека на C++, предназначенная для байесовского моделирования и вывода. Она использует сэмплер NUTS, чтобы создавать апостериорные симуляции модели, основываясь на заданных пользователем моделях и данных. Так же Stan может использовать алгоритм оптимизации LBFGS для максимизации целевой функции, к примеру как логарифмическое правдоподобие.

Для облегчения работы с Stan из языка программирования R доступен пакет rstan, который предоставляет интерфейс R для Stan.

Сегодня мы и рассмотрим этот пакет.

Временные ряды с Julia с библиотекой TimeSeries.jl

Julia позволяет достигать скорости, сравнимой с C, что делает её хорошим выбором для временных рядов.

Пакет TimeSeries предоставляет удобные методы для работы с данными временных рядов в Julia.

Кратко про FP в Julia

В отличие от императивного подхода, где выражается последовательность операций, функциональное программирование (FP) сосредотачивается на «что» и «как» должно быть вычислено, а не на «когда«. Это приводит к более чистому, модульному и легко тестируемому коду.

Juliа поддерживает анонимные функции, замыкания, и имеет систему типов, которая позволяет писать высокооптимизированный код без потери читаемости и удобства.

Pgpool-II

Pgpool-II позволяет юзерам PostgreSQL управлять пулами соединений БД, реализовывать репликацию данных между серверами БД. Pgpool-II работает как прокси-сервер между клиентскими приложениями и серверами PostgreSQL, перехватывая запросы от клиентов и направляя их к соответствующим серверам БД согласно настроенным правилам и политикам.

Pgpool-II также поддерживает множественные режимы репликации, включая репликацию на уровне строки и репликацию на уровне транзакций. Репликация на уровне строки позволяет синхронизировать изменения данных между серверами в реальном времени, в то время как репликация на уровне транзакций сосредотачивается на синхронизации транзакций целиком.

Это мы юзаем: библиотека Optuna в Python для оптимизации гиперпараметров

Гиперпараметры — это параметры, которые не учатся в процессе обучения модели. Они задаются заранее. От выбора гиперпараметров напрямую зависит качество и эффективность модели, а их оптимизация может улучшить результаты предсказаний.

Традиционный подход к оптимизации гиперпараметров включает в себя grid search и random search, иногда они могут быть неэффективными и времязатратными, особенно когда пространство гиперпараметров велико.

Sphinx для автодокументирования на проекте

Sphinx был разработан 21 марта 2008 года, и является генератором документации в Python. Сам он так же был написан Python и преобразует файлы reStructuredText в HTML-вебсайты и другие форматы, включая PDF, EPub, Texinfo и man. Sphinx позволяет автоматически генерировать документацию из исходного кода, поддерживает математические записи и подсветку кода. Он используется для автоматизации создания и загрузки документации с помощью Read the Docs после каждого commit.

Методы очистки данных в Pandas

Аналитики данных часто сталкиваются с грязными данными, которые могут существенно замедлить процесс анализа. Грязны данные – это пропущенные значения, дубликаты, неконсистентные данные. Пропущенные значения заставляют нас гадать, что же было замыслено нашим коллегой; дубликаты вводят в заблуждение, умножая одно и то же на количество их копий, а неконсистентные данные заставляют нас сомневаться в каждой цифре.

Очищать грязные данные можно c Pandas. Рассмотрим основные методы.

Аналитика клиентского опыта: база

В последние годы понятие клиентского опыта стало чуть ли не мантрой в бизнесе, и ведь не зря. Пользовательский интерфейс частенько становится причиной успеха того или иного продукта, поэтому анализ клиентского опыта становится не просто ~~nice to have~~, а must have для каждой компании, считающей себя современными.

Как выбрать правильный стат тест для разных метрик

Статистические тесты позволяют анализировать большие объемы информации, выявлять закономерности, которые могут быть неочевидны на первый взгляд, и проверять гипотезы, делая выводы на основе данных. Они также помогают минимизировать ошибки, связанные с выборкой и измерениями, позволяя проводить корректные исследования и делать выводы, основанные на объективных фактах.

В этой статье мы рассмотрим, как правильно выбрать статистический тест для анализа разнообразных метрик.

Основные настройки для управления ресурсами в PostgreSQL: настройка памяти, CPU и I/O

При работе с PostgreSQL (да и в целом с любой БД) важно правильно настраивать и управлять ресурсами, такими как память, процессорное время и дисковые операции, и так далее для обеспечения лучшей производительности и стабильности работы БД.

В этой статье мы как раз и рассмотрим кратко о том, как управлять ресурсами в PostgreSQL.