Cross-Validation на временном ряду
Представьте, что мы построили модель для решения задачи по анализу временных рядов и хотим понять, хорошо ли она работает. Точнее, нам необходимо выбрать из некоторых моделей наилучшую.
При выполнении кросс-валидации на временных рядах нужно понимать, что данные зависят друг от друга, то есть их последовательность важна. Если в обычных данных мы могли взять выборки произвольно (случайным образом) и сформировать из них Train-Test, то в случае временного ряда так делать уже нельзя.
Так как данные временного ряда при кросс-валидации нельзя перемешивать, используется «оконный подход». Лучше всего процесс демонстрирует следующая схема: Кросс-валидация применяется для вычисления качества модели таким образом, чтобы особенности данных не влияли на оценку. То есть оценка должна быть несмещённой. Что касается средней оценки, то она считается на подмножествах данных, что исключает получение слишком оптимистичных или слишком пессимистичных прогнозов.
Безусловно, это далеко не всё, что необходимо знать о способах анализа временных рядов. Получить более подробную информацию вы всегда сможете на курсе «Data Scientist» в OTUS.