Метод Box-Counting

Math_DS_Deep_16.7_site-5020-c97fc4.png

Это известный алгоритм, который позволяет оценить эффект входной информации на наблюдаемый выходной параметр. Пространство переменных X и Y разбивается на ячейки. Количество заполненных ячеек будет использоваться для оценки вероятностного распределения входных параметров. Согласно теории информационных технологий и систем, для оценки степени предсказуемости случайной величины используется её энтропия. Энтропия рассчитывается как среднее значение логарифмов. В алгоритме Box-counting энтропия приближенно оценивается по набору чисел заполнения ячеек, на которые разбивается интервал её возможных значений:

1-20219-ecc3f9.png

Чем больше энтропия переменной, тем менее предсказуемо её значение. Если значения примеров находятся в одной ячейке, то их энтропия равна 0.

Предсказуемость случайного вектора У, обеспечиваемое знанием другой случайной величины Х, характеризуется кросс-энтропией:

2-20219-45c385.png

Кросс-энтропия равна логарифму отношения типичного разброса значений переменной к типичному разбросу этой переменной, но при известном значении переменной Х.

3-20219-06bb5f.png

Чем больше кросс-энтропия, тем больше определённости вносит знание значения Х в предсказание значения переменной. Описанный выше энтропийный анализ не использует никаких предположений о характере зависимости между входными и выходными переменными.

Таким образом, данная методика даёт наиболее общий метод определения значимости входов, позволяя также оценивать степень предсказуемости выходов.

Метод Box-counting, как уже было описано выше, определяет, сколько ячеек размером ε содержат точки корреляционной размерности ряда, т. е. может быть записана формула:

4-20219-0874fb.png

В данной формуле D – корреляционная размерность.

5-20219-07ea75.png

Данный метод относительно прост для его применения на практике. Однако данный метод практически не применим для анализа финансовых временных рядов. Для того, чтобы достичь хотя бы минимальной надёжности выполнения алгоритма Box-Counting, требуется проводить анализ по нескольким сотням тысяч наблюдениям в ряду. Такое ограничение на длине ряда и невозможность рассчитывать локальную корреляционную размерность является крайне сильным недостатком данного метода.

Автор
0 комментариев
Для комментирования необходимо авторизоваться