Обработка данных в пакетном режиме
При пакетной обработке данных массив информации, которая сходна по смыслу либо формату, помещают в контейнер, а потом выполняют над информацией какое-нибудь действие. К примеру, вносят изменения либо отбирают интересующие файлы по заданным характеристикам. При этом выбранное действие всегда применяется сразу ко всем записям, файлам или байтам, находящимся в пакете.
Как составляют пакеты данных
Есть несколько ключевых методов группировки информации по различным контейнерам: 1. По времени создания. К примеру, мы помещаем в пакет все файлы, которые поступили на сервер за последние 30 минут. Либо все сигналы с сенсоров самолетной турбины за последние 3 полета. 2. По типу данных. Тут все просто: видеофайлы -- в одну кучу, текстовые файлы — в другую. 3. По источнику. Например, записи о перемещениях груза на складе мы помещаем в один пакет, а записи о перемещении груза внутри торгового объекта — в другой. Каждая строка таких данных может выглядеть одинаковой, однако источники происхождения все же разные. 4. По содержимому. Фотографии котиков — в одной папке, собачек — в другой. В принципе, раскидывать данные по категориям посредством классификаторов можно и с помощью современных технологий Machine learning. 5. Есть и самый трудоемкий метод группировки — вручную по разным критериям. Несмотря на сложность, этот метод до сих пор используют на практике, если данных, к примеру, не очень много, а автоматические критерии использовать не удается либо они попросту не подходят. Допустим, выбор фотографий, что является, как известно, делом творческим.
Итак, данные отобраны, что дальше? Дальше они поступают в систему пакетной обработки, где с данными происходят нужные действия.
Что значит обработка данных в пакетном режиме?
По большему счету, с данными в одном пакете мы можем выполнять всего две вещи:
1. Применение операций. Операция, которую мы выбрали, применяется к каждому элементу пакета. Картинки? Мы можем сделать цветокоррекцию либо повернуть их на 90°. Видео? Можем обрезать первые 20 секунд и добавить надпись. Двоичный файл? Можем его зашифровать либо дешифровать. И так далее.
2. Фильтрация. У инженеров есть возможность фильтрации файлов внутри пакета — к примеру, мы можем оставить в пакете лишь картинки с котами, удалив все остальные. Либо отфильтровать пакет в целом, пропуская данные на последующую обработку лишь тогда, когда встречаются фотографии только котов, а если внутри встретится хотя бы одно изображение собаки, пакет отбросится целиком. Короче, настройки обработки бывают разные и зависят от поставленных задач.
Хорошим примером решения пакетной обработки данных, которые собраны в процессе работы бизнеса, является Apache Hadoop, а также его механизм обработки MapReduce. Это решение позволяет работать с огромнейшими массивами информации и применяется, как правило, если в компании хранят большие данные (big data).
По материалам https://mcs.mail.ru/blog/.