Система хранения данных должна быть надежной, а в некоторых ситуациях – еще и производительной или с постоянным доступом к информации. Бывают случаи, когда все эти требования выдвигаются одновременно.
Соответствующую функциональность позволяют обеспечивать специальные технологии. Они называются RAID. Далее предстоит получше познакомиться с RAID-массивами, их особенностями и областями применения. Информация будет полезна системным администраторам, Big Data-инженерам и не только им.
Определение
RAID (Redundant Array of Independent Disks) – это метод виртуализации. Дословно аббревиатура переводится с английского как «избыточный массив независимых дисков». Представляет собой технологию, позволяющую объединять несколько дисков в единый логический том – с улучшенными параметрами.
RAID позволяет сформировать из независимых дисковых накопителей единый логический элемент с целью повышения производительности и отказоустойчивости каждого отдельно взятого компонента в массиве.
Области применения
RAID – технология, которая дает возможность превратить несколько дисковых накопителей в один объемный и быстрый диск. Она применяется для организации хранилищ данных с функциями автоматического резервного копирования или при настройке системного диска с улучшенной отказоустойчивостью.
RAID-технологии используются в самых разных областях:
- системное администрирование;
- резервное копирование данных;
- получение крупных дисков с высокой скоростью обработки информации;
- работа с BigData;
- клиент-серверные модели.
RAID массивы имеют преимущества и недостатки. Быстродействие и надежность могут перекрываться усложнением имеющейся системы и необходимостью приобретения дополнительного оборудования. При перспективах утраты собранных документов при сбоях и неисправностях накопителей сложная организация “РЕЙД” уже не кажется существенным минусом.
Преимущества и недостатки
К преимуществам RAID массивов относят:
- Увеличение объема диска. Первоначальное предназначение рассматриваемой технологии – это получение диска большей емкости.
- Повышение быстродействия системы. Достигается за счет параллельного подключения в массив нескольких физических дисков.
- Надежность хранения документов и отказоустойчивость. Результат достигается за счет выделения на резервирование отдельного оборудования. Если один из дисков будет поврежден, RAID-массив не потеряет данные.
Существенных недостатков у технологии нет. К минусам RAID обычно относят стоимость обеспечения соответствующей системы и сложности ее организации. Также необходимо учитывать, что такие массивы могут применяться не всегда.
Условия для применения
Чтобы воспользоваться RAID массивами, необходимо обеспечить их аппаратную и программную поддержку. В BIOS должны быть специальные настройки. Они имеют вид типа «SATA Configuration: RAID». Если соответствующий параметр отсутствует, базовую систему ввода-вывода придется «перепрошивать».
При отсутствии поддержки RAID программным методом, необходимо подключать дополнительное оборудование. Оно называется RAID-контроллер. На компьютер дополнительно устанавливается соответствующий драйвер. Последние версии Linux поддерживают автоматическую инициализацию драйверов для активации RAID-режима.
Ключевые определения
При работе с RAID-массивами необходимо запомнить несколько базовых терминов. Эти определения сделают разбор технологии более простым и быстрым:
- Массив. Представляет собой объединение нескольких физических или виртуальных накопителей в один объемный диск. Полученный элемент поддерживает возможность целостной настройки, форматирования и управления.
- Метод зеркалирования. Способ повышения надежности хранения информации за счет создания копий исходного диска на другом носителе, включенном в массив.
- Дуплекс. Метод зеркалирования. Он поддерживает вдвое большее количество накопителей для создания копий.
- Чередование. Это увеличение производительности диска за счет блочной разбивки данных в процессе их первичной записи.
- Четность. Так называется технология, включающая в себя чередование и зеркалирование.
Теперь изучить виды RAID и основы работы с ними станет проще. И разобраться в особенностях их функционирования – тоже.
Типы
RAID-массивы могут классифицироваться по:
- исполнению контроллера;
- типам поддерживаемых интерфейсов дисков;
- поддерживаемым уровням.
Существуют следующие типы RAID:
- Программный (software). Является самым бюджетным и наиболее распространенным вариантом. Массивы здесь будут создаваться в самой операционной системе за счет применения специальных утилит. Обработка данных осуществляется центральным процессором. Ключевым недостатком технологии служит зависимость от предустановленной системы. Это приводит к сильному снижению быстродействия и безопасности хранения документов.
- Аппаратный (hardware). Базируется на основе отдельного устройства – RAID-контроллера. Он поддерживает собственный микропроцессор и кэш-память. Нагрузка на микропроцессор минимальна. Данный тип является самым затратным в плане реализации. Он характеризуется высокой скоростью чтения и записи, а также хорошей степенью защиты.
- Интегрированный аппаратный (fake RAID или RAID-on-Chip). Представляет собой сочетание программного и аппаратного типов. Реализуется дополнительными микрочипами, которые вставляются в материнскую плату и работают вместе с центральным процессором оборудования. Такая технология быстрее программной, но она уступает в плане надежности хранения информации на диске.
Теперь можно изучить уровни RAID. От этого параметра будет зависеть, в какой области лучше применять массивы.
Базовые уровни
Ключевые отличия между конфигурациями RAID на диске заключаются в методах формирования и размещения информации, а также в алгоритмах ее дальнейшего распределения на дисках. Базовыми уровнями выступают два основных вида массива – RAID 1 и 0. Остальные – это их производные. Они включают в себя преимущества той или иной «стандартной» модели.
JBOD
Уровень, который сложно назвать непосредственно “РАЙД”, но он тоже представляет собой массив. Дословно расшифровывается как «просто связка дисков». JBOD не дает отказоустойчивости и увеличения производительности. Является просто дисками, которые соединены между собой в единый логический элемент. Скорость операций на итоговом «диске» не превышает скорости самого быстрого и самого медленного накопителей в связке.
Объем диска – это сумма пространств на всех накопителях в пределах массива. При выходе из строя одного диска страдают только данные на соответствующем накопителе. Принцип работает, если система предварительно не разделила файл на части и не распределила их между несколькими «хранилищами».
RAID 0
Называется «чередованием». При записи информации в RAID 0 данные разбиваются на блоки (части) фиксированного объема и сохраняются поочередно на все собственные в массиве диски. Применяется этот уровень для формирования игровых библиотек, видеомонтажа и рендеринга.
Пример – собранный из двух накопителей массив. Файл будет разбит на два блока:
- A1 – записывается на первый диск;
- A2 – сохраняется на второй диск.
RAID-уровень 0 требует для сборки не менее двух дисков. При его использовании значительно возрастает скорость записи и чтения данных. Связано это с тем, что операции осуществляются параллельно на всех дисках. Чем больше составляющих в RAID-массиве, тем более производительным он окажется в конечном итоге.
Ключевой недостаток уровня – это то, что поломка одного из дисков системы приводит к полной потере информации.
RAID-1
RAID 1 – «зеркалирование». Этот уровень представлен в виде полной копии информации с одного диска массива на другом. Подходит для важных данных, для которых в приоритете находятся сохранность и доступность.
Схема подразумевает использование двух накопителей. За счет копирования (дублирования) обеспечивается высокая надежность. Работа массива осуществляется даже тогда, когда один из дисков поврежден. В соответствующей ситуации требуется срочная замена оборудования. Данные будут восстанавливаться с «зеркального» диска. Концепция распараллеливания обеспечивает высокую скорость чтения.
Диски в массиве RAID 1 – это клоны друг друга. Для использования будет доступен объем одного диска. Логическое продолжение – это двукратная стоимость гигабайта памяти. Запись на устройство будет или точно такой же, как и при использовании одного диска, либо чуть ниже.
RAID2
RAID 2 – использует чередование дисков и коды коррекции ошибок (называемые кодами Хэмминга). Это приводит к тому, что накопители в массиве делятся на две группы:
- для данных;
- для кодов Хэмминга.
При чередовании достигается высокая скорость обработки операций с данными по сравнению с одним диском. Коды Хэмминга позволяют выявлять и исправлять ошибки при выполнении команд с файлами «на лету», не снижая скорость обработки. В RAID 2 при выходе из строя одного накопителя массива данные будут восстанавливаться по хранящимся кодам коррекции ошибок. Концепция обеспечивает модели стабильность.
Для создания массива RAID 2 требуется минимум 7 дисков. Меньшее количество накопителей бессмысленно из-за необходимости дисков для кодов, а не для самих данных.
Выше – таблица, указывающая на уменьшение избыточности по мере увеличения количества дисков.
На данный момент RAID 2 не используется. Он не применяется ввиду отсутствия экономичности. Технология является устаревшей. Она значительно уступает другим уровням RAID.
RAID3
RAID 3 – уровень, который тоже использует чередование дисков, но без кодов Хэмминга. Вместо них хранятся контрольные суммы. Они применяются для восстановления. Данные разбиваются на байты. RAID 3 используется для работы с большими документами, потоковыми мультимедиа. На практике он встречается не слишком часто. Это связано с невысоким уровнем защиты.
Минимальное количество дисков для формирования массива – 3 штуки. Скорость операций чтения высокая, запись будет быстрой только для больших документов. RAID 3 – это неплохой компромисс между доступным пространством и ценой. Информация на диске теряется, если из строя выходит больше одного накопителя.
Недостатки у системы тоже есть. При работе с RAID 3 могут возникать проблемы, если используются небольшие файлы. Не все контроллеры поддерживают такую виртуализацию. Высокая нагрузка на диск значительно сокращает срок службы накопителя.
RAID4
RAID 4 – то же самое, что и RAID3, но файл будет разбиваться не на однобайтовые блоки. За счет этой особенности удалось немного повысить скорость записи небольших документов. Остальные характеристики рейда соответствуют третьему уровню.
Выше – наглядный пример того, как выглядит RAID 4.
RAID5
Уровень, использующий контрольные суммы и чередование подобно третьему и четвертому уровням. RAID 5 распределяет объем хранения сумм по всему массиву. Это благоприятно сказывается на скорости записи – операции теперь могут осуществляться параллельно. Для работы системы требуется не менее трех дисков. Под хранение контрольных сумм в RAID 5 выделяется объем, равный одному накопителю.
Это один из самых распространенных уровней. Он используется в:
- файловых серверах;
- серверах общего хранения;
- серверах резервного копирования;
- работе с потоковой информацией;
- разнообразных средах, требующих хорошей производительности.
Чем больше накопителей в массиве, тем больше окажется объем системы. Скорость чтения у RAID 5 высокая. Относительно RAID4 возросла еще и скорость записи. Нагрузка на все диски “РАЙД” массива распределяется равномерно.
Если один диск выходит из строя, надежность системы значительно сокращается. Массив переходит в критическое состояние. Его восстановление – длительный процесс, вызывающий снижение производительности и увеличивающий нагрузку на накопители. Связано это с продолжительным и интенсивным чтением.
Rebuild увеличивает шансы выхода из строя еще одного или нескольких дисков в массиве. Это влечет за собой потерю данных. При восстановлении информации могут возникать не выявленные ранее ошибки.
Работая с RAID 5, необходимо проводить анализ состояния накопителей (S.M.A.R.T.), а также пользоваться технологиями Hot Spare (горячий резерв). В массив будет автоматически подхватываться заранее зарезервированный диск вместо вышедшего из строя.
RAID6
Рассматривая типы у RAID, к базовому «классу» можно отнести RAID6. Контрольные суммы на этот массив будут записываться в двойном размере, что требует от системы увеличения объема в 2 раза. Система RAID 6 более отказоустойчива, чем остальные. Причем стоимость увеличивается не слишком сильно.
Для создания требуется не менее четырех дисков. Это улучшенный вариант RAID 5 с большей надежностью за счет допустимого отказа двух дисков одновременно. Скорость записи может снижаться относительно 5 уровня массива. Используется RAID 6 там же, где и пятый, но с поправкой на повышенную надежность.
Комбинированные уровни
К комбинированным уровням относят сочетания «базовых» массивов. Они являются более совершенными.
RAID 01 и RAID10
Эти массивы сочетают в себе уровни 0 и 1. RAID 01 – зеркалирование двух виртуализаций чередования. Данный уровень называется «зеркалом страйпов».
RAID 10 – чередование двух зеркальных «хранилищ».
Полезный объем массива – 50 % от суммарного объема всех используемых дисков.
RAID 01 и RAID10 обладают одинаковой производительностью. У 10 райда надежность выше, чем у 01. Результат достигается за счет того, что в RAID10 возможен отказ по одному диску в каждом «зеркале» без потери исходных данных. Из-за этого RAID 01 не используется.
RAID 10 включает в себя не менее 4-х дисков. Этот уровень заимствовал у 0 уровня скорость и у 1 – отказоустойчивость. Организация массива окажется дорогостоящей. RAID массив 10 идеально подходит для хранения критически важных данных в приложениях с активным вводом-выводом.
RAID 03 и RAID 30
Чередование будет сочетаться с RAID 3. По аналогии с предыдущим вариантом массив включает в себя три RAID0 или RAID3. Последний вариант является более надежным, поэтому он будет рассмотрен более подробно.
Минимальное количество дисков для формирования системы – 6 штук. Производительность в такой технологии увеличивается, как и надежность. В отличие от десятого уровня, полезный объем у RAID 30 больше.
RAID 50
Среди комбинированных типов RAID есть вид 50. Это – чередование. Оно осуществляется с RAID 5. Активно используется на серверах очень большого объема.
В модели допускается потеря по одному диску в разных массивах RAID5 без утраты данных. Чем больше массивов чередуется, тем больше дисков можно потерять.
Преимущества RAID 5 дополняются повышением записи и восстановления. Для формирования модели необходимы минимум 6 дисков. Не каждый контроллер умеет поддерживать RAID 50.
RAID 60
RAID-уровни 0 и 6 образовывают RAID60.
Для обеспечения схемы необходимо обеспечить 8 накопителей. RAID60 решает проблему производительности шестого уровня, но без дополнительных финансов обойтись не получится. Данная концепция предусматривает проблему возможного отсутствия поддержки массива со стороны контроллера.
RAID 100
Комбинированный райд из ранее комбинированных. Он предусматривает чередование RAID10.
Создается из нескольких низкопроизводительных контроллеров, что положительно сказывается на увеличении скорости. RAID100 отлично подойдет для работы с крупными базами данных. Это его основная область применения.
Усовершенствованные уровни
Название RAID-уровней говорит само за себя. Это еще более совершенные технологии, сочетающие в себе различные особенности.
RAID 1E
Зеркалирование, которое может работать с нечетным количеством накопителей. Для реализации используются два алгоритма:
- Near. При его применении копии записываются со сдвигом накопителя.
- Interleaved. Копия будет записываться с чередованием по полосам. Сдвиг накопителя тоже поддерживается.
Для организации этого массива необходимо воспользоваться не менее чем 3 дисками. Технология совершенствует скорость передачи данных и обработки запросов. Объем, доступный для работы – 50 % от общего дискового пространства. Надежность по сравнению с RAID 1 ниже.
RAID 5EE
RAID-массив пятого уровня, который получается за счет внедрения в массив диска из горячего резерва. Для организации требуются минимум 4 диска.
Объем «горячего диска» распределяется по всему массиву, а общий объем равняется объему n-2 диска. Если один накопитель перестает работать, массив сжимается до n-1 дисков. Пустое пространство заполняется информацией.
RAID DP
Модифицированный RAID4 – в четвертый уровень добавляется еще один накопитель для хранения контрольных сумм. RAID DP является узкоспециализированным. Он работает только на оборудовании NetApp за счет применения файловой системы WALF.
RAID7
RAID 7 – еще одно узкоспециализированное решение. Используется для оборудования компании Storage Computer Corporation. Это решение RAID4, но с использованием кэширования операций по чтению и записи в память. В случае перебоев питания данные будут повреждены. Из-за этого в RAID 7 необходимо использовать ИБП. Иначе система окажется нестабильной.
Выше можно увидеть сравнение уровней RAID. Эта таблица поможет быстрее разобраться в изучаемых технологиях.
Из чего собрать
RAID-массивы изначально использовались для жестких дисков (HDD) и поддерживали интерфейсы:
- IDE;
- SATA;
- SAS.
Современные технологии добавили NVM. Классические SATA HDD связываются в массивы без проблем, как и в случае с SAS-серверами.
Организовать массивы из SSD сложнее. Обычные такие накопители подключаются по sata, а NVM – по шине PCI-Express и занимают четыре линии на один накопитель. Скорость массива может ограничиваться версией шины, количеством линий между чипсетом и процессором.
Программы для создания
В Windows есть встроенная программа для создания RAID-систем. Она поддерживает только первый уровень. Для более сложных операций и Linux/Unix-систем рекомендуется установить стороннее программное обеспечение.
Mdadm
Mdadm – программа на основе Linux. Она предварительно устанавливается через терминал. Умеет:
- создавать и сбрасывать “РАЙД”-массивы;
- монтировать файловые системы;
- сохранять топологии массива;
- удалять отдельные элементы из RAID.
Недостатком приложения является ориентированность на Linux. Для Windows эта программа не подойдет.
MegaRAID Storage Manager
Бесплатное приложение Microsoft. Оно разработано для гибкого управления RAID-системами в Windows.
MegaRAID Storage Manager умеет:
- просматривать состояние “РАЙД”-контроллера;
- создавать массивы разнообразных уровней;
- удалять элементы из массивов;
- монтировать файловые системы.
Отличие этого программного обеспечения – наличие тщательно проработанного графического интерфейса.
На этом всё. Прокачать свои навыки владения инструментами и технологиями работы с большими данными можно онлайн на образовательной платформе OTUS:
Также, возможно, вам будет интересен профессиональный курс по системному администрированию.