Кодирование символов – это процедура присваивания номеров графическим символам, особенно письменным. С помощью такой операции можно хранить, преобразовывать, а также передавать данные посредством цифровых технологий (компьютеров). Числовые значения, формирующие кодировку символов, называются «кодовыми точками». В совокупности они образовывают «кодовое пространство» или «карту символов».

Кодовая страница – это таблица, которая сопоставляет каждому значению байта тот или иной символ (или его отсутствие). Обычно код символа имеет размер 8 бит. Это приводит к тому, что кодовая страница может включать в себя 256 символов. Некоторые из них используются как управляющие элементы.

Сегодня в компьютерной технике используются самые разные кодировки. С помощью них удается расширить количество поддерживаемых символов. Данный момент имеет огромную значимость для латиницы и других языковых алфавитов.

Далее предстоит познакомиться с существующими кодировками и их особенностями. Особое внимание нужно уделить стандарту UTF-8. Он активно применяется в современной компьютерной технике, а также в программировании. Предложенная информация пригодится и обычному ПК-пользователю, и IT-специалисту.

Типы кодировок

Кодировать символы удастся при помощи самых разных способов. Все зависит от того, какая именно кодировка задействуется в той или иной системе.

Наиболее распространенными кодировками выступают:

  • CP866;
  • KOI8-R;
  • ASCII;
  • Windows 1251;
  • Unicode.

Чаще всего в IT предстоит иметь дело с Unicode и ASCII. Далее представленные методы кодирования символов в компьютерах будут рассмотрены более подробно.

ASCII

Это базовая кодировка. Аббревиатура на русском языке будет звучать как «Аски». Используется данный метод кодирования для работы основной массы устройств. Ее первые 128 символов относятся к наиболее используемым. Они включают в свой состав:

  • арабские цифры;
  • служебные элементы;
  • латинские буквы;
  • знаки препинания.

ASCII использует для кодирования символа 1 байт (или 8 бит). Этого мало для современных устройств. Данная особенность привела к тому, что «Аски» получила несколько расширенных версий. Они стали поддерживать кириллицу и русские символы.

Windows-1251

Windows-1251 – стандартная кодировка, использующая 1 байт для «шифрования» одного символа. Она используется во всех русских версиях Microsoft Windows. Огромное распространение она получила в восточно-европейских странах.

Windows-1251 сильно отличается от других кириллических кодировок, использующих 1 байт для шифрования информации. Здесь поддерживаются практически все символы, встречающиеся в традиционной русской типографике для обычного текста. В Windows-1251 отсутствует только знак ударения. Кириллица в ней идет в алфавитном порядке.

Первые 32 компонента Windows-1251 отводятся под разнообразные операции, пробел и перевод строки. До 127-го символа находятся интернациональные составляющие, латинский алфавит, а также знаки математических действий и цифры. Остальное пространство отводится под национальные символьные записи. С их помощью получится отобразить на экране цифрового устройства тот или иной мировой алфавит.

CP866 и KOI8-R

CP866 – это первая таблица кодировки с поддержкой русских букв. Ее первая часть полностью совпадает с ASCII, а вторая – дает возможность закодировать кириллицу, а также некоторые отсутствующие на клавиатуре символы.

CP866 на данный момент не пользуется особым спросом. Ранее она применялась IBM и встречала в DOS-системах. Со временем на ее смену пришла еще одна кодировка – KOI8-R.

Тут каждый символ кодируется при помощи 1 байта. Первая часть таблицы имеет состав классической ASCII. Во второй находятся специальные записи, отсутствующие на клавиатуре. Здесь же встречается элементы русского алфавита.

KOI8-R отличается тем, что в нем буквы русского языка располагаются не в алфавитном порядке. Они размещаются по принципу созвучия с латинским алфавитом. Этот прием позволяет более комфортно перейти с кириллицы на латинские буквы. Для этого придется отбросить всего один бит.

Unicode

Unicode – кодировка, используемая огромным количеством компьютерных устройств. Она является одной из наиболее популярных. Данный стандарт включает в себя практически все существующие письменные языки, а также их знаки и символы.

Unicode – стандарт, преобладающий в Сети. Он был создан в 1991 году. Относится к типу многоязычных стандартов. Опирается на ASCII. Включает в себя как кириллицу, так и азиатские иероглифы. Unicode – это универсальная кодировка. Она предусматривает несколько стандартов.

UTF-32

UTF-32 – самый первый вариант представления Юникода. Для шифрования одного элемента тут используются 4 байта или 32 бита. За счет этого кириллические символы в UTF-32 весят в 4 раза больше, чем в ASCII. Подобное явление может считаться недостатком, несмотря на которое система смогла предложить кодировать знаки в количестве 232.

UTF-32 предусматривает непосредственно индексируемые символы. Обнаружить тот или иной элемент можно при помощи его позиции в заданном исходном файле. Такой подход позволил более быстро обрабатывать операции, связанные с кодированием и заменой символьных данных.

UTF-16

UTF-16 является более новым и совершенным Unicode-стандартом. Это базовое пространство для всех используемых печатных компонентов. Он включает в себя различные символы, включая кириллицу.

UTF-16 включает в себя запись закодированных элементов в 16-ричной системе счислений. В Windows имеется служба «Таблица символов», в которой можно увидеть соответствующую форму записи.

При помощи данного стандарта Unicode получится закодировать 65 536 элементов. Это базовое число для Юникода. Расширенное пространство предусматривает множество дополнительных символьных записей по сравнению с предыдущими «версиями».

Преимуществом UTF-16 является то, что при переходе на эту кодировку с ASCII размер исходного документа будет увеличен в 2 раза (вместо 4-х при работе с UTF-32). Для кодирования одного и того же символа здесь используются 2 байта (или 16 бит).

UTF-8

UTF-8 – это еще один тип Unicode-стандарта, но он будет рассмотрен более подробно. Данный вариант кодировки тоже предусматривает в своем составе кириллицу. Называется UTF-8 кодировкой переменной длины. Несмотря на 8 в названии стандарта, длина действительно меняется. Каждый символ может получить код, длина которого составит от 1 до 6 байт. Обычно стандарт использует записи длиной до 4 байт. Латинские буквы содержатся в одном байте – точно так же, как и в случае с ASCII.

Рассматривая буквы русского алфавита, можно заметить – они будут занимать по 2 байта, а грузинские – по 3. UTF-8 – это стандарт, поддерживающий печать не только букв, но и смайликов. С ним хорошо интегрируются даже системы, не ориентированные на обработку Unicode. Данная особенность связана с тем, что базовая часть ASCII была переведена на новый стандарт Юникода.

При использовании UTF-8 для передачи информации в формате ASCII будут использоваться 7 первых битов. Восьмой (самый последний) необходим для вывода «мусора» (некорректно раскодированных данных). При использовании данной кодировки для латинских символов существенно сокращается объем текста.

Алгоритм кодирования

Кодирование в UTF-8 стандартизировано в RFC 3659. Данный процесс состоит из нескольких этапов:

  1. Определение количества байтов (октетов), необходимых для шифрования одного символа. Номер элемента берется из Unicode-стандарта.
  2. Установить старшие биты первого октета в соответствии с необходимым количеством октетов, определенном на первом шаге. Если требуется 1 байт, используется запись 0xxxxxxx, если 2 октета – 110xxxxx, если 3 – 1110xxxx, если 4 – 11110xxx.
  3. Выбрать значащие биты октетов в соответствии с номером символа Unicode, выраженном в двоичной форме представления. Заполнение начинается с младших битов номера символа. Они ставятся в младшие биты последнего октета. Далее нужно продолжить запись справа налево до первого октета. Свободные биты первого октета, оставшиеся незадействованными, должны быть заполнены нулями.

Данный алгоритм может показаться сложным неопытным ПК-пользователям. Для шифрования информации при помощи UTF-8 таким людям можно использовать специальные онлайн-кодеры. Они же помогут расшифровать данные в режиме реального времени в течение минуты.

Особенности стандарта

UTF-8 – это Unicode-стандарт, который используется повсеместно. Он пользуется спросом у большинства современных устройств и компьютерных систем. Позволяет шифровать все языки мира, а также эмодзи и глифы.

UTF-8 поддерживается некоторыми языками программирования. Часть из них наглядно демонстрирует ряд особенностей рассматриваемого стандарта:

  1. В PHP: язык поддерживает 256 символов. Один элемент в строке он принимает как 1 байт информации. Такой принцип применяется даже тогда, когда символьная запись в строке весит меньше одного байта. Примером могут послужить смайлики. Некоторые из них весят по 4 байта, но для PHP они все равно имеют один байт. Соответствующий недочет устраняется за счет настройки многобайтовых функций. С помощью них PHP начнет обращаться к памяти при подсчете длины строки, а не считать каждый символ за 1 байт.
  2. В JavaScript. Этот язык программирования поддерживает работу с UTF-16. Сложные символы требуют две кодовые точки для формирования ссылки.
  3. В MySQL. UTF-8 здесь не поддерживается в стандартной интерпретации. 24 бита MySQL мало для передачи одного печатного элемента. Вместо этого СУБД поддерживает расширенную интерпретацию – UTF-8mb4.

При помощи UTF-8 получится записать код любой длины. Для более эффективной работы алгоритма рекомендуется ограничить кодовый размер. Unicode 6.x – это актуальный стандарт, предполагающий использование кода до 4-х байт в UTF-8.

UTF-16 и UTF-8 – сравнение

UTF-8 и UTF-16 – наиболее распространенные кодировки в Unicode-стандарте. Они обе предусматривают переменную длину. Один символ в этих стандартах может быть представлен разным количеством байт.

Unicode хранит все данные в таблице, а сортирует информацию по количество байт, которым они обладают в двоичной системе счисления. В самом начале стандарта элементы могут занимать лишь 1 байт, поэтому UTF-8 зашифрует их 1 байтом. Если информация потребуется двух байтов, в UTF-8 она будет тоже занимать 2 байта. Для латинских букв хватает 1 байта, для кириллицы – 2-х.

UTF-16 несколько отличается от своего более нового стандарта. Она оперирует информацией из двух и четырех байт. Соответствующая кодировка отлично подойдет для шифрования восточных языков.

Установка UTF-8 в PHP и HTML

HTML умеет работать с упомянутой кодировкой. Для ее установки необходимо воспользоваться специальным тегом – <meta>. Он позволяет объединить в себе в виде атрибутов значения метатегов.

Метатеги применяются для:

  • передачи данных;
  • хранения информации, используемой для браузеров и поисковых систем.

Кодировку страницы поможет установить атрибут charset. Ниже можно увидеть наглядный пример его использования:

Кодировки символов и формат UTF-8

Кодировка может быть установлена нескольким отдельным компонентам на той или иной HTML-странице. Для этого тоже используется атрибут charset. Его значение – это нужный стандарт кодирования:

Кодировки символов и формат UTF-8

Значения могут быть присвоены непосредственно HTTP-заголовкам, передаваемым вместе с ответом на запрос от браузерной стороны к серверной. В соответствующей ситуации UTF-8 будет доминировать над значением, прописанным внутри веб-сайта.

Большинство страниц создаются динамически за счет использования серверных языков программирования. Чаще всего таковым является PHP. Каждый разработчик должен знать, какие инструменты и конструкции помогут поменять «на лету» кодировку генерируемой страницы.

Для модификации и первичной установки значений заголовка необходимо пользоваться функцией header(). Она предусматривает следующую синтаксическую запись:

Кодировки символов и формат UTF-8

Для корректного задания UTF 8 в PHP нужно производить вызов функции header() в коде выше всех остальных тегов HTML.

Глобальные настройки

Рассмотренные ранее подходы помогают настраивать UTF 8 на отдельных веб-страницах, а также на небольших сайтах. Иногда пользователям приходится иметь дело с ресурсами, включающими в свой состав огромное количество страниц и десятки разделов. В соответствующем случае предстоит установить UTF-8 для всего сайта сразу.

Реализация задачи становится возможной за счет внесения изменений в дополнительный конфигурационный файл выбранного ресурса. Речь идет о документе с названием .htaccess. Его необходимо открыть в любом текстовом редакторе. После этого – добавить новую строку:

Кодировки символов и формат UTF-8

В виде более глобального метода изменения кодировки рекомендуется рассмотреть пример, базирующийся на любом локальном сервере. Для большей наглядности стоит взять Denwer. Он имеет достаточно широкое распространение.

Для изменения кодировки всех ресурсов, размещенных на Apache, требуется отредактировать конфигурационный файл http.conf. Он расположен по пути: usr/local/apache/conf. Здесь необходимо заменить значение AddDefaultCharset на необходимый параметр. А именно – на UTF-8.

Работа с базами данных

UTF-8 может кодировать информацию с помощью разного количества байт. Данная «система» используется в информационных базах. Наиболее распространенной СУБД является MySQL. На ее примере будет рассмотрена установка UTF-8.

Чтобы изменить стандарт шифрования информации, необходимо внести корректировки в документ my.ini. Он расположен по пути: usr/local/mysql-5.5.

В my.ini необходимо поставить название желаемого стандарта в нескольких полях:

  • character-set-server;
  • default-character-set;
  • init-connect = «set names»;
  • default-character-set.

Также потребуется добавить новую строку: skip-character-set-client-handshake. Соответствующие изменения могут быть внесены не только для всех баз данных в пределах имеющегося сервера, но и для отдельно взятой БД MySQL в PHP. Добиться желаемого результата поможет пользовательский интерфейс оболочки PHPMyAdmin.

Сначала необходимо выяснить, какие стандарты кодирования установлены для БД по умолчанию. Для этого используется следующий SQL-запрос:

Кодировки символов и формат UTF-8

Если те или иные значения не удовлетворят программиста, их необходимо изменить. Для реализации поставленной задачи предстоит обратиться с запросом к ядру сервера СУБД:

Кодировки символов и формат UTF-8

В конечном итоге программист получит новые значения переменных:

  • character_set_connection;
  • character_set_client;
  • character_set_results.

Внести необходимые изменения в Excel-таблицы более проблематично. Для этого необходимо пользоваться сторонними приложениями перекодировки документов.

Теперь понятно, каким может быть размер символа в UTF-8, какие варианты кодирования данных существуют, чем они выделяются. А еще удалось выяснить принципы работы с UTF-8 с базами данных, а также в процессе написания HTML-сайтов. Аналогично получится установить любой другой необходимый стандарт в процессе разработки веб-страниц.

Лучше разобраться с изученной темой помогут дистанционные компьютерные курсы. Они рассчитаны на срок от месяца до года. На них пользователи «с нуля» научатся работать с кодировками и подсчитывать байты зашифрованных документов, а также взаимодействовать с серверами и разнообразными операционными системами, настраивать программное обеспечение и писать коды на самых разных языках. Достаточно выбрать подходящее направление. В конце курса каждый получит электронный сертификат, с помощью которого получится подтвердить приобретенные знания.

Хотите освоить современную IT-специальность? Огромный выбор курсов по востребованным IT-направлениям есть в Otus!