При работе за компьютером, а также во время разработки программного обеспечения специалисты и рядовые пользователи часто сталкиваются с различными расширениями и форматами файлов. Некоторые из них знакомы большинству – .doc, .jpeg, .png, .mp3 .xls и другие. 

Одним из таких документов является CSV или Comma Separated Values. Далее предстоит разобраться с соответствующим типом файлов более подробно. Информация, представленная в статье, будет одинаково полезна как разработчикам, так и системным администраторам. Предстоит выяснить, что собой представляет CSV, для чего используется, как происходит его чтение и запись на устройстве. Особое внимание будет уделено одноименному модулю (библиотеке) в Python.

Краткое определение

Перед тем как работать с CSV, необходимо выяснить, что собой представляет соответствующий формат. Он встречается достаточно часто, но «рядовые» пользователи с ним могут так и не иметь ничего общего.

CVS – это значения, которые разделены запятыми. Текстовый формат, предназначенный для представления табличный данных. Строка таблицы – это строка текста в исходном документе с одним или несколькими полями, разделенных запятыми.

Основной проблемой является то, что CSV – формат, который до конца не стандартизирован. Из-за этого некоторые приложения могут открыть расширение «с ошибками». Ситуация особо актуальна для файлов, содержащих переносы строк и запятые.

CVS – термин, который используется для описания схожих форматов. В них могут использоваться иные символы в качестве разделителей:

  • табуляция (tab, TSV);
  • точка с запятой;
  • иные символьные записи.

Основная масса приложений для чтения CSV позволяет выбирать при попытке открыть документ особенности отображения информации. Среди них поддерживается выбор типа разделителя между строк.

Спецификация

Чтобы создать рассматриваемый тип файла на компьютере, необходимо помнить о некоторых особенностях спецификации:

  • одной строкой таблицы является каждая отдельно взятая строка файла;
  • в качестве разделителя (delimiter) значений колонок обычно используется запятая;
  • допускается применение различных символьных записей в виде разделителей;
  • значения, которые содержат зарезервированные символы (точка с запятой, запятая, двойная кавычка, новая строка), должны быть «оформлены» в двойные кавычки.

Иногда в файл CSV нужно записать символ двойных кавычек. В этом случае соответствующий компонент «оформляется» положенным образом. В тексте он будет удвоен. На данный момент необходимо особое внимание обратить новичкам.

Стандартизация

Запись в CSV – не самая трудная операция, с которой рискует столкнуться разработчик и системный администратор. Сформировать соответствующий документ успешно удается вручную без использования сложных приложений. Пользователям Windows иногда для того, чтобы обработать CSV формат, ничего не придется скачивать на устройство.

Перед созданием, импортом, чтением и сохранением соответствующего типа документов стоит обратить внимание на особенности стандартизации. Полностью Comma Separate Value не стандартизирован. Из-за этого работа с расширением может быть затруднена.

В основном термин CSV используется для описания более общих форматов. Пример – DSV или delimiter separated values. Его ключевой особенностью является то, что в виде разделителя могут использоваться разнообразные символы. По умолчанию символ запятой в большинстве языков и локалях зарезервирован. Он используется для десятичного разделения записей.

В виде разделяющих символов часто пишутся:

  • точки с запятыми;
  • табуляция (в TSV).

В некоторых «родственных» форматах первая строка может выступать в качестве заголовка, а кавычки, используемые в тексте, не всегда двойные – бывают и одинарные. Отдельные расширения применяют различные символьные наборы. Из-за этого перенос данных из одних программ в другие затрудняется.

Единый стандарт RFC-4180

Рассматриваемый тип файлов хранит в себе таблицы в специальной форме. Сохранить документ в CSV не слишком трудно, как и осуществить его открытие в Windows. В Python запись в файл типа CSV осуществляется на основании единого стандарта. Он называется RFC-4180 и используется для общей характеристики упомянутых ранее расширений.

Имеет следующие особенности и принципы:

  • строка заголовка с формируемом файле не является обязательной;
  • поле может быть заключено в двойные кавычки;
  • каждая запись должна включать в себя одно и то же количество полей;
  • символ двойных кавычек при написании и сохранении в «таблице» удваивается;
  • если поле включает в себя запятые, переносы строк и двойные кавычки, все поле заключается в двойные кавычки.

Стандарт рекомендует быть вольным при записи данных и их сохранения в рассматриваемом формате.

Создание и чтение в операционных системах

В Python работа с CSV требует определенных навыков и знаний. В операционных системах прочитать и создать соответствующий формат достаточно легко. Для этого нужно запись текстовые данные в выбранном типе форматирования и сохранить в .csv. Сделать это можно в любом редакторе.

Для того, чтобы прочитать (read files) или записывать данные (write) в Windows по умолчанию используется MS Excel. Это самый простой способ произвести открытие таблицы, записанной в CSV, а затем считать информацию и при необходимости внести и сохранить изменения.

В качестве CSV Writer and Reader можно использовать другие приложения. Открывать такие файлы удастся с помощью:

  • MS Outlook Express;
  • Safari;
  • LibreOffice;
  • службы «Блокнот» в Windows;
  • Notepad++.

Последнее приложение рекомендовано для файлов и приложений, создаваемых в Python. Это функциональный текстовый редактор, в котором создание, открытие и корректирование информации осуществляется при помощи огромного количества инструментов. Для разработчиков здесь поддерживается подсветка синтаксиса, благодаря которому программирование становится в разы проще. Notepad++ – это своеобразный функциональный CSV writer, реализованный удобным текстовым редактором.

Алгоритм чтения в операционной системе

Создать, записать и считать информацию в CSV-формате можно при помощи любого текстового редактора. Данные операции легко осваиваются даже новичками. Перед работой с CSV-форматом в Python предстоит рассмотреть общий алгоритм работы с соответствующим файлом в текстовых редакторах.

Для того, чтобы создать (create) табличный документ, его достаточно написать с разделителями в приложении и сохранить в желаемом формате. Если нужно считать (reading), откорректировать или загрузить file в редакторе, обычно необходимо:

  1. Запустить редактор текста. Пример – Excel.
  2. Перейти в «Файл»–«Открыть» (File – Opening). Можно воспользоваться сочетанием клавиш Ctrl + O. Оно вызовет окно, в котором осуществляется импорт информации.
  3. Выставить в окне «Все форматы». В противном случае Delimiters Separated (DSV) и Comma Separated (CSV) не будут отображены в меню выбора.
  4. Отыскать желаемый документ – тот, который хочется прочитать.
  5. Нажать на кнопку «Открыть» (Open).

Откроется «Мастер Текста» – служба, которая задает особенности записи в CSV файл и то, как считывается документ. Процесс настройки осуществляется в несколько «этапов». Пользователю предстоит указать как opened file будет отображаться в рабочей области Excel, а также выбрать разделитель и кодировку. В нижней части «Мастера Текста» создаются «шаблоны». Это – предварительный просмотр. С его помощью удастся понять, как отобразится исходный документ.

В некоторых приложениях типа CSV-Writer окно «Мастер Текста» просто разделено на несколько областей. Каждый блок будет отвечать за параметры отображения информации на экране после open files.

Работа в Python

Приложение, в котором мы читаем all CSV, для разработчика не столь важно. Подобрать текстовый редактор для работы с расширением не составляет труда. Намного сложнее использовать рассматриваемый формат в разработке.

CSV и Python

Выше – наглядный пример того, как выглядит запись в CSV. Соответствующий формат активно применяется при работе с электронными таблицами и базами данных. Если импортировать исходный документ в соответствующий тип, работать с предложенными материалами будет максимально комфортно.

Запись в CSV – это обычный текстовый file. Обработка символов, которая отличается от Unicode и ASCII здесь не поддерживается.

Библиотека

Чтобы обработать рассматриваемый формат файла, можно скачать и установить Notepad++. Для разработки у Python имеется библиотека CSV. Это специальный модуль, который позволяет осуществлять парсинг (parsing), импорт (import), считывание (reading), сохранение (writing), а также создание (creating) и обработку упомянутого формата.

Чтобы Python CSV модуль работал, достаточно скачать среду программирования. Далее – произвести стандартный import библиотеки:

CSV и Python

Выше – команда, помогающая разработку осуществлять import рассматриваемого модуля. Отдельно скачивать библиотеку не потребуется.

Поддерживаемые функции

После import CSV в Python разработчик может работать с парсером (parser) и пользоваться различными функциями, которые поддерживает рассматриваемая библиотека. Они определяют, как мы обрабатываем исходный файл.

Упомянутая библиотека в языке программирования используется для чтения и записи, а также получения данных из заданных столбцов. Она поддерживает следующие функции:

  • field_size_limit – возврат максимального размера поля, разрешенного при помощи парсера;
  • get_dialect – возвращает диалект, связанный с именем;
  • list_dialect – список всех зарегистрированных диалектов;
  • reader – позволяет read csv file;
  • register_dialect – связывает диалект и имя;
  • writer – метод, при использовании которого информация записывается в желаемый формат документа;
  • unregister_dialect – удаление диалекта, который связан с именем, из реестра диалектом;
  • quote all – все объекты fieldnames заключают в кавычки поля;
  • quote minimal – объекты записи указывают только те поля, в которых есть специальные символы (delimiter, quotechar и так далее);
  • quote_nonnumeric – заключение объектами файла в кавычки all нечисловые поля;
  • quote_none – никогда не использовать кавычки для заключения полей.

Теперь можно познакомиться с CSV Dictreader в Питоне поближе. Предстоит изучить основные операции с форматом и их особенности.

Чтение из файлов

Read Files – операция, которая для большинства приложений является «базовой». Python позволяет использовать парсинг (когда читаем информацию из уже готового документа).

Для чтения данных из готового файла разработчику необходимо создать (created) объект reader. 

CSV и Python

CSV reader delimiter имеет метод __next__. Упомянутый объект выступает в качестве интерпретируемого. Из-за этого читаем подготовленный документ (парсинг) так:

CSV и Python

Print используется для вывода информации в консоль. Это то, что открывается системой после выполнения необходимых операций в приложении.

В качестве примера можно рассмотреть reading from file:

CSV и Python

Если открыть документ в написанной по предложенному алгоритму приложении, результаты обработки информации окажутся такими:

CSV и Python

Конструкция with…as f in data позволяет разработчику быть уверенным в том, что CSV Dictreader закроет исходный файл, даже если в процессе работы приложения произойдет ошибка.

Особое внимание необходимо уделить кодировке. От нее зависит, как будет отображаться информация после выполнения open file. Если ничего не указывать в соответствующем поле, будет выбран параметр по умолчанию. Для Windows это cp1251.

Библиотека дает возможность работать с такими объектами как:

  • файл (parsed information from document);
  • словарь (dict).

Чтобы работать со словарями, необходимо создать объект to dictreader. Далее предстоит обращаться к written компонентам по имени столбцов, а не при помощи индексов. Для того, чтобы исходная программа делала аналогичный вывод, она будет изменена:

CSV и Python

Цикл for при первой итерации будет записываться for row in program. Это не «шапка», а первая строка таблицы. При выводе (writes) количества строк переменная count запишется с увеличением на +1.

Атрибуты dictreader

Как (how) использовать в Python open CSV уже понятно в общих чертах. При работе с компонентом DictReader допускается использование дополнительных атрибутов. Они помогут достигнуть желаемого результата обработки данных:

  • dialect – набор параметров форматирования информации;
  • line_num – количество строк, которое может быть прочитано from program;
  • fieldnames – заголовки для столбцов.

Если прибегать to fieldnames, элементы будут записаны с первой строки (row in reader). Заголовки помогают понять, какие данные включены или должны размещаться в столбцах.

Если бы в предыдущем документа (classmates) не было первой строки с заголовками, его можно было бы открыть так:

CSV и Python

Метод __next__ можно использовать, чтобы получить (to read) следующую строку. Этот метод делает csvreader интерпретируемым. Он вызывает при каждой итерации и возвращает следующую строку.

Запись

В Python чтение CSV-файла – это не самая сложная операция. Следующий момент, на который необходимо обратить внимание – запись в документ (how write to file). Это вторая «базовая» операция.

Для записи информации необходимо создать специальный объект. Это в Python CSV-Writer.

CSV и Python

Чтобы сохранять записи в рассматриваемом формате (how to write file) необходимо использовать метод writerow. Он имеет такой синтаксис:

CSV и Python

А вот код программы, которая демонстрирует использование CSV-Writer:

CSV и Python

При применении writerow необходимо обратить внимание на разделитель. По умолчанию этот параметр writerows установлен как «\r\n».

После обработки CSV в Python файл будет заполнен так:

CSV и Python

Writerow будет в виде параметра принимать список, компоненты которого записываются в строку при помощи разделителя.

Использование слова

Запись в файл может осуществляться через dictwriter. Данный прием требует от разработчика явного указания fieldnames. В виде аргумента метода writerow используется словарь:

CSV и Python

Результат – three rows:

CSV и Python

У dictwriter имеются дополнительные атрибуты. Они помогут установить параметры, которые используются для writing информации и дальнейшего чтения CSV.

Атрибуты

Объект writer имеет параметр dialect. С его помощью можно определить особенности форматирования. Дополнительными атрибутами выступают такие компоненты:

  • writerow – запись всех элементов строк;
  • writeheader – вывод заголовков для столбцов.

При использовании метода header заголовки могут быть переданы writer в виде списка. В данном случае процесс осуществляется точно так, как и в случае с fieldnames. Если header не задан, разобраться с предложенной таблицей будет проблематично.

CSV и Python

Выше – пример того, как можно использовать не headers, а writerow. Теперь понятно, как осуществляется в Python чтение из CSV-файла, а также запись необходимых изменений.

Диалекты

Еще один момент, на который необходимо обратить внимание при import csv with files в Питоне, – это диалекты. Они позволяют определить формат входных и выходных данных. Используются для того, чтобы не указывать соответствующую информацию каждый раз для header и иных компонентов документа.

Для создания диалекта применяется команда:

CSV и Python

А вот атрибуты, которые связаны с диалектами:

  1. Delimiter. Отвечает за символ-разделитель.
  2. Doublequote – если параметр true, символ quotechar удваивается. В противном случае добавляется escapechar в виде префикса.
  3. Escapechar – строка из одного символа. Она используется для экранирования разделителя при CSV with open.
  4. Lineterminator – определение разделителя по умолчанию.
  5. Quotechar – символ, используемый для окружения разделителя.
  6. Quoting – компонент, который применяется при экранировании символа разделителя.
  7. Skipinialspace – если установлено значение true, все пробелы после разделителя игнорируются.
  8. Strict – при неправильном вводе документа происходит join исключения Error.
CSV и Python

Теперь ясно, как в Python читаем документы CSV, а также какими приложениями можно открыть документ. Каждый может скачать любой удобный ему текстовый редактор для более комфортного отображения информации на экране после ее записи.

Интересует Python? Добро пожаловать на курс в Otus!