Для обмена данными многие приложения используют формат CSV. Этот формат стал своего рода стандартом и к нему выработаны требования. Перечень требований на английском (CSV well formedness): Требования к CSV
В данной заметке я расскажу, как исправить нарушение требования к экранированию двойных кавычек, которое может повлечь лишние колонки при импорте данных в Excel. Будет использован небольшой скрипт на perl.
Предусловием является то, что разделитель в CSV вы можете настроить в отличие от экранирования кавычек. Пусть это будет символ \x01, который обычно в текстовых файлах не встречается. Еще одно допущение: считается что кавычки не экранированы во всем документе.
Корректно сгенерированная строка:
Jack;McGinnis;220 hobo Av.;Phila; PA;09119 |
Для наглядности символ \x01 (наш сконфигурированный разделитель) заменен на точку с запятой.
Read more »