Текстовый файл

Материал из Википедии — свободной энциклопедии
(перенаправлено с «.txt»)
Текущая версия страницы покане проверялась опытными участниками и может значительно отличаться отверсии, проверенной 28 мая 2022 года; проверки требуют12 правок.
Перейти к навигацииПерейти к поиску
Запрос «TXT» перенаправляется сюда; см. такжедругие значения.
Эту статью предлагаетсяудалить.
Пояснение причин и соответствующее обсуждение вы можете найти на страницеВикипедия:К удалению/28 мая 2022.
Пока процесс обсуждения не завершён, статью можно попытаться улучшить, однако следует воздерживаться от переименований или немотивированного удаления содержания, подробнее см.руководство к дальнейшему действию.
Не снимайте пометку о выставлении на удаление доподведения итога обсуждения.
Последнее изменение сделано участникомЖелезный капут (вклад · журналы) в 05:39, 5 февраля 2025 (UTC; около 39 дней назад).
Администраторам и подводящим итоги:
Текстовый файл
Изображение
MIME-типtext/plain
Расширение файла.txt или.text
Противоположнодвоичный файл и графический файл[вд]
Логотип Викисклада Медиафайлы на Викискладе
Пиктограммное описание текстового файла сCSV-данными

Те́кстовый файл — компьютерныйфайл, содержащийтекстовые данные. Текстовым файлам противопоставляютсядвоичные (бинарные) файлы, в которых содержатся данные, не рассчитанные на интерпретацию в качестве текстовых (например, файлы, хранящие текст в закодированном или сжатом виде, или хранящие не текст, а звук, изображение или иные данные).

В отличие от термина «текстовые данные» (текстовый формат данных), характеризующего содержимое данных, термин «текстовый файл» относится к файлу и характеризует его как контейнер, хранящий такие данные.

Содержание

Описание

[править |править код]
Основная статья:Текстовые данные

Текстовый файл содержит последовательностьсимволов (в основномпечатных знаков, принадлежащих тому или иномунабору символов). Эти символы обычно сгруппированы в строки (англ. lines, rows). В современных системах строки разделяютсяразделителями строк, в прошлом же применялось хранение строк в виде записей постоянной или переменной длины (см.:Перфокарта). Иногда конец текстового файла (особенно если в файловой системе не хранится информация о размере файла) также отмечается одним или более специальными знаками, известными как маркерыконца файла.

Преимущества и недостатки

[править |править код]

Преимущества:

  • Универсальность — текстовый файл может быть прочитан (так или иначе) на любой системе илиОС, особенно если речь идёт об однобайтных кодировках вродеASCII, которые не подвержены проблеме, характерной для других форматов файлов — для них не важна разница впорядке байтов или длинемашинного слова.
  • Устойчивость — каждое слово и символ в таком файле самодостаточны и, если случится повреждение байтов в таком файле, то обычно можно восстановить данные или продолжить обработку остального содержимого, в то время как усжатых или двоичных файлов повреждение нескольких байтов может сделать файл совершенно невосстановимым. Многиесистемы управления версиями рассчитаны на текстовые файлы и с двоичными файлами могут работать только как с единым целым.
  • Формат текстового файла крайне прост и его можно изменятьтекстовым редактором — программой, входящей в комплект практически любойОС.

Недостатки:

  • У больших несжатых текстовых файлов низкаяинформационная энтропия — эти файлы занимают больше места, нежели минимально необходимо. Хотя этаизбыточность и определяет повышенную устойчивость к сбоям в каналах передачи данных и при получении данных сносителей, например, смагнитной ленты.
  • Некоторые операции с текстовыми файлами неэффективны. Например, если в файле встретится число, вычислительная система до начала операций с ним должна будет перевести его в свой внутренний формат, применив сравнительно сложную процедуру конвертации числа; чтобы перейти на 1000-ю строку, требуется считать 999 строк, идущих до неё; сложно заменить одну строку другой и т. д. Поэтому при работе сбольшими объёмами данных текстовые файлы применяют только как промежуточный формат, обеспечивающийинтероперабельность.

Форматы, основанные на текстовых файлах

[править |править код]

В силу своей простоты текстовые файлы нередко используются для хранения служебной информации (например,логов): так как операция добавления в конец текстового файла новых данных не требует сколь-нибудь значительных вычислительных ресурсов независимо от уже имеющегося объёма файла и вида добавляемых текстовых данных, ведение текстовых лог-файлов обычно происходит эффективно и незаметно для пользователя и для других приложений (вплоть до исчерпания дискового пространства).

Текстовый формат служит основой для многих более специализированныхформатов (например,.ini,SGML,HTML,XML,TeX,исходных текстов языков программирования). В некоторых из таких форматов определённые сочетания символов могут использоваться как средства разметки текста. В таком случае файл может хранить форматированный текст, в котором для символов дополнительно может быть задан шрифт, начертание, размер и т. п. (например,Rich Text Format,HTML).

Расширения имён файлов

[править |править код]

ВDOS,macOS иWindows для файлов с неформатированным текстом обычно используетсярасширение.txt. Тем не менее, текстовыми могут являться файлы с любым другим расширением или без оного. Например,исходные коды программ обычно хранятся в файлах с расширениями, соответствующимиязыку программирования, на котором написаны программы (.java,.bas,.pas,.c).

Форматированный текст (текст с разметкой) обычно хранится в файлах с расширением, соответствующим формату илиязыку разметки —.rtf,.htm,.html.

Кодировки

[править |править код]

8-битный текст

[править |править код]
Основная статья:Кодовая страница

Исторически для кодирования текстовых файлов применялась 7-битнаякодировкаASCII, а также совместимые сEBCDIC и ASCII 8-битные кодировки (кодовые страницы). В ASCII-совместимых кодовых страницах (так называемомрасширенном ASCII[англ.]) позиции0x000x7F кодовой таблицы, как правило, полностью совпадают с ASCII.

Преимуществом 8-битного представления текста является программная простота и независимость отпорядка байтов или длинымашинного слова. Недостаток — большое количество различных стандартов, что может приводить к несовместимости.

Unicode в текстовых файлах

[править |править код]

ПрименениеUnicode в текстовых файлах хотя в основном решает «проблему кодировок» и стандартизирует употребление управляющих символов, но создаёт свои проблемы. В большинстве современных систем неделимой единицей информации впотоке данных являетсябайт (8 бит), которых для кодирования одного символа из Юникода требуется несколько. В качестве решения применяются несовместимые между собой системыUTF-8 и две версииUTF-16 (UTF-16LE и UTF-16BE с противоположнымпорядком байтов). Иногда в начало файла добавляют специальный символ-маркер (U+FEFF[1]), позволяющий распознать формат однозначно. UTF-8 имеет преимущество обратной совместимости с ASCII, однако программная обработка текста в UTF-8 усложняется непостоянным размером символа. Также тексты в Юникоде отличаются ещё большейизбыточностью, нежели 8-битные.

Управляющие символы

[править |править код]
Основная статья:Управляющие символы

Различные операционные системы придерживаются своего представления перевода строки и конца файла. ВUNIX перевод строки состоит из одного символа LF (код 0xA), вMac OS (но неmacOS) — из символа CR (код 0xD), а вDOS иWindows перевод строки кодируется последовательностью двух символов: CR и LF.

Такой разнобой продиктован принципами работы пишущих машинок: чтобы перейти на новую строку, надо вернуть каретку в начало строки (carriage return), а затем провернуть барабан на одну строку (line feed). При печати на принтере тот и другой символ мог стоять обособленно (например, чтобы выделить строку, пропечатав её дважды, или прокрутить барабан на несколько строк), но в текстовых файлах в этом нет нужды.

Помимо названных, в текстовых файлах встречаются такие символы, кактабуляция (код 9) и перевод страницы (код 0xC). Последний использовался старыми текстовыми редакторами наподобиеЛЕКСИКОН, а также в файлах, предназначенных для распечатки на принтере.

Примечания

[править |править код]
  1. Стандарт Unicode, ч. 2. (англ.). Дата обращения: 11 августа 2008. Архивировано 22 апреля 2021 года.
Перейти к шаблону «Электронные книги»
Электронные книги(устройства идокументы)
Серии устройств
Форматы файлов
Каталогизаторы
Библиотеки
См. также
Улучшение статьи
Для улучшения этой статьижелательно:
После исправления проблемы исключите её из списка. Удалите шаблон, если устранены все недостатки.
Источник —https://ru.wikipedia.org/w/index.php?title=Текстовый_файл&oldid=143181919
Категории:
Скрытые категории: