Текстовый файл
![]() | Эту статью предлагаетсяудалить. Пояснение причин и соответствующее обсуждение вы можете найти на страницеВикипедия:К удалению/28 мая 2022. Пока процесс обсуждения не завершён, статью можно попытаться улучшить, однако следует воздерживаться от переименований или немотивированного удаления содержания, подробнее см.руководство к дальнейшему действию. Не снимайте пометку о выставлении на удаление доподведения итога обсуждения. Последнее изменение сделано участникомЖелезный капут (вклад · журналы) в 05:39, 5 февраля 2025 (UTC; около 39 дней назад). Администраторам и подводящим итоги: |
Текстовый файл | |
---|---|
![]() | |
MIME-тип | text/plain |
Расширение файла | .txt или.text |
Противоположно | двоичный файл и графический файл[вд] |
![]() |

Те́кстовый файл — компьютерныйфайл, содержащийтекстовые данные. Текстовым файлам противопоставляютсядвоичные (бинарные) файлы, в которых содержатся данные, не рассчитанные на интерпретацию в качестве текстовых (например, файлы, хранящие текст в закодированном или сжатом виде, или хранящие не текст, а звук, изображение или иные данные).
В отличие от термина «текстовые данные» (текстовый формат данных), характеризующего содержимое данных, термин «текстовый файл» относится к файлу и характеризует его как контейнер, хранящий такие данные.
Описание
[править |править код]Текстовый файл содержит последовательностьсимволов (в основномпечатных знаков, принадлежащих тому или иномунабору символов). Эти символы обычно сгруппированы в строки (англ. lines, rows). В современных системах строки разделяютсяразделителями строк, в прошлом же применялось хранение строк в виде записей постоянной или переменной длины (см.:Перфокарта). Иногда конец текстового файла (особенно если в файловой системе не хранится информация о размере файла) также отмечается одним или более специальными знаками, известными как маркерыконца файла.
Преимущества и недостатки
[править |править код]Преимущества:
- Универсальность — текстовый файл может быть прочитан (так или иначе) на любой системе илиОС, особенно если речь идёт об однобайтных кодировках вродеASCII, которые не подвержены проблеме, характерной для других форматов файлов — для них не важна разница впорядке байтов или длинемашинного слова.
- Устойчивость — каждое слово и символ в таком файле самодостаточны и, если случится повреждение байтов в таком файле, то обычно можно восстановить данные или продолжить обработку остального содержимого, в то время как усжатых или двоичных файлов повреждение нескольких байтов может сделать файл совершенно невосстановимым. Многиесистемы управления версиями рассчитаны на текстовые файлы и с двоичными файлами могут работать только как с единым целым.
- Формат текстового файла крайне прост и его можно изменятьтекстовым редактором — программой, входящей в комплект практически любойОС.
Недостатки:
- У больших несжатых текстовых файлов низкаяинформационная энтропия — эти файлы занимают больше места, нежели минимально необходимо. Хотя этаизбыточность и определяет повышенную устойчивость к сбоям в каналах передачи данных и при получении данных сносителей, например, смагнитной ленты.
- Некоторые операции с текстовыми файлами неэффективны. Например, если в файле встретится число, вычислительная система до начала операций с ним должна будет перевести его в свой внутренний формат, применив сравнительно сложную процедуру конвертации числа; чтобы перейти на 1000-ю строку, требуется считать 999 строк, идущих до неё; сложно заменить одну строку другой и т. д. Поэтому при работе сбольшими объёмами данных текстовые файлы применяют только как промежуточный формат, обеспечивающийинтероперабельность.
Форматы, основанные на текстовых файлах
[править |править код]В силу своей простоты текстовые файлы нередко используются для хранения служебной информации (например,логов): так как операция добавления в конец текстового файла новых данных не требует сколь-нибудь значительных вычислительных ресурсов независимо от уже имеющегося объёма файла и вида добавляемых текстовых данных, ведение текстовых лог-файлов обычно происходит эффективно и незаметно для пользователя и для других приложений (вплоть до исчерпания дискового пространства).
Текстовый формат служит основой для многих более специализированныхформатов (например,.ini,SGML,HTML,XML,TeX,исходных текстов языков программирования). В некоторых из таких форматов определённые сочетания символов могут использоваться как средства разметки текста. В таком случае файл может хранить форматированный текст, в котором для символов дополнительно может быть задан шрифт, начертание, размер и т. п. (например,Rich Text Format,HTML).
Расширения имён файлов
[править |править код]ВDOS,macOS иWindows для файлов с неформатированным текстом обычно используетсярасширение.txt. Тем не менее, текстовыми могут являться файлы с любым другим расширением или без оного. Например,исходные коды программ обычно хранятся в файлах с расширениями, соответствующимиязыку программирования, на котором написаны программы (.java,.bas,.pas,.c).
Форматированный текст (текст с разметкой) обычно хранится в файлах с расширением, соответствующим формату илиязыку разметки —.rtf,.htm,.html.
Кодировки
[править |править код]8-битный текст
[править |править код]Исторически для кодирования текстовых файлов применялась 7-битнаякодировкаASCII, а также совместимые сEBCDIC и ASCII 8-битные кодировки (кодовые страницы). В ASCII-совместимых кодовых страницах (так называемомрасширенном ASCII[англ.]) позиции0x00
—0x7F
кодовой таблицы, как правило, полностью совпадают с ASCII.
Преимуществом 8-битного представления текста является программная простота и независимость отпорядка байтов или длинымашинного слова. Недостаток — большое количество различных стандартов, что может приводить к несовместимости.
Unicode в текстовых файлах
[править |править код]ПрименениеUnicode в текстовых файлах хотя в основном решает «проблему кодировок» и стандартизирует употребление управляющих символов, но создаёт свои проблемы. В большинстве современных систем неделимой единицей информации впотоке данных являетсябайт (8 бит), которых для кодирования одного символа из Юникода требуется несколько. В качестве решения применяются несовместимые между собой системыUTF-8 и две версииUTF-16 (UTF-16LE и UTF-16BE с противоположнымпорядком байтов). Иногда в начало файла добавляют специальный символ-маркер (U+FEFF[1]), позволяющий распознать формат однозначно. UTF-8 имеет преимущество обратной совместимости с ASCII, однако программная обработка текста в UTF-8 усложняется непостоянным размером символа. Также тексты в Юникоде отличаются ещё большейизбыточностью, нежели 8-битные.
Управляющие символы
[править |править код]Различные операционные системы придерживаются своего представления перевода строки и конца файла. ВUNIX перевод строки состоит из одного символа LF (код 0xA), вMac OS (но неmacOS) — из символа CR (код 0xD), а вDOS иWindows перевод строки кодируется последовательностью двух символов: CR и LF.
Такой разнобой продиктован принципами работы пишущих машинок: чтобы перейти на новую строку, надо вернуть каретку в начало строки (carriage return), а затем провернуть барабан на одну строку (line feed). При печати на принтере тот и другой символ мог стоять обособленно (например, чтобы выделить строку, пропечатав её дважды, или прокрутить барабан на несколько строк), но в текстовых файлах в этом нет нужды.
Помимо названных, в текстовых файлах встречаются такие символы, кактабуляция (код 9) и перевод страницы (код 0xC). Последний использовался старыми текстовыми редакторами наподобиеЛЕКСИКОН, а также в файлах, предназначенных для распечатки на принтере.
Примечания
[править |править код]- ↑Стандарт Unicode, ч. 2. (англ.). Дата обращения: 11 августа 2008. Архивировано 22 апреля 2021 года.
Для улучшения этой статьижелательно:
После исправления проблемы исключите её из списка. Удалите шаблон, если устранены все недостатки. |
- Википедия:Страницы с ежедневно очищаемым кэшем
- Википедия:Страницы на КУ (не распределённые по типам)
- Википедия:Кандидаты на удаление
- Википедия:Кандидаты на удаление по дате номинации
- Википедия:Просроченные подведения итогов по удалению страниц
- Википедия:Просроченные подведения итогов по удалению страниц по алфавиту
- Статьи с универсальной карточкой
- Википедия:Карточки без параметров
- Статьи с универсальной карточкой, которая предположительно неуместна
- Википедия:Статьи без ссылок на источники
- Википедия:Статьи без источников (тип: формат файла)
- Википедия:Статьи без сносок
- Википедия:Статьи с шаблонами недостатков по алфавиту