Linux программирование в примерах - Роббинс Арнольд
Широкие символы представлены на С типом wchar_t. C99 предоставляет соответствующий тип wint_t, в котором может находиться любое значение, допустимое для wchar_t, а также специальное значение WEOF, аналогичное обычному EOF из <stdio.h>. В заголовочном файле <wchar.h> определены различные типы. Ряд функций, сходных с функциями в <ctype.h>, такие, как iswalnum() и др., определены в заголовочном файле <wctype.h>.
Широкие символы могут быть от 16 до 32 битов размером в зависимости от реализации. Как упоминалось, они нацелены на манипулирование данными в памяти и обычно не хранятся в файлах непосредственно.
Стандарт C предусматривает для широких символов большое число функций и макросов, соответствующих традиционным функциям, работающим с данными char. Например, wprintf(), iswlower() и т.д. Они документированы в справочных страницах GNU/Linux и в книгах по стандартному С.
13.4.2. Представления многобайтных символов
Строки широких символов сохраняются на диске путем преобразования их в памяти в многобайтное представление набора символов с последующей записью в дисковый файл. Сходным образом, такие строки считываются с диска через низкоуровневый блочный ввод/вывод, а затем конвертируются в памяти из многобайтной версии в версию широких символов.
Многие описанные кодировки используют для представления многобайтных символов состояния регистра (shift states). Другими словами, в данном потоке байтов значения байтов представляют самих себя до тех пор, пока не встретится специальное управляющее значение. В этот момент интерпретация изменяется в соответствии с текущим состоянием регистра. Таким образом, одно и то же восьмибитовое значение может иметь два значения: одно для обычного состояния, без использования регистра, и другое для использования регистра. Предполагается, что правильно закодированные строки начинаются и заканчиваются с одним и тем же состоянием регистра.
Значительным преимуществом Unicode является то, что его представления являются самокорректирующимися; кодировки не используют состояния регистров, поэтому потеря данных в середине не может повредить последующим закодированным данным.
Первоначальные версии функций преобразования многобайтных символов в широкие и широких в многобайтные поддерживали закрытую копию состояния преобразования (например, состояние регистра, а также все остальное, что могло понадобиться) Такая модель ограничивает использование функции лишь одним видом преобразования в течение жизни программы. Примерами являются mblen() (определение длины многобайтной строки), mbtowc() (преобразование многобайтного символа в широкий), wctomb() (преобразование широкого символа в многобайтный), mbstowcs() (преобразование многобайтной строки в строку широких символов), wcstombs() (преобразование строки широких символов в многобайтную строку).
Новые версии этих процедур называются повторно запускаемыми (restartable). Это означает, что код уровня пользователя сохраняет состояние преобразования в отдельном объекте типа mbstate_t. Соответствующими примерами являются mbrlen(), mbrtowc(), wcrtomb(), mbsrtowcs() и wcsrtombs(). (Обратите внимание на r в их именах, это означает «restartable».)
13.4.3. Языки
Языковые проблемы управляются локалью. Ранее в главе мы уже видели setlocale() POSIX предоставляет продуманный механизм для определения правил, посредством которых работает локаль; некоторые подробности см. в справочной странице GNU/Linux locale(5), а полностью — в самом стандарте POSIX.
Правда в том, что подробности на самом деле не нужны. Вам, как разработчику программ, не нужно беспокоиться о них; как заставить все работать, зависит от разработчиков библиотек. Все, что нужно, это понять концепции и использовать в своем коде соответствующие функции, такие, как strcoll() (см. раздел 13.2.3 «Сравнение строк: strcoll() и strxfrm()»).
Современные системы GLIBC предоставляют отличную поддержку локалей, включая поддерживающие локали процедуры сопоставления регулярных выражений. Например, расширенное регулярное выражение POSIX [[:alpha:]][[:alnum:]]+ соответствует букве, за которой следуют одна или более букв или цифр (алфавитный символ, за которым следуют один или более алфавитно-цифровых символов). Определение того, какие символы соответствуют этим классам, зависит от локали. Например, это регулярное выражение соответствовало бы двум символам 'eè', тогда как регулярное выражение [a-zA-Z][a-A-Zz0-9]+ традиционного, ориентированного на ASCII Unix — скорее всего нет. Классы символов POSIX перечислены в табл. 13.5.
Таблица 13.5. Классы символов регулярных выражений POSIX
Класс Соответствует [:alnum:] Алфавитно-цифровые символы [:alpha:] Алфавитные символы [:blank:] Символы пробела и табуляции. [:cntrl:] Управляющие символы [:digit:] Цифровые символы [:graph:] Символы, являющиеся одновременно печатными и видимыми. (Символ конца строки печатный, но не видимый, тогда как $ является и тем, и другим.) [:lower:] Строчные алфавитные символы [:print:] Печатные (не управляющие) символы [:punct:] Знаки пунктуации (не буквы, цифры, управляющие или пробельные символы) [:space:] Пробельные символы (такие, как сам пробел, символы табуляции, конца строки и т.д) [:upper:] Заглавные алфавитные символы [:xdigit:] Символы из набора abcdefABCDEF0123456789Откройте для себя мир чтения на siteknig.com - месте, где каждая книга оживает прямо в браузере. Здесь вас уже ждёт произведение Linux программирование в примерах - Роббинс Арнольд, относящееся к жанру Интернет. Никаких регистраций, никаких преград - только вы и история, доступная в полном формате. Наш литературный портал создан для тех, кто любит комфорт: хотите читать с телефона - пожалуйста; предпочитаете ноутбук - идеально! Все книги открываются моментально и представлены полностью, без сокращений и скрытых страниц. Каталог жанров поможет вам быстро найти что-то по настроению: увлекательный роман, динамичное фэнтези, глубокую классику или лёгкое чтение перед сном. Мы ежедневно расширяем библиотеку, добавляя новые произведения, чтобы вам всегда было что открыть "на потом". Сегодня на siteknig.com доступно более 200000 книг - и каждая готова стать вашей новой любимой. Просто выбирайте, открывайте и наслаждайтесь чтением там, где вам удобно.


