Sgml. sgml — структуры. dtd часть 2

Под языком маркапа понимается совокупность соглашений о маркап, используемых для разметки текста. Язык маркапа должна определять:

  • Синтаксис маркапа
  • который маркап допускается
  • который маркап необходим
  • как маркап отличается от текста
  • Семантика маркапа
  • что маркап значит.
SGML позволяет определить три первых, синтаксические ограничения на маркап. Для определения семантики используется дополнительный стандарт, например HTML, TEI, CES или другой. Схема маркапа вводимого SGML (далее просто SGML) имеет три основных отличия от «классических» схем
  • Ориентация на дескриптивный маркап
  • объектно-ориентированная модель,
  • Независимость от конкретного физического представления текста.
Эти три особенности описываются более подробно далее Ориентация на дескриптивный маркап SGML по определению предполагает использование дескриптивной схемы маркапа. Данные, необходимые для какой-либо конкретной обработки документа (например форматирование), четко отделяются от дескриптивного маркапа, содержащийся в документе. Обычно они собраны вне документа в виде соответствующих алгоритмов и программ. Существуют стандарты, определяющие их (DSSSL, HyTime). При использовании дескриптивного маркапа один и тот же документ, как уже отмечалось, может обрабатываться различными способами с помощью различных программ, каждая из которых уделяет внимание тем частям документа, которые являются важными для данного метода обработки. SGML, как стандарт, поддерживает и делает реально реализуемым такой принцип работы. Например, программа анализа содержания текста (например, система автоматического аннотирования) может полностью игнорировать сноски и примечания, которые встречаются в тексте, в то время как форматировании программа может извлекать их из текста и собирать все вместе, чтобы потом вывести в конце раздела. Различные методы обработки могут применяться для тех же частей документа.
Renovering av bilinredning
Одна программа может делать выборку из документа всех личных имен и названий мест и создавать по ним базу данных, в то время как другая, для тех же элементов документа, выполняет их форматирование, чтобы они выделялись из окружающего текста. Объектно-ориентированная модель SGML вводит понятие класса , или типа , документа и способ его задачи и описания — Document Type Definition (DTD). Документы считаются определенного типа , точно также, как и любые другие объекты, обрабатываемые компьютером. Тип документа формально определяется его составными частями и их структурой. Отчет, например, определяется как название и, возможно, автор, при которых следует реферат и последовательность из одного или более абзацев. Текст не имеет названия, в соответствии с этим формального определения, формально не является отчетом, также как и последовательность абзацев, из которых следует реферат, несмотря на сходство в отчет с точки зрения читателя-человека. Если тип документа известен, специальная программа ( парсер ) может быть использована для проверки того, что содержание документа соответствует его типа — все его необходимые части присутствуют и следуют в нужном порядке. Более важно, что различные документы того же типа могут обрабатываться одинаковым способом. Могут быть написаны программы, использующие информацию, заданную в определенном типа документа и способны благодаря этому делать более разумные и значимые действия. Независимость от низкоуровневых представления данных Базовой целью, которая ставилась при разработке SGML, была задача обеспечения переноса документов между различными программными и аппаратными платформами без потери информации. Благодаря предыдущим двум особенностям это требование достигается на абстрактном уровне. Рассмотренная здесь возможность обеспечивает это требование физически, с помощью определения значения последовательностей байтов, из которых состоит документ. SGML предоставляет механизм общего назначения для замены строк, то есть простой машинно-независимый способ для указания того, что конкретная последовательность символов в документе должна быть заменена на другую во время обработки документа. Одно из применений этой возможности — обеспечение единообразия терминологии и других параметров документов; другое, более важное — обеспечение возможности переноса текста, содержащего нестандартные и т. п. символы между различными платформами, имеющими различные наборы символов, возможности по их отражению и т. д. Это достигается с помощью замены нестандартных символов на строки, задающие их коды. Последовательности символов, определенные для описанной выше замены называются entities («понятие»). SGML-структуры Текстуальная структура Текст не является недифференцированной последовательностью слов, а тем более байт. Для различных целей он может быть разбит на множество различных элементов разных типов и размеров. Прозаический текст может быть разбит на разделы, главы, абзацы и предложения. Стихотворный — на cantos, строфы и строки. Напечатанный текст, оставаясь или прозой стихотворением и независимо от этого, разбивается на тома, брошюры и страницы. Структурные элементы подобного типа чаще всего используются для ссылки на конкретные места в тексте («третье предложение второго параграфа главы 10», «песня 10, строка 1234», «страница 412» и т. д.), хотя могут использоваться и по прямому назначению — как обозначение некоторой структурно и завершенной по содержанию единицы текста, например для аналитических целей («отличается средняя длина предложения в разделе 2 по сравнению с разделом 5?», "сколько абзацев разделяют каждое встречено слово` природа '? «,» сколько страниц в документе? "). Другие структурные элементы являются чисто аналитическими, в том смысле, что они характеризуют некоторую часть текста. В драматическом тексте речь какого-нибудь персонажа может считаться элементом одного типа, а указания для или сцены описания действий — как другой тип. Подобный анализ менее полезен для ссылки на конкретное место в тексте («девяносто третий речь Горацио в акте 2»), чем для проведения сравнений лексики одного персонажа по сравнению с другим и т. п. В прозаическим тексте подобным же образом можно выделять прямую и косвенную речь, стилевые особенности текста (рассказ, полемика, комментарий, аргументация и т. д.), цитаты разных авторов и так далее. А для некоторых типов анализа (всего для критического разбора), физического представления печатного или рукописного текста также может иметь значение: парадоксально, но может оказаться необходимым использовать дескриптивный маркап для описания процедурного. Описанные текстуальные структуры пересекаются и накладываются друг на друга, образуя сложные и непредвиденные комбинации. Таким образом, требуются как способы обеспечения возможности работы с несколькими иерархиями, так и методы обеспечения надежности такого маркапа и исключения нежелательного взаимного влияния. SGML обеспечивает эти возможности на разных уровнях — как на простом, когда обязанность следить за непротиворечивостью пересечения структур ложиться на пользователя, так и на самом верхнем уровне, обеспечивая возможность применения различных схем маркапа для того же документа, то есть, формально, допускают что документ может включать несколько типов документов. SGML-структуры В этом параграфе описываются четкая и простая идея схемы маркапа, используемая в SGML для идентификации структурных элементов в тексте. Также описываются методы, предоставляет SGML для определения правил, описывающих, комбинации этих элементов являются допустимыми для документа.

Комментарии и пинги к записи запрещены.

Комментарии закрыты.