sábado, 2 de junho de 2012

Regras úteis do XML (Miguel Rodrigues Fornari)


Regras úteis do XML

Extensible Markup Language (linguagem de marcação extensível), foi desenvolvida no ano de 1996 pelo W3C (World Wide Web Consortium), derivado de SGML (Standard Generalized Markup Language – linguagem de marcação generalizada extensível ), e tem como sua principal característica seu formato de texto simples e flexível. Foi desenvolvido com o intuito de ser uma metalinguagem flexível, mas formal, permitindo a troca de dados entre instituições, através da Internet.
“Uma metalinguagem é uma linguagem que serve para descrever outras linguagens. Por exemplo, você poderia dizer que um dicionário de inglês e um livro de gramática inglesa formam juntos uma metalinguagem para o inglês”.
Diferentemente do HTML (Hypertext Markup Language – linguagem de marcação de hipertexto), a qual foi desenvolvida para, especificamente, marcar documentos científicos e acadêmicos utilizando conjuntos de tags, o XML não contém tag alguma. Isso lhe dá a habilidade de criar linguagens de marcação que realmente satisfaçam à sua aplicação específica, ao contrário do HTML, o qual não importa o quanto seja ruim a sua formatação. Geralmente, os navegadores tentarão mostrar o código HTML, já a linguagem XML segue uma estrutura rígida, interrompendo a sua execução assim que se debater com qualquer tipo de erro de marcação.
Devido à sua adaptabilidade, passou a ser utilizado para trocar informações complexas que não eram adequadamente expressas em HTML, como equações matemáticas e dados geográficos.
Apesar de muitas pessoas pensarem que o XML é um substituto para o HTML, essa afirmação não é exatamente correta, pois o XML não nos possibilita a utilização de textos em negrito, itálico, mas facilita a troca de dados, padronizando sua semântica e tornando fácil a interpretação por programas sem a necessidade de profissionais. Enquanto o HTML se preocupa em como mostrar o texto, o XML se preocupa com o seu conteúdo.
Por ser uma metalinguagem descritiva (capaz de descrever e definir novas linguagens), cada uma delas volta especificamente para um tipo de informação. Através de um DTD (Document Type Definition – definição de tipo de documento), são definidas as estruturas do arquivo XML. Algumas destas especificações são: XML Schema, XSLT, DOM e SAX.
Regras do XML
A principal regra do XML é a sua padronização dos formatos. Seu principal objetivo é evitar a incompatibilidade dos navegadores presentes no mercado, o que acontece geralmente com a linguagem HTML.
Outra regra, já mencionada anteriormente, é quanto a erros em sua execução. O processador XML ao encontrar um erro de marcação, interromperá o processamento e mostrará uma mensagem de erro. Rigor conhecido como tratamento de erros draconianos.
Quanto à classificação, os documentos podem ser tanto com validação, onde o processador verificará a estrutura do documento de acordo com regras especificas em uma DTD, e sem validação, quanto o processador só verificará se o documento está de acordo com as regras do XML.
Em um documento XML, o texto é dividido em duas categorias principais: dados de caracteres e marcação.
As marcas delimitadas por “<” e “>” ou “&” e “;” determinam a marcação do texto. Os dados de caracteres são quaisquer outros dados que não sejam de marcação.
Algumas regras, segundo Miguel Fornari, que achei interessante salientar neste trabalho:
Regra 01: Um documento XML deve conter um ou mais elementos.
Regra 02: O nome de um elemento deve ser igual na marcação (tag) inicial e na marcação final. A tag final é indicada por uma barra “/”, antes do nome da tag. Há diferenciação entre letras maiúsculas e letras minúsculas.
Regra 03: Existe um único elemento, o elemento raiz, que não pode fazer parte do conteúdo de nenhum outro elemento.
Regra 04: Se a marcação inicial está dentro de um elemento, a marcação final também deve estar dentro do mesmo elemento. Simplificando: os elementos, delimitados pelas marcações inicial e final, devem estar aninhados.
Regra 05: O texto entre a marcação inicial e a final é chamado conteúdo do elemento. Um elemento sem conteúdo pode tomar uma forma especial <nome/>. A barra antes do “>” substitui a marcação final.
Regra 06: O nome dos elementos podem conter letras, dígitos, hífens ou underscores. Os nomes dos elementos que começam com xml, XML ou outra combinação dessa string são reservados por padrão.
Regra 07: Um elemento pode conter vários, um ou nenhum atributo. Os caracteres permitidos são os mesmos dos nomes de elementos. O nome do atributo é separado de seu valor por sinal de igualdade (“=”). O valor do atributo deve estar entre apóstrofes '...' ou aspas duplas "..." . Se apóstrofe ou aspas duplas for usadas no valor do atributo, então o delimitador contrário deve ser usado.
Regra 08: Caracteres “<” e “&” não podem ser usados no texto como são usados nas marcações. Se esses caracteres são necessários utiliza-se “&lt;” ao invés de “<” e “&amp;” ao invés de “&”.
Regra 09: Caracteres >, " , e ' podem ser substituídos por “&gt;” , “&quot;” e “&apos;” , respectivamente.
Regra 10: Comentários podem aparecer em qualquer lugar do documento fora de uma marcação. Um processador de XML pode, mas não necessariamente, tornar possível a leitura desses comentários por uma aplicação. A string "--" (dois hífens) não pode ocorrer nos comentários.
Regra 11: Seções CDATA são usadas para preservar blocos de texto com caracteres que seriam interpretados como marcação. As seções CDATA começam com a string "<![CDATA[" e terminam com a string "]]>". A seqüência ']]>' não pode ocorrer dentro da seção CDATA.
Regra 12: Documentos XML podem, e deveriam, começar com uma declaração XML que especifica a versão do XML que está sendo usada e do conjunto de caracteres utilizado.

Bibliografia
[FORNARI2003] FORNARI, Miguel Rodrigues. XML – Criação de Documentos XML e Utilização em Aplicações Práticas. CBCOMP 2003. 47 p.
[BRODGEN2002] BROGDEN, Bill; MINNICK, Chris. Guia doDesenvolvedor JAVA. Desenvolvendo E-Commerce com JAVA, XML e JSP. Pearson Education do Brasil. 2002.

Nenhum comentário:

Postar um comentário