Парсим просторы XML Никита Кислицин Xakep, номер #061, стр. 061-094-1 (nikitoz@real.xakep.ru, www.ired.ru) Обработка XML-документов парсером PHP До настоящего момента мы обсуждали лишь один формат представления текстовой информации в интернете - язык гипертекстовой разметки HTML. Да, этот язык действительно отлично справляется со своей задачей... Но что делать, если перед нами встает проблема иного рода: например, необходимо так представить текстовые данные, чтобы можно было удобно осуществлять доступ к ним из самых различных систем, легко их обрабатывать и производить по ним поиск. Тут на помощь и приходит расширяемый язык разметки XML. Что такое XML? XML предоставляет разработчикам очень гибкие инструментальные средства для создания структурированных документов. Сам язык внешне очень схож с HTML. Это объясняется тем, что оба языка произошли от стандарта SGML (Standart Generalized Markup Language - стандартный обобщенный язык разметки). Также стоит заметить, что SGML - это скорее не язык разметки, а способ определения подобных языков. Т.е. XML является упрощенной версией SGML, в то время как HTML это лишь приложение SGML, соответствующее этой модели только при строгом применении. Ознакомиться с подробной спецификацией и описанием SGML можно либо в интернете (xml.coverpages.org/sgml.html), либо посмотрев некоторые документы на CD. Зачем нужен XML? Если XML, как и HTML, разработан для использования в Сети и обмена данными, то зачем же он тогда вообще нужен? Ответ прост: на практике выходит, что XML на самом-то деле создан и используется совсем для других целей. Если разметка HTML указывает браузеру на то, каким способом следует отформатировать данные (вставить таблицу, поменять шрифт или выделить жирным какой-то кусок текста), то XML призван отделить содержание документа от его представления, создав удобный для восприятия структурированный документ. Важным различием является также то обстоятельство, что в XML можно задавать собственные теги для определения структуры данных. Ты, наверное, уже запутался, поэтому, чтобы все стало понятно, рассмотрим простой пример. Взгляни на этот HTML-документ: HTML-код <html> <head> <title>Список товаров</title> </head> <body> <h1>Список товаров</h1> <b>Название</b> Товар 1<br> <b>Индекс</b> 23454<br> <b>Цена</b> 532р.<br> <hr> <b>Название</b> Товар 2<br> <b>Индекс</b> 23455<br> <b>Цена</b> 1532р.<br> </body></html> А теперь на минуту представь, что у тебя есть такой же файл (только количество записей о товарах в нем, скажем, полторы тысячи), и тебе необходимо написать программу, производящую поиск информации о товаре по заданному индексу. Это вполне реализуемая задача при помощи теории конечных автоматов, но, думаю, тебе не по душе такой геморрой :). Так что посмотрим, как такой файл может быть представлен в XML: XML-код <?xml version="1.1"?> <goods> <good> <name>Товар 1</name> <index>23454</index> |