tidy

Работаем с XML/HTML из PHP

Начальные условия

Кучка HTML страниц с более-менее одинаковым строением и с главами из книжки, например. Например, результат команды

wget --recursive --level 2 'http://absentis.org/abs/lsd_01_preface.htm'

Задача

Собрать в кучу, руками сделать "доводку". Распечатать.

Решение

Собственно, автоматизировать будем достаточно тривиальную вещь: чтение очередной страницы и “выдергивание” из нее полезного содержимого и запись онного в результирующий файл.

Так как качество исходного материала оставляет желать лучшего, крайне настоятельно рекомендуется сделать "починку" разметки посредством tidy. Модуль для PHP: php5-tidy, для дебианщиков и убунтариев смело:

sudo aptitude install php5-tidy
sudo service apache2 restart

.

RSS-материал