Кучка HTML страниц с более-менее одинаковым строением и с главами из книжки, например. Например, результат команды
wget --recursive --level 2 'http://absentis.org/abs/lsd_01_preface.htm'
Собрать в кучу, руками сделать "доводку". Распечатать.
Собственно, автоматизировать будем достаточно тривиальную вещь: чтение очередной страницы и “выдергивание” из нее полезного содержимого и запись онного в результирующий файл.
Так как качество исходного материала оставляет желать лучшего, крайне настоятельно рекомендуется сделать "починку" разметки посредством tidy. Модуль для PHP: php5-tidy, для дебианщиков и убунтариев смело:
sudo aptitude install php5-tidy sudo service apache2 restart
.