Поиск волонтерской помощи программиста (маленький скрипт)
Добавлено: 28 авг 2016, 21:14
Для развития природоохранной и природоохранно-геотехнологической онлайн библиотеки
(презентация на GIS-Lab, сайт)
очень требуется волонтерская помощь программиста, который сможет написать небольшой срипт.
Суть задачи:
Есть ряд файлов book_1.html
Нужно сделать скрипт, который мог бы автоматически брать папку с такими файлами и проводить внутри каждого файла одинаковую операцию: Удалять внутри каждого файла все символы <br>
Или заменить <br> на «ничего» (если описывать требуемую операцию ручным способом).
Всё.
* * *
Суть проблемы.
Сейчас платформа Calibre, на которой сделана онлайн библиотека, имеет ошибку создания множества символов <br> внутри html файлов при генерации каталогов для онлайн библиотеки.
В результате метаданные (описание книги на ее странице) получается с огромными пропусками между параграфами. Это некрасиво. И хочется это поправить.
Я сообщила об этой проблеме разработчику Calibre:
https://getsatisfaction.com/calibre2opd ... libre2opds
Проблема оказалась глубокой и принципиальной, он это выделил в отдельный запрос:
http://calibre2opds.myjetbrains.com/you ... ue/c2o-274
К сожалению, в конце он сообщил, что быстро это решить не получится. Что ошибка глубокая и потребует работы. То есть это можно ожидать в следующих релизах платформы, но как-то не наверняка. Но есть выход - написать такой скрипт, который будет очищать генерируемые html файлы от символов <br>. Сам он его не хочет делать, поскольку не хочет тратить силы на временные решения.
Если сможет кто-то помочь своими знаниями и написать такой срипт – для развития библиотеки и ее презентации в природоохранном сообществе это очень важно..
Пример такого файла дан в приложении (zip):
book_1_с br.html - файл , содержащий <br>
book_1_без br.html - желаемый результат после работы скрипта (удалены вручную все символы <br>).
В исходных каталогах они именуются book_1.html, book_2.html, book_3.html (для каждой книги)
Пример описания книги с ошибкой (ссылка на принт скрин страницы):
https://scontent.fcpq3-1.fna.fbcdn.net/ ... e=5838BDE3
И он же сейчас виден онлайн (ссылка на библиотеку со страницей данной книги)
http://www.green-forums.info/greenlib/g ... ok_11.html
И пример того же описания без злостных <br> (ссылка на принт скрин). Этого результата я добилась после ручного удаления симвоов <br> из html файла
https://scontent.fcpq3-1.fna.fbcdn.net/ ... e=58457A36
Нужен скрипт, поскольку таких файлов очень много (уже около 400 по числу книг), так же я постоянно вношу изменения в библиотеку при ее дополнении, т.е. генерирую все каталоги заново. Очевидно, что операцию по очищению надо повторять каждый раз.
(презентация на GIS-Lab, сайт)
очень требуется волонтерская помощь программиста, который сможет написать небольшой срипт.
Суть задачи:
Есть ряд файлов book_1.html
Нужно сделать скрипт, который мог бы автоматически брать папку с такими файлами и проводить внутри каждого файла одинаковую операцию: Удалять внутри каждого файла все символы <br>
Или заменить <br> на «ничего» (если описывать требуемую операцию ручным способом).
Всё.
* * *
Суть проблемы.
Сейчас платформа Calibre, на которой сделана онлайн библиотека, имеет ошибку создания множества символов <br> внутри html файлов при генерации каталогов для онлайн библиотеки.
В результате метаданные (описание книги на ее странице) получается с огромными пропусками между параграфами. Это некрасиво. И хочется это поправить.
Я сообщила об этой проблеме разработчику Calibre:
https://getsatisfaction.com/calibre2opd ... libre2opds
Проблема оказалась глубокой и принципиальной, он это выделил в отдельный запрос:
http://calibre2opds.myjetbrains.com/you ... ue/c2o-274
К сожалению, в конце он сообщил, что быстро это решить не получится. Что ошибка глубокая и потребует работы. То есть это можно ожидать в следующих релизах платформы, но как-то не наверняка. Но есть выход - написать такой скрипт, который будет очищать генерируемые html файлы от символов <br>. Сам он его не хочет делать, поскольку не хочет тратить силы на временные решения.
Если сможет кто-то помочь своими знаниями и написать такой срипт – для развития библиотеки и ее презентации в природоохранном сообществе это очень важно..
Пример такого файла дан в приложении (zip):
book_1_с br.html - файл , содержащий <br>
book_1_без br.html - желаемый результат после работы скрипта (удалены вручную все символы <br>).
В исходных каталогах они именуются book_1.html, book_2.html, book_3.html (для каждой книги)
Пример описания книги с ошибкой (ссылка на принт скрин страницы):
https://scontent.fcpq3-1.fna.fbcdn.net/ ... e=5838BDE3
И он же сейчас виден онлайн (ссылка на библиотеку со страницей данной книги)
http://www.green-forums.info/greenlib/g ... ok_11.html
И пример того же описания без злостных <br> (ссылка на принт скрин). Этого результата я добилась после ручного удаления симвоов <br> из html файла
https://scontent.fcpq3-1.fna.fbcdn.net/ ... e=58457A36
Нужен скрипт, поскольку таких файлов очень много (уже около 400 по числу книг), так же я постоянно вношу изменения в библиотеку при ее дополнении, т.е. генерирую все каталоги заново. Очевидно, что операцию по очищению надо повторять каждый раз.