Сканирование, обработка и хранение бумажных карт и атласов

Вопросы общего характера по ГИС и дистанционному зондированию, не связанные с конкретным ПО.
Аватара пользователя
vladlen666
Активный участник
Сообщения: 135
Зарегистрирован: 22 май 2011, 01:36
Репутация: 3
Откуда: Тверская область

Сканирование, обработка и хранение бумажных карт и атласов

Сообщение vladlen666 » 08 янв 2012, 01:16

Доброго времени суток
Подскажите пожалуйста, есть ли готовые алгоритмы обработки сканированных бумажных карт и атласов? Обработки, которая бы 1. максимально уменьшало бы размер файлов, 2. давала бы хороший результата после конвертации сканов в популярные форматы электронных книг (DjVU и PDF). Под хорошим результатом я понимаю не более 100-200 килобайт на страницу формата A4. Поделитесь, пожалуйста, опытом.

Вопрос не праздный. Так уже достаточно давно я занимался переводом бумажных книг в электронный формат. В первую очередь в DjVU, в связи с его простотой, компактностью, надежностью и нетребовательностью к железу. Инструкций по созданию эл. книг море. Но вот беда, инструкций как переводить в DjVU атласы и цветные карты я пока не нашел.

Интуитивно я догадываюсь что для достижения заветной цели, необходимо провести определенные манипуляции с файлами сканов, но вот какие? Есть конечно вариант конвертировать сканы в DjVU в режиме PHOTO, но при конвертации обычных цветных тиффов с разрешением в 300dpi он дает результаты близкие к 1 мб и более.

Аватара пользователя
vladlen666
Активный участник
Сообщения: 135
Зарегистрирован: 22 май 2011, 01:36
Репутация: 3
Откуда: Тверская область

метод в Corel PHOTO-PAINT 13

Сообщение vladlen666 » 08 янв 2012, 01:27

Пока единственный алгоритм обработки, который я нашел следующий:

Обработка в Corel PHOTO-PAINT 13
1. Адаптивное размытие - это Эффекты->Размытость->Интеллектуальная размытость...
(Количество = 25)
Для более эффективной работы этого фильтра предварительно можно выполнить
Эффекты->Размытость->Сглаживание.
2. Контурная резкость - это Эффекты->Повышение резкости->Понижение резкости по выделению...
(Радиус=3, Процент=300)

---------
Правда, пока нет алгоритм, видимо неполный. Размер скана уменьшается практически вдвое, а вот на DJVU почему-то это повлияло лишь в худшую сторону (размер получаемых DjVU в режиме PHOTO увеличился! в режиме NORMAL - DjVU остался плохочитаемым).

ericsson
Гуру
Сообщения: 3321
Зарегистрирован: 27 июл 2009, 19:26
Репутация: 748
Ваше звание: Вредитель полей

Re: Сканирование, обработка и хранение бумажных карт и атлас

Сообщение ericsson » 08 янв 2012, 11:20

Не хотите обозначить конечную цель мероприятия? (Лично мне довольно странно видеть такую "жадность" в сжатии - носители дешевы, каналы в сеть - толсты, так что чего экономить-то?)
Карты и атласы - изображения с резкими переходами и ограниченным количеством цветов. Таким образом, они лежат между изображением, содержащим текст, и фотографическим.
Если нет задачи сохранить оригинальный вид (как это делается в библиотечно-исторических целях), а только смысловое содержание, то подход обычно следующий: устранить неоднородность цветов (удаление фактуры бумаги, точечной структуры полутоновых заливок), получить из изображения палитру, минимизировать палитру (вручную), привести изображение к минимизированной палитре.
Вместо последних трех шагов можно пытаться использовать средства типа pngnq, генерируя несколько изображений с разным количеством цветов в палитре из одного исходного, и выбирать лучшее по соотношению размера и сохранности информации.
Наиболее творческим остается первый шаг, потому что неоднородности - разные, и универсального алгоритма нет и быть не может. Где-то подойдут простые фильтры типа Median, где-то - операции в отдельных цветовых каналах или разбиение на частотные планы (wavelet decomposition).
В конце концов, можно воспользоваться инструментами предварительной подготовки изображений из пакетов векторизации - они довольно неплохо с этой задачей справляются.
А, по поводу форматов: выбросьте DjVu, тут уместны режимы с палитрой в PNG и TIFF-LZW.

Александр Мурый
Гуру
Сообщения: 5173
Зарегистрирован: 26 сен 2009, 16:26
Репутация: 792
Ваше звание: званий не имею
Откуда: Москва

Re: Сканирование, обработка и хранение бумажных карт и атлас

Сообщение Александр Мурый » 08 янв 2012, 12:25

Можно попробовать для каких-то действий типа обрезки/поворота и т.п. Scan Tailor. Ну и традиционно ImageMagick для массовой обработки растров.
Редактор материалов, модератор форума


ericsson
Гуру
Сообщения: 3321
Зарегистрирован: 27 июл 2009, 19:26
Репутация: 748
Ваше звание: Вредитель полей

Re: Сканирование, обработка и хранение бумажных карт и атлас

Сообщение ericsson » 08 янв 2012, 16:37

Донецков писал(а):Посмотрите www.giscraft.ru/methods/index.shtml
А, жуть, там в JPEG сохранять советуют. Это, конечно, можно, но тогда все же надо было бы сказать, что chroma subsampling отключать надо.

Аватара пользователя
vladlen666
Активный участник
Сообщения: 135
Зарегистрирован: 22 май 2011, 01:36
Репутация: 3
Откуда: Тверская область

Re: Сканирование, обработка и хранение бумажных карт и атлас

Сообщение vladlen666 » 08 янв 2012, 19:18

amuriy писал(а):Можно попробовать для каких-то действий типа обрезки/поворота и т.п. Scan Tailor. Ну и традиционно ImageMagick для массовой обработки растров.
Scan Tailor хорошая программа, и я ей давно пользуюсь и всем советую. Но на цветные карты она не заточена. В смысле для нее нет разницы, цветаная ли фотография, или цветная карта. А при этом, я предполагаю, что для сжатия карт, куда как больше должно существовать возможностей. В карте нет надобности в большом количестве цветов.

Аватара пользователя
vladlen666
Активный участник
Сообщения: 135
Зарегистрирован: 22 май 2011, 01:36
Репутация: 3
Откуда: Тверская область

Re: Сканирование, обработка и хранение бумажных карт и атлас

Сообщение vladlen666 » 08 янв 2012, 19:33

ericsson писал(а):Не хотите обозначить конечную цель мероприятия? (Лично мне довольно странно видеть такую "жадность" в сжатии - носители дешевы, каналы в сеть - толсты, так что чего экономить-то?)
Россия к сожалению это не только крупные города. Далеко не у всех есть высокоскоростной интернет. И конечно главное в максимальном сжатии картографических атласов в удобстве их размещения в сети интернет. Хотя на счет "дешевизны" носителей, в свете последних повышений цен (ок в 2 раза), тоже можно не согласиться.
ericsson писал(а): Карты и атласы - изображения с резкими переходами и ограниченным количеством цветов. Таким образом, они лежат между изображением, содержащим текст, и фотографическим.
Если нет задачи сохранить оригинальный вид (как это делается в библиотечно-исторических целях), а только смысловое содержание, то подход обычно следующий: устранить неоднородность цветов (удаление фактуры бумаги, точечной структуры полутоновых заливок), получить из изображения палитру, минимизировать палитру (вручную), привести изображение к минимизированной палитре.
Вместо последних трех шагов можно пытаться использовать средства типа pngnq, генерируя несколько изображений с разным количеством цветов в палитре из одного исходного, и выбирать лучшее по соотношению размера и сохранности информации.
Наиболее творческим остается первый шаг, потому что неоднородности - разные, и универсального алгоритма нет и быть не может. Где-то подойдут простые фильтры типа Median, где-то - операции в отдельных цветовых каналах или разбиение на частотные планы (wavelet decomposition).
В конце концов, можно воспользоваться инструментами предварительной подготовки изображений из пакетов векторизации - они довольно неплохо с этой задачей справляются.
Я примерно так и думал. Разве что не подскажите конкретнее что такое "средства типа pngnq", "фильтры типа Median", частотные планы (wavelet decomposition)? И я то надеялся именно на пакетные инструменты.
ericsson писал(а): А, по поводу форматов: выбросьте DjVu, тут уместны режимы с палитрой в PNG и TIFF-LZW.
Но если речь идет именно о книгах? где карты составляют 10-15% объема?

ericsson
Гуру
Сообщения: 3321
Зарегистрирован: 27 июл 2009, 19:26
Репутация: 748
Ваше звание: Вредитель полей

Re: Сканирование, обработка и хранение бумажных карт и атлас

Сообщение ericsson » 08 янв 2012, 19:53

Тем не менее, я настаиваю на том, что попытки во что бы то ни стало сжать данные до некоторого объема - бессмысленны.
Представьте себе ситуацию, что человек "с медленным интернетом" скачал нечто очень быстро и дешево, но данные оказались нечитаемыми из-за излишней заботы об их компактности?
Я не предлагаю выкладывать все в несжатом 24-битном TIFF, но данные - первичны. Если они кому-то действительно нужны, то скачают. (Большинство материалов в DjVu, которые мне попадались, я стирал и шел дальше искать нормальный вариант, именно по причине "сжатия ради сжатия".)

По поводу упомянутых мной средств - я ничего невероятного не назвал, ссылки поисковиком находятся мгновенно:
http://pngnq.sourceforge.net/
http://docs.gimp.org/ru/plug-in-despeckle.html
http://registry.gimp.org/node/11742
2 и 3 - примеры для бесплатного GIMP, в других пакетах это тоже есть, включая уже упомянутый ImageMagick для командной строки, но вам, судя по всему, стоит сначала визуально познакомиться с принципами, прежде чем применять пакетные фильтры. Это все можно реализовать пакетно, но для различающихся исходных материалов параметры могут понадобиться разные, и подбирать их лучше, глядя на мгновенно получающийся результат.

Вы спрашивали о картах и атласах, вам ответили. Теперь оказывается, что нужно найти какой-то идеальный способ, который подошел бы и для книг, и для карт. Если бы это делал я, то текст я бы прогонял через OCR (распознаватель), а карты хранил бы в палитровом TIFF, засунув всё это в PDF (который может содержать очень разнородные данные). Но это я.

P.S.: Цель так и не была оглашена. Если это "библиотека с онлайн-доступом", а несжатые оригиналы будут стерты "за ненадобностью", то это очень плохо. Сделайте тогда уж хотя бы две версии: для тех, кому нужны данные, и для тех, кому нужно быстро скачать.

Аватара пользователя
vladlen666
Активный участник
Сообщения: 135
Зарегистрирован: 22 май 2011, 01:36
Репутация: 3
Откуда: Тверская область

Re: Сканирование, обработка и хранение бумажных карт и атлас

Сообщение vladlen666 » 08 янв 2012, 21:46

ericsson писал(а):Тем не менее, я настаиваю на том, что попытки во что бы то ни стало сжать данные до некоторого объема - бессмысленны.
Представьте себе ситуацию, что человек "с медленным интернетом" скачал нечто очень быстро и дешево, но данные оказались нечитаемыми из-за излишней заботы об их компактности?
Я не предлагаю выкладывать все в несжатом 24-битном TIFF, но данные - первичны. Если они кому-то действительно нужны, то скачают. (Большинство материалов в DjVu, которые мне попадались, я стирал и шел дальше искать нормальный вариант, именно по причине "сжатия ради сжатия".)

По поводу упомянутых мной средств - я ничего невероятного не назвал, ссылки поисковиком находятся мгновенно:
http://pngnq.sourceforge.net/
http://docs.gimp.org/ru/plug-in-despeckle.html
http://registry.gimp.org/node/11742
2 и 3 - примеры для бесплатного GIMP, в других пакетах это тоже есть, включая уже упомянутый ImageMagick для командной строки, но вам, судя по всему, стоит сначала визуально познакомиться с принципами, прежде чем применять пакетные фильтры. Это все можно реализовать пакетно, но для различающихся исходных материалов параметры могут понадобиться разные, и подбирать их лучше, глядя на мгновенно получающийся результат.

Вы спрашивали о картах и атласах, вам ответили. Теперь оказывается, что нужно найти какой-то идеальный способ, который подошел бы и для книг, и для карт. Если бы это делал я, то текст я бы прогонял через OCR (распознаватель), а карты хранил бы в палитровом TIFF, засунув всё это в PDF (который может содержать очень разнородные данные). Но это я.

P.S.: Цель так и не была оглашена. Если это "библиотека с онлайн-доступом", а несжатые оригиналы будут стерты "за ненадобностью", то это очень плохо. Сделайте тогда уж хотя бы две версии: для тех, кому нужны данные, и для тех, кому нужно быстро скачать.
Во-первых спасибо большое за ссылки. Ближайшие дни буду все переваривать.
Вопрос не стоит о сжатии ради сжатия. Вопрос как раз таки о том, как добиться максимального сжатия не повредив читаемости карты. Сейчас я это делаю все-таки с помощью DjVU, конвертируя цветные карты в режме photo. Результат хороший, исходные tiff сжимаются в 10 и более раз, без видимого вреда для читаемости, а значит, и для векторизации. И конечно речь идет не о универсальном способе для обычного книжного текста и карт. Понятно что алгоритмы работы со сканами страниц текста и страниц с картами одного и того же издания должны быть разными.

ericsson
Гуру
Сообщения: 3321
Зарегистрирован: 27 июл 2009, 19:26
Репутация: 748
Ваше звание: Вредитель полей

Re: Сканирование, обработка и хранение бумажных карт и атлас

Сообщение ericsson » 08 янв 2012, 22:41

"без видимого вреда для читаемости, а значит, и для векторизации" - если имеет место wavelet-преобразование с subsampling'ом цветов, то карта становится непригодной для автоматической векторизации. Потому как все методы сжатия с потерями основаны на том, как человек различает (или не различает) оттенки.
Возьмите сжатое таким образом изображение (скриншот), откройте в любом граф. редакторе, задерите насыщенность (Saturation) на максимум. Увидите много нового на границах цветов и тонких линиях одного цвета поверх фона другого цвета. Собственно, то же, что происходит с JPEG.

Аватара пользователя
paleogis
Модератор
Сообщения: 1112
Зарегистрирован: 22 мар 2009, 08:54
Репутация: 200
Ваше звание: Модератоо

Re: Сканирование, обработка и хранение бумажных карт и атлас

Сообщение paleogis » 09 янв 2012, 11:25

vladlen666 мне кажется, что иногда нужно делать проще. На Вашем месте я бы просто карты отсканировал в тифф завернул в PDF и без каких-либо преобразований хорошо упаковал бы в архив. Я например так благодарен тем кто выкладывает исходники в тиффах. Лучше мне потратить сутки на выкачивания архива и получить нормальный материал для работы, чем мучиться с сжатым материалом . Конечно для просмотра можно сделать очень сжатый JPEG или DjVu. Тогда у пользователя будет выбор о чем уже писалось ранее

Аватара пользователя
vladlen666
Активный участник
Сообщения: 135
Зарегистрирован: 22 май 2011, 01:36
Репутация: 3
Откуда: Тверская область

Re: Сканирование, обработка и хранение бумажных карт и атлас

Сообщение vladlen666 » 09 янв 2012, 22:18

paleogis писал(а):vladlen666 мне кажется, что иногда нужно делать проще. На Вашем месте я бы просто карты отсканировал в тифф завернул в PDF и без каких-либо преобразований хорошо упаковал бы в архив. Я например так благодарен тем кто выкладывает исходники в тиффах. Лучше мне потратить сутки на выкачивания архива и получить нормальный материал для работы, чем мучиться с сжатым материалом . Конечно для просмотра можно сделать очень сжатый JPEG или DjVu. Тогда у пользователя будет выбор о чем уже писалось ранее
Я тоже не сторонник сжимать карты так как бог на душу положит. Но смысл к примеру правильно перевести карту в 4-х битовую политру (16 цветов) есть, это не только уменьшит размер, но позволит к примеру другим людям легко ее использовать для векторизации и даже простого ГИС анализа. Правда у меня пока хорошо конвертировать в 16 цветовую палитру не получается, несмотря на подробную инструкцию http://www.giscraft.ru/methods/index.shtml , пока только учусь.

ericsson
Гуру
Сообщения: 3321
Зарегистрирован: 27 июл 2009, 19:26
Репутация: 748
Ваше звание: Вредитель полей

Re: Сканирование, обработка и хранение бумажных карт и атлас

Сообщение ericsson » 10 янв 2012, 00:46

Инструкция там, гхм, идеализирована. То есть она практически не учитывает реального бардака при печати карт, когда плотность красок серьезно плавает по листу, что сказывается на оттенках и т.п.
Кроме того, она плохо сказывается на участках наложения разных цветов друг на друга, которые при использовании сильно ограниченного числа цветов в палитре превращаются, обычно, в один и тот же черный.

Донецков
Гуру
Сообщения: 3058
Зарегистрирован: 19 май 2010, 19:44
Репутация: 189

Re: Сканирование, обработка и хранение бумажных карт и атлас

Сообщение Донецков » 06 фев 2012, 10:02

Может кому-то поможет, нашел в интернете когда-то:
Вложения
ScanAndShare1.07.pdf.zip
(803.52 КБ) 380 скачиваний

Ответить

Вернуться в «Общие вопросы»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 5 гостей