Сканирование, обработка и хранение бумажных карт и атласов

Вопросы общего характера по ГИС и дистанционному зондированию, не связанные с конкретным ПО.
Аватара пользователя
vladlen666
Активный участник
Сообщения: 135
Зарегистрирован: 22 май 2011, 01:36
Репутация: 3
Откуда: Тверская область

Re: Сканирование, обработка и хранение бумажных карт и атлас

Сообщение vladlen666 » 11 фев 2012, 20:44

Про цветные карты там фактически ничего не написано, к сожалению

Аватара пользователя
vladlen666
Активный участник
Сообщения: 135
Зарегистрирован: 22 май 2011, 01:36
Репутация: 3
Откуда: Тверская область

Re: Сканирование, обработка и хранение бумажных карт и атлас

Сообщение vladlen666 » 02 апр 2012, 08:08

Вот немного теории и практики на тему кодирования в DjVU цветных сканов.
Малоцветное DjVu-кодирование
http://www.djvu-soft.narod.ru/scan/low_color_djvu.htm

VPD-сегментация
http://www.djvu-soft.narod.ru/scan/vpd_segm.htm

ericsson
Гуру
Сообщения: 3321
Зарегистрирован: 27 июл 2009, 19:26
Репутация: 748
Ваше звание: Вредитель полей

Re: Сканирование, обработка и хранение бумажных карт и атлас

Сообщение ericsson » 02 апр 2012, 10:06

Мда, работы проведено много, а результат практически бесполезен для читателя...
В том смысле, что обе статьи можно было бы сократить до ссылок на утилиты и листинги примеров параметров запуска (еще и обойтись при этом без start). О результате, кроме объемов, ничего не сказано, и для объективной оценки нужно самостоятельно ставить все эти эксперименты (которые автор поставил, но ни обработать результат, ни опубликовать его толком - не смог)... Надеялся, что будут примеры и анализ, когда по ссылкам щелкал. А получилось - "копание с утилитами ради собственного удовольствия автора, культ минимального итогового размера и немного ссылок на утилиты в сухом остатке".

udav
Завсегдатай
Сообщения: 257
Зарегистрирован: 06 фев 2006, 20:16
Репутация: 39

Re: Сканирование, обработка и хранение бумажных карт и атлас

Сообщение udav » 29 апр 2013, 21:53

Vladlen666, работать с картами "книжными" методами - извращение ) Это и совершенно разные картинки, и пользователи с ними пользуются потом совсем по-разному. Никакой djvu с картами правильно не работает. Поэтому в качестве первого шага надо про него забыть ) Обработка книжных сканов и картежных - две разных технологических линейки. Кстати даже не все программы заявленные "под карты" на самом деле с ними правильно работают, настолько вещь специфическая. Я встречал барабанники (профессиональный инструмент ведь) с ПО, которое скан только портило.

Проблему я понял, но чтобы не переделывать одну и ту же работу по несколько раз и не получать такую проблему на будущее, надо озаботиться не только сжатием, а хранением в архиве каждого листа в нескольких уровнях обработки. Потому что многие вещи можно сделать только с оригиналом огромного размера. Через несколько лет, допустим, у всех будут толстые каналы, а задачи по обработке вырастут. Если сейчас оригиналы не хранить, то все придется переделывать!

Первым уровнем стоит иметь оригинальный скан, 24 bit, в формате без потерь, разрешением 600 или 508 dpi (больше не надо, качество полиграфии не даст преимуществ при векторизации). Только важно сканить на хорошем сканере, если актуально, дам советы по выбору.
Вторым уровнем - индексированный растр (8 или 4-битный, смотря по объекту), если есть время а желание сжать сильное, можно цветоподелить в EasyTrace, это безусловно еще больше его подожмет, а применяемость - расширит, такой можно правильно векторизовать. Но dpi то же самое и формат без потерь. И при переводе никаких размытий и других фильтров применять не нужно (иногда только бывает полезно подработать гистограмму), а нужно сосредоточиться на качественном индексировании и цветоделении.
Третьим уровнем - растр второго уровня, переведенный в 300 dpi. Для простого просмотра и выкладывания в интернет обычно самое то. Правда, из-за индексации картинка может быть не такой красивой, но это решается пользователем в 2 секунды переводом в 24-битную. Поэтому перекачивать по сети 24-битные смысла просто нет.
Ну и наконец четвертым уровнем можно сделать превьюшки 150dpi - для сайта, для быстрого ориентирования в своем архиве, для быстрого построения миниатюр на медленной машине и т.д.

Глобально вот так. Кстати, почти весь объем архива займут оригиналы 1-го уровня. Вообще, подобная система у всех, кто ведет картархивы, просто в вашем случае перекачивать планируется не большие, а маленькие растры.

Аватара пользователя
vladlen666
Активный участник
Сообщения: 135
Зарегистрирован: 22 май 2011, 01:36
Репутация: 3
Откуда: Тверская область

Re: Сканирование, обработка и хранение бумажных карт и атлас

Сообщение vladlen666 » 30 апр 2013, 11:15

udav писал(а): Глобально вот так. Кстати, почти весь объем архива займут оригиналы 1-го уровня. Вообще, подобная система у всех, кто ведет картархивы, просто в вашем случае перекачивать планируется не большие, а маленькие растры.
Понимаете, вы описали как надо работать с картами, как таковыми, в идеале. Но если мы говорим не только чисто о картах. Есть большое количество атласов, или книг имеющих много картами и текста одновременно. И естественно такие атласы являются цельным произведением. И очевидна задача, создание хорошей электронной книги на основе бумажного варианта. И как же в этом случае можно забыть о djvu?

ericsson
Гуру
Сообщения: 3321
Зарегистрирован: 27 июл 2009, 19:26
Репутация: 748
Ваше звание: Вредитель полей

Re: Сканирование, обработка и хранение бумажных карт и атлас

Сообщение ericsson » 30 апр 2013, 11:37

Прошло уже больше года, а в четких терминах требования сформулированы не были. Вы твердите о "хорошей электронной книге", но ни разу не сказали, что это в вашем представлении, потому любой тезис, где этот термин употребляется, становится неопределенным. Термин "хорошая электронная книга" не является очевидным, потому в серьезном обсуждении этой темы его расшифровка должна присутствовать.

Поясню:
- можно считать "хорошей электронной книгой" качественное фотографическое изображение оригиналов бумажных страниц, дополненное распознанным текстом, оглавлением и т.п. (этакое продвинутое факсимильное издание);
- можно считать ею некий вариант репринта (то есть копию содержания, которая при этом не воспроизводит оформление один к одному).
При этом к обоим вариантам может быть предъявлено, а может быть и не предъявлено множество дополнительных требований, как то:
- минимальный размер,
- возможность использовать для последующей печати,
- возможность использовать для машинной обработки (извлечения и векторизации растровых изображений, например),
- второй вариант (без сохранения оформления) может уже содержать векторизованные растры, а может - их оригиналы,
- первый вариант может воспроизводить оригинал один к одному, или реставрированным электронными средствами (в случае, если носитель частично поврежден или несет существенные следы старения).

Я потому еще год назад и хотел услышать от вас описание задачи, которую вы пытаетесь решить своей работой.
И очевидна задача, создание хорошей электронной книги на основе бумажного варианта. И как же в этом случае можно забыть о djvu?
Не очевидна эта задача. Точнее, она кажется очевидной только вам (ошибочно). Потому что если вы собираетесь любоваться на изображение книги с картами и текстами глазами, то тут djvu уместен, но используя его, вы, с большой вероятностью, ограничиваете результат работы первым вариантом, закрывая возможность последующей машинной обработки самих карт.

udav
Завсегдатай
Сообщения: 257
Зарегистрирован: 06 фев 2006, 20:16
Репутация: 39

Re: Сканирование, обработка и хранение бумажных карт и атлас

Сообщение udav » 30 апр 2013, 15:53

vladlen666 писал(а): Понимаете, вы описали как надо работать с картами, как таковыми, в идеале. Но если мы говорим не только чисто о картах. Есть большое количество атласов, или книг имеющих много картами и текста одновременно. И естественно такие атласы являются цельным произведением. И очевидна задача, создание хорошей электронной книги на основе бумажного варианта. И как же в этом случае можно забыть о djvu?
Понимаю, просто атлас - это, по сути, собрание тематических карт, соответственно и методика будет той же. Отличия будут только в изданиях, где карт и текста 50\50 (популярные атласы последних 15 лет и некоторые классические, типа "Сельскохозяйственного промысла России") - в них можно текстовые части сканить по книжной методике.
Да, кому-то бывает удобнее листать атласы в djvu, ничего против не имею! Просто ему (djvu) правильнее идти еще одним производным продуктом обработки, но никак не основным... Логично сделать его из растров 3-го уровня, имеющих уже подходящий размер. Да, кстати, в атласах, как правило, значительную часть листов не вижу смысла делать выше чем 300 dpi. Это там, где только толстые линии, очень слабая загрузка, не просматривается никакая потенциальная необходимость в векторизации. И текстовые страницы, соответственно, тоже.

Аватара пользователя
vladlen666
Активный участник
Сообщения: 135
Зарегистрирован: 22 май 2011, 01:36
Репутация: 3
Откуда: Тверская область

Re: Сканирование, обработка и хранение бумажных карт и атлас

Сообщение vladlen666 » 30 апр 2013, 19:28

ericsson писал(а):Прошло уже больше года, а в четких терминах требования сформулированы не были. Вы твердите о "хорошей электронной книге", но ни разу не сказали, что это в вашем представлении, потому любой тезис, где этот термин употребляется, становится неопределенным. Термин "хорошая электронная книга" не является очевидным, потому в серьезном обсуждении этой темы его расшифровка должна присутствовать.
Исходя из того что написано в моем первом сообщении, с меня бы хватило бы готовых алгоритмов обработки карт для последующего создания djvu книги с сохранением читабельности. Ну и под хорошей книгой я подразумевая оптимальное соотношение таких характеристик как РАЗМЕР и КАЧЕСТВО (относительно карт это сохранение читабельности, сохранность информации которую эта карта передает). Естественно я могу забабахать какой -нибудь Атлас Октябрьской революции в djvu размером на 500 мегабайт и наслаждаться его качеством, а могу зпендюрить в размер в 1 мегабайт и наслаждаться размерами этой электронной книги.
Вопрос изначально стоял о ГОТОВЫХ АЛГОРИТМАХ обработки сканированных карт и атласов.
vladlen666 писал(а):Под хорошим результатом я понимаю не более 100-200 килобайт на страницу формата A4. Поделитесь, пожалуйста, опытом.
На фоне массы отсканированных атласов которых можно найти в интернете я кстати в 90% сталкиваюсь или с неоправданно большими размерами файлов, или с отвратительным качеством карт.

P.S. Естественно и формулировка "оптимальное соотношение размер/качество" может показаться размытой. Для кого-то с ПК за 1000 у.е. и жесткими с десяток террабайт и с широкополосным интернетом, вопрос размера файла может показаться малозначемым. А кому-то наоборот очень. Но не беда вопрос же в личных готовых алгоритмах.

ericsson
Гуру
Сообщения: 3321
Зарегистрирован: 27 июл 2009, 19:26
Репутация: 748
Ваше звание: Вредитель полей

Re: Сканирование, обработка и хранение бумажных карт и атлас

Сообщение ericsson » 01 май 2013, 09:40

"оптимальное соотношение размер/качество" - еще одно понятие, автоматически требующее продолжения в виде "оптимальное для ...."
Но из ваших слов косвенно следует, что вы заботитесь о сферическом Ломоносове из поморской деревни, у которого старый "пентиум" и модемный интернет. Так вот я задам вопрос: а прежде чем о нем заботиться, вы поинтересовались, сколько таких потенциально? Например, заглянули сюда http://pda.cnews.ru/news/index.shtml?to ... /29/483438 или сюда http://download.yandex.ru/company/ya_re ... g_2012.pdf и сюда http://company.yandex.ru/researches/rep ... s_2013.xml ? Я понимаю, что один или два Ломоносовых из деревни, интересующихся электронными картами, возможно, существуют, но стоит ли портить материал и ориентироваться на них?

Аватара пользователя
vladlen666
Активный участник
Сообщения: 135
Зарегистрирован: 22 май 2011, 01:36
Репутация: 3
Откуда: Тверская область

Re: Сканирование, обработка и хранение бумажных карт и атлас

Сообщение vladlen666 » 01 май 2013, 15:20

ericsson писал(а):"оптимальное соотношение размер/качество" - еще одно понятие, автоматически требующее продолжения в виде "оптимальное для ...."
Но из ваших слов косвенно следует, что вы заботитесь о сферическом Ломоносове из поморской деревни, у которого старый "пентиум" и модемный интернет. Так вот я задам вопрос: а прежде чем о нем заботиться, вы поинтересовались, сколько таких потенциально? Например, заглянули сюда http://pda.cnews.ru/news/index.shtml?to ... /29/483438 или сюда http://download.yandex.ru/company/ya_re ... g_2012.pdf и сюда http://company.yandex.ru/researches/rep ... s_2013.xml ? Я понимаю, что один или два Ломоносовых из деревни, интересующихся электронными картами, возможно, существуют, но стоит ли портить материал и ориентироваться на них?
Не знаю, не знаю, во многих провинциальных городах нет широкополосного интернета. Я уж не говорю про деревни. Я вот в деревне живу и интернет у меня, хоть и 3G, но беспроводной с перебояи и ограничениями. Я уж не говорю о железе. Книгу большого размера просто порой не открыть на слабом ПК. Или открыть, но читать и листать - сущее мучение. Кроме личного пространства на диске, которое тоже бывает не хватает, есть еще пространство на серверах тех сайтов где ты можешь разместить книгу. Зачастую оно тоже бывает ограничены. Так что похоже о сферическом пользователе, у которого и интернет широкополосный и комп хороший и места на жестком полно - говорите именно вы.

ericsson
Гуру
Сообщения: 3321
Зарегистрирован: 27 июл 2009, 19:26
Репутация: 748
Ваше звание: Вредитель полей

Re: Сканирование, обработка и хранение бумажных карт и атлас

Сообщение ericsson » 01 май 2013, 17:58

Не я, а статистика.
Вы, видимо, именно тот Ломоносов...
Что касается размещения - цены на объемы у провайдеров "облачного" хостинга файлов - копеечные (это я вам могу сказать как владелец многогигабайтного контента, который живет в сети за единицы долларов в месяц). А про слабые компьютеры... У меня второй ПК - это нетбук asus eee 901, и его возможностями в смысле чтения PDF я доволен, хотя стоил он не "тысячу долларов", а всего две с лишним сотни (когда был новым). Так что не в классовой ли борьбе дело?

udav
Завсегдатай
Сообщения: 257
Зарегистрирован: 06 фев 2006, 20:16
Репутация: 39

Re: Сканирование, обработка и хранение бумажных карт и атлас

Сообщение udav » 02 май 2013, 22:14

С инетом за пределами крупных городов и правда проблемы, тут vladlen прав. Причем непохоже, что это исправляется... Если и вырастет скорость в 2 раза, то требования поднимутся в 5 раз. Там не только Ломоносовы растут, но и много организаций, которые по определению удалены от городов (например, заповедники - располагаются только в сельской местности).
Но данные готовить целесообразно по полной технологической линейке, в расчете на весь спектр запросов, а не только на такую категорию людей. С правильно подготовленным архивом любую задачу сделать проще. Даже если сейчас нужно просто налепить дежавюшек, то и это с хорошим растром получится быстрее и лучше.
Похоже, конкретного алгоритма по переводу атласов в djvu никто не знает, придется вам сделать собственную разработку :)

Ответить

Вернуться в «Общие вопросы»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 3 гостя