Сканирование, обработка и хранение бумажных карт и атласов
- vladlen666
- Активный участник
- Сообщения: 135
- Зарегистрирован: 22 май 2011, 01:36
- Репутация: 3
- Откуда: Тверская область
Re: Сканирование, обработка и хранение бумажных карт и атлас
Про цветные карты там фактически ничего не написано, к сожалению
- vladlen666
- Активный участник
- Сообщения: 135
- Зарегистрирован: 22 май 2011, 01:36
- Репутация: 3
- Откуда: Тверская область
Re: Сканирование, обработка и хранение бумажных карт и атлас
Вот немного теории и практики на тему кодирования в DjVU цветных сканов.
Малоцветное DjVu-кодирование
http://www.djvu-soft.narod.ru/scan/low_color_djvu.htm
VPD-сегментация
http://www.djvu-soft.narod.ru/scan/vpd_segm.htm
Малоцветное DjVu-кодирование
http://www.djvu-soft.narod.ru/scan/low_color_djvu.htm
VPD-сегментация
http://www.djvu-soft.narod.ru/scan/vpd_segm.htm
-
- Гуру
- Сообщения: 3321
- Зарегистрирован: 27 июл 2009, 19:26
- Репутация: 748
- Ваше звание: Вредитель полей
Re: Сканирование, обработка и хранение бумажных карт и атлас
Мда, работы проведено много, а результат практически бесполезен для читателя...
В том смысле, что обе статьи можно было бы сократить до ссылок на утилиты и листинги примеров параметров запуска (еще и обойтись при этом без start). О результате, кроме объемов, ничего не сказано, и для объективной оценки нужно самостоятельно ставить все эти эксперименты (которые автор поставил, но ни обработать результат, ни опубликовать его толком - не смог)... Надеялся, что будут примеры и анализ, когда по ссылкам щелкал. А получилось - "копание с утилитами ради собственного удовольствия автора, культ минимального итогового размера и немного ссылок на утилиты в сухом остатке".
В том смысле, что обе статьи можно было бы сократить до ссылок на утилиты и листинги примеров параметров запуска (еще и обойтись при этом без start). О результате, кроме объемов, ничего не сказано, и для объективной оценки нужно самостоятельно ставить все эти эксперименты (которые автор поставил, но ни обработать результат, ни опубликовать его толком - не смог)... Надеялся, что будут примеры и анализ, когда по ссылкам щелкал. А получилось - "копание с утилитами ради собственного удовольствия автора, культ минимального итогового размера и немного ссылок на утилиты в сухом остатке".
-
- Завсегдатай
- Сообщения: 257
- Зарегистрирован: 06 фев 2006, 20:16
- Репутация: 39
Re: Сканирование, обработка и хранение бумажных карт и атлас
Vladlen666, работать с картами "книжными" методами - извращение ) Это и совершенно разные картинки, и пользователи с ними пользуются потом совсем по-разному. Никакой djvu с картами правильно не работает. Поэтому в качестве первого шага надо про него забыть ) Обработка книжных сканов и картежных - две разных технологических линейки. Кстати даже не все программы заявленные "под карты" на самом деле с ними правильно работают, настолько вещь специфическая. Я встречал барабанники (профессиональный инструмент ведь) с ПО, которое скан только портило.
Проблему я понял, но чтобы не переделывать одну и ту же работу по несколько раз и не получать такую проблему на будущее, надо озаботиться не только сжатием, а хранением в архиве каждого листа в нескольких уровнях обработки. Потому что многие вещи можно сделать только с оригиналом огромного размера. Через несколько лет, допустим, у всех будут толстые каналы, а задачи по обработке вырастут. Если сейчас оригиналы не хранить, то все придется переделывать!
Первым уровнем стоит иметь оригинальный скан, 24 bit, в формате без потерь, разрешением 600 или 508 dpi (больше не надо, качество полиграфии не даст преимуществ при векторизации). Только важно сканить на хорошем сканере, если актуально, дам советы по выбору.
Вторым уровнем - индексированный растр (8 или 4-битный, смотря по объекту), если есть время а желание сжать сильное, можно цветоподелить в EasyTrace, это безусловно еще больше его подожмет, а применяемость - расширит, такой можно правильно векторизовать. Но dpi то же самое и формат без потерь. И при переводе никаких размытий и других фильтров применять не нужно (иногда только бывает полезно подработать гистограмму), а нужно сосредоточиться на качественном индексировании и цветоделении.
Третьим уровнем - растр второго уровня, переведенный в 300 dpi. Для простого просмотра и выкладывания в интернет обычно самое то. Правда, из-за индексации картинка может быть не такой красивой, но это решается пользователем в 2 секунды переводом в 24-битную. Поэтому перекачивать по сети 24-битные смысла просто нет.
Ну и наконец четвертым уровнем можно сделать превьюшки 150dpi - для сайта, для быстрого ориентирования в своем архиве, для быстрого построения миниатюр на медленной машине и т.д.
Глобально вот так. Кстати, почти весь объем архива займут оригиналы 1-го уровня. Вообще, подобная система у всех, кто ведет картархивы, просто в вашем случае перекачивать планируется не большие, а маленькие растры.
Проблему я понял, но чтобы не переделывать одну и ту же работу по несколько раз и не получать такую проблему на будущее, надо озаботиться не только сжатием, а хранением в архиве каждого листа в нескольких уровнях обработки. Потому что многие вещи можно сделать только с оригиналом огромного размера. Через несколько лет, допустим, у всех будут толстые каналы, а задачи по обработке вырастут. Если сейчас оригиналы не хранить, то все придется переделывать!
Первым уровнем стоит иметь оригинальный скан, 24 bit, в формате без потерь, разрешением 600 или 508 dpi (больше не надо, качество полиграфии не даст преимуществ при векторизации). Только важно сканить на хорошем сканере, если актуально, дам советы по выбору.
Вторым уровнем - индексированный растр (8 или 4-битный, смотря по объекту), если есть время а желание сжать сильное, можно цветоподелить в EasyTrace, это безусловно еще больше его подожмет, а применяемость - расширит, такой можно правильно векторизовать. Но dpi то же самое и формат без потерь. И при переводе никаких размытий и других фильтров применять не нужно (иногда только бывает полезно подработать гистограмму), а нужно сосредоточиться на качественном индексировании и цветоделении.
Третьим уровнем - растр второго уровня, переведенный в 300 dpi. Для простого просмотра и выкладывания в интернет обычно самое то. Правда, из-за индексации картинка может быть не такой красивой, но это решается пользователем в 2 секунды переводом в 24-битную. Поэтому перекачивать по сети 24-битные смысла просто нет.
Ну и наконец четвертым уровнем можно сделать превьюшки 150dpi - для сайта, для быстрого ориентирования в своем архиве, для быстрого построения миниатюр на медленной машине и т.д.
Глобально вот так. Кстати, почти весь объем архива займут оригиналы 1-го уровня. Вообще, подобная система у всех, кто ведет картархивы, просто в вашем случае перекачивать планируется не большие, а маленькие растры.
- vladlen666
- Активный участник
- Сообщения: 135
- Зарегистрирован: 22 май 2011, 01:36
- Репутация: 3
- Откуда: Тверская область
Re: Сканирование, обработка и хранение бумажных карт и атлас
Понимаете, вы описали как надо работать с картами, как таковыми, в идеале. Но если мы говорим не только чисто о картах. Есть большое количество атласов, или книг имеющих много картами и текста одновременно. И естественно такие атласы являются цельным произведением. И очевидна задача, создание хорошей электронной книги на основе бумажного варианта. И как же в этом случае можно забыть о djvu?udav писал(а): Глобально вот так. Кстати, почти весь объем архива займут оригиналы 1-го уровня. Вообще, подобная система у всех, кто ведет картархивы, просто в вашем случае перекачивать планируется не большие, а маленькие растры.
-
- Гуру
- Сообщения: 3321
- Зарегистрирован: 27 июл 2009, 19:26
- Репутация: 748
- Ваше звание: Вредитель полей
Re: Сканирование, обработка и хранение бумажных карт и атлас
Прошло уже больше года, а в четких терминах требования сформулированы не были. Вы твердите о "хорошей электронной книге", но ни разу не сказали, что это в вашем представлении, потому любой тезис, где этот термин употребляется, становится неопределенным. Термин "хорошая электронная книга" не является очевидным, потому в серьезном обсуждении этой темы его расшифровка должна присутствовать.
Поясню:
- можно считать "хорошей электронной книгой" качественное фотографическое изображение оригиналов бумажных страниц, дополненное распознанным текстом, оглавлением и т.п. (этакое продвинутое факсимильное издание);
- можно считать ею некий вариант репринта (то есть копию содержания, которая при этом не воспроизводит оформление один к одному).
При этом к обоим вариантам может быть предъявлено, а может быть и не предъявлено множество дополнительных требований, как то:
- минимальный размер,
- возможность использовать для последующей печати,
- возможность использовать для машинной обработки (извлечения и векторизации растровых изображений, например),
- второй вариант (без сохранения оформления) может уже содержать векторизованные растры, а может - их оригиналы,
- первый вариант может воспроизводить оригинал один к одному, или реставрированным электронными средствами (в случае, если носитель частично поврежден или несет существенные следы старения).
Я потому еще год назад и хотел услышать от вас описание задачи, которую вы пытаетесь решить своей работой.
Поясню:
- можно считать "хорошей электронной книгой" качественное фотографическое изображение оригиналов бумажных страниц, дополненное распознанным текстом, оглавлением и т.п. (этакое продвинутое факсимильное издание);
- можно считать ею некий вариант репринта (то есть копию содержания, которая при этом не воспроизводит оформление один к одному).
При этом к обоим вариантам может быть предъявлено, а может быть и не предъявлено множество дополнительных требований, как то:
- минимальный размер,
- возможность использовать для последующей печати,
- возможность использовать для машинной обработки (извлечения и векторизации растровых изображений, например),
- второй вариант (без сохранения оформления) может уже содержать векторизованные растры, а может - их оригиналы,
- первый вариант может воспроизводить оригинал один к одному, или реставрированным электронными средствами (в случае, если носитель частично поврежден или несет существенные следы старения).
Я потому еще год назад и хотел услышать от вас описание задачи, которую вы пытаетесь решить своей работой.
Не очевидна эта задача. Точнее, она кажется очевидной только вам (ошибочно). Потому что если вы собираетесь любоваться на изображение книги с картами и текстами глазами, то тут djvu уместен, но используя его, вы, с большой вероятностью, ограничиваете результат работы первым вариантом, закрывая возможность последующей машинной обработки самих карт.И очевидна задача, создание хорошей электронной книги на основе бумажного варианта. И как же в этом случае можно забыть о djvu?
-
- Завсегдатай
- Сообщения: 257
- Зарегистрирован: 06 фев 2006, 20:16
- Репутация: 39
Re: Сканирование, обработка и хранение бумажных карт и атлас
Понимаю, просто атлас - это, по сути, собрание тематических карт, соответственно и методика будет той же. Отличия будут только в изданиях, где карт и текста 50\50 (популярные атласы последних 15 лет и некоторые классические, типа "Сельскохозяйственного промысла России") - в них можно текстовые части сканить по книжной методике.vladlen666 писал(а): Понимаете, вы описали как надо работать с картами, как таковыми, в идеале. Но если мы говорим не только чисто о картах. Есть большое количество атласов, или книг имеющих много картами и текста одновременно. И естественно такие атласы являются цельным произведением. И очевидна задача, создание хорошей электронной книги на основе бумажного варианта. И как же в этом случае можно забыть о djvu?
Да, кому-то бывает удобнее листать атласы в djvu, ничего против не имею! Просто ему (djvu) правильнее идти еще одним производным продуктом обработки, но никак не основным... Логично сделать его из растров 3-го уровня, имеющих уже подходящий размер. Да, кстати, в атласах, как правило, значительную часть листов не вижу смысла делать выше чем 300 dpi. Это там, где только толстые линии, очень слабая загрузка, не просматривается никакая потенциальная необходимость в векторизации. И текстовые страницы, соответственно, тоже.
- vladlen666
- Активный участник
- Сообщения: 135
- Зарегистрирован: 22 май 2011, 01:36
- Репутация: 3
- Откуда: Тверская область
Re: Сканирование, обработка и хранение бумажных карт и атлас
Исходя из того что написано в моем первом сообщении, с меня бы хватило бы готовых алгоритмов обработки карт для последующего создания djvu книги с сохранением читабельности. Ну и под хорошей книгой я подразумевая оптимальное соотношение таких характеристик как РАЗМЕР и КАЧЕСТВО (относительно карт это сохранение читабельности, сохранность информации которую эта карта передает). Естественно я могу забабахать какой -нибудь Атлас Октябрьской революции в djvu размером на 500 мегабайт и наслаждаться его качеством, а могу зпендюрить в размер в 1 мегабайт и наслаждаться размерами этой электронной книги.ericsson писал(а):Прошло уже больше года, а в четких терминах требования сформулированы не были. Вы твердите о "хорошей электронной книге", но ни разу не сказали, что это в вашем представлении, потому любой тезис, где этот термин употребляется, становится неопределенным. Термин "хорошая электронная книга" не является очевидным, потому в серьезном обсуждении этой темы его расшифровка должна присутствовать.
Вопрос изначально стоял о ГОТОВЫХ АЛГОРИТМАХ обработки сканированных карт и атласов.
На фоне массы отсканированных атласов которых можно найти в интернете я кстати в 90% сталкиваюсь или с неоправданно большими размерами файлов, или с отвратительным качеством карт.vladlen666 писал(а):Под хорошим результатом я понимаю не более 100-200 килобайт на страницу формата A4. Поделитесь, пожалуйста, опытом.
P.S. Естественно и формулировка "оптимальное соотношение размер/качество" может показаться размытой. Для кого-то с ПК за 1000 у.е. и жесткими с десяток террабайт и с широкополосным интернетом, вопрос размера файла может показаться малозначемым. А кому-то наоборот очень. Но не беда вопрос же в личных готовых алгоритмах.
-
- Гуру
- Сообщения: 3321
- Зарегистрирован: 27 июл 2009, 19:26
- Репутация: 748
- Ваше звание: Вредитель полей
Re: Сканирование, обработка и хранение бумажных карт и атлас
"оптимальное соотношение размер/качество" - еще одно понятие, автоматически требующее продолжения в виде "оптимальное для ...."
Но из ваших слов косвенно следует, что вы заботитесь о сферическом Ломоносове из поморской деревни, у которого старый "пентиум" и модемный интернет. Так вот я задам вопрос: а прежде чем о нем заботиться, вы поинтересовались, сколько таких потенциально? Например, заглянули сюда http://pda.cnews.ru/news/index.shtml?to ... /29/483438 или сюда http://download.yandex.ru/company/ya_re ... g_2012.pdf и сюда http://company.yandex.ru/researches/rep ... s_2013.xml ? Я понимаю, что один или два Ломоносовых из деревни, интересующихся электронными картами, возможно, существуют, но стоит ли портить материал и ориентироваться на них?
Но из ваших слов косвенно следует, что вы заботитесь о сферическом Ломоносове из поморской деревни, у которого старый "пентиум" и модемный интернет. Так вот я задам вопрос: а прежде чем о нем заботиться, вы поинтересовались, сколько таких потенциально? Например, заглянули сюда http://pda.cnews.ru/news/index.shtml?to ... /29/483438 или сюда http://download.yandex.ru/company/ya_re ... g_2012.pdf и сюда http://company.yandex.ru/researches/rep ... s_2013.xml ? Я понимаю, что один или два Ломоносовых из деревни, интересующихся электронными картами, возможно, существуют, но стоит ли портить материал и ориентироваться на них?
- vladlen666
- Активный участник
- Сообщения: 135
- Зарегистрирован: 22 май 2011, 01:36
- Репутация: 3
- Откуда: Тверская область
Re: Сканирование, обработка и хранение бумажных карт и атлас
Не знаю, не знаю, во многих провинциальных городах нет широкополосного интернета. Я уж не говорю про деревни. Я вот в деревне живу и интернет у меня, хоть и 3G, но беспроводной с перебояи и ограничениями. Я уж не говорю о железе. Книгу большого размера просто порой не открыть на слабом ПК. Или открыть, но читать и листать - сущее мучение. Кроме личного пространства на диске, которое тоже бывает не хватает, есть еще пространство на серверах тех сайтов где ты можешь разместить книгу. Зачастую оно тоже бывает ограничены. Так что похоже о сферическом пользователе, у которого и интернет широкополосный и комп хороший и места на жестком полно - говорите именно вы.ericsson писал(а):"оптимальное соотношение размер/качество" - еще одно понятие, автоматически требующее продолжения в виде "оптимальное для ...."
Но из ваших слов косвенно следует, что вы заботитесь о сферическом Ломоносове из поморской деревни, у которого старый "пентиум" и модемный интернет. Так вот я задам вопрос: а прежде чем о нем заботиться, вы поинтересовались, сколько таких потенциально? Например, заглянули сюда http://pda.cnews.ru/news/index.shtml?to ... /29/483438 или сюда http://download.yandex.ru/company/ya_re ... g_2012.pdf и сюда http://company.yandex.ru/researches/rep ... s_2013.xml ? Я понимаю, что один или два Ломоносовых из деревни, интересующихся электронными картами, возможно, существуют, но стоит ли портить материал и ориентироваться на них?
-
- Гуру
- Сообщения: 3321
- Зарегистрирован: 27 июл 2009, 19:26
- Репутация: 748
- Ваше звание: Вредитель полей
Re: Сканирование, обработка и хранение бумажных карт и атлас
Не я, а статистика.
Вы, видимо, именно тот Ломоносов...
Что касается размещения - цены на объемы у провайдеров "облачного" хостинга файлов - копеечные (это я вам могу сказать как владелец многогигабайтного контента, который живет в сети за единицы долларов в месяц). А про слабые компьютеры... У меня второй ПК - это нетбук asus eee 901, и его возможностями в смысле чтения PDF я доволен, хотя стоил он не "тысячу долларов", а всего две с лишним сотни (когда был новым). Так что не в классовой ли борьбе дело?
Вы, видимо, именно тот Ломоносов...
Что касается размещения - цены на объемы у провайдеров "облачного" хостинга файлов - копеечные (это я вам могу сказать как владелец многогигабайтного контента, который живет в сети за единицы долларов в месяц). А про слабые компьютеры... У меня второй ПК - это нетбук asus eee 901, и его возможностями в смысле чтения PDF я доволен, хотя стоил он не "тысячу долларов", а всего две с лишним сотни (когда был новым). Так что не в классовой ли борьбе дело?
-
- Завсегдатай
- Сообщения: 257
- Зарегистрирован: 06 фев 2006, 20:16
- Репутация: 39
Re: Сканирование, обработка и хранение бумажных карт и атлас
С инетом за пределами крупных городов и правда проблемы, тут vladlen прав. Причем непохоже, что это исправляется... Если и вырастет скорость в 2 раза, то требования поднимутся в 5 раз. Там не только Ломоносовы растут, но и много организаций, которые по определению удалены от городов (например, заповедники - располагаются только в сельской местности).
Но данные готовить целесообразно по полной технологической линейке, в расчете на весь спектр запросов, а не только на такую категорию людей. С правильно подготовленным архивом любую задачу сделать проще. Даже если сейчас нужно просто налепить дежавюшек, то и это с хорошим растром получится быстрее и лучше.
Похоже, конкретного алгоритма по переводу атласов в djvu никто не знает, придется вам сделать собственную разработку
Но данные готовить целесообразно по полной технологической линейке, в расчете на весь спектр запросов, а не только на такую категорию людей. С правильно подготовленным архивом любую задачу сделать проще. Даже если сейчас нужно просто налепить дежавюшек, то и это с хорошим растром получится быстрее и лучше.
Похоже, конкретного алгоритма по переводу атласов в djvu никто не знает, придется вам сделать собственную разработку

Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость