ET V 9.7 Удаление следов текста (связанного мусора)
Добавлено: 24 дек 2014, 16:49
Вы видели, как выглядит «капча» в интернете? Т. е. та самая смесь из искалеченных букв и цифр на грязном фоне, пересечённая несколькими линиями? А ведь такой она сделана именно для того, чтобы однозначно отделить человека от робота-спамера. И несмотря на все усилия специалистов по программам распознавания текста, задача пока не решается.
Так вот, на большинстве векторизуемых материалов текст выглядит очень похоже. А то и хуже. Поэтому, распознавать буквы и цифры как текст и числа, мы пока не планируем – себе дороже. А вот отделить их от линий как-то надо. Для этого и служит утилита Фильтрация связанного мусора.
В этой версии изменён интерфейс утилиты и способы вычленения «мусора» из векторных данных. Изменение параметров выделения мгновенно отражается на счётчике распознанных конгломератов. Сами конгломераты распознаются точнее, даже если они имеют связи с фрагментами линий векторных объектов.

Так вот, на большинстве векторизуемых материалов текст выглядит очень похоже. А то и хуже. Поэтому, распознавать буквы и цифры как текст и числа, мы пока не планируем – себе дороже. А вот отделить их от линий как-то надо. Для этого и служит утилита Фильтрация связанного мусора.
В этой версии изменён интерфейс утилиты и способы вычленения «мусора» из векторных данных. Изменение параметров выделения мгновенно отражается на счётчике распознанных конгломератов. Сами конгломераты распознаются точнее, даже если они имеют связи с фрагментами линий векторных объектов.
