Задача контроля качества при создании и развитии систем оптического распознавания печатного текста



Скачать 81.83 Kb.

Дата27.02.2017
Размер81.83 Kb.
Просмотров115
Скачиваний0

Задача контроля качества при создании
и развитии систем оптического
распознавания печатного текста
Контроль качества при создании систем распознавания печатного текста
Д. В. Полевой, О. С. Самойлов
Д. В. Полевой
1
, О. С. Самойлов
2 1
Институт системного анализа Российской академии наук,
Россия, 117312 Москва, пр. 60-летия Октября, 9 2
Московский институт стали и сплавов
,
Россия, 119049 Москва, Ленинский пр., 4
Работа посвящена вопросам контроля качества работы систем распозна- вания. В качестве примера приведены задачи развития и использования систем оптического распознавания печатного текста.
Введение
Оптическое распознавание текста (Optical Character Recognition, OCR) — общее название для технологий и программ, преобразующих изображение текста в допускающее непосредственное редактирование электронное пред- ставление. Исходное изображение содержит печатные или написанные от руки символы. Дальнейшее рассмотрение вопросов контроля качества будет в первую очередь относиться к распознаванию печатного текста бумажных документов, но многие рассуждения и выводы применимы и для других постановок задач распознавания.
Результатом оптического распознавания является текст, который можно обрабатывать обычными способами: редактировать в соответствующих ре- дакторах, сохранять и индексировать поисковыми системами, сравнивать с полями БД, использовать для синтеза голосовых сообщений и т. д.
Применение OCR-технологий вышло далеко за границы первоначаль- ных задач ввода бумажных документов. Например, качественное решение задачи локализации текстовых фрагментов изображения в видеопотоке и их распознавание позволяют реализовать поиск видеозаписей по ключевым словам. Распознавание номеров автомобилей и вагонов уже используется в системах автоматического контроля и наблюдения. Существуют программ- ные комплексы для тестирования программного обеспечения, которые опи-

252
Д. В. Полевой, О. С. Самойлов раются на распознавание снимков экрана для моделирования действий пользователя при тестировании пользовательского интерфейса.
Оптическое распознавание печатного текста является промышленным инструментом, сфера применения которого все расширяется: увеличивается количество решаемых с его помощью задач, растет число пользователей.
Функционал многих OCR-систем может быть использован через программ- ный интерфейс (API), при этом существуют как свободно распространяемые системы (например, OpenOCR [1], Ocropus [2]), так и коммерческие (напри- мер, Abbyy Fine Reader [3], OmniPage [4], Readiris [5]).
Возможность выбирать из нескольких доступных OCR-систем ставит перед пользователями и прикладными программистами задачу определе- ния лучшей или наиболее подходящей системы. Группы разработчиков тех- нологий оптического распознавания также остро нуждаются в инструмен- тах контроля и оценки качества OCR, особенно в ситуации совместной разработки. Таким образом, задача построения систем оценки и контроля качества работы OCR-систем является актуальной задачей.
1. Контроль качества систем
распознавания печатного текста
Как любая программная компонента, система оптического распозна- вания имеет множество характеристик: целевая платформа функционирова- ния, потребляемые ресурсы (память, процессорное время), устойчивость ра- боты и т. д. Опустим анализ общих и рассмотрим специфические для задач распознавания характеристики.
Распознавание является сложным многоступенчатым процессом, в ко- тором результаты каждого этапа существенно влияют на последующие.
Создатели хорошей распознающей системы, среди прочих, решают сложную оптимизационную задачу подбора параметров алгоритмов для достижения заданного уровня качества на широком спектре документов. Распознать один–два документа и сделать выводы о качестве распознавания [6] невоз- можно: такой подход является лишь некоторым тестом работоспособности
OCR-системы.
Основным подходом к оценке качества работы OCR-систем является сравнение текущих результатов работы с некоторыми «идеальными» (ground truth). Такие идеалы создаются в ручном или полуавтоматическом режиме и представляют собой эталонное решение задач распознавания человеком.
Отклонения от эталона считаются ошибками, подсчет числа которых дает обобщенные показатели качества работы системы. Дополнительно возмож- ны анализ типов и частоты встречаемости ошибок.
Поскольку OCR-ядро является сложной системой, его можно рассмат- ривать как «черный» или «серый» ящик. В первом случае для оценки каче-

Контроль качества при создании систем распознавания печатного текста 253 ства работы используют только финальные результаты распознавания. Такой способ подходит для конечного пользователя, но абсолютно не подходит для разработчиков, так как совершенно не прослеживается влияние работы отдельных подсистем на финальные результаты. Во втором случае отсле- живается и отдельно оценивается качество работы каждой из компонент распознающей системы. Финальные результаты распознавания при этом являются лишь одним из контролируемых параметров. Таким образом, оцен- ка качества для конечного пользователя является сильно упрощенным ва- риантом системы качества разработчика.
Для прикладного программиста лучшим вариантом оценки является набор из одной или нескольких числовых характеристик, которые можно вычислить для сравниваемых OCR-систем и из которых определить луч- шую. В это же время разработчик системы распознавания должен иметь возможность детально анализировать изменения в работе отдельных алго- ритмов и подсистем, получая не только количественные, но и качествен- ные характеристики. Система контроля качества требуется как конечным пользователям OCR-библиотек, так и разработчикам последних.
2. Типовые ситуации использования
оптического распознавания текста
Рассмотрим основные типы задач, которые решаются с использова- нием оптического распознавания печатного текста.
2.1. Архивное хранение документов
В современном мире ежедневно переводится в электронную форму ог- ромное количество бумажных документов. Количество информации в циф- ровой форме постоянно возрастает. Хранение электронной копии документа обладает рядом преимуществ по сравнению с хранением бумажного ориги- нала: сохранность внешнего вида документа на протяжении всего времени хранения, простота обмена документами, мгновенный поиск информации.
Пользователям оцифрованных документов требуются эффективные ме- ханизмы поиска, а большинство современных поисковых технологий опи- раются на естественное текстовое представление данных. Именно поэтому наиболее распространенной формой создания электронных копий докумен- тов является сканирование и распознавание бумажных оригиналов.
В таком варианте использования от OCR-подсистемы требуются рас- познанные слова и точные координаты фрагментов текста на изображении.
Такая привязка текста к изображению позволит при необходимости проде- монстрировать исходный фрагмент реального документа. Примерами такого подхода могут служить сервис поиска книг Google Books [7] или цифровые архивы газет [8] (рис. 1).

254
Д. В. Полевой, О. С. Самойлов
а)
б)
Рис. 1. Примеры пользовательского интерфейса с совмещением результатов распознавания и исходного изображения: а — Google Books, б — Australian newspapers
В зависимости от постановки задачи основным требованием может быть либо максимальная скорость ввода, либо максимально точное вос- произведение исходного текста. В первом случае сохранение альтерна- тив распознавания символов и применение алгоритмов нечеткого поиска позволяют уменьшить требования к точности распознавания. Во втором варианте важна надежность автоматического детектирования ошибок рас- познавания, а ввод обязательно должен проходить стадию ручного кон- троля оператором.
2.2. Распознавание с сохранением
внешнего вида документа
Очень часто требуется немного отредактировать документ, который на данный момент есть только в бумажном виде. При этом набирать вруч- ную текст, выставлять различные текстовые параметры, отступы и т. д. — длительная и трудоемкая работа. Быстро решить поставленную задачу по- могают распознающие системы, сохраняющие внешний вид документа.
При этом помимо самого распознавания дополнительно определяются раз- личные типографские параметры (размер и тип шрифта, начертание сим- волов), сохраняются положения текста, изображений, разметка страницы, отступы и т. д. Редактирование результатов распознавания становится делом пары минут. Типичными примерами являются OCR-системы для
«домашнего использования» ([3, 9]).
При таком использовании результаты распознавания всегда предос- тавляются пользователю «на вычитку». При достаточно хорошем качестве распознавания текста на первый план выходят возможности системы, свя- занные именно с анализом и восстановлением макета страницы.

Контроль качества при создании систем распознавания печатного текста 255
2.3. Распознавание с сохранением структуры документа
Современные OCR-системы воспроизводят текст оцифрованных доку- ментов с минимальным количеством структурной информации: каждый до- кумент является набором страниц, определены границы параграфов. Авто- матическое восстановление границ глав и разделов, формирование оглавле- ний и ссылок внутри документов является актуальной задачей, решение которой позволит с меньшими усилиями создавать полноценные цифровые библиотеки и архивы с расширенными возможностями поиска и выбороч- ного доступа.
Такая постановка задачи распознавания уже попадает в область «пони- мания документов», так как требует комплексного подхода к анализу типо- графической, лингвистической и семантической составляющих результатов распознавания
2.4. Ввод форм
Отдельной широкой областью применения систем распознавания является автоматизация ввода форм, т. е. документов заданной структуры и заполнения. Требования к OCR-подсистеме в таком случае сильно зави- сят от специфики конкретного документооборота, в рамках которого формы вводятся.
На одном полюсе находятся массовые проекты (например, по сбору мар- кетинговой информации), в которых важны скорость ввода и статистическая достоверность результата. При заполнении анкет люди допускают ошибки, а точность и достоверность распознавания должны сохранять общую дос- товерность исследования. Другим крайним случаем является ввод докумен- тов, требующих максимальной надежности, например финансовых или удо- стоверяющих личность. Примером такого рода систем может служить сис- тема массового ввода Cognitive Forms [10].
3. Общая схема построения инструментария
контроля качества системы распознавания
Проведенный обзор показывает разнообразие областей применения распознающих систем. В разных прикладных задачах к OCR-компонентам предъявляются различные требования, поэтому более перспективным яв- ляется проблемно-ориентированный подход к оценке и контролю качества распознавания. В таком подходе отправной точкой к построению критери- ев качества является сама прикладная задача, а не распознавание текста в отрыве от контекста его использования.
Рассмотрим схему построения инструментария контроля системы распознавания:

256
Д. В. Полевой, О. С. Самойлов
• анализ области применения OCR-системы и выделение существен- ных критериев качества;
анализ этапов оптического распознавания и определение критических с точки зрения исходной задачи этапов;
• формирование критериев изолированной оценки работы отдельных этапов;
• создание автоматизированной системы оценки качества работы под- систем;
• создание комплексной системы контроля качества всей OCR-системы;
• изготовление инструментария и данных («идеальные» результаты).
Во время анализа области применения OCR-системы определяются границы множества распознаваемых изображений и их характерные особенности. При этом выделяются существенные параметры оценки ре- зультатов распознавания и критерии оценки системы по этим парамет- рам. Затем анализируется структура и основные подсистемы оцениваемой распознающей системы. При анализе следует обратить внимание на наиболее существенные с точки зрения получения оптимального ответа этапы и выделить наиболее важные подсистемы. Критерии оценки каче- ства работы в терминах входных и выходных данных формируются на основе представлений об архитектуре системы в целом и иде-альном ре- зультате работы для выделенных подсистем.
Процедуры оценки отдельных подсистем по сформулированным кри- териям автоматизируются, и на их основе создается комплексный автомати- зированный инструмент, который учитывает качество работы отдельных под- систем и всей системы в целом. При этом необходимо учитывать, что разные подсистемы по-разному влияют на конечный результат и к ним предъявля- ются разные требования, в зависимости от модели использования OCR-сис- темы. Таким образом, для разных прикладных задач системы комплексной оценки одной и той же распознающей системы могут отличаться.
Последним и, зачастую, наиболее трудоемким этапом создания сис- темы контроля качества является изготовление «идеалов».
4. Открытые базы изображений
Оценка качества работы OCR-системы является статистической и должна проводиться на большом количестве изображений, максимально полно описывающих множество реальных изображений в прикладной за- даче. Распределение типов изображений и их характерных особенностей также должно соответствовать области применения. Изготовление вруч- ную «идеалов» требует значительных трудозатрат, а используемые для по- вышения точности техники повторного ввода и сверки увеличивают стои-

Контроль качества при создании систем распознавания печатного текста 257
Таблица 1
Описание открытых баз изображений
Название
Кол-во
изобра-
жений
Разре-
шение
(ppi)
Языки
OCR
рез-ты
Формат
идеала
ISRI-OCRtk 2889 200,
300,
400
Английский, испанский
Да txt
MARG 1553 300
Английский
Да xml
Tobaco 800 1290 150–300 Английский
Нет xml
MediaTeam
Oulu
Document
Database
512 300
Английский, русский, финский, немецкий
Да binary, txt
InftyProject — 300
Английский, французский, немецкий
Да csv мость еще в несколько раз. Одним из способов уменьшения их стоимости является создание повышающего производительность труда операторов инструментария. Другим вариантом является использование готовых кор- пусов изображений и «идеалов» (табл. 1). Проведем краткий обзор суще- ствующих в открытом доступе ресурсов.
ISRI-OCRtk — эта база является результатом пятилетнего исследо- вания качества работы ведущих систем оптического распознавания [11].
Отсканированные в различных разрешениях и с различным качеством разнообразные бумажные документы (газеты, журналы, деловые письма, годовые отчеты и др.) сопровождаются информацией о положении и со- держании текстовых блоков.
Дополнительно эта база содержит классификацию документов по ти- пу и качеству. Особого внимания заслуживает разработанный и выложен- ный в открытый доступ инструментарий с подробным описанием теоре- тических и методологических оснований сравнительного анализа работы систем оптического распознавания текста.
MARG — эта база изображений [12] собрана в рамках проекта созда- ния системы по оцифровке и предоставлению доступа к статьям на меди- цинские и биологические темы. Содержит черно-белые сканы статей на английском языке из академических биомедицинских журналов. Изобра- жения представляют собой первые страницы статей. Идеальные результаты представлены классифицированными блоками (заголовок, список авторов,

258
Д. В. Полевой, О. С. Самойлов место проведения работы, аннотация и др.) и распознанным текстом. Для всех элементов: блоков, строк, слов и символов — указаны координаты охватывающих прямоугольников.
Tobacco 800 — открытое подмножество комплекса коллекций для тес- тирования обработки изображений документов [13–16]. Содержит широкий спектр отсканированных на различном оборудовании с разными настройка- ми и качеством документов. Часть изображений являются последователь- ными страницами коммерческих документов. «Идеалы» описывают наличие и расположение подписей и логотипов на изображениях.
MediaTeam Oulu Document Database — коллекция [17] отсканиро- ванных в цвете разнообразных, документов, изданных не позже 1978 года
(списки адресов, чеки, формы, статьи, словари, карты и т. д.). Содержит ин- формацию о физической и логической структуре всей страницы в целом (тип, номер, число колонок, язык, направление текста, число блоков, шрифт).
Выделяются следующие блоки: текст (заголовок, тело, автор и др.), графика и изображение. Для каждого из блоков указывается номер, координаты, тип, язык, выравнивание и направление текста, шрифт.
Infty Project — созданная в рамках разработки специализированной системы для оптического распознавания математических текстов база [17] с искусственными изображениями формул и фрагментов текста. Общее число извлеченных символов: 662 142 из английских статей, 37 439 — из французских и 77 812 — из немецких. Описывает результаты распознавания, абсолютное и взаимное положение символов и фрагментов формул.
Заключение
Анализ практических аспектов контроля качества оптического распо- знавания печатного текста показывает, что построение системы контроля должно начинаться с анализа прикладных задач, решаемых с помощью
OCR. В работе приведен обзор основных типовых случаев использования оптического распознавания печатного текста и предложена общая схема создания инструментов его контроля. Для оценки разнообразия докумен- тов и уменьшения стоимости разработки могут использоваться рассмот- ренные открытые базы изображений.
Литература
1. OpenOcr. http://www.openocr.org
2. Ocropus. http://www.ocropus.org
3. Abby FineReader. http://www.abbyy.ru
4. OmniPage. http://www.nuance.com

Контроль качества при создании систем распознавания печатного текста 259 5. Readiris. http://www.irislink.com
6. Acton A. Linux OCR: A review of free optical character recognition software. http://www.eecho.info/Echo/office/linux-ocr
7. GoogleBooks. http://books.google.com/
8. Australian Newspapers Digitisation Program. http://ndpbeta.nla.gov.au/ndp/del/home
9. Cognitive Cuneiform. http://cuneiform.ru
10. Арлазаров В. В., Постников В. В., Шоломов Д. Л. Cognitive Forms — система массового ввода структурированных документов // Управление информаци- онными потоками. М.: URSS, 2002. С. 35–46.
11. ISRI-OCRtk. http://www.isri.unlv.edu/ISRI/OCRtk
12. MARG. http://marg.nlm.nih.gov
13. Tobacco 800. http://www.umiacs.umd.edu/
zhugy/Tobacco800.html
14. Lewis D., Agam G., Argamon S., Frieder O., Grossman D., Heard J. Building a test collection for complex document information processing // In Proc. 29th Annual
Int. ACM SIGIR Conference (SIGIR 2006). 2006. P. 665–666.
15. Agam G., Argamon S., Frieder O., Grossman D., Lewis D. The Complex Document
Image Processing (CDIP) test collection project. Illinois Institute of Technology,
2006. http://ir.iit.edu/projects/CDIP.html
16. The Legacy Tobacco Document Library (LTDL). San Francisco: University of
California, 2007. http://legacy.library.ucsf.edu
17. MediaTeam Oulu Document Database. http://www.mediateam.oulu.fi/downloads/
MTDB
18. Infty Project Images Database. http://www.inftyproject.org/en/database.html

Document Outline

  • 2009_т45 251.pdf
  • 2009_т45 252
  • 2009_т45 253
  • 2009_т45 254
  • 2009_т45 255
  • 2009_т45 256
  • 2009_т45 257
  • 2009_т45 258
  • 2009_т45 259


Поделитесь с Вашими друзьями:


База данных защищена авторским правом ©nethash.ru 2017
обратиться к администрации

войти | регистрация
    Главная страница


загрузить материал