Гринкруг Ефим Михайлович (должность, звание) подпись (Ф. И. О.) (Дата) Москва, 2014 г реферат



страница2/7
Дата20.11.2016
Размер1.22 Mb.
Просмотров2017
Скачиваний0
ТипРеферат
1   2   3   4   5   6   7

Обзор источников

Существующие на данный момент методы выделения текста можно условно разделить на две группы: методы, основанные на анализе регионов и методы, основанные на анализе компонент связности. Методы, на основе анализа регионов выполняют текстурный анализ фрагментов изображения. Для каждого фрагмента, региона, генерируется вектор значений, состоящий из численных оценок различных текстурных свойств. Этот вектор подается на вход классификатору, который оценивает степень “текстовости” региона. Затем, соседние текстовые регионы объединяются для получения блоков текста. Из-за того, что текстурные признаки текстовых областей отличаются от признаков нетекстовых областей, то такие методы могут обнаруживать текст даже на достаточно зашумленных изображениях. Методы, на основе анализа компонент связности разделяют все изображение на отдельные компоненты по какому-либо признаку, например, по цвету. Нетекстовые компоненты отбрасываются при помощи эвристик или классификаторов. Так как количество сегментов-кандидатов относительно мало, данные методы имеют меньшую вычислительную сложность, чем методы, основанные на анализе регионов, а выделенные текстовые компоненты могут напрямую использоваться для распознавания.

Хотя существующие подходы заявляют о впечатляющих результатах, все еще существует ряд проблем. Методы, на основе анализа регионов работают относительно медленно, и их производительность чувствительна к расположению текста. Напротив, методы на основе анализа компонент связности не могут точно сегментировать текст без информации о расположении и масштабе текста. Более того, существует множество нетекстовых компонент, которые легко спутать с текстовыми, при индивидуальном анализе. Например, колесо автомобиля можно принять за букву “О”. Стоит отметить, что некоторые работы предлагают смешанные подходы, в которых используются методы на основе анализа и регионов и компонент связности.

    1. Методы, основанные на анализе регионов

В своей работе Адам Коатс и соавторы [7] предложили интересный подход, основанный на обучении без учителя для получения признаков. Разработанная ими система состоит из трёх этапов:



  1. Применяется алгоритм обучения без учителя для получения набора рассчитанных признаков из фрагментов изображений, полученных из обучающего множества.

  2. Уменьшается количество признаков путем использования пространственного объединения [2].

  3. Обучается классификатор для выделения текста.

На первом этапе системы они собирают коллекцию фрагментов изображений 8 на 8 пикселей в градациях серого. Все фрагменты предварительно обрабатывают. Для этого сначала нормализуют значения интенсивности и градиента каждого фрагмента, вычитая из значений этих величин в каждой точке их математическое ожидание и умножая полученную разность на среднеквадратичное отклонение. Потом применяют забеливание [14] [18] на основе анализа нулевых компонент. Забеливание используется для предварительной обработки вектора признаков. Оно нормирует значения векторов таким образом, что коэффициенты вариации отдельных величин становятся равны.

Затем, из нормализованных и забеленных данных, при помощи алгоритма К-средних, получают набор признаков.

Пространственное объединение применяется для сокращения количества информации представляющей каждый фрагмент изображения. Авторы статьи используют квадратные фрагменты стороной 32 пикселя. Для каждой области 8 на 8 пикселей в этом фрагменте рассчитывается вектор признаков. Далее используется усредняющее объединение, то есть просто рассчитывается новый вектор как среднее арифметическое всех векторов, описывающих восьмипиксельные области. Если этого не сделать, то количество информации возрастет многократно.

В качестве классификатора используется метод опорных векторов [26]. Свое обучающее множество Коатс и его коллеги строят на основе обучающего набора данных ICDAR 2003 [23], получая из него фрагменты 32 на 32 пикселя. Для определения, является ли фрагмент текстом или нет, используется уже готовая разметка исходного набора. Общий размер полученного множества составил 60000 фрагментов.

При детектировании используется метод скользящего окна. Вычисляется вектор признаков для каждого тридцатидвухпиксельного фрагмента изображения. Данные вычисления проводятся несколько раз, для разного масштаба изображения, для того чтобы детектировать текст разного размера. Затем каждому пикселю исходного изображения ставится в соответствие максимальный результат классификатора, полученный для всех фрагментов его содержащих, при разных масштабах. Полученные значения бинаризуются с некоторым порогом и в результате получается маска указывающая наличие текста на изображении. Варьируя порог бинаризации, можно получать различные значения точности и полноты. Точность рассчитывается как отношения количества правильно маркированных пикселей к общему числу маркированных пикселей. Полнота — как отношение количества правильно маркированных пикселей к общему числу пикселей, которые следовало маркировать.

Этот подход показывает далеко не самые высокие результаты (точность 61% при полноте 69%), но он интересен тем, что не использует каких-то логически обоснованных признаков, а получает их сам.

Система, описанная в работе [6], является очень хорошим примером системы основанной на анализе регионов. Ее создатели решили использовать не абстрактные признаки, такие как собственные числа, рассчитанные для фрагмента изображения (такой признак использовался в [7]), или вейвлеты Хаара. Вместо этого они искали более информативные признаки, а именно такие, которые будут давать схожие результаты для различных текстовых регионов.

Рисунок 1.. Наверху: математические ожидания значений производных по (слева) и по (справа). Внизу: их дисперсия.

Первый набор признаков основан на наблюдении за поведением производных по и в пределах текстового региона. Авторы выбрали из обучающего множества все текстовые области, растянули или сжали их до фиксированного размера, и посчитали для них значения производных. Средние величины производных формируют определенный шаблон.

Из рисунка 1.3 видно, что значения производных на заднем фоне (выше и ниже текста) достаточно низкие. Производная по имеет большие значения в центральной области, где и находится непосредственно текст. А производная по принимает большие значения на границе текста и фона, а в центральной части она мала. Также дисперсия производной по имеет большие значения в центре, из-за того, что символы имеют разнообразную форму и размер. А у производной по значения дисперсии отличаются слабо.

Исходя из данного наблюдения, рассчитываются признаки в различных областях фрагмента изображения (сверху, снизу, в центре). Границы областей взяты из анализа рисунка 1.1. Следующей группой признаков являются признаки, основанные на гистограммах интенсивности, направления и модуля градиента. В искусственных изображениях часто бывает резкая граница между текстом и фоном, поэтому можно легко разделить их по наличию двух пиков на гистограмме. В реальных изображениях, которые рассматриваются в этой работе, границы, как правило, смазаны, и гистограмма имеет только один пик. Поэтому используются кроме уже перечисленных гистограмм еще и совмещенные гистограммы интенсивности и градиента.

Третьей группой признаков являются признаки, основанные на выделении границ, такие как количество граней, их размеры.

По заявлению авторов их алгоритм детектирует 97% текста на изображениях( точность детектирования не называется). Из-за выбора первых признаков, алгоритм не детектирует негоризонтальный текст и, по заявлению авторов, плохо работает с одиночными символами.

Надежда Рубцова и ее коллеги в работе [19] представили интегрированную систему для распознавания текста, реализующую все этапы подобной системы: от обнаружения до распознавания. Главная идея их работы состоит в интеграции отдельных этапов и использовании результатов одних этапов на других.

Для выделения текста они используют следующий подход: как и во всех остальных работах, использующих анализ регионов, происходит построение пирамиды изображений с различными масштабами. Далее, каждое изображение разбивается на фрагменты размером 20 на 20 пикселей, которые называют нодами. Первый этап называется анализом нод. На данном этапе, похожие ноды объединяются в более крупные формации – регионы. Для определения степени схожести используется несколько признаков. Первый из них это гистограмма интенсивности из десяти интервалов.

Кроме того ноды характеризуются гранями. Гранью, в терминологии данной работы, является переходная область, выделенная высокими значениями градиента, между областями с разной интенсивностью. Авторы используют грани, как локальную характеристику, и не рассчитывают их для всего изображения, так как значения градиента могут сильно отличаться между его различными областями. Этот локальный анализ состоит в разделении всех величин градиента на существенные и не существенные, при помощи EM-алгоритма [1] [8]. Области, которым соответствуют существенные величины градиента, помечаются на маске локальных граней. На этой маске указаны широкие области перехода и игнорируются узкие, однопиксельные, грани.

Третий признак, характеризующий ноды, рассчитывается на основе преобразования ширины штриха [9]. Рассчитывается преобразование для изображения в каждом из масштабов, штрихи шириной более пяти пикселей при этом отбрасываются. Далее, чтобы заполнить незначительные пустоты на стыках фрагментов символов оставшихся после преобразования или убрать случайный шумы, результат преобразования складывается с результатом детектора границ Кэнни [5] и размывается. Так как после размытия маска перестает быть бинарной, то полученный результат называют уже содержимым ширины штриха. Характеристикой нода является сумма значений содержимого: если оно находится ниже определенного порога, то это значит, что фрагмент изображения в ноде однороден и не будет сливаться с другими нодами.

После объединения соседних схожих нод в регионы наступает этап анализа регионов. Регионы классифицируются на текстовые и нетекстовые, при помощи классификатора, на основе метода опорных векторов [25] [26]. Для классификации используются семь признаков, почти все из которых основаны на построении, так называемой, ЕМ-модели. Авторы предлагают при помощи EM-алгоритма разложить распределение интенсивности в небольшой области вокруг граней, в пределах региона на два класса: ”текст” и ”фон”. А в качестве признаков использовать разницу между математическими ожиданиями полученных распределений: отношению между количеством пикселей региона относящихся к одной из моделей к общему количеству пикселей и отношению разницы бинаризованного EM-моделью региона и маски локальных граней, от всех нод входящих в регион к бинаризованному региону. Также продемонстрирована попытка смоделировать то же распределение интенсивности, только одним распределением, и отношение ошибок показывает, на сколько точнее модель при помощи одного распределения чем при помощи двух распределений. Признаки Тамуры [27], отношение размера областей перехода к размеру региона и сам размер региона являются единственными признаками не основанными на ЕМ-модели. Полученный классификатор обучался на наборе данных ICDAR 2003.

Далее следует дополнительная обработка регионов и распознавание текста, но это выходит за рамки данной работы.

В самой работе приведены только результаты работы всей системы и не вполне ясно насколько хорошо работает выделение текста. Несмотря на это, в ней используются интересные признаки, которые можно использовать в дальнейшем.


    1. Каталог: data -> 2014
      2014 -> Особенности проведения маркетИнговых исследований для новых товаров
      2014 -> Программа исследования 28
      2014 -> Специализированный журнал автомобильной тематики: специфика аудитории, контента, продвижения на рынок
      2014 -> Федеральное государственное автономное образовательное
      2014 -> Программа «Управление образованием»
      2014 -> Приложения выберите пункт Электронная почта
      2014 -> Клиент-серверная система на основе беспроводной сети стандарта ieee 802. 15. 4
      2014 -> Растущая конкуренция в современном мире заставляет страны и регионы пересматривать их подход к экономическому развитию. Сегодня региональные власти ищут новые способы создания и развития инновационных компаний


      Поделитесь с Вашими друзьями:
1   2   3   4   5   6   7


База данных защищена авторским правом ©nethash.ru 2019
обратиться к администрации

войти | регистрация
    Главная страница


загрузить материал