Гринкруг Ефим Михайлович (должность, звание) подпись (Ф. И. О.) (Дата) Москва, 2014 г реферат



страница1/7
Дата20.11.2016
Размер1.22 Mb.
Просмотров1903
Скачиваний0
ТипРеферат
  1   2   3   4   5   6   7


Правительство Российской Федерации

Федеральное государственное автономное образовательное учреждение высшего профессионального образования

"Национальный исследовательский университет "Высшая школа экономики"

Отделение программной инженерии

Кафедра Управления разработкой программного обеспечения

УТВЕРЖДАЮ

Зав. кафедрой УРПО

________________ С.М. Авдошин

«__» _______________ 2014г.


ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА

по направлению 231000.62 Программная инженерия

подготовки бакалавра

На тему: «Программа обнаружения и выделения текста на изображениях»


Студента группы № 471ПИ Пахомова Ивана Романовича

подпись (Ф.И.О.)

________________

(Дата)


Научный руководитель

к.т.н., доцент Гринкруг Ефим Михайлович

(должность, звание) подпись (Ф.И.О.)

________________

(Дата)


Москва, 2014 г.

Реферат

Объем работы:



  • страниц – 42

  • глав – 4

  • иллюстраций - 8

  • приложений – 3

  • использованных источников – 29

Ключевые слова: обнаружение текста, выделение текста, классификатор, признаки классификации.

В данной работе затронута проблема обнаружения и выделения текста на изображениях. Цель работы – рассмотреть существующие подходы к решению данной проблемы, их плюсы и минусы, и на основе исследований разработать программу для обнаружения и выделения текста на изображениях. В ходе работы, была рассмотрена актуальность данной проблематики в современном мультимедиа мире, а так же представлен обзор прикладных областей, которых касается данная проблема. Далее, были изучены наиболее известные и распространенные подходы к решению задачи, представлены их достоинства и недостатки, а также предложен свой подход к решению данной проблемы, и, на этом базисе, была разработана программа обнаружения и выделения текста на изображениях.

Работа была представлена на ежегодной студенческой научно-практической конференции «Информационные технологии в экономике, управлении и бизнесе» проводимой Национальным исследовательским университетом «Высшая школа экономики» и была названа лучшей, в секции «Прикладная математика и информатика. Программная инженерия». Так же, статья на английском языке, по материалам данной работы, была представлена на международной ежегодной конференции «SYRCoSE Software Engineering Colloquium», проводимой Институтом системного программирования Российской академии наук и получила положительные отзывы рецензентов.

Данная работа может быть использована для исследовательских или научных целей, так как в ней затронут значительный научный пласт знаний рассматриваемой области, а так же изучены различные подходы к решению проблемы. В дальнейшем планируется совершенствовать результаты и использовать их в прикладных областях. Так, например, в перспективе, есть планы начать работу над выделением текста и слежением за ним в видеопотоке.


Оглавление


Реферат 3

Введение 5

1.Обзор источников 8

2.Выбор средств разработки 20

3.Разработка классификатора 24

4.Заключение и результаты 42

Список использованных источников 45




Введение


Распознавание текста на изображениях — это очень важная задача, имеющая множество практических приложений: индексирование фотографий и видео, мобильное распознавание текста, навигация роботов и многие другие.

Рисунок .1. Демонстрация работы приложения “Word Lens”.

Сегодня цифровая камера есть почти в каждом телефоне, смартфоне и планшете. На сервис хостинга видеозаписей YouTube, согласно их официальной статистике[29] ежесекундно загружается 72 часа видео, количество же фотографий в интернете и вовсе сложно сосчитать. Необходимо найти способ эффективно управлять этими мультимедиа ресурсами и анализировать их содержимое. Текст, содержащий высокоуровневую смысловую информацию, очень хорошо подходит для решения этой задачи. Например, текст на изображениях в интернете может соотноситься с содержимым веб страниц. Текст на обложках книг и журналов зачастую необходим для их индексации, так две книги с одинаковым оформлением, но разными заглавиями будут внешне неотличимы, если не известен текст на обложках. Заголовки новостей обычно содержат информацию о том где, когда и с кем произошло событие, описываемое в репортаже. Субтитры к спортивным видео могут содержать информацию о счете и спортсменах. Кроме того, в отличие от другой информации, которую можно получить из изображения, текст создается людьми, поэтому он может напрямую определять содержимое безо всяких вычислений.

Нас окружает очень большое количество текстовой информации, такой как таблички, знаки, вывески. К сожалению, не все и не всегда могут ей воспользоваться. Например, слабовидящим может быть полезно устройство, читающее для них вслух. И даже у здоровых людей при въезде в другую страну могут возникнуть проблемы из-за языкового барьера. Для последних создаются программы, которые могут переводить текст с фотографий на язык, указанный пользователем. Например, приложение Word Lens, пример работы которого приведен на рис. 1.1.

Навигация при помощи GPS или ГЛОНАСС достаточно удобна, но не всегда доступна. Внутри некоторых помещений, где нет сигнала от спутника, её использовать невозможно. А в случае, например, атомной бомбардировки воздух ионизируется, и радиосвязь перестает быть доступной. Поэтому роботам для полноценного ориентирования необходимо использовать визуальную информацию. Как уже было сказано ранее, текст может быть очень полезен. Номера домов, таблички на кабинетах, схемы, планы и маршрутные карты — все это может быть использовано, но только, если робот сможет распознать текст на них.

Помимо этого существует множество приложений, в которых необходимо автоматически распознавать текст на изображении: сканирование автомобильных номеров при автоматической фиксации нарушений или нанесение на карту различных организаций, используя панорамные снимки улиц.

А в некоторых случаях, выделение текста имеет значение само по себе. Например, момент появления заголовка в видеозаписи новостей может фиксировать начало нового сюжета, что может использоваться при автоматическом реферировании видео. Или, может быть, необходимо просто привлечь внимание пользователя к какому-то тексту.



Рисунок 1.. Архитектура интегрированной системы получения текстовой информации из изображений.

К. Юнг и соавторы в работе [15] дали определение интегрированной системы получения текстовой информации из изображений (рис. 1.2), состоящей из четырех этапов:





  1. Обнаружение. На этом этапе определяется, есть ли на изображении текст или нет.

  2. Локализация. На втором этапе определяется местоположение текста. Обычно результатом работы этого этапа является описывающий прямоугольник, в котором содержится текст.

  3. Извлечение. Выделенные текстовые области очищаются от всего постороннего, убирается фон. Текст группируется на слова и символы.

  4. Распознавание. На последнем этапе происходит непосредственно само преобразование графической информации в текст.

Из всех этапов обнаружение и локализация текста, наиболее критичны для общей производительности системы. Кроме того, эти два этапа можно рассматривать совместно. Ведь если текст обнаружен, то известно его местоположение.

В последние годы было предложено значительное количество методов для решения этих задач, но быстрое и точное выделение текста на фотографиях до сих пор остается достаточно сложной проблемой из-за большого разнообразия шрифтов, размеров, цветов, способов ориентирования в пространстве. Часто эту проблему усугубляют изменения освещения, сложный фон, препятствия, искажения изображения и потеря качества при сжатии.

В 2003, 2005 и 2011 годах в рамках конференции ICDAR были проведены соревнования на лучший алгоритм автоматического выделения и распознавания текста. Результаты, продемонстрированные там, ясно показывают, что проблема не решена до конца. Так результат победителя 2011 года [22], Кима Чугуун: полнота 62,47% и точность 82.98%.

Полнота и точность — величины характеризующие качество работы алгоритмов поиска и классификации. В рамках данной предметной области точность — отношение площади выделенных текстовых областей к общей площади выделенных областей. Полнота — отношение площади выделенных текстовых областей к общей площади текстовых областей.

В этой работе, была поставлена задача, исследовать некоторые из существующих на сегодняшний день методов обнаружения и выделения текста, и на их основе построить систему обнаружения и выделения текста на изображениях.


  1. Каталог: data -> 2014
    2014 -> Особенности проведения маркетИнговых исследований для новых товаров
    2014 -> Программа исследования 28
    2014 -> Специализированный журнал автомобильной тематики: специфика аудитории, контента, продвижения на рынок
    2014 -> Федеральное государственное автономное образовательное
    2014 -> Программа «Управление образованием»
    2014 -> Приложения выберите пункт Электронная почта
    2014 -> Клиент-серверная система на основе беспроводной сети стандарта ieee 802. 15. 4
    2014 -> Растущая конкуренция в современном мире заставляет страны и регионы пересматривать их подход к экономическому развитию. Сегодня региональные власти ищут новые способы создания и развития инновационных компаний


    Поделитесь с Вашими друзьями:
  1   2   3   4   5   6   7


База данных защищена авторским правом ©nethash.ru 2019
обратиться к администрации

войти | регистрация
    Главная страница


загрузить материал