Разработка геоинформационных систем на основе использования разнородной пространственно-распределенной информации в интересах управления территориями



Скачать 13.16 Mb.
Pdf просмотр
страница1/7
Дата30.12.2016
Размер13.16 Mb.
Просмотров1347
Скачиваний0
  1   2   3   4   5   6   7

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ
ВЫСШЕГО ОБРАЗОВАНИЯ
«РОССИЙСКИЙ ГОСУДАРСТВЕННЫЙ ГИДРОМЕТЕОРОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ»
На правах рукописи

Степанов Сергей Юрьевич


Разработка геоинформационных систем на основе использования разнородной пространственно-распределенной информации в интересах управления территориями

Специальность 25.00.35 - Геоинформатика

Диссертация на соискание учёной степени кандидата технических наук

Научный руководитель: доктор технических наук, профессор Е.П. Истомин
Научный консультант: кандидат географических наук,
А.А. Фокичева


Санкт-Петербург – 2016


2
ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ ............................................................................................................................................. 3 1. Модели и системы обработки разнородных данных .................................................................... 10 1.1. Теоретические аспекты технологий обработки распределенных разнородных данных ....... 10 1.2. Современные программные инструменты для доступа к обработке баз данных ................... 19 1.3. Анализ моделей и разрабатываемых систем обработки разнородных данных ...................... 28 2. Разработка модели обработки разнородных данных для решения прикладных задач ............. 47 2.1. Формирование требований к обработки разнородных данных ................................................ 47 2.2. Усовершенствование модели обработки разнородных данных ............................................... 54 2.3. Методика проектирования геоинформационной системы поддержки принятия решений на основе модели обработки разнородных данных ............................................................................... 64 3. Применение модели обработки разнородных данных в задачах специализированного метеорологического обеспечения ....................................................................................................... 78 3.1 Модель выбора оптимального управленческого решения в теплоэнергетическом секторе на основе использования метеорологической информации ................................................................. 78 3.1.1. Матрица сопряженности метеорологических прогнозов ....................................................... 81 3.1.2. Разработка функции потерь для теплоэнергетики Санкт-Петербурга .................................. 85 3.1.3. Оценка экономической полезности прогнозов температуры воздуха для теплоэнергетики96 3.2 Разработка геоинформационной системы поддержки принятия управленческих решений 100 3.2.1 Формирование базы разнородных метеорологических данных по территории Санкт-
Петербурга .......................................................................................................................................... 100 3.2.2 Разработка архитектуры геоинформационной системы с использованием разнородных метеорологических данных ............................................................................................................... 108
ЗАКЛЮЧЕНИЕ .................................................................................................................................. 117
Список сокращений и условных обозначений. ............................................................................... 118
СПИСОК ЛИТЕРАТУРЫ .................................................................................................................. 119
ПРИЛОЖЕНИЕ .................................................................................................................................. 128



3
ВВЕДЕНИЕ
Актуальность исследования. Одной из тенденций последнего десятилетия в исследованиях стал комплексный подход к обработке данных: совместное использование данных различных инструментов, в том числе различных источников данных. Поскольку каждый из них может обладать как преимуществами, так и ограничениями в применении, которые имеют различную природу, объединение данных представляет собой бесспорный выигрыш в сравнении с раздельной обработкой, за счет расширения объема получаемой информации благодаря как взаимодополняемости, так и взаимозаменяемости.
Объединение данных различного происхождения для последующих совместного анализа содержат разнородные данные, представляемые различными форматами, структурами и реализуемыми на разнотипных платформах.
Главной задачей технологии слияния разнородных данных является решение содержательных задач: принятие решений, классификация, определение состояния объектов, оценка ситуации и т.д. Среди собственных задач, связанных с объединением данных, наиболее значимыми являются:

создания и развития метамоделей распределенных источников данных;

создания и развития моделей объединения решении;

построения и упорядочивания архитектуры данных.
Управление данными на современном предприятии характеризуется наличием большого количества разнородных источников данных, не связанных едиными механизмами управления, в том числе и слабоструктурированных или неструктурированных данных. Раздельно существуют системы оперативного управления данными, системы управления документами, а также системы аналитической обработки. Различные задачи требуют использования различных моделей представления данных [16].
В современных условиях все отрасли экономики испытывают возрастающую потребность в метеорологической информации. Особую актуальность приобретает разработка путей экономически выгодного применения гидрометеорологической информации в технологических процессах отраслей экономики.
В современных условиях быстро развивается техника, совершенствуется структура всех отраслей производства, и вместе с этим растут запросы к службе погоды в объективной прогностической информации. Особое значение приобретают прогнозы для таких отраслей, как энергетика, сельское хозяйство, строительство, всех видов транспорта. Региональные


4 разработки экономико-метеорологических моделей позволяют оптимально реализовать информацию о погоде в хозяйственной практике.
Разработка и внедрение экономико-метеорологических моделей, позволяющих включить метеорологическую информацию в процесс принятия управленческих решений, позволяют эффективно реализовывать информацию о погоде в различных областях хозяйственной деятельности и значительно снизить издержки, обусловленные неблагоприятным влиянием погодных условий. Важнейшей проблемой, решению которой в значительной степени посвящена данная работа, является разработка методических подходов к поддержке принятия решений с использованием разнородной метеорологической информации. В этом состоит актуальность данной работы, что диктуется необходимостью применения современных программных решений к использованию гидрометеорологической информации в различных сферах производственной деятельности.
На этом фоне ставится задача интеграции разнородных данных, эффективное решение которой требует создания модели обработки данных. Данная модель рассматривается как основа для реализации системы, поддерживающей оперативное управление разнородными данными и их аналитическую обработку [12, 25].
Степень разработанности проблемы. В процессе исследования были изучены труды отечественных и зарубежных ученых по рассматриваемой проблеме, таких как Акальцов В.П.,
Фуфаев Э.В., Духин С.В., Кошкарев А.В., Берлянт А.М, Бескид П.П., Бурковский В.Л.,
Дорофеев А.Н., Истомин Е.П., Хандожко Л.А. и других.
Проанализированы результаты научных исследований, нормативно-правовые документы, связанные с управлением территорий, развитием регионов и проблемами использования больших массивов данных в задачах оптимизации и принятия управленческих решений.
Проблема интеграции пространственных данных в различных форматах в России изучена недостаточно. Не в полной мере разработаны технологии и методы обработки геоинформации на основе распределенных, разнородных баз данных. Таким образом, необходимость совершенствования механизмов работы с распределенными геоданными различных форматов определяет объект и предмет, цель и задачи диссертации.
Объектом
исследования являются геоинформационные системы обработки пространственно-распределенной разнородной информации.
Предмет исследования: технология использования пространственно-распределенной разнородной информации в геоинформационных системах.


5
Цель диссертационной работы: автоматизация процесса обработки разнородной пространственно-распределенной информации для обеспечения принятия решения по управлению территорией с использованием гидрометеорологической информации.
Реализация поставленной цели исследования предопределяет постановку следующих
задач:
1.
Модифицировать модель обработки и управления разнородной геопространственной информацией;
2.
Усовершенствовать методику проектирования геоинформационной системы с использованием модели обработки разнородной геопространственной информацией;
3.
Разработать модель управления данными в геоинформационной системе на примере регулирования отпуска тепла в зависимости от температуры окружающей среды.
4.
Верификация информационной системы для принятия управленческого решения, на основе использования разнородных геоданных;
Теоретические и методические основы исследования. Теоретической основой исследования являются труды отечественных и зарубежных ученых в области анализа механизмов доступа к разнородным данным, проблематика использования пространственных геоданных в различных геосистемах, аналитические обзоры, нормативно-правовые документы, связанные с методикой построения информационных систем. Методической основой исследования является обобщение и анализ существующего опыта создания распределенных информационных и геоинформационных систем с разнородными данными, системный анализ, концептуальное и математическое геомоделирование.
Обоснованность и достоверность результатов исследования, выводов и рекомендаций обеспечивается:

использованием для достижения цели работы нормативных документов, программ, документов федеральных и региональных органов власти, касающихся методики построения информационных систем;

внутренней непротиворечивостью результатов исследования и их соответствием теоретическим положениям фундаментальных исследований в области технологий сбора, регистрации, хранения, передачи и обработки геоинформации с использованием вычислительной техники, телекоммуникационных систем распространения пространственно-временной геоинформации, технологий хранения и использования геоинформации на основе распределенных баз данных и знаний;


6

применением принципов системного анализа и концептуального моделирования, аналитических исследований, математического моделирования и других современных научных методов;

апробацией результатов исследования на научно-практических конференциях и отражением основных результатов диссертации в открытой печати.
При решении поставленных в работе задач получены следующие результаты, выносимые на
защиту:
1.
Модель обработки и управления разнородной геопространственной информацией;
2.
Методика проектирования геоинформационной системы с использованием модели обработки разнородной геопространственной информацией, модифицированная с учетом требований к системе поддержки принятия решений;
3.
Модель управления данными в геоинформационной системе (на примере задачи регулирования отпуска тепла в зависимости от температуры окружающей среды).
4.
Информационная система поддержки принятия решений на основе модели управления разнородными геоданными применительно к задачам управления территориями.
Научная новизна.
Автором проведен широкий анализ механизмов, моделей и систем обработки распределенной пространственной информации с использованием информационных технологий и определено, что ни один представленный инструмент не может полностью удовлетворить требованиям обработки разнородных данных при создании геоинформационных систем.
Построена модель обработки и управления разнородной геопространственной информацией, основанная на технологиях доступа к данным, представлена схема потоков информации и описан механизм эффективного управления данными. Приведен алгоритм модуля обработки данных, который позволяет получить доступ к любым источникам информации, необходимым для принятия управленческого решения.
Усовершенствована методика проектирования геоинформационной системы с использованием модели обработки разнородной геопространственной информации, с учетом требований к системе поддержки принятия решений. Автором были предложены требования к создаваемой системе управления данными.
Впервые применена модель управления разноформатными пространственными данными в геоинформационной системе на примере задачи регулирования отпуска тепла в зависимости от температуры окружающей среды. Модель применена в новом качестве, её результат может


7 стать новым видом информационного продукта, который учитывает неопределенность реализации текста прогноза и позволяет оптимизировать управление ресурсами.
Представлена информационная система поддержки принятия решений с использованием разнородных геопространственных метеорологических данных для оптимизации процесса управления теплоисточниками в интересах управления территориями. Модель предложенная для верификации ГИС впервые применяется в исследуемых системах.
Практическая и научная значимость работы заключается в том, что решена научно- техническая задача, имеющая существенное значение для моделирования геоинформационных систем и системного анализа разнородной информации, а так же для принятия решений по управлению территориями; исследованы технологии и способы обработки разнородной информации; определена возможность совершенствования технологий хранения и использования геоинформации на основе распределенных разнородных баз данных по средствам применения новых методик и моделей построения ГИС, что соответствует п.п. 7, 9 области исследования паспорта специальности 25.00.35 «Геоинформатика». Предложенные автором разработки могут быть использованы при создании специализированных систем, использующих разнородные пространственные данные. В работе выделены основные этапы проектирования геоинформационных систем с учетом обработки разнородных данных.
Основные выводы и положения диссертационного исследования были использованы в научно- исследовательских работах и учебном процессе.
Практическая ценность работы заключается в повышении эффективности управления разнородными данными за счет улучшения методов интеграции данных в геоинформационных системах.
Практическое значение результатов, разработанные в работе модели и созданные на их основе программные средства, дадут возможность усовершенствовать процесс обработки пространственных разнородных данных.
Личный вклад автора. Автор принимал непосредственное участие в подготовке и обработке исходных материалов, анализе и обобщении полученных результатов.
Апробация работы.
1.
Международная конференция
«Региональная информатика
(РИ-2012)», секция
«информационные технологии в гидрометрии» (24-26 октября 2012г.), доклад по теме:
«Создание и размещение геопространственной информации исполнительных органов государственной власти в региональной геоинформационной системе Санкт-Петербурга
(РГИС)».


8 2.
Международная научно-практическая конференция
«Инфогео
2013», секция
«геоинформационные системы» (26-28 ноября 2013г.), публикация по теме: «Анализ статистических данных космических измерений с приполярной территории для разработки стохастической модели оценки георисков».
3.
Международная научно-практическая конференция
«Инфогео
2014», секция
«геоинформационные системы» (3-6 октября 2014г.), доклад с публикацией по теме: «Обзор технологических методов доступа к базам данных распределенных ГИС».
4.
Международная научно-практическая конференция
“Инфогео
2015”, секция
“геоинформационные системы” (24-26 ноября 2015 г.), публикации по темам:
«Разработка модели доступа и технологий обработки гетерогенных баз данных для использования в прикладных ГИС», «Технический анализ механизмов доступа к гетерогенным данным для использования в прикладных ГИС», «Реализация модели подготовки гетерогенных данных в автоматизированной системе».
5.
Свидетельство о регистрации базы данных «SeaIce version 1.0» №19868, дата регистрации
10.01.2014 года.
6.
Свидетельство о регистрации базы данных «Ice_Concentration» №2014621110, дата государственной регистрации в реестре баз данных 07.08.2014 года.
7.
Свидетельство о регистрации базы данных «База данных метеорологических параметров»
№2016620986, дата государственной регистрации в реестре баз данных 20.07.2016 года.
8.
НИР №1223 «Разработка и развитие методов, моделей и систем геоинформационного управления пространственно-распределенными объектами», 2013 год.
9.
НИР №74.20.56 «Разработка методических основ геоинформационного управления рисками развития рекреационных приморских территорий», 2014 год.
Структура и объем диссертации. Диссертация состоит из введения, трех глав, заключения, списка использованной литературы, списка сокращений и условных обозначений, приложений. Объем работы составляет 137 листов, в том числе 43 рисунка, 12 таблиц и 8 приложений. Библиография диссертационной работы составляет 98 наименований.
Во введении раскрывается актуальность решения научной задачи, сформулированы объект, предмет, цели и задачи исследований, показана теоретическая и практическая значимость работы, приведено краткое содержание работы по разделам, и перечислены основные научные результаты, выносимые на защиту.
В первой главе «Модели и системы обработки разнородных данных» приводятся результаты анализа современных механизмов доступа к данным, заключающихся в определении нехватки простого метода работы с разноформатными данными. Рассмотрены


9 основные проблемы при обработке пространственных данных. Проведен анализ разрабатываемых прикладных геоинформационных систем, результатом которого стали обоснования к модернизации модели обработки разнородных данных.
Во второй главе «Разработка модели обработки разнородных данных для решения прикладных задач» на основе изучения существующих систем предложены инструментальные средства обработки разнородных данных, способная улучшить работу по использованию пространственной информации, учитывающая разноформатность и распределенность предоставленных данных. Модифицирована методика проектирования геоинформационной системы поддержки принятия решений на основе модели обработки разнородных данных.
В третьей главе «Применение модели обработки разнородных данных в задачах специализированного метеорологического обеспечения» применяется модель управления разнородными данными в информационной системе на примере регулирования отпуска тепла в зависимости от температуры окружающей среды. Приводятся результаты моделирования информационной системы поддержки принятия решений, подтверждающие возможность реализации модели обработки разнородных пространственных данных.
В заключении сформулированы выводы и предложения, вытекающие из результатов исследования, определены направления дальнейших исследований.


10 1. Модели и системы обработки разнородных данных
В современном мире с вхождением в век информатизации человечеству стало доступно чрезмерно огромное количество информации. Большие массивы данных используются ежедневно в различных целях, будь то наука, исследование, любительское познание, поиск информации, развлечение, работа, хобби и многое другое. Обработка информации предоставляет человечеству возможность быстрого доступа к многочисленным данным. В свою очередь мало кто задумывается, где на самом деле хранятся предоставляемые данные. Самое главное для потребителя, что не зависимо от места своего расположения, информацию возможно получить.
Рассмотрев процесс получения информации с технической стороны, можно сделать вывод, что пользователи собирают необходимую информацию из различных источников. Так как информация может быть представлена в различном виде, для получения конкретных результатов её необходимо самостоятельно обработать, по заданному критерию поиска информации. Такая обработка информации из различных источников носит массовый характер в информационном обществе [36].
Развитие информационных технологий повлекло за собой тенденцию разработки таких информационных систем, которые способны предоставить информацию пользователю по его запросу из различных источников, не зависимо от их места расположения.

1.1. Теоретические аспекты технологий обработки распределенных разнородных данных

Эффективное решение комплексных задач управления и развития территорий, невозможно без обработки и анализа всего массива информации об объекте исследования.
Принятие решений требует наличие актуальной и максимально разнородной информации: документы, фотоснимки, базы данных, спутниковые данные, картографическая информацию и другие различные источники [69].
В контексте разработки информационной системы разнородными данными в первую очередь считаются источники, требующие различных технических способов доступа к данным.
Основными факторами разнородности данных и их источников являются:
1.
Различные типы данных (логический, целый, вещественный, объектный и др.);
2.
Различная природа данных (числовые массивы, тексты, видеоданные);


11 3.
Различные типы (модели) баз данных (БД) - реляционные, иерархические, объектно- ориентированные, сетевые, многомерные и т.п.;
4.
Различные форматы представления данных;
5.
Различия в степени распределенности систем хранения данных;
6.
Различной природы данных (например, тексты, изображения, сигналы);
7.
Различная степень достоверности и точности данных, измеряемых в различных масштабах и единицах измерения;
8.
Различная степень и форма структурированности данных и т.п.
Интеграция разнородных данных в единую информационную среду обеспечивает возможность их комплексного анализа и позволяет получить качественно новые знания об объекте исследования. Такая информационная среда может объединять, следующие типы информационных ресурсов:
1.
Геоинформационные ресурсы (картографические материалы, спутниковые снимки, данные наблюдении и т. п.), а также соответствующие базы метаданных;
2.
Библиографические базы данных и электронные каталоги;
3.
Полнотекстовые базы данных и электронные библиотеки;
4.
Базы метаданных по различным цифровым архивам;
5.
Другие ресурсы (аудио и видео данные, электронные презентации и др.), снабженные стандартизованными метаданными.
Безусловно, основным проблемным фактором, в процессе интеграции информации, является гетерогенность данных [17, 28, 41]. Выделяют следующие основные виды гетерогенности: синтаксическая, схематическая или структурная и семантическая.
1.
Синтаксическая гетерогенность, которая обусловлена различными типами данных, форматами их сохранения, допустимыми значениями, единицами измерения и т. п.;
2.
Схематическая, или структурная гетерогенность, которая обусловлена различными моделями данных, использованными при моделировании объектов реального мира
(векторная, растровая, реляционная, объектная и т. п.);
3.
Семантическая гетерогенность, которая проявляется в виде несоответствий в способах отображения одних и тех же объектов в компьютерной среде. Этот вид гетерогенности включает в себя:
3.1.
Концептуальную (когнитивную) гетерогенность, обусловленную тем, что разные люди при моделировании определенного явления создают собственное представление
(абстракцию);


12 3.2.
Формализационную гетерогенность, которая является результатом использования различных языков (языковая гетерогенность) и терминов (репрезентационная гетерогенность) при формировании концепций;
3.3.
Контекстную гетерогенность, которая относится к изменению смысла концептуальных построений под влиянием различных условий и обстоятельств.
Такое разнообразие видов гетерогенности создает значимые проблемы для интеграции данных. Следует отметить, что проблема интеграции данных, как реальной, так и виртуальной, находящихся под управлением различных СУБД, изучается в мире уже давно. В этом направлении разработаны и успешно реализованы многие модели и технологии. Еще в 80-х гг. прошлого века был разработан и документирован стандарт ANSI Z39.50 (Information Retrieval
(Z39.50): Application Service Definition and Protocol Specification), последняя ревизия которого вышла в 2003 г. Позднее ANSI-стандарт был утвержден как стандарт ISO-23950. Спецификации этого стандарта включают описание механизмов, структур и процедур доступа к базам данным безотносительно к их физической и логической реализации. Позднее идеология Z39.50 была перенесена на идеологию Web-сервисов и архитектуру SOA. Это привело к созданию протокола SOAP/SRW и SRU, которые упрощали разработку конечных приложений, так как использовали технологии HTTP/XML (вместо ASN.1/BER), сохраняя общие принципы Z39.50 по абстрагированию от структур конечных СУБД и предоставляя универсальный способ доступа к данным для поиска и извлечения информации. Именно эти технологии сегодня используются во всем мире для интеграции данных из различных СУБД при построении действительно универсальных систем. На сегодняшний день в мире не существует технологии отличной от технологии Z39.50 и SRW/SRU, которые бы, с одной стороны, обладали требуемым потенциалом для интеграции данных различных СУБД и, с другой стороны, имели серьезную базу промышленной эксплуатации реальных информационных систем.
Большинство существующих прикладных программ обработки гетерогенных данных направлены на конкретные целевые установки, они имеют прямой доступ к распределенной информации ряда определенных продуктов, информационных систем и баз данных, к которым налажено соединение. Тем самым актуальность данных напрямую зависит от частоты обновления информации подключаемых систем. В наличии у такого информационной системы может быть большое количество одновременных соединений, достаточного для решения конкретных задач.
Такие системы и их аналоги в первую очередь ориентированы на автоматизацию процесса сбора информации из различных источников - это касается поиска информации, так и слежения за поступлением новых данных и их последующего ввода в хранилище информации.


13
Второй составляющей и наиболее значимой является процесс объединения разнородных данных для дальнейшей обработки. На сегодняшний день именно процессу объединения гетерогенных данных уделяется пристальное внимание.
Формат представления данных является основой для формирования хранилища и процесса обработки. В настоящее время интерес к работе с неоднородными данными возрастает. В практическом плане увеличивается число комплексных программно-аппаратных решений. В центре внимания находится решение различных ситуативных прикладных задач.
Важными сферами применения разнородных данных могут служить:
1.
Сбор гетерогенных данных для обнаружения вторжений в компьютерные сети;
2.
Анализ и прогнозирование возникновения и динамики развития естественных природных и искусственных техногенных катастроф;
3.
Систем анализа биржевых котировок, выявление несогласованности данных, поступающих от разных дилинговых центров;
4.
Консолидация и анализ данных, поступающих с систем видеонаблюдения и телеметрии;
5.
Военные разработки и системы двойного назначения, например, слияние и обработка данных для нейронной сети, получающей информацию от этих различных датчиков и позволяющей делать выводы о присутствии и идентификации биологических объектов;
6.
Навигационные робототехнические системы, например, обработка информации о расстоянии от объектов вокруг робота и форм поверхностей объектов окружающей среды; объединяя эти данные, робот может получить детализированную информацию о среде погружения и принять оптимальное решение о перемещении в ней;
7.
Информационная система «Умный дом», как средство обеспечения безопасности, экономии и комфорта; консолидируются и обрабатываются данные от звуковых датчиков, видеокамер, ультразвуковых датчиков, температурных датчиков, датчиков дыма, вибрационных и инфракрасных датчиков.
Благодаря новейшим сетевым технологиям и развитию коммуникаций, становится возможной реализация территориального распределения данных.
Одной из важнейших сетевых технологий является распределенная обработка данных.
Персональные компьютеры стоят на рабочих местах, т.е. на местах возникновения и использования информации. Они соединены каналами связи. Это дало возможность распределить их ресурсы по отдельным функциональным сферам деятельности и изменить технологию обработки данных в направлении децентрализации. Распределенная обработка данных позволила повысить эффективность удовлетворения изменяющейся информационной


14 потребности информационного работника и тем самым обеспечить гибкость принимаемых им решений.
Преимущества распределенной обработки данных:
1.
Большое число взаимодействующих пользователей, выполняющих функции сбора, регистрации, хранения, передачи и выдачи информации;
2.
Снятие пиковых нагрузок с централизованной базы путем распределения обработки и хранения локальных баз данных на разных ЭВМ;
3.
Обеспечение доступа информационному работнику к вычислительным ресурсам сети
ЭВМ;
4.
Обеспечение симметричного обмена данными между удаленными пользователями.
Формализация концептуальной схемы данных повлекла за собой возможность к классификации моделей представления данных на иерархические, сетевые и реляционные. Это отразилось в понятии архитектуры систем управления базами данных и технологии обработки.
Архитектура СУБД описывает ее функционирование как взаимодействие процессов двух типов клиента и сервера.
Распределенная обработка и распределенная база данных не является синонимами. Если при распределенной обработке производится работа с базой, то подразумевается, что представление данных, их содержательная обработка, работа с базой на логическом уровне выполняются на персональном компьютере клиента, а поддержание базы в актуальном состоянии – на файл-сервере. Если речь идет о распределенной базе данных, она размещается на нескольких серверах. Работа с ней осуществляется на тех же персональных компьютерах или на других, и для доступа к удаленным данным надо использовать сетевую СУБД [33, 43].
В системе распределенной обработки клиент может послать запрос к собственной локальной базе или удаленной. Удаленный запрос – это единичный запрос к одному серверу.
Несколько удаленных запросов к одному серверу объединяются в удаленную транзакцию. Если отдельные запросы транзакции обрабатываются различными серверами, то транзакция называется распределенной. При этом один запрос транзакции обрабатывается одним сервером.
Распределенная СУБД позволяет обрабатывать один запрос несколькими серверами. Такой запрос называется распределенным. Только обработка распределенного запроса поддерживает концепцию распределенной базы данных.
В настоящее время созданы базы данных по всем направлениям человеческой деятельности: финансовой, экономической, научно-технической, электронной документации, кредитной, статистической, маркетинга, газетных сообщений, правительственных


15 распоряжений, патентной информации, библиографической и т.д. При этом базы делятся на коммерческие и общественные.
Организация обработки данных зависит от способа распределения. Существуют следующие методы распределения: централизованный, расчлененный, дублирования, смешанный.
Централизованный, или метод извлечения данных вручную, является самым простым для реализации способом. На одном сервере находится единственная копия базы данных. Все операции с базой данных обеспечиваются этим сервером. Доступ к данным выполняется с помощью удаленного запроса или удаленной транзакции. Достоинством такого способа является легкая поддержка базы данных в актуальном состоянии. Недостатком является то, что размер базы ограничен размером внешней памяти, все запросы направляются к единственному серверу с соответствующими затратами на стоимость связи и временную задержку. Отсюда – ограничение на параллельную обработку. База может быть недоступной для удаленных пользователей при появлении ошибок связи и полностью выходит из строя при отказе центрального сервера.
При распределении данных на основе расчленения база данных размещается на нескольких серверах. Существование копий отдельных частей недопустимо. Достоинства: увеличивается объем базы данных; большинство запросов удовлетворяется локальными базами; что сокращает время ответа; увеличивается доступность и надежность; стоимость запросов на выборку и обновление снижается по сравнению с централизованным распределением: если выйдет из строя один сервер, система останется частично работоспособной. Недостатки: часть удаленных запросов или транзакций могут потребовать доступ ко всем серверам, что увеличивает время ожидания и цену; необходимо иметь сведения о размещении данных в БД.
Однако доступность и надежность увеличиваются. Расчлененные базы данных наиболее подходят к случаю совместного использования локальных и глобальных сетей ЭВМ.
При использовании метода дублирования в каждом сервере сети ЭВМ размещается полная база данных. Этот метод дает наиболее надежный способ хранения данных. Недостатки: повышенные требования к объему внешней памяти; усложнение корректировки баз, т.к. требуется синхронизация с целью согласования копий. Достоинства: все запросы выполняются локально, что обеспечивает быстрый доступ. Данный метод используется, когда фактор надежности является критическим, база и интенсивность обновления небольшими.
В методе смешанного распределения объединены два способа распределения данных: дублирование и расчленение. При этом приобретены как преимущества, так и недостатки обоих способов. Появилась необходимость хранить информацию о том, где находятся данные в сети.


16
Главное преимущество – гибкость этой системы, так как можно установить компромисс между объемом памяти под базу в целом и под базу в каждом сервере, чтобы обеспечить надежность и эффективность работы. В этой стратегии легко реализуется параллельная обработка, т.е. обслуживание распределенного запроса или транзакции. Недостатки: остается проблема взаимозависимости факторов, влияющих на производительность системы, ее надежность, повышаются требования к памяти. Смешанную стратегию используют при наличии сетевой
СУБД, которая обеспечивает реализацию распределенной базы данных. Первые три метода поддерживают распределенную обработку данных.
В базах данных коллективного пользования центральным технологическим звеном становятся серверы баз данных. Программные средства серверов баз данных обеспечивают реализацию многопользовательских систем, централизованное хранение, поиск и обработку, целостность и безопасность данных. Производительность серверов баз данных на порядок выше производительности файл-серверов. В отличие от файл-сервера сервер базы данных содержит и базу и систему управления данными [20, 26].
Сетевые СУБД, основанные на файл-сервере, в настоящее время недостаточно мощны. В нагруженной сети неизбежно падает производительность, нарушается безопасность и целостность данных. Проблема производительности возникла потому, что файл-серверы реализуют принцип «все или ничего». Полные копии файлов базы перемещаются взад-вперед по сети. Проблемы с безопасностью, целостностью возникли из-за того, что с самого начала файл-серверы не были сконструированы с учетом целостности данных и их восстановления в случае аварии.
Технология «клиент-сервер», заменившая технологию «файл-сервер», является более мощной, так как позволила совместить достоинства однопользовательских систем (высокий уровень диалоговой поддержки, дружественный интерфейс, низкая цена) с достоинствами более крупных компьютерных систем (поддержка целостности, защита данных, многозадачность). Она за счет распределения обработки сообщения между многими ПК повышает производительность, позволяет пользователям электронной почты распределять работу над документами, обеспечивает доступ к более совершенным доскам объявлений и конференциям.
В классическом понимании СУБД представляет собой набор программ, позволяющих создавать и поддерживать базу данных в актуальном состоянии.
Наиболее популярные настольные СУБД - dBase, Paradox, FoxPro, Access, MSDE, а также наиболее популярные серверные СУБД - Oracle, Informix, DB2, Sybase, Microsoft SQL
Server.


17
При выборе СУБД необходимо иметь представление, с помощью каких средств разработки будет создаваться информационная система на основе данной СУБД, а также о том, каким образом разработанные приложения будут манипулировать данными. От того, правильно ли выбран механизм доступа к данным, зависит очень многое, в частности производительность приложений, возможность применения тех или иных функциональных особенностей данной
СУБД, простота разработки пользовательского интерфейса и ряд других факторов.
В большинстве систем проектирования баз данных приложения основываются на одном типе баз данных. В таких простых схемах разработчик приложения может программировать напрямую, используя системный интерфейс базы данных. Хотя подобный подход обеспечивает быстрый и эффективный доступ к данным, могут возникать проблемы, когда задача расширяется, и разработчику приходится дорабатывать программу. При данном подходе это означает, что каждая готовая программа должна иметь различные версии с поддержкой всевозможных типов баз данных. Если компании расширяются или объединяются одна с другой, приложение должно получить доступ к базам данных, основанным на различных платформах.
С функциональной точки зрения СУБД состоит из трех частей: ядра базы данных, языка и инструментальных средств программирования.
Инструментальные средства программирования относятся к интерфейсу клиента, или внешнему интерфейсу. Они могут включать процессор обработки данных на языке запросов.
Наиболее употребительными языками являются SQL и QBE [51, 57].
Основная идея технологии «клиент-сервер» заключается в том, чтобы расположить серверы на мощных машинах, а приложения клиентов, использующих язык инструментальных средств, – на менее мощных машинах. Тем самым будут задействованы ресурсы более мощного сервера и менее мощных машин клиентов. Ввод-вывод к базе основан не на физическом дроблении данных, а на логическом, т.е. клиентам отправляется не полная копия базы, а сервер посылает только логически необходимые порции, тем самым сокращая трафик сети. Трафик
сети – это поток сообщений сети. В технологии «клиент-сервер» программы клиента и его запросы хранятся отдельно от СУБД. Сервер обрабатывает запросы клиентов, выбирает необходимые данные из базы данных, посылает их клиентам по сети, производит обновление информации, обеспечивает целостность и сохранность данных.
Рассмотрим основные виды технологии распределенной обработки данных:
1.
Технология «клиент-сервер», ориентированная на автономный компьютер, т.е. и клиент, и сервер размещены на одной ЭВМ. По функциональным возможностям такая система


18 аналогична централизованной СУБД. Ни распределенная обработка, ни распределенная обработка CУБД не поддерживаются;
2.
Технология «клиент-сервер», ориентированная на централизованное распределение.
Клиент получает доступ к данным одиночного удаленного сервера. Данные могут только считываться. Динамический доступ к данным реализуется посредством удаленных транзакций и запросов. Их число должно быть невелико, чтобы снизилась производительность системы;
3.
Технология «клиент-сервер», ориентированная на локальную вычислительную сеть.
Единственный сервер обеспечивает доступ к базе. Клиент формирует процесс, отвечающий за содержательную обработку данных, их представление и логический доступ к базе. Доступ к базе данных замедлен, так как клиент и сервер связаны через локальную сеть;
4.
Технология «клиент-сервер», ориентированная на изменения данных в одном месте.
Реализуется обработка распределенной транзакции. Удаленные серверы не связаны между собой сетью ЭВМ, т.е. отсутствует сервер-координатор. Клиент может изменять данные только в своей локальной базе. Возникает опасность «смертельных объятий», т.е. такой ситуации, когда задача А ждет записи, заблокированные задачей В, а задача В ждет записи, заблокированные задачей А. Поэтому распределенная СУБД должна иметь средство контроля совпадений противоречивых запросов. Распределение данных реализует метод расчленения;
5.
Технология «клиент-сервер», ориентированная на изменение данных в нескольких местах. В отличие от предыдущей технологии здесь имеется сервер координатор, поддерживающий протокол передачи данных между различными серверами. Возможна обработка распределенных транзакций в разных удаленных серверах. Это создает предпосылки разработки распределенной СУБД. Реализуется стратегия смешанного распределения путем передачи копий с помощью сетевой СУБД.
6.
Технология «клиент-сервер», ориентированная на сетевую СУБД. Обеспечивает стратегию расчленения и дублирования. Позволяет получить более быстрый доступ к данным. Распределенная СУБД обеспечивает независимость клиента от места размещения сервера, глобальную оптимизацию, распределенный контроль целостности базы, распределенное административное управление.
Во всех технологиях существует два способа связи прикладных программ клиента и сервера баз данных прямой и непрямой.


19
При прямом соединении прикладная программа клиента связывается непосредственно с сервером базы данных, а при непрямом – доступ к удаленному серверу обеспечивается средствами локальной базы. Возможно объединение обоих способов.
Использование технологии «клиент-сервер» позволяет перенести часть работы с сервера баз данных на ЭВМ клиента, оснащенную инструментальными средствами для выполнения его профессиональных обязанностей. Тем самым технология позволяет независимо наращивать возможности сервера баз данных и инструментальные средства клиента. Недостаток технологии «клиент-сервер» состоит в повышении требований к производительности ЭВМ- сервера, в усложнении управления вычислительной сетью, кроме того, при отсутствии сетевой
СУБД трудно организовать распределенную обработку [13, 24].
Под платформой сервера баз данных понимают возможности операционной системы компьютера и сетевой операционной системы (ОС). Каждый сервер баз данных может работать на определенном типе компьютера и сетевой ОС. ОС серверов – это DOS версии выше 5.0,
Xenix, Unix, WindowsNT, OS/2 и др. В настоящее время наиболее употребительными являются около десяти серверов. Наиболее популярными из них являются MicrosoftSQL-server, Sqlbase- server, Oracle-server и др. По экспертным оценкам серверам баз данных принадлежит будущее.
Серверы баз данных рассчитаны на поддержку большого числа различных типов приложений, для реализации интерфейса с сервером базы данных можно использовать объектно-ориентированные средства, электронные таблицы, текстовые процессоры, графические пакеты, настольные издательства и др. информационные технологии.

1.2. Современные программные инструменты для доступа к обработке баз данных
Одной из актуальных проблем при использовании прикладных геосистем для доступа к разнородным массивам данных является оптимизация технологий доступа, хранения и обработки. В настоящее время большое внимание уделено именно процессу предоставления доступа к разнородным данным. Многие научные институты предлагают свои пути решения возникшей проблемы. Исследование показало, что разработанные новые модели в большей части нацелены на решение конкретных прикладных задач, поэтому в центре внимания все равно остается проблема усовершенствования и создания новой технологии доступа к данным
[1]. Основной задачей разработки нового механизма доступа является объединение данных из разных источников в интересах решения последующих содержательных задач: принятие


20 управленческих решений, классификация гетерогенных данных, определение состояния объектов, оценка ситуации и т.д.
Интеграция гетерогенных данных в единую информационную среду обеспечивает возможность их комплексного анализа и позволяет получить качественно новые знания об объекте исследования. Источники информации содержат разнородные данные, представляемые различными форматами, структурами, реализуемыми на разнотипных платформах [2].
Основными факторами разнородности данных и их источников являются:
1.
Различные типы данных (целый, вещественный, логический и др.);
2.
Различная природа данных (текст, медиа данные, числовые массивы, сигналы);
3.
Различные форматы представления данных;
4.
Различная степень распределённости систем хранения данных;
5.
Различные типы баз данных (БД): реляционные, иерархические, объектно- ориентированные, сетевые, многомерные и т.п..
Механизмы доступа к базам данных снижают сложность обмена информацией с базами, однако интерпретация результатов их работы также достаточно трудоемка. Можно выделить несколько субъектов, участвующих в движении информации между базой данных и приложением:
1.
Интерфейсная часть приложения или его программная часть, манипулирующая информацией, хранимой в базе данных;
2.
Компоненты,обеспечивающиесвязьприложениясмеханизмомдоступакбазеданных;
3.
Механизм доступа к базе данных;
4.
База данных.
На рисунке 1 представлена схема движения информации между приложением и базой данных.
Из рисунка видно, что между клиентским приложением и СУБД не существует прямой связи, в следствие дополнительно встраиваются необходимые программные модули, позволяющие клиентскому приложению получать доступ к БД. Такие модули называются механизмами доступа к данным.


21
Рисунок 1. Схема движения информации от базы данных к приложению.
Они выполняют функцию получения данных из базы с учетом особенностей хранения или правил обмена, так же реализуют интерфейс для доступа к данным на логическом уровне, независящий от выбранного типа базы данных [90]. Таких механизмов разработано множество, причем большинство из них в некоторой степени универсальны и предназначены для работы с разными видами баз данных, а для доступа к широко распространенным базам данных обычно можно выбрать один из нескольких механизмов.
Первоначально преобладали способы, основанные на API библиотек СУБД, входящих в состав клиентского программного обеспечения, устанавливаемого на компьютерах пользователей. Как правило, клиентское программное обеспечение включало в себя и собственную среду разработки прикладного программного обеспечения. Это приводило к тому, что замена СУБД требовала переписывания значительной части кода клиентского приложения.
Прикладной программный интерфейс (API – application programming interface) представляет собой набор различных функций, констант, классов, форматов запросов, вызываемых из клиентского приложения [37]. Более простым языком API – это готовый программный код. API предназначен для того, чтобы облегчить задачу написания приложения, благодаря использованию шаблонов кода.
На сегодняшний день самый известный сервис code.google.com, предоставляет около полусотни разнообразных API решений. Безусловно, в идеале хотелось бы, чтобы все подключаемые системы имели единообразное универсальное API и можно было бы использовать один код для всех систем. Главной особенностью такой системы управления был бы единый интерфейс доступа ко всем данным. Как результат - в настоящее время главенствующими становятся универсальные механизмы доступа к данным.
База данных
Механизмы доступа к
БД
Клиентское - приложение
Компоненты доступа к информации
Компоненты отображения


22
Универсальный механизм доступа к данным обеспечивает возможность использования одного и того же интерфейса для доступа к разным типам СУБД. Универсальные механизмы доступа к данным обычно реализованы в виде библиотек и дополнительных модулей
(драйверов или провайдеров). Библиотеки содержат определенный стандартный набор классов, методов, параметров, и обеспечивают стандартный интерфейс доступа к данным.
Дополнительные модули реализуют непосредственное обращение к функциям клиентского API конкретных СУБД. Причем, эти дополнительные модули, устанавливаются исходя из текущей потребности.
Универсальные механизмы доступа к данным обычно реализованы в виде библиотек и модулей, называемых драйверами или провайдерами, содержащих стандартный набор функций или классов, реализованных на основе функций клиентского API конкретных СУБД. Среди универсальных механизмов доступа к данным наиболее распространены в настоящее время следующие программные интерфейсы:

ODBC - Open Database Connectivity.

OLE DB - Object Linking and Embedding Database.

ADO - ActiveX Data Objects.

BDE - Borland Database Engine.

JDBC - Java Database Connectivity.

ADO.NET - ActiveX Data Objects технологии NET.



Поделитесь с Вашими друзьями:
  1   2   3   4   5   6   7


База данных защищена авторским правом ©nethash.ru 2019
обратиться к администрации

войти | регистрация
    Главная страница


загрузить материал