Модуль организация данных в глобальных сетях



Скачать 271.18 Kb.

Дата22.03.2017
Размер271.18 Kb.
Просмотров166
Скачиваний0
ТипКурс лекций

КУРС ЛЕКЦИЙ
Содержание

МОДУЛЬ 1. Организация данных в глобальных сетях ....................................... 1
Модуль 2. Специализированные поисковые системы ...................................... 12
Модуль 3. Статистические модели экспериментов. .......................................... 17

МОДУЛЬ 1. ОРГАНИЗАЦИЯ ДАННЫХ В ГЛОБАЛЬНЫХ СЕТЯХ
Интернет - мировая компьютерная сеть, состоящая из миллионов компьютеров и сетей, объединенных стандартными соглашениями о способах обмена информацией и единой системой адресации. Интернет использует протоколы семейства TCP/IP. Система адресации обеспечивает уникальными координатами каждый компьютер (точнее, практически каждый ресурс компьютера) и каждого пользователя Интернет. Каждый компьютер в сети имеет свой уникальный 32-битный (в двоичной системе)
IP-адрес. Доменная система имен ставит в соответствие числовому IP-адресу уникальное доменное имя. Она имеет иерархическую структуру.
Домены верхнего уровня бывают двух типов: географические (каждой стране соответствует двухбуквенный код, домен ru – Россия, su – СССР, uk –
Великобритания т.д.) и административные; edu – образовательные, com – коммерческие и т.д. Пример, www.icann.org
– адрес международного координационного центра доменных имен, в который входят по 5 представителей от каждого континента.
Специальные информационные службы – сервисы Интернет созданы для хранения и передачи информации по сети Интернет
Сервис WWW - всемирная паутина, обеспечивает представление и взаимосвязи гипертекстовых документов, называемых Web-страницами, включающих текст, графику, звук и видео, расположенных на WWW- серверах. Сервис WWW функционирует с использованием протокола HTTP.
Для использования этого сервиса применяются программы-браузеры, наиболее популярными из которых в настоящий момент являются Netscape
Navigator и Internet Explorer.«Web browsers» - это средства просмотра. Почти все, что ассоциируется с понятием «работа в системе Internet», - от финансовых новостей до информации о медицине, музыке и литературе... можно получить с помощью WWW, заказывать авиабилеты в любую часть мира, находить необходимое программное и техническое обеспечение ПК.
Что видят поисковые системы при заходе на сайт?
1. Поисковые системы
Поисковые системы обычно состоят из трех компонент:

агент (паук), который перемещается по Сети и собирает информацию;

база данных, которая содержит всю информацию, собираемую пауками;

поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.
1.1 Как работают механизмы поиска?

Средства поиска и структурирования, иногда называемые поисковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются. Средства поиска типа агентов, пауков, и роботов используются для сбора информации о документах, находящихся в Сети Интернет. Это специальные программы, которые
занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на
этих страницах и автоматически индексируют информацию, которую они
находят для построения базы данных.
Каждый поисковый механизм имеет собственный набор правил, определяющих, как собирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют ссылки к ресурсам типа баз данных WAIS; другие проинструктированы, что нужно просматривать прежде всего наиболее популярные страницы.
Агенты - самые «интеллектуальные» из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от
Вашего имени. Уже сейчас они могут искать сайты специфической тематики и возвращать списки сайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть
запрограммированы для извлечения информации из уже существующих баз
данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.
Общий поиск информации в Сети осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.
Роботы могут быть запрограммированы так, чтобы переходить по различным ссылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.
Агенты извлекают и индексируют различные виды информации.
Некоторые, например, индексируют каждое отдельное слово во встречающемся документе, в то время как другие индексируют только наиболее важных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее. Вид построенного индекса определяет, какой поиск может быть сделан поисковым механизмом и как полученная информация будет интерпретирована.

Агенты могут также перемещаться по Интернет и находить информацию, после чего помещать ее в базу данных поискового механизма.
Администраторы поисковых систем могут определить, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Проиндексированная информация отсылается базе данных поискового механизма так же, как было описано выше.
Люди могут помещать информацию прямо в индекс, заполняя особую форму для того раздела, в который они хотели бы поместить свою информацию. Эти данные передаются базе данных.
База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования.
В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:

Количество слов запроса в текстовом содержимом документа (т.е. в html- коде).

Тэги, в которых эти слова располагаются.

Местоположение искомых слов в документе.

Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.
Эти принципы применяются всеми поисковыми системами. А представленные ниже используются некоторыми, но достаточно известными
(вроде AltaVista, HotBot).
Время - как долго страница находится в базе поискового сервера.
Поначалу кажется, что это довольно бессмысленный принцип. Но, если задуматься, как много существует в Интернете сайтов, которые живут максимум месяц! Если же сайт существует довольно долго, это означает, что владелец весьма опытен в данной теме и пользователю больше подойдет сайт, который пару лет вещает миру о правилах поведения за столом, чем тот, который появился неделю назад с этой же темой.
Индекс цитируемости - как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковика.
1.2 Сравнительный обзор поисковых систем
Lycos. В Lycos используется следующий механизм индексации:

слова в заголовке имеют высший приоритет; <br><br>слова в начале страницы; <br><br>слова в ссылках; <br><br>если в <a href="/federalenoe-gosudarstvennoe-avtonomnoe-obrazovatelenoe-v5.html">его базе индекса есть сайты</a>, ссылка с которых указывает на индексируемый документ - релевантность этого документа возрастает. <br>Как и большинство систем, Lycos дает возможность применять простой запрос и более изощренный метод поиска. В простом запросе в качестве <br></div> <STYLE type="text/css"> </STYLE> <div id="page4-div" > поискового критерия вводится предложение на естественном языке, после чего Lycos производит нормализацию запроса, удаляя из него так называемые stop-слова, и только после этого приступает к его выполнению. <br>Почти сразу выдается информация о количестве документов на каждое слово, а позже и список ссылок на формально релевантные документы. В списке против каждого документа указывается его мера близости запросу, количество слов из запроса, попавших в документ, и оценочная мера близости, которая может быть больше или меньше формально вычисленной. <br><b><span id='AltaVista.'>AltaVista.</span></b> Индексирование в этой системе осуществляется при помощи робота. При этом робот имеет следующие приоритеты: <br><br><b> </b><br>слова содержащиеся в теге <title> имеют высший приоритет; ключевые фразы в <Meta> тэгах; <br><br><b> </b><br>ключевые фразы, находящиеся в начале странички; <br><br><b> </b><br>ключевые фразы в ALT - ссылках <br><br><b> </b><br>ключевые фразы по количеству вхождений\присутствия слов\фраз. <br>Наиболее интересная возможность AltaVista - это расширенный поиск. <br>Здесь стоит сразу оговориться, что, в отличие от многих других систем <br>AltaVista поддерживает одноместный оператор NOT. Кроме этого, имеется еще и оператор NEAR, который реализует возможность контекстного поиска, когда термины должны располагаться рядом в тексте документа. AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой фразеологический словарь. Кроме всего прочего, при поиске в <br>AltaVista можно задать имя поля, где должно встретиться слово: гипертекстовая ссылка, applet, название образа, заголовок и ряд других полей. К сожалению, подробно процедура ранжирования в документации по системе не описана, но видно, что ранжирование применяется как при простом поиске, так и при расширенном запросе. Реально эту систему можно отнести к системе с расширенным булевым поиском. <b> </b><br><b>Yahoo.</b> Данная система появилась в <a href="/sovremennoe-sostoyanie-krupnejshih-mashinostroitelenih-predpri.html">Сети одной из первых</a>, и сегодня Yahoo сотрудничает со многими производителями средств информационного поиска, а на различных ее серверах используется различное программное обеспечение. Язык Yahoo достаточно прост: все слова следует вводить через пробел, они соединяются связкой AND либо OR. <i> </i><br><i>Хорошие результаты поиска получаются только тогда, когда </i><br><i>пользователь знает, что в базе данных Yahoo информация есть наверняка</i>. <br>Ранжирование производится по числу терминов запроса в документе. Yahoo относится к классу простых традиционных систем с ограниченными возможностями поиска.<b> </b><br><b>OpenText.</b> Информационная система OpenText представляет собой самый коммерциализированный информационный продукт в Сети. Все описания больше похожи на рекламу, чем на информативное руководство по работе. <br>Система позволяет провести поиск с использованием логических коннекторов, однако размер запроса ограничен тремя терминами или фразами. В данном случае речь идет о расширенном поиске. При выдаче результатов сообщается степень соответствия документа запросу и размер <br></div> <STYLE type="text/css"> </STYLE> <div id="page5-div" > документа. Система позволяет также улучшить результаты поиска в стиле традиционного булевого поиска. OpenText можно было бы отнести к разряду традиционных информационно-поисковых систем, если бы не механизм ранжирования.<b> </b><br><b>Infoseek.</b> В этой системе индекс создает робот, но он индексирует не весь сайт, а только указанную страницу. При этом робот имеет такие приоритеты: <br><br>слова в заголовке <title> имеют наивысший приоритет; <br><br>слова в теге keywords, description и частота вхождений\повторений в самом тексте; <br><br>при повторении одинаковых слов рядом выбрасывает из индекса <br>Допускает до 1024 символов для тега keywords, 200 символов для тэга description. <br>Система Infoseek обладает довольно развитым информационно- поисковым языком, позволяющим не просто указывать, какие термины должны встречаться в документах, но и своеобразно взвешивать их. <br>Достигается это при помощи специальных знаков «+» - термин обязан быть в документе, и «-» термин должен отсутствовать в документе. Имеется возможность указания ключевых фраз, представляющих собой единое целое, вплоть до порядка слов. Ранжирование при выдаче осуществляется по числу терминов запроса в документе, по числу фраз запроса за вычетом общих слов. Подводя краткое резюме, можно сказать, что Infoseek относится к традиционным системам с элементом взвешивания терминов при поиске. <b> </b><br><b>WAIS.</b> WAIS является одной из наиболее изощренных поисковых систем <br>Internet. В ней не реализованы лишь поиск по нечетким множествам и вероятностный поиск. В отличие от многих поисковых машин, система позволяет строить не только вложенные булевы запросы, считать формальную релевантность по различным мерам близости, взвешивать термины запроса и документа, но и осуществлять коррекцию запроса по релевантности. Система также позволяет использовать усечения терминов, разбиение документов на поля и ведение распределенных индексов. Не случайно именно эта система была выбрана в качестве основной поисковой машины для реализации энциклопедии «Британика» на Internet.<b> </b><br><b><span id='2._Поисковые_роботы'>2. Поисковые роботы</span></b> <br>За последние годы Всемирная паутина стала настолько популярной, что сейчас Интернет является одним из основных средств публикации информации. Когда размер Сети вырос из нескольких серверов и небольшого числа документов до огромных пределов, стало ясно, что ручная навигация по значительной части структуры гипертекстовых ссылок больше не представляется возможной, не говоря уже об эффективном методе исследования ресурсов. <br>Эта проблема побудила исследователей Интернет на проведение экспериментов с автоматизированной навигацией по Сети, названной <br>«роботами». <b> </b><br></div> <STYLE type="text/css"> </STYLE> <div id="page6-div" > <br><b>Веб-робот</b> <br>- <br><i>это </i><br><i>программа, </i><br><i>которая </i><br><i>перемещается </i><br><i>по </i><br><i>гипертекстовой структуре Сети, запрашивает документ и рекурсивно </i><br><i>возвращает все документы, на которые данный документ ссылается</i>. <br>В действительности, роботы реализованы как простая программная система, которая запрашивает информацию из удаленных участков Интернет, используя стандартные сетевые протоколы. <b> </b><br><b><span id='2.1_Использование_поисковых_роботов'>2.1 Использование поисковых роботов</span></b> <br>Роботы могут использоваться для выполнения множества полезных задач, таких как статистический анализ, обслуживание гипертекстов, исследования ресурсов или зазеркаливания страниц. Рассмотрим эти задачи подробнее. <br>2.1.1 Статистический Анализ <br>Первый робот был создан для того, чтобы обнаружить и посчитать количество веб-серверов в Сети. Другие статистические вычисления могут включать среднее число документов, приходящихся на один сервер в Сети, пропорции определенных типов файлов на сервере, средний размер страницы, степень связанности ссылок и т.д. <br>2.1.2 Обслуживание гипертекстов <br>Одной из главных трудностей в поддержании гипертекстовой структуры является то, что ссылки на другие страницы могут становиться <br>«мертвыми ссылками» в случае, когда страница переносится на другой сервер или удаляется. На сегодняшний день не существует общего механизма, который смог бы уведомить обслуживающий персонал сервера, на котором содержится документ с ссылками на подобную страницу, о том, что она изменилась или удалена. Некоторые серверы, например, CERN <br>HTTPD, будут регистрировать неудачные запросы, вызванные мертвыми ссылками наряду с рекомендацией относительно страницы, где обнаружена мертвая ссылка, предусматривая что данная <a href="/chto-delate-s-drajverami-kotorie-ne-udalilise-posle-udaleniya.html">проблема будет решаться вручную</a>. Это не очень практично, и в действительности авторы документов обнаруживают, что их документы содержат мертвые ссылки лишь тогда, когда их извещают непосредственно, или, что бывает очень редко, когда пользователь сам уведомляет их по электронной почте. <br>Робот типа MOMSPIDER, который проверяет ссылки, может помочь автору документа в обнаружении подобных мертвых ссылок, и также может помогать в обслуживании гипертекстовой структуры. Также роботы могут помочь в поддержании содержания и самой структуры, проверяя соответствующий HTML-документ, его соответствие принятым правилам, регулярные модернизации, и т.д., но это обычно не используется. Возможно, данные функциональные возможности должны были бы быть встроены при написании окружающей среды HTML-документа, поскольку эти проверки могут повторяться в тех случаях, когда документ изменяется, и любые проблемы при этом могут быть решены немедленно. <b> </b><br><b><span id='2.1.3_Зазеркаливание'>2.1.3 Зазеркаливание</span></b> <br>Зазеркаливание - популярный механизм поддержания FTP архивов. <br>Зеркало рекурсивно копирует полное дерево каталогов по FTP, и затем <br></div> <STYLE type="text/css"> </STYLE> <div id="page7-div" > регулярно перезапрашивает те документы, которые изменились. Это позволяет распределить загрузку между несколькими серверами, успешно справиться с отказами сервера и обеспечить более быстрый и более дешевый локальный доступ, так же как и автономный доступ к архивам. <br>Потребность в механизмах зазеркаливания по причинам показателей производительности намного уменьшается применением сложных кэширующих серверов, которые предлагают выборочную модернизацию, что может гарантировать, что кэшированный документ не обновился, и в значительной степени самообслуживается. Однако, ожидается, что средства зазеркаливания в будущем будут развиваться должным образом. <b> </b><br><b><span id='2.1.4_Исследование_ресурсов'>2.1.4 Исследование ресурсов</span></b> <br>Возможно, наиболее захватывающее применение роботов <br>- использование их при исследовании ресурсов. Там, где люди не могут справиться с огромным количеством информации, довольно возможность переложить всю работу на компьютер выглядит довольно привлекательно. <br>Существует несколько роботов, которые собирают информацию в <a href="/transport-rossijskij-rinok-mejdunarodnih-avtomobilenih-perevoz.html">большей части Интернет и передают</a> полученные результаты базе данных. Это означает, что пользователь, который ранее полагался исключительно на ручную навигацию в Сети, теперь может объединить поиск с просмотром страниц для нахождения нужной ему информации. Даже если база данных не содержит именно того, что ему нужно, велика вероятность того, что в результате этого поиска будет найдено немало ссылок на страницы, которые, в свою очередь, могут ссылаться на предмет его поиска. <br>Второе преимущество состоит в том, что эти базы данных могут автоматически обновляться за определенный период времени так, чтобы мертвые ссылки в базе данных были обнаружены и удалены, в отличие от обслуживания документов вручную, когда проверка часто является спонтанной и не полной. Использование роботов для исследования ресурсов будет обсуждаться ниже. <b> </b><br><b><span id='2.1.5_Комбинированное_использование'>2.1.5 Комбинированное использование</span></b> <br>Простой робот может выполнять более чем одну из вышеупомянутых задач. Например робот RBSE Spider выполняет статистический анализ запрошенных документов и обеспечивает ведение базы данных ресурсов. <br>Однако, подобное комбинированное использование встречается, к сожалению, весьма редко.<b> </b><br><b><span id='3._Автоматизированная_информационно-поисковая_система_(ИПС),_или_Google_знает,_как_найти.'>3. Автоматизированная информационно-поисковая система (ИПС), </span></b><br><b>или Google знает, как найти.</b> <br>Любая автоматизированная информационно-поисковая система (ИПС) состоит из двух основных частей: формирователя собственной базы данных и генератора ответов на запросы пользователей. Главными показателями для первой являются ее объем и продуманность внутренней структуры, а для второй - скорость поиска информации и удобство пользования. На самом деле такое деление очень условно, потому что функциональная гибкость запросов изначально зависит от структуры базы данных: невозможно запросить что-то, что не было заложено в алгоритмы разработчиками. <br></div> <STYLE type="text/css"> </STYLE> <div id="page8-div" > <br>По определенному запросу пользователя программа-обработчик поисковой системы выдаст множество документов, где встречается заданное словосочетание. Задачей номер один для создателей ИПС является такая сортировка результатов поиска, чтобы в самых первых позициях находились именно те документы, которые были затребованы. Этот параметр называется релевантностью ответа. Если задать в поиске только общие слова, например <br><корм для собак>, тогда как вы ищете информацию про его ингредиенты, вряд ли в первой паре страниц отчета вам выдадут то, что вы искали. <br>Поисковая система просто не в состоянии знать ваши мысли. Поэтому, задавая запрос, максимально конкретизируйте его для получения наиболее точного результата. <br>Давайте изучим внутреннюю структуру ИПС на примере Google <br>(www.google.com). <br>Почти в <a href="/novie-smartfoni-zte-blade-dlya-teh-kto-hochet-boleshego-18-noy.html">каждой поисковой системе есть своя</a> внутренняя система оценки <качества> документов. В Google она называется PageRank (PR). <br>Суть ее заключается в том, что при решении о порядке выдачи пользователю списка страниц, попадающих под его запрос, во внимание принимается некий коэффициент, зависящий от количества ссылок с других сайтов на эту страницу и от их популярности. На самом деле в этом есть рациональное зерно. Ведь если рассматриваемая страница действительно такая важная, что ее стоит прочитать, скорее всего, на нее уже ссылаются другие источники. <br>Верно и обратное: если на документ никто не ссылается - кому он тогда нужен?! Причем PageRank - это не просто общая сумма ссылок, это нормализованное отношение количества ссылок, приводящих на данную страницу, к количеству исходящих c нее. Расчетная формула, опубликованная С. Брином и Л. Пейджем, выглядит следующим образом:<i> </i><br><i> </i><br><i>PR</i>=(1–<i>d</i>)+<i>d</i>(<i>PR</i>(<i>T</i><br>1<br>)/<i>C</i>(<i>T</i><br>1<br>)+ … +<i>PR</i>(<i>T</i><br>n<br>)/<i>C</i>(<i>T</i><br>n<br>), где <i>d</i> – эмпирически подобранный коэффициент (<i>d</i>=0.85);<i> </i><br><i>Т</i><br>1<br>...<i>T</i><br>n<br> – страницы, ссылающиеся на рассматриваемый документ;<i> </i><br><i>С</i>(<i>T</i><br>1<br>)... <i>С</i>(<i>T</i><br>n<br>) – общее количество ссылок, ведущих вовне со страниц <br><i>Т</i><br>1<br>...<i>T</i><br>n<br>Отсюда видно, что PageRank любого документа зависит от PageRank документов, с которых возможен переход на него. Таким образом, он всегда будет высоким для страниц, имеющих популярность в Интернете. <br>Важно также отметить, что PageRank имеет смысл вероятности, с которой среднестатистический Интернет-путешественник попадет на определенную страницу, хаотически блуждая по ссылкам. Сумма PageRank всех страниц равна единице <br>∑<br><i>i</i><br>=<br>1<br><i>N</i><br><i>PR</i><br><i>i</i><br>=<br>1,<br>где <i>N</i> – количество проиндексированных страниц. <br></div> <STYLE type="text/css"> </STYLE> <div id="page9-div" > <br>Вышеприведенная формула достаточно проста, и если задаться целью построить некоторое количество взаимосвязанных страниц, то, по-видимому, <br>PageRank каждой может быть искусственно завышен. Например, можно попытаться сократить число ведущих вне ссылок и создать большое кольцо, в котором документ ссылается только на «друзей». Тогда каждый из них, вследствие итеративности алгоритмов расчета PageRank, будет иметь достаточно высокий коэффициент «важности». Несмотря на это в модели <br>Google, вероятно, предусмотрены какие-то механизмы, позволяющие не начислять слишком высокий <br>PageRank <br><подозрительным> и <br><нежелательным> сайтам. <br>Еще одна важная черта ИПС Google заключается в том, что в ней хранятся описания ссылок на проиндексированные страницы. Эта особенность позволяет более адекватно проводить поиск в накопленной базе данных. Скажем, автор странички забыл указать ее название между тегами <br><title>. Любая ИПС при выдаче результатов поиска ставит высокий приоритет словам, указанным именно в названии. В этом случае Google будет ориентироваться по текстам ссылок на эту страничку.
Кроме расчетов PageRank и запоминания текста ссылок, Google хранит шрифтовой размер и смещение каждого слова относительно начала документа. В спецификации HTML 3.2 было определено семь уровней заголовков по размеру шрифта (от

- самого крупного, до - самого мелкого). Поэтому поисковик всегда выдаст по запросу документ, в котором данное слово выделено более крупным шрифтом или находится ближе к его началу. Благодаря тому, что система знает конкретное место каждого слова в документе, становится возможен так называемый Proximity search – поиск по наиболее близкому расположению слов друг относительно друга. Например, по запросу «слово1 слово2» ИПС найдет много документов у себя в базе данных, но в отчет в первых строках пойдут только те, в которых «слово1» находится максимально близко слева от «слова2».
Теперь более подробно рассмотрим схему функционирования информационно-поисковой системы Google. Всю основную работу по просеиванию сквозь себя содержимого Сети выполняют Интернет-роботы
(боты, crawlers). Каждый из них берет один адрес (URL, uniform resource locator; каждый URL соответствует определенному идентификатору документа) из базы данных URL-сервера, скачивает и передает содержимое странички на сервер хранения документов (рис. 1). Необходимо отметить, что все содержимое сервера хранится в заархивированном виде для увеличения его вместимости.


Рис. 1 – Структура информационно-поисковой системы Google
Другая программа – индексатор – занимается тем, что разлагает текст документа на составляющие его слова, запоминая при этом местонахождение, шрифтовой вес, а также написано ли слово заглавными или строчными буквами и принадлежит ли оно к категории «особенных»
(названия документов, метатеги, URL'ы и тексты ссылок). Вся эта информация складывается в набор контейнеров, именуемых на рисунке прямым индексом. Структура хранимых в нем данных показана на рис. 2.
Рис. 2. – Структура прямого индекса (doc_id – идентификатор документа; word_id – идентификатор слова; null_word – символ окончания документа; n_hits – частота, с которой слово встречается в документе)
Идентификаторы слов берутся из словаря, который постоянно пополняется. Одновременно с этим индексатор просматривает содержимое тегов и проверяет корректность всех ссылок в службе разрешения имен DNS (domain name service). Если ему встретился URL, которого нет в базе данных по doc_id, он пополняет не только ее, но и коллекцию ссылок. В дальнейшем этот Интернет-адрес попадает в URL-сервер и круг замыкается.
Система поиска новых документов, при условии, что на них хоть кто-нибудь ссылается, становится самодостаточной - она сама себя подпитывает.

Но каким образом ИПС узнает о новых Web-ресурсах, которых еще никто не успел посетить? Для разрешения этой проблемы разработчики предусмотрели ручную форму регистрации ресурсов в поисковой системе.
Введенные в нее адреса после проверки на корректность также попадают в
URL-сервер.
Описанная выше структура прямого индекса не очень удобна при поиске документов на основании встречающихся в них слов (пользователь задает слово или словосочетание, а система должна найти подходящий документ). Чтобы решить эту проблему, был введен так называемый инверсный, или обратный, индекс (рис. 3). В нем любому слову из словаря соответствует набор doc_id-документов, в которых это слово встречается.
Работой по постоянному формированию инверсного индекса занимаются сортировщики. Так как, во-первых, всегда появляются новые документы и, во-вторых, обновляются старые, индекс приходится постоянно перестраивать.
Рис. 3 – Структура инверсного индекса (word_id – идентификатор слова; ndocs – количество документов с этим словом; doc_id – идентификатор документа; n_hits – частота, с которой слово встречается в документе)
Качество поисковой системы, как уже было отмечено, зависит не только от количества проиндексированных документов, правил их отбора в итоговый список, но и от того, как часто Интернет-роботы заново проверяют содержимое ранее обработанных сайтов. В таблице на примере thermo.karelia.ru приведены данные об общем объеме запрошенных роботами документов и количестве заходов на сайт (по данным Webalizer - анализатора журналов Web-сервера).
Из таблицы видно, что роботы «Яндекса» и Google ведут себя по- разному. «Яндекс» останавливается на корневом документе Web-сервера
(например, index.html) и скачивает содержимое сайта последовательно, документ за документом, в один поток. Google распараллеливает работу между несколькими роботами, причем каждый из них при скачивании может
<отвлекаться> на другие дела. То есть эти две поисковые системы характеризуются совершенно различными структурами URL-серверов и способами пополнения информации из Интернета.
Второй важный вывод, который напрашивается по результатам изучения приведенной таблицы, заключается в том, что русскоязычные поисковики «лучше» иностранных, они более часто посещают ресурсы постсоветского пространства. Даже «Апорт», уступивший на данный момент
третье место Google по общему количеству обрабатываемых запросов
(данные с www.spylog.ru), как минимум раз в месяц просматривает содержимое каждого сайта.
МОДУЛЬ 2. СПЕЦИАЛИЗИРОВАННЫЕ ПОИСКОВЫЕ СИСТЕМЫ
2.1 Поиск с использованием сложных запросов
Профессиональный метод создания «запроса-формулы», разделяя слова специальными логическими операторами.
Команды-разделители называют «операторами Буля». У разных поисковых систем свой «язык запросов».
AND. &. +. Пробел. В искомом документе обязательно должны содержаться все слова, которые эти операторы разделяют, не зависимо от того, стоят ли они рядом или находятся в разных частях документа. (Перед +обязательно ставится пробел, а за ним пробела не должно быть).
OR. │. В документе должно быть хотя бы одно слово из разделяемых выражений на поиск.
NOT. - .
. Документы содержать слово перед оператором и не содержат следующее за оператором слово.
NEAR. &&. Ищет словосочетание.
* в конце слова вместо окончания решает проблему падежей (метапоиск*).
@ перед словом позволяет искать все словоформы (@информатика)
? Замена любого символа (компьют?р)
/n Количество слов-разделителей должно быть не более, чем n (пример /4 сайт*, пример /-4 сайт –отсчет слов-разделителей будет вестись в обратную сторону)
Удвоение &&, распространяется в пределы одного абзаца
Чтобы сочетания слов не было в целом документе надо использовать запрос: слово1
слово2 слово1-слово2
2.2 Проект невидимый интернет (I2P)
I2P -- это анонимная сеть, которая предоставляет простой слой, который может использоваться приложениями для анонимного и безопасного обмена сообщениями. Сама сеть основана на сообщениях (как IP), но есть и библиотека для организации гарантированной потоковой связи поверх сети
(как TCP). Все коммуникации используют сквозное шифрование (всего используется четыре слоя шифрования при отправке сообщения), и даже сами абоненты
("направления") являются криптографическими идентификаторами (в сущности парой публичных ключей).
I2P (сокр. от англ. «Invisible Internet Project», рус. «Проект Невидимый
Интернет») — открытое программное обеспечение, созданное для организации сверхустойчивой анонимной, оверлейной, зашифрованной сети и применимое для веб-сѐрфинга, анонимного хостинга (создания анонимных сайтов, форумов и чатов, файлообменных серверов и т. д.), систем обмена
мгновенными сообщениями, ведения блогов, а также для файлообмена (в том числе P2P — Torrent, eDonkey, Kad, Gnutella и т. д.), электронной почты,
VoIP и многого другого. Адреса сайтов в сети I2P находятся в псевдо- доменном пространстве i2p.
2.2.1 Как работает I2P
Чтобы анонимизировать отправляемое сообщение, каждое приложение-клиент имеет свой I2P "маршрутизатор", строящий несколько входящих и исходящих "туннелей" - последовательность пиров, передающих сообщения в одном направлении (к и от клиента соответственно). В свою очередь, когда один клиент хочет послать сообщение другому, он передаѐт это сообщение через один из своих исходящих туннелей, нацеливаясь на один из входящих туннелей другого клиента, в конечном итоге достигая пункта назначения. Каждый участник сети выбирает длину этих туннелей, и таким образом идѐт на компромисс между анонимностью, временем ожидания и пропускной способностью в соответствии со своими нуждами. В результате, количество пиров, ретранслирующих каждое сообщение из конца в конец, сведено к абсолютному минимуму, необходимому, чтобы удовлетворить "модель угрозы" (уровень желаемой безопасности) как отправителя, так и получателя.
Рис. 4
Когда клиент обращается к другому клиенту в первый раз, он обращается к полностью распределенной "сетевой базе данных" - распределѐнной хэш-таблице (DHT) особой структуры, основанной на алгоритме Kademlia, чтобы быстро найти входящие туннели другого клиента.
Следующие сообщения между двумя клиентами обычно содержат эти данные, поэтому запросы к сети более не нужны.
2.2.2 Более подробно о том, как работает I2P.
Сеть изначально была спроектирована с учѐтом предположения, что все промежуточные узлы являются скомпрометированными или злонамеренными[источник не указан
279 дней], поэтому для противодействия был введѐн ряд активных мер.

Весь трафик в сети шифруется от отправителя до получателя. В сумме при пересылке сообщения используется четыре уровня шифрования
(сквозное, чесночное, туннельное, а также шифрование транспортного уровня), перед шифрованием в каждый сетевой пакет автоматически добавляется небольшое случайное количество случайных байт, чтобы ещѐ больше обезличить передаваемую информацию и затруднить попытки анализа содержимого и блокировки передаваемых сетевых пакетов.
В качестве адресов сети используются криптографические идентификаторы, представляющие собой открытые криптографические ключи, которые не имеют никакой логической связи с реальным компьютером. IP адреса в сети I2P не используются нигде и никогда, поэтому определить истинный адрес какого-либо узла в сети не представляется возможным. Каждое сетевое приложение на компьютере строит для себя отдельные шифрованные, анонимные туннели. Туннели в основном одностороннего типа (исходящий трафик идѐт через одни туннели, а входящий — через другие) — направление, длину, а также, какое приложение или служба создали эти туннели, выяснить практически невозможно. Все передаваемые сетевые пакеты имеют свойство расходиться по нескольким разным туннелям, что делает бессмысленным попытки прослушать и проанализировать с помощью сниффера проходящий поток данных. Также происходит периодическая смена (примерно каждые 10 минут) уже созданных туннелей на новые, с новыми цифровыми подписями и ключами шифрования (цифровые подписи и ключи шифрования, разумеется, у каждого туннеля свои).
По этим причинам нет необходимости беспокоиться о том, чтобы прикладные программы обеспечивали шифрование своего трафика. Если существует недоверие к шифрованию программ, имеющих закрытый исходный код (как, например, Skype), возможно решить проблему программами IP-телефонии (такими, как Ekiga), передающими трафик в открытом виде. В любом случае сеть I2P произведет четырѐхуровневое шифрование всех пакетов и обезопасит передачу/приѐм всех данных.
В сети I2P все пакеты зашифровываются на стороне отправителя и расшифровываются только на стороне получателя, при этом никто из промежуточных участников обмена не имеет возможности перехватить расшифрованные данные и никто из участников не знает, кто на самом деле отправитель и кто получатель, так как передающий пакеты узел может быть отправителем, а может быть таким же промежуточным узлом, а следующий узел, которому нужно этот пакет отправить, может быть получателем, а может быть тоже таким же промежуточным узлом, узнать конечные точки отправителя и получателя промежуточный узел никак не может, так же как не может узнать, что произошло с только что переданным следующему узлу пакетом — обработал ли тот его, или передал куда-то дальше, выяснить нельзя.

В I2P сети используются (для разных уровней и протоколов) следующие системы и методы шифрования и подписи:


256 бит AES режим CBC с PKCS#5;


2048 бит Схема Эль-Гамаля;


2048 бит Алгоритм Диффи — Хеллмана;


1024 бит DSA;


256 бит HMAC — Алгоритм усиления криптостойкости других криптоалгоритмов;


256 бит Хэширование SHA256.
2.2.3 Как вы можете это использовать?
Внутри сети I2P приложения не ограничены в способах коммуникации
- те, что обычно используют UDP, могут использовать базовый функционал
I2P, а те, что обычно используют TCP, могут использовать TCP-подобную потоковую библиотеку. У нас есть приложение общего TCP/IP моста
("I2PTunnel"), которое позволяет людям пересылать TCP потоки в I2P сеть также как получать потоки извне сети и пересылать их на определѐнный
TCP/IP адрес.
По своей сути I2P не является сетью для доступа во «внешний интернет» – тот, кому Вы посылаете сообщение представлен криптографическим идентификатором, а не каким-либо IP-адресом, поэтому сообщение должно быть адресовано кому-то, у кого запущен I2P. Тем не менее вполне возможно, что этот пользователь предоставляет аутпрокси, позволяя Вам анонимно использовать своѐ Интернет- соединение. Для примера, "eep-прокси" обрабатывает не-I2P адреса (e.g. "http://www.i2p.net") и направляет их по определѐнному адресу, на котором запущен HTTP-прокси squid, предоставляющий возможность простого анонимного сѐрфинга в "обычном" вебе. Простые аутпрокси, такие как этот, обычно доступны на не очень-то длительный срок по нескольким причинам (они включают в себя затраты на поддержку, а также из-за вопросов анонимности и безопасности, которые они поднимают), но в некоторых случаях этот путь может быть приемлем.
Рис. 5 – Суть организации сетевой БД I2P

Команда разработчиков I2P - это группа открытая для всех кто заинтересован принять участие, и весь код проекта - это открытый код. Ядро
I2P SDK и текущая реализация роутера выполнены на языке Java (в настоящий момент поддерживаются реализации от sun и kaffe, реализация поддержки gcj запланирована на будущее), также существует простое основанное на сокетах API для доступа к сети из других языков (библиотека для C уже доступна, а для Python и Perl в процессе разработки). Проект активно разрабатывается хоть ещѐ и не достиг стадии релиза 1.0, но текущий план развития проекта описывает дальнейший путь нашей команды
2.3 i2p поисковик
Итак, свершилось. В сети I2P наконец-то появился поисковик, позволяющий сети нормально жить и развиваться. Поисковик представляет собой некий аналог Google, как пишет автор оного.
Рис. 6 – Работа поисковика в сети I2P
На данный момент в индексе около 10000 страниц и 100 000 слов.
Никакой фильтрации поисковой выдачи или индексации не происходит — всѐ как есть. Называется он – Эякулятор (соответственно процесс поиска внутри сети, равно как и процесс поисковой выдачи вполне можно назвать эякуляцией). Название родилось в связи с именем поискового движка, на котором работает ресурс: yacy. Соответственно, по-английски пишется как
Eyacylator — http://www.shpargalko.ru/
Рис. 7 – Эякулятор - I2P поисковик

МОДУЛЬ 3. СТАТИСТИЧЕСКИЕ МОДЕЛИ ЭКСПЕРИМЕНТОВ.

1. Основные понятия выборочного метода
Предположим, что мы повторяем один и тот же случайный эксперимент в одинаковых условиях и получаем некоторый набор данных
(числовых или каких-то иных). При этом возникают следующие вопросы.
1. Если мы наблюдаем одну случайную величину—как по набору еѐ значений в нескольких опытах сделать как можно более точный вывод о распределении этой случайной величины?
2. Если мы наблюдаем одновременно проявление двух или более признаков, т. е. имеем набор значений нескольких случайных величин,—что можно сказать об их зависимости или о совместном распределении этих случайных величин?
Часто бывает возможно высказать некие предположения о наблюдаемом распределении или о его свойствах. В этом случае по опытным данным требуется подтвердить или опровергнуть эти предположения
(«гипотезы»). При этом надо помнить, что ответ «да» или «нет» может быть дан лишь с определѐнной степенью достоверности, и чем дольше мы можем продолжать эксперимент, тем точнее могут быть выводы. Часто оказываются заранее известными некоторые свойства наблюдаемого эксперимента и можно сформулировать какие-то априорные выводы о распределении: о наличии функциональной зависимости между наблюдаемыми величинами, о нормальности распределения, о его симметричности, о наличии у распределения плотности или о его дискретном характере и т. д. Наличие таких знаний помогает на основании результатов эксперимента делать выводы о прочих, неизвестных, свойствах распределения.
Итак, математическая статистика работает там, где есть случайный эксперимент, свойства которого частично или полностью неизвестны и который мы умеем воспроизводить в одних и тех же условиях некоторое (а лучше—неограниченное) число раз.
Пусть

:

R - случайная величина, наблюдаемая в случайном эксперименте. Предполагается, что вероятностное пространство задано и не будет нас интересовать.
Проведя n раз этот эксперимент в одинаковых условиях, получим числа
X
1
, X
2
, … , X
n
—значения наблюдаемой случайной величины в первом, втором и т. д. экспериментах. Случайная величина

имеет некоторое распределение F, которое нам частично или полностью неизвестно.
Рассмотрим подробнее набор X = (X
1
, X
2
, … , X
n
), называемый
выборкой. В серии уже произведѐнных экспериментов выборка—это набор чисел. До того как эксперимент проведѐн, имеет смысл считать выборку набором случайных величин (независимых и распределѐнных так же, как

).
Действительно, до проведения опытов мы не можем сказать, какие значения примут элементы выборки: это будут какие-то из значений случайной величины

. Поэтому имеет смысл считать, что до опыта X
i
—случайная
величина, одинаково распределѐнная с x, а после опыта—число, которое мы наблюдаем в i -м по счѐту эксперименте, т. е. одно из возможных значений случайной величины X
i
Определение1. Выборкой X = (X
1
, X
2
, … , X
n
) объѐма n из
распределения F называется набор из n независимых и одинаково
распределѐнных случайных величин, имеющих распределение F.
Что значит «по выборке сделать вывод о распределении»?
Распределение характеризуется функцией распределения, плотностью или таблицей, набором числовых характеристик— E

, D

, E

k и т. д. По выборке нужно уметь строить приближения для всех этих характеристик.
Выборочные характеристики
Выборочное распределение. Рассмотрим реализацию выборки на одном элементарном исходе—числа X
1
= X
1
(

0
), . . . , X
n
= X
n
(

0
). Разыграем новую случайную величину


, которая принимает значения X
1
, . . . , X
n с одинаковыми вероятностями (например, с помощью правильного n-гранного кубика). Эта случайная величина определена на совсем ином вероятностном пространстве, чем изначальные случайные величины (на пространстве, связанном с бросанием кубика), поэтому будем вероятностную меру на нѐм обозначать
̃P
(соответственно, математическое ожидание— Ē и т. п.).
Запишем таблицу и функцию распределения случайной величины


:
Распределение величины


называют эмпирическим, или выборочным распределением. Введѐм обозначения для числовых характеристик выборочного распределения. Математическое ожидание величины


равно
̃E ξ
¿
=

i
=
1
n
1
n
X
i
=
1
n

i
=
1
n
X
i
=
̄X
Дисперсия этой случайной величины равна
̃
¿
=

i
=
1
n
1
n
(
X
i
− ̃E ξ
¿
)
2
=
1
n

i
=
1
n
(
X
i
− ̄X
)
2
=
S
2
Точно так же вычислим и момент порядка k
Если теперь мы позволим элементарному исходу ω
0
меняться, то все перечисленные выше характеристики станут величинами случайными.





Состоятельность выборочных характеристик






ТОЧЕЧНОЕ ОЦЕНИВАНИЕ
Ситуация, когда о распределении наблюдений не известно совсем ничего, встречается довольно редко. Проводя эксперимент, мы можем предполагать или утверждать что-либо о распределении его результатов.
Например, может оказаться, что это распределение нам известно с точностью до значений одного или нескольких числовых параметров. Так, в широких предположениях рост юношей одного возраста имеет нормальное распределение с неизвестными средним и дисперсией, а число покупателей в магазине в течение часа— распределение Пуассона с неизвестной
«интенсивностью» λ. Рассмотрим задачу оценивания по выборке неизвестных параметров распределения.
Оказывается, различными способами бывает возможно построить даже не одну, а множество оценок для одного и того же неизвестного параметра.
1. Точечные оценки и их свойства
Параметрические семейства распределений. Пусть имеется выборка X
1
,
..., X
n объѐма n, извлечѐнная из распределения F
θ
, которое известным образом зависит от неизвестного параметра θ.
Здесь F
θ
—некий класс распределений, целиком определяющихся значением скалярного или векторного параметра θ. Параметр θ принимает значения из некоторого множества Θ, которое мы будем называть множеством возможных значений параметра.
Примерами параметрических семейств распределений могут служить все известные нам распределения: распределение Пуассона Πλ, где λ > 0; распределение Бернулли Bp, где p
∈ (0, 1); равномерное распределение Ua, b, где a < b; равномерное распределение U0, θ, где θ > 0; нормальное распределение Na, ζ
2
, где a
∈ R, ζ > 0 и т. д.
Точечные оценки. Итак, пусть X
1
, . . . , X
n
—выборка объѐма n из параметрического семейства распределений F
θ
, где θ
∈ Θ.
О п р е д е л е н и е 3. Статистикой называется произвольная
борелевская функция θ
∗ = θ∗(X
1
, . . . , X
n
) от элементов выборки.
З а м е ч а н и е 4. Статистика есть функция от эмпирических данных, но никак не от параметра θ. Статистика, как правило, предназначена именно для оценивания неизвестного параметра θ (поэтому еѐ иначе называют оценкой) и уже поэтому от него зависеть не может.
Статистика есть не любая, а измеримая функция от выборки
(борелевская, для которой прообраз любого борелевского множества из R есть снова борелевское множество в Rn ), иначе оценка θ
∗ не будет случайной величиной. Далее мы всюду будем иметь дело только с измеримыми функциями, и отдельно это оговаривать не будем. Свойства оценок. Дадим три определения хороших свойств оценок.

О п р е д е л е н и е 4. Статистика θ

= θ

( X
1
, . . . , X
n
) называется несмещѐнной оценкой параметра θ, если для любого θ
∈ Θ выполнено равенство Eθ
∗ = θ.
О п р е д е л е н и е 5. Статистика θ

= θ

( X
1
, . . . , X
n
) называется асимптотически несмещѐнной оценкой параметра θ, если для любого
θ
∈ Θ имеет место сходимость Eθ

→ θ при n → ∞.
О п р е д е л е н и е 6. Статистика θ

= θ

(X1, . . . ,Xn) называется состоятельной оценкой параметра θ, если для любого θ
∈ Θ имеет место сходимость θ
∗ p−→ θ при n → ∞.
Несмещѐнность—свойство оценок при фиксированном n. Означает это свойство отсутствие ошибки «в среднем», т. е. при систематическом использовании данной оценки. Несмещѐнность является желательным, но не обязательным свойством оценок. Достаточно, чтобы смещение оценки
(разница между еѐ средним значением и истинным параметром) уменьшалось с ростом объѐма выборки. Поэтому асимптотическая несмещѐнность является весьма желательным свойством оценок. Свойство состоятельности означает, что последовательность оценок приближается к неизвестному параметру при увеличении количества наблюдений. В отсутствие этого свойства оценка совершенно «несостоятельна» как оценка.
П р и м е р 3. Пусть X
1
, . . . , X
n
—выборка объѐма n из нормального распределения Na,ζ
2
, где a
∈ R, ζ > 0. Как найти оценки для параметров a и
ζ
2
, если оба эти параметра (можно считать это и одним двумерным параметром) неизвестны?
Мы уже знаем хорошие оценки для математического ожидания и дисперсии любого распределения. Оценкой для истинного среднего a = EX
1
может служить выборочное среднее a
∗ = X. Теорема 6 утверждает, что эта оценка несмещѐнная и состоятельная.
2. Метод моментов
Рассмотрим некоторые стандартные методы получения точечных оценок. Метод моментов предлагает для нахождения оценки неизвестного параметра использовать выборочные моменты вместо истинных. Этот метод заключается в следующем: любой момент случайной величины X
1
(например, k -й) является функцией от параметра θ. Но тогда и параметр θ может оказаться функцией от теоретического k -го момента. Подставив в эту функцию вместо неизвестного теоретического k -го момента его выборочный аналог, получим вместо параметра θ его оценку θ
∗.

Пусть X
1
, . . . , X
n
—выборка объѐма n из параметрического семейства распределений F
θ
, где θ
∈ Θ⊆R. Выберем некоторую функцию g(y) : R → R так, чтобы существовал момент и функция h была обратима в области Θ.







КРИТЕРИИ СОГЛАСИЯ
Критериями согласия обычно называют критерии, предназначенные для проверки простой гипотезы H
1
= {F = F
1
} при сложной альтернативе H
2
=
{H
1
неверна}. Мы рассмотрим более широкий класс основных гипотез, включающий в том числе и сложные гипотезы, а критериями согласия будем называть любые критерии, устроенные по одному и тому же принципу. А именно, пусть задана некоторая случайная величина, измеряющая отклонение эмпирического распределения от теоретического, распределение которой существенно разнится в зависимости от того, верна или нет основная гипотеза. Критерии согласия принимают или отвергают основную гипотезу исходя из величины этой функции отклонения.
1.
Общий вид критериев согласия
Мы опишем конструкцию критерия для случая простой основной гипотезы, а в дальнейшем будем еѐ корректировать по мере изменения задачи.
Пусть X = (X
1
, . . . , X
n
) —выборка из распределения F. Проверяется основная гипотеза H
1
= {F = F
1
} при альтернативе H
2
= {F = F
1
}.
О п р е д е л е н и е 30. Пусть существует борелевская функция ρ(X), обладающая следующими свойствами:
(K1) если гипотеза H1 верна, т. е. если X
i
⊂ = F
1
, то ρ(X)
⇒ G, где G —полностью известное непрерывное распределение;
(K2) если гипотеза H
1
неверна, т. е. если X
i имеют какое-то распределение F
2
= F
1
, то |ρ( X)|→ ∞ при n → ∞ для любого такого F
2
Для случайной величины η
⊂ = G определим постоянную C из равен- ства ε = P(|η| > C). Построим критерий
Этот критерий называется критерием согласия.
Критерий согласия «работает» по принципу: если для данной выборки функция отклонения велика по абсолютному значению, то это свидетельствует в пользу альтернативы, и наоборот. При этом степень
«великости» определяется исходя из того, как функция отклонения должна себя вести, если бы основная гипотеза была верна. Действительно, если H
1
верна, статистика ρ(X) имеет почти распределение G. Следовательно, она должна себя вести подобно типичной случайной величине η из этого распределения. Но для той попадание в область {|η| > C} маловероятно: вероятность этого события равна малому числу ε. Поэтому попадание величины ρ(X) в эту область заставляет подозревать, что гипотеза H1 неверна. Тем более, что больших значений величины |ρ(X)| следует ожидать именнопри альтернативе H2.
Убедимся в том, что этот критерий имеет (асимптотический) размер ε и является состоятельным. Повторим определение состоятельности критерия.

Поскольку альтернатива H
2
всегда является сложной, то, как мы уже отмечали, вероятность ошибки второго рода любого критерия δ будет зависеть от конкретного распределения F
2
из числа альтернатив.
О п р е д е л е н и е. Критерий δ для проверки гипотезы H1 против сложной альтернативы H2 называется состоятельным, если для любого распределения F2, отвечающего альтернативе H2, вероятность ошибки второго рода стремится к нулю с ростом объѐма выборки:
Т е о р е м а 22. Критерия согласия δ, заданный в определении 30, имеет асимптотический размер ε и является состоятельным.
Д о к а з а т е л ь с т в о. Условие (K1) отвечает за размер критерия: называют реально достигнутым уровнем значимости критерия. По ве личине
ε
∗ можно судить о том, следует принять или отвергнуть основную гипотезу.
Именно это число является результатом проверки гипотезы в любом статистическом пакете программ. Каков же смысл величины ε
∗?
Легко проверить, что критерий (23) можно записать так:
При больших n вероятность стремится к ε
∗ или равна ей—в зависимости от того, является G точным или предельным распределением для ρ(X).

Критерии для проверки гипотезы о распределении




3. Критерии для проверки однородности




Из теоремы 28 следует свойство (K
1
): если H
1
верна, т. е. если a
1
= a
2
, то величина ρ = t n+m−2
имеет распределение Стьюдента T
n+m−2
. Поэтому остаѐтся по ε найти C = η
1
−ε/2 —квантиль распределения T
n+m−2.
Критерий Стьюдента выглядит как все критерии согласия:



Поделитесь с Вашими друзьями:


База данных защищена авторским правом ©nethash.ru 2017
обратиться к администрации

войти | регистрация
    Главная страница


загрузить материал