Домой / Основные настройки / Информационно-поисковые системы и их классификация. Информационно-поисковые системы (ипс) и их виды

Информационно-поисковые системы и их классификация. Информационно-поисковые системы (ипс) и их виды

Тема 2. Информационно-поисковые и информационно-справочные системы

Содержание

2.4. Упражнение

2.5. Контрольные вопросы.

Ключевые слова

Классификационный индекс. Поисковое предписание. Поисковый образ документа. Поисковый образ запроса. Система метаданных. Сетевой доступ. Произвольный запрос. Работа по сценарию. Электронная библиотека. Машиночитаемый каталог.

2.1. Информационно-поисковые системы

Принципы формирования типовой информационной структуры:

Однократный ввод и многократное использование информации;

Полнота удовлетворения информационных потребностей основных групп пользователей;

Оперативное пополнение ресурсов обязательными документами;

Комфортный доступ к ресурсам в off - и on - line режимах;

Выполнение как конкретных узко тематических, так и широких по тематике запросов.

Запросы, которые формируют пользователи информационных систем, реализуются следующими способами:

Сообщения, являющиеся ответом на запрос, хранятся в явном виде в базе данных, и процесс получения ответа представляет собой выделение подмножества знаний из файлов базы данных, удовлетворяющих запросу;

Ответ не существует в явном виде в базе данных и формируется в процессе логического вывода на основании имеющихся данных.

Теория информационного поиска начиналась с исследования особенностей документальных информационно-поисковых систем (ИПС). Под информационным поиском в таких системах понимается некоторая последовательность операций, выполняемых с целью отыскания документов (статей, научно-технических отчетов, описаний к авторским свидетельствам и патентам, книг и т.д.), содержащих определенную информацию (с последующей выдачей самих документов или их копий), или с целью выдачи фактических данных, представляющих собой ответы на заданные вопросы.

Массив элементов информации, в котором производится информационный поиск, называется поисковым массивом. Существующие виды информационного обслуживания представлены в таблице:

Признак классификации

Вид обслуживания

По источнику инициативы

Принудительное;

По запросам потребителей

По типам документов

По направленности или адресности

Информационные издания (много адресов);

Избирательное распределение информации (один адрес)

По периодичности или срочности

Текущее оповещение;

Ретроспективный поиск

По способу доведения документов до потребителя

Непосредственная передача документов или их копий потребителям;

Двухступенчатое обслуживание (вначале информационное издание, а затем – копии заинтересовавших потребителя документов

По назначению, цели

Ознакомление;

Для практического использования

Способы реализации видов и форм обслуживания зависят от вида, назначения и способа реализации конкретной ИПС. Очевидно, что прочитать каждый документ библиотеки, чтобы найти необходимый, практически невозможно. Поэтому на протяжении истории развития информационного поиска разрабатывались и совершенствовались методы поиска.

Каждому документу, вводимому в поисковый массив, ставится в соответствии поисковый образ документа (ПОД), который представляет собой характеристику, отражающую основное смысловое содержание документа (этим ПОД отличается от кода, присваиваемого информационному элементу в фактографических ИС). В виде такой же краткой характеристики – поискового предписания или поискового образа запроса (ПОЗ) должны быть сформулирован и информационный запрос. Благодаря этому процедура поиска может быть сведена к простому сопоставлению поисковых образов документов с поисковым предписанием.

Для сопоставления ПОД и ПОЗ разрабатывают и применяют различные критерии поиска или критерии смыслового соответствия. Точность поиска определяется точностью отображения документов и запросов с помощью их поисковых образов и степенью совпадения ПОД и ПОЗ. Поэтому возможна неполнота выдачи документов, либо, напротив, «поисковый шум», которые представляют собой своеобразную плату за облегчение процедуры информационного поиска.

Процедура выражения основного смыслового содержания документа и информационных запросов на информационно-поисковом языке получила название индексирования и составляет существенную часть аналитико-синтетической обработки документов. Информационный поиск, таким образом, заключается в замене содержательного прочтения полного текста документов формальным «сличением» (сравнением на соответствие) их поисковых образов с запросами на языке индексов.

Информационный поиск реализуется при помощи информационно-поисковой системы , которая в абстрактном виде должна состоять из информационно-поискового языка, правил перехода на этот язык и критерия смыслового соответствия, определяющего объем выдачи документов или информации.

Модель организации данных в гипертекстовых справочных системах основана на сочетании ассоциативных гиперссылок и иерархического принципа организации фрагментов и документов. Концептуальная схема информационно-поисковой системы представлена на рисунке:

Модель организации данных в гипертекстовых справочных системах основана на сочетании ассоциативных гиперссылок и иерархического принципа организации фрагментов и документов.

Поисковые системы подразделяются на каталоги и указатели; они различаются технологией подготовки справочного материала: каталоги составляют люди, а указатели формируются автоматически. Самый крупный каталог Интернет – Yahoo ! (www . yahoo . com ); он содержит более миллион ресурсов и поддерживается 150 редакторами. Ведущий каталог России – List . Ru (www . list . ru ): 100 тысяч ссылок, классифицированных по 18 каталогам.

Язык поисковых слов служит для координатного индексирования документов и запросов посредством дескрипторов и ключевых слов. В его основе лежит алфавитный перечень лексических единиц, или словарь ключевых слов. Именно язык ключевых слов открыл возможность для автоматизации информационного поиска. Он позволяет достаточно детально и многоаспектно раскрывать содержание документов. Дескрипторы и ключевые слова легко дополняются и обновляются, поскольку в алфавитный перечень можно включать любую лексическую единицу, необходимую для индексирования.

Информационно-поисковые каталоги является традиционными технологиями организации информационного поиска в документальных фондах библиотек, архивов и представляют собой классификационную систему знаний по определенной предметной области. Смысловое содержание документа в информационно-поисковых каталогах отображается тем или иным классом каталога, а индексирование документов заключается в присвоении каждому документу специально кода (индекса), соответствующего по содержанию классу (классам) каталога, и создании на этой основе специального индексного указателя.

Система метаданных является центральным логическим компонентом любой электронной библиотеки (ЭБ). Подобно тому, как библиотечный каталог организует все множество единиц хранения в систему библиотечных фондов, вокруг которой строятся все библиотечные технологии, система метаданных организует совокупность электронных информационных ресурсов (или цифровых объектов) библиотеки.

На основе системы метаданных строятся основные технологические процессы ЭБ:

Навигация в информационном пространстве;

Поиск отдельных цифровых объектов (информационных ресурсов) или их совокупностей;

Ввод, обработка и организация хранения цифровых объектов, а также их исключение (изъятие);

Управление правами доступа к цифровым объектам, включая защиту авторских прав, организации платы за доступ и т.п.

Типы метаданных:

Описательные – библиографическая информация или другие сведения о содержании (семантике) цифровых объектов.

Структурные – сведения о форматах, структуре, объеме и других формальных свойствах цифровых объектов;

Административные – права, разрешения на доступ, на коррекцию данных, данные о пользователе, данные для систем оплаты, технологические данные.

Общим типом метаданных является идентификатор , задача которого – однозначное представление цифрового объекта для внешнего лица и различных приложений.

Системы метаданных определяют класс задач, которые реализуются в ЭБ и решающим образом влияют на интероперабельность (совместимость) коллекций, имеющихся в библиотеке. Тем самым принятие тех или иных принципов в отношении метаданных фактически определяет стоимость проектов по созданию ЭБ и эффективность затрат на эти проекты.

Известны следующие системы метаданных:

MARC – машиночитаемый каталог. CSDGM – стандарт цифровых геопространственных данных. GILS – глобальная (правительственная) служба поиска информации. EAD – кодировка архивных описаний, используемая для стандартизации и классификации уникальных архивов материалов, прежде всего рукописей. TEI – инициатива по кодированию текстов. Формат Государственного регистра баз и банков данных – содержит систему метаданных для баз данных и других электронных наборов данных.

Международная группа под руководством Stuart Weber & OCLC (штаб-квартира в Дублине, штат Огайо, США) разработала систему метаданных «Дублинское ядро».

Набор метаданных Дублинского ядра составляют 15 элементов:

Заголовок ( Title ) – название, присвоенное ресурсу создателем или издателем.

Автор ( Creator ) – человек или организация, изначально ответственная за интеллектуальное содержание ресурса (в случае рукописного документа это авторы; в случае визуальных ресурсов – исполнители, фотографы, иллюстраторы).

Предмет ( Subject ) – тема ресурса. Обычно предмет выражается в ключевых словах или фразе, описывающей предмет или содержание ресурса. приветствуется использование контролируемых словарей и формальных схем классификации.

Описание ( Description ) – текстовое описание содержания ресурса, включая реферат в случае документов или описания содержания в случае визуального ресурса.

Издатель ( Publisher ) – организация, ответственная за состояние ресурса в его представленной форме: издательский дом, университетский департамент, корпорация.

Участник создания материала ( Contributor ) – человек или организация, которые не являются авторами (не обозначены в элементе «автор»), но внесли значительный интеллектуальный вклад в ресурс; чей вклад вторичен по отношению к любому человеку или организации, указанной в числе авторов: редактор, переводчик, иллюстратор.

Дата ( Date ) – дата, указывающая на создание или появление ресурса (в доступном виде).

Тип ( Type ) – категория ресурса: домашняя страничка, роман, поэма, статья, препринт, технический отчет, эссе, словарь.

Формат ( Format ) – формат представления данных ресурса (обычно указывается тип программного обеспечении и, возможно, тип компьютера, которые могут быть необходимы для отображения ресурса и работы с ним).

Идентификатор ( Identifier ) – набор букв или цифр, который обычно используется для уникальной идентификации ресурса.

Источник ( Source ) – информация об источнике, из которого получен представленный ресурс.

Язык ( Language ) – язык, на котором изложено интеллектуальное содержание ресурса.

Связь ( Relation ) – идентификатор первичного ресурса и его связь с представленным ресурсом. Этот элемент позволяет связывать между собой близкие ресурсы, а также описание ресурса, которые необходимо показать. Например, издание книги и глава книги.

Охват ( Coverage ) – характеристика местонахождения и временной продолжительности ресурса.

Права ( Rights ) – утверждение об авторских правах и управление ими (идентификатор, связанный с такими утверждением; идентификатор, связанный с сервисом, представляющим информацию об управлении правами на данный ресурс).

2.2. Информационно-справочные системы. Библиотеки. Архивы

Доступ к данным осуществляется в соответствии с их структу­рой, заданной описанием данных, и представляет собой процедуру обхода вершин дерева данных. В процессе обхода в текущей вершине можно производить определенные действия с данными: читать и изме­нять данные, создавать новые вершины, удалять текущие вершины вместе с их поддеревьями и т.д. При этом все выполняемые в про­цессе обхода дерева данных движения представляют собой либо переходы, согласованные с иерархией дерева, либо прямые переходы по ссылкам. Совокупность таких переходов называется траекторией в де­реве данных или в базе данных.

В соответствии с траекторией дерева данных выполнение запро­са логически разбивается на части, относящиеся к обработке групп данных раз­личными процедурами. Последовательность доступа к данным по траектории дерева данных определяет последовательность выполнения процедур обработки, а наличие данных – сам факт выпол­нения процедур (фактически доступ к данным управляет выполнением процедур). Таким образом, запрос представляет собой сложную смесь считывания данных из базы и выполнения процедур.

Диалоговый интерфейс обеспечивает и различные формы взаимодействия:

Работа по сценарию;

Работа с произвольными запросами;

Работа по созданию сценария.

Работа по сценарию . Это – основной режим работы прикладных конеч­ных пользователей. Взаимодействие происходит на языке, состоящем из меню, команд и бланков, подлежащих заполнению и выдаваемых по заданному сценарию. Сценарий отражает профессиональные интересы пользователей и создается в понятных ему терминах. В состав сце­нария включаются средства подсказки и обучения. Пользователю не нужно знать структуру данных и изучать специальный язык манипули­рования данными. Сценарий создается администратором и оперативно­му изменению не подлежит.

Работа с произвольными запросами . Это – режим работы пользовате­лей-профессионалов в сфере обработки данных. Такая форма взаимо­действия доступна подготовленным пользователям, знающим структуру информационной базы и язык манипулирования данными. Пользователь может работать со схемой базы данных (определять, удалять, изме­нять отношения) в пределах предоставленных ему полномочий. Для манипулирования данными используется язык реляционного интерфей­са. Диалог состоит из запросов на языке реляционного интерфейса, команд управления и редактирования и ответов на них, передаваемых через диалоговый интерфейс.

Работа по созданию сценария . Это – режим работы администратора. Сценарий работы прикладных конечных пользователей создается адми­нистратором совместно с прикладными пользователями. Формирование сценария ведется в диалоговом режиме. В процессе работы админист­ратор имеет возможность проверить созданный им сценарий и опера­тивно откорректировать его. Администратор создает систему меню и связанных с меню запросов, а также описывает экранные формы в со­ответствии с требованиями конечных пользователей.

Диалог прикладного конечного пользователя задается иерархи­ческой системой меню, содержащих описание последовательности ра­боты в терминах определенной предметной области. Для формули­рования запросов пользователям предоставляется специализированный полноэкранный редактор. Стратегия диалога основана на концепции контекстной помощи, чередующейся с запросами. Фрагмент, состоящий из ключевого слова и свя­занного с ним текстового поля, становится самостоятельным объек­том. Укрупнение объектов редактирования позволяет ускорить обра­ботку запросов, а диалоговые средства работы с шаблонами снижают возможность случайного внесения ошибок в текст запросов.

Электронные библиотеки

Основными базовыми определениями являются:

Библиографическая БД – документальная база данных, запись в которой содержится только библиографическое описание.

Библиотечная система – совокупность взаимодействующих библиотек, объединенных на определенных договорных условиях в целях более полного удовлетворения запросов пользователей и эффективного использования библиотечных ресурсов.

Библиографирование – процесс подготовки библиографической информацию.

Библиографическая запись – совокупность библиографических сведений о документе, приведенных по определенным правилам, устанавливающим порядок следования областей и элементов, и предназначенных для идентификации общей характеристике документа.

Библиотечный каталог – совокупность расположенных по определенным правилам библиографических записей на документы, раскрывающая состав и содержание фонда библиотеки или информационного центра.

Индексирование – выражение содержания документа или смысла информационного запроса на ИПЯ.

Классификационный индекс – поисковый образ, построенный средствами классификационного ИПЯ.

Поисковое предписание – текст, включающий поисковый образ запроса и указания о логических операциях, подлежащих выполнению в процессе информационного поиска.

Осознание необходимости и преимуществ стандартизации в библиотечной среде пришло с началом использования машиночитаемых библиографических записей и обмена ими.

С этим периодом связано начало разработки отечественной системы стандартов по информатике, библиотечному издательскому делу – СИБИД (конец 70-х – начало 80-х годов). ГОСТы на библиографическое описание устанавливали общие принципы и правила составления описания для различных видов документов: набор элементов библиографического описания, последовательность их расположения, наполнение и способ представления каждого элемента, применение условных разделительных знаков.

Стандарты на библиографические описания появились как результат пересмотра национальных правил каталогизации в связи с созданием в 1977 году «Международного стандарта библиографического описания» (ISBD ). Как известно, ISBD превратилось в международный стандарт ISO , который требовал пересмотра национальных правил в странах-членах ISO и создания соответствующих национальных стандартов.

Свойс­тва автоматизированной библиотечной системы:

Устранение значительной части примитивной или чисто канце­лярской работы;

Устранение ошибок, попадающих в систему;

Постоянство информации внутри системы;

Быстрота ответов на запросы.

Одной из важных функций библиотечных автоматизированных сис­тем является выдача ответов на запросы пользователей. В процессе формирования запроса пользователем должна быть идентифицирована та часть информационной базы, которая имеет отношение к выдаче справки, а также установлено предписание, задающее критерии отбора данных, и процедура извлечения нужных сведений из базы данных. Процедура поиска включает информацию, идентифицирующую часть базы данных, предикат, определяющий критерий отбора данных, и оператор извлечения.

Электронная библиотека – распределенная информационная система, позволяющая надежно сохранять и эффективно использовать разнородные коллекции электронных документов (текст, графика, аудио, видео) через глобальные сети передачи данных в удобном для конечного пользователя виде. Базовой единицей электронной библиотеки является электронный архив модульной структуры.

Электронная библиотека предназначена для выполнения следующих функций:

Автоматизированная регистрация поступающих материалов;

Перенос твердых копий на магнитные носители;

Индексирование поступающих материалов;

Библиографическое описание поступающих материалов;

Реферирование и аннотирование поступающих материалов;

Формирование ссылочных каталогов на внешние (сетевые) источники;

Автоматизированный поиск информации (индексирование информационных запросов);

Оборудование АРМ абонентов и их эксплуатация;

Связь с внешними источниками информации (сетевой сервис);

Вспомогательные работы: копирование документов на бумагу, магнитные носители, микроленту, фотобумагу, микрофиши;

Издание реферативных журналов и бюллетеней информации;

Организация справочной службы и служб сопровождения.

Средства, разрабатываемые для автоматизированных библиотечных систем по охвату поддерживаемых библиотечных процессов и услуг, классифицируют следующим образом:

Автоматизированные информационно-библиотечные системы (АИБС);

Автоматизированные рабочие места (АРМ), которые разрабатываются либо как программные модули библиотечной системы, либо как самостоятельные информационные системы;

Электронные справочные системы (включая полнотекстовые);

Автономные автоматизированные системы поддержки и эксплуатации информационных баз данных различного назначения.

Работа пользователя в электронной библиотеке осуществляется в режиме диалога с использованием иерархической системы меню. Предусмотрена возможность модификации имеющихся и создание новых меню в соответствии с конкретными потребностями пользователя.

Электронные архивы

При разработке управленческих документов часто возникает необходимость обращения к архивным документам, а при последующем хранении – процедура сдачи документов в Государственный архив и формирования собственных архивов.

Под архивным фондом понимается совокупность документов, отражающих материальную и духовную жизнь ее народов, имеющих историческое, научное, социальное, экономическое, политическое или культурное значение и являющихся неотъемлемой частью историко-культурного наследия народов РФ.

Под архивным документом понимается документ, сохраняемый или подлежащий сохранению в силу его значимости для общества, а равно имеющий ценность для собственника.

Под архивом понимается совокупность архивных документов, а также архивное учреждение или структурное подразделение учреждения, организации или предприятия, осуществляющее прием и хранение архивных документов в интересах пользователей.

Под тайным архивом понимается архив, о котором не заявлено публично.

Под архивным делом понимается деятельность по организации хранения, учета и использования архивных документов.

Электронный архив – универсальная система управления документами, основным назначением которой является централизованное хранение документов и их версий, обеспечение доступа сотрудников к документам для просмотра или редактирования, и быстрый поиск информации. Компоненты электронного архива представлены на рисунке:


Использование архива позволяет упорядочить хранение документов и организовать работу с ними, сократив при этом накладные расходы, связанные с доступом к документам.

В электронном архиве можно хранить документы любых типов – офисные документы, тексты, изображения, аудио и видео файлы, документы систем проектирования, архивы, приложения и т.д. Как показывает опыт, архивы чаще всего используют для управления внутренней, организационно-распорядительной документацией и договорами. В электронном архиве документы хранятся в папках-рубрикаторах, структуру которых можно организовать, например, в соответствии с иерархией отделов предприятия, назначая каждому разделу ответственного администратора. Основным преимуществом подобного архива является наличие достаточных возможностей при доступной цене. В сочетании с широкими возможностями масштабирования это позволяет эффективно использовать его как на малых, так и на крупных предприятиях.

Функции электронного архива:

Хранение документов. С помощью архива можно сформировать централизованное хранилище документов и обеспечить управляемый доступ сотрудников к документам, как по локальной сети, так и через Интернет. Документы хранятся в гибко настраиваемой структуре папок-рубрикаторов.

Создание документов. Документы в архиве можно создавать на основе заранее сформированных шаблонов, или путем переноса каталогов и файлов с локального или сетевого диска в нужные папки. Поддерживается ввод документов со сканера, в том числе и потоковый, с возможностью автоматического распознавания (OCR версия). Служба распознавания работает на сервере архива в фоновом режиме.

Учет документов На каждый документ в архиве ведется учетно-регистрационная карточка, набор реквизитов которой соответствует ГОСТ Р 6.30-2003 и требованиям ГСДОУ. Состав и расположение реквизитов карточки являются жестко настроенными и не могут быть изменены.

Взаимодействие пользователей. В архиве пользователи могут обмениваться сообщениями, присоединяя к ним ссылки на документы системы. Предусмотрена отправка документов по электронной почте. С целью упорядочивания работ с документами предусмотрена возможность выдачи поручений и контроля их исполнения.

Работа с документами. Для просмотра и редактирования документов архив использует соответствующие приложения. Ряд распространенных форматов документов, например, тексты, изображения, RTF -документы, HTML -документы и документы Microsoft Office , можно просматривать непосредственно, не переключаясь в другое приложение.

Регистрация корреспонденции. В архив можно вести учет и регистрацию входящей и исходящей корреспонденции. При этом осуществляется автоматическая генерация сквозных регистрационных номеров.

Коллективный доступ. Архив обеспечивает коллективный доступ сотрудников к документам, как для просмотра, так и для редактирования. Конфликты при одновременном редактировании документов исключаются благодаря механизму блокировки документов.

Сетевой доступ. Входящие в комплект поставки компоненты позволяют организовать доступ к документов с помощью обычных web -браузеров. Это позволяет, например, подключить к системе клиентов или сотрудников, работающих вне офиса.

Поиск. Архив позволяет искать документы не только по реквизитам учетной карточки, но и по тексту, с учетом морфологии русского языка, т.е. находить любые формы слов, указанных в поисковом выражении.

Права доступа. Каждому объекту архива (документу или папке) можно назначить набор прав доступа. Поддерживаются группы пользователей и наследование прав. Права ранжируются на девять критериев: просмотр, открытие, редактирование, управление версиями, перемещение, право подписи, право изменения, создание и удаление. Все действия пользователей, связанные с изменениями объектов архива или доступом к ним, протоколируются и могут просматриваться администратором системы.

Интеграция с внешними приложениями. В состав архива входят механизмы интеграции системы с внешними приложениями, позволяющие:

Включать в существующий архив дополнительные функции;

Разрабатывать автоматизированные системы пакетной обработки;

Создавать узкоспециализированные приложения для работы с документами;

Разрабатывать Интернет-решения для доступа к документным базам данных.

2.3. Организационно-административная система вуза

Система предназначена для решения следующих функций:

1. Рациональное использование вычислительной техники.

2. Усиление интеллектуальных возможностей субъектов педагогичес­кого управления и научно-исследовательской деятельности.

3. Совершенствование контроля над качеством учебно-воспитательного процесса.

4. Дозировка загрузки преподавателей и учащихся.

5. Оптимизация расписания занятий при наилучшем использовании по­мещений и оборудования с учетом педагогических и медицинских требова­ний.

6. Создание сетевых графиков прохождения предметов и дисциплин.

7. Накопление, систематизация и оперативное представление необхо­димых сведений о результатах учебно-воспитательной деятельности.

8. Распределение затрат с учетом повышения эффективности учебного процесса.

9. Принятие оптимальных научно-обоснованных решений.

Компоненты системы:

1. Компьютерные классы общего профиля (информатика, программирование, самостоятельная работа).

2. Компьютерные классы специализированного профиля/лаборатория (начальная школа, мультимедиа, моделирование).

3. Административный комплекс (архивы, финансы, справочная служба).

4. Демонстрационный комплекс (учебное телевидение, аудио- и видеосредства, слайды).

5. Издательский комплекс (набор, сканирование, редактирование, тиражирование).

6. Библиотечный комплекс.

7. Коммуникационный комплекс.

Структура автоматизированной системы «Высшее учебное заведение» представлена на рисунке:


В качестве примера приведем функции базовой подсистемы Учебная часть, предназначенной для организа­ции учебного процесса:

Организация работы с учебными планами по всем специальностям;

Организация работы с тематическим планом;

Планирование объемов учебной работы кафедрам;

Распределение фонда почасовой оплаты по кафедрам;

Организация работы приемной комиссии;

Контроль выполнения учебных поручений кафедрами.

При работе с учебным планом выделены следующие функциональные операции: Просмотр плана, Формирование выписки, Просмотр выписки (вы­писку можно формировать по факультету, по предмету, по курсу).

Доступная информация хранится в базах:

Учебный план, Темати­ческий план, Объемы учебной работы, Карты заданий.

По каждой базе возможна реализация следующих информационных операций:

Просмотр запи­сей, Редактирование базы в целом, Добавление записей, Удаление записей, Модификация записей.

2.4. Упражнение

Ознакомиться с возможностями информационно-поисковых систем.

1. Использование тематических поисковых каталогов

Поисковые каталоги осуществляют поиск нужной информации путем использования многоуровневых списков, в которых возможная тематика поиска разбита на различные рубрики. Выбрав интересующую его рубрику, пользователь переходит на следующий, более подробный уровень, который представляет собой список подчиненных рубрик, и так далее. Конечным результатом поиска является один или список нескольких серверов, содержащих искомую информацию.

Использование англоязычного поискового каталога Yahoo!

Запустите Internet Explorer, если он еще не запущен. В поле Адрес введите http://www.yahoo.com и нажмите клавишу Enter . В появившейся странице поискового каталога выберите рубрику-ссылку Recreation&Sport и перейдите на следующий уровень. Аналогично, последовательно выбирая рубрики-ссылки Magazines, Bodybuilding, Master Trainer, войдите на сервер, содержащий выбранную информацию, и просмотрите ее.

Использование русскоязычного поискового каталога «Желтые страницы Интернет»

В поле Адрес введите http://www.piter-press.ru и нажмите клавишу Enter . Последовательно выбирая рубрики-ссылки Регионы и города, Санкт-Петербург, Живая камера на Мойке Вы увидите на выбранном сервере живые кадры одного из уголков нашего города.

Использование русскоязычного поискового каталога «АУ!»

В поле Адрес введите http://www.au.ru и нажмите клавишу Enter . Последовательно выберите рубрики-ссылки Семья-дом-досуг, Развлекательные серверы, Городской кот. Вы увидите страницу с указанной тематикой.

Использование русскоязычного поискового каталога «Созвездие Интернета»

В поле Адрес введите http://www.stars.ru и нажмите клавишу Enter . Выберите, например, рубрику-ссылку Отдых и развлечения и далее найдите ту развлекательную информацию, которая Вам по душе.

Использование поисковых систем

Поисковые системы (машины поиска) осуществляют автоматический поиск информации по ключевым словам или по группе ключевых слов, образующих с помощью специальных средств некоторый сложный запрос. Результатом такого поиска является список всех найденных в Интернете страниц, содержащих указанные ключевые слова в сочетании, определяемом условиями запроса. Далее можно просмотреть любую из найденных страниц в этом списке. В данном разделе рассматриваются возможности простого поиска: по одному или нескольким ключевым словам без использования специальных средств построения запросов.

Наиболее известны следующие поисковые системы:

AltaVista – http://www.altavista.digital.com

Я ndex – http://www.yandex.ru

Рэмблер – http://www.rambler.ru

Поиск по одному слову, заданному маленькими буквами

Результат поиска – все найденные страницы, содержащие заданное слово, записанное любыми буквами).

Введите в поле Адрес http://www.altavista.digital.com и нажмите клавишу Enter. После открытия начальной страницы этой поисковой системы введите в поле поискового запроса ключевое слово для поиска, например, Москва и нажмите кнопку начала поиска. Отметьте количество найденных страниц и просмотрите несколько из них.

Введите в поле Адрес окна Internet Explorer адрес системы http://www.yandex.ru и нажмите клавишу Enter . После открытия начальной страницы этой поисковой системы введите в поле поискового запроса ключевое слово для поиска Москва и нажмите кнопку начала поиска. Отметьте количество найденных страниц и просмотрите несколько из них. Повторите эти же операции для системы http://www.rambler.ru

Поиск по одному слову, заданному с большой буквы

Результат поиска – все страницы, содержащие заданное слово, записанное с большой буквы (для некоторых поисковых систем могут быть и другие результаты).

Повторите поиск во всех трех системах, задав ключевое слово для поиска Москва Адрес . Сравните результаты поиска с предыдущим пунктом.

Поиск по нескольким словам

Результат поиска – все найденные страницы, содержащие хотя бы одно из заданных слов (для некоторых поисковых систем могут быть и другие результаты).

Продажа автомобилей . При выборе поисковой системы используйте раскрывающийся список для поля Адрес

Поиск по нескольким словам, заключенным в кавычки

Результат поиска – все страницы, содержащие заданное словосочетание как единое целое.

Осуществите поиск во всех трех системах, задав сочетание слов для поиска – Продажа автомобилей . При выборе поисковой системы используйте раскрывающийся список для поля Адрес . Проанализируйте результаты поиска.

Использование поисковых систем: расширенные возможности

В поисковых системах существуют средства, позволяющие формировать сложные поисковые запросы. Полный набор этих средств может существенно отличаться от системы к системе. Однако можно выделить несколько операций для построения запросов, которые можно использовать в большинстве поисковых систем. Эти операции применяются к ключевым словам для задания сложных условий отбора при поиске.
Операция AND или & означает, что в искомых страницах должны присутствовать оба ключевых слова, например, выражение процессор AND сканер требует найти страницы, в которых присутствуют оба слова: процессор и сканер.

Операция OR или | означает, что в искомых страницах должно присутствовать хотя бы одно из ключевых слов, например, выражение процессор OR сканер требует найти страницы, в которых присутствуют или слово процессор, или слово сканер, или оба этих слова.

Операция NOT , или!, или ~ означает, что в искомых страницах должно отсутствовать ключевое слово, к которому она применена. Например, выражение NOT сканер требует найти страницы, в которых отсутствует слово сканер.

Группировка, обозначаемая скобками, означает, что операция применяется не к одному слову, а ко всему выражению, стоящему в скобках. Например, выражение (процессор AND сканер) OR (дисковод AND разъем) требует найти страницы, в которых вместе присутствуют слова процессор и сканер , или вместе присутствуют слова дисковод и разъем, или все эти четыре слова.

Применение рассмотренных операций часто требует предварительной установки режима (или перехода в режим) расширенного поиска (Advanced Search).

2.5. Контрольные вопросы

1. На каких принципах формируются типовые информационные структуры?

2. Что понимается под информационным поиском ?

3. Дайте определение информационно-поисковому языку.

4. Назовите типы метаданных, используемых в системе «Дублинское ядро».

5. Какие формы взаимодействия обеспечивает диалоговый интерфейс?

6. Охарактеризуйте свойс­тва автоматизированной библиотечной системы.

7. Какие функции выполняет электронная библиотека?

Приложение

Использованы материалы Академии управления, С.-Петербург (автор – Тишкин А.И.).

Добрый день, мои уважаемые читатели. Сегодня мы коснемся чрезвычайно интересной и важной темы – информационно поисковые системы. Умение правильно работать с ними, знание основных понятий и принципов работы смогут помочь начинающим пользователям научиться быстро и оперативно искать различную информацию в сети, получать нужные данные и быстро развивать свой интернет бизнес.

В данной статье я расскажу об истории создания систем поиска, принципах их работе и структуре. Помимо этого, остановлюсь на очень важных фишках, которые необходимо обязательно знать при работе с ИПС.

Итак, давайте более подробно изучим, что такое ИПС, какие компоненты входят в их состав.

Информационно – поисковые системы (ИПС) и их виды

Данное понятие возникло еще в конце 80 – х, начале 90 – х годов прошлого века. Именно тогда и возникли их первые прототипы, как в России, так и за рубежом. Согласно определению – это система, которая позволяет искать, обрабатывать, отбирать требуемые данные запроса в своей особой базе, где находятся описания различных источников информации, а также правила пользования ими.

Основной ее задачей является поиск нужной пользователю информации. Для того, чтобы он был более эффективным, используется понятие релевантности, то есть то, насколько сами результаты поиска точно подходят тому или иному запросу.

К основным типам ИПС относятся следующие понятия:

Индексация каталога может производиться, как вручную, так и автоматически с обновлением индекса. В свою очередь сам результат работы системы включает в себя особый список. В него входят гиперссылка на требуемые ресурсы и описание того или иного документа в интернете.

Из наиболее популярных каталогов можно выделить: Yahoo , Magellan (зарубежные) и Weblist , Улитка и @ Rus из отечественных.


К наиболее распространенным зарубежным ИПС относят – Google, Altavista, Excite. Русские – «Яндекс» и «Рамблер».

  • В мире существует огромное количество различных видов ИПС, которые содержат множество источников информации. Разумеется, что даже наличие самого современного и мощного сервера не может удовлетворить запросы миллионов пользователей. Именно поэтому, появились специальные метапоисковые системы. Они могут одновременно пересылать запросы пользователей различным поисковым серверам, а на основе своего обобщения имеют возможность предоставить пользователю документ, содержащий ссылки на требуемый ресурс. К их числу можно отнести – MetaCrawler или SavvySearch.

История создания ИПС

Самые первые ИПС появились в середине 90 – х годов 20 века. Они весьма напоминали обычные указатели, которые находятся в любых книгах, некие справочники. В их базе данных содержались специальные ключевики (слова), которые различными способами собирались с многочисленных сайтов. Так, как интернет – технологии были не совершенными, то и сам поиск выполнялся только по ключевым словам.

Значительно позднее был разработан специальный полнотекстовый поиск, облегчающий нахождение необходимой пользователю информации. Система производила фиксацию ключевых слов. Благодаря ей, пользователи могли производить нужные запросы по тем или иным словам и различным словосочетаниям.

Одной из первых, была «Wandex». Ее разработкой занимался очень известный программист Мэтью Греэм в 1993 году. Также, в этом же году возникла и новая «поисковка» «Aliweb» (кстати, и по сей день успешно работает). Однако все они имели достаточно сложную структуру и не обладали современными технологиями.

Одной из наиболее удачных явилась «WebCrawler», которая впервые была запущена в 1994 году. Отличительной особенностью и главным преимуществом, выгодно выделяющим ее среди других систем поиска, явилось то, что она могла находить любые ключевики на той или иной странице. После этого, это стало своего рода эталоном и для всех остальным ИПС, которые разрабатывались позднее.

Значительно позже возникли и другие поисковики, которые иногда конкурировали между собой. Это были – «Excite», «AltaVista», «InfoSeek», «Inktomi» и многие другие. Начиная с 96 года, российские пользователи сети начали работать с «Рамблером» и «Апортом». Но, настоящим триумфом для российского интернета, стал созданный в 1997 году «Яндекс».

Этот российский аналог «Google» стал настоящей гордостью российских программистов. Сегодня, он уверенно теснит конкурента в рунете и также является одним из лидеров по поисковым запросам среди ИПС в России.

На сегодняшний день, имеются многочисленные специальные «поисковики», которые созданы для решения определенных задач. Так, например, информационно – поисковая система «Патрон», разработана для того, чтобы хранить и искать данные по патронам для различного оружия и сейчас применяется, как в органах Министерства Внутренних Дел и спецслужб, так и для охотников – профессионалов и любителей.

Имеются и другие, разработанные для нотариусов, врачей, инженеров, военных, автолюбителей и т д

Как работает ИПС

Работа информационно – поисковой системы является очень сложной. Однако при желании можно разобраться в ее структуре. Первое, что необходимо отметить, что существует особая программа – она называется поисковым роботом (пауком). Данная программа систематически мониторит различные страницы и индексирует их.

Веб сервер создает запрос пользователя на получение той или иной информации, а затем предоставляет данный запрос машине поиска. Поисковик исследует требуемую базу данных, потом составляет полный список страниц, а затем передает веб-серверу. Он в свою очередь окончательно формирует все результаты запроса в «читаемый» вид, затем передает их на «комп» пользователя.

ИПС предназначена для следующих целей:

  • Хранить значительные объемы данных;
  • Производить оперативный поиск нужной информации;
  • Добавлять, а также удалять различные данные;
  • Выводить информацию в простом и удобном виде.

Существуют несколько основных типов ИПС:

  • Автоматизированные
  • Библиографические
  • Диалоговые
  • Документальные

Какие поисковые системы наиболее популярны сегодня?

На первом месте, без всякого сомнения, находиться неотъемлемый лидер – «Google». На сегодняшний день, к нему адресуется около 80 процентов различных мировых запросов по самым различным сферам. Что касается второго места, то его, также заслуженно, занимает американский «eBay».

На третьем месте, наш, отечественный, российский «Яндекс». На четвертом – «Yahoo» и на пятом – MSN. Еще одним отечественным браузером, но занимающим только 10 место в рейтинге Европы – это российский «Rambler».

Google

Этот поисковик знают огромное количество пользователей. На сегодняшний день это первая по популярности система в мире! Ежемесячно она обрабатывает более 41 млрд запросов и проводит индексацию 25 миллиардов страниц.

Что касается истории создания компании «Google», то еще в 1996 году, пара студентов университета Стэнфорда – Ларри Пейдж и Сергей Брин разработали браузер, созданный на новых методах поиска. Назвали они ее просто и лаконично, как собственно и дизайн поисковой системы «Google». Собственно название google – это искаженный googol (число десять в сотой степени).

В основе нее специальный поисковый робот, который называется «Googlebot». Он производит сканирование страниц и их индексацию. В качестве алгоритма авторитетности, эта ПС . Собственно именно он обеспечивает то, как будут выдаваться страницы посетителю в поисковых результатах.

Одним из первых, эта фирма разработала и на различных языках, который значительно облегчает введение данных в систему. Ну, и наконец, именно и послужил основой для слова «гуглить», которое все чаще встречается в сленге молодых тинейджеров.

«Yahoo » – вторая по популярности в США. Ее организовали в 1994 году два аспиранта Стэнфорда – Дэвид Фило и Джерри Янг. В конце 90 –х ими был приобретен портал RocketMail и на основе него создан бесплатный почтовый сервер «Yahoo». Сегодня на ее серверах можно хранить любое количество писем. В 2010 году появляется и русскоязычный ресурс почты – Yahoo! Почта.

Яндекс

Одним из лучших российских поисковиков, вне всякого сомнения, является «Яндекс». На сегодняшний день он стоит на четвертом месте по общему количеству запросов. В то же самое время, по популярности «Яндекс» занимает сегодня первое место в Российской Федерации. Общее количество произведенных запросов превышает 250 миллионов каждый день

Он был представлен в сентябре 1997 года, а уже в мае 2011, произведя размещение своих акций на IPO, эта фирма смогла заработать наибольшее количество акций среди других интернет – компаний.

Сегодня, «Yandex» имеет 50 сервисов, из которых некоторые уникальные – Яндекс.Поиск, Яндекс.Карты, Яндекс.Маркет. Помимо этого, российских пользователей очень интересуют такие сервисы, как «Поиск по блогам», «Яндекс Пробки». Основные запросы для пользователей в основном из следующих стран ближнего зарубежья: Россия, Белоруссия, Турция и Казахстан.

Исторически фирму основал бизнесмен – программист Аркадий Волож в 1989 году. Само название компании было придумано Ильей Сегаловичем, директором «Яндекса». Благодаря сотрудничеству с институтом проблем передачи информации был создан справочный словарь с поиском.

В отличие от других браузеров, учитывает и морфологию русского языка. Таким образом, сама система предназначена именно для работы в русскоязычном сегменте интернета.

Начиная с 2010 года, помимо браузера «Yandex.ru» появился еще один поисковик «Yandex.com». Данный интернет – ресурс используется для поиска по зарубежным порталам.

Поисковая система « Ebay »

Ebay представляет собой интернет – компанию из США, которая специализируется на проведении интернет – аукционов. Она производит управление портала eBay.com, а также версиями в других странах мира. Помимо этого, в собственности фирмы есть еще одна eBay Enterprise.

Основателем фирмы является американский программист Пьер Омидьяр, который в середине 90 – х годов разработал интернет – аукцион для своего личного портала. В то же время, eBay – это своего рода посредник при купле продаже. Чтобы использовать его продавцы вносят определенный взнос, а покупатели получают возможность бесплатного использования сайта.

Общие принципы его работы следующие:

  • В основном все люди добропорядочны
  • Каждый может внести свой вклад
  • В открытом общении люди проявляют свои лучшие качества

Уже в 1995 году на тысячах онлайн аукционов продавались миллионы различных предметов. Сегодня, это мощная платформа для купли продажи, как физлицами, так и юрлицами.

С 2010 года возникла и русскоязычная версия популярного ресурса и стала называться «Международный торговый центр eBay». Оплата на аукционе производится через платежную систему «PayPal».

Для того, чтобы продать предметы на данном портале необходимо написать сколько он стоит, его стартовая цена, когда начнутся торги, а также сколько будут длиться торги. Как и в обычном аукционе, выбранный товар получает заплативший самую высокую цену.

Из плюсов подобного аукциона стоит отметить то, что продавец и покупатель могут находиться в любом месте земного шара, а наличие локальных филиалов и временных рамок предоставляют возможность участвовать в аукционах огромному количеству продавцов и покупателей.

Данная поисковая система является ведущим интернет – браузером, разработанным компанией «Microsoft». Он появился одновременно с выпуском первой операционной системы Windows 95. Далее этим названием стал пользоваться и сервис электронной почты Hotmail, а также различные веб-узлы Майкрософт. В начале 2002 года он являлся одним из самых крупных интернет – провайдеров в США и имел 9 миллионов подписчиков.

Поисковая система Rambler

Вторым крупным российским поисковиком, является интернет – портал «Rambler». По своей сути, вместе с «Яндекс» он является родоначальником рунета, а также главным игроком на рынке медиа услуг.

Основателем его является Сергей Лысаков, который в 1994 году разработала поисковую систему, а в 1996 году был зарегистрирован и домен www.rambler.ru. Начиная с 2012 года, «Рамблер» стал работать, как новостной портал.

Сегодня он имеет 11 место по популярности среди других сайтов РФ. Также, был разработан и специальный классификатор Rambler Top-100. По своей сути он был первый и в России. Сегодня – это удобный каталог объектов недвижимости «Rambler – недвижимость».

Поисковик mail

Одной из самых крупных почтовых служб явилась, созданная в 1998 году, Mail.ru. Сегодня она представляет собой службу электронной почты, каталог интернет – ресурсов и информационные разделы. Помимо очень удобной почты, она имеет ряд специальных проектов, которые весьма популярны и нужны подписчикам: «Авто Mail.ru», Афиша «Mail.ru», «Дети mail.ru», «Здоровье mail.ru», «Леди mail.ru», «Новости mail.ru» и «Недвижимость mail.ru».

Для любителей спорта и Hi-Tech есть соответствующие рубрики.

На этом я завершаю свой материал. Если вам нравилось, то, пожалуйста, подписывайтесь на мой блог и приглашайте своих родных, друзей и знакомых.

(Пока оценок нет)

Прочитано: 462 раз

http://www. *****/dir/cat32/subj385/file16459/view156596/page2.html

Информационно-поисковые системы. Вопросы к экзамену

1. Понятие информации. Виды информации. Свойства.

Информация (от лат. informatio - осведомление, разъяснение, изложение) - в широком смысле абстрактное понятие, имеющее множество значений, в зависимости от контекста. В узком смысле этого слова - сведения (сообщения, данные) независимо от формы их представления. В настоящее время не существует единого определения термина информация. С точки зрения различных областей знания, данное понятие описывается своим специфическим набором признаков. Информация - совокупность данных, зафиксированных на материальном носителе, сохранённых и распространённых во времени и пространстве.

Информация - это осознанные сведения об окружающем мире, которые являются объектом хранения, преобразования, передачи и использования.

Основные виды информации по ее форме представления, способам ее кодирования и хранения, что имеет наибольшее значение для информатики, это:

    графическая или изобразительная - первый вид, для которого был реализован способ хранения информации об окружающем мире в виде наскальных рисунков, а позднее в виде картин, фотографий, схем, чертежей на бумаге, холсте, мраморе и др. материалах, изображающих картины реального мира; звуковая - мир вокруг нас полон звуков и задача их хранения и тиражирования была решена с изобретение звукозаписывающих устройств в 1877 г. (см., например, историю звукозаписи на сайте - http://radiomuseum. *****/index9.html); ее разновидностью является музыкальная информация - для этого вида был изобретен способ кодирования с использованием специальных символов, что делает возможным хранение ее аналогично графической информации; текстовая - способ кодирования речи человека специальными символами - буквами, причем разные народы имеют разные языки и используют различные наборы букв для отображения речи; особенно большое значение этот способ приобрел после изобретения бумаги и книгопечатания; числовая - количественная мера объектов и их свойств в окружающем мире; особенно большое значение приобрела с развитием торговли, экономики и денежного обмена; аналогично текстовой информации для ее отображения используется метод кодирования специальными символами - цифрами, причем системы кодирования (счисления) могут быть разными; видеоинформация - способ сохранения «живых» картин окружающего мира, появившийся с изобретением кино.

Существуют также виды информации, для которых до сих пор не изобретено способов их кодирования и хранения - это тактильная информация, передаваемая ощущениями, органолептическая, передаваемая запахами и вкусами и др.

Свойства информации

Как и всякий объект, информация обладает свойствами. Характерной отличительной особенностью информации от других объектов природы и общества, является дуализм: на свойства информации влияют как свойства исходных данных, составляющих ее содержательную часть, так и свойства методов, фиксирующих эту информацию.
С точки зрения информатики наиболее важными представляются следующие общие качественные свойства: объективность, достоверность, полнота, точность, актуальность, полезность, ценность, своевременность, понятность, доступность, краткость и пр.

Объективность информации . Объективный – существующий вне и независимо от человеческого сознания. Информация – это отражение внешнего объективного мира. Информация объективна, если она не зависит от методов ее фиксации, чьего-либо мнения, суждения.
Пример. Сообщение «На улице тепло» несет субъективную информацию, а сообщение «На улице 22°С» – объективную, но с точностью, зависящей от погрешности средства измерения.
Объективную информацию можно получить с помощью исправных датчиков, измерительных приборов. Отражаясь в сознании человека, информация может искажаться (в большей или меньшей степени) в зависимости от мнения, суждения, опыта, знаний конкретного субъекта, и, таким образом, перестать быть объективной. Достоверность информации . Информация достоверна, если она отражает истинное положение дел. Объективная информация всегда достоверна, но достоверная информация может быть как объективной, так и субъективной. Достоверная информация помогает принять нам правильное решение. Недостоверной информация может быть по следующим причинам:
    преднамеренное искажение (дезинформация) или непреднамеренное искажение субъективного свойства; искажение в результате воздействия помех («испорченный телефон») и недостаточно точных средств ее фиксации.
Полнота информации . Информацию можно назвать полной, если ее достаточно для понимания и принятия решений. Неполная информация может привести к ошибочному выводу или решению. Точность информации определяется степенью ее близости к реальному состоянию объекта, процесса, явления и т. п. Актуальность информации – важность для настоящего времени, злободневность, насущность. Только вовремя полученная информация может быть полезна. Полезность (ценность) информации . Полезность может быть оценена применительно к нуждам конкретных ее потребителей и оценивается по тем задачам, которые можно решить с ее помощью.

Самая ценная информация – объективная, достоверная, полная, и актуальная. При этом следует учитывать, что и необъективная, недостоверная информация (например, художественная литература), имеет большую значимость для человека. Социальная (общественная) информация обладает еще и дополнительными свойствами:

    имеет семантический (смысловой) характер, т. е. понятийный, так как именно в понятиях обобщаются наиболее существенные признаки предметов, процессов и явлений окружающего мира. имеет языковую природу (кроме некоторых видов эстетической информации, например изобразительного искусства). Одно и то же содержание может быть выражено на разных естественных (разговорных) языках, записано в виде математических формул и т. д.

2. Основные термины из теории информационного поиска: документ, информационная потребность, пертинентность документа, реливантность.

Докуме́нт (от лат. documentum - образец, свидетельство, доказательство) - материальный объект, содержащий информацию в зафиксированном виде и специально предназначенный для её передачи во времени и пространстве.

Информационная потребность - потребность, возникающая, когда цель, стоящая перед пользователем в процессе его профессиональной деятельности либо в его социально-бытовой практике, не может быть достигнута без привлечения дополнительной информации.

Релевантность

Соответствие текста (документа, фактографической записи) фактической информационной потребности называется пертинентностью , а соответствие одного текста другому - релевантностью. При поиске различают смысловую и формальную релевантность.

Документ, центральный предмет или тема которого в целом соответ­ствует смысловому содержанию информационного запроса, называется релевантным, а свойство смысловой близости между двумя и более текстами (в данном случае - между документом и информационным запросом) - релевантностью . Релевантность - это фундаментальное понятие теории информационного поиска. Говорят о двух видах релевантности: смысловой и формальной . Соответствие документа содержа­нию информационного запроса называют смысловой релевантностью, а соответствие поискового образа этого документа формализованному поисковому предписанию, выражающему данный информационный запрос, - формальной релевантностью. Также формальную релевантность называют релевантностью документа, а смысловую релевантность - релевантностью информации (имеется в виду «информации, содержащейся в документе»).

3. Информационно-поисковая система. Определение. Структура ИПС.

Информационно-поисковая система (ИПС) - это упорядоченная совокупность документов (массивов документов) и информационных технологий , предназначенных для хранения и поиска информации - текстов (документов) или данных (фактов). Информационно-поиско-выми системами являются любые определенным образом организованные хранилища информации. Причем информационно-поисковые системы могут быть и неавтоматизированными. Главное - это целевая функция: хранение и поиск информации.

В зависимости от объекта хранения и типа запроса различают два вида информационного поиска: документальный и фактографический - и, соответственно, два типа ИПС - документальные и фактографические. Последние также называют информационно-справочными ИПС.

Документальными называются ИПС, в которых реализуется поиск по тематическим запросам в массиве документов или текстов с последующим предоставлением пользователю подмножества этих документов или их копий. Понятие документа может меняться от системы к системе. В общем случае это некий информационный объект, зафиксированный (обычно посредством некоторой знаковой системы) на каком-то материальном носителе (бумага, фото - и кинопленка, магнитная память и т. п.) и предназначенный для передачи в пространстве и времени в системе социальных коммуникаций.

Фактографические ИПС реализуют хранение, поиск и выдачу непосредственно фактических данных (научных, технических, экономических характеристик и свойств объектов, процессов, явлений, адресов, наименований, количественных данных и т. п.).

Главное, сущностное, различие между документальным и фактографическим поиском заключается в подходе к семантике документов. В документальных системах описывается смысл документов в целом с точки зрения их тематического, предметного содержания. В этом случае важно выявить и назвать (перечислить) основные темы и объекты, которым посвящен документ. В фактографических системах описываются объекты, фиксируются их признаки и значения этих признаков. Отсюда различия в языках описания и способах хранения описаний в системе. Соответственно, для каждого вида поиска существуют свои поисковые средства.

Фактографические системы предполагают накопление и поиск в массиве документов со строго регламентированной структурой. Такая структура является или результатом предварительной интеллектуальной обработки документов при вводе информации в систему, или наличием таких документов в готовом виде в конкретных сферах человеческой деятельности, например, учетные формы, бланки, справочники, расписания и т. п. Существуют фактографические ИПС, которые обеспечивают накопление информации и поиск только по одному типу объектов и только по одному типу запросов. Существуют и более развитые фактографические системы, обеспечивающие хранение и поиск данных, разнообразных по содержанию и структуре, но это разнообразие всегда конечно.

В то же время между документальными и фактографическими системами нет непреодолимой разницы. Нередко реальные ИПС представляют собой пример смешанных систем, в которых фактографическая информация используется как дополнительное средство документального поиска, и наоборот. В документальных системах тексты (документы) также могут быть структурированы, разбиты на фрагменты или поля, и обработка и выдача документальной информации может вестись на уровне отдельных полей.

Выделяют еще и третий тип систем, которые называют информационно-логическими. Это системы, отвечающие на запросы, на которые в информационной базе в явном виде ответа нет. Получить ответ помогает экстралингвистическая база знаний и информация, порождаемая алгоритмически из уже имеющейся (документальной или фактографической). Эта новая информация или выдается как ответ на запрос, или дополнительно используется для поиска.

Информационно-поисковая система документального типа представляет собой упорядоченную совокупность документов, а также совокупность средств и методов, предназначенных для хранения, поиска и выдачи по запросам документальной информации. Документальная ИПС выдает документы, соответствующие запросу по теме, по предмету. Документ, центральный предмет или тема которого в целом соответ­ствует смысловому содержанию информационного запроса, называется релевантным , а свойство смысловой близости между двумя и более текстами (в данном случае - между документом и информационным запросом) - релевантностью . Релевантность - это фундаментальное понятие теории информационного поиска. Говорят о двух видах релевантности: смысловой и формальной. Соответствие документа содержа­нию информационного запроса называют смысловой релевантностью, а соответствие поискового образа этого документа формализованному поисковому предписанию, выражающему данный информационный запрос, - формальной релевантностью. Также формальную релевантность называют релевантностью документа, а смысловую релевантность - релевантностью информации (имеется в виду «информации, содержащейся в документе»).

Составные части ИПС называют подсистемами. Разделение на подсистемы необходимо и полезно как в целях разработки, так и для описания технологии функционирования систем. Оно может иметь разную основу. Обычно рассматривают два типа разбиения ИПС на подсистемы: по функциональному принципу (функциональные подсистемы) и по типу средств (обеспечивающие подсистемы).

Различные средства, реализующие функции ИПС, получили название обеспечивающих подсистем , или «обеспечений». Выделяют следующие подсистемы: лингвистическое обеспечение, информационное обеспечение , техническое обеспечение, программное обеспечение

Понятие системы охватывает комплекс взаимосвязанных элементов, действующих как единое целое. Система включает в себя следующие компоненты:

Структура - это множество элементов системы и взаимосвязи между ними.

Входы и выходы - это материальные потоки или потоки сообщений, поступающие в систему или выводимые ею. Поступающую инф-цию мы будем рассматривать как набор символов {x(i)}, значение которого образует вектор X. Данные сообщения проходят обработку в системе и находятся в прямой зависимости от времени. Аналогично множество выходных - {y(i, t)} образует вектор Y.

Цель и ограничения. Порядок функционирования системы описывается рядом переменных: U1, U2…, Un. Часть этих переменных должна всегда поддерживаться в экстремальном положении - max U1 и т. п. U1 = f (X, t, Y, …), тогда U1 наз-ся целевой функцией системы. Данная функция определяет соответствие целей системы результатам ее функционирования.

Закон проведения системы. Это функция f(х), связывающая изменение входа и выхода системы.

Среди известных свойств системы можно выделить следующие: относительность, делимость и целостность.

ИС представляет собой систему, функционирование которой во времени заключается в сборе, хранении, обработке, распределении инф-и о деятельности какого-либо экономического объекта реального мира

4. Типы информационно-поисковых систем в зависимости от характера выдаваемой информации.

5. Функции информационно-поисковой системы.

Информационно-поисковая система - система, выполняющая функции:
- хранения больших объемов информации;
- быстрого поиска требуемой информации;
- добавления, удаления и изменения хранимой информации;
- вывода информации в удобном для человека виде.
Различают:
- автоматизированные (coputerised);
- библиографические (reference);
- диалоговые (online);
- документальные и фактографические информационно-поисковые системы.

6. Исторические предпосылки развития поисковых систем.

Обратимся к истории возникновения сети Internet, которая была создана в связи с возникшей необходимостью совместного использования информационных ресурсов, распределенных между различными компьютерными системами. Большинство первых приложений, включая FTP и электронную почту, были разработаны исключительно для обмена данными между хост-компьютерами Internet.
Другие приложения, такие как Telnet, создавались для того, чтобы пользователь получил возможность доступа не только к информации, но и к рабочим ресурсам удаленной системы. По мере развития Internet (увеличения пользователей и хост-компьютеров) прежние методы обмена данными перестали отвечать возросшим потребностям пользователей. Возникла необходимость разработки новых способов поиска сетевых ресурсов и доступа к ним, которые позволяли бы использовать информацию независимо от ее формата и расположения.

Для удовлетворения таких потребностей сначала были созданы поисковая система Archie, решающая задачу локализации ресурсов на FTP-сервере, и система Gopher, упрощающая доступ к различным сетевым ресурсам. Затем были разработаны сетевые информационные системы WWW и WAIS, предлагающие абсолютно новые методы получения информации. Принципы работы этих систем позволяют легко ориентироваться в огромном количестве информационных ресурсов без необходимости предоставления механизмов работы самой сети Internet. Такой подход позволяет говорить уже не просто о ресурсах взаимосвязанных компьютерных систем, а об особых информационных пространствах сети.

Система Archie представляет собой комплекс программных средств, работающих со специальными базами данных . В этих базах данных содержится постоянно пополняющаяся информация о файлах, к которым можно получить доступ через сервис FTP. Пользуясь услугами системы Archie, можно осуществить поиск файла по шаблону его имени. При этом пользователь получит список файлов с точным указанием места их хранения в сети, а также с информацией о типе, времени создания и размере файлов. Доступ к информационно-поисковой системе Archie может осуществляться различными путями, начиная от запросов по электронной почте и с помощью сервиса Telnet и заканчивая использованием графических Archie-клиентов.
Система Gopher была разработана для упрощения процесса локализации FTP-ресурсов Internet и для более удобного представления сведений о содержании хранящихся на FTP-серверах файлов. Система Gopher дает возможность в удобной форме (в виде меню) представлять пользователям об имеющихся файлах и их содержании. Меню Gopher-серверов могут содержать ссылки на другие Gopher - и FTP-серверы. Таким образом, пользователь получает возможность “путешествовать” по Internet, не обращая внимания на местонахождение интересующих его ресурсов, и получать доступ к этим ресурсам.
Система Veronica используется для поиска информации в Gopher-пространстве по заголовкам пунктов меню. После ввода ключевого слова, система Veronica выясняет, встречается ли оно в меню на каком-либо Gopher-сервере, и в качестве результатов поиска выдает список заголовков пунктов меню, содержащих ключевое слово. Поскольку система Veronica не является автономной поисковой программой, а тесно связана с системой Gopher, она обладает тем же, что и система Gopher, недостатком: далеко не всегда по заголовку можно сказать, что собой представляет тот или иной информационный ресурс. Достоинства системы заключается в том, что нет необходимости узнавать, где расположена найденная информация, достаточно выбрать требуемую запись из списка.

7. История развития автоматизированных документальных информационно-поисковых систем, этапы развития. Особенности современного этапа.

Переход к информационному обществу XXI века породил беспрецедентный рост объемов и концентрации информации в глобальных компьютерных сетях. Это резко обострило проблему создания информационно-поисковых систем (ИПС) и их эффективного использования.

История автоматизированных информационно-поисковых систем исчисляется полувеком. Типичная ИПС первых лет - это человеко-машинная система, где анализ и описание содержания документов (индексирование) выполняется вручную, а поиски проводятся машиной. Первоначально основу ИПС составляли информационно-поисковые языки (ИПЯ), основным элементом которых являются дескрипторные словари и тезаурусы. Сегодня, однако, большинство работающих ИПС относится к классу вербальных систем бестезаурусного типа, когда индексационные термины выбираются непосредственно из текстов документов. Лавинообразный рост объемов электронной документальной информации, ее видовое, тематическое и языковое разнообразие являются как причиной кризиса современного информационного поиска, так и стимулом его совершенствования.

Проблема поиска ресурсов в сети Интернет была осознана достаточно скоро, и в ответ появились различные системы и програм­мные инструменты для поиска, среди которых следует назвать системы Gopher, Archie, Veronica, WAIS, WHOIS и др. В последнее время на смену этим инструментам пришли «клиенты» и «серверы» всемирной паутины WWW.

Достигнутые в течение последнего десятилетия результаты развития средств вычислительной техники, методов проектирования программного и информационного обеспечения систем автоматизации различного уровня и назначения способствовали существенному пересмотру принятых ранее подходов к созданию информационных систем, и, прежде всего, к созданию новой информационной технологии, основными принципами которой являются:

Обеспечение общения конечного пользователя (исследователя, проектировщика, конструктора, технолога, оператора ИПК. и ГАП, плановика) с системой автоматизации на профессионально-ограниченном естественном языке, представление входной и результирующей информации в привычной и удобной пользователю форме.

Обеспечение возможности решения задач планирования, управления, проектирования, подготовки производства и научных исследований по их постановкам и исходным данным независимо от сложности и наличия формальных математических моделей этих задач.

Создание конечному пользователю таких условий работы, при которых он осуществляет процессы управления, планирования, проектирования и поиска новых решений в режиме активного, расширяющегося диалога с ЭВМ, оперируя понятиями своей предметной области, используя профессиональный опыт и навыки и принимая решения одновременно по множеству критериев, часть из которых не описана формально и не имеет количественного выражения.

8. Характиристики ИПС

9. Поиск Запроса. Опередление. Виды поисковых запросов.

10. Лингвистическое обеспечение.

11. Фактографические информационно-поисковые системы. Библиографический поиск как вид фактографического.

Фактографические ИПС реализуют поиск и выдачу фактов, текстов, документов, содержащих сведения, которые могут удовлетворить поступивший запрос пользователя. В этом случае осуществляется поиск не какого-то конкретного документа, а всей совокупности сведений по данному запросу, хранящихся в информационном фонде ИПС или ИСС. Отметим, что основным отличием фактографических информационно-поисковых систем от документальных является то, что эти системы выдают пользователю. не какой-либо ранее введенный документ, а уже в той или иной степени обработанную информацию.

В зависимости от того, как в фактографической ИПС реализована подобная обработка информации , различают три поколения таких систем.

ИС первого поколения обеспечивают накопление и поиск информации по одному типу объектов и реализуют один тип запросов при использовании для фактографического описания данных фиксированного формата.

В фактографических системах второго поколения возможен уже выбор типа запроса из представленного набора. Отображаемые объекты могут принадлежать к различным классам, формат фактографического описания задается для класса объектов.

В фактографических ИПС третьего поколения, которые являются, по сути дела, разновидностью интеллектуальных диалоговых систем, реализуется поиск информации по нерегламентированному перечню запросов, поисковый образ задается пользователем в произвольной форме, предусматриваются операции синтеза информации для удовлетворения запросов пользователей, имеется специальный аппарат анализа вновь вводимой информации на смысловую и формальную релевантности хранящимся в информационном фонде данным.

13. Интеллектуальные информационно-поисковые системы.

14. Нормирование лексики в ИПС.

15. Индексирование в ИПС.

Под индексированием понимается процесс, состоящий из двух этапов:

определение тем, которые отражаются в данном документе;

выражение этих тем на языке, принятом в информационно-поисковой системе, и запись в виде поисковых образов, которые связываются с документом.

Для того чтобы при помощи ИПС можно было отыскать документы, соответствующие некоторому информационному запросу, сам запрос также должен быть заиндексирован. Процесс поиска осуществляется путем сопоставления поисковых образов документов с поисковым образом запроса. При полном или частичном совпадении образов документ считается соответствующим запросу и выдается пользователю.

16. Модели поиска. Языковые средства представления и структурирования электронных документов. Языки метаданных.

Метаданные в HTML-документах

Константин А. Рыбаков

Известно, что метаданные несут в себе справочную и управляющую информацию, которая используется разными агентами (клиентскими приложениями, поисковыми роботами) в различных целях.

В данной статье будут рассмотрены мета тэги, включение которых в документ, как правило, преследует следующие основные цели: управление процессом индексации документа (или всего сайта в целом) поисковыми роботами, описание содержимого данного документа (опять же для поисковых роботов) и управление некоторыми функциями броузеров. Все мета тэги описывать будет лишним, так как многие из них являются довольно абстрактными, то есть не несут никакой полезной информации с точки зрения агентов и просто ими игнорируются.

Мета тэги делятся две на группы: эквиваленты HTTP-заголовка и информационно-управляющую часть, не входящую в заголовок HTTP. Такое разделение связано, в основном, с синтаксисом ( и соответственно) и стандартом. Если же говорить о самих метаданных, то такое деление будет в какой-то степени условным, то есть речь идет не о том, что тэги NAME могут выступать в роли HTTP-заголовков, просто заголовок HTTP также является носителем справочно-управляющей информации. Вообще, эквиваленты HTTP имеют более низкий приоритет перед "истинным" заголовком, который генерируется WEB-сервером. Следует также отметить общий формат декларирования мета-тэгов в HTML-документе, как это показано ниже:

...<TITLE></p><p><!-- HTTP-эквиваленты //--></p><p><META HTTP-EQUIV="..." CONTENT="..."></p><p><!-- другие теги группы HTTP-EQUIV //--></p><p><!-- группа NAME //--></p><p><META NAME="..." CONTENT="..."></p><p><!-- другие теги группы NAME //--></p> <p>Группа HTTP-EQUIV</p> <p>1. EXPIRES (дата устаревания документа)</p> <p>После истечения указанного срока документ будет каждый раз загружаться заново, а не браться из кэша.<br>Формат даты: RFC850</p> <p>2. PRAGMA (управление кэшированием)</p> <p>Возможно одно значение NO-CACHE, то есть данный документ не кэшируется броузером.</p> <p>Пример: <META HTTP-EQUIV="PRAGMA" CONTENT="NO-CACHE"></p> <p>3. CONTENT-TYPE (Тип документа и его кодировка)</p> <p>Было много споров относительно этого тэга... Он в основном требуется для правильного выбора кодировки броузером, но это актуально только тогда, когда WEB-сервер не поддерживает автоматическую перекодировку документов (например, для иностранных серверов, предоставляющих бесплатное место для вашего сайта, такая возможность не предусмотрена), в ином случае CONTENT-TYPE может только привести к путанице.</p> <p>Пример: <META HTTP-EQUIV="CONTENT-TYPE" CONTENT="text/html; charset=koi8-r"></p> <p>4. CONTENT-LANGUAGE</p> <p>Явное указание языка документа. Данные этого тэга могут использоваться как поисковыми роботами, так и WEB-серверами.<br>Формат: <Язык>-<Диалект></p> <p>Пример: <META HTTP-EQUIV="CONTENT-LANGUAGE" CONTENT="en-GB"></p> <p>Время (в секундах), через которое произойдет автоматическая перезагрузка документа или переход на другой документ с заданным URL.<br>Формат: <ВРЕМЯ> или <ВРЕМЯ>; <URL></p> <p>Пример: <META HTTP-EQUIV="REFRESH" CONTENT="5; http://algo. /"></p> <p>6. CACHE-CONTROL (управление кэшированием)</p> <p>Возможные случаи: кэширование в общем (PUBLIC) / частном (PRIVATE) кэше. Документ вообще не кэшируется (NO-CACHE) или кэшируется но не сохраняется (NO-STORE).</p> <p>Пример: <META HTTP-EQUIV="CACHE-CONTROL" CONTENT="NO-STORE"></p> <p>Группа NAME</p> <p>1. DESCRIPTION (описание документа)</p> <p>Наряду с описанием ключевых слов этот тэг является, на наш взгляд, наиболее важным. Именно информация, содержащаяся в нем выводится в результатах поиска, выдаваемых поисковыми серверами на запрос пользователя.<br>В общем случае вид результатов поиска как правило выглядит так:<br>а) URL документа<br>б) Название документа (содержимое <TITLE>...)
в) Описание документа, то есть DESCRIPTION или несколько сотен байт начала документа (включая атрибуты ALT, TITLE у картинок), если DESCRIPTION отсутствует. В первом случае пользователь получает достаточно краткое, но в то же время емкое описание документа, хотя это, конечно, зависит от автора документа, а во втором случае информация о документе носит довольно скудный характер, а именно это может быть бессмысленный набор слов или несколько первых предложений, которые, возможно, и не относятся к общей теме документа и, соответственно, его никак не характеризуют.
г) Рейтинг (коэффициент соответствия документа запросу пользователя).

Пример:

2. KEYWORDS (ключевые слова)

Под словом "ключевые", понимается набор слов и фраз, наиболее полно характеризующих данный документ. Они активно используются поисковыми роботами при индексации. В конечном счете эти слова учитываются при выдаче результатов поиска и способствуют повышению рейтинга.

Пример:

Как видно из описания применение DESCRIPTION и KEYWORDS никогда не является лишним, их наличие, при условии грамотного описания и правильного подбора ключевых слов, будет увеличивать рейтинг документа при выдаче результатов поиска поисковыми системами.

3. DOCUMENT-STATE (статус документа)

Данный тэг управляет частотой индексации и может принимать два значения: STATIC (документ статичен, то есть не меняется, и, следовательно, индексировать его нужно только один раз) и DYNAMIC (для часто изменяющися документов, которые нужно реиндексировать)

Пример:

4. ROBOTS (управление процессом индексации)

Возможные варианты:
a) INDEX - возможность индексирования данного документа (иначе NOINDEX)
б) FOLLOW - возможность индексирования всех документов, на которые есть ссылки в данном HTML файле (иначе NOFOLLOW)
в) ALL - одновременное выполнение условий INDEX и FOLLOW
г) NONE - одновременное выполнение условий NOINDEX и NOFOLLOW

Пример:

5. RESOURCE-TYPE (тип ресурса)

Для обычных HTML документов значение этого мета тэга устанавливается равным "DOCUMENT"

Пример:

6. URL (расположение основного сайта)

Базовый URL (не путать с BASE) определяет какой документ следует индексировать (чтобы не обрабатывать "зеркала")

Пример:

Допустимо добавлять в мета тэги атрибут LANG, указывающий язык данных, но это не обязательно.

17. Информационные ресурсы и их представление в информационно-поисковой системе.

Информационные ресурсы и их представление в информационно-поисковой системе

Как видно из схемы (рисунок 3.41) документальным массивом ИПС Internet является все множество документов шести основных типов: WWW-страницы, Gopher-файлы, документы Wais, записи архивов FTP, новости Usenet, статьи почтовых списков рассылки. Все это довольно разнородная информация, которая представлена в виде различных, никак несогласованных друг с другом форматов данных. Здесь есть и текстовая информация, и графическая информация, и аудио информация и вообще все, что есть в указанных выше хранилищах. Естественно встает вопрос, как информационно-поисковая система должна со всем этим работать. В традиционных системах есть понятие поискового образа документа - ПОД"а. ПОД (Поисковый Образ Документа) - это нечто, что заменяет собой документ и используется при поиске вместо реального документа. Поисковый образ является результатом применения некоторой модели информационного массива документов к реальному массиву. Наиболее популярной моделью является векторная модель, в которой каждому документу приписывается список терминов, наиболее адекватно отражающих его смысл. Если быть более точным, то документу приписывается вектор, размерность которого равна числу терминов, которыми можно воспользоваться при поиске. При булевой векторной модели элемент вектора равен 1 или 0, в зависимости от наличия термина в ПОД"е документа или его отсутствия. В более сложных моделях термины взвешиваются, т. е. элемент вектора равен не 1 или 0, а некоторому числу, которое отражает соответствие данного термина документу. Именно последняя модель наиболее популярна в информационно-поисковых системах Internet. Вообще говоря, существуют и другие модели описания документов: вероятностная модель информационных потоков и поиска, и модель поиска в нечетких множествах. Анализ преимуществ и недостатков применения этих моделей при реализации информационно-поисковых систем в Internet - это тема специального исследования. Здесь имеет смысл обратить внимание читателя только на то, что пока именно линейная модель применяется в системах Lycos, WebCrawler, AltaVista, OpenText, AliWeb и ряде других. Исследования по применению других моделей также ведутся, например, в рамках проекта AltaVista или научными группами. Таким образом, первая задача, которою должна решить информационно-поисковая система - это приписывание списка ключевых слов документу или информационному ресурсу. Именно эта процедура и называется индексированием. Часто, однако, индексированием называют составление файла инвертированного списка, в котором каждому термину индексирования ставится в соответствие список документов, в которых он встречается. Такая процедура является только частным случаем, а точнее техническим аспектом создания поискового аппарата информационно-поисковой системы.

Тема: Информационно - поисковые системы.

1. Общие сведение о информационно-поисковых системах (ИПС). Основные определения.

2. Функционирование ИПС. Схема функционирования поисковой системы.

3. ИПС, базирующиеся на классификации.

4. Организация ИПС на поиски по ключевым словам.

5. Метасистемы.

6. Развитие информационно – поисковых систем.

Ключевые слова

Поиск информации, электронные каталоги, информационно – поисковая система, классификация, ключевые слова, метаданные, объём информации, анализ документа, поисковый образ, запрос, релевантность, атрибут, метасистема, рубрикация, информационные ресурс, эффективность, библиотечные каталоги, технология, портал, образовательная срда, пользователи, архитектура, автоматизированная система.

В последние годы сеть интернет стала основным хранилищем информации. С ростом объёмов хранимых данных стала актуальной проблема информационного поиска. Для облегчения поиска на открытых для доступа сайтах в интернет используют информационно – поисковые системы (ИПС) и электронные каталоги.

В ИПС собираются, индексируется и регистрируется информация о документах, имеющихся в обслуживаемой системой группе Web – серверов. Индексирование включает создание поисковых образов документов. Обычно в поисковый образ входят или все значащие слова, имеющиеся в документе, или только слова из заголовка.

Информационно – поисковая система программная система для хранения, поиска и выдачи интересующей пользователя информации. Информационно – поисковая система выполняет анализ документов, создание и хранение поисковых образов документов, анализ запросов пользователей, поиск и выдачу пользователю данных о месте расположения в сети запрашиваемых документов.

В основе поиска лежит сопоставление запроса пользователя с поисковыми образами документов, в результате отбираются релевантные документы, т.е. документы, чьи поисковые образы соответствуют запросу. Во многих ИПС пользователю представляется возможность обращаться к серверу с запросами на естественном языке, а также со сложными запросами, включающими логические связки. Примерами таких ИПС могут служить системы Excite, Lycos, Altavista и другие. Для функционирования Altavista в своё время фирма DEC выделила несколько компьютеров, в том числе десятипроцессорную машину Alpha – 8400.

Поисковые образы, называемые также метаописаниямиили метаданными , могут представлять собой значения атрибутов документов или множество ключевых слов. Поиск на основе этих двух вариантов поисковых образов называют атрибутивным и контекстным поиском. Часто используют сочетание этих двух способов поиска.



Поиск в электронных каталогах основан на составлении запроса с разделами информации в иерархической структуре её классификации.

Классификацию информации называют рубрикацией . Наиболее сложной является разработка тематической рубрикации. В мире существует ряд систем тематической рубрикации. Та, в России широко известны иерархические системы УДК (универсальная десятичная классификация) и ГРНТИ (Государственные реестр научно – технической информации). Однако, они громоздки и неудобны для использования в электронных каталогах и образовательных ИПС. Поэтому существует ряд частных систем рубрикации с несколькими уровнями иерархии.

Отметим, что если в ИПС создание поисковых образов осуществляется автоматически, то в электронных каталогах структура информационных ресурсов определяется квалифицированными людьми.

Примеры поисковых систем, работающих по принципу электронного каталога: Yahoo!, Galaxy, Looksmart, Yandex. Так, в Yahoo! На верхнем уровне иерархи выделено 14 категорий (например, искусство и гуманитарные науки, образование, бизнес и экономика, наука и др.) Пользователь при поиске осуществляет навигацию по разделам иерархического дерева, спускаясь от верхнего уровня до искомого конечного, на котором он получает сведения об адресах сайтов с нужными информационными ресурсами. Объем информационного пространства в упомянутых системах довольно велик. Так, в системе Yahoo! Была собрана информация 1 800 000 сайтов.


Функционирование информационно – поисковой системы

Общая схема функционирования традиционной ИПС представлена на рис.

Рис. 1. Схемы функционирования ИПС.

Основными процессами в ИПС являются индексирование документов и поиск документов по запросу пользователя. Процесс информационного поиска происходит следующим образом. Пользователь выражает свои информационные потребности в виде специального текста – информационного запроса к ИПС. Система формирует из информационного запроса поисковое предписание , переводя запрос на информационно – поисковый язык (ИПЯ). ИПЯ представляет собой формальный язык, который используется внутри ИПС для представления пользовательского запроса и хранимых документов. Описание документов на ИПЯ называется поисковым образом документа. В процессе поиска ИПС должна выбрать из массива документов те, которые содержательно релевантны запросу, то есть соответствуют информационным потребностям пользователя, выраженным в запросе. Такое определение релевантности не формально, поэтому определяют формальную релевантность , как соответствие, определяемое алгоритмически, путем сравнения поискового предписания и поискового образа документа. Критерий выдачи документа – поискового образа документа и поискового предписания, по которому принимается решение о выдаче некоторого документа в ответ на информационный запрос.

В процессе индексирования, для каждого документа, хранящегося в системе, строится поисковый образ. Различают 2 основных подхода к построению поискового образа –приписывающее и выводящее индексирование. В первом случае в процессе индексирования документу присваивается номер ключевых слов из некоторой классификационной системы, и документ помещается в общую классификацию. Во втором случае из документа выбирается набор ключевых слов и объявляется поисковым образом, с которым далее работает ИПС.

Традиционные ИПС осуществляют как поиск, так и хранение документов. В отличие от традиционных ИПС, ИПС для поиска информации в интернет не могут осуществлять фукнцию хранения документов, что приводит к необходимости другого подхода к организации работы ИПС.

Рассмотрим основные классы промышленных ИПС для поиска информации в интернет.

ИПС, базирующиеся на классификации.

В целом, схема работы такой ИПС в Интернет аналогична схеме работы традиционной ИПС. Общая схема работы ИПС на основе классификации показана на рис. 2.

Рис. 2.Общая схема работы ИПС базирующейся на классификации.

Основным отличием является появление процесса поиска новых документов. В традиционных ИПС новые документы вводятся в систему хранения оператором и индексируются. В ИПС, ориентированных на работу в Интернет, ввод новых документов осуществляется либо вручную оператором, либо автоматически с помощью специальной программы обхода Интернет – индексирующего робота. Применение для информационного поиска в интернет ИПС базирующихся на классификации эффективно в случае, когда классификационная система построена по узкой предметной области.

Основных недостатков два:

1. Для качественного поиска они вынуждены выкачивать из Интернет все документы для индексирования и хранения их у себя. Это приводит к большому объёму хранимой информации, высокой нагрузке на сеть и необходимости постоянно обновлять информации в базе;

2. Поиск документов пользователем может осуществляться только по используемой классификационной системе.

ИПС, базирующиеся на поиске по ключевым словам.

ИПС базирующиеся по ключевым словам позволяют искать Web – страницы о их содержанию, формируя запрос в виде ключевых слов, которые должны присутствовать в документе. В настоящее время, системы поиска по ключевым словам представляют собой наиболее распространенные ИПС в интернет.

На рис. 3 показана общая схема работы системы поиска по ключевым словам. Основными процессами в работе системы является поиск новых документов индексирующим роботом, индексирование найденных документов и выполнения запроса пользователя.

Индексирующий робот представляет собой автономный процесс, постоянно или периодически обновляющий и пополняющий базу документов. Изначально роботу дается список Web – серверов, которые необходимо проиндексировать. В процессе работы индексирующий

Рис. 3. Общая схема работы системы по ключевым словам.

Робот осуществляет обход Web – серверов по гиперссылкам между страницами и собирает все найденные документы в базу документов, а ссылки - в базу ссылок. Таким образом, на основе начального списка серверов строятся документы для всех достижимых Web – страниц. Периодически, индексирующий робот проверяет хранящуюся информацию на корректность и целостность путем повторного обхода проиндексированных страниц.

По известным ИПС документам строится индекс, позволяющий эффективно осуществлять поиск по ключевым словам. Дальнейшее хранения всего документа после индексирования ненужно, для экономии дискового пространства хранится короткий поисковый образ. Запрос пользователя представляет собой набор ключевых слов с булевыми связками. Выбор документов по запросу осуществляется с помощью индекса. ИПС возвращает в ответ на запрос список ссылок на документы.

Достоинством систем поиска по ключевым словам является простота использования. К недостаткам можно отнести следующие особенности.

1. В ответ на запрос выдается много нерелевантной информации. Это происходит из-за того, что с помощь. Списка ключевых слов практически можно сформулировать информационные потребности пользователя.

2. Индексирующие роботы сильно загружают сеть. Так как робот не имеет возможности перемещаться по сети, он вынужден скачивать большие объемы информации для локальной обработки (объём информации исчисляется терабайтами).

3. Невозможность работы с часто изменяемой информацией.

4. Охват Интернет любой из имеющихся систем поиска по ключевым словам не превышает 16%.

5. Возможность работы пользователя только в интерактивном режиме.

Метасистемы. Метасистемы для ИП в Интернет, являются надстройками над существующими системами поиска по ключевым словам. Они позволяют преодолеть следующие недостатки промышленных систем поиска по ключевым словам.

Решение проблемы ИП в Интернет на сегодняшний день состоит не только в построении эффективных ИПС, но и в изменении структурной организации информации Интернет.

Технология поиска, основанная на упорядочении метаинформации наподобие библиотечных каталогов (классификация по содержанию) продолжает развиваться.

Однако поиск по ключевым словам во всем пространстве Интернет не всегда оказывается эффективным и может потребовать слишком много времени. Сделать работу пользователя корпоративной системы в интернет более эффективной позволяет технология порталов, применение языка разметки XML и языков поиска XPath или XQuery в базах XML – документов.

Контрольные вопросы и задания.

1. Какую информацию выполняют информационно – поисковые системы?

2. Что лежит в основе поиска информации?

3. Что представляют собой поисковые образы и каким образом осуществляется создание поисковых образов?

4. Приведите примеры ИПС.

5. Объясните и составьте общую схему работы ИПС, базирующейся на классификации.

6. Каким образом происходит поиск в ИПС по ключевым словам?

7. Какие недостатки имеет система поиска по ключевым словам?

9. По каким признакам классифицируется ИПС?

10. Приведите примеры поисковых систем по принципу электронного каталога.

11. Для каких целей в Интернет создают порталы?

12. Перечислите задачи, связанные с развитием ИПС.

Литература 2, 5, 13, 18.

ИНФОРМАЦИОННО-ПОИСКОВЫЕ СИСТЕМЫ

1. Информационно-поисковые системы (ИПС) и их виды

2. Составные части информационно-поисковых систем

3. Информационный поиск в сети Интернет

Информационно-поисковая система (ИПС) - это упорядоченная совокупность документов (массивов документов) и информационных технологий, предназначенных для хранения и поиска информации - текстов (документов) или данных (фактов). Информационно-поисковыми системами являются любые определенным образом организованные хранилища информации. Причем информационно-поисковые системы могут быть и неавтоматизированными. Главное - это целевая функция: хранение и поиск информации.

В зависимости от объекта хранения и типа запроса различают два вида информационного поиска: документальный и фактографический - и, соответственно, два типа ИПС - документальные и фактографические. Последние также называют информационно-справочными ИПС.

Документальными называются ИПС, в которых реализуется поиск по тематическим запросам в массиве документов или текстов с последующим предоставлением пользователю подмножества этих документов или их копий. Понятие документа может меняться от системы к системе. В общем случае это некий информационный объект, зафиксированный (обычно посредством некоторой знаковой системы) на каком-то материальном носителе (бумага, фото- и кинопленка, магнитная память и т.п.) и предназначенный для передачи в пространстве и времени в системе социальных коммуникаций.

Фактографические ИПС реализуют хранение, поиск и выдачу непосредственно фактических данных (научных, технических, экономических характеристик и свойств объектов, процессов, явлений, адресов, наименований, количественных данных и т.п.).

Главное, сущностное, различие между документальным и фактографическим поиском заключается в подходе к семантике документов. В документальных системах описывается смысл документов в целом с точки зрения их тематического, предметного содержания. В этом случае важно выявить и назвать (перечислить) основные темы и объекты, которым посвящен документ. В фактографических системах описываются объекты, фиксируются их признаки и значения этих признаков. Отсюда различия в языках описания и способах хранения описаний в системе. Соответственно, для каждого вида поиска существуют свои поисковые средства.

Фактографические системы предполагают накопление и поиск в массиве документов со строго регламентированной структурой. Такая структура является или результатом предварительной интеллектуальной обработки документов при вводе информации в систему, или наличием таких документов в готовом виде в конкретных сферах человеческой деятельности, например, учетные формы, бланки, справочники, расписания и т.п. Существуют фактографические ИПС, которые обеспечивают накопление информации и поиск только по одному типу объектов и только по одному типу запросов. Существуют и более развитые фактографические системы, обеспечивающие хранение и поиск данных, разнообразных по содержанию и структуре, но это разнообразие всегда конечно.



Выделяют еще и третий тип систем, которые называют информационно-логическими . Это системы, отвечающие на запросы, на которые в информационной базе в явном виде ответа нет. Получить ответ помогает экстралингвистическая база знаний и информация, порождаемая алгоритмически из уже имеющейся (документальной или фактографической). Эта новая информация или выдается как ответ на запрос, или дополнительно используется для поиска.

Информационно-поисковая система документального типа представляет собой упорядоченную совокупность документов, а также совокупность средств и методов, предназначенных для хранения, поиска и выдачи по запросам документальной информации. Документальная ИПС выдает документы, соответствующие запросу по теме, по предмету. Документ, центральный предмет или тема которого в целом соответ­ствует смысловому содержанию информационного запроса, называется релевантным , а свойство смысловой близости между двумя и более текстами (в данном случае - между документом и информационным запросом) - релевантностью . Релевантность - это фундаментальное понятие теории информационного поиска. Говорят о двух видах релевантности: смысловой и формальной. Соответствие документа содержа­нию информационного запроса называют смысловой релевантностью, а соответствие поискового образа этого документа формализованному поисковому предписанию, выражающему данный информационный запрос, - формальной релевантностью. Также формальную релевантность называют релевантностью документа, а смысловую релевантность - релевантностью информации (имеется в виду «информации, содержащейся в документе»).