Электронные справочники глобального масштаба
Созданием и актуализацией справочников глобального масштаба в большинстве случаев занимаются информационные компании, прежде всего, американские. Практически все справочники декларируют всемирный охват материала, однако, практика показывает, что основной упор делается все-таки на североамериканские сайты. Естественно, что обращение к глобальным справочникам ресурсов требует минимального владения английским языком.
Yahoo! является одним из самых первых и авторитетных справочников Всемирной паутины. У каталога два основных достоинства - внушительный объем (на сегодня отражено порядка 2 миллионов сайтов в более чем 25 тысячах категорий) и научность и логичность используемой схемы классификации. За счет этого в справочнике отражаются все отрасли знания без каких либо видимых приоритетов. Эти достоинства на протяжении всей второй половины 1990 годов позволяли Yahoo! оставаться незаменимым инструментом для первоначального ознакомления с информационным наполнением в Интернет по любой области деятельности.
Основной ряд Yahoo! включает 14 категорий, в числе которых: БИЗНЕС И ЭКОНОМИКА, КОМПЬЮТЕРЫ И ИНТЕРНЕТ, НОВОСТИ И СМИ, РАЗВЛЕЧЕНИЯ, ИСКУССТВО И ГУМАНИТАРНЫЕ НАУКИ, ОБРАЗОВАНИЕ, ПОЛИТИКА, ЗДРАВООХРАНЕНИЕ, ЕСТЕСТВЕННЫЕ НАУКИ, ОБЩЕСТВЕННЫЕ НАУКИ и т.д. Использование Yahoo!, как и любых других справочников, наиболее эффективно для ознакомления с наполнением Интернет по различным областям деятельности, при размытости критериев поиска - когда неизвестно по каким ключевым словам осуществлять поиск. Разыскание осуществляется путем последовательного просмотра категорий: шаг за шагом, разворачивая пункты меню, построенные в иерархическом порядке, можно знакомиться с полным перечнем ресурсов, постепенно сужая и конкретизируя тему. Так, от самого общего раздела СПРАВОЧНЫЕ РЕСУРСЫ (REFERENCES) можно дойти до web-сайта конкретной библиотеки, миновав по пути разделы БИБЛИОТЕКИ, БИБЛИОТЕКИ ОПРЕДЕЛЕННОЙ СТРАНЫ, БИБЛИОТЕКИ ОПРЕДЕЛЕННОГО ТИПА. На каждой ступени иерархии после названий разделов в скобках указывается число отраженных в них ресурсов. При большом количестве объектов в одном разделе пользователям предлагается выбрать первую букву названия сайта (например, названия университета или фамилии популярного исполнителя).
Справочник имеет перекрестную структуру, позволяющую находить данные, используя различную логику поиска. Например, Московский государственный университет может быть найден как по цепочке ОБРАЗОВАНИЕ/ ВЫСШЕЕ ОБРАЗОВАНИЕ/ УНИВЕРСИТЕТЫ/ УНИВЕРСИТЕТЫ РОССИИ, так и через РЕГИОНЫ/ СТРАНЫ/ РОССИЯ/ ОБРАЗОВАНИЕ/ УНИВЕРСИТЕТЫ.
При необходимости выявить данные о конкретных объектах целесообразно прибегнуть к непосредственному поиску. В поисковую строку должны быть введены ключевые слова, максимально полно обозначающие искомый объект. Следует учитывать большой объем Yahoo! и, следовательно, опасность возникновения большого информационного шума при выдаче результатов. Поэтому, прежде чем прибегать к поиску по ключевым словам, рекомендуется предварительно пройти несколько соответствующих иерархических ступеней. Например, для поиска сайтов, посвященных хоккеисту Павлу Буре (Bure), рекомендуется предварительно войти в раздел СПОРТ / ХОККЕЙ и ограничить условия поиска данным разделом, передвинув соответствующую фишку на пункт Category. В этом случае автоматически отсеются ссылки на многочисленные сайты, в которых встречается термин Bure, но которые не имеют никакого отношения к российскому хоккеисту. В случае результативного поиска в перечне результатов вначале будут указаны категории (рубрики классификации), в которых встречаются искомые слова, а затем названия отдельных сайтов.
Российский вариант Yahoo!, располагающийся по адресу www.yahoo.ru (ru.yahoo.com) не содержит справочника российских ресурсов, функционируя лишь в качестве поисковой системы с интерфейсом на русском языке.
Учитывая большую популярность и, следовательно, посещаемость Yahoo!, в начале 2000-тысячных годов владельцы портала все большее внимание уделяли побочным сервисам, среди которых электронные магазины, аукционы, службы новостей, агентства путешествий и т.п. Собственно справочник занимал все более и более скромные места в интерфейсе титульной страницы портала (www.yahoo.com), пока в середине 2004 года не исчез с нее почти полностью, выделившись в отдельную службу.
С марта 2004 года за включение сайта в справочник взимается не только разовая, но и ежегодная абонентская плата - 300 долларов. Это не только затрудняет включение в Yahoo! новых сайтов мелкого бизнеса, но и приводит к исключению из каталога ресурсов, владельцы которых не уплатили ежегодный взнос. Естественным следствием этого является постепенное обеднение содержание справочника, который все более расходится с реальным наполнением Интернет. Эксплуатация известной торговой марки без поддержания высокого качественного уровня основного продукта уже обернулась снижением авторитета Yahoo! как ведущего справочника, и если в ближайшее время в этой области не будут предприняты кардинальные шаги, его популярность, несмотря на громкое имя, будет снижаться.
Справочник ресурсов Интернет, являющийся на сегодня одним из наиболее полных в мире - порядка 4,5 миллионов сайтов в более чем 590 тысячах категорий. Главной особенностью проекта является его некоммерческая направленность: он практически полностью формируется силами добровольцев из числа пользователей Сети, считающих себя экспертами в различных областях знания. В этом одновременно сила и слабость проекта, поскольку степень и качество наполнения разных категорий справочника полностью определяются наличием, квалификацией и уровнем ответственности редактора конкретной рубрики.
Иерархическая структура Open Directory достаточно научна и логична. В каждой рубрике, помимо англоязычной части, как правило, представлены варианты справочника на нескольких десятках национальных языков, в числе которых и русский. Все они подготовлены региональными редакторами, являющихся жителями соответствующих стран. При желании можно перейти на русскоязычный вариант справочника с первой страницы, выбрав из основного деления WORLD подрубрику "Русский". В ней, однако, на сегодня зарегистрировано немногим более 76 тысяч сайтов, что ни в коей мере не отражает реального наполнения российского сегмента Сети. Подобным же образом обстоит ситуация и с другими иноязычными вариантами.
В настоящее время Open Directory является динамично развивающимся проектом, который перехватывает значительную долю популярности у коммерциализировавшегося Yahoo!. Увеличение среднего объема справочника более чем на 1000 сайтов в день сулит проекту неплохие перспективы, подтверждая мысль о том, что совокупный интеллектуальный потенциал сетевого сообщества может превосходить интеллект одной, пусть даже очень мощной компании. Усовершенствованный вариант Open Directory с успехом используется в качестве справочника в поисковой системе Google.
Упражнения для самостоятельной работы:
1. Путем последовательного просмотра категорий Yahoo! выявить официальные сайты Лувра, компании Toshiba, Йельского университета.
2. С помощью Yahoo! найти перечень сайтов, посвященных шуткам по поводу компании Microsoft.
3. Провести поиск англоязычных ресурсов по теме "библиотечный юмор" с использованием Yahoo! и Open Directory. Сравнить полученные результаты.
Глобальные поисковые системы
Поисковые системы (search engines) распространены в большем количестве, нежели справочники Интернет-ресурсов, и число их, составляющее сегодня несколько десятков, продолжает неуклонно увеличиваться. Профессиональная работа с поисковыми системами требует некоторых специальных навыков, поскольку простой ввод искомого термина в поисковую строку, скорее всего, приведет к получению списка из сотен тысяч или даже миллионов документов, содержащих данное понятие, что практически равносильно нулевому результату.
Поисковая система, запущенная 28 октября 1998 года и являющаяся ныне единоличным лидером среди глобальных поисковых систем по всем значимым параметрам. Главное достоинство Google - объем его индексного файла, который составляет на сегодня более триллиона web-страниц. В сутки программы-роботы системы индексируют порядка трех миллионов новых и обновленных страниц, а актуализация базы производится каждые 28 дней.
Второе несомненное преимущество Google - его способность индексировать источники не только в виде HTML-файлов, но также документы в форматах PDF, RTF, PS, DOC, XLS, PPT, SWF и ряде других. При этом Google позволяет моментально конвертировать страницы в указанных форматах в обычный HTML-файл, что освобождает пользователя от необходимости иметь специальное программное обеспечение для доступа к файлу.
Третьим важнейшим достоинством является специально разработанный модуль ранжирования результатов - PageRank. Он основан на алгоритме, согласно которому вначале устанавливается структура ссылок во всей Сети, а затем каждая отдельная страница ранжируется в соответствии с числом и значимостью ссылок на нее с других страниц. При этом авторитетность внешних ссылок более важна, чем их количество. Подобный алгоритм позволяет существенно повысить релевантность ссылок, вследствие чего Google отличает высокая степень соответствия найденной информации интересам пользователя. Этот результат достигается, в частности, еще и за счет специальной подсистемы защиты пользователя от сайтов, которые продвигаются с помощью различных недобросовестных методов.
Google отличается высокой степенью комфорта для пользователя. Несмотря на то, что это глобальная поисковая система, пользователи из неанглоязычных стран автоматически переадресовываются на интерфейс на их родном языке. Русскоязычный интерфейс, в частности, находится по адресу www.google.ru. Длительность процесса поиска в большинстве случаев не превышает одной секунды, несмотря на огромный объем индексного файла системы.
Методика поиска с помощью Google предельно проста. В поисковую строку водится запрос на естественном языке - неважно на русском, английском или любом другом. Система обладает прекрасным морфологическим аппаратом, поэтому при вводе запроса в именительном падеже единственного числа можно быть уверенным в нахождении всех возможных склонений и чисел употребленных в запросе слов. Все термины запроса по умолчанию объединяются условием AND (И) - перед ними нет нужды ставить знак "+". Таким образом, в список результатов попадают лишь страницы, содержащие все введенные ключевые слова. Для поиска по точной фразе традиционно используются кавычки: так, запрос "Кто убил кошку у мадам Поласухер?" прямо приведет к ссылке на соответствующий фрагмент текста "Собачьего сердца" Михаила Булгакова. Поисковый механизм игнорирует стоп-слова (предлоги, союзы, артикли), однако, если какое-либо из таких слов существенно, перед ним необходимо поставить "+", давая понять системе, что в данном случае термин даже из одной буквы является значимым (например, Александр +II).
Google имеет в своем арсенале множество опций для максимальной конкретизации запроса. Все они доступны через меню "Расширенный поиск". Помимо уже описанных возможностей, добавляются фильтры, ограничивающие язык документа, его формат (к примеру, "только документы в PDF"), время опубликования ("последние три месяца"), место термина в самом документе ("в заголовке страницы") или расположение страницы в определенном домене или даже сайте.
Выдаваемые в результате поиска ссылки на документы, помимо традиционных сведений о заглавии документа, контексте искомых слов и данных о размере, содержат функцию "Сохранено в кэше", позволяющую полностью восстановить весь документ, если по каким-либо причинам сайт, на котором он расположен недоступен или вообще прекратил существование. Еще одна функция "Похожие страницы" позволяет получить перечень страниц, содержание которых схоже с указанным источником. Эта функция, впрочем, пока реализована без особого успеха.
В 2006 году в Google добавлена возможность перевода найденных web-страниц на наиболее распространенные языки, включая перевод на русский с основных европейских языков. Щелчок мышью по пункту "Перевести эту страницу" в перечне результатов приводит к запуску процесса перевода и через несколько секунд страница, представленная в оригинале на иностранном языке, предстает в переводе на русский язык. При этом изначальное оформление страницы сохраняется прежним. Качество перевода пока оставляет желать много лучшего, однако, развитие технологий машинного перевода заставляет смотреть в будущее этой функции Google с оптимизмом.
Помимо поиска текстовых материалов, Google обладает лучшими на сегодня возможностями поиска иллюстраций с помощью пункта меню "Картинки". В его базе данных учтено более миллиона иллюстраций, разыскание которых ведется аналогично поиску текстовых документов с возможностью ограничения определенным размером, форматом или цветностью графических файлов - все через опцию "Расширенный поиск картинок".
Также в арсенале Google находится и модуль поиска видеофайлов, размещенных на различных видеосерверах по всему миру.
В качестве собственного справочника ресурсов Интернет Google использует усовершенствованный массив Open Directory Project, что порой позволяет сочетать достоинства обоих поисковых инструментов.
В дополнение к стандартному поисковому сервису, Google располагает самым внушительным среди глобальных поисковых систем перечнем факультативных услуг. Переход к ним осуществляется кликом по ссылке Ещё " в главном меню над строкой ввода запроса. Среди наиболее популярных дополнительных сервисов значатся поиск по картам местности, поиск полнотекстовых книг, поиск научных публикаций, поиск на постоянно обновляемых новостных сайтах и многое-многое другое.
С момента своего создания в первой половине 1990-х и до начала 2000-х годов поисковый модуль Yahoo! был абсолютно не развит. Авторитет Yahoo! зиждился, прежде всего, на мощнейшем справочнике ресурсов. Поисковый модуль выполнял вспомогательную функцию, обеспечивая разыскания внутри гигантского каталога. Финансовая успешность проекта позволила владельцам Yahoo! приобрести ряд серьезных программных разработок в области сетевого поиска, включая Inktomi. При реорганизации портала в 2004 году этот механизм в доработанном виде лег в основу собственной поисковой системы портала Yahoo!, получившей название Yahoo! Search.
С весны 2004 года поисковая система Yahoo! Search функционирует в структуре портала в качестве самостоятельного сервиса и в настоящее время относится к числу лидеров всемирного сетевого поиска. По данным, полученным в результате тестирования, объем ее индексного файла ныне колеблется в пределах триллиона web-страниц. Система обладает возможностью поиска документов в форматах HTML, TXT, PDF, DOC, XLS, PPT и XML. Индексированию подвергаются не только тексты, но и иллюстрации.
Одним из наиболее ценных качеств современного Yahoo! Search является его способность вести поиск видеофрагментов, в том числе и в русскоязычной части Интернет. Реализованный по классической технологии, этот модуль обеспечивает высокое качество разысканий и выявление большого числа проиндексированных фрагментов.
Как и все профессиональные поисковые средства, Yahoo! Search обладает формой расширенного поиска Advanced Search, которая позволяет формулировать поисковое предписание с помощью многоступенчатых меню. Также представлена функция перевода найденных страниц на основные европейские языки, включая русский.
Русскоязычная версия Yahoo! Search, расположена по адресу http://ru.yahoo.com. С ее помощью пользователь имеет возможность произвести поиск по всему Интернет или ограничить разыскания только российским сегментом. Также представлен поиск по российским новостным сайтам и поиск иллюстраций.
Бета-версия поисковой системы, запущенной компанией Microsoft в середине 2009 года. Пока не обладает преимуществами, позволяющими ей на равных конкурировать с Google или Yahoo! Search. Тесты показывают, что объем индексного файла Bing в настоящее более чем в половину уступает аналогичным показателям обоих конкурентов. Еще в большей степени идет отставание по уровню релевантности выдачи результатов поиска.
Система обладает стандартными возможностями составления запроса, включая поиск иллюстраций и видео-файлов, ограничением поиска на определенном языке или в пределах серверов одной страны. Есть основания надеяться, что Microsoft, проведя тестирования системы и исправив выявленные просчеты, создаст новую вариацию Bing, который будет в состоянии встать в один ряд с лидерами сетевого поиска.
Помимо перечисленных глобальных поисковых систем в некоторых случаях по инерции продолжают использоваться устаревшие поисковые сервисы, сохранившие остатки былой популярности со второй половины 90-х годов прошлого века. К их числу относятся Alta Vista (www.altavista.com) и AlltheWeb (www.alltheweb.com). В настоящее время малый объем их индексных файлов и технологические недостатки не позволяют полагаться на сведения, которые они предоставляют.
В тоже время высокая доходность поисковых проектов обуславливает перманентное появление новых поисковых машин, разработчики которых непременно заявляют о колоссальном потенциале своих детищ. По прошествии времени чаще всего выясняется, что декларированные возможности сильно завышены и широко разрекламированные на начальном этапе сервисы благополучно отходят в небытие, в лучшем случае сохраняя работу в фоновом режиме. Такая участь постигла запущенные в период 2000 - 2005 годов поисковые системы Teoma (www.teoma.com), Wotbox (www.wotbox.com), Gigablast (www.gigablast.com), Entireweb (www.entireweb.com), которые так и не смогли завоевать весомый авторитет у широкой аудитории Интернет-пользователей.
В 2006-2009 годах возник ряд новых поисковых проектов, многие из которых до настоящего времени пребывают на этапе бета-тестирования. Идет активный поиск технологий, которые позволят достичь более высоких показателей поиска и тем самым дадут возможность опередить конкурентов. Ирландская поисковая система Cuil (www.cuil.com) декларирует максимальный объем индексного файла, а индийская Yauba (www.yauba.com) ставит во главу угла конфиденциальность поисковых запросов. Создатели целой группы поисковых систем - Mooter (www.mooter.com), Quintura (www.quintura.com), Ask.com (www.ask.com) - активно экспериментируют с кластеризацией получаемых по запросу ссылок. Разработчики Collarity (www.collarity.com) главное внимание уделяют способам ранжирования результатов поиска, в том числе принимая во внимание мнения пользователей о сайте, содержащего искомые документы. Сторонники семантического анализа трудятся над созданием систем, способных анализировать смысловое содержание запроса уже на этапе ввода ключевых слов - Hakia (www.hakia.com). Наконец некоторые компании-разработчики идут по пути повышения внешней привлекательности поисковых систем путем визуального представления найденных страниц - Snap (www.snap.com). Пока, однако, ни один из недавно запущенных поисковых проектов сколько-нибудь существенного влияния на ситуацию в мировом поисковом сервисе не оказал.
Мета-поисковые системы
Отличия в стратегии и широте охвата материала различных систем часто приводят к тому, что разные поисковые средства дают разноречивые ответы на один и тот же запрос. Этим не замедлили воспользоваться разработчики поисковых орудий особого рода, основанных исключительно на использовании потенциала других поисковых систем. Все они получили название мета-поисковые машины. К наиболее известным их представителям относятся, в частности, MetaCrawler (www.metacrawler.com), Ixquick (www.ixquick.com) и ez2Find (ez2find.com). Мета-поисковые системы не имеют собственных поисковых роботов и баз данных (индексных файлов). Их достоинство заключается в умении рассылать вводимые в них запросы по другим системам, а затем суммировать результаты. Таким образом, пользователь, вводя поисковое предписание, например, в MetaCrawler, фактически одновременно обращается к пяти поисковым системам. Этим гарантируется "объективность" полученных результатов, однако, учитывая различия в подходах к обработке терминов разными системами, результат может оказаться не всегда релевантным запросу.
Пользоваться мета-поисковыми системами рекомендуется для выполнения запросов, связанных с поиском очень простых, и, предположительно, крайне редко встречающихся в Сети предметах (лекарственных препаратах, химических элементах, редких сочетаниях имен собственных и т.п.). В этом случае результаты поиска сразу же дают представление о том, насколько широко данные ключевые слова (объекты) встречаются в Сети. Другой причиной обращения к мета-поиску является крайний недостаток времени. Однако, поскольку мета-поисковые средства очень часто не в состоянии корректно обработать запрос для различных поисковых систем и правильно совместить полученные из разных источников результаты, их использование не рекомендуется при выполнении сложных запросов. Поисковые предписания, включающие несколько словосочетаний с указанием расстояния между терминами и тому подобными условиями, заведомо не могут принести правильный ответ. Развернутый список мета-поисковых систем можно получить в Русской справочной библиотеке (library.vadimstepanov.ru).
Упражнения для самостоятельной работы:
1. Используя Google, выявить основные источники по цифровым библиотекам (digital libraries), опубликованные в 2010.
2. С помощью Yahoo! Search найти материалы по психологическим (psychological) аспектам взаимодействия человека и компьютера (human computer interaction), опубликованные в течение последних трех месяцев.
3. Провести поиск статей и научных докладов, посвященных теме "базы знаний" (knowledge bases) и расположенных на австралийских web-сайтах, с помощью двух глобальных поисковых машин по своему выбору. Сравнить полученные результаты.
4. Провести поиск аудио- или видеофрагментов музыкальной темы из кинофильма "Крестный отец" (Godfather) с использованием всех возможных поисковых средств.