Российские справочники ресурсов Интернет
В большинстве стран мира существует множество собственных справочников ресурсов, которые гораздо полнее отражают национальный информационный массив, нежели глобальные каталоги. В России на сегодняшний день существует несколько подобных источников, ни один из которых, к сожалению, не отличается высоким качеством.
В настоящее время является единственным профессионально поддерживаемым отечественным справочником Интернет-ресурсов. Данный каталог выступает ключевой составной частью одноименного портала, включающего также поисковую систему, характеристики которой рассмотрены в соответствующем разделе.
Справочник имеет многоуровневую иерархическую структуру, отличающуюся достаточной логичностью и продуманностью. Ее полный вид можно получить, щелкнув по пункту верхнего меню "Все рубрики". Наполнение разделов, однако, производится далеко не всегда корректно (например, среди массовых библиотек указаны РГБ и РНБ, а также национальные библиотеки Британии, Франции, Испании, Литвы и Казахстана). Создатели каталога не выработали четкой политики в отражении материалов: в Апорт учитываются не только российские или содержательно относящиеся к России ресурсы, но и полностью иноязычные зарубежные ресурсы, причина включения которых абсолютно непонятна.
Каждая ссылка справочника снабжена аннотацией, дающей предварительное представление о содержимом ресурса. Также сообщается его географическое местонахождение, указывается "индекс цитирования", рассчитываемый на основании числа ссылок на данную страницу с других сайтов, и "лига" (этот параметр определяет в большей степени качество дизайна).
К сервисным функциям Апорт относится возможность сортировки ссылок в рубриках по дате поступления, в алфавите названий, по индексу цитирования или лиге. Справочник обладает хорошей возможностью непосредственного поиска, который можно осуществлять как в справочнике в целом, так и в отдельных его разделах.
Апорт наиболее эффективен при поиске серверов российских учреждений, а также для выявления перечней сайтов однородных объектов, имеющих разные названия: например, сайты российских футбольных клубов, сборники кулинарных рецептов, расписания авиарейсов, списки кадровых агентств, коллекции географических карт и т.п.
К числу главных недостатков справочника Апорт относится низкая скорость актуализации сведений. В ряде случаев до четверти ссылок из разделов уже устарели.
Все прочие российские каталоги ресурсов Интернет демонстрируют еще менее качественный уровень работы. К числу справочников, в которых иногда можно обнаружить интересные сведения, относятся Каталог@MAIL.RU (list.mail.ru) и Улитка (www.ulitka.ru). К их общим недостаткам относятся отсутствие четких подходов в отборе материалов, серьезные ошибки в систематизации данных, запаздывание в отражении источников, низкий уровень аннотаций. Причинами этого является то, что справочники наполняются непрофессионалами, работа которых никем не редактируется. Зачастую наполнение производится исключительно путем самостоятельного ввода данных создателями сайтов, что, естественно, не гарантирует даже минимальный качественный уровень представленных материалов.
Упражнения для самостоятельной работы:
1. Путем просмотра категорий Апорт, выявить официальные сайты футбольных клубов российской премьер-лиги.
2. Используя Апорт, Каталог@MAIL.RU и Улитка, выявить крупнейшие электронные коллекции текстов (электронные библиотеки) России.
3. С использованием всех российских справочников провести поиск компаний, предоставляющих аудиторские услуги в России. Сравнить полученные результаты.
Российские поисковые системы
Поисковые системы глобального масштаба свое основное внимание концентрируют на зарубежных ресурсах Сети. Задачу поиска информации на серверах в пределах отдельных стран выполняют локальные машины, специально адаптированные к особенностям конкретных языков. Подобные поисковые средства существуют и в России. Все они специально предназначены для работы с русскоязычными документами и обладают мощным морфологическим аппаратом. К лидирующей группе российских поисковых средств в настоящее время относятся Яндекс, Rambler, GoGo.ru и Апорт.
Запущен в сентябре 1997 года. В настоящее время - единоличный лидер российского поискового сервиса. Демонстрирует высокие показатели, как по объему проиндексированных документов, так и по релевантности поиска. На вторую половину 2010 года Яндексом проиндексировано порядка 11 миллиардов оригинальных документов на российских и зарубежных русскоязычных сайтах, а также сайтах на территории СНГ. Актуализация базы осуществляется еженедельно. Весьма важным является тот факт, что Яндекс способнен индексировать не только HTML-файлы, но и документы в форматах PDF, RTF, DOC, XLS, PPT и SWF (Flash-документы). При этом система дает возможность выбора загрузки этих документов в исходном формате или их просмотр в текстовом режиме (для этого необходимо кликнуть на ссылку "Сохраненная копия").
Интерфейс максимально прост - состоит из единственной строки ввода. За счет встроенной системы морфологической обработки терминов Яндекс приспособлен для формирования запросов на естественном русском языке. Мощнейшая лингвистика позволяет учесть практически все возможные оттенки употребления ключевых слов и составить поисковое предписание в высшей степени широко, охватив все возможные сочетания терминов. В процессе обработки запроса поисковый механизм самостоятельно производит расширения, исключает стоп-слова, анализирует расстояние терминов друг от друга и пр. Типичный запрос в этом случае задается путем ввода отдельных терминов или целой фразы в поисковую строку. Для формирования более точного запроса целесообразно обратиться к "Расширенному поиску" (пункт в нижней части титульной страницы). С помощью структурированного меню можно легко задать ограничения по различным сочетаниям ключевых слов, местоположению термина в документе, времени и языку публикации, месте на сайте.
Максимально детализированный запрос можно создать также и в простой форме с использованием языка запросов Яндекс, который включает множество специальных символов: ~,&,,/,"",,(),|,$, #. Их употребление подробно описано в файле "Помощь по поиску" (help.yandex.ru/search). Снабженные этими символами ключевые слова, вводятся в ту же поисковую строку, что и в первом случае.
Достоинством Яндекс является модуль ранжирования результатов поиска. В его основе лежит алгоритм анализа местоположения и повторяемости термина в документе и анализ внешних ссылок на страницу. Система производит группировку найденных страниц по сайтам на этапе формирования списка результатов и выдает по одному документу с сервера, который, по ее мнению, наиболее соответствует запросу. При этом в ссылке указывается общее число документов с данного сайта, также содержащих искомый термин. Яндекс показывает найденные термины в окружающем словарном контексте, что позволяет сразу же установить степень соответствия найденного документа информационной потребности пользователя.
Яндекс богат сервисными функциями. Среди них возможности поиска иллюстраций, статей из энциклопедий и справочников, товаров в электронных магазинах, сведений, публикуемых на новостных порталах и блогах, разыскания в собственном каталоге Интернет-ресурсов, поиск адресов по картам и многое другое.
Запущен в октябре 1996 года и изначально предназначался для выявления материалов на серверах в пределах бывшего СССР. К началу нового тысячелетия Rambler на время утратил лидирующие позиции, устарев практически по всем показателям. Однако проведенная в декабре 2002 коренная модернизации всей программно-аппаратной части позволила поисковой системе вновь на несколько лет обрести былой авторитет - объемы индексного файла Rambler были сопоставимы с аналогичным показателем Яндекса, который, наряду с Google, являлся для него главным конкурентом. Производительность поискового робота была так же высокой, был добавлен поиск по новостям, иллюстрациям, позже - видео-файлам. Rambler получил способность индексировать, помимо HTML-документов, также документы в форматах PDF и DOC.
Этого, однако, не хватило для успешной борьбы с конкурентами в сфере сетевого поиска и доля поисковых запросов к системе постепенно снижалась, опустившись к осени 2008 года до 8%. Это свидетельствовало о том, что Rambler использовался для разысканий скорее по инерции и главным образом начинающими пользователями.
В октябре 2008 г. Rambler в очередной раз обновился, сменив дизайн и функциональные возможности. Его нынешние владельцы сменили акценты, фактически отказавшись от позиционирования Rambler в качестве поисковой системы, трансформировав проект в крупный многопрофильный медийный портал, каковым он с тех пор и является.
Поисковая система компании Mail.ru, запущенная в 2007 году. Объем индексного файла осенью 2008 года составлял более 2,5 миллиардов страниц, расположенных на русскоязычных серверах. Помимо разыскания текстов, системой осуществляется поиск иллюстраций и видеофрагментов, размещенных на специализированных "самонаполняемых" российских серверах: Фото@Mail.Ru, 500px.com, Flamber.Ru, 35Photo.ru, PhotoForum.ru, Видео@Mail.Ru, RuTube, Loadup, Rambler Vision, Video.I.UA и им подобных. Gogo.ru позволяет ограничивать область поиска сайтами коммерческой направленности, информационными сайтами, а также форумами и блогами. Форма "Расширенного поиска" также дает возможность ограничить разыскания определенными типами файлов (PDF, DOC, XLS, PPT), местоположением искомых слов в документе или определенным доменом.
Поисковая система, запущенная в феврале 1996 года и долгое время входившая в группу лидеров отечественных навигационных сервисов. Ныне объем индексного файла Апорт значительно уступает показателям конкурентов, что не позволяет ему в полной мере соответствовать статусу лидера.
Апорт снабжен массой различных возможностей, заставляющих отнести его к числу самых удобных для пользователя. Именно в нем одним из первых в российской практике был применен сложный язык запросов (www.aport.ru/help), позволяющий максимально детализировать поисковое предписание и избавить пользователя от информационного шума, возникающего при случайном сочетании ключевых слов. Апорт с хорошим качеством осуществляет поиск MP3-файлов и в настоящее время является одной из немногих систем, с помощью которой можно вести разыскание аудиофайлов во всем российском сегменте Интернет, а не только на специализированных музыкальных серверах.
Особенностью Апорт является то, что он не ограничивает своих роботов пределами доменов России и СНГ - в перечне результатов можно встретить ссылки на многие зарубежные сервера.
Список результатов содержит сведения об адресе, дате опубликования и последней проверке документа. Документы с одного сайта сгруппированы вместе. Доступна, ставшая уже привычной, функция реконструкции текста без обращения к исходному документу. Положительным моментом является то, что найденные ключевые слова выводятся в окружающем контексте из любой части документа, а не только из его начала, что позволяет точно определить соответствие страницы запросу уже на этапе просмотра ссылок.
Помимо поисковой системы, пользователей Апорт привлекают возможности одноименного справочника ресурсов, являющего на сегодня наиболее объемным каталогом в России.
В российском сегменте Интернет представлены также и мета-поисковые системы, рассылающие запросы в российские и глобальные поисковые системы. К этой группе относятся MetaBot (www.metabot.ru) и Nigma (www.nigma.ru). Первый сервис является малоизвестным и не отмечен особыми достоинствами. Потенциально более интересной представляется Nigma, являющаяся результатом совместного исследовательского проекта нескольких факультетов МГУ и Стэнфордского университета. Запущенная в 2005 году, эта мета-поисковая система ориентирована на поиск исключительно русскоязычных документов, расположенных на сайтах по всему миру. Nigma рассылает запросы и суммирует результаты практически из всех поисковых систем, отражающих русскоязычные источники - Google, Yahoo! Search, Bing, Altavista, Yandex, Rambler, Aport. Система имеет и собственный индексный файл, который пока относительно мал.
В 2010 году разработчиками предприняты серьезные усилия по превращению Nigma в многофункциональный интеллектуальный инструмент. Система в ряде случаев способна интуитивно предвидеть запрос и выдавать ответ без обращения к первоисточникам, решать математические и химические формулы, расшифровывать сокращения, давать уточняющие подсказки при разысканиях на английском языке. Также проводятся эксперименты по кластеризации результатов поиска, включая их выдачу в "готовом к употреблению" виде.
Упражнения для самостоятельной работы:
1. С помощью Яндекс выявить произведение, которое приблизительно называется "Послание/письмо отца Серафима/Серафимия" и посвящено использованию Интернет.
2. Используя Яндекс и Google, найти материалы, посвященные подъему американцами в 1974 году советской подводной лодки, затонувшей в конце 1960-х годов.
3. С помощью Яндекс и GoGo.Ru провести поиск российских компаний, которые занимаются ретроспективной конверсией каталогов библиотек. Сравнить полученные результаты.
|
|