Поисковые системы
Синтаксис языка запросов
Разные поисковые системы используют различные алгоритмы и формулы для вычисления веса и различные способы сопоставления всех этих факторов. Поэтому релевантность документов оценивается по-разному. То есть один и тот же запрос к разным поисковым системам даст разные результаты.
Хотя расширенный запрос и предназначен для уточнения критериев поиска, полностью настраиваемый поиск можно обеспечить с помощью применения языка запросов. Язык запросов — это специальные символы и операторы, которые пишутся в ту же строку для поиска, что и ключевые слова, и обрабатываются поисковой машиной. Google, Yandex и Rambler имеют сходство в применении некоторых специальных символов. Строка, заключенная в кавычки, будет найдена именно в том виде, что и в запросе — слова расположены в том же порядке и находятся в той же форме. Символ «+» перед словом говорит о том, что слово должно обязательно присутствовать в найденных документах. На самом деле по умолчанию между всеми словами и так подразумевается логический оператор «И», то есть будут найдены документы, которые содержат одновременно все слова из запроса. Поэтому символ «+» имеет смысл для так называемых «стоп-слов». Это такие слова, которые часто встречаются в текстах и вряд ли могут являться критерием для поиска. Например, предлоги, союзы, местоимения, артикли и т. п. Противоположное значение имеет символ «-». Слово, которому предшествует этот знак, не должно попадаться в документе. В Rambler вместо «-» используется знак «!». Исключение слов — очень простой, но полезный прием, позволяющий сразу отсеять множество документов, которые точно не подходят.
Иногда можно использовать логическое «ИЛИ». В Google оно выглядит как «OR». В Yandex и Rambler — как символ «|». Также в Yandex и Rambler можно строить запросы с применением скобок и оператора логического сложения «&». К примеру, запрос «(фотография | фото | фотоснимок) & (тигр | носорог)» выдаст страницы с фото какого-либо из двух животных. Yandex оператор «&» указывает на то, что слова должны находиться в одном предложении. Rambler же достаточно, чтобы они просто присутствовали в документе. Для того чтобы Yandex искал слова по всему документу, нужно использовать оператор «&&».
Также Yandex и Rambler позволяют указать расстояние между искомыми словами в предложении. В Rambler для этого используется конструкция '(число, запрос)', где число — это расстояние между словами, представленными в запросе, измеряемое в словах. В Yandex используется конструкция вида «/(n m)», где n и m — расстояние назад и вперед в словах между ключевыми выражениями. Кроме того, можно применять упрощенную конструкцию — «/n» — или указывать расстояние не в словах, а в предложениях — «&&/(n m)».
Yandex отличается чувствительностью к регистру букв. Если в запросе присутствует слово, написанное со строчной буквы, то будут найдены документы, где это слово написано как со строчной, так и с прописной. Если же в запросе содержится слово, написанное с прописной буквы, то будут найдены только слова, начинающиеся с прописной (если это слово не первое в предложении). Для исключения слов в пределах предложения служит оператор «~», в пределах документа — «~~» (то есть «~~» эквивалентно «-»). Для поиска точной формы слова (без учета морфологии) нужно поставить перед ним «!». При помощи операторов «$» и «#» можно, как и в расширенном поиске, задать зону поиска (заголовок документа или текст ссылки) или элемент документа (описание картинки, ключевое слово и т. д.). Кроме того, у Yandex существует возможность влиять на ранжирование результатов. Через двоеточие после ключевого слова или выражения можно указать число, которое будет влиять на вес этого слова или выражения. Также можно использовать оператор «<-» для задания уточняющего слова или выражения — это увеличит релевантность документов, содержащих уточняющее выражение.
Кто ищет лучше
Оценить, насколько результат поиска соответствует запросу пользователя, довольно сложно. Google и Yandex обладают самыми большими базами по русскому Интернету. Но Rambler, так как это первая поисковая машина, начавшая индексировать российский Интернет, лучше ведет поиск по старым документам, которые в силу каких-либо причин не стали популярны. Кроме того, ресурсы с установленным счетчиком Rambler Top 100 (а это одни из самых популярных рейтингов) имеют на Rambler больший вес и индексируются еще чаще.
Особенность Google состоит в том, что благодаря применяемой там системе присвоения веса PageRank хорошо ищутся авторитетные сайты. В этом отношении Google был первым, но сейчас подобные ссылочные алгоритмы используют почти все поисковики. Yandex отличается своим развитым языком запросов (которым пользуются менее 1% пользователей) и большими познаниями в морфологии русского языка, но разработчики системы всегда видели своей задачей обеспечение точности поиска при так называемом естественно-языковом запросе, то есть когда неподготовленный человек просто пришел и просто спросил.
Дополнительные возможности
Кроме главной своей функции — полнотекстового поиска по документам Интернета — поисковые системы часто предоставляют ряд дополнительных услуг. Например, у всех трех рассматриваемых поисковых систем есть возможность поиска в каталоге. Для поиска графических изображений на Yandex отведен отдельный раздел. Обычно изображение находится в какомто документе и связано с некоторым текстом. По этому тексту и можно попытаться его найти. Тут можно использовать текст подписи к картинке (параметр «alt» тега img, задающий поясняющую надпись) или же текст ссылки на нее. Также информацию об изображении можно почерпнуть из текста, который расположен в документе рядом с картинкой, и из названия графического файла. При этом ключевые слова подвергаются и транслитерации, и переводу на английский язык. Таким образом, если вы ищете изображение по ключевому выражению, к примеру, «розовый слон», то найдутся в том числе и файлы, содержащие в своем названии сочетания «slon», «elephant», «pink» и т. д. На Rambler есть специальная форма для поиска файлов. Файлы можно искать любые или определенного типа: картинки, аудио, видео. В отличие от Yandex поиск происходит только по именам файлов или каталогов, без анализа каких-либо элементов, связанных с файлом. Имя файла можно задавать точным значением или используя шаблоны (символы «*» и «?») и регулярные выражения (более сложные формы шаблонов). Есть возможность задать каталоги, которые следует исключить из поиска или же, наоборот, искать только в них. Эти же ограничения можно наложить и на доменные зоны, в которых должен располагаться сервер с нужным файлом. Заглавная страница каждой поисковой машины — это не просто форма для ввода запроса, но еще и внушительный портал. На сайтах Rambler и Yandex можно найти ссылки на популярные ресурсы, программу телепередач, прогноз погоды, гороскоп, курсы валют, последние новости, почтовый сервис, онлайн-словари, энциклопедии и множество других разделов.