Сформулируйте сложный запрос. Ключевые запросы (слова). Как совершается поиск информации

Язык запросов - это искусственно созданный язык программирования, используемый для того, чтобы делать запросы в базах данных и информационных системах.

В целом, такие способы запросов можно классифицировать в зависимости от того, служат они для базы данных или для поиска информации. Разница в том, что запросы к подобным сервисам совершаются для получения фактических ответов на поставленные вопросы, в то время как поисковая система пытается найти документы, содержащие сведения, относящиеся к интересующей пользователя области.

Базы данных

Языки запросов по базам данных включают в себя следующие примеры:

  • QL - объектно-ориентированный, относится к преемник Datalog.
  • Контекстный (CQL) - формальный язык представления запросов для информационно-поисковых систем (таких, как веб-индексы или библиографические каталоги).
  • CQLF (CODYASYL) - для CODASYL-TYPE баз данных.
  • Концепт-ориентированный язык запросов (COQL) - используется в соответствующих моделях (com). Он основан на принципах моделирования данных construpt и использует такие операции, как проекция и де-проекция многомерного анализа, аналитические операции и выводы.
  • DMX - используется к моделям
  • Datalog - это язык запросов к дедуктивным базам данных.
  • Gellish English - это язык, который может использоваться для запросов в базы данных Gellish English и позволяет вести диалоги (запросы и ответы), а также служит для информационного моделирования знаний.
  • HTSQL - переводит http-запросы на SQL.
  • ISBL - используется для PRTV (одной из первых реляционных систем управления базами данных).
  • LDAP - это протокол для запросов и служб каталогов, работающий по протоколу TCP/IP.
  • MDX - необходим для баз данных OLAP.

Поисковые системы

Язык поисковых запросов, в свою очередь, направлен на нахождение данных в поисковых системах. Он отличается тем, что часто запросы содержат обычный текст или гипертекст с дополнительным синтаксисом (например, «и»/«или»). Он значительно отличается от стандартных подобных языков, которые регулируются строгими правилами синтаксиса команд или содержат позиционные параметры.

Как классифицируются поисковые запросы?

Существует три широких категории, которые охватывают большинство поисковых запросов: информационная, навигационная и транзакционная. Хотя эта классификация не была закреплена теоретически, эмпирически она подтверждена наличием фактических запросов в поисковых системах.

Информационные запросы - это те, которые охватывают широкие темы (например, какой-либо определенный город или модель грузовиков), в отношении которых может быть получено тысячи релевантных результатов.

Навигационные - это запросы, которые ищут один сайт или веб-страницу на определенную тему (например, YouTube).

Транзакционные - отражают намерение пользователя выполнить определенное действие, например, совершить покупку автомобиля или забронировать билет.

Поисковые системы часто поддерживают четвертый тип запроса, который используется намного реже. Это так называемые запросы подключения, содержащие отчет о связности проиндексированного веб-графика (количество ссылок на определенный URL, или сколько страниц проиндексировано с определенного домена).

Как совершается поиск информации?

Стали известны интересные характеристики, касающиеся веб-поиска:

Средняя длина поискового запроса составляла 2,4 слов.

  • Около половины пользователей направляли один запрос, а чуть меньше трети пользователей делали три или более уникальных запросов один за одним.
  • Почти половина пользователей просматривала только первые одну-две страницы полученных результатов.
  • Менее 5% пользователей используют расширенные возможности поиска (например, выбор каких-либо определенных категорий или поиска в поиске).

Особенности пользовательских действий

Исследование также показало, что 19% запросов содержали географический термин (например, названия, почтовые индексы, географические объекты и т. д.). Еще стоит отметить, что помимо коротких запросов (то есть с несколькими условиями), часто присутствовали и предсказуемые схемы, по которым пользователи меняли свои поисковые фразы.

Также было установлено, что 33% запросов от одного пользователя повторяются, и в 87% случаев юзер будет нажимать на тот же результат. Это говорит о том, что многие пользователи используют повторные запросы, чтобы пересмотреть или заново найти информацию.

Частотные распределения запросов

Кроме того, специалистами было подтверждено, что частотные распределения запросов соответствуют степенному закону. То есть небольшая часть ключевых слов наблюдается в самом большом списке запросов (например, более 100 млн), и они наиболее часто используются. Остальные же фразы в рамках тех же тематик применяются реже и более индивидуально. Это явление получило название принципа Парето (или «правило 80-20»), и оно позволило поисковикам использовать такие методы оптимизации, как индексирование или разбиение базы данных, кэширование и упреждающую загрузку, а также дало возможность совершенствовать язык запросов поисковой системы.

В последние годы было выявлено, что средняя длина запросов неуклонно растет с течением времени. Так, среднестатистический запрос на английском языке стал длиннее. В этой связи компания Google внедрила обновление под названием «Колибри» (в августе 2013 года), которое способно обрабатывать длинные поисковые фразы с непротокольным, «разговорным» языком запроса (наподобие «где ближайшая кофейня?»).

Для более длинных запросов используется их обработка - они разбиваются на фразы, сформулированные стандартным языком, и выводятся ответы на разные части по отдельности.

Структурированные запросы

Поисковые системы, поддерживающие и синтаксис, используют более расширенные языки запроса. Пользователь, который ищет документы, охватывающие несколько тем или граней, может описывать каждую из них по логической характеристике слова. По своей сути, логический язык запросов представляет собой совокупность определенных фраз и знаков препинания.

Что такое расширенный поиск?

Язык запросов «Яндекса» и «Гугла» способен осуществлять более узконаправленный поиск при соблюдении определенных условий. Расширенный поиск может искать по части названия страницы или префиксу заголовка, а также в определенных категориях и перечнях имен. Он также может ограничить поиск страниц, содержащих определенные слова в названии или находящихся в определенных тематических группах. При правильном использовании языка запросов он может обрабатывать параметры на порядок более сложные, чем поверхностные результаты выдачи большинства поисковых систем, в том числе по заданным пользователем словам с переменным окончанием и похожим написанием. При представлении результатов расширенного поиска будет отображена ссылка на соответствующие разделы страницы.

Также это возможность поиска всех страниц, содержащих определенную фразу, в то время как при стандартном запросе поисковые системы не могут остановиться на любой странице обсуждения. Во многих случаях язык запросов может привести на любую страницу, расположенную в тегах noindex.

В некоторых случаях правильно сформированный запрос позволяет найти информацию, содержащую ряд специальных символов и букв других алфавитов (китайские иероглифы например).

Как читаются символы языка запросов?

Верхний и нижний регистр, а также некоторые (умляуты и акценты) не учитываются в поисках. Например, поиск по ключевому слову Citroen не найдет страницы, содержащие слово «Цитроён». Но некоторые лигатуры соответствуют отдельным буквам. Например, поиск по слову «аероскобинг» легко найдет страницы, содержащие «Эрескебинг» (АЭ = Æ).

Многие не алфавитно-цифровые символы постоянно игнорируются. Например, невозможно найти информацию по запросу, содержащему строку |L| (буква между двумя вертикальными полосами), несмотря на то что этот символ используется в некоторых шаблонах конвертирования. В результатах будут только данные с «ЛТ». Некоторые символы и фразы обрабатываются по-разному: запрос «кредит (Финансы)» отобразит статьи со словами «кредит» и «финансы», игнорируя скобки, даже если и существует статья с точным названием «кредит (Финансы)».

Существует множество функций, которые можно использовать с применением языка запросов.

Синтаксис

Язык запросов «Яндекса» и «Гугла» может использовать некоторые знаки препинания для уточнения поиска. В качестве примера можно привести фигурные скобки - {{поиск}}. Фраза, заключенная в них, будет подвергаться поиску целиком, без изменений.

Фраза в позволяет определиться с объектом поиска. Например, слово в кавычках будет распознаваться как используемое в переносном смысле или как вымышленный персонаж, без кавычек - как информация более документального характера.

Кроме того, все основные поисковые системы поддерживают символ «-» для логического «не», а также и/или. Исключение - термины, которые не могут быть разделены с помощью префикса дефисом или тире.

Неточное соответствие поисковой фразы отмечается символом ~. Например, если вы не помните точную формулировку термина или названия, вы можете указать ее в строке поиска с указанным символом, и сможете получить результаты, имеющие максимальное сходство.

Параметры специализированного поиска

Существуют и такие параметры поиска, как intitle, и incategory. Они представляют собой фильтры, отображаемые через двоеточие, в виде «фильтр: строка запроса». Строка запроса может содержать искомый термин или фразу, или же часть либо полное название страницы.

Функция «intitle: запрос» отдает приоритет в поисковой выдаче по названию, но также показывает и обычные результаты по содержанию заголовка. Несколько таких фильтров могут быть использованы одновременно. Как же использовать эту возможность?

Запрос вида «intitle: название аэропорта» выдаст все статьи, содержащие в заголовке название аэропорта. Если же сформулировать его как «парковка intitle: название аэропорта», то вы получите статьи с названием аэропорта в заголовке и с упоминанием парковки в тексте.

Поиск по фильтру «incategory: Категория» работает по принципу первоначальной выдачи статей, принадлежащих к определенной группе или списку страниц. Например, поисковой запрос по типу «Храмы incategory: История» будет выдавать результаты на тему истории храмов. Эту функцию также можно использовать как расширенную, задавая различные параметры.

Приведем несколько простых правил формирования запроса в поисковой системе Яндекс.

Ключевые слова в запросе следует писать строчными (маленькими) буквами.

Это обеспечит поиск всех ключевых слов, а не только тех, которые начинаются с прописной буквы.

При поиске учитываются все формы слова по правилам русского языка, независимо от формы слова в запросе.

Например, если в запросе было указано слово «знаю», то условию поиска будут удовлетворять и слова «знаем», «знаете» и т. п.

Для поиска устойчивого словосочетания следует заключить слова в кавычки.

Например, «фарфоровая посуда».

Для поиска по точной словоформе перед словом надо поставить восклицательный знак.

Например, для поиска слова «сентябрь» в родительном падеже следует написать «!сентября».

Для поиска внутри одного предложения слова в запросе разделяют пробелом или знаком &

Например, «приключенческий роман» или «приключенческий&роман». Несколько набранных в запросе слов, разделенных пробелами, означают, что все они должны входить в одно предложение искомого документа.

Если вы хотите, чтобы были отобраны только те документы, в которых встретилось каждое слово, указанное в запросе, поставьте перед каждым из них знак плюс «+». Если вы, наоборот, хотите исключить какие-либо слова из результата поиска, поставьте перед этим словом минус «-». Знаки « + » и «-» надо писать через пробел от предыдущего и слитно со следующим словом.

Например, по запросу «Волга -автомобиль» будут найдены документы, в которых есть слово «Волга» и нет слова «автомобиль».

При поиске синонимов или близких по значению слов между словами можно поставить вертикальную черту «|».

Например, по запросу «ребенок | малыш | младенец» будут найдены документы с любым из этих слов.

Вместо одного слова в запросе можно подставить целое выражение. Для этого его надо взять в скобки

Например, «(ребенок | малыш | дети | младенец) +(уход | воспитание)».

Знак «~» (тильда) позволяет найти документы с предложением, содержащим первое слово, но не содержащим второе.

Например, по запросу «книги ~ магазин» будут найдены все документы, содержащие слово «книги», рядом с которым (в пределах предложения) нет слова «магазин».

Если оператор повторяется один раз (например, & или ~), поиск производится в пределах предложения. Двойной оператор (&&,~~) задает поиск в пределах документа.

Например, по запросу «рак ~~ астрология» будут найдены документы со словом «рак», не относящиеся к астрологии.

Вернемся к примеру с аквариумными рыбками. После прочтения нескольких предлагаемых поисковой системой документов становится понятно, что поиск информации в Интернете следует начинать не с выбора аквариумных рыбок. Аквариум - сложная биологическая система, создание и поддержание которой требует специальных знаний, времени и серьезных капиталовложений.

На основании полученной информации человек, производящий поиск в Интернете, может кардинально изменить стратегию дальнейшего поиска, приняв решение изучить специальную литературу, относящуюся к исследуемому вопросу.

Для поиска литературы или полнотекстовых документов возможен следующий запрос:

«+(аквариум | аквариумист | аквариумистика) +начинающим +(советы | литература) +(статья | тезис | полнотекстовый) -(цена | магазин | доставка | каталог)».

После обработки запроса поисковой машиной результат оказался весьма успешным. Уже первые ссылки приводят к искомым документам.

Теперь можно подытожить результаты поиска, сделать определенные выводы и принять решение о возможных действиях:

  • Прекратить дальнейший поиск, так как в силу различных причин содержание аквариума вам не под силу.
  • Прочитать предлагаемые статьи и приступить к устройству аквариума.
  • Поискать материалы о хомячках или волнистых попугайчиках.

Вопросы.

1. Какой вид поиска является самым быстрым и надежным?

2. Где пользователь может найти адреса Web-страниц?

3. Каково основное назначение поисковой системы?

4. Из каких частей состоит поисковая система?

5. Какие поисковые системы вы знаете?

6. Какова технология поиска по рубрикатору поисковой системы?

7. Какова технология поиска по ключевым словам?

8. Когда в критерии поиска надо задавать + или -?

9. Какие критерии поиска в Яндексе заданы следующей фразой:

(няня|воспитатель|гувернантка)++(уход|воспитание|присмотр) ?

10. Что означает удвоение знака (~~ или ++) при формировании сложного запроса?

Задание.

Задание 1. Поиск по каталогам.

Пользуясь каталогом поисковой системы, найдите следующую информацию (по указанию учителя):

1. Текст песни популярной музыкальной группы

2. Репертуар Мариинского театра на текущую неделю

3. Характеристики последней модели мобильного телефона известной фирмы (по вашему выбору)

4. Рецепт приготовления украинского борща с галушками

5. Долгосрочный прогноз погоды в вашем регионе (не менее чем на 10 дней)

6. Фотография любимого исполнителя современной песни

7. Примерная стоимость мультимедийного компьютера (прайс)

8. Информация о вакансиях на должность секретаря в вашем регионе или городе

9. Гороскоп своего знака зодиака на текущий день

По результатам поиска составьте письменный отчет в Word: представьте в документе найденный, скопированный и отформатированный материал. Предъявите отчет учителю.

Задание 2. Формирование запроса по точному названию или цитате.

Вам известно точное название документа, например «Гигиенические требования к персональным электронно-вычислительным машинам и организации работы». Сформулируйте запрос для поиска в Интернете полного текста документа.

Результат поиска сохраните в своей папке. Предъявите учителю.

Задание 3. Формирование сложных запросов.

  • В любой поисковой системе составьте запрос для поиска информации о русской бане. Исключите предложения об услугах, рекламу банных принадлежностей и прочую рекламу. Сосредоточьте поиск на влиянии русской бани на организм.
  • Составьте сложный запрос на поиск информации по уходу за домашними кошками. Исключите из поиска крупных кошек (например, львов), а также предложения о покупке, продаже, фотографии для обоев и т. п.
  • Текст запроса и результат поиска оформите в Word и представьте учителю.

Задание 4. Тематический поиск.

Всеми известными вам способами выполните поиск в Интернете информации по истории развития вычислительной техники. Поиск производите по различным направлениям: историческая обстановка, техника, личности. Результаты поиска оформите в виде презентации. Используйте в презентации многоступенчатой оглавление в виде гиперссылок.

Для поиска интересующей вас информации необходимо указать браузеру адрес Web-страницы, на которой она находится. Это самый быстрый и надежный вид поиска. Для быстрого доступа к ресурсу достаточно запустить браузер и набрать адрес страницы в строке адреса.

Адреса Web-страниц приводятся в специальных справочниках, печатных изданиях, звучат в эфире популярных радиостанций и с экранов телевизора.

Если вы не знаете адреса, то для поиска информации в сети Интернет существуют поисковые системы, которые содержат информацию о ресурсах Интернета.

Каждая поисковая система – это большая база ключевых слов, связанных с Web-страницами, на которых они встретились. Для поиска адреса сервера с интересующей вас информацией надо ввести в поле поисковой системы ключевое слово, несколько слов или фразу. Тем самым вы посылаете поисковой системе запрос. Результаты поиска выдаются в виде списка адресов Web-страниц, на которых встретились эти слова.

Как правило, поисковые системы состоят из трех частей: робота, индекса и программы обработки запроса.

Робот (Spider, Robot или Bot) - это программа, которая посещает веб-страницы и считывает (полностью или частично) их содержимое.

Роботы поисковых систем различаются индивидуальной схемой анализа содержимого веб-страницы.

Индекс - это хранилище данных, в котором сосредоточены копии всех посещенных роботами страниц.

Индексы в каждой поисковой системе различаются по объему и способу организации хранимой информации. Базы данных ведущих поисковых машин хранят сведения о десятках миллионов документов, а объемы их индекса составляют сотни гигабайт. Индексы периодически обновляются и дополняются, поэтому результаты работы одной поисковой машины с одним и тем же запросом могут различаться, если поиск производился в разное время.

Программа обработки запроса - это программа, которая в соответствии с запросом пользователя «просматривает» индекс на предмет наличия нужной информации и возвращает ссылки на найденные документы.

Множество ссылок на выходе системы распределяется программой в порядке убывания от наибольшей степени соответствия ссылки запросу к наименьшей.

В России наиболее распространенными поисковыми системами являются:

    Рамблер (www.rambler.ru);

    Яндекс (www.yandex.ru);

    Мэйл (www.mail.ru).

За рубежом поисковых систем гораздо больше. Самыми популярными являются:

    Alta Vista (www.altavista.com);

    Fast Search (www.alltheweb.com);

    Google (www.google.com).

Яндекс является пожалуй наилучшей поисковой системой в российском Интернете. Эта база данных содержит около 200 000 серверов и до 30 миллионов документов, которые система просматривает в течение нескольких секунд. На примере этой системы покажем как осуществляется поиск информации.

Поиск информации задается введением ключевого слова в специальную рамку и нажатием кнопки «Найти», справа от рамки.

Результаты поиска появляются в течение нескольких секунд, причем ранжированные по значимости – наиболее важные документы размещаются в начале списка. При этом ранг найденного документа определяется тем, в каком месте документа находится ключевое слово (в заглавии документа важнее, чем в любом другом месте) и числом упоминаний ключевого слова (чем больше упоминаний, тем ранг выше).

Таким образом, сайты, расположенные на первых местах в списке, являются ведущими не с содержательной точки зрения, а практически, по отношению к частоте упоминания ключевого слова. В связи с этим, не следует ограничиваться просмотром первого десятка предложенных поисковой системой сайтов.

Содержательную часть сайта можно косвенно оценить по краткому его описанию, размещаемому Поисковой системой под адресом Сайта. Некоторые недобросовестные авторы сайтов, для того, чтобы повысить вероятность появления своей Web-страницы на первых местах Поисковой системы, умышленно включают в документ бессмысленные повторы ключевого слова. Но как только поисковая система обнаруживает такой «замусоренный» документ, она автоматически исключает его из своей базы данных.

Даже ранжированный список документов, предлагаемый поисковой системой в ответ на ключевую фразу или слово, может оказаться практически необозримым. В связи с этим в Яндекс (как и других мощных Поисковых Машинах) предоставлена возможность в рамках первого списка, выбрать документы, которые точнее отражают цель поиска, то есть уточнить или улучшить результаты поиска. Например, на ключевое слово список из 34 899 Веб-страниц. После ввода в команду «Искать в найденном» уточняющего ключевого слова список сокращается до 750 страниц, а после ввода в эту команду еще одного уточняющего слова этот список сокращается до 130 Веб-страниц.

Язык запросов Direct Commander Query Language позволяет создавать сложные критерии для отбора объектов: накладывать различные условия на значения полей и комбинировать их с помощью логических операторов.

Запрос вводится в строке текстового фильтра внизу любой панели Коммандера. Запрос с использованием логических операторов начинается с символа = .

Составление запроса

Простой запрос состоит из трех частей:

Поле Оператор Значение

Например, запрос заголовок ~ сухари покажет все объявления, у которых в столбце Заголовок содержится слово «сухари» .

Начните вводить запрос с символа = . При этом в строке ввода появляется значок Названия полей и операторы можно выбирать из всплывающих подсказок.

При вводе значения обратите внимание:

Если запрос составлен неправильно, значок в строке ввода меняется на и появляется сообщение об ошибке.

Запросы из нескольких условий

Для составления комбинированных запросов можно использовать операторы & (логическое И) и | (логическое ИЛИ).

Условия в запросе выполняются строго слева направо, но можно изменить порядок с помощью круглых скобок. Условия, заключенные в скобки, имеют приоритет над стандартной последовательностью.

Пример 1

Слова ~ спички | Слова ~ сахар

По этому запросу отбираются фразы, в которых есть ключевое слово «спички» или «сахар» .

Пример 2

Слова ~ спички | Слова ~ сахар & Ставка > 1

По этому запросу отбираются фразы, которые отвечают одновременно двум условиям:

    Имеют ставку на поиске больше 1.

Пример 3

Слова ~ спички | (Слова ~ сахар & Ставка > 1)

По этому запросу отбираются фразы, которые соответствуют хотя бы одному из двух условий:

Операторы языка запросов

В зависимости от поля в DCQL применяются следующие типы операторов.

Оператор Значение Пример Результат
~ Содержит = геотаргетинг ~ австр
!~ Не содержит = геотаргетинг!~ австр
= Модерация!~ [Ожидает]
= Равно/совпадает = геотаргетинг = Австралия
= Номер =
!= Не равно/не совпадает = геотаргетинг!= Австралия
= Номер!=
> Больше = ctr > 0.5
< Меньше = ctr < 0.5
>= Больше либо равно = Ставка >= 1
<= Меньше либо равно = Ставка <= 1
&
|
Оператор Значение Пример Результат
~ Содержит = геотаргетинг ~ австр Отбираются группы объявлений, у которых в столбце Геотаргетинг указано «Австралия» или «Австрия»
= \"Имя изображения\" ~ Отбираются объявления, у которых в столбце Имя изображения указано имя, содержащее подстроку «black» или «white»
= Модерация ~ [Принято; Черновик] Отбираются объявления, у которых в столбце Модерация указано значение «Принято» или «Черновик»
!~ Не содержит = геотаргетинг!~ австр Отбираются группы объявлений, кроме тех, у которых указан геотаргетинг «Австралия» или «Австрия»
= заголовок!~ [спички сухари] Отбираются объявления, у которых значение в столбце Заголовок не содержит подстрок «спички» и «сухари»
= Модерация!~ [Ожидает] Отбираются объявления, у которых в столбце Модерация указано любое значение, кроме «Ожидает» .
= Равно/совпадает = геотаргетинг = Австралия Отбираются только те группы, у которых указан геотаргетинг «Австралия»
= Номер = Отбираются объявления с номерами 111111 и 222222.
!= Не равно/не совпадает = геотаргетинг!= Австралия Отбираются группы, кроме тех, у которых указан геотаргетинг «Австралия»
= Номер!= Отбираются объявления с номерами, отличными от 111111 и 222222.
> Больше = ctr > 0.5 Отбираются фразы с CTR больше 0,5
< Меньше = ctr < 0.5 Отбираются фразы с CTR меньше 0,5
>= Больше либо равно = Ставка >= 1 Отбираются фразы, у которых ставка на поиске больше либо равна 1
<= Меньше либо равно = Ставка <= 1 Отбираются фразы, у которых ставка на поиске меньше либо равна 1
& Логическое «И» в сложных запросах = номер ~ 123 & состояние = \"идут показы\" Отбираются объявления, которые в номере содержат цифры 123 И находятся в состоянии «Идут показы»
| Логическое «ИЛИ» в сложных запросах = название ~ спички | название ~ сахар Отбираются объявления, в названии которых содержится слово «спички» ИЛИ слово «сахар»

Внимание.

Операторы > , >= , < и <= можно использовать только для столбцов с числовыми значениями.



Есть вопросы?

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: