Программы поиска данных в интернете. Обзор программ для поиска документов и данных. Определяем имя человека по email

Алексей Кутовенко

Профессиональный поиск в Интернете

Введение

Интернет-поиск – важный элемент работы в Сети. Точное количество веб-ресурсов современного интернета вряд ли кому-либо точно известно. В любом случае, счет идет на миллиарды. Для того чтобы можно было использовать информацию, необходимую в данный конкретный момент, не важно, в рабочих или развлекательных целях, сначала нужно ее найти в этом постоянно пополняемом океане ресурсов. Это совсем не простая задача, поскольку информация в современной Сети не структурирована, что создает проблемы ее нахождения. Не случайно своеобразными «окнами» в это информационное пространство стали именно интернет-поисковики.

Вряд ли среди интернет-пользователей найдутся люди, никогда не использовавшие крупные универсальные поисковые машины. Названия Google, Яндекс и пары-тройки других больших машин на слуху у всех. Они замечательно справляются с повседневными задачами интернет-поиска, и зачастую пользователи даже не пытаются искать им замену. В то же время количество поисковых интернет-машин в наше время исчисляется тысячами. Причины такого разнообразия альтернативных машин имеют различные корни. Одни проекты пытаются напрямую конкурировать с лидерами глобального рынка за счет тщательной работы с национальными интернет-ресурсами. Другие предлагают возможности составления запроса, отсутствующие у известных поисковиков. Значительное количество альтернативных машин специализируются на поиске по определенной тематической области или определенному типу контента, достигая в решении этих задач впечатляющих результатов. Как бы то ни было, включение таких поисковиков в собственный пользовательский арсенал средств интернет-поиска может заметно повысить его качество. Здесь, правда, существует один нюанс: надо знать о таких машинах и уметь пользоваться их возможностями.

Предполагаем, что читатели данной книги уже достаточно хорошо знакомы с техникой поиска с помощью универсальных поисковиков. Хорошо настолько, что почувствовали ограничения, связанные с их применением. Скорее всего, такие люди уже пробовали искать и применять те или иные дополнительные инструменты. Печатное слово не обходит стороной тему интернет-поиска: и статьи периодически появляются, и книги выходят. Вот только герои у них, как правило, одни и те же – несколько ведущих универсальных поисковиков. Наша книга отличается тем, что в ней делается попытка охватить весь спектр современных поисковых решений. Здесь вы найдете описания и рекомендации по использованию лучших современных сервисов, ориентированных на решение наиболее распространенных поисковых задач. Эта книга для людей, много работающих в интернете и использующих Сеть для поиска нужной информации – будь то бизнес, учеба или хобби.

Для того чтобы интернет-поиск был успешным, должны быть выполнены два условия: запросы должны быть хорошо сформулированы и задавать их нужно в подходящих местах. Другими словами, от пользователя требуется, с одной стороны, умение переводить свои поисковые интересы на язык поискового запроса, а с другой – хорошее знание поисковых систем, доступных инструментов поиска, их достоинств и недостатков, что позволит выбирать в каждом конкретном случае наиболее подходящие средства поиска.

В настоящее время не существует какого-либо одного ресурса, удовлетворяющего всем требованиям к интернет-поиску. Поэтому при серьезном подходе к поиску неизбежно приходится задействовать разные инструменты, используя каждый в наиболее подходящем случае.

Доступных средств поиска немало. Их можно объединить в несколько групп, каждая из которых обладает определенными достоинствами и недостатками. Главы нашей книги посвящены основным группам современных поисковых интернет-систем.

Глава 1, «Универсальные интернет-поисковики», посвящена крупным универсальным системам поиска информации в Сети. Основной акцент делается на их наиболее современных инструментах, которые обычно выпадают из поля зрения широкой публики. Обзор возможностей известных машин дает нам своеобразную точку отсчета и позволяет четко представить сферу применения альтернативных поисковых решений.

Глава 2, «Вертикальный поиск», рассказывает о системах, специализирующихся на определенных тематических областях или же определенных видах контента.

В главе 3, «Метапоиск», рассмотрены метапоисковые системы, способные отправить запрос одновременно на несколько интернет-поисковиков, а затем собрать и обработать полученные результаты в едином интерфейсе.

Глава 4, «Семантические и визуальные интернет-поисковики», представляет собой обзор экспериментальных систем, предлагающих оригинальные пользовательские интерфейсы, а также интересные подходы к обработке запросов.

В главе 5, «Рекомендательные машины», рассказывается о недавно появившихся поисковых сервисах, по-английски метко названных «Discovery Engines», то есть «машины открытий». С их помощью можно обрабатывать ряд запросов, которые «не по зубам» другим видам интернет-поисковиков.

Если вам не подходит ни один готовый продукт, вы можете создать собственный интернет-поисковик. Созданию таких персональных машин посвящена глава 6, «Персональные поисковики».

Несколько глав нашей книги посвящены поиску различных видов сетевого контента. В главе 7, «Поиск изображений», рассказывается о современных тенденциях интернет-поиска изображений, а также о возможностях соответствующих экспериментальных систем. Глава 8, «Поиск видео», предлагает обзор средств видеопоиска ведущих универсальных интернет-поисковиков, а также лучших специализированных систем этого направления.

Глава 9, «Поиск «скрытого» контента», является обзором систем, позволяющих вести поиск контента, который «не видят» универсальные поисковики. К такому «скрытому» контенту относятся, например, торренты или файлы, размещенные на FTP-серверах и файловых хостингах.

Глава 10, «Поиск для Web 3.0», рассказывает о средствах интернет-поиска данных в форматах «семантического веба».

Поиск не заканчивается простым получением результатов с того или иного поисковика. Инструментам обработки и сохранения результатов посвящена последняя глава нашей книги – глава 11, «Программы-помощники».

Прежде чем начинать рассказ о конкретных продуктах, имеет смысл разобраться с классификацией современных средств интернет-поиска, а также определиться с терминами, которые постоянно встречаются на страницах нашей книги.

Основные средства интернет-поиска можно разделить на следующие основные группы:

Поисковые машины;

Веб-каталоги;

Справочные ресурсы;

Локальные программы для поиска в интернете.

Наиболее популярным средством поиска являются поисковые машины – так называемые интернет-поисковики (Search Engines). Тройка лидеров в общемировом масштабе достаточно стабильна – это Google, Yahoo! и Bing. Во многих странах к этому перечню добавляются собственные локальные поисковики, оптимизированные для работы с местным контентом. С их помощью теоретически можно найти любое конкретное слово на страницах многих миллионов сайтов.

Несмотря на многие различия, все интернет-поисковики работают по схожим принципам и с технической точки зрения состоят из похожих подсистем.

Первая структурная часть поисковика – специальные программы, применяемые для автоматического поиска и последующего индексирования веб-страниц. Такие программы обычно называют пауками, или ботами. Они просматривают код веб-страниц, находят расположенные на них ссылки и тем самым обнаруживают новые веб-страницы. Есть и альтернативный способ включения сайта в индекс. Многие поисковики предлагают владельцам ресурсов возможность самостоятельно добавить сайт в свою базу. Как бы то ни было, затем веб-страницы скачиваются, анализируются и индексируются. В них выделяются структурные элементы, находятся ключевые слова, определяются их связи с остальными сайтами и веб-страницами. Производятся и другие операции, результатом выполнения которых становится формирование индексной базы поисковика. Эта база – второй главный элемент любого поисковика. Сейчас не существует какой-либо одной абсолютно полной индексной базы, которая содержала бы сведения обо всем контенте интернета. Поскольку разные поисковики используют разные программы поиска веб-страниц и строят свой индекс с помощью разных алгоритмов, индексные базы поисковиков могут существенно различаться. Некоторые сайты оказываются проиндексированными несколькими поисковиками, однако всегда остается определенный процент ресурсов, включенных в базу только какого-либо одного поисковика. Наличие у каждого поисковика такой оригинальной и непересекающейся части индекса позволяет сделать важное практическое заключение: если вы пользуетесь только одним поисковиком, пусть даже самым крупным, вы обязательно потеряете некоторый процент полезных ссылок.

Глобальная сеть Интернет к середине 2015 года соединила уже 3,2 млрд пользователей, то есть практически 43,8% населения планеты. Для сравнения: 15 лет назад пользователями Сети было всего 6,5% населения, то есть количество пользователей увеличилось более чем в 6 раз! Но более впечатляют не количественные, а качественные показатели расширения внедрения интернет-технологий в различных областях человеческой деятельности: от глобальных коммуникаций социальных сетей до бытовых интернет-вещей. Мобильный интернет предоставил возможность пользователям находиться он-лайн вне офиса и дома: в дороге, за городом на природе.
В настоящее время существуют сотни систем для поиска информации в Интернет. Наиболее популярные из них доступны для подавляющего большинства пользователей поскольку они бесплатны и просты в эксплуатации: Google, Yandex,Nigma, Yahoo!,Bing..... К услугам более опытных пользователей интерфейсы "расширенного поиска", специализированные поиски "по социальным сетям",по новостным потокам и объявлениям купли-продажи... Но у всех этих замечательных поисковиков есть существенный недостаток, который выше я уже отмечал как достоинство: они бесплатны.
Если инвесторы вкладывают в развитие поисковиков миллиарды долларов, то возникает вполне уместный вопрос: а где же они зарабатывают?
А зарабатывают они в частности на том, что предоставляют на запросы пользователей не столько ту информацию, которая была бы полезна с точки зрения пользователя, а ту которую считают полезной для пользователя владельцы поисковых систем. Осуществляется это путем манипулирования порядком выдачи списков ответов на поисковые запросы пользователей. Здесь и открытая реклама определенных интернет- ресурсов, и скрытая подтасовка релевантности ответов исходя из коммерческих, политических и идеологических интересов владельцев поисковых систем.
Поэтому среди профессиональных специалистов поиска информации в Интернете весьма актуальна проблема пертинентности результатов работы поисковых систем.
Пертине́нтность — это соответствие найденных информационно-поисковой системой документов информационным потребностям пользователя, независимо от того, как полно и как точно эта информационная потребность выражена в самом тексте информационного запроса. Это соотношение объёма полезной информации к общему объёму полученной информации. Грубо говоря, это эффективность поиска.
Специалистам, осуществующим квалифицированный поиск информации в Интернете, требуется прилагать определенные усилия по фильтрации поисковых результатов,отсеивая ненужный информационный "шум". А для этого используются поисковые средства профессионального уровня.
Одна из таких профессиональных систем - российская программа FileForFiles & SiteSputnik (СайтСпутник) .
Разработчик Алексей Мыльников из Волгограда.

"Программа FileForFiles & SiteSputnik (СайтСпутник) предназначена для организации и автоматизации профессионального поиска, сбора и мониторинга информации, размещенной в интернете. Особое внимание уделяется получению поступающей новой информации на интересующие темы. Реализовано несколько функций анализа информации. "


Mониторинг и рубрикация потоков информации


Сначала несколько слов о мониторинге потоков информации , частным случаем которого является мониторинг СМИ и социальных сетей:

  • пользователь указывает Источники, которые могут содержать нужную информацию, и Правила выбора этой информации;

  • программа скачивает свежие ссылки из Источников, освобождает их контент от мусора и повторов и раскладывает по Рубрикам согласно Правилам.

  • Чтобы живьём увидеть простой, но реальный процесс мониторинга, в котором задействованы 6 источников и 4 рубрики:
  • откройте Демоверсию программы ;


  • далее, в появившемся окне, - на кнопку Совместно ;

  • и когда СайтСпутник в реальном масштабе времени выполнит этот Проект, Вы:
    — в списке "Чистый поток" увидите всю новую информацию из Источников,
    — в Рубрике "Пост-запрос" - только удовлетворяющие правилу экономические и финансовые новости,
    — в Рубриках "О президенте", "О премьере" и "Центробанк", - информацию относящуюся к соотвествующим объектам.

  • В реальных Проектах можно задействовать практически любое количество Источников и Рубрик.
    Свои первые рабочие Проекты можно создать за несколько часов, их совершенствование - в процессе эксплуатации.
    Описанная обработка информации доступна в комплектации SiteSputnik Pro+News и выше.

2. Простой и пакетный поиск, сбор информации

Для ознакомления с возможностями SiteSputnik Pro (базового варианта комплектации программы):

  • откройте Демоверсию программы ;

  • введите свой первый запрос, например, своё ФИО, как это сделал я:

    и нажмите на кнопку Поиск .


  • Программа (смотрите табличку, которую построил СайтСпутник) за несколько секунд опросит 7 источников, откроет в них 24 поисковые страницы, найдет 227 релевантные ссылки, уберет повторно встретившиеся ссылки и из оставшихся 156 уникальных ссылок составит список "Объединение" .

    Наименование
    Источника

    Заказано
    страниц

    Скачано
    страниц

    Найдено
    ссылок

    Время
    поиска

    КПД
    поиска

    Ссылки
    Новые

    КПД
    Новые
    Yandex 5 5 50 0:00:05 32% 0 0
    Google 5 5 44 0:00:03 28% 0 0
    Yahoo 5 5 50 0:00:05 32% 0 0
    Rambler 5 4 56 0:00:07 36% 0 0
    MSN (Bing) 5 3 23 0:00:04 15% 0 0
    Yandex.Блоги 5 1 1 0:00:01 1% 0 0
    Google.Блоги 5 1 3 0:00:01 2% 0 0
    Итого: 35 24 227 0:00:26 0 0
    Итого: количество уникальных ссылок - 156 , повторяющихся ссылок - 46 %.

  • (! ) Повторите Ваш запрос через несколько часов или суток, и Вы увидите в отдельном списке только новые ссылки , появившиеся в выдаче Источников за этот промежуток времени. В двух последних столбцах таблички можно будет увидеть сколько новых ссылок принес каждый Источник и его КПД по "новизне". При многократном выполнении запроса список, содержащий только новые ссылки , создается относительно всех предыдущих выполнений этого запроса. Казалось бы, элементарная и нужная функция, но автору не известна ни одна программа, в которой она реализована.

  • (!! ) Описанные возможности поддерживаются не только для отдельных запросов, но и для целых пакетов запросов :

    Пакет, который Вы видите, состоит из семи разных запросов, собирающих информацию о Василие Шукшине из нескольких Источников, среди которых есть поисковики, Википедия, точный поиск в новостях Яндекса, метапоиск и поиск упоминаний на ТВ и радиостанциях. В сценарий ТВ и Радио входят: "Первый канал", "ТВ Россия", НТВ, РБК ТВ, "Эхо Москвы", радиокомпания "Маяк", ... и другие Источники информации. Для каждого Источника прописана своя глубина поиска или просмотра в страницах. Она указана в третьем столбце.

    Пакетный поиск позволяет по одному щелчку мышки осуществлять всесторонний сбор информации на заданную тему.
    Отдельный список новые ссылки , при повторных выполнениях пакета, будет содержать только не найденные ранее ссылки.
    Запоминать что и когда Вы спросили у Интернета и что он Вам ответил не надо - всё автоматически сохраняется в библиотеках и в базах данных программы.
    Повторюсь, что описанные в данном пункте возможности целиком и полностью входят в комплектацию SiteSpunik Pro .


  • Подробнее в инструкции: SiteSputnik Pro для начинающих.

3. Объекты и мониторинг поиска

Довольно часто перед Пользователем возникает следующая задача. Нужно узнать, что есть в интернете о конкретном объекте: человеке или фирме. Например, при приеме на работу нового сотрудника или при появлении нового контрагента Вы всегда знаете ФИО, название фирмы, телефоны, ИНН, ОГРН или ОГРНИП, также можете взять ICQ, Скайп и некоторые другие данные. Далее, используя обращение к специальной функции программы СайтСпутник "Сбор информации об объекте " (комплектация SiteSputnik Pro+Objects ):

Вы вносите те данные, которые Вам известны, и по одному щелчку мышки осуществляете точный и полный поиск ссылок, содержащих заданную информацию. Поиск выполняется сразу на нескольких поисковиках, сразу по всем реквизитам, сразу по нескольким возможным комбинациям записи реквизитов: вспомните как по-разному можно записать номер телефона. Через определенный промежуток времени Вы, не выполняя скучной рутинной работы, получите список ссылок, очищенный от повторов и, главное, упорядоченный по релевантности для искомого объекта. Релевантность (значимость) достигается за счет того, что первыми в выдаче СайтСпутника будут идти те ссылки, на которых находится большее количество заданных Вами реквизитов, а не те, которые продвинули вверх выдачи поисковиков Веб-мастера.

Важно .
Программа СайтСпутник умеет лучше других программ добывать реальную , а не официальную информацию об Объекте. Например, в официальной базе данных сотового оператора может быть записано, что телефон принадлежит Василию Терехину, а реально на этом телефоне "висит" информация о том, что Александр продавал автомобиль Форд Фокус в 2013 году, что является дополнительной информацией к размышлению.

Мониторинг поиска .
Под мониторингом поиска понимается следующее. Если требуется отслеживать появление новых ссылок , по заданному объекту или произвольному пакету запросов, то Вам достаточно периодически повторять соответствующий ему поиск. Также как и для простого запроса, программа СайтСпутник создаст список "Новые", в который поместит только те ссылки, которые не были найдены ни в одном из предыдущих поисков.

Мониторинг поиска интересен не только сам по себе. Он может быть задействован в мониторинге СМИ, соцсетей и других новостных источников, который упоминался выше в пункте 1. В отличие от других программ, в которых возможно снятие новой информации только из RSS-потоков, в программе СайтСпутник можно использовать для этого встроенные в сайты поиски и поисковики . Также возможна эмуляция (самостоятельное создание) нескольких RSS-потоков с произвольных страниц, более того, эмуляция RSS-потока по запросу и даже пакету запросов.


  • Чтобы получить максимум пользы от программы, задействуйте её основные функции, а именно:

    • пакеты запросов, пакеты с параметрами, используйте Ассемблер (сборщик), операцию "Аналитическое объединение" результатов работы нескольких заданий, при необходимости, примените базовые функции поиска в невидимом интернете;

    • подключите к встроенным в программу источникам информации свои источники: другие поисковики и встроенные в сайты поиски, существующие RSS-потоки, созданные Вами собственные RSS-потоки с произвольных страниц, примените функцию поиска новых источников;

    • используйте возможности следующих видов мониторинга : СМИ, соцсетей и других источников, мониторинга комментариев к новостям и сообщениям, отслеживайте появление новой информации на уже существующих страницах;

    • задействуйте Рубрики , Внешние функции, Планировщик задач, рассылку, несколько компьютеров, Инструктор Проектов, установите сигнализацию для оповещения о наступлении значимых событий, примените другие перечисленные ниже функции.



4. Программа SiteSputnik (СайтСпутник): варианты комплектации и функции

- Программа SiteSputnik постоянно совершенствуется в направлении: "Мне нужно найти всё и с гарантией" .
"Программа для допроса интернета" , - ещё одно определение Пользователя для назначения программы.

А. Функции поиска и сбора информации.

. Пакет запросов - выполнение сразу нескольких запросов с объединением результатов поиска или раздельно. При формировании объединенного результата повторно найденные ссылки удаляются. Подробнее о пакетах - во введении в SiteSputnik , наглядно - на видео: совместное и раздельное выполнение запросов. Нет аналогов в отечественных и зарубежных разработках.

. Пакеты с параметрами . Любые запросы и пакеты запросов, предназначенные для решения стандартных поисковых задач, например, поиск по телефону, ФИО или e-mail, - могут быть параметризованы, сохранены и выполнены из библиотеки готовых запросов с подстановкой фактических (нужных) значений параметров. Каждый пакет с параметрами - это собственная специальная расширенная форма поиска . В ней можно задействовать не один, а несколько поисковиков. Можно создать очень сложные по своему функциональному назначению формы. Чрезвычайно важно, что формы могут быть созданы самими пользователями, без участия автора программы или программиста. Предельно просто об этом написано в инструкции , подробнее в отдельной публикации о параметризации поиска и на форуме , наглядно на видео: поиск сразу по всем вариантам записи номера мобильного телефона и по нескольким вариантам записи адреса электронной почты . Нет аналогов.

. Ассемблер NEW - сборка поискового задания из нескольких готовых: запросов, пакетов запросов и пакетов с параметрами. Пакеты могут в своем тексте содержать другие пакеты. Глубина вложенности пакетов неограничена. Можно составить несколько поисковых заданий, например, о нескольких юридических и физических лицах, и выполнить эти задания одновременно. Подробнее на форуме и в отдельной публикации об Ассемблере , наглядно на видео . Нет аналогов.

. Метапоиск - выполнение конкретного запроса одновременно на на заданную "глубину" поиска для каждого из них. Возможен метапоиск по встроенным поисковикам, к которым относятся Яндекс, Рамблер, Google, Yahoo, MSN (Bing), Mail, блоги Яндекса и Google, и по подключенным средствам поиска. Работа с несколькими поисковиками выглядит так, как будто Вы работаете с одним поисковиком . Повторно найденные ссылки удаляются. Наглядно метапоиск по трем подключенным социальным сетям: VKontakte, Twitter и Youtube, - показан на видео .

. Метапоиск по сайту - объединение поиска по сайту в Google, Yahoo, Яндексе, MSN (Bing). Наглядно на видео .

. Метапоиск в офисных документах - объединение поиска в файлах формата PDF, XLS, DOC, RTF, PPT, FLASH в Google, Yahoo, Яндексе, MSN (Bing). Можно выбрать любую комбинацию форматов файлов .

. Метапоиск кэш-копий ссылок в Яндексе, Google, Yahoo, MSN (Bing). Составляется список, в каждом пункте которого собраны все сниппеты , найденные для каждой ссылки каждым поисковиком. Нет аналогов.

. Глубокий поиск для Яндекса, Google и Рамблера позволяет объединить в один список все ссылки из обычного поиска и все ссылки, соответственно, из списков "Еще с сайта", "Дополнительные результаты с сайта" и "Искать на сайте (Всего...)". Подробнее о глубоком поиске на форуме . Нет аналогов.

. Точный и полный поиск . Под этим понимается следующее. С одной стороны, каждый запрос может быть выполнен на том и только на том источнике, на языке запросов которого он написан. Это точный поиск . C другой стороны, таких запросов и источников может быть произвольное количество. Это обеспечивает полный поиск . Подробнее в отдельной публикации о процедурном поиске . Нет аналогов.

. Поиск в невидимом интернете .

    Он включает в себя следующие базовые функции:

    Специальный пакет запросов, который может быть усовершенствован Пользователем,
    - поиск невидимых ссылок при помощи спайдера (паука),
    - поиск невидимых ссылок в окрестности видимой ссылки или папки по "образу и подобию",
    - специальные поиски папок открытых,
    - поиск невидимых ссылок и папок со стандартными именами с использованием специальных словарей,
    - применение собственных встроенных в сайты поисков.

    Подробнее в отдельной публикации по SiteSputnik Invisible. Базовые функции "хорошо известны в узких кругах", но способ их применения аналогов не имеет. Суть этого способа заключается в построении видимой из интернета карты сайта (другими словами, материализации видимого интернета), и уже только на базе видимых ссылок и относительно них поиск невидимых ссылок. Поиска и без того видимых ссылок "невидимыми" методами не осуществляется.

Б. Функции мониторинга информации.

. Мониторинг на предмет появления в интернете новых ссылок по заданной теме. Мониторить появление новых ссылок можно при помощи целых пакетов запросов , в которых задействованы любые упомянутые выше методы поиска, а не отдельные первые страницы поисковиков. Реализовано объединение и пересечение новых ссылок из нескольких отдельных поисков. Подробнее в публикации о мониторинге (см. § 1) и на фо руме . Нет аналогов.

. Коллективная обработка информации . Создание корпоративной или профессиональной сети для коллективного сбора, мониторинга и анализа информации. Участниками и создателями такой сети являются сотрудники корпорации, члены профессионального сообщества или группы по интересам. Географическое расположение участников не имеет значение. Подробнее в отдельной публикации об организации сети коллективного сбора, мониторинга и анализа информации .

. Мониторинг ссылок (веб-страниц) на предмет обнаружения изменений в их содержании (контенте). Бета версия. Найденные изменения выделяются цветом и специальными знаками. Подробнее в отдельной публикации о мониторинге (см. § 2 и 3).

В. Функции анализа информации.

. Рубрикация материалов уже описывалась выше. Подробнее - в отдельной публикации о Рубриках . Правила попадания в Рубрики позволяют указывать ключевые слова и расстояние между ними, задавать логические "И", "ИЛИ" и "НЕ", применять многоуровневую скобочную структуру и словари (файлы-вставки), к которым можно применять логические операции.

. ВФ-технология - практически произвольное расширение возможности рубрикации материалов посредством реализации внешних функций , которые органически встраиваются в Правила попадания в Рубрики и могут быть реализованы программистом самостоятельно без участия автора программы.

. Численный анализ заполняемости Рубрик, установка сигнализации и оповещение о наступлении значимых событий посредством выделения цветом Рубрик и/или отправки по e-mail отчета о срабатывании сигнализации.

. Фактическая релевантность. Существует возможность упорядочить ссылки в порядке близком со значимостью этих ссылок по отношению к решаемой задаче, обойдя уловки веб-мастеров, применяющих различные способы повышения рейтинга сайтов в поисковиках. Это достигается на основе анализа результатов выполнения нескольких "разноплановых" запросов на заданную тему. Вычисляются, в прямом смысле этого слова, ссылки, содержащие максимум искомой информации . Подробнее в описании способа поиска оптимального поставщика и на форуме . Нет аналогов.

. Вычисление связей объектов - поиск ссылок, ресурсов (площадок), папок и доменов, на которых одновременно упоминаются объекты. Наиболее распространенные объекты - это люди и фирмы. Для поиска связей могут быть задействованы все упомянутые на этой странице средства программы SiteSputnik , что значительно повышает эффективность проделанной Вами работы. Операция выполняется над любым количеством объектов. Подробнее во введении в программу , а также в описании новой функции "объекты и их связи ". Нет аналогов.

. Формирование, объединение и пересечение потоков информации на самые различные темы, сопоставление потоков. Подробнее в отдельной публикации о потоках .

. Построение веб-карт сайтов, ресурсов, папок и искомых объектов на основе найденных в интернете при помощи Google, Yahoo, Яндекса, MSN (Bing) и Altavista ссылок, принадлежащих сайту. Специалисты могут узнать: не видно ли "лишней" информации из интернета на их сайтах, а также исследовать на этот предмет сайты конкурентов. Веб-карта сайта - это материализация видимого интернета . Подробнее в отдельной публикации о построении веб-карт , наглядно на видео . Нет аналогов.

. Поиск новых источников информации на заданную тему, которые затем можно применить для отслеживания появления новой нужной информации. Подробнее на .

Г. Сервисные функции.

. Планировщик задач (Scheduler) обеспечивает работу по расписанию: выполняет в заданное время заданные функции программы. Подробнее в отдельной публикации о Планировщике .

. Инструктор Проектов NEW - это помощник при создании и сопровождении Проектов по поиску, сбору, мониторингу и анализу информации (рубрикации и сигнализации). Подробнее на форуме .

. Автоматическая архивация. В базах данных автоматически запоминаются все результаты Вашей работы, а именно: запросы, пакеты запросов, протоколы поиска и мониторинга, любые другие вышеперечисленные функции и результаты их выполнения. Можно структурировать работу по темам и подтемам.

. База данных включает сортировки, простой поиск и произвольный поиск по SQL-запросу. Для последнего имеется мастер составления SQL-запросов. Используя эти средства, можно найти и ознакомиться с той работой, которую Вы делали вчера, в прошлом месяце, год назад, определить в качестве критерия поиска тему или задать другой критерий поиска по содержанию базы данных.

. Технические ограничения поисковиков. Некоторые ограничения, связанные, например, с длиной строки запроса, могут быть преодолены. Обеспечивается выполнение не одного, а нескольких запросов с объединением результатов поиска или раздельно. О способе преодоления нарушения закона аддитивности для основных поисковиков можно прочитать . Для одного слова или одной фразы, взятой в кавычки, реализован поиск в поисковиках с учетом регистра, в частности, поиск по аббревиатуре .

Встроенный браузер . Навигатор по страницам. Многоцветный маркер для выделения ключевых и произвольных слов. Билистинг и N-листинг из сформированных документов.

. Выгрузка новостных лент в табличное представление , ориентированное на импорт в Excel, MySQL, Access, Кронос и другие Приложения.


5. Установка и запуск Программы, требования к компьютеру.

Для установки и запуска программы:

  • Скачайте файл , скопируйте из него папку FileForFiles на свой жесткий диск, например, на D:\ ;

  • Демонстрационный вариант программы проинсталлируется и откроется.

  • Программа будет работать на любом компьютере, на котором установлен Windows любой версии.

    Машины должны работать.
    Люди должны думать.

    Курс «Профессионального поиска в Интернете» - удобный способ научиться грамотно и эффективно искать и находить нужную информацию в Сети.

    Что такое профессиональный поиск?

    Парадокс Интернета состоит в том, что информации с каждой секундой становится всё больше , но найти нужную информацию становится всё труднее . Профессиональный поиск - это эффективный поиск нужной и достоверной информации .
    В современном мире информация становится капиталом, а Интернет - удобным средством её добычи, именно поэтому умение находить ценную информацию характеризует человека как профессионала высокого класса . Профессиональный поиск должен быть всегда результативным. Больше того, во время поиска профессионалы не только ищут место, где хранится информация, но и оценивают авторитетность ресурса, актуальность, точность, полноту опубликованной информации. В этом нам помогает интернет-эвристика - набор полезных правил поиска, критериев отбора и оценки сетевой информации .

    Что Вы узнаете и чему научитесь?

    Вы искали и не смогли найти? Тогда курс будет Вам исключительно полезен. Вы получите исчерпывающие инструкции по поиску того, что в Интернете уже есть, но на первый взгляд кажется, что найти это просто невозможно... Возможно! Вы узнаете, как искать, чтобы находить! Каждое занятие построено на соединении знаний и опыта, все полученные знания проверяются в деле .

    На занятиях курса Вы узнаете , как развивается современный Интернет и как распространяется электронная информация, как создаются каталоги и как работают поисковые системы, зачем нужны метапоисковые системы и откуда взялся «скрытый» веб, чем форумы отличаются от блогов и что такое фандрайзинг.

    Во время практикумов Вы научитесь правильно использовать язык запросов, грамотно подбирать ключевые слова, находить сведения в «скрытом» вебе, отыскивать нужные изображения и файлы, оценивать общественное мнение в блогосфере, разыскивать персональную информацию, а главное - верно оценивать достоверность, актуальность и полноту найденной информации.

    Курс интернет-поиска позволит Вам существенно развить свои познавательные, информационные и коммуникативные способности .

    Какие темы изучаются в курсе профессионального поиска?

    Цель курса - за один месяц обучить возможностям и тонкостям современного поиска профессиональной информации в Сети.

    Каждое занятие (модуль) включает лекцию , семинар в формате форума, тест на усвоение пройденного материала, а также несколько упражнений и поисковых заданий .

    В обновленном курсе еженедельно будут проводиться часовые вебинары - интерактивные виртуальные онлайн-семинары, посвященные обсуждению ключевых задач профессионального интернет-поиска.

    Каждый учебный модуль снабжён полезными дополнительными материалами по темам курса и удобными для распечатки раздаточными материалами.

    Тематический план курса состоит из 10 взаимосвязанных модулей:

    1. Интернетика : история, технология и исследования Интернет.

    2. Информационный поиск . Поисковые каталоги.

    3. Информационно-поисковые системы . ИПС крупным планом (Google, Яndex и другие).

    4. Метапоисковые системы и программы.

    5. Справочное интернет-бюро : фактографический поиск в энциклопедиях, справочниках, словарях.

    6. Библиографический поиск : библиотеки, каталоги, программы.

    7. Документальный поиск : электронные документы, электронные библиотеки, электронные журналы.

    8. «Скрытый» Web : поиск мультимедиа, баз данных, баз знаний и файлов.

    9. Поиск новостей (блоги и форумы), контактов, учреждений, фандрайзинг.

    10. Стратегии информационного поиска : обобщение навыков интернет-эвристики.

    Почему курс дистанционный?

    Дистанционный курс имеет целый ряд преимуществ .

    Во-первых, на каждое занятие отводится не один-два академических часа в неделю, а целая неделя . Вы можете без спешки осваивать и усваивать лекционный материал, выполнять упражнения и поисковые задания.

    Во-вторых, дистанционный курс интерактивен . Значит, Вы всегда можете спросить, уточнить, узнать у преподавателя то, что Вам кажется важным. Ваш вопрос не останется без ответа, а сложные задания по поиску можно будет обсудить всей группой, чтобы оценить каждый навык в сравнении.

    В-третьих, Вы сможете заниматься в удобное для Вас время и не придётся тратить время на дорогу на занятия. Более того, Вы можете заниматься в любой точке мира, где есть доступ к Интернету.

    Сколько стоит курс?

    Курс «Интернет-эвристики» продлится один месяц и будет состоять из 10 модулей , каждый из модулей состоит из занятиий-«квантов» – они позволяют сохранять нужный для освоения нового материала темп). Цена каждого модуля – всего 300 рублей , за все занятия Вы заплатите всего 3000 рублей. Обратите внимание, что Вам не придётся покупать дополнительные учебники, курс полностью обеспечен всеми необходимыми учебно-методическими материалами. В случае успешного прохождения курса Вы получите сертификат МГУ о прохождении курса «Профессиональный поиск в Интернете».

    Если Вы хотите научиться интернет-находчивости, то нужно выбрать удобное время для прохождения курса и записаться (достаточно нажать на ссылку записаться напротив удобного временного отрезка наверху страницы)!

    После регистрации у Вас ещё будет время подумать и принять окончательное решение. Кстати, можете познакомиться с

    Введение

    В настоящее время Интернет объединяет сотни миллионов серверов, на которых размещены миллиарды различных сайтов и отдельных файлов, содержащих различного рода информацию. Это гигантское хранилище информации. Существуют различные приемы поиска информации в Интернет.

    Поиск по известному адресу. Необходимые адреса берутся из справочников. Зная адрес, достаточно ввести его в адресную строку Браузера.

    Пример 1. www.gov.ru - сервер органов государственной власти России.

    Конструирование адреса пользователем. Зная систему формирования адреса в Интернет, можно при поискеWeb-сайтов конструировать адреса.

    К ключевому слову (названию фирмы, предприятия, организации или простому английскому существительному) необходимо добавить домен тематический или географический, при этом необходимо подключать интуицию.

    Пример 2. Адреса коммерческих Web-страниц:

    www.samsung.com (фирма SAMSUNG),

    www.mtv.com (музыкальные новости MTV).

    Пример 3. Адреса учебных заведений:

    www.ntu.edu (Национальный университет США).

    Поисковые системы Интернет

    Для поиска информации в Интернет разработаны специальные информационно-поисковые системы. Поисковые системы имеют обычный адрес и отображаются в виде Web-страницы, содержащей специальные средства для организации поиска (строку для поиска, тематический каталог, ссылки). Для вызова поисковой системы достаточно ввести ее адрес в адресную строку Браузера.

    По данным сервиса статистики LiveInternet.ru распределение поисковых систем в России примерно следующее:

    2) Гугл – 35.0%

    3) Поиск Mail.ru – 8.3%

    4) Рамблер – 0.9%

    По способу организации информации информационно-поисковые системы делятся на два вида: классификационные (рубрикаторы) и словарные.

    Рубрикаторы (классификаторы) - поисковые системы, в которых используется иерархическая (древовидная) организация информации. При поиске информации пользователь просматривает тематические рубрики, постепенно сужая поле поиска (например, если необходимо найти значение какого-то слова, то сначала в классификаторе нужно найти словарь, а затем уже в нем найти нужное слово).



    Словарные поисковые системы - это мощные автоматические программно-аппаратные комплексы. С их помощью просматривается (сканируется) информация в Интернет. В специальные справочники-индексы заносятся данные о местонахождении той или иной информации. В ответ на запрос осуществляется поиск в соответствии со строкой запроса. В результате пользователю предлагаются те адреса (URL), на которых в момент сканирования найдены искомые слово или группа слов. Выбрав любой из предложенных адресов-ссылок, можно перейти к найденному документу. Большинство современных поисковых систем являются смешанными.

    Наиболее известные и популярные системы поиска:

    Существуют системы, специализирующиеся на поиске информационных ресурсов по различным направлениям.

    https://my.mail.ru

    https://ru-ru.facebook.com

    https://twitter.com

    https://www.tumblr.com

    https://www.instagram.com и т.д.

    Предметные поисковые системы:

    Поиск программного обеспечения:

    Каталоги (тематические подборки ссылок с аннотациями):

    http://www.atrus.ru

    Правила выполнения запросов

    В каждой поисковой системе в разделе Помощь (Help) можно получить сведения о том, как искать, как составить строку запроса. Ниже приведена информация о типовом, "усредненном" языке запросов.

    Простой запрос

    Ввести одно слово, определяющее тему поиска. Например, в поисковой системе Rambler.ru достаточно ввести: автоматика.

    Находятся документы, в которых встречаются слова, указанные в запросе. Распознаются все формы слов русского языка, как правило, регистр букв игнорируется.

    В запросе можно использовать символ "*" или "?". Знаком "?" в ключевом слове заменяется один символ, на место которого может быть подставлена любая буква, а знаком "*" - последовательность символов.

    Например, запрос автомат* позволит найти документы, включающие слова автоматический, автоматика и т.д.

    Сложный запрос

    Часто возникает необходимость комбинирования ключевых слов для получения более определенной информации. В этом случае используются дополнительные слова-связки, функции, операторы, символы, комбинации операторов, разделенные скобками.

    Например, запрос музыка & (beatles битлз) означает, что пользователь ищет документы, содержащие слова музыка и beatles или музыка и битлз.

    Список поисковых серверов и каталогов

    Адрес Описание
    www.excite.com Поисковый сервер с обзорами узлов и путеводителями
    www.alta-vista.com Поисковый сервер, имеются возможности расширенного поиска
    www.hotbot.com Поисковый сервер
    www.ifoseek.com Поисковый сервер (простой в использовании)
    www.ipl.org Internet Publik library, публичная библиотека, функционирующая в рамках проекта "Всемирная деревня"
    www.wisewire.com WiseWire - организация поиска с применением искусственного интеллекта
    www.webcrawler.com WebCrawler - поисковый сервер, прост в обращении
    www.yahoo.com КаталогWeb и интерфейс для обращения к полнотекстовому поиску на сервере AltaVista
    www.aport.ru Апорт - русскоязычный поисковый сервер
    www.yandex.ru Яндекс - русскоязычный поисковый сервер
    www.rambler.ru Рамблер - русскоязычный поисковый сервер
    Справочные ресурсы Интернет
    www.yellow.com Желтые страницы Интернет
    monk.newmail.ru Поисковые системы различного профиля
    www.top200.ru 200 лучшихWeb-сайтов
    www.allru.net
    www.ru Каталог русских ресурсов Интернет
    www.allru.net/z09.htm Образовательные ресурсы
    www.students.ru Сервер российского студенчества
    www.cdo.ru/index_new.asp Центр дистанционного обучения
    www.open.ac.uk Открытый университет Великобритании
    www.ntu.edu Национальный университет США
    www.translate.ru Электронный переводчик текстов
    www.pomorsu.ru/guide.library.html Список ссылок на сетевые библиотеки
    www.elibrary.ru Научная электронная библиотека
    www.citforum.ru Электронная библиотека
    www.infamed.com/psy Психологические тесты
    www.pokoleniye.ru Web-сайт Федерации Интернет образования
    www.metod.narod.ru Образовательные ресурсы
    www.spb.osi.ru/ic/distant Дистанционное обучение в Интернет
    www.examen.ru Экзамены и тесты
    www.kbsu.ru/~book/ Учебник информатики
    Mega.km.ru Энциклопедии и словари

    Профессиональный поиск информации в Интернет

    Поиск информации является одной из наиболее распространенных и одновременно наиболее сложных задач, с которыми приходится сталкиваться в Сети любому пользователю. Однако если для рядового члена сетевого сообщества знание методов эффективного информационного поиска является желательным, но далеко не обязательным качеством, то для профессионалов информационной деятельности умение быстро ориентироваться в ресурсах Интернет и находить требуемые источники относится к числу базовых квалификационных навыков.

    Причина сложностей, возникающих при информационном поиске в Интернет, определяется двумя главными факторами. Во-первых, число источников в Сети чрезвычайно велико. В конце 2001 года самые приблизительные подсчеты указывали ориентировочную цифру в 7,5 миллиардов документов, расположенных на серверах по всему миру. Во-вторых, массив информации в Сети не только колоссален по объему, но еще и крайне динамичен. За те полминуты, что вы потратили на чтение первых строк этого раздела, в виртуальной вселенной появилось порядка сотни новых или измененных документов, десятки были перемещены на новые адреса, а единицы - навсегда прекратили свое существование. Интернет никогда "не спит", как никогда "не спит" наша планета, по которой непрерывно катится волна деловой активности человечества в точном соответствии со сменой часовых поясов.

    В отличии от стабильного и контролируемого фонда документов в библиотеке, в Сети мы имеем дело с гигантским и непрерывно меняющимся информационным массивом, поиск данных в котором является весьма и весьма сложным процессом. Ситуация зачастую очень напоминает известную задачу поиска иголки в стоге сена, и порой сведения, представляющие огромную ценность, остаются невостребованными единственно по причине трудности их разыскания.

    Навыками информационных разысканий в той или иной степени обладают большинство пользователей глобальных компьютерных сетей. И дилетанты, и профессионалы зачастую пользуются одними и теми же инструментами. Однако результаты разысканий и затраченное на них время различаются в очень значительной степени.

    Задача данного раздела состоит в детальном ознакомлении с инструментами и методами информационного поиска и выработке устойчивых навыков профессионального поиска в Сети всех видов данных: от текстов в любых форматах, до видео и анимации.

    Н айти нужную и актуальную информацию в Интернете порой очень непросто. Количество информационного мусора в Сети растет как снежный ком, и добраться до данных, которые вам действительно необходимы, используя традиционные Яндекс и Google, иногда просто невозможно. Книга, которую вы держите в руках, позволит увеличить эффективность вашего поиска информации в Интернете во много раз. Здесь описаны приемы, поисковые сайты и программы для специализированного поиска информации. Рассмотрены современные разновидности интернет-поиска: универсальный поиск, вертикальный поиск, метапоисковые системы, построение персональных поисковиков, поиск аудиовизуального контента, поиск по скрытому Интернету. Для всех рассмотренных систем приведены их характеристика и советы по максимально эффективному использованию.

    Введение

    Интернет-поиск – важный элемент работы в Сети. Точное количество веб-ресурсов современного интернета вряд ли кому-либо точно известно. В любом случае, счет идет на миллиарды. Для того чтобы можно было использовать информацию, необходимую в данный конкретный момент, не важно, в рабочих или развлекательных целях, сначала нужно ее найти в этом постоянно пополняемом океане ресурсов. Это совсем не простая задача, поскольку информация в современной Сети не структурирована, что создает проблемы ее нахождения. Не случайно своеобразными «окнами» в это информационное пространство стали именно интернет-поисковики.

    Вряд ли среди интернет-пользователей найдутся люди, никогда не использовавшие крупные универсальные поисковые машины. Названия Google, Яндекс и пары-тройки других больших машин на слуху у всех. Они замечательно справляются с повседневными задачами интернет-поиска, и зачастую пользователи даже не пытаются искать им замену. В то же время количество поисковых интернет-машин в наше время исчисляется тысячами. Причины такого разнообразия альтернативных машин имеют различные корни. Одни проекты пытаются напрямую конкурировать с лидерами глобального рынка за счет тщательной работы с национальными интернет-ресурсами. Другие предлагают возможности составления запроса, отсутствующие у известных поисковиков. Значительное количество альтернативных машин специализируются на поиске по определенной тематической области или определенному типу контента, достигая в решении этих задач впечатляющих результатов. Как бы то ни было, включение таких поисковиков в собственный пользовательский арсенал средств интернет-поиска может заметно повысить его качество. Здесь, правда, существует один нюанс: надо знать о таких машинах и уметь пользоваться их возможностями.

    Предполагаем, что читатели данной книги уже достаточно хорошо знакомы с техникой поиска с помощью универсальных поисковиков. Хорошо настолько, что почувствовали ограничения, связанные с их применением. Скорее всего, такие люди уже пробовали искать и применять те или иные дополнительные инструменты. Печатное слово не обходит стороной тему интернет-поиска: и статьи периодически появляются, и книги выходят. Вот только герои у них, как правило, одни и те же – несколько ведущих универсальных поисковиков. Наша книга отличается тем, что в ней делается попытка охватить весь спектр современных поисковых решений. Здесь вы найдете описания и рекомендации по использованию лучших современных сервисов, ориентированных на решение наиболее распространенных поисковых задач. Эта книга для людей, много работающих в интернете и использующих Сеть для поиска нужной информации – будь то бизнес, учеба или хобби.

    Для того чтобы интернет-поиск был успешным, должны быть выполнены два условия: запросы должны быть хорошо сформулированы и задавать их нужно в подходящих местах. Другими словами, от пользователя требуется, с одной стороны, умение переводить свои поисковые интересы на язык поискового запроса, а с другой – хорошее знание поисковых систем, доступных инструментов поиска, их достоинств и недостатков, что позволит выбирать в каждом конкретном случае наиболее подходящие средства поиска.

    В настоящее время не существует какого-либо одного ресурса, удовлетворяющего всем требованиям к интернет-поиску. Поэтому при серьезном подходе к поиску неизбежно приходится задействовать разные инструменты, используя каждый в наиболее подходящем случае.

    Глава 1

    Универсальные интернет-поисковики

    Универсальные интернет-поисковики – это основное и наиболее известное средство интернет-поиска. Такие поисковики обеспечивают максимальный охват различных ресурсов. Именно к универсальному типу относятся крупнейшие и наиболее популярные поисковые машины. Это действительно мощные решения с большим количеством возможностей и инструментов, о которых зачастую не знают многие пользователи. Понимание особенностей и возможностей универсального поиска позволяет узнать сильные и слабые стороны таких систем и осознанно выбирать максимально эффективные инструменты поиска.

    Рынок универсальных поисковиков достаточно велик. В этой главе мы рассмотрим только наиболее мощные машины, способные достойно работать с запросами на русском языке. Открывают главу рассказы о лидерах русского поиска – системах Google.ru и Яндекс. О каждом из этих поисковиков написаны книги и масса статей. Мы сосредоточимся на основных характеристиках, имеющих значение для конечного пользователя, а также попытаемся определить их сильные стороны.

    Компанию им составляет новая поисковая разработка корпорации Microsoft – система Bing, которая пока заметно обделена вниманием, а также полезный и достаточно мощный поисковик Exalead, преимуществом которого является хорошая поддержка поиска в европейских интернет-ресурсах. Данная система – пока редкий гость в поисковом арсенале наших пользователей, поэтому она рассматривается подробнее остальных.

    В этой главе при обзоре систем Google и Яндекс мы сосредоточимся только на возможностях веб-поиска, а поиск в специализированных базах этих проектов рассматривается в следующих главах, посвященных поиску изображений и видео. Для других универсальных поисковиков сведения о мультимедиа-поиске приводятся сразу же при знакомстве с ними.

    Поскольку три из четырех героев этой главы имеют зарубежное происхождение, сразу отметим, что мы анализируем возможности только их русских версий. Дело в том, что некоторые функции зарубежных систем, особенно экспериментальные, зачастую доступны только в оригинальных, как правило, англоязычных версиях сервисов.

    Google

    Поисковик Google заслуженно считается мировым лидером современного интернет-поиска. Основанная в 1998 году компания Google по сей день остается среди ведущих законодателей мод в сфере интернет-поиска и веб-сервисов.

    Разработчики Google всегда отличались повышенным вниманием к совершенствованию алгоритмов своего поисковика, а также разумным консерватизмом в области пользовательского интерфейса. Возможности составления запроса на Google можно назвать классическими, да и способы отображения результатов поиска также стали своеобразным стандартом. В последнее время разработчики Google предприняли серьезные изменения в этих областях – слишком уж старомодно стал смотреться крупнейший поисковик на фоне молодых конкурентов.

    Google обладает одной из крупнейших в мире индексных баз, что обеспечивает широкий охват источников информации. Индексная информация Google сведена в несколько вертикальных баз. Кроме наиболее известной базы «Веб», это несколько мультимедиа-баз («Картинки», «Видео»), работающих с источниками актуальной информации и сообщениями на RSS-лентах база «Новости», а также индексирующая сетевые дневники база «Блоги». Кроме того, Google предлагает широкий выбор дополнительных ресурсов, среди которых стоит отметить картографический сервис, каталог сайтов, службу вопросов и ответов. Эти ресурсы также можно рассматривать как инструменты поиска.

    В базе «Веб» для составления запроса Google предлагает режимы простого и расширенного поиска. В режиме простого поиска из дополнительных инструментов доступна только виртуальная клавиатура. Расширенный поиск предлагает больше возможностей. Поскольку форма расширенного поиска доступна практически во всех поисковых продуктах Google, остановимся на ней подробнее (рис. 1.1).

    Яндекс

    Официально представленный широкой публике в 1997 году поисковик Яндекс успешно развивался и через десять лет впервые попал в число десяти крупнейших поисковых машин мира. В русском сегменте интернета он добился лидирующих позиций, которые пока не собирается уступать, несмотря на возрастающую конкуренцию. Отличительными чертами Яндекса с начала его существования стали собственные оригинальные алгоритмы определения релевантности результатов поиска, гибкие инструменты работы с текстом запросов и учет особенностей морфологии русского языка при их обработке.

    Яндекс опирается на собственные индексные базы. Кроме поиска по веб-документам система предлагает неплохой выбор специализированных ресурсов и дополнительных сервисов. Яндекс в настоящее время работает с изображениями, видео, новостями, блогами и словарями. Мощные поисковые возможности заложены также в собственном картографическом сервисе и в системе поиска товаров. Кроме того, Яндекс ведет собственный каталог веб-сайтов. Сильной стороной Яндекса является развитая программа локального поиска, что особенно актуально для наших пользователей. Яндекс предоставляет возможность доступа к своим базам сторонним разработчикам. Как следствие, немало русских проектов альтернативного интернет-поиска так или иначе используют ресурсы Яндекса. Кроме обычной системы поиска предлагается и сокращенный вариант Яндекса, доступный по адресу ya.ru. Интерфейс этой версии состоит только из поля ввода запроса и кнопки начала поиска.

    Поиск в веб-документах предлагает режимы простого и расширенного поиска. Простой поиск не предоставляет каких-либо фильтров, что компенсируется возможностью автоматического разбора запросов на естественном языке, уверенной обработкой относительно длинных запросов, а также системой автоматического дополнения запроса. Максимальная длина запроса – сорок слов.

    Форма расширенного поиска для составления запроса предлагает только одно поле. Логические операторы, связывающие слова запроса, предлагается вводить вручную, благо. Яндекс располагает достаточно подробным языком запросов. Остальные инструменты формы расширенного поиска – это различные фильтры (1.4).

    Bing

    Историю интернет-поиска от Microsoft простой не назовешь. На последовательно предлагаемых публике сервисах неоднократно менялись алгоритмы, используемые базы данных и, конечно же, названия. До начала 2000-х поисковик не располагал собственными базами и работал с внешними индексами от AltaVista, Inktomi и Looksmart. Первоначальное имя MSN Search использовалось до 2006 года, а затем на несколько лет изменение названий поисковика стало для Microsoft традицией.

    Вместе с окончательным переходом на поиск в собственных индексныхMSN Search была переименована сначала в Windows LiveLive Search. Наконец, в начале лета 2009 на смену Live Search пришел новый поисковый проект Bing.

    «Bing позволит иначе взглянуть на поиск информации в интернете и поможет пользователям в принятии важных решений», – именно таким заявлением начинался пресс-релиз Microsoft, посвященный запуску Bing. Стремления разработчиков были понятны: поисковики от Microsoft, несмотря на все старания, на Западе стабильно уступали по популярности лидерам – Google и Yahoo!. Если же говорить о русскоязычных версиях предыдущих поисковых проектов Microsoft, то по количеству и качеству находимых ссылок они намного уступали крупным российским поисковикам. В попытке догнать конкурентов разработчики Bing сделали ставку на улучшение качества поиска и внедрение новых технологий, многие из которых были приобретены вместе с создавшими их фирмами.

    Необходимо заметить, что русскоязычная версия Bing, как и большинство других локализованных версий, лишена ряда дополнительных функций, например поиска по магазинам. Поскольку они, по сути, работают только в Северной. Америке, подробно останавливаться на них смысла нет.

    Exalead

    Одной из особенностей Европы, в том числе и в сфере интернет-поиска, является большое количество национальных языков. Поисковик, претендующий на место ведущего в Европе, просто обязан хорошо индексировать национальные сегменты интернета и качественно обрабатывать запросы на многочисленных европейских языках – как крупнейших, так и менее распространенных. Именно в данной области европейская разработка может получить серьезное конкурентное преимущество по сравнению с мощными заокеанскими конкурентами. На роль такого европейского поисковика в настоящее время всерьез претендует система Exalead. Данный проект был разработан в рамках исследовательской программы Quaere, финансируемой Евросоюзом.

    Exalead располагает собственными индексными базами. Основные поисковые ресурсы системы – это базы веб-документов, изображений, видео и новостей. Стартовая страница Exalead предлагает возможность персональной настройки. На этой странице можно разместить ссылки на свои любимые сайты – они будут отображаться в виде графических миниатюр-скриншотов. Правда, для этого придется бесплатно зарегистрировать аккаунт, а также разрешить браузеру хранить куки-файлы Exalead.

    Веб-поиск Exalead предлагает режимы простого и расширенного поиска. Форма расширенного поиска, как и в Bing, открывается прямо на странице выдачи Отметим, что Exalead предлагает не просто привычную форму с набором дополнительных полей, а сложное выпадающее меню, которое играет роль мастера по уточнению запроса (рис. 1.7). При выборе того или иного пункта в меню мастера в строку запроса добавляются новые элементы, а при необходимости операторы и спецсимволы.



Есть вопросы?

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: