Главная страница О программе Дистанционное обучение Контакты Карта сайта

Оглавление

Раздел 1

Раздел 2

Раздел 3

Раздел 4

Раздел 5

Раздел 6

Раздел 7

Раздел 8

Раздел 9

Раздел 10




 
Раздел 3.
ВСЕМИРНАЯ ПАУТИНА И ПОИСК В СЕТИ.

    3.6. Поиск информации в сети Интернет.
    Интернет растет взрывообразно, особенно русскоязычный, поэтому вероятность найти в нем необходимую информацию резко возрастает. Но чтобы получить информацию, необходимо найти ее адрес. Как раз для этого и предназначены поисковые системы (ПС). Их много и именно они помогают всем, кто живет в Internet не утонуть в океане информации. ПС представляют собой сетевые компьютеры с мощными каналами связи. Они ежесекундно обслуживают тысячи посетителей и требуют от владельцев значительных затрат на поддержку и обновление. Тем не менее, почти все они отвечают на вопросы посетителей абсолютно бескорыстно, а платят за это спонсоры и рекламодатели, которые в свою очередь не остаются в накладе. У каждой поисковой системы, как и у любого другого сервера, есть адрес. Его лучше знать или иметь в своих закладках. Ниже будут приведены примеры поисковых систем их адреса и основные правила работы с ними.
    Поисковые системы условно можно разделить на несколько классов:
       - каталоги (directories)
       - подборки ссылок (bookmarks)
       - машины WEB-поиска (search engines)
       - базы данных адресов электронной почты (e-mail addresses database)
       - поиск в архивах Gopher (Gopher archives)
       - система поиска FTP файлов (FTP Search)
       - системы поиска в Usenet News.
    WWW-страницы являются самым масштабным и ценным, но далеко не единственным источником информации в Интернете. Существуют специальные системы по поиску статей в новостях Usenet, по поиску отдельных файлов, людей, организаций и т.д.
    3.6.1. Каталоги ресурсов сети Интернет.
    Это первый тип поисковых инструментов. Они представляют собой постоянно обновляющийся и пополняющийся иерархический (древовидный) каталог, на верхнем уровне которого собраны самые общие категории, такие как "бизнес", "наука", "искусство" и т.д., а элементы самого нижнего уровня представляют собой отдельные WWW-сервера с кратким описанием их содержимого. Гарантии того, что вы найдете все, что относится к данной теме, конечно, нет.
    Упорядоченность содержимого в тематическом каталоге делает его не заменимым в тех случаях, когда вы не имеете никакой информации о цели своих поисков. Можно просто спускаться по "ступенькам". То есть двигаться от более общих категорий к более конкретным. Если вас интересует обувь для езды на велосипеде, то достаточно начать спускаться сверху в низ по иерархии англоязычной поисковой системы WWW.YAHOO.COM (Business and Economy - Companies - Sport - Cycling - Shoes) - и, в конце концов, вы отыщете то, что вам нужно, раздел, посвященный исключительно велосипедной обуви в нем может быть все что угодно: фирмы производители, адреса подборок ресурсов по заданной теме, статьи, ссылки на журналы и т.д. Еще одним преимуществом тематических каталогов является то, что пояснения к ссылкам делаются создателями сервера и отражают его содержание, а не вырезку из текста как в адресных индексах, то есть дает возможность точнее определить, на сколько соответствует содержание сервера цели вашего поиска.
    Кроме этого некоторые тематические каталоги также позволяют искать по ключевым словам. Однако поиск этот происходит не в содержимом WWW-серверов, а в их кратком описании, хранящихся в каталоге. Иначе говоря, зная как называется велосипедная обувь по-английски, вы можете ввести это магическое слово или сочетание слов в специальном поле, нажать кнопку - и сервер сразу сообщит вам, что на эту тему имеется специальный раздел, и поможет перенестись в него одним щелчком мыши.
        3.6.1.1. Русскоязычные тематические каталоги.
    · Созвездие Интернет http://www.stars.ru/
    наиболее представительный русскоязычный каталог, где можно получить, в том числе и адреса поисковых систем и тематических каталогов, ссылка на него удобно расположена на домашней странице нашего сервера
    · Россия-он-лайн http://www.online.ru/rmain/
    представляет интерес для русскоязычных пользователей. Каталог содержит довольно пестрое собрание ссылок на зарубежные источники плюс тематический обзор российских и русскоязычных ресурсов WWW, о некоторых из которых сложно найти информацию где-нибудь в другом месте.
        3.6.1.2. Международные тематические каталоги.
    · Yahoo http://www.yahoo.com/
    наиболее популярный из тематических каталогов. Удобная система поиска предоставляет возможность искать по ключевым словам и иерархическому дереву разделов. Правила использования поиска по ключевым словам рассмотрена в разделе машины WEB-поиска ниже.
    3.6.2. Подборки ссылок на информационные ресурсы сети Интернет.
    Подборки ссылок представляют собой отсортированные по темам www-адреса. Они достаточно сильно отличаются друг от друга по наполнению, поэтому желательно походить по ним самостоятельно чтобы составить собственное мнение или найти подборку наиболее полно отвечающую вашим интересам.
        3.6.2.1. Подборка ссылок "Сокровища Интернет" АО "Релком"
http://www.relcom.ru/Internet/Treasures/
    Содержание
    детская площадка, досуг, здоровье и медицина, информационные агентства и службы, краеведческий музей, литература, милые дамы, музыка, немного о прекрасном, образование, окружающий мир, осети интернет, периодическая печать, популляпные радиостанции и телепрограммы, прогноз погоды, религия, служба знакомств, спорт, туризм, экономика и финансы, юридическая информация/
        3.6.2.2. Подборка ссылок "Прогулки по Интернет" компании "Deol"
http://cp1251.deol.ru/walk/
    Содержание
    Москва (транспорт, бизнес, законы, справки), культура, искусство, развлечения, авто, спорт, туризм, интернет, игры, женские страницы, пресса.
        3.6.2.3. Тематическая подборка ссылок компании MARK-ITT
http://www.mark-itt.ru/index_r.html
    Каталог большой, его с полной уверенностью можно заносить в свою папку "Избранное", просто масса интересных ресурсов.
    3.6.2.4. Тематический каталог сервера "РОССИЯ-ОН-ЛАЙН"
http://www.online.ru/
    Содержание
    новости, газеты и журналы, бизнес и финансы, компьютеры и программы, наука и техника, законодательство, политика, хобби, дом и семья, справочники, магазины, развлечения и спорт, культура и искусство, путешествия, погода, другие разделы.
    3.6.3. Поисковые системы и параметры поиска информации в сети.
    Машинами WEB-поиска называются информационные системы, которые позволяют осуществлять поиск в WEB-пространстве.
    К наиболее известным относятся Alta Vista, Excite, Hot Bot, InfoseeK, Lycos, WebCrawler. К русскоязычным относятся Яndex, Rambler, Апорт, Alta Vista.
    Основное преимущество этих систем - большая скорость поиска и поиск по ключевым словам. Поисковая машина выдает списки и точные адреса тех документов, в которых это ключевое слово встречается. Это означает возможность найти специализированную информацию.
    Поисковые машины работают по следующему принципу (понять его достаточно важно, для то чтобы оценить возможности поиска информации с их помощью).     2. Затем начинает работать индексирующая программа ("робот") или производится зеркальное дублирование всего информационного материала.
    3. Потом производится собственно индексация, при которой фиксируются положения всех более или менее значащих слов, которые называются "ключевыми" (к "не ключевым" словам относятся наиболее часто употребляемые в речи союзы, предлоги, местоимения и т. д.; индексация бывает полнотекстовой, при которой обрабатывается весь текст, и неполнотекстовой, когда обрабатываются отдельные наиболее значащие части теста: заголовки, названия, ключевые поля, начальные слова разделов и т. д.).
    4. Полученная база данных о ключевых словах добавляется к существующей.
    5. Если был сделан зеркальный дубль (п. 2) он стирается;
    6. Повторяются п.п. 2-5 для каждого адреса, полученного в п. 1.
    К образовавшейся в результате индексирования базе данных можно обращаться посредством специального интерфейса. Кроме этого интерфейса, пользователь практически ничего не видит.
    При одинаковой канонической структуре поисковые системы различаются по многим параметрам:
    -- пространство индексируемых серверов например, Alta Vista все еще продолжает полнотекстовую обработку всей сети Интернет; эта амбициозная, но нереальная задача стоит также перед Hot Bot, однако уже стало ясно, что она практически не решаема (последнее связано еще и с тем, что информация быстро устаревает и необходимо производить регулярную переиндексацию всех серверов, а это требует огромных компьютерных мощностей и информационных потоков);
    -- процедура создания запросов к поисковым системам здесь основным критерием служит возможность создавать сложные запросы типа: "бананы и/или апельсины морским транспортом из Марокко или Колумбии, но не Эквадора";
    -- характер выдаваемой информации наиболее удобные поисковые системы выдают отсортированные списки и сопровождают найденные адреса небольшими фрагментами текста, содержащими искомые ключевые слова.
    Кроме того, результаты поиска на некоторых машинах могут быть сохранены в виде закладок (т. е. поисковая машина готова для каждого завести на сервере соответствующий файл).
    Таким образом, если вы знаете, какими ключевыми словами характеризуется нужная информация, смело пользуйтесь поисковыми машинами.
    Но нужно учесть, что машине все равно что будет обозначать в конкретном тексте ваше ключевое слово. Общие правила работы с поисковыми машинами.
    Существуют общие правила работы с поисковыми машинами, которые мы рассмотрим на примере русскоязычной поисковой системы Rambler, но эти правила могут быль несколько модифицированы в зависимости от поисковой системы, поэтому желательно читать иногда раздел HELP на домашних страницах поисковых серверов.
    Чтобы работать с поисковой системой RAMBLER, как и с любой другой, необходимо выйти на домашнюю страницу сервера, набрав в строке "адрес" адрес машины поиска в данном случае: http://www.rambler.ru/
    На домашней странице вы увидите окно для ввода ключевых слов и кнопку рядом с ним (Найти), при нажатии которой машина осуществляет поиск.
    У RAMBLER, как и у многих поисковых систем есть следующие возможности:
    - простой и сложный поиск
    - чувствительность к величине символов;
    - возможность поиска по частям слов, целым словам или фразам (подобно "русское искусство");
    - использование булевых (OR, AND, NOT) в комбинации ключевых слов;
    - структурированные запросы;
    Примечание: Существует такое понятие как "Язык поиска Информации" - особый язык запроса к поисковой системе, который значительно сокращает время поиска информации. Стандарта на него, к сожалению, нет. Каждая поисковая система имеет свой "Язык поиска". Обычно особенности каждой поисковой системы описаны прямо на странице поиска на ссылке "Помощь". Принцип поиска Информации в Интернет достаточно прост.
    1). Установите соединение с Интернет ("Мой компьютер" - папка "Удаленный доступ к сети" - запустить настроенное соединение с Интернет - нажать кнопку "Подключиться")
    2). Запустите браузер Microsoft Internet Explorer 5.0 и в "Адресной строке" введите адрес одной из поисковых машин.
    Например: http://www.rambler.ru

Щелкните мышкой для увеличения

    3). После загрузки страницы вы сможете искать информацию по каталогу, либо сами введете запрос на интересующую вас информацию в "Поле поиска".

Щелкните мышкой для увеличения

    4). После нажатия кнопки "Искать" поисковая система немного "подумает" и выдаст вас список адресов страниц Интернет, в которых встречается запрошенная вами информация. Информация, которую выдаст поисковая, система не всегда вам подойдет. Для более точного поиска необходимо ввести более точный и строгий запрос на поиск информации.
    Если страница и её описание удовлетворяют условиям вашего поиска, просто нажмите на подчеркнутый текст, помеченный синим цветом и данная страница откроется.

Щелкните мышкой для увеличения

    5). Для более точного поиска используйте ссылку "Расширенный поиск".

Щелкните мышкой для увеличения

    При расширенном поиске вы сами можете задавать правила поиска. При расширенном поиске шансы быстро найти информацию резко повышаются.
    Примечание: Если вы не нашли информацию с помощью поисковой системы не расстраивайтесь, просто воспользуйтесь другой поисковой системой.
    Примеры формирования запросов.
    Простой запрос поиска по ключевому слову:
    стройматериалы
    В результатах поиска будут выданы ссылки на сервера, содержащие слово стройматериалы.
    Булев запрос:
    исследования AND фундаментальные
    В результатах поиска будут выданы ссылки на сервера, содержащие оба слова, встречающиеся в тексте в любом порядке.
    Запрос в виде фразы:
    "фундаментальные исследования"
    В результатах поиска будут выданы ссылки на сервера, содержащие "фундаментальные исследования" как фразу. Обратите внимание, что Вы должны поместить фразу в двойные кавычки.
    Булевы запросы с фразами:
    "фундаментальные исследования" AND физика
    В результатах поиска будут выданы ссылки на сервера, содержащие словосочетание "фундаментальные исследования" и слово физика, находящееся рядом или в той же строке.
    Простой структурированный запрос:
    $Title : физика
    В результатах поиска будут выданы ссылки на сервера, где атрибут Title содержит значение физика.
    По тому же принципу:
    $ALL: beatles (во всем документе, default)
    $URL: www.rambler.ru (в именах URL)
    $Title: Communications (в названии документа)
    $header: Common site ( tags - заголовки)
    $essence: modem (в начале документов)
    $Address: Ohio State
    Сложный запрос:
    "фундаментальные исследования" AND (Title : физика)
    В результатах поиска будут выданы ссылки на сервера, содержащие фразу "фундаментальные исследования" и где атрибут Title того же самого объекта содержит значение физика.
    В различных поисковых машинах могут быть добавлены следующие функции.
    При помощи меню или кнопок находящихся на домашней странице сервера возможность ввести следующие параметры запроса.
    Нечувствительность к величине символов:
    При установке этого параметра запрос становится нечувствительным к величине символов (строчные или прописные). Иначе при запросе будет различаться величина символов. Значение по умолчанию - нечувствительность к величине символов.
    Точное соответствие заданным ключевым словам:
    При установке данного параметра поиск будет вестись в точном соответствии заданным ключевым словам. В противном случае поиск будет вестись по части слова или фразы. Например, при ключевом слове "сеть" будет найдено и "работа с сетями", для "чувствительно" будет найдено также и "нечувствительный". Значение по умолчанию - точное соответствие заданным ключевым словам.
    Допустимое число ошибок:
    Это меню позволяет допустить в запросе некоторое количество ошибок. Ошибкой считается пропущенный символ или какой либо символ замененный другим. Число возможных ошибок может быть 0, 1 либо 2. По умолчанию - 0 ошибок.
    Перевод:
    Это возможность переводить с русского на английский и обратно тексты запросов и результаты поиска.
        3.6.3.1. Международные поисковые системы.
    Alta Vista
    http://www.altavista.digital.com/
    Alta Vista была создана фирмой Digital Equipment Corporation (DEC)
    В мае 1996 г. Alta Vista уже индексировала около 30 млн. HTML-страниц и 13 тыс. групп новостей. В результате эта система выдает не всегда самый свежий, но наиболее полный результат поиска по всей Интернет. Поиск производится в точном соответствии с введенным словом без учета морфологических вариаций, прописные и строчные буквы различаются. Ключевые слова запроса в ответе выделяются жирным шрифтом, однако система не производит сортировку полученных адресов по критерию наибольшего соответствия запросу. В результате приходится искать необходимые ссылки в довольно длинных списках. Вместе с тем подсистема Power Search, которая входит в Alta Vista, позволяет конструировать сложные запросы; пользуясь ими, можно и учесть морфологические вариации, и существенно повысить выход целевых ссылок. Необходимость конструировать запросы с использованием логических операторов and, or, not и near является весьма небольшой платой за предоставляемые возможности. Эта информационно-справочная система не содержит ни одной строчки рекламы, ее дизайн отличается строгостью и изысканной скромностью. Большим ее преимуществом является также возможность поиска на 20 языках, в том числе и русском.
    Excite
    http://www.excite.com/
    Exite фирмы Architext Software это интегрированная поисковая система, содержащая машину WEB-поиска, большой каталог обзоров (NetDirectory), новости и др. Excite отличается самым большим набором сервисных услуг, которые обеспечивают простой поиск и удобное для восприятия представление информации. Excite индексирует около 50 млн. страниц специально отобранных наиболее популярных Web-узлов (около 60 тыс.). Рейтинг популярности определяется по количеству ссылок на данный узел из уже индексируемых списков. Кроме того, регулярно отслеживаются специальные узлы What's New (Что нового), где выискиваются наиболее интересные новые ссылки. Реиндексация производится еженедельно. Поиск ведется без учета морфологических вариаций ключевых слов. Возможность формировать сложные запросы облегчает нахождение специфической информации, к тому же этим мощным инструментом нетрудно научиться пользоваться. Система производит сортировку получаемых результатов в соответствии с близостью к введенному запросу и представляет описания узлов. Excite, так же как InfoSeek, выдает хорошо отсортированный список, в котором нужные ссылки очень часто находятся в числе первых. Excite система для поиска актуальной и пользующейся спросом информации. Экзотику с ее помощью найти трудно.
    Hot Bot
    http://www.hotbot.com/
    Чрезвычайно мощная, быстрая машина поиска фирмы Inktomi, основанная на оригинальном программном обеспечении. Вполне возможно, что Hot Bot в ближайшее время составит (или уже составляет) довольно жесткую конкуренцию рекордным показателям Alta Vista. HotBot индексирует около 55 млн. документов в Web, а также Usenet News. При организации запроса морфологическое расширение не производится. Можно формировать сложные запросы и сохранять свою настройку опций, искать, по словам, фразе, искать ссылки, а также документы по дате публикации (!). Поддерживается редкая возможность найти все ссылки на задаваемый пользователем адрес. Выходной список сортируется (по % соответствия), ключевые слова не выделены. В ответе выдается не фрагмент целевого текста, а краткое содержание страницы, созданное специальной программой.
    InfoSeek
    http://infoseek.com/
    Интегрированная поисковая система InfoSeek компании Infoseek Corporation содержит машину WEB-поиска, тематический каталог и обеспечивает поиск по телеконференциям. Полнотекстовая. Эта система не отличается особенно большой базой данных, однако, согласно многим независимым оценкам, является машиной, осуществляющей тщательный подбор ссылок при выдаче результатов. В процессе поиска InfoSeek, так же как Alta Vista, может различать прописные и строчные буквы, что сильно увеличивает эффективность некоторых видов поиска. Очень полезна возможность повторного поиска по критерию "Similar Pages", позволяющая находить родственные страницы. Предоставляемые InfoSeek описания результатов самые полные. Так же как Excite, эта система выдает хорошо отсортированный список, в котором нужные ссылки очень часто оказываются в числе первых. Кроме английского есть еще и немецкий, испанский и французский варианты.
    Если необходимо провести поиск по незнакомой тематике, то InfoSeek будет самой лучшей машиной поиска, которая выведет пользователя на нужную информацию.
    Lycos
    http://www.lycos.com/
    Lycos (интегрированная справочно-информационная система университета Карнеги-Мелона) является одной из старейших и так же, как Alta Vista и Hot Bot, пытается объять всю Интернет около 66 млн. Web страниц (сама Lycos считает, что это около 91% WWW, но кто знает, как велика эта WWW на самом деле?). Наряду с машиной WEB-поиска система содержит большой и удобный раздел обзоров и многое другое, включая интерактивную карту автомобильных дорог США. Все это легко доступно, ориентацию облегчает карта узла по адресу: http://www.lycos.com/sitemap.html. Индексация производится не по всей Web-странице, а только по создаваемому специальной программой ее содержанию, в которое в основном попадают ключевые слова служебных заголовков (header), заголовков страниц, ссылок и немногих начальных слов разделов. Lycos включает в индексируемое пространство FTP- и Gopher- узлы, храня в базе данных информацию о большом количестве бинарных файлов (gif, jpg, wav, MPEG). В отличие от большинства других база данных Lycos обновляется по частям, причем чаще реиндексируются наиболее популярные узлы. Таким образом "свежесть" получаемой информации находится в прямой зависимости от ее популярности. Возможно формирование сложных запросов, система понимает морфологические вариации ключевых слов.
Ключевые слова запроса выделены в ответе, однако необходимая ссылка, так же как в случае с Alta Vista, часто находится не во главе получаемого списка. Полнота результатов поиска сравнима только с Alta Vista.
    WebCrawler
    http://www.webcrawler.com/
    Эта машина поиска компании America Online поддерживает также тематический каталог. Ее философия проста: несложная, но актуальная база, легкий и быстрый поиск. Вся база данных возобновляется ежемесячно и пополняется еженедельно, что позволяет поддерживать высокую степень адекватности получаемых результатов. Индексируются наиболее популярные страницы (немногим более 100 тыс. это одна из самых маленьких баз данных). WebCrawler единственная машина WEB-поиска, дающая соответствующую ссылку в числе первых при поисках базовых страниц каких-либо компаний. Она позволяет конструировать булевы запросы, но не различает прописные и строчные буквы. Ответ сопровождается названием Web-страницы, без каких либо описаний, но оценивается по соответствию запросу (небольшая цветная полоска). Результаты могут быть сохранены в виде закладок. Эта машина поиска хороша для быстрого просмотра популярных узлов, содержащих "горячую" информацию.
        3.6.3.2. Русскоязычные поисковые системы.
    AltaVista
    http://www.altavista.digital.com/
    Кроме всех ее достоинств прекрасно ищет на русском языке с учетом его морфологии.
    Rambler
    http://www.rambler.ru/
    Данная система служит для поиска и извлечения документов с серверов России и стран СНГ. Более 2 000 000 документов с более чем 13 000 уникальных хостов. Есть возможность поиска при неизвестном окончании. При выводе результатов ключевые слова выделяются. Можно находить документы, содержащие поисковые слова только в определенной части документа а также использовать символы '+' и '-' для увеличения/уменьшения весового коэффициента любого слова.
    АПОРТ
    http://www.aport.ru/
    Поиск ведется по 1 257 368 документам (2 647 725 URL, 10 770 серверам). Могут использоваться булевы операторы AND и OR, поиск по фразе, возможность усечения, чувствительность к строчным и прописным буквам, учет русской морфологии также можно осуществлять перевод запроса и результата.
    Яndex-Web
    http://www.yandex.ru
    Очень интересная поисковая система, имеет два варианта. Один осуществляет поиск на естественном языке, второй по ключевым словам с возможностью использовать логические операторы. Используемые операторы AND, OR, NOT. Содержит возможность поиска с расстоянием. Поиск в заголовках и ссылках. В результатах поиска вы увидите название документа, размер файла, URL, дата последнего обновления, степень соответствия запросу, кодировка. Подсветка искомых слов в найденных документах.
    3.6.4. Базы данных адресов электронной почты.
    Такие поисковые сервера используют обычно классификации по роду деятельности, по выпускаемой продукции и оказываемым услугам, по географическому признаку. Иногда они дополнены поиском по алфавиту.
        http://www.four11.com/
        http://www.lookup.com/
        http://www.whowhere.com/
    3.6.5. Поиск по FTP-серверам.
    Данный тип средств поиска в Internet позволяет находить файлы, доступные на анонимных FTP-серверах. Основным критерием поиска является название файла, задаваемое разными изощренными способами (точное соответствие, подстрока, регулярное выражение и т.д.). Данный тип поиска конечно же не может соперничать по возможностям с поисковыми машинами, так как содержимое файлов никак не учитывается при поиске, а файлам, как известно, можно давать произвольные имена. Тем не менее, если Вам требуется найти какую-нибудь известную программу или описание стандарта, то с большой долей вероятности файл его содержащий будет иметь соответствующее имя и Вы сможете найти его при помощи одного из серверов FTP Search:
        http://ftpsearch.ntnu.no
        http://ftpsearch.lycos.com
        http://ftpsearch.city.ru/
        http://www.filesearch.ru/
    3.6.6. Cистемы поиска в Usenet News.
    WWW представляет собой место, где пересекаются информационные потоки всего Интернета. Для доступа к одной из самых интересных служб Сети, службе новостей (news), также известной как USENET, помимо традиционных специализированных программ (news-клиентов), можно использовать веб-интерфейсы, такие как Dejanews (http://www.dejanews.com/). Помимо чтения и отправки сообщений эти сервера позволяют осуществлять поиск нужного сообщения в огромном архиве. Это намного увеличивает эффективность работы с USENETом.

Назад В начало Вперед
Дмитрий Шван © 2001-2002 г. Dmitriy Schwan
Hosted by uCoz