Проблемы поиска в интернете

Проблемы поиска в интернете, поисковые машины

Найти нужную информацию в Интернете зачастую довольно трудно. Интернет развивается хаотично, в нем нет четко выделенной структуры. Никто не может гарантировать, что на одном домене будет только информация определенной тематики, а на другом - информация другой, но тоже четко определенной тематики. Например, на доменах .com можно найти не только коммерческую информацию, а, например, различную документацию по программным продуктам или даже анекдоты.

Если бы доменная структура была бы похожа на структуру каталога, например, в домене ru.comp.os.linux (как в системе новостей) была бы вся информация об операционной системе Linux на русском языке и какая-то организация-модератор следила, чтобы в других доменах не выкладывалась информация о Linux, то тогда поиск был бы значительно проще. Ведь мы бы знали, где искать. Открываешь браузер, вводишь ru.comp.os.linux и получаешь... миллионы различных ссылок на статьи, HOWTO-документы и прочую информацию, так или иначе связанную с Linux.

Очевидно, одного домена ru.comp.os.linux не хватило бы. Нужно было вводить поддомены, например, news - содержит новости из мира Linux, с - программирование на С, net - настройка сети. И даже в этом случае нам бы понадобилась помощь компьютера, который бы автоматизировал процесс поиска. Например, только у меня найдется десятка три-четыре статей по Linux, которые связаны с настройкой сети, и все они были помещены в поддомен net. А сколько таких как я? Пусть пару тысяч. Даже если бы 1000 человек написала бы по 30 статей в этот каталог, то в результате было бы 30 000 возможных ссылок. Попробуйте их просмотреть.

И вот на помощь приходит специальный компьютер - поисковая машина. Мы выбираем каталог, в котором бы хотели провести поиск, причем выбрать каталог нужно максимально конкретно (об этом мы поговорим чуть позже), указываем ключевые слова, например, Linux dhcpd, и щелкаем на кнопке Поиск. Через пару секунд компьютер возвращает нам ресурсы, удовлетворяющие заданным условиям. Почему нужно максимально точно указать каталог? Думаю, это должно быть понятным: чтобы получить максимально точный результат. Предположим, что нам нужно найти информацию о настройке демона dhcpd. Если мы будем проводить поиск Не в поддомене net, а сразу во всем домене ru.comp.os.linux, то получим информацию о новых версиях dhcpd (из поддомена news - каталога новостей), исходные коды dhcpd и поддомена c.src и нужную нам информацию из поддомена net. Даже если предположить, что в каждом поддомене 30 000 ссылок, то мы получим 60 000 "лишних", не нужных нам, ссылок.

"Боевые" условия

Видите, что даже в учебных, идеальных, условиях, когда информация четко структурирована, проблема поиска нужной информации не является тривиальной. А теперь представим, что будет если перенести все это о реальные ("боевые") условия, где доменные имена не структурированы и предоставляются различным организациям и простым пользователям, которые публикуют на них все, что им заблагорассудится. Тут вы рискуете получить не 60 000 лишних ссылок, а намного больше. Зайдите на любую поисковую машину - тот же www.yahoo.com - и введите ключевое слово "linux" или "windows". Какое количество ссылок вы получите, я даже не могу предположить.

Опубликовано: 04.04.2015
Помощь сайту
RusOpen.com - это некоммерческий проект. Это значит, что он не приносит прибыли и держится исключительно на Вашем энтузиазме и личных средствах Администрации сайта.
Яндекс.Метрика
Наверх