История поиска в интернете

Давайте взглянем на историю поиска в интернете не как на набор событий и фактов, а как на историю развития технологий.

Поколения поисковых машин

Для удобства изучения введем понятие поколения в развитии технологии следующим образом. Внутри поколения характеристики технологии имеют количественное различие, а между поколениями - качественное. По уже сложившейся традиции выделяют 2 поколения поисковых машин.

Поисковые машины первого поколения

В первом поколении поисковых машин использовалась технология контекстного поиска. Это значит, что поисковая выдача формировалась исключительно по принципу нахождения слов запроса на страницах сайтов.

Конечно, внутри поколения технология развивалась. У своих истоков поиск в интернете практически не отличался алгоритмически от поиска в текстовом редакторе. Но вот, для начала, стали учитывать, что слова в тексте страницы сайта могут не обязательно идти в том же порядке, что и слова запроса.

Следующей инновацией стало допущение любого расстояние между словами в искомом тексте и тогда то появилось понятие релевантности, то есть количественной меры соотвествия текста страницы сайта строке запроса и упорядочения поискового результата по этой характеристике. Далее было логично учесть то, что не обязательно все слова запроса должны входить в текст страницы сайта. Отсутствие части слов просто понижало характеристику релевантности. Потом стали учитываться словоформы (падежи, склонения, спряжения слов), затем синонимы и даже переводы лексем.

Экстенсивное развитие технологии продолжалось до тех пор, пока не произошла революция в поиске, ознаменовавшая появление следующего поколения.

Поисковые машины второго поколения

Конечно, нетрудно догадаться, что речь идет о появлении Google. Но что именно технологически привнес этот проект, что позволило ему вытеснить с рынка всех конкурентов за считанные годы и захватить мировое господствующее положение на рынке поиска в интернет? Ответ на это так же известен всем, кто хоть немного знаком с современными интернет-технологиями: это ранжирование сайтов при помощи подсчета внешних ссылок на него. Ссылки имеют различный вес, числовое выражение которого известно, как Google page rank или просто PR.

Почему же эта технология произвела революцию в поиске? Для объяснения этого феномена давайте вспомним, откуда она пришла. В официальной истории проекта Google можно прочитать, что технология впервые задействована в Стенфордском университете, то есть в научной среде. В научной среде давно принято измерять значимость публикации по количеству ссылок в последующих работах. Переносим эту идею на поиск в интернете и мы уже способны отличить страницу сайта с текстом, который будет интересен многим от того, который неинтересен никому.

Но есть одно "НО". В научной среде невозможно просто так опубликовать работу. В зачет идет только публикация в реферируемых изданиях. Реферируемых - это значит придирчиво проверяемых его редактором, заботящемся о репутации издания. Ссылки на предшествующие работы авторы ставят тоже не из любви к искусству, а по необходимости, чтобы не быть уличенным в плагиате. Сравним теперь с интернетом: опубликоваться может каждый, ссылки ставятся добровольно. Нестыковка!

Однако выход есть! Нужно как-то ввести реферирование. Однако, как это сделать, ведь в интернете мирриады страниц, где найти столько редакторов? И вот во всей красе появляется идея ранжирования страниц сайтов. Ранг страницы, PR, и есть тот референт, который отличает значимый ресурс от малозначимого. Но является ли идея ранжирования такой оригинальной? Вовсе нет, если вспомнить про звания в армии или табели о рангах чиновников. Остальное - дело уже техники. Вычислить подходящее соотношение в пирамиде рангов, установить несколько ресурсов с высшим рангом и вот, готово, система в действии.

Второе поколение поиска в рунете

Вы спросите, что же мы все о Гугле, да о Гугле. А что же можно сказать о поисковиках рунета? Да, в Яндексе весьма своевременно уловили веяния нового времени и ввели похожую технологию. Можно утверждать, что благодаря этому Яндекс и занял лидирующее положение в рунете, также вытеснив с рынка всех конкурентов. Есть ли отличия в технологии Гугля и Яндекса и если есть, то в чем они? Конечно ответ на поверхности, в методике ранжирования. У Гугля это PR (page rank), у Яндекса - ТИЦ (тематический индекс цитирования). В чем их различия, кроме названий? Главное различие в том, что PR оценивает каждую страницу каждого сайта, а ТИЦ - весь сайт в целом.

Какие преимущества и недостатки ТИЦ? Преимущество - в экономии. Каждый сайт, хоть и не Википедия, но содержит сотни, а то и тысячи страниц. Описывая сайт одним числом, пусть даже и куда большего диапазона значений чем PR (у PR это всего от 0 до 10) можно реально съекономить на вычислениях. Чтобы понять недостаток метода обратимся к аналогии - сравним сайт с человеком. Мы знаем, что человек может быть весьма авторитетным в одной области и совершенно беспомощным в другой. Если человека оценивать единым критерием, то можно легко попасть в просак, доверившить мнению там, где он беспомощен, или отвергнув квалифицированное мнение из-за отсутствия у него всесторонней эрудиции. Вот так кратко можно пояснить, почему даже на своем поле Яндексу непросто удержать лидирующие позиции, конкурируя с Гуглем.

Поисковые машины будущего

После такой подачи истории поиска вполне логично предположить, что в ближайшем будущем появится следующее, третье поколение поисковых машин и новое поколение также стремительно вытеснит с рынка поисковые машины второго поколения, как Google в свое время вытеснил первое. Какой же будет поисковая машина будущего, какие черты будет иметь технология следующего поколения? Детальнее об этом можно прочесть в статье "Поисковые машины будущего".


Теги: поиск, интернет, технологии, история

Дата публикации:

19 января 2014 года

Статьи по теме:

Поисковые машины будущего

SEO будущего

Условия использования

Если Вам понравилась эта статья и Вы хотите перепечатать или процитировать ее на своем ресурсе, обязательно укажите открытую ссылку на первоисточник:
http://tag4site.ru/search_history

Яндекс.Метрика