Google: технология поиска для нового тысячелетия
Прислано admin на Декабря 20 2006 16:22:57

Все любят Google, потому что он быстр и прост в использовании и имеет огромную базу данных. Но самый главный аргумент – это то, что он действительно работает, и вы можете легко найти все, что вам нужно. Google был запущен в 1998 году выпускниками Стэндфордского университета Сергеем Брином (Sergey Brin) и Ларри Пейджем (Larry Page), в свое время работавшими над учебным проектом по идентификации смысловых элементов в структуре Web-ссылок. Они были поражены огромным значением так называемых «обратных ссылок» (то есть страниц, ссылающихся на сайт) и поняли, что их можно использовать для того, чтобы создать более эффективную поисковую систему.

Название игры

Сначала поисковая система называлась “Googol”, что означало число 10, возведенное в степень 100 (единичка со ста нолями). Это подчеркивало бесконечное число документов в сети Интернет. Однако, после того, как они представили проект своему первоначальному инвестору, Брин и Пейдж получили чек на имя “Google”. Обдумав сложившуюся ситуацию, через пару недель они решили открыть банковский счет на имя компании “Google”. Все остальное уже стало историей…

Новаторство PageRank


Google заставил мир поисковых систем перевернуться с ног на голову благодаря своей концепции PageRank, которая оказалась настоящим технологическим прорывом и которую сейчас использует большинство ведущих поисковых систем для обеспечения более качественного поиска. Как же работает PageRank?

«Технология поиска PageRank компании Google работает путем, в первую очередь, установления структуры ссылок во всей сети, а затее ранжируя каждую отдельную страницу, основываясь на числе и значимости ссылок на нее на других страницах», – говорит инженер по программному обеспечению Google Мэт Катс (Matt Cuts). Из разговора с ним я понимаю, что значимость ссылок (популярность и релевантность обратных ссылок) намного более важна, чем их число.

Есть ли у Google слабые места?

Google работает лучше, когда требуется найти конкретную, специфичную информацию (например, «снегопады в Швеции»), чем при абстрактных запросах (например, «собаки»), поскольку результаты поиска не объединяются в категории, и при слишком широком запросе их оказывается очень много. Кстати, знаете ли вы, что в рамках поисковой системы существует каталог, где сайты распределены по категориям, но большинство пользователей используют именно Google.com.

Недавно появившиеся поисковые системы, такие как, например, Wisenut и Teoma, начали классифицировать результаты поиска по категориям. Например, Teoma (в бета-версии) разбивает результаты поиска по запросу «собаки» на подразделы: породы собак, обучение собак, немецкие овчарки, приюты для животных, собаководство, любители собак и так далее. Пользователи чаще всего не знакомы с правилами использования поисковых систем и не знают, как можно сузить область поиска.

Последует ли Google сложившейся тенденции выводить результаты, разбитыми на категории? «Google сейчас находится во втором этапе экспериментов по введению категорий», - отвечает Катс, - «Пользователям обычно не нравится когда предлагается слишком много категорий, но предложить им несколько понятных и четких подразделов в результатах поиска очень важно».

Формула успеха Google

У Google два главных источника доходов: реклама и поисковые сервисы. Катс утверждает, что в их программе Ad Words уровень кликов по ссылкам в настоящее время почти в пять раз превышает таковой в традиционной баннерной рекламе.

Однако, по всей видимости, действительно серьезные доходы приносят Google его услуги по предоставлению поисковых сервисов для крупных порталов и поисковых сайтов. Google имеет около 130 клиентов более чем в 30 странах. Среди них Yahoo! и его международные ресурсы, Sony и аффилированные компании, AOL/Netscape, Cisco Systems и многие другие. Они платят Google аванс за оказание услуг по поиску и CPM (cost-per-thousand results sets, плата за тысячу обработанных запросов), чтобы обеспечивать поиск на их веб-сайтах.

Новая панель инструментов Google

Вы один из нескольких миллионов пользователей, уже установивших себе новую панель инструментов (Tool Bar) Google? Только что была выпущена бета-версия, которая позволяет вам голосовать за посещаемые вами сайты. Это может привести к тому, чтобы при выводе результатов поиска будет учитываться не только структура ссылок, но и мнения посетителей сайтов.

Если вы скачали бета-версию, то вы можете ранжировать результаты поиска с помощью кнопки голосования. Но будет ли учет мнения пользователей интегрирован в общий алгоритм работы поисковой системы? «Механизм голосования будет использоваться скорее не для корректировки рейтинга отдельных страниц или сайтов, а для того, чтобы обеспечить более релевантные результаты в системе в целом», – отвечает Катс. Он говорит, что результаты, полученные к настоящему времени, выглядят многообещающе, но еще слишком рано делать какие-либо выводы.

Как работает алгоритм Google?


Google располагает сайты в зависимости от содержания страницы и ключевых фраз в заголовке и описании. Робот «читает» мета-тэги описания и ключевых слов, учитывая популярность страницы, основанную на числе и значимости сайтов на нее ссылающихся.

Как получить высокий рейтинг? Катс говорит, что правила довольно просты. «Избегайте срытого текста и скрытых ссылок, клоакинга, редиректов, повторяющего содержания на разных доменах и дорвеев. Вебмастерам также лучше воздержаться от использования программ, посылающих автоматические запросы в Google. Самое худшее – это пытаться обманывать: любые кажущиеся простыми пути повышения PageRank или рейтинга обычно приносят больше вреда, чем пользы. Не утруждайте себя обменом ссылками, подписыванием гостевых книг и другими уловками: лучшее использование времени вебмастера – это разработка качественного контента и честное продвижение сайта. Когда Google применяет меры против спама, например, против клоакинга, иногда мы исключаем из области поиска не только соответствующий домен, но и основной сайт».

Взгляд в будущее

Google хочет получить более глубокий, чаще обновляющийся и более персонализированный индекс. «Будущее будет в меньшей степени касаться отдельных возможностей и в большей – общей полезности и эффективности работы системы», – отмечает Катс. «Мы считаем, что нашим пользователям нужны, в первую очередь, релевантные результаты, но они также хотят и быстрого, чистого и честного поиска». Вы видите будущее у XML? «Не в ближайшее время», – отвечает Катс. «Главное достоинство HTML-кода – это то, что написать его может почти каждый. Это одна из причин столь бурного роста WWW в последние годы. XML – превосходная возможность для связи между электронными системами (machine-to-machine communication), но составлять его вручную намного сложнее».

Google планирует увеличить свое лидерство в секторе поисковых систем в наступившем году. «Мы предложим пользователям новые методы поиска. Мы не будем сейчас выдавать всех наших секретов, но обещаем, что в 2002 году Google преподнесет вам несколько приятных сюрпризов», – сказал Катс. Как обычно, Google сконцентрируется, прежде всего, на поиске и впечатлениях и опыте пользователей.

Как глубоко?

Google поддерживает сотни форматов файлов, которые встречаются в сети: PDF, RTF, PostScript, Word, Excel, PowerPoint и другие. Он просматривает и учитывает в своей базе данных миллионы динамических страниц. Каждые 28 дней Google индексирует 3 миллиарда веб-документов, в том числе более трех миллионов новых страниц каждый день. Индексирование новостей позволяет вам получить последние заголовки информационных агентств при поиске по «новостным» запросам. А самые последние новости, найденные Google ,вы всегда можете узнать по адресу: http://www.google.com/news/newsheadlines.html.

Источник: http://www.searchengineguide.com