В фейсбуке  В гугле  В твиттере  В контакте  В яндоксе
         

Каталог статей

Главная » Статьи » Поисковые системы

Насколько умны поисковые роботы?


Насколько умны поисковые роботы?

Майкл Кинг – программист и веб-разработчик, занимается SEO с 2006 года. Начал карьеру в Microsoft в качестве вебмастера, потом работал в других компаниях, среди которых DigitalPersona и WildTangent. В Razorfish работал с Ralph Lauren, ADT, State Farm, Hawaiian Airlines, T. Rowe Price, Citibank. В настоящий момент Майкл возглавляет отдел SEO компании Publicis Modem, проводит аудиты сайтов, а также профессионально занимается музыкой.

Мэтт Каттс во время конференции Pubcon объявил, что Googlebot может работать с AJAX-страницами – например, индексировать комментарии на Facebook. Так совпало, что это заявление было сделано всего через несколько часов после того, как я обнародовал исследование Джошуа Гиардино, в котором высказано предположение, что Googlebot – это headless browser (браузер без графического пользовательского интерфейса), сделанный на основе кода Chromium. И теперь я собираюсь оспорить заявление Мэтта Каттса. Googlebot не только что поумнел, он уже некоторое время не является текстовым пауком; как не являются им ни BingBot, ни Slurp. Все свидетельствует о том, что поисковые роботы (Search Robots) – это headless browsers, и у поисковиков такая функция появилась еще в 2004 году.

Оговорка: Я не работаю ни на какой поисковик. Все сказанное здесь – теоретические умозаключения, основанные на патентных исследованиях (моих и Джошуа Гиардино), а также на некоторых указаниях Билла Славски и анализе поисковой выдачи.

Что такое headless browser? Headless browser («безголовый браузер») – это полноценный веб-браузер без визуального интерфейса. Как и все TSR-программы (резидентные программы), он запускается без какого-либо оповещения на экране компьютера, но с ним могут взаимодействовать другие программы. Headless browser можно управлять с помощью командной строки или скриптового языка: можно загрузить страницу и алгоритмически исследовать данные, которые увидит пользователь Firefox, Chrome или (тьфу!) Internet Explorer. Ванесса Фокс намекает, что Google именно таким образом просматривал AJAX уже в январе 2010 года.

Однако поисковикам удалось бы убедить нас в том, что их пауки все еще походят на браузер Lynx и могут только видеть и понимать текст и его метки. В целом, они приучили нас верить, что Googlebot, Slurp и Bingbot не похожи на Пэкмена. Нам внушают, что они обрабатывают информацию, не понимая, откуда она и что означает. Представьте, что пунктирная линия, которую «проглатывает» Пэкмен – это веб-страницы. Время от времени он натыкается на стену и меняет направление. Представьте, что SEO – это такие таблетки силы. Представьте, что «призраки» (та синяя штука на картинке) – это технические проблемы SEO, о которые Пэкмен споткнется, и которые не позволят ему добраться до вашей страницы. SEO помогает пауку поисковых машин «съесть» этот призрак; а если сайт не оптимизирован, то Пэкмен умирает и возрождается на другом сайте.

Именно этот принцип нам предлагают уже много лет. Единственная проблема – это уже не так. Но будем справедливы: Google обычно не врет, а недоговаривает, поэтому это наша вина, что мы так долго не могли всего этого понять.

Советую вам прочитать исследование Джоша целиком, а здесь приведу некоторые основные моменты:
  • Патент, зарегистрированный в 2004 году под названием «Деление документа на основании визуальных пробелов», содержит обсуждение методов, которые Google использует для визуального отображения страниц и создания моделей DOM (объектных моделей документов), чтобы лучше понимать контент и структуру страницы. Ключевая цитата из этого патента гласит: «Также могут использоваться и другие методы создания соответствующих значений веса – например, на основе изучения поведения или исходного кода программ или при помощи размеченной вручную группы веб-страниц для автоматической установки мер веса через процесс обучения машины».

  • Хитрый мистер Каттс на конференции Pubcon намекнул, что GoogleBot скоро будет учитывать, что происходит в той части страницы, которая видна без прокрутки, в качестве показателя качества восприятия пользователем, представив это как новую функцию. Это любопытно, так как согласно патенту от 17 июня 2004 года под названием «Ранжирование документов на основе характеристик и/или поведения пользователей», эта функция существует уже семь лет. В ключевой цитате этого патента описываются «примеры характеристик, связанных со ссылкой, могут включать размер шрифта анкора, относящегося к ссылке; расположение ссылки (измеряемое, например, в списке HTML, в бегущей строке, выше или ниже первого экрана содержимого страницы, просмотренной в браузере с разрешением 800 на 600 пикселей, стороне (верхней, нижней, левой, правой) документа в нижнем колонтитуле, боковой колонке и т.д.); есть ли ссылка в списке, расположение ссылки в списке; цвет шрифта и/или атрибуты ссылки (например, курсив, пол утона, совпадающий с фоном цвет и т.п.)». Это свидетельствует о том, что Google уже какое-то время учитывает границы экрана. Я бы также сказал, что эта функция действует прямо сейчас, так как существуют моментальные превью, на которых страницы обрезаны там, где Google видит начало полосы прокрутки.

  • Не секрет, что Google уже некоторое время в известной степени использует JavaScript, но «Поиск по контенту, доступному через веб-формы» указывает на то, что Google использует headless browser, чтобы производить действия, имитирующие работу пользователя. «Многие сайты часто используют JavaScript для преобразования строки вызова метода перед отправкой данных в форму. Это делается для того, чтобы предотвратить загрузки пауком. Эти веб-формы невозможно легко активизировать автоматически. В разных вариантах для обхода используется эмуляция JavaScript. В одном из вариантов реализации запускается простой клиент браузера, который работает с JavaScript». Хм-м-м, интересно.
Google также принадлежит значительное число патентов IBM, и это при всех их замечательных исследованиях удаленных систем, параллельной обработки данных и безинтерфейсных систем – например, патент под названием «Одновременная сетевая конфигурация множества систем без интерфейса». Хотя Google и сам несомненно проводил широкие исследования в этих областях.

Не стоит забывать и о патенте, принадлежащем Microsoft, который называется «Эффективное определение режима работы скрипта путем регулирования браузера», который не оставляет возможностей для разночтений, так как там во многих местах говорится, что Bingbot – это браузер. «Метод анализа одного или нескольких скриптов, содержащихся в документе, для определения, выполняют ли эти скрипты одну или несколько заданных функций; этот метод включает в себя следующие шаги: идентификация путем выбора из одного или нескольких скриптов тех, что соответствуют одной или нескольким заранее заданным функциям; расшифровка одного или нескольких соответствующих скриптов; перехват сигнала внешней функции от одного или нескольких соответствующих скриптов во время расшифровки одного или нескольких соответствующих скриптов, сигнал внешней функции направляется на объектную модель документа, обеспечивая характерную реакцию, вне зависимости от объектной модели документа, на сигнал внешней функции; запрос браузера на создание объектной модели документа, если характерная реакция не обеспечила дальнейшую работу соответствующих скриптов; обеспечение специальной реакции, получаемой с учетом созданной объектной модели документа, на сигнал внешней функции, если браузер получил запрос на создание объектной модели документа». Действительно, любопытно.

Более того, в феврале 2005 года Yahoo зарегистрировал патент, озаглавленный «Методы просмотра динамического веб-контента», в котором написано: «Архитектура программной системы может быть разной. На рис. 1 показан пример архитектуры, в которой модули объединены с традиционным поисковым роботом и движком браузера, который здесь действует как обычный веб-браузер без пользовательского интерфейса (иначе говоря, "headless browser”). Леди и джентльмены, мне кажется, это неоспоримое доказательство. Дальше в этом патенте говорится о автоматическом и ручном заполнении форм и методах применения JavaScript.

Поисковые роботы на самом деле напоминают Пэкмена, но не тот рот без лица, в который мои родители играли в барах и игровых автоматах в середине 80-х. Googlebot и Bingbot больше похожи на трехмерного Пэкмена с глазами, носом и конечностями, на которого мы не обращаем внимания на консольных системах с 90-х годов. Этот Пэкмен может драться, пинаться, прыгать и молниеносно передвигаться по сети в четырех измерениях (4-е – это время, см. обновления). Иначе говоря, поисковые пауки могут обрабатывать информацию со страницы так же, как мы видим ее в своих браузерах, и они достигли такого высокого уровня способностей, что могут имитировать пользователя.

Вы когда-нибудь читали ЛСКП (лицензионное соглашение для конечного пользователя) для Chrome? Да, я тоже не читал, но, как и в большинстве продуктов Google, вас просят согласиться на применение программы, в которой ваши данные об использовании отправляются Google. Предполагаю, что эти данные используются не только для информирования алгоритма ранжирования, но и как средство обучения алгоритмов Googlebot – чтобы научить его заполнять определенные поля и формы. Например, Google может использовать данные, вводимые пользователем, для определения, какие данные вводятся в какое поле, а затем программным путем заполнить формы сгенерированной информацией такого же типа. Если 500 пользователей введут свой возраст в поле «Возраст», у робота будут данные о том, что в это поле надо вводить возраст. Поэтому Пэкмен больше не натыкается на двери и стены: у него есть ключи, и он может войти через парадную дверь.
Категория: Поисковые системы | Добавил: wweebb (08.12.2011)
Просмотров: 1332 | Рейтинг: 5.0/1
Восприятие дизайна
Успех во многом зависит от восприятия запоминающегося дизайном сайта, посетителями. Я считаю, что человеческий мозг — это площадка для ведения конкурентной борьбы. “Не нужно забывать, что сознание избирательно относится к поступающей информации: легко воспринимает уже знакомые факты и отбрасывает то, что не соотносится с его предыдущими знаниями и опытом.” Людям сложно запомнить 10 заповедей. Что уж говорить об интернет сайтах, если они занимают в сознании не первое и не второе место. У каждого посетителя существует внутренний рейтинг сайтов каждого дизайна по своему. Я этот рейтинг называю “визуальной лестницей”. Подниматься по такой “лестнице” сайту очень сложно, особенно если не используется стратегия позиционирования. Позиционировать продукт необходимо, отталкиваясь от информации о конкурирующих сайтов, знакомых потребителю.
Стратегия сайта
Человеческое сознание с трудом воспринимает сложные и запутанные идеи. Приведем пример о компании BMW. Переработав идею конкурента — компании Mercedes, которая заявляла о комфортабельности своих машин, BMW сообщила, что ее авто больше подходят для езды, чем для сидения. Тем самым была дискредитирована идея Mercedes. Это один из примеров изменения восприятия потребителей. Частная студия вебмастера «WebMasterSeo» проанализировала работу своих конкурентов и выявила у них определенные слабые места, такие как высокая цена на сайт и Хостинг от uCoz, большие сроки изготовления сайта. Поэтому при разработке своих сайтов Я отказался от всего, что могло бы усложнить разработку сайта. К тому же я смог снизить стоимость сайта и добавил дополнительные модули в базовый пакет. В результате, заказчик получает необходимые услуги и остается довольным, что сделало меня лидером по созданию дешевых сайтов за короткие сроки.
Макросреда компании
Макросреда компании – факторы наиболее общего воздействия, оказывающие влияние на каждую организацию, ведущую маркетинговую деятельность. Данные факторы могут открывать для кампании новые возможности или же стать источником серьезных угроз, на них практически невозможно воздействовать, но их воздействие необходимо учитывать и предугадывать. Макросреда большинства компаний в настоящее время может рассматриваться в составе следующих основных компонентов: экономическая среда, политико-правовая среда, культурная и демографическая среда.


 
доступный сайт 
  Быстро и недорого создам сайт.
  Сайт визитка за один день.
 

доступный сайт
  Доступный сайт для бизнеса.
  Сайт визитка за 10 000 руб.
доступный сайт
  Оптимальное продвижение сайта.
  Вывод в топ Яндекса от трех недель
 



    Торговую марку "WebMasterSeo" представляет ООО "WebMaster Design"

    Студия WebMasterSeo - Частная студия веб мастера (Россия, Москва)
    Создание сайтов. Разработка сайтов. Изготовление веб сайтов.
    Заказать сайт онлайн. Веб-студия web-ms, Москва, Балашиха, Реутов
    Железнодорожный, Кучино, Мытищи, Щелково, Красноармейск.




Адрес: г. Москва, ул. 9-Парковая, д.59. корп.1

Тел.: 8 (926) 222-22-22, Сайт: web-ms.ru
E-Mail: info@web-ms.ru
Служба поддержки: info@web-ms.ru
Онлайн-поддержка: Отвечу сразу


8 (926) 222-22-22