Главная Услуги Работы Персона Юзабилити анализы
IMG тел. +7(98I) 7608865
Тысячи чертей или почему яндексоиды не бреются?




ПОИСК по сайту


    Полный список статей
/ яндексоиды не бреются / Версия для печати / translit / абракадабра :-)


<-предыдущая следующая ->

 
  google.com bobrdobr.ru del.icio.us technorati.com linkstore.ru news2.ru rumarkz.ru memori.ru moemesto.ru smi2.ru twitter.com Яндекс закладки text20.ru RuSpace RuSpace toodoo

Очень меня напряг “учет нескольких тысяч поисковых параметров для одного документа“. Нет, вовсе не как оптимизатора. Как оптимизатору мне достаточно оказывать влияние на 3 параметра документа – относительную частоту запроса в документе, относительную частоту запроса в анкор-листе документа и вес документа, который определяется как суммапередаваемых донорами весов. Этого в принципе достаточно для успешного продвижения.

Меня беспокоят тысячи параметров как немножко программиста и слегка математика.

Начнём с того, что одним из основным принципов программирования (и математики, и философии) является принцип Бритвы Оккама:

entia non sunt multiplicanda praeter necessitatem
(не преумножай сущности без надобности)

Как мне видится, для успешного ранжирования любых документов необходимо и достаточно 4 параметра: к трём вышеупомянутым добавляется возраст документа, и применяется он в случае равенства этих трёх параметров (и для одних типов запросов возраст может идти в плюс, а для других – в минус). А дьявол порылся в точном взвешивании передаваемых ссылками весов: seo-ссылки, естественные ссылки, ссылки с трастовых и ссылки с экспертных документов – все они должны передавать вес по-разному. Ну и ещё разные типы запросов необходимо учится определять, чтобы искать немного по-разному – но это всё не имеет никакого отношения к параметрам самого документа…

Ладно, ладно, я ничерта не понимаю в поиске, а на самом деле, большинство ценных документов располагается на сайтах, сделанных криворукими вебмастерами (был тут недавно в немаленькой такой компании, головной офис которой расположен в Доме Зингера на Невском, так там сайтом рулили 6 вебмастеров, а на подтверждение прав для консоли вебмастера ушло полтора часа) и поэтому на годный документ ведёт единственная ссылка с текстом подробнее с такого же одиноко расположенного документа на богом и Гуглем (но не Яндексом) забытом сайте, а посему для качественного ранжирования столь бесценных для широких масс документов нужны цельных 245 признаков (кстати, кто-нибудь знает, почему 245, а не нормальные для любого программиста 256?). Лично я, как и Петька из анекдота, такое не только написать, но и представить не могу! А теперь заметьте, что всего-то за какие-то полгода количество необходимых для ранжирования параметров вдруг увеличились в 8 (!) раз (минимум в 8, потому что “тысячи” это как минимум две ). Да в ином документе столько букв не бывает сколько придумали параметров яндексоиды.

Хорошо-хорошо, у меня как не у гуманитария очень скудное воображение, поэтому попрошу вообразить вас такую ситуацию: господину Воложу звонит господин Медведев и с чуть меньшим чем у Путина металлом в голосе спрашивает, а почему это по запросу президент выдаётся википедия со статьей не про того президента? Вообразили? А теперь вообразите как яндексоиды будут вспешке определять какой из тысяч параметров подкрутить, чтобы правильный президент в топе был. Вот и у меня не получается. Нет, звонок Медведева Воложу – запросто, а быстрый поиск и исправление ошибки – ну никак.

Гугль, к слову, с задачей выбора правильного президента в вики справляется на раз. Наверное потому, что PageRank вычислять умеет :)

Ну и на загрузку опять немножечко математики. Если вам не хватило 1000 параметров, чтобы выбрать и отранжировать первую тысячу документов из всех документов, содержащих слова из запроса пользователя, то вы придумали ровным счётом ничего не значащую тысячу параметров – они совпадают у очень многих документов, а это значит, что “учёт нескольких тысяч поисковых параметров для одного документа” – это не более чем страшная сказка на ночь для ребёнка начинающего сеошника.

Disclaimer: данная заметка ни в коем разе не является попыткой учить кого-либо писать отличный поиск, но является просто выражением удивления, почему Володька не сбрил усы. Правильной бритвой :D

Upd: комментарий от Ильи Сегаловича.

Это не те “параметры”, которые “признаки” или “свойства” (features), а те параметры, из которых строится модель.

Если модель, например, полином второй степени (то есть в качестве параметров используется и признаки и все их произведения) то число параметров модели пропорционально квадрату числа признаков. Чем длиннее модель (чем в ней больше используется параметров) тем точнее можно построить ранжирование или угадать класс объекта или угадать оценку и тп. Однако сложные, длинные модели очень дорого “обсчитывать” по ресурсам.

В этом релизе мы впервые для себя применили очень длинную модель в ранжировании. Для этого пришлось многое переписать.

А признаков у нас, и правда, несколько сотен, и их число и рост их числа, вы совершенно правы, тщательно контролируется и идет конечно же не так быстро.

Written by Артём Шкондин
3
Создание эксклюзивных сайтов, юзибилити анализ и бесплатный анализ под запросы основных поисковых машин
Контактная информация :
тел. +7(98I) 7608865

Написать письмо на e-mail
icq 415547094  romverрейтинг на mail.ru сайта romverinbox.ru
© 1997 - 2024 romver.ru

Полная карта сайта Display Pagerank