КС2 | Форумы | Тема: Еще одна статья, которая опередила мою по аналогичной теме

Еще одна статья, которая опередила мою по аналогичной теме

Контекст	Сообщение
Gambler 2004.08.02 03:12:00	http://www.ftrain.com/google_takes_all.html Аргх. Это начинает надоедать. Для сравнения: О борьбе с поисковиками В экономику поисковиков я вдаваться не будут, т.к. с точки зрения экономики кто угодно может делать что угодно, пока он не получит за это по зубам (в финансовом плане, разумеется). В должностную философию - ту, которая объясняет, почему кто-то должен делать что-то – тоже не полезу, ибо мало кто интересуется своими долгами, если может их не платить. Это как бы "техническая" статья, то есть она не о том, что надо, а о том, что можно и как именно можно. Для начала рассмотрим следующую ситуацию. Человек А создал полезную и информативную страничку или даже целый сайт о содержании карликовых пуделей. Немного позже человек Б купил на радость детям карликового пуделя и теперь хочет узнать, как можно уживаться с этой прожорливой и привередливой тварью. Человек Б не знает, где находится нужная ему информация, поэтому идет на сайт поисковика, набирает ключевую фразу «содержание карликовых пуделей» и попадает на сайт человека А. Тут торжественно наступает полное, как говорится, щазте. Мы спотыкаемся об звонок будильника и, мгновенно проснувшись, падаем в омут самой настоящей реальности. Которая, к сожалению, работает совсем иначе. Проблемы Поисковики нередко срабатывают просто ужасно. Иногда они героически молчат под пытками запросов, даже если вы просите что-то банальное и вполне существующее. Иногда вам выдается список под тысячу сайтов, из которых ни один не содержит нужной информации. Приходится вздыхать, переписывать ключевые слова, копаться в результатах и прочими способами транжирить свое время на незнамо что. Но это только один край проблемы – так сказать, верхушка айсберга. Средний юзер интернета понятия не имеет о том, сколько головной боли приходится перетерпеть вебмастерам, чтобы их сайты могли быть найдены. Если вы читаете эту статью на КС2, то я могу привести простой и яркий пример тому. Видите левую колонку с главным меню и прочими блоками? Физически она находится ниже этого текста. Во имя индексации и релевантности, пришлось передвинуть, понимаете ли. Во имя индексации и релевантности с этим сайтом вообще пришлось сделать очень много глупых и трудоемких вещей. При этом большая часть из них не заметна посетителям. Теперь та же мысль в сжатом вид: поисковые машины диктуют, как и что должно быть на сайте, при этом критерии, которые повышают релевантность, частенько не заметны посетителям. Для кого тогда, спрашивается, поисковики ищут? (Вообще говоря, это довольно глупый вопрос, поскольку ищут они для того, чтобы кто-то смотрел их баннеры, но я, как уже сказано, не полезу в экономику.) Проблемы 2 Пункт первый: русский язык – это вам не английский. В нем много синонимов и нередко встречаются позаимствованные слова. Администрации Яндекса, Рамблера и Апорта это игнорируют и, по-видимому, всерьез считают, что юзеры должны всегда вводить запросы типа «(статья \| ревью \| обзор \| review) игра (sacred \| “князь тьмы”)», когда ищут статью по Sacred’у. Разумеется, подобными ужасами никто и никогда не пользуется. И получают пользователи только огрызки всей доступной информации, содержащие точную фразировку запроса. А вебмастер, чтобы его сайт находился, должен каким-то образом запихнуть на каждую страничку все синонимы всех слов гипотетических запросов, по которым эту страничку могут искать. О как! Делать вебмастеру больше нечего. Пункт второй: ИЦ врет. Для тех кто не знает, ИЦ – это индекс цитируемости, то есть то, сколько ссылок в сети есть на какую-то страничку. Почти все современные поисковики смотрят на этот параметр, но… что оно дает? Если страницу видели десять тысяч человек, десяток из них обязательно оставит где-нибудь ссылки. Это не зависит от содержания. В конце концов, нередко люди линкуют нечто плохое, дабы показать, что оно плохое. А вот на непопулярную страницу ссылаться не будет никто, просто потому что она непопулярна. Статистика. Это во-первых. А ведь нужно учитывать и то, что популярность портит сайты. И что поднимать посещаемость посещаемых сайтов – это немного так нелогично. И что на ag.ru иди exler.ru я и без поисковиков зайду, если надо будет. Пункт третий: одни и те же слова могут обозначать в тексте разные вещи. Поисковые машины для того, чтобы это учесть, уделяют больше внимания заголовкам, ссылкам, title’y и жирному шрифту. Но это далеко не самое лучшее решение. Опять вебмастерам добавляют работы – ключевые слова надо каким-то образом распихивать по «выгодным» местечкам. А сделать это, не уродуя сайта и оставляя в нем некую оригинальность довольно сложно. Особенно если вы используете готовую CMS, которая делает все по-своему. Пункт четвертый: если я пишу обзор The Fall: Last Days of Gaia, то это не значит, что там будет двадцать раз повторено это название и десять – само слово «игра». Это было бы признаком плохого стиля. Но поисковики так не считают, и им повторение ключевой фразы очень даже нравится. Нет, поймите меня правильно: в общем и целом этот фактор определения релевантности логичен, но подходит он не для всех типов веб-страничек. Решения Это было растянутое вступление. А теперь пойдут колонны своевольных мыслей. Основная проблема всех современных поисковиков проста: они применяют чисто машинные методы обработки информации. Слова, логика, индексы соответствия, бла, бла, бла… Такой подход имеет много недостатков, главный из которых заключается в том, что ищет-то все равно человек. Причем ищет он странички, созданные другими людьми. Вывод: чтобы искать по-настоящему эффективно и не ставить при этом на уши вебмастеров и пользователей, машина должна работать по-человечески. Иными словами, она должна пытаться «понять» обрабатываемую информацию. Начнем с простого. Веб-странички бывают разных типов. Архивы статей, новостные ленты и блоги, форумы, сетевые библиотеки – все это служит немного разным целям. Пользователь должен иметь возможность выбирать, какой тип информации он ищет. А машины должны, соответственно, эти типы различать. Не подумайте, что я пишу о чем-то утопическом. Анализ такого рода крайне прост – достаточно посмотреть на размер и расположение кусков «чистого» (без тяжелой разметки) текста на странице. Если бот видит пятьдесят и более килобайт писанины подряд, он может быть уверен, что перед ним книга или нечто на нее похожее. Статья – это что-то от шести до двадцати килобайт. Новость – от пятисот байт. И так далее. Конечно, отличить новость от записи в ЖЖ или форумного сообщения будет потруднее. Даже и не знаю, стоит ли дописывать. Конечно, статьи не совсем похожи, но смысл одинаковый.
Asstet 2004.08.02 14:27:00	Cтоит

Контекст

Сообщение

Gambler
2004.08.02 03:12:00

http://www.ftrain.com/google_takes_all.html

Аргх. Это начинает надоедать.

Для сравнения:

О борьбе с поисковиками

В экономику поисковиков я вдаваться не будут, т.к. с точки зрения экономики кто угодно может делать что угодно, пока он не получит за это по зубам (в финансовом плане, разумеется). В должностную философию - ту, которая объясняет, почему кто-то должен делать что-то – тоже не полезу, ибо мало кто интересуется своими долгами, если может их не платить. Это как бы "техническая" статья, то есть она не о том, что надо, а о том, что можно и как именно можно.

Для начала рассмотрим следующую ситуацию. Человек А создал полезную и информативную страничку или даже целый сайт о содержании карликовых пуделей. Немного позже человек Б купил на радость детям карликового пуделя и теперь хочет узнать, как можно уживаться с этой прожорливой и привередливой тварью. Человек Б не знает, где находится нужная ему информация, поэтому идет на сайт поисковика, набирает ключевую фразу «содержание карликовых пуделей» и попадает на сайт человека А. Тут торжественно наступает полное, как говорится, щазте. Мы спотыкаемся об звонок будильника и, мгновенно проснувшись, падаем в омут самой настоящей реальности. Которая, к сожалению, работает совсем иначе.

Проблемы

Поисковики нередко срабатывают просто ужасно. Иногда они героически молчат под пытками запросов, даже если вы просите что-то банальное и вполне существующее. Иногда вам выдается список под тысячу сайтов, из которых ни один не содержит нужной информации. Приходится вздыхать, переписывать ключевые слова, копаться в результатах и прочими способами транжирить свое время на незнамо что. Но это только один край проблемы – так сказать, верхушка айсберга. Средний юзер интернета понятия не имеет о том, сколько головной боли приходится перетерпеть вебмастерам, чтобы их сайты могли быть найдены. Если вы читаете эту статью на КС2, то я могу привести простой и яркий пример тому. Видите левую колонку с главным меню и прочими блоками? Физически она находится ниже этого текста. Во имя индексации и релевантности, пришлось передвинуть, понимаете ли. Во имя индексации и релевантности с этим сайтом вообще пришлось сделать очень много глупых и трудоемких вещей. При этом большая часть из них не заметна посетителям. Теперь та же мысль в сжатом вид: поисковые машины диктуют, как и что должно быть на сайте, при этом критерии, которые повышают релевантность, частенько не заметны посетителям. Для кого тогда, спрашивается, поисковики ищут? (Вообще говоря, это довольно глупый вопрос, поскольку ищут они для того, чтобы кто-то смотрел их баннеры, но я, как уже сказано, не полезу в экономику.)

Проблемы 2

Пункт первый: русский язык – это вам не английский. В нем много синонимов и нередко встречаются позаимствованные слова. Администрации Яндекса, Рамблера и Апорта это игнорируют и, по-видимому, всерьез считают, что юзеры должны всегда вводить запросы типа «(статья | ревью | обзор | review) игра (sacred | “князь тьмы”)», когда ищут статью по Sacred’у. Разумеется, подобными ужасами никто и никогда не пользуется. И получают пользователи только огрызки всей доступной информации, содержащие точную фразировку запроса. А вебмастер, чтобы его сайт находился, должен каким-то образом запихнуть на каждую страничку все синонимы всех слов гипотетических запросов, по которым эту страничку могут искать. О как! Делать вебмастеру больше нечего.

Пункт второй: ИЦ врет. Для тех кто не знает, ИЦ – это индекс цитируемости, то есть то, сколько ссылок в сети есть на какую-то страничку. Почти все современные поисковики смотрят на этот параметр, но… что оно дает? Если страницу видели десять тысяч человек, десяток из них обязательно оставит где-нибудь ссылки. Это не зависит от содержания. В конце концов, нередко люди линкуют нечто плохое, дабы показать, что оно плохое. А вот на непопулярную страницу ссылаться не будет никто, просто потому что она непопулярна. Статистика. Это во-первых. А ведь нужно учитывать и то, что популярность портит сайты. И что поднимать посещаемость посещаемых сайтов – это немного так нелогично. И что на ag.ru иди exler.ru я и без поисковиков зайду, если надо будет.

Пункт третий: одни и те же слова могут обозначать в тексте разные вещи. Поисковые машины для того, чтобы это учесть, уделяют больше внимания заголовкам, ссылкам, title’y и жирному шрифту. Но это далеко не самое лучшее решение. Опять вебмастерам добавляют работы – ключевые слова надо каким-то образом распихивать по «выгодным» местечкам. А сделать это, не уродуя сайта и оставляя в нем некую оригинальность довольно сложно. Особенно если вы используете готовую CMS, которая делает все по-своему.

Пункт четвертый: если я пишу обзор The Fall: Last Days of Gaia, то это не значит, что там будет двадцать раз повторено это название и десять – само слово «игра». Это было бы признаком плохого стиля. Но поисковики так не считают, и им повторение ключевой фразы очень даже нравится. Нет, поймите меня правильно: в общем и целом этот фактор определения релевантности логичен, но подходит он не для всех типов веб-страничек.

Решения

Это было растянутое вступление. А теперь пойдут колонны своевольных мыслей.

Основная проблема всех современных поисковиков проста: они применяют чисто машинные методы обработки информации. Слова, логика, индексы соответствия, бла, бла, бла… Такой подход имеет много недостатков, главный из которых заключается в том, что ищет-то все равно человек. Причем ищет он странички, созданные другими людьми. Вывод: чтобы искать по-настоящему эффективно и не ставить при этом на уши вебмастеров и пользователей, машина должна работать по-человечески. Иными словами, она должна пытаться «понять» обрабатываемую информацию.

Начнем с простого. Веб-странички бывают разных типов. Архивы статей, новостные ленты и блоги, форумы, сетевые библиотеки – все это служит немного разным целям. Пользователь должен иметь возможность выбирать, какой тип информации он ищет. А машины должны, соответственно, эти типы различать. Не подумайте, что я пишу о чем-то утопическом. Анализ такого рода крайне прост – достаточно посмотреть на размер и расположение кусков «чистого» (без тяжелой разметки) текста на странице. Если бот видит пятьдесят и более килобайт писанины подряд, он может быть уверен, что перед ним книга или нечто на нее похожее. Статья – это что-то от шести до двадцати килобайт. Новость – от пятисот байт. И так далее. Конечно, отличить новость от записи в ЖЖ или форумного сообщения будет потруднее.

Даже и не знаю, стоит ли дописывать. Конечно, статьи не совсем похожи, но смысл одинаковый.

Asstet
2004.08.02 14:27:00

Cтоит

Вход

Еще одна статья, которая опередила мою по аналогичной теме