Doomed to Wordpress

Serious Reflections During the Life of Jeremy Fisher

   

Subscribe
Subscribe to a syndicated feed of my weblog, brought to you by the wonders of RSS.

Flavours
There's more than one way to view this weblog; try these flavours on for size.

  • index
  • circa 1993
  • RSS
  • Links
    These are a few links to my other sites.

  • Ставропигиальныя Пластинки
  • Анкылым
  • Русское Шрифтовое Зало
  • Gopher (Proxied)
  • More about Gopher
  •        

    2020/08/20 alive

    Недостаток существующих систем веб-поиска — они ориентированы на сайты или страницы, а не документы. Цель современной поисковой системы как будто бы отразить современное состояние веба, хотя понятно, что это состояние является случайным. Сайты и страницы возникают и исчезают, зачастую по самым случайным причинам: нету денег на хостинг, сайт пропал, через несколько дней — исчез из поисковой выдачи, хотя бы там и была уникальная информация. Какие-то авторы сайтов умирают или по каким-то причинам меняют свои занятия; если сайт находится на платном хостинге, вскоре он бесследно исчезнет. Одни сайты копируют информацию с других сайтов, всё дублируется сотни раз, одни и те же тексты и новости, но с точки зрения поисковиков всё это — разный контент! Который отображается отдельными пунктами в поисковой выдаче, хотя ни для кого не нужны одновременно все эти дублирующиеся тексты — а поисковик не в состоянии определить, какой из них является исходным или лучшим.

    В моей поисковой системе будут индексироваться не страницы, а документы. И в метаданных документа будет поле alive. Успешно проиндексированный документ помечается как alive. При повторных индексациях, если документ исчез, флаг alive снимается, но контент у меня локально сохранён и доступен теперь непосредственно с серверов поисковой системы. Документы не должны исчезать бесследно.

    В общем-то, нечно подобное и даже более универсальное (с разными версиями страницы, доступными одновременно) предлагает archive.org, но его интерфейс всё же на заточен под поиск.

    permanent link