Заметки на полях поисковой оптимизации, создания сайтов и в целом интернет-отрасли как в мире, так и в славном городе Пенза.

Записи все (RSS) Комментарии к посту (RSS)

Коллаборативная фильтрация как ядро современных интерактивных веб-систем 25 Дек

Эту статью отправил в Тамбов на 4-ю Международную заочную научно-практическую конференцию, проводившуюся 30-31 октября 2007 г. Первая проба пера, так сказать. Планировалось, что к моменту опубликования, все описанные функции станут доступны, но пока не все задуманное реализовалось. Можно считать, что это примерный to-do лист на ближайшее будущее. Собственно сама статья.

Взрывообразный рост количества информации в современном интернете подталкивает к появлению новых средств управления представлением информации, ее поиску и систематизации. Применение классических средств поиска и взаимодействия с информацией уже не удовлетворяет растущих требований ее пользователей как по удобству, так и по достоверности. В большей степени это касается коммерческой информации и информации о потребительских предпочтениях, где наблюдается так называемый «ухудшающийся отбор».

В начальном этапе своего развития интернет-сайты представляли собой в основном односторонний способ коммуникации с посетителями. Обратная связь в виде электронной почты, гостевых книг или форумов была достаточна для того уровня развития интернета. Современные веб-сайты представляют собой сложные программные средства с большим функционалом и огромным объемом информации, которую необходимо наиболее доступно представить пользователю. Веб-страницы стали более близки к интерфейсам прикладных программ, нежели документам, что потребовало изменений в структуре. Неотъемлемой частью любой крупной веб-системы стала сильно выраженная потребность в обратной связи от пользователей.

Для решения проблемы информационного вала обычно используется метод фильтрации контента на основе анализа его содержимого. Но метод имеет недостатки:

  • объекты должны быть в форме доступной для машинной обработки.
  • технологии по фильтрованию контента не имеют встроенного метода для генерации случайно сделанных обнаружений.

Для решения подобных задач появились новые методы структуризации и отфильтровывания данных, рассматриваемые в данном исследовании. В целях изучения практического применения методик построения веб-сайтов был создан проект Пенза2.ру, представляющий собой информационную систему для поиска предприятий и организаций города, организованную по принципу коллаборативной фильтрации.

Коллаборативная фильтрация (совместная фильтрация) — метод, дающий автоматическую фильтрацию данных относительно запросов пользователя по собранной информации о предпочтениях множества пользователей (сотрудничающих между собой) относительно этих данных.

Основными элементами веб-приложений второго поколения применяемых на практике и используемых в проекте Пенза2.ру являются следующие: фолксономия, система рейтингов и оценок, рекомендации, возможность легкого экспорта информации, использование технологии AJAX.

Традиционно при создании веб-сайтов примялся таксономический подход к категоризации информации. Он представляет собой иерархическую структуру категорий, количество которых ограничено. Каждый объект может принадлежать одной или нескольким категориям. Фолксономия является противоположностью таксономии. В проекте Пенза2.ру для категоризации предприятий используется расширяемый пользователями набор ключевых слов и словосочетаний (тегов), характеризующий какой-то определенный вид деятельности. Фолксономический подход обеспечивает большую гибкость, благодаря широкому набору тегов. Структурно теги группируются в отдельном блоке – «облаке тегов», – где величина шрифта тега зависит от количества предприятий, помеченных этим тегом. В процессе исследований на сайте Пенза2.ру выяснилось, что особую эффективность теги приобретают в сочетании с традиционным поиском по ключевым словам. Вместе со списком предприятий, информация которых содержит вхождение заданных ключевых слов, выводится «облако тегов», сформированное из тегов найденных предприятий. Тем самым пользователь может очень легко определить релевантен ли результат поиска и уточнить запрос одним-двумя кликами, тем самым сильно сокращается время поиска необходимой информации.

В целях упрощения навигации по множеству тегов была разработана технология предикативного выбора тегов. Технология функционирует подобно поиску предприятий, только объектом поиска выступают теги. Это позволяет сразу уточнить запрос и получить наиболее релевантные данные.

Коллаборативная фильтрация использует схожесть мнений различных пользователей для выдачи рекомендаций относительно объектов. Оно основывается на том факте, что людские предпочтения не распределяются случайным образом: в мнениях группы людей прослеживаются общие тенденции. Значительным преимуществом совместной фильтрации является то, что вместо того, чтобы опрашивать нескольких друзей о нескольких объектах, система коллаборативной фильтрации может учитывать мнения тысяч людей в отношении тысячи объектов, производя всё автоматически и анонимно.

Базовой частью системы Пенза2.ру является система дифференцированных рейтингов и оценок. Каждый пользователь может выставить свою оценку любому предприятию, находящемуся в базе данных, посредством выставления оценки по пятибалльной шкале для каждого вида деятельности организации. Это позволяет формировать независимые рейтинги по конкретному виду продукции или услуге. Общий рейтинг организации, по которому определяется позиция в результатах выдачи, определяется на основании стандартных формул вычисления статистических корреляций.

Кроме того предусмотрено два дополнительных способа взаимодействия с пользователями – комментарии и рекомендации. Комментарии не имеют весового коэффициента, а служат для неавтоматизированного учета мнений об организации. Рекомендации – механизм учета положительных отзывов об объекте, формализованный в форме комментария, но имеющий большой вес в общем рейтинге объекта.

В ходе наблюдений было установлено, что система рекомендаций на основе коллаборативной фильтрации становится всё более «компетентной» по мере роста пользователей сервиса. По мере того, как растёт число пользовательских оценок, используемых для выработки прогноза, отклонение ошибки значительно снижается.
Отличительной чертой веб-приложений второго поколения являются широкие возможности экспорта и синдикации информации из информационной системы. Синдикация позволяет объединить множество разнородных ресурсов посредством универсальных и независимых механизмов. Универсальность обеспечивается использованием стандартизированных средств обмена информацией – протоколами RSS, XML и JavaScript. В процессе работы над системой Пенза2.ру была выявлена потребность в следующих каналах экспорта информации через RSS: новые организации, новые организации, помеченные определенным тегом, комментарии и рекомендации к конкретному объекту. Также были внедрены два нестандартных способа экспорта – графический виджет с текущим рейтингом организации и javascript-виджет для экспорта комментариев и создания страницы отзывов на сайте организации. Такие механизмы позволяют использовать осуществлять фильтрацию даже тем посетителям, которые не переходят на сайт Пенза2.ру.

В целом по результатам исследований можно сказать, что рекомендательные системы на основе коллаборативной фильтрации — удобная альтернатива классическим поисковым алгоритмам, так как использовать факторы, которые невозможно получить из технического анализа информации. Внедрение подобных механизмов на сайте Пенза2.ру ускорило процесс поиска нужной информации, увеличило ее полноту и достоверность.

2 комментария на «Коллаборативная фильтрация как ядро современных интерактивных веб-систем» Комментарии к посту (RSS)

база предприятий

Так это только для поиска на сайте, а как быть с вебом?

ОльгА

Прочитала статью с большим интересом — вдруг что-то новое узнаю? Так вот ответственно заявляю, что тут в принципе описана правильная логика развития понятия «эффективный сайт».

Однако я бы исключила все абсолютные категории — например, «Применение классических средств поиска и взаимодействия с информацией уже не удовлетворяет растущих требований ее пользователей как по удобству, так и по достоверности». Это враки тех «специалистов», которые вынуждены бороться с другими такими «специалистами» и у них иссякли идеи по развитию бизнеса.

А ведь даже ежику понятно, что вместо гонок за более сложными (читай дорогими) технологиями, есть простое решение — формирование свой рыночной ниши и лояльной аудитории к бренду, продукту, конкретным точкам сбыта, конкретным «продавцам» и т.д. Другими словами — вместо того, чтобы воевать с конкурентами иногда нужно думать о том как уйти от конкуренции.

Задумайтесь о том, что могут дать компании позиционирование на своем рынке, где нет конкуренции, а покупатели хотят заполучить ваши продукты и услуги? А если это происходит в условиях финансового кризиса?

При наличии органичной бизнес-модели современные интернет-решения могут помочь реализовывать описанные выше идеи — это реально интересный (уникальный!) таргетированный и, в идеале, персонофицированный контент, а также механизмы по удержанию и развитию аудитории.

Оставить комментарий