Эффективность метода |
Igor S. Nekrestyanov
Проверка эффективности методаДля практической проверки эффективности описываемого метода мы провели ряд экспериментов, используя большой стандартный набор данных в качестве экспериментальной базы. В качестве основной экспериментальной базы мы воспользовались подмножество документов из коллекции Los-Angeles Times, входящей в стандартный набор данных TREC (см. раздел 1.5.1.). Коллекции TREC не разбиты явным образом на тематические группы, но для каждого документа из коллекции Los-Angeles Times экспертами указана одна или несколько тем, к которым этот документ относится. Среди всех встречающихся тем мы отобрали те, к которым относится не менее чем 200 документов. Таким образом, мы получили 104 тематические группы. Более подробная характеристика используемого набора тестовых данных представлена в таблице 5.1. Отметим, что один и тот же документ может входить сразу в несколько групп согласно экспертным оценкам (рис. 5.1). Тем самым, многие из получившихся групп имеют большой процент общих документов, что проиллюстрировано на рисунке 5.2. В частности, для 15 тематик (из 104) существуют ``поглощающие'' тематики, которые содержат более 70% входящих в рассматриваемую тематику документов. Максимальный процент поглощения достигает 99%, например, для тематики, посвященной военным действиям в Ираке, и тематики, посвященной военным действиям во всем мире. В качестве группы задающих тематику документов, мы использовали 50 случайным образом выбранных документов из соответствующего тематического набора. Объединенное множество документов, использовавшихся для задания тематик, послужило основой для задания функция семантической близости термов (как это описано в разделе 5.1.3.). Отметим, что в наших экспериментах для описания каждой тематики использовалось в среднем5.112% относящихся к ней документов из используемой экспериментальной базы, в отличие, например, от экспериментов описанных в работе [32], где для описания тематик использовалось более 50% доступных документов.
|
Эффективность метода КонСи |