2025-02-21T08:33:37-05:00 DEBUG: VuFindSearch\Backend\Solr\Connector: Query fl=%2A&wt=json&json.nl=arrarr&q=id%3A%22irk-123456789-27078%22&qt=morelikethis&rows=5
2025-02-21T08:33:37-05:00 DEBUG: VuFindSearch\Backend\Solr\Connector: => GET http://localhost:8983/solr/biblio/select?fl=%2A&wt=json&json.nl=arrarr&q=id%3A%22irk-123456789-27078%22&qt=morelikethis&rows=5
2025-02-21T08:33:37-05:00 DEBUG: VuFindSearch\Backend\Solr\Connector: <= 200 OK
2025-02-21T08:33:37-05:00 DEBUG: Deserialized SOLR response

Матричные критерии качества выявления подобных документов в информационных потоках

Новостные потоки информации, публикуемой на веб-сайтах сети Интернет, включают сообщения, важнейшие и интереснейшие из которых многократно дублируются (в виде перепечаток или содержательных пересказов). Системы автоматического контент-мониторинга, сетевые информационно-поисковые системы содержат от...

Full description

Saved in:
Bibliographic Details
Main Authors: Ландэ, Д.В., Дармохвал, А.Т., Жигало, В.В.
Format: Article
Language:Russian
Published: Інститут проблем моделювання в енергетиці ім. Г.Є. Пухова НАН України 2009
Series:Збірник наукових праць Інституту проблем моделювання в енергетиці ім.Г.Є.Пухова НАН України
Online Access:http://dspace.nbuv.gov.ua/handle/123456789/27078
Tags: Add Tag
No Tags, Be the first to tag this record!
Description
Summary:Новостные потоки информации, публикуемой на веб-сайтах сети Интернет, включают сообщения, важнейшие и интереснейшие из которых многократно дублируются (в виде перепечаток или содержательных пересказов). Системы автоматического контент-мониторинга, сетевые информационно-поисковые системы содержат отдельные компоненты, предназначенные для определения содержательного дублирования. При этом проблема качества выявления подобных документов при использовании различных критериев является открытой научно-практической проблемой. В данной статье описываются критерии качества выявления подобных документов, основанные на анализе таких свойств так называемой матрицы подобия, как симметричность и транзитивность. Ранее близкие по смыслу критерии рассматривались авторами в работе [1], в настоящей статье представлены более точные и универсальные аналитические выражения для расчета этих критериев, а также приведены результаты экспериментов на многоязычных текстовых корпусах, формируемых с помощью системы контент-мониторинга InfoStream.