Приложение A. Приложение "Text REtrieval Conference"

Приложение A. Приложение "Text REtrieval Conference"
Пред.	Часть III. Документальные системы	След.

Приложение A. Приложение "Text REtrieval Conference"

Содержание

A.1.

A.1.

Анна Столярова, ЭФ МГУ, 2005

Конференция проводится с 1992 года

Организаторы: National Institute of Standards and Technology (NIST) и Defense Advanced Research Project Agency (DARPA)

Способствовать развитию исследований в области текстового поиска

Создать пространство для общения между исследователями, представителями бизнеса и властями

Способствовать использованию результатов исследований в коммерческих целях

Улучшить методологии оценки систем текстового поиска

Создать коллекции данных, которые могут быть использованы для оценки качества различных поисковых систем

Тестирование систем (в рамках одной секции) на одинаковых коллекциях данных

Использование единой методологии оценки

Организация форума, на котором возможно обсуждение результатов и обмен идеями

Организация конференции

В рамках TREC выделяется несколько секций

Каждая секция связана с одной из проблем текстового поиска

Создание специализированных коллекций способствует развитию исследований в конкретной области

При проведении широкомасштабных экспериментов становится более понятна суть проблемы

Секции TREC 2005

Enterprise track. Поиск информации в рамках отдельной организации

HARD track (High Accuracy Retrieval from Documents). Использование дополнительной информации о пользователе, осуществляющем поиск; использование контекста

Questions Answering track. Поиск ответа на конкретный вопрос, а не документов, относящихся к запрашиваемой теме

Robust Retrieval Track. Акцент на эффективность поиска по отдельной теме, а не средней эффективности

SPAM track. Тестирование подходов к фильтрованию входящей корреспонденции

Terabyte Track. Сравнение эффективности поисковых систем при использовании очень больших объемов данных

Genomics track. Изучение систем поиска, применяемых в определенной области

Типы заданий

Ad hoc search. Поиск по запросу. Оценка релевантности найденных документов.

Known-item search. Поиск одного из документов в коллекции. Не оценивает поиск релевантных документов.

Answer extraction. Поиск ответа на вопрос. Оценка правильности найденного ответа.

Годовой цикл TREC

Создание коллекций данных

Оценка качества поиска

Точность (precision): кол-во найденных релевантных документов / общее кол-во найденных документов

Полнота (recall): кол-во найденных релевантных документов / общее кол-во релевантных документов

Полнота при точности = 0.5

Ранг первого релевантного документа

Проблемы при оценивании

Релевантность не обязательно означает полезность информации для пользователя

Документы характеризуются разной степенью релевантности

Значимость может со временем изменяться для одного и того же пользователя

В реальности решение о релевантности не может быть полным

Ranked Retrieval Chart

Recall-Precision Chart

Роль TREC в улучшении систем поиска

За время существования TREC показатели качества поиска систем участников улучшились в среднем в три раза

Конференции и форумы по проблемам текстового поиска

CLEF (Cross-Language Evaluation Forum) – европейский форум по многоязычному поиску

NTCIR - семинар по многоязычному поиску, в основном для японского/китайского и английского языков;

SUMMAC (TIPSTER Text Summarization Evaluation Conference) - конференция по оценке качества автоматического аннотирования (1998);

MUC (Message Understanding Conference) – серия конференций, направленных в основном на определение в текстах объектов, соответствующих заданным шаблонам (персоналии, организации и т.п.);

TDT (Topic Detection and Tracking) - проект по обнаружению новых тем в потоке новостей и отслеживанию их развития во времени, особое внимание уделяется системам обрабатывающим речь

DUC (Document Understanding Conference) – конференция по вопросам автоматического аннотирования;

РОМИП / RIRES (Российский семинар по оценке методов информационного поиска / Russian Information Retrieval Evaluation Seminar) – проведение независимой оценки методов информационного поиска, ориентированных на работу с русскоязычной информацией

Источники информации

Материалы сайта http://trec.nist.gov/

«Инициативный проект РОМИП», доклады конференции Диалог 2003, http://romip.narod.ru

«Evaluation in Information Retrieval», Edie Rasmussen, http://www.music-ir.org/evaluation/wp2/wp2_rasmussen.pdf

Пред.	Уровень выше	След.
Глава 21. Система электронная библиотека Greenstone	Начало \| ToC	Глава 22. Контрольные вопросы