Как решать такого рода задачки? База данных информационной системы хранит 100 000 документов. В ответ на свой запрос пользователь получил список из 100 документов, из которых 50 оказались релевантными запросу. Оцените релевантность системы при условии, что в её базе данных содержится 500 документов, релевантных данному запросу.
Чтобы оценить релевантность системы, можно использовать понятие Precision (точность) и Recall (полнота).
Precision (точность) - это доля документов, которые система верно определила как релевантные, относительно всех документов, которые она определила как релевантные. Recall (полнота) - это доля документов, которые система верно определила как релевантные, относительно всех реально релевантных документов в базе данных.
Precision = (количество релевантных документов из ответа пользователя) / (общее количество документов из ответа пользователя) Recall = (количество релевантных документов из ответа пользователя) / (общее количество реально релевантных документов в базе данных)
Исходя из данных задачи: Precision = 50 / 100 = 0.5 Recall = 50 / 500 = 0.1
Таким образом, точность системы составляет 50%, а полнота 10%. Это означает, что система довольно точно определяет релевантные документы, однако пропускает большое количество документов, которые могли бы быть релевантными.
Чтобы оценить релевантность системы, можно использовать понятие Precision (точность) и Recall (полнота).
Precision (точность) - это доля документов, которые система верно определила как релевантные, относительно всех документов, которые она определила как релевантные.
Recall (полнота) - это доля документов, которые система верно определила как релевантные, относительно всех реально релевантных документов в базе данных.
Precision = (количество релевантных документов из ответа пользователя) / (общее количество документов из ответа пользователя)
Recall = (количество релевантных документов из ответа пользователя) / (общее количество реально релевантных документов в базе данных)
Исходя из данных задачи:
Precision = 50 / 100 = 0.5
Recall = 50 / 500 = 0.1
Таким образом, точность системы составляет 50%, а полнота 10%. Это означает, что система довольно точно определяет релевантные документы, однако пропускает большое количество документов, которые могли бы быть релевантными.