Как решать такого рода задачки База данных информационной системы хранит 100 000 документов. В ответ на свой запрос пользователь получил список из 100 документов, из которых 50 оказались релевантными запросу. Оцените релевантность системы при условии, что в её базе данных содержится 500 документов, релевантных данному запросу.
Чтобы оценить релевантность системы, можно использовать понятие Precision (точность) и Recall (полнота).
Precision (точность) - это доля документов, которые система верно определила как релевантные, относительно всех документов, которые она определила как релевантные Recall (полнота) - это доля документов, которые система верно определила как релевантные, относительно всех реально релевантных документов в базе данных.
Precision = (количество релевантных документов из ответа пользователя) / (общее количество документов из ответа пользователя Recall = (количество релевантных документов из ответа пользователя) / (общее количество реально релевантных документов в базе данных)
Исходя из данных задачи Precision = 50 / 100 = 0. Recall = 50 / 500 = 0.1
Таким образом, точность системы составляет 50%, а полнота 10%. Это означает, что система довольно точно определяет релевантные документы, однако пропускает большое количество документов, которые могли бы быть релевантными.
Чтобы оценить релевантность системы, можно использовать понятие Precision (точность) и Recall (полнота).
Precision (точность) - это доля документов, которые система верно определила как релевантные, относительно всех документов, которые она определила как релевантные
Recall (полнота) - это доля документов, которые система верно определила как релевантные, относительно всех реально релевантных документов в базе данных.
Precision = (количество релевантных документов из ответа пользователя) / (общее количество документов из ответа пользователя
Recall = (количество релевантных документов из ответа пользователя) / (общее количество реально релевантных документов в базе данных)
Исходя из данных задачи
Precision = 50 / 100 = 0.
Recall = 50 / 500 = 0.1
Таким образом, точность системы составляет 50%, а полнота 10%. Это означает, что система довольно точно определяет релевантные документы, однако пропускает большое количество документов, которые могли бы быть релевантными.