Какой метод кластеризации текстов лучше использовать при большом количестве тематик? Интересны алгоритмы которые могут показать вероятностную оценку принадлежности к нескольким кластерам
"Label": "Science & Mathematics",
"Probability": 0.148,
"Label": "Astronomy & Space",
"Probability": 0.713
Есть у кого нибудь подобный опыт ?

21 Авг 2019 в 06:08
150 +1
0
Ответы
1

При большом количестве тематик лучше использовать вероятностные методы, такие как вероятностное латентное размещение дирихле (LDA), вероятностное моделирование тематик (PTM) или вероятностное латентное размещение распределения (PLDA).

Эти методы позволяют оценить вероятность принадлежности текста к нескольким кластерам или тематикам. Например, после обучения модели LDA вы можете получить вероятности принадлежности текста к каждой из тем, что поможет вам определить смешанные темы в тексте.

Если у вас есть опыт работы с подобными методами, будет полезно рассмотреть использование вероятностных моделей для кластеризации текстов с большим количеством тематик.

20 Апр в 13:23
Не можешь разобраться в этой теме?
Обратись за помощью к экспертам
Название заказа не должно быть пустым
Введите email
Бесплатные доработки
Гарантированные бесплатные доработки
Быстрое выполнение
Быстрое выполнение от 2 часов
Проверка работы
Проверка работы на плагиат
Интересные статьи из справочника
Поможем написать учебную работу
Название заказа не должно быть пустым
Введите email
Доверьте свою работу экспертам
Разместите заказ
Наша система отправит ваш заказ на оценку 92 493 авторам
Первые отклики появятся уже в течение 10 минут
Прямой эфир