Как распечатать десятку тем с помощью Gensim?

python lda gensim topic-modeling

323 просмотра

2 ответа

1 Репутация автора

В официальном объяснении нет естественного порядка между темами в LDA.

Что касается метода show_topics (), то, если он вернул num_topics <= self.num_topics, подмножество всех тем, следовательно, является произвольным и может меняться между двумя запусками обучения LDA.

Но я склонен находить десятку самых частых тем корпуса. Есть ли другие способы добиться этого?

Большое спасибо.

Автор: Xinyi Zhang Источник Размещён: 18.07.2016 04:53

Ответы (2)


0 плюса

139 Репутация автора

Как говорится в документации, в LDA нет естественного упорядочения тем. Если у вас есть собственный критерий для выбора тем, например частота появления, вы всегда можете получить весь список тем из вашей модели и отсортировать их самостоятельно.

Однако даже понятие «десятка наиболее часто встречающихся тем» неоднозначно, и можно разумно придумать несколько разных определений частоты. Вы имеете в виду тему, которой было присвоено наибольшее количество токенов слов? Вы имеете в виду тему с самыми высокими средними пропорциями среди всех документов? Эта двусмысленность является причиной gensimотсутствия встроенного способа сортировки тем.

Автор: Ben Bray Размещён: 19.07.2016 10:47

0 плюса

1 Репутация автора

В документации Gensim LDA используется следующий метод:

top_topics (корпус = нет, тексты = нет, словарь = нет, window_size = нет, согласованность = 'u_mass', topn = 20, процессы = -1)

Это может быть полезно.

Автор: royn Размещён: 23.07.2018 11:23
Вопросы из категории :
32x32