Вопрос:

Как использовать кластеризацию с ограниченным K-средним, если у меня есть только сходство между кластеризуемыми переменными, а не данные для переменных?

algorithm cluster-analysis spreadsheet similarity

7 просмотра

1 ответ

967 Репутация автора

У меня есть электронная таблица данных, в которой первые 12 строк в крайнем левом столбце имеют 12 имен в алфавитном порядке (по убыванию), а первые 12 столбцов в верхнем ряду имеют одинаковые имена в алфавитном порядке (слева направо). Эти имена представляют собой имена людей, которые оценили что-то, и значения в ячейках этой электронной таблицы представляют собой коэффициент сходства Тау Кендалла между именами в крайнем левом столбце и в верхней строке рядом с ячейкой. Как я могу использовать кластеризацию с ограниченным K-средним, чтобы найти сходство между этими именами?

Образ: введите описание изображения здесь

Автор: Jodast Источник Размещён: 11.08.2019 01:29

Ответы (1)


0 плюса

61483 Репутация автора

Кластеризация K-mrans не работает на матрицах подобия.

Ему нужны евклидовы данные векторного пространства, чтобы вычислить средние значения (отсюда и название). Он не может максимизировать сходства, но минимизирует сумму квадратов разностей координат .

Кроме того, ваш вопрос не по теме, так как это не вопросы программирования, а вы хотите использовать только существующую программу.

Поскольку ваши данные настолько малы, что помещаются на одном экране, я предлагаю вам просто проверить все возможные решения методом грубой силы. Затем добавьте ограничения (пропустите кандидатов, которые не соответствуют вашим требованиям к размеру). Даже без ограничений, если вам нужно 4 кластера, у вас гораздо меньше 4 ^ 11 возможностей, то есть 4 миллиона минус множество избыточных перестановок минус все те, где кластеры слишком малы или слишком велики.

Автор: Anony-Mousse Размещён: 11.08.2019 06:55
Вопросы из категории :
32x32