Как вырезать сегмент X из слов вокруг отдельного слова - из текстовых корпусов

r text-analysis

49 просмотра

1 ответ

Я анализирую речи, которые я загрузил в R. Мой информационный кадр включает в себя строку к каждой речи с метаданными и весь текст речи.

НО - я хочу не только анализировать речь в целом, но и найти способ анализировать куски текстов вокруг конкретного слова. Например - 50 слов до и после ссылки на «КРАСНЫЙ» ... Есть ли в любом случае создать новый фрейм данных - что каждая строка будет сегментированным текстом, и мне удастся также сохранить метаданные (это не та же самая таблица, поскольку есть больше ссылок на «красный», чем речи - так что в одной речи может быть 4 сегмента вокруг «красный», а некоторые вообще не будут иметь никакого упоминания.

Спасибо!

Автор: mormit Источник Размещён: 08.11.2019 10:59

Ответы (1)


0 плюса

quantedaПакет реализует функцию ключевое слово-в-контексте , что делает именно это. Если датафрейм, содержащий ваши выступления df, и столбец с текстом texts, это должно работать:

library(quanteda)
kw <- kwic(df$texts, "red", 50)

Третий аргумент указывает размер контекстного окна. kwтеперь представляет собой фрейм данных со столбцами для целевого слова и его предшествующего и последующего контекстов.

Автор: pnulty Размещён: 20.08.2016 06:41
Вопросы из категории :
32x32