Удаление дубликатов в Пандах, исключая один столбец

python pandas

6684 просмотра

1 ответ

416 Репутация автора

Это кажется простым, но я не могу найти какую-либо информацию об этом в Интернете

У меня есть датафрейм, как показано ниже

City    State Zip           Date        Description       
Earlham IA    50072-1036    2014-10-10  Postmarket Assurance: Devices
Earlham IA    50072-1036    2014-10-10  Compliance: Devices
Madrid  IA    50156-1748    2014-09-10  Drug Quality Assurance

Как я могу устранить дубликаты, которые соответствуют 4 из 5 столбцов? Столбец не соответствует существованию Description.

Результат будет

City    State Zip           Date        Description       
Earlham IA    50072-1036    2014-10-10  Postmarket Assurance: Devices
Madrid  IA    50156-1748    2014-09-10  Drug Quality Assurance

В Интернете я обнаружил, что drop_dupilcatesэтот subsetпараметр может работать, но я не уверен, как применить его к нескольким столбцам.

Автор: Jstuff Источник Размещён: 18.07.2016 08:25

Ответы (1)


26 плюса

42530 Репутация автора

Решение

Вы на самом деле нашли решение. Для нескольких столбцов подмножество будет списком.

df.drop_duplicates(subset=['City', 'State', 'Zip', 'Date']) 

Или просто указав столбец, который нужно игнорировать:

df.drop_duplicates(subset=df.columns.difference(['Description']))
Автор: ayhan Размещён: 18.07.2016 08:29
Вопросы из категории :
32x32