删除重复的 pandas df

Question

问题说明

尝试使用 DataFrame.drop_duplicates 参数但没有成功，因为重复项没有被删除.

Trying use the DataFrame.drop_duplicates parameters but without luck as the duplicates are not being removed.

希望根据inc_id"列删除.如果在该列中找到重复项，则应仅保留最后一行.

Looking to remove based on column "inc_id". If find duplicates in that column should keep only the last row.

我的 df 是:

    inc_id  inc_cr_date
0   1049670 121
1   1049670 55
2   1049667 121
3   1049640 89
4   1049666 12
5   1049666 25

输出应该是:

    inc_id  inc_cr_date
0   1049670 55
1   1049667 121
2   1049640 89
3   1049666 25

代码是:

df = df.drop_duplicates(subset='inc_id', keep="last")

知道我在这里遗漏了什么吗?谢谢.

Any idea what am I missing here? Thanks.

Answer 1

正确答案

#1

我认为您只是在寻找删除原始索引:

I think you are just looking to drop the original index:

In [11]: df.drop_duplicates(subset='inc_id', keep="last").reset_index(drop=True)
Out[11]:
    inc_id  inc_cr_date
0  1049670           55
1  1049667          121
2  1049640           89
3  1049666           25

这篇好文章是转载于：学新通技术网

删除重复的 pandas df

问题说明

正确答案

保持在后台运行的 iPhone 应用程序完全可操作

iPhone，一张图像叠加到另一张图像上以创建要保存的新图像?(水印)

YouTube API 不能在 iOS (iPhone/iPad) 工作，但在桌面浏览器工作正常?

扫描 NFC 标签时是否可以启动应用程序?

使用 iPhone 进行移动设备管理

在android同时打开手电筒和前置摄像头

检查邮件是否发送成功

Android App 和三星 Galaxy S4 不兼容

复制文件夹/文件而不修改属性?

为什么字符'^'被Python Popen忽略 - 在Popen Windows转义'^'字符?