• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

删除重复的 pandas df

用户头像
it1352
帮助1

问题说明

尝试使用 DataFrame.drop_duplicates 参数但没有成功,因为重复项没有被删除.

Trying use the DataFrame.drop_duplicates parameters but without luck as the duplicates are not being removed.

希望根据inc_id"列删除.如果在该列中找到重复项,则应仅保留最后一行.

Looking to remove based on column "inc_id". If find duplicates in that column should keep only the last row.

我的 df 是:

    inc_id  inc_cr_date
0   1049670 121
1   1049670 55
2   1049667 121
3   1049640 89
4   1049666 12
5   1049666 25

输出应该是:

    inc_id  inc_cr_date
0   1049670 55
1   1049667 121
2   1049640 89
3   1049666 25

代码是:

df = df.drop_duplicates(subset='inc_id', keep="last")

知道我在这里遗漏了什么吗?谢谢.

Any idea what am I missing here? Thanks.

正确答案

#1

我认为您只是在寻找 删除原始索引:

I think you are just looking to drop the original index:

In [11]: df.drop_duplicates(subset='inc_id', keep="last").reset_index(drop=True)
Out[11]:
    inc_id  inc_cr_date
0  1049670           55
1  1049667          121
2  1049640           89
3  1049666           25

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /reply/detail/tanheceeek
系列文章
更多 icon
同类精品
更多 icon
继续加载