ubnt解决方案
查看: 5553|回复: 25

请教各位一个关于多字典去重复的问题

[复制链接]

460

回帖

1万

积分

327 小时

在线时间

上校

注册时间
2009-10-11
金币
18187 个
威望
1 个
荣誉
0 个
累计签到:92 天
连续签到:0 天
[LV.100]试剑无线
发表于 2015-1-25 23:30 |显示全部楼层
大家手上肯定都有不少的字典,各字典内重复的记录也不少
不不知道大家都是怎样将不同字典中重复记录删除的,

我先说说我用的办法,我是使用最笨的办法------
先将字典导入到数据库中,然后用SQL语句去与现存的记录比较与去重复,最后再导出TXT

但是这样的问题是----当数据量偏大的时候(超过1亿条)的确很慢
要是导入与处理超过1亿条记录乃至几亿条记录,所花的时间就太久了,即使是用服务器,处理起来也需要很长的时间。

故此请教各位老师,有没有啥比较快的办法或软件。
学生拜谢!

签到签到

3218

回帖

7万

积分

2563 小时

在线时间

中将

注册时间
2012-6-7
金币
73222 个
威望
2 个
荣誉
0 个
累计签到:334 天
连续签到:1 天
[LV.365]无线熟人
发表于 2015-1-25 23:37 |显示全部楼层
本帖最后由 mmfdr 于 2015-1-25 23:50 编辑


我用这个软件4G内存只能去重复460M左右,速度一两个小时,不知道你能不能用上,

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

x
闲着没事只跑小字典
回复

使用道具 举报

3218

回帖

7万

积分

2563 小时

在线时间

中将

注册时间
2012-6-7
金币
73222 个
威望
2 个
荣誉
0 个
累计签到:334 天
连续签到:1 天
[LV.365]无线熟人
发表于 2015-1-25 23:39 |显示全部楼层
还有个TXT合并软件
回复

使用道具 举报

460

回帖

1万

积分

327 小时

在线时间

上校

注册时间
2009-10-11
金币
18187 个
威望
1 个
荣誉
0 个
累计签到:92 天
连续签到:0 天
[LV.100]试剑无线
发表于 2015-1-25 23:50 |显示全部楼层
mmfdr 发表于 2015-1-25 23:37
我用这个软件4G内存只能去重复460M左右,速度一两个小时,不知道你能不能用上,

感谢老师,我先试试看能不能达到我的目的
签到签到
回复

使用道具 举报

3218

回帖

7万

积分

2563 小时

在线时间

中将

注册时间
2012-6-7
金币
73222 个
威望
2 个
荣誉
0 个
累计签到:334 天
连续签到:1 天
[LV.365]无线熟人
发表于 2015-1-25 23:53 |显示全部楼层
joneni 发表于 2015-1-25 23:50
感谢老师,我先试试看能不能达到我的目的

老师不敢当都是朋友

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

x
闲着没事只跑小字典
回复

使用道具 举报

3218

回帖

7万

积分

2563 小时

在线时间

中将

注册时间
2012-6-7
金币
73222 个
威望
2 个
荣誉
0 个
累计签到:334 天
连续签到:1 天
[LV.365]无线熟人
发表于 2015-1-26 00:00 |显示全部楼层

不用下边的A和B,那样会把两个文件相同行都去掉

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

x
闲着没事只跑小字典
回复

使用道具 举报

460

回帖

1万

积分

327 小时

在线时间

上校

注册时间
2009-10-11
金币
18187 个
威望
1 个
荣誉
0 个
累计签到:92 天
连续签到:0 天
[LV.100]试剑无线
发表于 2015-1-26 00:03 |显示全部楼层
正在拿完美字典与几个弱密字典做试验,看能不能顺利完成
这个软件不吃CPU,吃内存
签到签到
回复

使用道具 举报

3218

回帖

7万

积分

2563 小时

在线时间

中将

注册时间
2012-6-7
金币
73222 个
威望
2 个
荣誉
0 个
累计签到:334 天
连续签到:1 天
[LV.365]无线熟人
发表于 2015-1-26 00:07 |显示全部楼层
是的吃内存,8G内存我估计能合并1个多G的字典
闲着没事只跑小字典
回复

使用道具 举报

460

回帖

1万

积分

327 小时

在线时间

上校

注册时间
2009-10-11
金币
18187 个
威望
1 个
荣誉
0 个
累计签到:92 天
连续签到:0 天
[LV.100]试剑无线
发表于 2015-1-26 00:09 |显示全部楼层
mmfdr 发表于 2015-1-26 00:00
不用下边的A和B,那样会把两个文件相同行都去掉

那这样不是目标文件越来越大?
我是想这样,比如A.TXT有1亿条数据,B.TXT有1万条数据
经过比较后,发现AB相同的有1000条数据,然后把A.TXT里这1000条数据删除,B文件不动
这样方便手上的字典减肥,使得每一个TXT里的记录都是唯一的,这样跑的时候就不会跑重复了
不知道有没有这功能的
签到签到
回复

使用道具 举报

3218

回帖

7万

积分

2563 小时

在线时间

中将

注册时间
2012-6-7
金币
73222 个
威望
2 个
荣誉
0 个
累计签到:334 天
连续签到:1 天
[LV.365]无线熟人
发表于 2015-1-26 00:14 |显示全部楼层
本帖最后由 mmfdr 于 2015-1-26 00:16 编辑
joneni 发表于 2015-1-26 00:09
那这样不是目标文件越来越大?
我是想这样,比如A.TXT有1亿条数据,B.TXT有1万条数据
经过比较后,发现 ...

TXT文件合并后,上边那个就可以做到,下边的AB是相同行都不保留了,两个文件都去掉了
闲着没事只跑小字典
回复

使用道具 举报

460

回帖

1万

积分

327 小时

在线时间

上校

注册时间
2009-10-11
金币
18187 个
威望
1 个
荣誉
0 个
累计签到:92 天
连续签到:0 天
[LV.100]试剑无线
发表于 2015-1-26 00:17 |显示全部楼层
但这样不是把文件越拼越大吗?
回复

使用道具 举报

3218

回帖

7万

积分

2563 小时

在线时间

中将

注册时间
2012-6-7
金币
73222 个
威望
2 个
荣誉
0 个
累计签到:334 天
连续签到:1 天
[LV.365]无线熟人
发表于 2015-1-26 00:19 |显示全部楼层
joneni 发表于 2015-1-26 00:09
那这样不是目标文件越来越大?
我是想这样,比如A.TXT有1亿条数据,B.TXT有1万条数据
经过比较后,发现 ...

AB-或许是去重复后的文件在和其中小的文件合并来完成
闲着没事只跑小字典
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver | 手机版 | 无线门户 ( 粤ICP备11076993号|粤公网安备44010602008359号 ) |网站地图

GMT+8, 2025-7-9 08:18

返回顶部 返回列表