joneni 发表于 2015-1-25 23:30

请教各位一个关于多字典去重复的问题

大家手上肯定都有不少的字典,各字典内重复的记录也不少
不不知道大家都是怎样将不同字典中重复记录删除的,

我先说说我用的办法,我是使用最笨的办法------
先将字典导入到数据库中,然后用SQL语句去与现存的记录比较与去重复,最后再导出TXT

但是这样的问题是----当数据量偏大的时候(超过1亿条)的确很慢
要是导入与处理超过1亿条记录乃至几亿条记录,所花的时间就太久了,即使是用服务器,处理起来也需要很长的时间。

故此请教各位老师,有没有啥比较快的办法或软件。
学生拜谢!:handshake

mmfdr 发表于 2015-1-25 23:37

本帖最后由 mmfdr 于 2015-1-25 23:50 编辑


我用这个软件4G内存只能去重复460M左右,速度一两个小时,不知道你能不能用上,

mmfdr 发表于 2015-1-25 23:39

还有个TXT合并软件

joneni 发表于 2015-1-25 23:50

mmfdr 发表于 2015-1-25 23:37
我用这个软件4G内存只能去重复460M左右,速度一两个小时,不知道你能不能用上,

感谢老师,我先试试看能不能达到我的目的

mmfdr 发表于 2015-1-25 23:53

joneni 发表于 2015-1-25 23:50
感谢老师,我先试试看能不能达到我的目的

老师不敢当都是朋友

mmfdr 发表于 2015-1-26 00:00


不用下边的A和B,那样会把两个文件相同行都去掉

joneni 发表于 2015-1-26 00:03

正在拿完美字典与几个弱密字典做试验,看能不能顺利完成
这个软件不吃CPU,吃内存

mmfdr 发表于 2015-1-26 00:07

是的吃内存,8G内存我估计能合并1个多G的字典

joneni 发表于 2015-1-26 00:09

mmfdr 发表于 2015-1-26 00:00
不用下边的A和B,那样会把两个文件相同行都去掉

那这样不是目标文件越来越大?
我是想这样,比如A.TXT有1亿条数据,B.TXT有1万条数据
经过比较后,发现AB相同的有1000条数据,然后把A.TXT里这1000条数据删除,B文件不动
这样方便手上的字典减肥,使得每一个TXT里的记录都是唯一的,这样跑的时候就不会跑重复了
不知道有没有这功能的

mmfdr 发表于 2015-1-26 00:14

本帖最后由 mmfdr 于 2015-1-26 00:16 编辑

joneni 发表于 2015-1-26 00:09
那这样不是目标文件越来越大?
我是想这样,比如A.TXT有1亿条数据,B.TXT有1万条数据
经过比较后,发现 ...
TXT文件合并后,上边那个就可以做到,下边的AB是相同行都不保留了,两个文件都去掉了

joneni 发表于 2015-1-26 00:17

但这样不是把文件越拼越大吗?

mmfdr 发表于 2015-1-26 00:19

joneni 发表于 2015-1-26 00:09
那这样不是目标文件越来越大?
我是想这样,比如A.TXT有1亿条数据,B.TXT有1万条数据
经过比较后,发现 ...

AB-或许是去重复后的文件在和其中小的文件合并来完成
页: [1] 2 3
查看完整版本: 请教各位一个关于多字典去重复的问题