请教各位一个关于多字典去重复的问题

joneni 发表于 2015-1-25 23:30

大家手上肯定都有不少的字典，各字典内重复的记录也不少
不不知道大家都是怎样将不同字典中重复记录删除的，

我先说说我用的办法，我是使用最笨的办法------
先将字典导入到数据库中，然后用SQL语句去与现存的记录比较与去重复，最后再导出TXT

但是这样的问题是----当数据量偏大的时候（超过1亿条）的确很慢
要是导入与处理超过1亿条记录乃至几亿条记录，所花的时间就太久了，即使是用服务器，处理起来也需要很长的时间。

故此请教各位老师，有没有啥比较快的办法或软件。
学生拜谢！:handshake

mmfdr 发表于 2015-1-25 23:37

本帖最后由 mmfdr 于 2015-1-25 23:50 编辑

我用这个软件4G内存只能去重复460M左右，速度一两个小时，不知道你能不能用上，

mmfdr 发表于 2015-1-25 23:39

还有个TXT合并软件

joneni 发表于 2015-1-25 23:50

mmfdr 发表于 2015-1-25 23:37
我用这个软件4G内存只能去重复460M左右，速度一两个小时，不知道你能不能用上，

感谢老师，我先试试看能不能达到我的目的

mmfdr 发表于 2015-1-25 23:53

joneni 发表于 2015-1-25 23:50
感谢老师，我先试试看能不能达到我的目的

老师不敢当都是朋友

mmfdr 发表于 2015-1-26 00:00

不用下边的A和B，那样会把两个文件相同行都去掉

joneni 发表于 2015-1-26 00:03

正在拿完美字典与几个弱密字典做试验，看能不能顺利完成
这个软件不吃CPU，吃内存

mmfdr 发表于 2015-1-26 00:07

是的吃内存，8G内存我估计能合并1个多G的字典

joneni 发表于 2015-1-26 00:09

mmfdr 发表于 2015-1-26 00:00
不用下边的A和B，那样会把两个文件相同行都去掉

那这样不是目标文件越来越大？
我是想这样，比如A.TXT有1亿条数据，B.TXT有1万条数据
经过比较后，发现AB相同的有1000条数据，然后把A.TXT里这1000条数据删除，B文件不动
这样方便手上的字典减肥，使得每一个TXT里的记录都是唯一的，这样跑的时候就不会跑重复了
不知道有没有这功能的

mmfdr 发表于 2015-1-26 00:14

本帖最后由 mmfdr 于 2015-1-26 00:16 编辑

joneni 发表于 2015-1-26 00:09
那这样不是目标文件越来越大？
我是想这样，比如A.TXT有1亿条数据，B.TXT有1万条数据
经过比较后，发现 ...
TXT文件合并后，上边那个就可以做到，下边的AB是相同行都不保留了，两个文件都去掉了

joneni 发表于 2015-1-26 00:17

但这样不是把文件越拼越大吗？

mmfdr 发表于 2015-1-26 00:19

joneni 发表于 2015-1-26 00:09
那这样不是目标文件越来越大？
我是想这样，比如A.TXT有1亿条数据，B.TXT有1万条数据
经过比较后，发现 ...

AB-或许是去重复后的文件在和其中小的文件合并来完成

页: [1] 2 3

无线论坛's Archiver

请教各位一个关于多字典去重复的问题