请教各位一个关于多字典去重复的问题
大家手上肯定都有不少的字典,各字典内重复的记录也不少不不知道大家都是怎样将不同字典中重复记录删除的,
我先说说我用的办法,我是使用最笨的办法------
先将字典导入到数据库中,然后用SQL语句去与现存的记录比较与去重复,最后再导出TXT
但是这样的问题是----当数据量偏大的时候(超过1亿条)的确很慢
要是导入与处理超过1亿条记录乃至几亿条记录,所花的时间就太久了,即使是用服务器,处理起来也需要很长的时间。
故此请教各位老师,有没有啥比较快的办法或软件。
学生拜谢!:handshake
本帖最后由 mmfdr 于 2015-1-25 23:50 编辑
我用这个软件4G内存只能去重复460M左右,速度一两个小时,不知道你能不能用上,
还有个TXT合并软件 mmfdr 发表于 2015-1-25 23:37
我用这个软件4G内存只能去重复460M左右,速度一两个小时,不知道你能不能用上,
感谢老师,我先试试看能不能达到我的目的 joneni 发表于 2015-1-25 23:50
感谢老师,我先试试看能不能达到我的目的
老师不敢当都是朋友
不用下边的A和B,那样会把两个文件相同行都去掉
正在拿完美字典与几个弱密字典做试验,看能不能顺利完成
这个软件不吃CPU,吃内存 是的吃内存,8G内存我估计能合并1个多G的字典 mmfdr 发表于 2015-1-26 00:00
不用下边的A和B,那样会把两个文件相同行都去掉
那这样不是目标文件越来越大?
我是想这样,比如A.TXT有1亿条数据,B.TXT有1万条数据
经过比较后,发现AB相同的有1000条数据,然后把A.TXT里这1000条数据删除,B文件不动
这样方便手上的字典减肥,使得每一个TXT里的记录都是唯一的,这样跑的时候就不会跑重复了
不知道有没有这功能的
本帖最后由 mmfdr 于 2015-1-26 00:16 编辑
joneni 发表于 2015-1-26 00:09
那这样不是目标文件越来越大?
我是想这样,比如A.TXT有1亿条数据,B.TXT有1万条数据
经过比较后,发现 ...
TXT文件合并后,上边那个就可以做到,下边的AB是相同行都不保留了,两个文件都去掉了 但这样不是把文件越拼越大吗? joneni 发表于 2015-1-26 00:09
那这样不是目标文件越来越大?
我是想这样,比如A.TXT有1亿条数据,B.TXT有1万条数据
经过比较后,发现 ...
AB-或许是去重复后的文件在和其中小的文件合并来完成