字典去重复工具更新版,大幅缩短去重复所需时间
本帖最后由 mortimer7866 于 2019-12-21 09:16 编辑同样是2亿多字典,仅需300多秒
请下载25楼的更新版本,优化了内存
补充内容 (2021-4-5 22:23):
hello,大伙们,37楼有更新 本帖最后由 mortimer7866 于 2019-12-18 22:14 编辑
随风飘 发表于 2019-12-18 21:54
在win下各种工具对非ASCII字符,一个文件多种格式都会出错,这是到目前为止还没有解决的难题,
所以我那贴 ...
谢谢前辈,浏览论坛不多,刚才看到您说的那个帖子,也看出来了您是个做字典的老手了。
最初做这个工具只不过是在想设计怎样的数据结构和算法能够高效的去重复,真正要针对字典去做一个很好的工具是当时没想到的,电脑条件并不丰富,虽然工作中也时有在linux下开发,但自己的电脑和小服务器都是Win环境,可以迅雷下个电影啥的哈哈,linux的熟悉程度应该也是没有您高,所以对我来说还是Win方便,有Win工具是最好的,前段时间移植了一个通过建立HASH表来破解wpa2的开源Linux工程到Win下,这几天打算放上论坛吧。
对您的那个只要硬盘足够大,就可以处理很多字典的思路倒是很感兴趣,也想试试效率如何,改日试试。
8GB内存都不行
赞一个 爱人1516 发表于 2019-12-14 08:32
8GB内存都不行
目前是将所有的字典文件都读入到内存再进行处理,如果字典文件比较大,确实需要更大的内存
以后打算试试不读取到内存看看对去重的时间影响有多大 只有8G内存,一次能合并多少G的字典 爱人1516 发表于 2019-12-14 08:32
8GB内存都不行
你这个内存数和CPU核数不成比例啊 工具现在这种情况还是不太好,占用内存太大,合并不了多大的字典,应该最近会修改,降低内存占用,稍稍牺牲一些去重复的时间,不过应该也不会牺牲多少 凑凑热闹
CCTV告诉大家,字典要先去乱马再去重 要不然会影响后续处理结果
没有保存路径选择又增加一个痛点 sorry D盘空间已满 看看怎么样 本帖最后由 mortimer7866 于 2019-12-21 09:14 编辑
新版本,降低内存占用,现在不能显示百分比进度了,还是那两亿多字典,内存降到10G左右占用
惊奇的发现去重复时间不升反降,可能是以前内存占用过多使用了虚拟内存
另外增加了两个功能:
1.程序运行起来会出现一行提示:大致意思是是否只保留是数字字母组合的字符串,'y'代表是,其他任何字符为否
举例说明:
ggg
fff
ff$
ff1
输入y “ff$”会被移除
输入非y “ff$”不会被移除
2.可选保存路径
输入"y"或者其他任意字符回车,首先会弹出和之前一样的选择字典文件对话框,确定之后会再弹出选择保存路径对话框
附件:
请前往25楼下载最新版本 mortimer7866 发表于 2019-12-17 23:14
新版本,降低内存占用,现在不能显示百分比进度了,还是那两亿多字典,内存降到10G左右占用
惊奇的发现去 ...
处理3个字典去重不正确