mortimer7866 发表于 2019-12-18 20:30

本帖最后由 mortimer7866 于 2019-12-18 22:22 编辑

程序运行中显示的已去除重复个数有点问题(附件中的程序已修复此问题),但之前的程序最终输出的去重文件是没有问题的,

mortimer7866 发表于 2019-12-18 20:38

爱人1516 发表于 2019-12-18 16:56
你自己试21合一精简泄露门就知道了

我没有这个字典,另外确实没看懂你说的是什么不正确,不过我用的时候确实发现一个问题,就是选只输出字母数字组合模式界面显示的去重复数量不正确,原因是多线程操作忘记对变量加锁,但是最终输出的去重字典是没有问题的

随风飘 发表于 2019-12-18 21:54

在win下各种工具对非ASCII字符,一个文件多种格式都会出错,这是到目前为止还没有解决的难题,
所以我那贴说明了还是用liunx或者虚拟LIUNX的cygwin处理好些。
你要测试要用那种字典是最好的。
在几年前我们几个人在处理泄漏门、DXF信封与QQ老密这些大数据的时候这些问题就发现了。是WIN下的通病。

mortimer7866 发表于 2019-12-18 22:11

谢谢前辈,浏览论坛不多,刚才看到您说的那个帖子,也看出来了您是个做字典的老手了。
最初做这个工具只不过是在想设计怎样的数据结构和算法能够高效的去重复,真正要针对字典去做一个很好的工具是当时没想到的,电脑条件并不丰富,虽然工作中也时有在linux下开发,但自己的电脑和小服务器都是Win环境,可以迅雷下个电影啥的哈哈,linux的熟悉程度应该也是没有您高,所以对我来说还是Win方便,对我来说有Win工具是最好的,前段时间移植了一个通过建立HASH表来破解wpa2的开源Linux工程到Win下,这几天打算放上论坛吧。
对您的那个只要硬盘足够大,就可以处理很多字典的思路倒是很感兴趣,也想试试效率如何,改日试试。

mortimer7866 发表于 2019-12-18 22:11

本帖最后由 mortimer7866 于 2019-12-18 22:14 编辑

随风飘 发表于 2019-12-18 21:54
在win下各种工具对非ASCII字符,一个文件多种格式都会出错,这是到目前为止还没有解决的难题,
所以我那贴 ...
谢谢前辈,浏览论坛不多,刚才看到您说的那个帖子,也看出来了您是个做字典的老手了。

最初做这个工具只不过是在想设计怎样的数据结构和算法能够高效的去重复,真正要针对字典去做一个很好的工具是当时没想到的,电脑条件并不丰富,虽然工作中也时有在linux下开发,但自己的电脑和小服务器都是Win环境,可以迅雷下个电影啥的哈哈,linux的熟悉程度应该也是没有您高,所以对我来说还是Win方便,有Win工具是最好的,前段时间移植了一个通过建立HASH表来破解wpa2的开源Linux工程到Win下,这几天打算放上论坛吧。

对您的那个只要硬盘足够大,就可以处理很多字典的思路倒是很感兴趣,也想试试效率如何,改日试试。

随风飘 发表于 2019-12-18 22:24

你错了,我其实并不懂Linux,我工作也与Linux无关,所以用win下的cygwin代替Linux。
只是东拼西奏地弄了一些命令奏合用来处理字典。而且连命令都懒得打,直接用bat

mortimer7866 发表于 2019-12-18 22:52

本帖最后由 mortimer7866 于 2019-12-18 22:53 编辑

随风飘 发表于 2019-12-18 22:24
你错了,我其实并不懂Linux,我工作也与Linux无关,所以用win下的cygwin代替Linux。
只是东拼西奏地弄了一 ...
还是很不错的,感谢您的奉献!

heqjie 发表于 2020-2-20 22:29

好贴必须回复一下

heqjie 发表于 2020-2-20 22:30

我再回复一下

heqjie 发表于 2020-2-20 22:33

我再回复一下

alabohai 发表于 2020-2-23 12:15

感谢楼主分享

wangkunfu 发表于 2020-3-5 14:47

好贴必须回复一下
页: 1 2 [3] 4 5
查看完整版本: 字典去重复工具更新版,大幅缩短去重复所需时间