中尉
- 注册时间
- 2012-5-13
- 金币
- 118 个
- 威望
- 0 个
- 荣誉
- 0 个
累计签到:1 天 连续签到:0 天 [LV.20]漫游旅程
|
我认为应该建立字典全生命周期的管理方法。做好的字典,必须得有好的思路。
我是这么分解字典的寿命的,咱们交流探讨一下吧:
字典分类生成/更新--->>字典查错--->>字典合并--->>字典剪除/过滤--->>字典压缩--->>字典发布与校验
(MD5)--->>字典下载--->>字典校验(MD5)--->>字典解压--->>字典使用者个性化修改(过滤/整合/分割)
--->>字典使用--->>字典历史记录与发布(MD5)。
此外具体的建议是:
1.
因为你这个去重之后的整合版字典非常大(将近10G),对于集中跑包的人比较适合,对于断续时间跑包的人,由
于重新加载进度花费时间将近10分钟,因此就显得不太合适。另外对于已经自己跑过一些大字典的人,直接跑这个
字典必然有一部分和之前的字典重复。
因此:应该提供能够剪除的软件,把大字典中剪除掉已经跑过的字典的工具。
【蓝鼠 TXT文本文件重复行过滤txtdatas.exe】有从A.txt过滤与B.txt重复行的功能,但是根据实际测试,貌似这个
功能有问题。
因为:我用C+D生成的包E,运行过滤E-D=F,F的文件居然比E还大。
2.建议发布字典时,能够提供.txt格式。因为很多文本过滤去重工具,都是紧紧支持txt格式的。
ps:txt和dic格式有什么不同吗?有什么
3.
作者发布字典相互间应该 去重复一个版本。
包含所有目前字典的一个版本。但是这个版本会越来越大,很棘手。
4.
此外应该特设置解密字典集合,发布网友自己破得的密码,充实 弱密码。13亿人*每人PJ100个密码,每个人上传
文件不大于10kB。
【自己亲测的 字典txt 工具介绍】
【】急速字典去重复.exe
仅仅对单个txt文件进行内部行之间的对比去重复操作。无法对多个文件进行去重,合并,或者过滤剪除。
【】TXT文件合并器 LB专业版
紧紧是对多个文件进行 单纯的拼凑合并,没有去重复功能。且不支持拖曳文件。
【】蓝鼠 TXT文本文件重复行过滤txtdatas.exe
有从A.txt过滤与B.txt重复行的功能,但是根据实际测试,貌似这个功能有问题。
ps:我用C+D生成的包E,运行过滤E-D=F,F的文件居然比E还大。 |
|