版主
病友你好
- 注册时间
- 2011-9-14
- 金币
- 70223 个
- 威望
- 46 个
- 荣誉
- 6 个
累计签到:100 天 连续签到:0 天 [LV.100]试剑无线
|
本帖最后由 mns 于 2012-8-31 13:35 编辑
这个字典制作的可不容易,先是把历来我自存的各类字典打包上传到服务器上花费了一天时间;又把本坛各位网友历次制作的字典打包上传又是一晚上的时间;
字典处理服务器是借朋友的,朋友的新webserver需要做拷机,于是我就骗来说做字典去重复可以检测CPU朋友欣欣然借给我用三天;配置:
四颗Xeon E3 3.10GHZ /32G DDR3 内存/ 250G SSD 硬盘;我给重装了Debian 6.0 64位;
不算上传和下载压缩,这个字典历经:
1.合并,总共合并出101.6G的大文件(但后来证明里面重复可怕);
2.去除重复内容,这段是第一费时工作,处理完101.6G的文件总共用了30多个小时,其中历次泄密门21站在不确定内容的情况下我全部找来制作总计100G左右,弱口令1G多;
3.去中文和ASCII编码以外字符,这里走了几次弯路但在本机上测试了几次后才敢写入批处理中,这段时间是第二费时工作。这一步为了提速我将第二步处理完的字典分割成了十个部分,同时运行批处理,这一步耗时25个小时左右;
4.合并处理后字典,排序,耗时20个小时。
5.取回打包发布,100多G字典处理后竟然只有7G多,可见之前做字典的朋友们是多么的不用心不仔细。
计划好后写了一个shell脚本,在无人值守的情况下运行,我每隔一段时间上去htop一下看下服务器负载再看下shell echo回来的处理进度。
算下来加上上传下载打包发布我总共用了四天时间制作这个字典;本来服务器只借我三天没想到我预判错了字典的规模和处理难度;还好今天得以发布。总归也算了了一桩心事。
我就是简单的执行合并去中文去重复,没有进行人工筛选,所以抱怨字典质量的网友很骚瑞毕竟100多G的字典我不可能人工过一遍;我只能保证这是所有流行字典的集合,并且没有重复。
制作字典非常辛苦,所以这一次就不免费发布;售价3金币;也算是对我的支持。已经免费
如果不愿支付可以等收费期失效后再下载;我会一直让这个文件处于active状态。
处理方式:
awk+sed+vim
处理后大小:
约6.55G
下载地址:(已免费)
6.55G整体压缩包:http://pan.baidu.com/share/link?shareid=7891&uk=2033092633
分割为1G单文件压缩包:http://pan.baidu.com/share/link?shareid=7890&uk=2033092633
如果要求解压密码是:anywlan
仅限本坛交流。请勿外传。
补充:
有的网友说字典太大,可以用此法:
用此教程中 方法 http://www.anywlan.com/thread-151122-1-1.html
运行
split -C 1000m 字典名 输出的字典名
不会拆开行
来将字典切割成1G的几个小文件
特别感谢:lv1990、duoduo941
UPDATE:
08-09 08:00 更新,重新跑了一遍去中文,将之前只去掉开头是中文内容的语句取消,将所有包含中文条目删除,约减小了500M体积。
08-09 12:34 更新,发布至百度网盘,分享。重新打包下载地址欢迎下载。
08-10 16:47 昨晚花了12个小时将字典按条目在不破坏行完整性的情况切分成7个每个约1G大小的文件;正在7z高压打包,稍候上传。发布。
08-10 20:49 已将字典分割为1G每个文件,同时依然提供整体单文件字典下载。
|
评分
-
23
查看全部评分
-
|