ubnt解决方案
楼主: yun209

请字典制作大神帮忙看下

[复制链接]

1142

回帖

2246

积分

1694 小时

在线时间

少校

注册时间
2014-7-21
金币
692 个
威望
23 个
荣誉
8 个
累计签到:43 天
连续签到:0 天
[LV.50]初入江湖
发表于 2015-3-7 18:45 |显示全部楼层
本帖最后由 老AK 于 2015-3-10 15:56 编辑

刚测试了一下   但我这Linux下使用这代码grep -P "^.{8,16}$"  |sort -u得出结果是537 MB (563,465,140 字节)   再说你源文件还有很多非ASCLL字符  使用这代码结果不对是你BT5环境架构问题 BT5精简了某些组件  ,

容量基本大小也可参考8楼mmfdr 大神结果

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

x
回复

使用道具 举报

311

回帖

3518

积分

383 小时

在线时间

少校

注册时间
2014-4-5
金币
3127 个
威望
1 个
荣誉
1 个
累计签到:338 天
连续签到:0 天
[LV.365]无线熟人
发表于 2015-3-7 19:12 |显示全部楼层
老AK 发表于 2015-3-7 18:45
刚测试了一下   但我这Linux下使用这代码grep -P "^.{8,16}$"  |sort -u得出结果是537 MB (563,465,140 字 ...

从大小上来看,论坛某位大神写的这个小程序还是比较好的,我帖子里提到的mkqsort这个程序处理完是536M,这个程序处理速度非常快,而且鄙人是个不会LIUNX的屌丝一枚,只能看大神的教程来做,请问如何对比我用这个程序处理出来的536M跟8楼大神处理出来的531M?另外,对于非ASCLL字符的相关知识,我百度了下,网上讲的不是很清楚,如果您能给普及下,鄙人将不甚感激。
到任务中
回复

使用道具 举报

1142

回帖

2246

积分

1694 小时

在线时间

少校

注册时间
2014-7-21
金币
692 个
威望
23 个
荣誉
8 个
累计签到:43 天
连续签到:0 天
[LV.50]初入江湖
发表于 2015-3-7 19:23 来自手机 |显示全部楼层
mmfdr 发表于 2015-3-7 15:32
用UE排序去重是531MB,这个大小应该是正确的这个是连接地址

你那边字节是多少?看字节会准确些
回复

使用道具 举报

311

回帖

3518

积分

383 小时

在线时间

少校

注册时间
2014-4-5
金币
3127 个
威望
1 个
荣誉
1 个
累计签到:338 天
连续签到:0 天
[LV.365]无线熟人
发表于 2015-3-7 19:25 |显示全部楼层
老AK 发表于 2015-3-7 18:45
刚测试了一下   但我这Linux下使用这代码grep -P "^.{8,16}$"  |sort -u得出结果是537 MB (563,465,140 字 ...

另外,我用UE按照网上的教程试了一下,电脑不行处理不过来,各种报错,一会儿内存不够,一会儿弹窗报错,如果那个小程序处理的结果跟UE处理结果差不多的话,我倒是觉得这个程序不错;我看您处理完后是537M,这个程序处理完是536M,差距很小哦
到任务中
回复

使用道具 举报

311

回帖

3518

积分

383 小时

在线时间

少校

注册时间
2014-4-5
金币
3127 个
威望
1 个
荣誉
1 个
累计签到:338 天
连续签到:0 天
[LV.365]无线熟人
发表于 2015-3-7 19:33 |显示全部楼层
老AK 发表于 2015-3-7 18:45
刚测试了一下   但我这Linux下使用这代码grep -P "^.{8,16}$"  |sort -u得出结果是537 MB (563,465,140 字 ...

请问您用的是什么Linux系统?是否有安装和使用的教程,鄙人愚笨,不是很懂这块,谢谢!
到任务中
回复

使用道具 举报

1142

回帖

2246

积分

1694 小时

在线时间

少校

注册时间
2014-7-21
金币
692 个
威望
23 个
荣誉
8 个
累计签到:43 天
连续签到:0 天
[LV.50]初入江湖
发表于 2015-3-7 19:33 来自手机 |显示全部楼层
yun209 发表于 2015-3-7 19:25
另外,我用UE按照网上的教程试了一下,电脑不行处理不过来,各种报错,一会儿内存不够,一会儿弹窗报错, ...

结果要的不是要差距,而是要结果数据百分百准确
回复

使用道具 举报

311

回帖

3518

积分

383 小时

在线时间

少校

注册时间
2014-4-5
金币
3127 个
威望
1 个
荣誉
1 个
累计签到:338 天
连续签到:0 天
[LV.365]无线熟人
发表于 2015-3-7 19:37 |显示全部楼层
mmfdr 发表于 2015-3-7 15:32
用UE排序去重是531MB,这个大小应该是正确的这个是连接地址

谢谢您的工作,请问是否有用UE处理字典的好教程(或者您自己做的笔记)?我从论坛里找到某位大神写的代码是:
1、干掉行尾与行首的空格正则,正则表达式引擎选择unix下的:
删除行首空格:
^\s+
再删除行尾空格:\s+$
2、去掉中文点到文件--转换 UNICODE/UTF-8转UTF-8(Unicode编辑)选项成黑色
正则处理:[^一-龥]
删除中文完成后最好回到之前这一项是灰色的,因为这种格式的文件打开后占地方很大。
3、然后去掉8位数字正则表达式引擎选择Unix
^(\d\d\d\d\d\d\d\d)$
4、再去掉有手机的,正则表达式引擎选择Unix
^.*(13\d\d\d\d\d\d\d\d\d).*$
^.*(15\d\d\d\d\d\d\d\d\d).*$
^.*(18\d\d\d\d\d\d\d\d\d).*$
^.*(147\d\d\d\d\d\d\d\d).*$
5、去空行引擎选择UE
%[ ^t]++^p

6、去不足八位长度引擎选择perl
^.{1}$|^.{2}$|^.{3}$|^.{4}$|^.{5}$|^.{6}$|^.{7}$
^\S{1,7}$
至少16位,并且必须由数字和字符组成:引擎选择perl
^(?=.*[0-9].*)(?=.*[A-Z].*)(?=.*[a-z].*).{16,20000}$
去掉长度为16到100的字符串,引擎选择perl
^\S{16,}$
/////////////////////////////////////////////////////
如果方便的话,您可以把这次处理我这个源文件的过程写个小教程,非常感谢!
到任务中
回复

使用道具 举报

1142

回帖

2246

积分

1694 小时

在线时间

少校

注册时间
2014-7-21
金币
692 个
威望
23 个
荣誉
8 个
累计签到:43 天
连续签到:0 天
[LV.50]初入江湖
发表于 2015-3-7 19:43 来自手机 |显示全部楼层
UE去重复是非常准确的,这点我也极赞同UE去重复准确性

但是处理去8位以下16位以上这样的机制,这个因为各系统各版本还有UE引擎都有bug
准确性会有错误  我也测试过其结果
回复

使用道具 举报

3218

回帖

7万

积分

2563 小时

在线时间

中将

注册时间
2012-6-7
金币
73222 个
威望
2 个
荣誉
0 个
累计签到:334 天
连续签到:1 天
[LV.365]无线熟人
发表于 2015-3-7 19:58 |显示全部楼层
老AK 发表于 2015-3-7 19:23
你那边字节是多少?看字节会准确些

上边头一行有4个字母

下边有几行这些东西还没处理
到这样的位置

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

x
闲着没事只跑小字典
回复

使用道具 举报

1142

回帖

2246

积分

1694 小时

在线时间

少校

注册时间
2014-7-21
金币
692 个
威望
23 个
荣誉
8 个
累计签到:43 天
连续签到:0 天
[LV.50]初入江湖
发表于 2015-3-7 20:19 |显示全部楼层
mmfdr 发表于 2015-3-7 19:58
上边头一行有4个字母

下边有几行这些东西还没处理

原来这样     
天天签到赚金币
回复

使用道具 举报

3218

回帖

7万

积分

2563 小时

在线时间

中将

注册时间
2012-6-7
金币
73222 个
威望
2 个
荣誉
0 个
累计签到:334 天
连续签到:1 天
[LV.365]无线熟人
发表于 2015-3-7 20:23 |显示全部楼层

光去8位以下16位往上,排序去重复了
闲着没事只跑小字典
回复

使用道具 举报

57

回帖

602

积分

45 小时

在线时间

中尉

注册时间
2015-2-12
金币
539 个
威望
0 个
荣誉
0 个
累计签到:57 天
连续签到:0 天
[LV.100]试剑无线
发表于 2015-3-7 21:53 |显示全部楼层
先下载了,谢谢分享
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver | 手机版 | 无线门户 ( 粤ICP备11076993号|粤公网安备44010602008359号 ) |网站地图

GMT+8, 2025-7-8 11:18

返回顶部 返回列表