老AK 发表于 2015-3-7 18:45

本帖最后由 老AK 于 2015-3-10 15:56 编辑

刚测试了一下   但我这Linux下使用这代码grep -P "^.{8,16}$"|sort -u得出结果是537 MB (563,465,140 字节)   再说你源文件还有很多非ASCLL字符使用这代码结果不对是你BT5环境架构问题 BT5精简了某些组件,

容量基本大小也可参考8楼mmfdr 大神结果{:5_237:}

yun209 发表于 2015-3-7 19:12

老AK 发表于 2015-3-7 18:45
刚测试了一下   但我这Linux下使用这代码grep -P "^.{8,16}$"|sort -u得出结果是537 MB (563,465,140 字 ...

从大小上来看,论坛某位大神写的这个小程序还是比较好的,我帖子里提到的mkqsort这个程序处理完是536M,这个程序处理速度非常快,而且鄙人是个不会LIUNX的屌丝一枚,只能看大神的教程来做,请问如何对比我用这个程序处理出来的536M跟8楼大神处理出来的531M?另外,对于非ASCLL字符的相关知识,我百度了下,网上讲的不是很清楚,如果您能给普及下,鄙人将不甚感激。

老AK 发表于 2015-3-7 19:23

mmfdr 发表于 2015-3-7 15:32
用UE排序去重是531MB,这个大小应该是正确的这个是连接地址

你那边字节是多少?看字节会准确些

yun209 发表于 2015-3-7 19:25

老AK 发表于 2015-3-7 18:45
刚测试了一下   但我这Linux下使用这代码grep -P "^.{8,16}$"|sort -u得出结果是537 MB (563,465,140 字 ...

另外,我用UE按照网上的教程试了一下,电脑不行处理不过来,各种报错,一会儿内存不够,一会儿弹窗报错,如果那个小程序处理的结果跟UE处理结果差不多的话,我倒是觉得这个程序不错;我看您处理完后是537M,这个程序处理完是536M,差距很小哦

yun209 发表于 2015-3-7 19:33

老AK 发表于 2015-3-7 18:45
刚测试了一下   但我这Linux下使用这代码grep -P "^.{8,16}$"|sort -u得出结果是537 MB (563,465,140 字 ...

请问您用的是什么Linux系统?是否有安装和使用的教程,鄙人愚笨,不是很懂这块,谢谢!

老AK 发表于 2015-3-7 19:33

yun209 发表于 2015-3-7 19:25
另外,我用UE按照网上的教程试了一下,电脑不行处理不过来,各种报错,一会儿内存不够,一会儿弹窗报错, ...

结果要的不是要差距,而是要结果数据百分百准确

yun209 发表于 2015-3-7 19:37

mmfdr 发表于 2015-3-7 15:32
用UE排序去重是531MB,这个大小应该是正确的这个是连接地址

谢谢您的工作,请问是否有用UE处理字典的好教程(或者您自己做的笔记)?我从论坛里找到某位大神写的代码是:
1、干掉行尾与行首的空格正则,正则表达式引擎选择unix下的:
删除行首空格:
^\s+
再删除行尾空格:\s+$
2、去掉中文点到文件--转换 UNICODE/UTF-8转UTF-8(Unicode编辑)选项成黑色
正则处理:[^一-龥]
删除中文完成后最好回到之前这一项是灰色的,因为这种格式的文件打开后占地方很大。
3、然后去掉8位数字正则表达式引擎选择Unix
^(\d\d\d\d\d\d\d\d)$
4、再去掉有手机的,正则表达式引擎选择Unix
^.*(13\d\d\d\d\d\d\d\d\d).*$
^.*(15\d\d\d\d\d\d\d\d\d).*$
^.*(18\d\d\d\d\d\d\d\d\d).*$
^.*(147\d\d\d\d\d\d\d\d).*$
5、去空行引擎选择UE
%[ ^t]++^p

6、去不足八位长度引擎选择perl
^.{1}$|^.{2}$|^.{3}$|^.{4}$|^.{5}$|^.{6}$|^.{7}$
^\S{1,7}$
至少16位,并且必须由数字和字符组成:引擎选择perl
^(?=.*.*)(?=.*.*)(?=.*.*).{16,20000}$
去掉长度为16到100的字符串,引擎选择perl
^\S{16,}$
/////////////////////////////////////////////////////
如果方便的话,您可以把这次处理我这个源文件的过程写个小教程,非常感谢!

老AK 发表于 2015-3-7 19:43

UE去重复是非常准确的,这点我也极赞同UE去重复准确性

但是处理去8位以下16位以上这样的机制,这个因为各系统各版本还有UE引擎都有bug
准确性会有错误我也测试过其结果

mmfdr 发表于 2015-3-7 19:58

老AK 发表于 2015-3-7 19:23
你那边字节是多少?看字节会准确些

上边头一行有4个字母

下边有几行这些东西还没处理
到这样的位置

老AK 发表于 2015-3-7 20:19

mmfdr 发表于 2015-3-7 19:58
上边头一行有4个字母

下边有几行这些东西还没处理


:lol原来这样   

mmfdr 发表于 2015-3-7 20:23

老AK 发表于 2015-3-7 20:19
原来这样

光去8位以下16位往上,排序去重复了:lol

cy1cn 发表于 2015-3-7 21:53

先下载了,谢谢分享
页: 1 [2] 3 4 5 6
查看完整版本: 请字典制作大神帮忙看下