ubnt解决方案
楼主: mortimer7866

字典去重复工具更新版,大幅缩短去重复所需时间

[复制链接]

224

回帖

8133

积分

400 小时

在线时间

中校

注册时间
2019-1-22
金币
7859 个
威望
1 个
荣誉
0 个
累计签到:139 天
连续签到:1 天
[LV.200]无线新星
发表于 2019-12-18 09:19 |显示全部楼层
好的,我先给我服务器加120G内存。
回复

使用道具 举报

128

回帖

1767

积分

253 小时

在线时间

上尉

注册时间
2014-11-18
金币
1600 个
威望
1 个
荣誉
0 个
累计签到:1 天
连续签到:0 天
[LV.20]漫游旅程
发表于 2019-12-18 09:24 |显示全部楼层
用LINUX或者CYGWIN就不存在这些问题,搭载cygwin模式。
回复

使用道具 举报

128

回帖

1767

积分

253 小时

在线时间

上尉

注册时间
2014-11-18
金币
1600 个
威望
1 个
荣誉
0 个
累计签到:1 天
连续签到:0 天
[LV.20]漫游旅程
发表于 2019-12-18 09:30 |显示全部楼层
sort -u
去重用这几个字符就可以了,没必要去折腾的那么累。
回复

使用道具 举报

224

回帖

8133

积分

400 小时

在线时间

中校

注册时间
2019-1-22
金币
7859 个
威望
1 个
荣誉
0 个
累计签到:139 天
连续签到:1 天
[LV.200]无线新星
发表于 2019-12-18 09:33 |显示全部楼层
提个建议哈,如果需要进一步下去,先把内存问题解决,第一,用分割临时文件的方式。第二,逐步去重的方式。不过吧,还是建议用分割成大小等分的临时文件。处理几十G的文件都是很轻松的。
回复

使用道具 举报

42

回帖

285

积分

35 小时

在线时间

少尉

注册时间
2013-2-8
金币
195 个
威望
4 个
荣誉
2 个
累计签到:8 天
连续签到:0 天
[LV.20]漫游旅程
发表于 2019-12-18 11:13 |显示全部楼层
爱人1516 发表于 2019-12-18 09:04
处理3个字典  去重不正确

你好,可以说说哪里不正确
回复

使用道具 举报

42

回帖

285

积分

35 小时

在线时间

少尉

注册时间
2013-2-8
金币
195 个
威望
4 个
荣誉
2 个
累计签到:8 天
连续签到:0 天
[LV.20]漫游旅程
发表于 2019-12-18 11:21 |显示全部楼层
pb1185782178 发表于 2019-12-18 09:33
提个建议哈,如果需要进一步下去,先把内存问题解决,第一,用分割临时文件的方式。第二,逐步去重的方式。 ...

感谢建议,目前的做法类似于树,但是即使分割文件,最终对所有的字符串建立起树结构还是需要很大的内存。最新版本基本就只保留了树的内存,采用了双缓冲区的方式读取所有的字段文件,启动后开始读取一定量的字符串到两个缓冲区中,读取完成后1号缓冲区开始去重,1号去重完成后开始对2号缓冲区去重同时启动线程向1号缓冲区读取,如此反复,去重完成后对整个树结构采用递归方式保存到文件。
不好意思没有明白您的意思,请进一步指示,感激不尽。
回复

使用道具 举报

42

回帖

285

积分

35 小时

在线时间

少尉

注册时间
2013-2-8
金币
195 个
威望
4 个
荣誉
2 个
累计签到:8 天
连续签到:0 天
[LV.20]漫游旅程
发表于 2019-12-18 11:25 |显示全部楼层
pb1185782178 发表于 2019-12-18 09:19
好的,我先给我服务器加120G内存。

您不喜可不用,Alt+F4,没有必要冷嘲热讽
回复

使用道具 举报

224

回帖

8133

积分

400 小时

在线时间

中校

注册时间
2019-1-22
金币
7859 个
威望
1 个
荣誉
0 个
累计签到:139 天
连续签到:1 天
[LV.200]无线新星
发表于 2019-12-18 11:51 |显示全部楼层
mortimer7866 发表于 2019-12-18 11:25
您不喜可不用,Alt+F4,没有必要冷嘲热讽

内存去重的方式本就不可行。 无论你怎么去读取,内存始终没有磁盘那么大
回复

使用道具 举报

371

回帖

3492

积分

436 小时

在线时间

少校

超级管理员QQ 2632560408

注册时间
2019-5-1
金币
3076 个
威望
-4 个
荣誉
0 个

尚未签到

发表于 2019-12-18 13:35 |显示全部楼层
mortimer7866 发表于 2019-12-18 11:13
你好,可以说说哪里不正确

总行数
跑包QQ 2632560408
回复

使用道具 举报

42

回帖

285

积分

35 小时

在线时间

少尉

注册时间
2013-2-8
金币
195 个
威望
4 个
荣誉
2 个
累计签到:8 天
连续签到:0 天
[LV.20]漫游旅程
发表于 2019-12-18 15:49 |显示全部楼层

兄弟,总行数怎么不正确呢?
回复

使用道具 举报

371

回帖

3492

积分

436 小时

在线时间

少校

超级管理员QQ 2632560408

注册时间
2019-5-1
金币
3076 个
威望
-4 个
荣誉
0 个

尚未签到

发表于 2019-12-18 16:43 |显示全部楼层
mortimer7866 发表于 2019-12-18 15:49
兄弟,总行数怎么不正确呢?

只能出字母数字行数  
另外要用很多内存 不好用
跑包QQ 2632560408
回复

使用道具 举报

371

回帖

3492

积分

436 小时

在线时间

少校

超级管理员QQ 2632560408

注册时间
2019-5-1
金币
3076 个
威望
-4 个
荣誉
0 个

尚未签到

发表于 2019-12-18 16:56 |显示全部楼层
本帖最后由 爱人1516 于 2019-12-18 16:57 编辑
mortimer7866 发表于 2019-12-18 15:49
兄弟,总行数怎么不正确呢?

你自己试21合一精简泄露门就知道了

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

x
跑包QQ 2632560408
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

站点统计 | Archiver | 手机版 | 无线门户 ( 粤ICP备11076993号|粤公网安备44010602008359号 ) |网站地图

GMT+8, 2024-12-19 23:49

返回顶部 返回列表