pb1185782178 发表于 2019-12-18 09:19

好的,我先给我服务器加120G内存。

F.. 发表于 2019-12-18 09:24

用LINUX或者CYGWIN就不存在这些问题,搭载cygwin模式。

F.. 发表于 2019-12-18 09:30

sort -u
去重用这几个字符就可以了,没必要去折腾的那么累。

pb1185782178 发表于 2019-12-18 09:33

提个建议哈,如果需要进一步下去,先把内存问题解决,第一,用分割临时文件的方式。第二,逐步去重的方式。不过吧,还是建议用分割成大小等分的临时文件。处理几十G的文件都是很轻松的。

mortimer7866 发表于 2019-12-18 11:13

爱人1516 发表于 2019-12-18 09:04
处理3个字典去重不正确

你好,可以说说哪里不正确

mortimer7866 发表于 2019-12-18 11:21

pb1185782178 发表于 2019-12-18 09:33
提个建议哈,如果需要进一步下去,先把内存问题解决,第一,用分割临时文件的方式。第二,逐步去重的方式。 ...

感谢建议,目前的做法类似于树,但是即使分割文件,最终对所有的字符串建立起树结构还是需要很大的内存。最新版本基本就只保留了树的内存,采用了双缓冲区的方式读取所有的字段文件,启动后开始读取一定量的字符串到两个缓冲区中,读取完成后1号缓冲区开始去重,1号去重完成后开始对2号缓冲区去重同时启动线程向1号缓冲区读取,如此反复,去重完成后对整个树结构采用递归方式保存到文件。
不好意思没有明白您的意思,请进一步指示,感激不尽。

mortimer7866 发表于 2019-12-18 11:25

pb1185782178 发表于 2019-12-18 09:19
好的,我先给我服务器加120G内存。

您不喜可不用,Alt+F4,没有必要冷嘲热讽

pb1185782178 发表于 2019-12-18 11:51

mortimer7866 发表于 2019-12-18 11:25
您不喜可不用,Alt+F4,没有必要冷嘲热讽

内存去重的方式本就不可行。:lol 无论你怎么去读取,内存始终没有磁盘那么大

爱人1516 发表于 2019-12-18 13:35

mortimer7866 发表于 2019-12-18 11:13
你好,可以说说哪里不正确

总行数

mortimer7866 发表于 2019-12-18 15:49

爱人1516 发表于 2019-12-18 13:35
总行数

兄弟,总行数怎么不正确呢?

爱人1516 发表于 2019-12-18 16:43

mortimer7866 发表于 2019-12-18 15:49
兄弟,总行数怎么不正确呢?

只能出字母数字行数
另外要用很多内存 不好用

爱人1516 发表于 2019-12-18 16:56

本帖最后由 爱人1516 于 2019-12-18 16:57 编辑

mortimer7866 发表于 2019-12-18 15:49
兄弟,总行数怎么不正确呢?
你自己试21合一精简泄露门就知道了
页: 1 [2] 3 4 5
查看完整版本: 字典去重复工具更新版,大幅缩短去重复所需时间