pb1185782178
发表于 2019-12-18 09:19
好的,我先给我服务器加120G内存。
F..
发表于 2019-12-18 09:24
用LINUX或者CYGWIN就不存在这些问题,搭载cygwin模式。
F..
发表于 2019-12-18 09:30
sort -u
去重用这几个字符就可以了,没必要去折腾的那么累。
pb1185782178
发表于 2019-12-18 09:33
提个建议哈,如果需要进一步下去,先把内存问题解决,第一,用分割临时文件的方式。第二,逐步去重的方式。不过吧,还是建议用分割成大小等分的临时文件。处理几十G的文件都是很轻松的。
mortimer7866
发表于 2019-12-18 11:13
爱人1516 发表于 2019-12-18 09:04
处理3个字典去重不正确
你好,可以说说哪里不正确
mortimer7866
发表于 2019-12-18 11:21
pb1185782178 发表于 2019-12-18 09:33
提个建议哈,如果需要进一步下去,先把内存问题解决,第一,用分割临时文件的方式。第二,逐步去重的方式。 ...
感谢建议,目前的做法类似于树,但是即使分割文件,最终对所有的字符串建立起树结构还是需要很大的内存。最新版本基本就只保留了树的内存,采用了双缓冲区的方式读取所有的字段文件,启动后开始读取一定量的字符串到两个缓冲区中,读取完成后1号缓冲区开始去重,1号去重完成后开始对2号缓冲区去重同时启动线程向1号缓冲区读取,如此反复,去重完成后对整个树结构采用递归方式保存到文件。
不好意思没有明白您的意思,请进一步指示,感激不尽。
mortimer7866
发表于 2019-12-18 11:25
pb1185782178 发表于 2019-12-18 09:19
好的,我先给我服务器加120G内存。
您不喜可不用,Alt+F4,没有必要冷嘲热讽
pb1185782178
发表于 2019-12-18 11:51
mortimer7866 发表于 2019-12-18 11:25
您不喜可不用,Alt+F4,没有必要冷嘲热讽
内存去重的方式本就不可行。:lol 无论你怎么去读取,内存始终没有磁盘那么大
爱人1516
发表于 2019-12-18 13:35
mortimer7866 发表于 2019-12-18 11:13
你好,可以说说哪里不正确
总行数
mortimer7866
发表于 2019-12-18 15:49
爱人1516 发表于 2019-12-18 13:35
总行数
兄弟,总行数怎么不正确呢?
爱人1516
发表于 2019-12-18 16:43
mortimer7866 发表于 2019-12-18 15:49
兄弟,总行数怎么不正确呢?
只能出字母数字行数
另外要用很多内存 不好用
爱人1516
发表于 2019-12-18 16:56
本帖最后由 爱人1516 于 2019-12-18 16:57 编辑
mortimer7866 发表于 2019-12-18 15:49
兄弟,总行数怎么不正确呢?
你自己试21合一精简泄露门就知道了