Rayxon 发表于 2020-1-4 14:04

随风飘 发表于 2020-1-4 11:36
18W速度估计在8-9小时,目前不知道有没有在用,我现在没跑包了,没有测试时间。

我用gtx760 只能跑到2.5w,估计要跑好几天了

白菜帮的 发表于 2020-1-4 14:46

这个必须有啊

嘟嘟猪 发表于 2020-1-4 16:37

最近才开始接触这个玩意,合并过几个网上及站内诸如奥巴马的字典,发现有几个问题,第一就是最常见的数据重复;第二是不可见字符出现在记录中,这种我认为用户理论不会出的,处理不可见字符集最简单就是逐个转ascii,33-126的是合规的,不在这个范围的可以弃掉了;再来说重复记录去重,一般用户的机器内存也就10G左右,想要将数10G以上的文件集做去重,纯加载至内存做hash是不现实的,倒是可以先按首字母聚合分文件,然后在跑去重,时间换空间~

jingke531 发表于 2020-1-4 19:17

学习。。。。。。。。。。。。

liuzhen8691 发表于 2020-1-4 19:43

楼主辛苦了 谢谢!

lixinyu10 发表于 2020-1-4 20:13

好东西

jiluyaku 发表于 2020-1-4 23:36

好东西,下起来

cblhj 发表于 2020-1-5 09:06

膜拜大神,先下下来瞅瞅

胖大星 发表于 2020-1-5 10:27

感谢分享

☆將恒少☆ 发表于 2020-1-5 11:10

支持,支持必须支持。

dongzi321 发表于 2020-1-5 12:02

uidshsh谢谢啦

上上网 发表于 2020-1-5 14:06

嘟嘟猪 发表于 2020-1-4 16:37
最近才开始接触这个玩意,合并过几个网上及站内诸如奥巴马的字典,发现有几个问题,第一就是最常见的数据重 ...

是32-126
页: 1 2 3 4 5 6 [7] 8 9 10 11 12 13 14 15 16
查看完整版本: 全网合并字典---《网络全库》字典64G