Rayxon
发表于 2020-1-4 14:04
随风飘 发表于 2020-1-4 11:36
18W速度估计在8-9小时,目前不知道有没有在用,我现在没跑包了,没有测试时间。
我用gtx760 只能跑到2.5w,估计要跑好几天了
白菜帮的
发表于 2020-1-4 14:46
这个必须有啊
嘟嘟猪
发表于 2020-1-4 16:37
最近才开始接触这个玩意,合并过几个网上及站内诸如奥巴马的字典,发现有几个问题,第一就是最常见的数据重复;第二是不可见字符出现在记录中,这种我认为用户理论不会出的,处理不可见字符集最简单就是逐个转ascii,33-126的是合规的,不在这个范围的可以弃掉了;再来说重复记录去重,一般用户的机器内存也就10G左右,想要将数10G以上的文件集做去重,纯加载至内存做hash是不现实的,倒是可以先按首字母聚合分文件,然后在跑去重,时间换空间~
jingke531
发表于 2020-1-4 19:17
学习。。。。。。。。。。。。
liuzhen8691
发表于 2020-1-4 19:43
楼主辛苦了 谢谢!
lixinyu10
发表于 2020-1-4 20:13
好东西
jiluyaku
发表于 2020-1-4 23:36
好东西,下起来
cblhj
发表于 2020-1-5 09:06
膜拜大神,先下下来瞅瞅
胖大星
发表于 2020-1-5 10:27
感谢分享
☆將恒少☆
发表于 2020-1-5 11:10
支持,支持必须支持。
dongzi321
发表于 2020-1-5 12:02
uidshsh谢谢啦
上上网
发表于 2020-1-5 14:06
嘟嘟猪 发表于 2020-1-4 16:37
最近才开始接触这个玩意,合并过几个网上及站内诸如奥巴马的字典,发现有几个问题,第一就是最常见的数据重 ...
是32-126