上等兵
- 注册时间
- 2019-12-21
- 金币
- 174 个
- 威望
- 0 个
- 荣誉
- 0 个
累计签到:12 天 连续签到:0 天 [LV.20]漫游旅程
|
最近才开始接触这个玩意,合并过几个网上及站内诸如奥巴马的字典,发现有几个问题,第一就是最常见的数据重复;第二是不可见字符出现在记录中,这种我认为用户理论不会出的,处理不可见字符集最简单就是逐个转ascii,33-126的是合规的,不在这个范围的可以弃掉了;再来说重复记录去重,一般用户的机器内存也就10G左右,想要将数10G以上的文件集做去重,纯加载至内存做hash是不现实的,倒是可以先按首字母聚合分文件,然后在跑去重,时间换空间~ |
|