yys5161 发表于 2024-4-27 22:30

求助,支持10G的字典去重复工具?

支持10G的字典去重复工具?哪位朋友有,小容量的去重复许多字典自带的也可用,如木头。

yegucheng0129 发表于 2024-4-28 09:37

有啥 好去重的,现在几百块买个P102磨改卡,随便跑50W,2070也不要几个钱,有钱直接4090,250W左右的速度

anhuzm 发表于 2024-4-28 17:15

几百块买个P102磨改卡,学习到了

yys5161 发表于 2024-4-28 21:19

谢谢两位朋友的建议,这个应该是比较实用的做法。但是适当学习下去重复有时也还是有作用的。

linst 发表于 2024-4-30 09:51

在Linux下很简单
一、两个文件的交集、并集(前提条件:每个文件中不得有重复行)

1. 取出两个文件的并集(重复的行只保留一份)

cat file1 file2 | sort | uniq > file3

2. 取出两个文件的交集(只留下同时存在于两个文件中的文件)

cat file1 file2 | sort | uniq -d > file3

3. 删除交集,留下其他的行

cat file1 file2 | sort | uniq -u > file3

二、两个文件合并

1. 一个文件在上,一个文件在下

cat file1 file2 > file3

2. 一个文件在左,一个文件在右

paste file1 file2 > file3

三、一个文件去掉重复的行

1. 重复的多行记为一行

sort file |uniq

2. 重复的行全部去掉

sort file |uniq -u

yys5161 发表于 2024-4-30 10:35

linst 发表于 2024-4-30 09:51
在Linux下很简单
一、两个文件的交集、并集(前提条件:每个文件中不得有重复行)



在Linux下原来这么简单啊。是否有文本大小限制。

yys5161 发表于 2024-4-30 14:59

linst 发表于 2024-4-30 09:51
在Linux下很简单
一、两个文件的交集、并集(前提条件:每个文件中不得有重复行)



简单是简单,但是windows下的界面操作更加方便啊。

qpalzm123 发表于 2024-4-30 15:34

yys5161 发表于 2024-4-30 14:59
简单是简单,但是windows下的界面操作更加方便啊。

闭源无法与开源相提并论,执行效率都不在一档次

yys5161 发表于 2024-5-1 20:51

今天来看下,哪位朋友有windows下的工具。

yys5161 发表于 2024-5-16 17:54

linst 发表于 2024-4-30 09:51
在Linux下很简单
一、两个文件的交集、并集(前提条件:每个文件中不得有重复行)



特来回复,试了cygwin64,大容量的花了点时间,但是可以轻松去重。多谢。

tt8023yy 发表于 2024-6-19 17:13

yys5161 发表于 2024-5-16 17:54
特来回复,试了cygwin64,大容量的花了点时间,但是可以轻松去重。多谢。

cygwin64 哪里下载?朋友。有使用教程么

yys5161 发表于 2024-6-20 10:48

tt8023yy 发表于 2024-6-19 17:13
cygwin64 哪里下载?朋友。有使用教程么

都是网络上下载的,用了下没有保存。已经不需要这个字典了。
页: [1]
查看完整版本: 求助,支持10G的字典去重复工具?