数据菜谱Gallery¶
菜谱文件夹下包含丰富的Data-Juicer数据菜谱的示例文件,帮助用户轻松理解、复用、扩展各种功能场景下的配置。
📣📣📣 社区贡献者可提PR添加自定义的数据菜谱,促进传播、复用和相关技术演进。我们非常欢迎共建,并会高亮致谢!
目录
1. Data-Juicer最小示例菜谱¶
Demo文件夹下放置了一些基础配置文件,用于帮助用户快速熟悉 Data-Juicer 的基本功能,请参阅以获取详细说明。
2. 复现开源文本数据集¶
我们复现了部分 Redpajama 数据集的处理流程,请参阅 reproduced_redpajama 文件夹以获取详细说明。
我们重现了部分 BLOOM 数据集的处理流程,请参阅 reproduced_bloom 文件夹以获取详细说明。
3. 改良开源文本预训练数据集¶
我们发现在现有的已经处理过的数据集(如 Redpajama、The Pile 等)中仍然存在一些“脏”数据样本。所以我们使用我们的 Data-Juicer 来完善这些数据集,并尝试将它们提供给 LLM 以获得更好的性能。
我们使用简单的 3-σ 规则来设置每个数据处理菜谱中的算子的超参数。
数据子集 |
完善前的样本数目 |
完善后的样本数目 |
样本保留率 |
配置链接 |
数据链接 |
来源 |
---|---|---|---|---|---|---|
arXiv |
1,724,497 |
1,655,259 |
95.99% |
Redpajama |
||
Books |
205,182 |
195,983 |
95.51% |
Redpajama |
||
Wikipedia |
29,834,171 |
26,990,659 |
90.47% |
Redpajama |
||
C4 |
364,868,892 |
344,491,171 |
94.42% |
Redpajama |
||
Common Crawl 2019-30 |
81,085,420 |
36,557,283 |
45.08% |
Redpajama |
||
Common Crawl 2020-05 |
90,850,492 |
42,612,596 |
46.90% |
Redpajama |
||
Common Crawl 2021-04 |
98,878,523 |
44,724,752 |
45.23% |
Redpajama |
||
Common Crawl 2022-05 |
94,058,868 |
42,648,496 |
45.34% |
Redpajama |
||
Common Crawl 2023-06 |
111,402,716 |
50,643,699 |
45.46% |
Redpajama |
||
Github Code |
73,208,524 |
49,279,344 |
52.09% |
redpajama-code-refine.yaml |
Redpajama |
|
StackExchange |
45,447,328 |
26,309,203 |
57.89% |
Redpajama |
||
EuroParl |
69,814 |
61,601 |
88.23% |
The Pile |
||
FreeLaw |
3,562,015 |
2,942,612 |
82.61% |
The Pile |
||
HackerNews |
373,027 |
371,331 |
99.55% |
The Pile |
||
NIH ExPorter |
939,661 |
858,492 |
91.36% |
The Pile |
||
PhilPapers |
32,782 |
29,117 |
88.82% |
The Pile |
||
PubMed Abstracts |
15,518,009 |
15,009,325 |
96.72% |
The Pile |
||
PubMed Central |
3,098,930 |
2,694,860 |
86.96% |
The Pile |
||
USPTO |
5,883,024 |
4,516,283 |
76.77% |
The Pile |
4. 改良开源文本后处理数据集¶
以Alpaca-CoT数据集为例:
数据子集 |
完善前的样本数目 |
完善后的样本数目 |
样本保留率 |
配置链接 |
数据链接 |
来源 |
---|---|---|---|---|---|---|
Alpaca-Cot EN |
136,219,879 |
72,855,345 |
54.48% |
|||
Alpaca-Cot ZH |
21,197,246 |
9,873,214 |
46.58% |
5. 合成对比学习图文数据集¶
Data-Juicer内置了丰富的算子来支持图片多模态数据合成,譬如Img-Diff数据集。该合成数据在MMVP基准上带来了12个性能点的模型提升。更多细节参见Img-Diff论文,对应菜谱实现可参考ImgDiff-Dev.
6. 改良开源图文数据集¶
数据子集 |
完善前的样本数目 |
完善后的样本数目 |
样本保留率 |
配置链接 |
数据链接 |
来源 |
---|---|---|---|---|---|---|
LLaVA pretrain (LCS-558k) |
558,128 |
500,380 |
89.65% |
|||
Data-Juicer (T2V, 147k) |
1,217,346 |
147,176 |
12.09% |
|||
Data-Juicer (DJ, 228k) |
3,408,553 |
227,867 |
8.15% |
InternVid (606k) |
6.1. 评测验证¶
LLaVA pretrain (LCS-558k): 使用完善后的预训练数据集预训练并使用原始的指令数据集微调后的模型在12个评测集上有10个超过了基线模型LLaVA-1.5-13B。
模型 |
VQAv2 |
GQA |
VizWiz |
SQA |
TextVQA |
POPE |
MME |
MM-Bench |
MM-Bench-CN |
SEED |
LLaVA-Bench-Wild |
MM-Vet |
---|---|---|---|---|---|---|---|---|---|---|---|---|
LLaVA-1.5-13B |
80.0 |
63.3 |
53.6 |
71.6 |
61.3 |
85.9 |
1531.3 |
67.7 |
63.6 |
61.6 |
72.5 |
36.1 |
LLaVA-1.5-13B |
79.94 |
63.5 |
54.09 |
74.20 |
60.82 |
86.67 |
1565.53 |
68.2 |
63.9 |
61.8 |
75.9 |
37.4 |
Data-Juicer (T2V, 147k) 和 Data-Juicer (DJ, 228k): 使用完善后的数据集在 VBench 全面超过基线模型 T2V-Turbo。这里 T2V-Turbo 是 Data-Juicer (T2V, 147k) 的teacher模型,Data-Juicer (T2V, 147k) 是 Data-Juicer (DJ, 228k) 的teacher模型,详情请参考沙盒实验室。
model |
Total Score |
Quality Score |
Semantic Score |
subject consistency |
background consistency |
temporal flickering |
motion smoothness |
dynamic degree |
aesthetic quality |
---|---|---|---|---|---|---|---|---|---|
T2V-Turbo |
81.01 |
82.57 |
74.76 |
96.28 |
97.02 |
97.48 |
97.34 |
49.17 |
63.04 |
Data-Juicer (T2V, 147k) |
82.10 |
83.14 |
77.93 |
97.32 |
99.03 |
96.60 |
96.51 |
51.67 |
68.92 |
Data-Juicer (DJ, 228k) |
82.53 |
83.38 |
79.13 |
97.92 |
99.27 |
98.14 |
97.77 |
38.89 |
67.39 |
model |
imaging quality |
object class |
multiple objects |
human action |
color |
spatial relationship |
scene |
appearance style |
temporal style |
overall consistency |
---|---|---|---|---|---|---|---|---|---|---|
T2V-Turbo |
72.49 |
93.96 |
54.65 |
95.20 |
89.90 |
38.67 |
55.58 |
24.42 |
25.51 |
28.16 |
Data-Juicer (T2V, 147k) |
70.42 |
95.85 |
61.63 |
95.60 |
94.06 |
46.95 |
57.57 |
24.42 |
26.34 |
28.90 |
Data-Juicer (DJ, 228k) |
70.41 |
96.44 |
64.51 |
95.40 |
95.51 |
47.17 |
57.30 |
25.55 |
26.82 |
29.25 |
7. 面向视频数据的基础实例菜谱¶
我们为用户提供了一个视频数据集处理菜谱样例以协助更好地使用视频相关的算子: general-video-refine-example.yaml 。这里我们应用了三种类型的算子:
仅文本:根据视频描述提高数据集质量
仅视频:根据视频性质提高数据集质量
文本-视频:根据文本和视频间的对齐提高数据集质量 用户可以基于这个菜谱开始他们的视频数据集处理流程。
8. 合成以人为中心的视频评测集¶
Data-Juicer还可以支持视频评测集合成,如HumanVBench,其将in-the-wild视频转化为以人为中心的视频评测集),对应的数据菜谱和构造流程可参考HumanVBench-dev。
9. 改良现有开源视频数据集¶
数据子集 |
完善前的样本数目 |
完善后的样本数目 |
样本保留率 |
配置链接 |
数据链接 |
来源 |
---|---|---|---|---|---|---|
Data-Juicer (T2V, 147k) |
1,217,346 |
147,176 |
12.09% |
|||
Data-Juicer (DJ, 228k) |
3,408,553 |
227,867 |
8.15% |
InternVid (606k) |
9.1. 评测验证¶
Data-Juicer (T2V, 147k) 和 Data-Juicer (DJ, 228k): 使用完善后的数据集在 VBench 全面超过基线模型 T2V-Turbo。这里 T2V-Turbo 是 Data-Juicer (T2V, 147k) 的teacher模型,Data-Juicer (T2V, 147k) 是 Data-Juicer (DJ, 228k) 的teacher模型,详情请参考沙盒实验室。
model |
Total Score |
Quality Score |
Semantic Score |
subject consistency |
background consistency |
temporal flickering |
motion smoothness |
dynamic degree |
aesthetic quality |
---|---|---|---|---|---|---|---|---|---|
T2V-Turbo |
81.01 |
82.57 |
74.76 |
96.28 |
97.02 |
97.48 |
97.34 |
49.17 |
63.04 |
Data-Juicer (T2V, 147k) |
82.10 |
83.14 |
77.93 |
97.32 |
99.03 |
96.60 |
96.51 |
51.67 |
68.92 |
Data-Juicer (DJ, 228k) |
82.53 |
83.38 |
79.13 |
97.92 |
99.27 |
98.14 |
97.77 |
38.89 |
67.39 |
model |
imaging quality |
object class |
multiple objects |
human action |
color |
spatial relationship |
scene |
appearance style |
temporal style |
overall consistency |
---|---|---|---|---|---|---|---|---|---|---|
T2V-Turbo |
72.49 |
93.96 |
54.65 |
95.20 |
89.90 |
38.67 |
55.58 |
24.42 |
25.51 |
28.16 |
Data-Juicer (T2V, 147k) |
70.42 |
95.85 |
61.63 |
95.60 |
94.06 |
46.95 |
57.57 |
24.42 |
26.34 |
28.90 |
Data-Juicer (DJ, 228k) |
70.41 |
96.44 |
64.51 |
95.40 |
95.51 |
47.17 |
57.30 |
25.55 |
26.82 |
29.25 |