“坏”数据展览¶
本文档是一个展览,展示了我们使用 Data-Juicer 处理不同数据集的时候发现的所谓的“坏”数据。该展览的目的包括:
它可以帮助用户更好地理解 Data-Juicer 中每个算子如何找到这些“坏”数据以提升数据集的“质量”。
各种数据集之间可能存在不可忽视的差异性。因此不同的算子可能在一些数据集上非常有效,而在其他数据集上可能并无大用。
无论人们认为一个数据集(如Wikipedia,Books等)可以有多高的质量,其中总会隐藏着一些“坏”数据。
目录¶
涉及算子¶
算子 |
数据集 |
---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
欢迎大家持续补充这个表格。
多模态数据集¶
LCS-558K¶
LLaVA-1.5 的预训练数据集。
LCS-558K
数据项 |
值 |
---|---|
来源算子 |
|
id |
004436823 |
aspect_ratio |
36.2857142857 |
文本 |
the timber in honey amber |
图像 |
|
说明 |
未对齐的图像与文本内容 |
数据项 |
值 |
---|---|
来源算子 |
|
id |
005568917 |
image_height |
5177 |
文本 |
the us coast guard's top five most popular aircrafts infographic |
图像 |
|
说明 |
高度/宽度过大的图像会在处理为模型输入后丢失大量的视觉信息 |
数据项 |
值 |
---|---|
来源算子 |
|
id |
003301613 |
image_width |
3469 |
文本 |
color the circle by number pages for children to learn colors |
图像 |
|
说明 |
高度/宽度过大的图像会在处理为模型输入后丢失大量的视觉信息 |
数据项 |
值 |
---|---|
来源算子 |
|
id |
002642925 |
image_size |
2,391 bytes |
文本 |
pink gold opal and diamond ring |
图像 |
|
说明 |
磁盘空间占用过小的图像可能是不包含有效内容的非法占位图像 |
数据项 |
值 |
---|---|
来源算子 |
|
id |
001365521 |
image_text_matching_score |
0.0008432278991676867 |
文本 |
a black bmw m140i sports hatch from a dealer's garage |
图像 |
|
说明 |
图像-文本匹配分数过低的图像可能是不包含有效内容的非法占位图像 |
数据项 |
值 |
---|---|
来源算子 |
|
id |
001135426 |
alnum_ratio |
0.429825 |
文本 |
dakin - laptopruck » » » » » » » » » » » » » » » » |
图像 |
|
说明 |
字母数字占比过低的文本可能包括多余的无意义的token |
数据项 |
值 |
---|---|
来源算子 |
|
id |
004292597 |
char_rep_ratio |
0.720207 |
文本 |
harden harden harden harden harden harden harden harden harden harden harden harden harden harden harden harden harden harden harden harden harden |
图像 |
|
说明 |
字符重复率较高的文本可能包括反复出现的相同内容(LCS-558K的文本由BLIP模型生成) |
数据项 |
值 |
---|---|
来源算子 |
|
id |
001013268 |
flagged_words_ratio |
0.263158 |
文本 |
porn photo video porn cartoon porn porn pictures online for adult porn |
图像 |
Won't display this image |
说明 |
标记词占比非零的文本可能包括黄暴等敏感内容 |
数据项 |
值 |
---|---|
来源算子 |
|
id |
002606088 |
perplexity |
19789.9 |
文本 |
real white pearl stud earrings sterling 925 925 9250 9210 9240 9210 9280 stud |
图像 |
|
说明 |
困惑度太大的文本可能包括无意义的内容 |
数据项 |
值 |
---|---|
来源算子 |
|
ids |
004559803, 003716167, 005659131 |
图像 |
|
说明 |
数据集中存在一些文件名不同的重复图像内容 |
MMC4¶
MMC4
数据项 |
值 |
---|---|
来源算子 |
|
aspect_ratios |
[1.6, 10.4651162791] |
对应文本 |
"We found that kahweol acetate and cafestol inhibited growth of cancer cells in mice, but the combination seemed to work synergistically, leading to a significantly slower tumour growth than in untreated mice," said lead author Hiroaki Iwamoto. |
图像 |
|
说明 |
未对齐的图像与文本内容。宽高比过大的图像会在处理为模型输入后丢失大量的视觉信息 |
数据项 |
值 |
---|---|
来源算子 |
|
image_sizes |
[453, 198343] |
对应文本 |
If you're in InfoSec, you are well aware of how this flies in the face of security team demographics. |
图像 |
|
说明 |
未对齐的图像与文本内容。磁盘空间占用过小的图像可能包含简单的无意义的内容 |
数据项 |
值 |
---|---|
来源算子 |
|
image_sizes |
[481, 517, 532, 482] |
对应文本 |
["Level Up Coin (LUC) is a cryptocurrency token and operates on the Ethereum platform.", "Level Up Coin has a current supply of 1,298,120,000 LUC with 996,923,370 LUC in circulation.", "The last known price of Level Up Coin is 0.000257 USD and is up 23.24% over the last 24 hours.", "More information can be found at https://play2live.io."] |
图像 |
|
说明 |
磁盘空间占用过小的图像可能为包含敏感信息的二维码 |
数据项 |
值 |
---|---|
来源算子 |
|
image_text_matching_score |
[0.0012427607] |
对应文本 |
Many a times, we face problems connecting to the internet in spite of the Android smartphone being connected to the Wi-Fi. |
图像 |
|
说明 |
未对齐的图像与文本内容。一些广告图像可能被错误地视为样本的一部分 |
数据项 |
值 |
---|---|
来源算子 |
|
word_rep_ratio |
0.917219 |
文本 |
|
说明 |
单词重复率过高的文本可能是一些相似的,重复但不相同的内容 |
纯文本数据集¶
Wikipedia¶
Wikipedia
数据项 |
值 |
---|---|
来源算子 |
|
wiki页面 |
|
alnum_ratio |
0.262965 |
文本 |
|
说明 |
字母数字占比过小的文本可能只包括一些结构化的内容,这些内容对于模型来说比较难以学习 |
数据项 |
值 |
---|---|
来源算子 |
|
wiki页面 |
|
char_rep_ratio |
0.818624 |
文本 |
|
说明 |
过高字符重复比例的文本可能包括表格中单元格的相同的风格代码 |
数据项 |
值 |
---|---|
来源算子 |
|
wiki页面 |
|
special_char_ratio |
0.861592 |
文本 |
|
说明 |
包括太多特殊字符的文本可能是一些其它页面的列表 |
数据项 |
值 |
---|---|
来源算子 |
|
wiki页面 |
|
text_len |
9 |
文本 |
|
说明 |
内容过短的文本可能是一个空页面 |
数据项 |
值 |
---|---|
来源算子 |
|
wiki页面 |
|
word_rep_ratio |
0.965517 |
文本 |
|
说明 |
单词重复率过高的文本可能是一些相关的,重复但不相同的内容的列表 |
Books¶
Books
数据项 |
值 |
---|---|
来源算子 |
|
alnum_ratio |
0 |
文本 |
|
说明 |
字母数字占比过小的文本可能只包括无意义的符号 |
数据项 |
值 |
---|---|
来源算子 |
|
char_rep_ratio |
0.86 |
文本 |
|
说明 |
字符重复率太高的文本可能包含大量的反复出现的内容 |
数据项 |
值 |
---|---|
来源算子 |
|
perplexity |
380817.4 |
文本 |
|
说明 |
困惑度太高的文本可能包括难以理解的内容(如ISBN) |
数据项 |
值 |
---|---|
来源算子 |
|
lang_score |
0.057 |
lang |
en |
文本 |
|
说明 |
语言分类分数过低的文本可能包括人类无法阅读理解的文本 |
数据项 |
值 |
---|---|
来源算子 |
|
special_char_ratio |
0.999 |
文本 |
|
说明 |
特殊字符占比过高的文本可能包括大量无实际意义的内容 |
Stack Exchange¶
Stack Exchange
数据项 |
值 |
---|---|
来源算子 |
|
char_rep_ratio |
0.969099481 |
文本 |
|
说明 |
字符重复率过大的文本可能包括某个图像的base64编码 |
数据项 |
值 |
---|---|
来源算子 |
|
num_words |
2 |
文本 |
|
说明 |
单词数量过少的文本可能内容缺失 |
ArXiv¶
ArXiv
数据项 |
值 |
---|---|
来源算子 |
|
text_len |
7 |
文本 |
|
说明 |
过短的ArXiv文本可能内容缺失 |
数据项 |
值 |
---|---|
来源算子 |
|
perplexity |
244697 |
文本 |
|
说明 |
困惑度过高的ArXiv文本可能是LaTeX代码中的表格区域内容 |
Github Code¶
Github Code
数据项 |
值 |
---|---|
来源算子 |
|
text_len |
10 |
文本 |
|
说明 |
过短的代码文本可能为缺失/无意义的内容 |
数据项 |
值 |
---|---|
来源算子 |
|
avg_line_length |
4.8571428571 |
文本 |
|
说明 |
平均行长度过短的代码文本可能为“不好”的代码 |