[英文主页] | [DJ-Cookbook] | [算子池] | [API] | [Awesome LLM Data]

Data Processing for and with Foundation Models

Data-Juicer

pypi version Docker version Docker on OSS

DataModality Usage ModelScope- Demos HuggingFace- Demos

Document_List 文档列表 算子池 Paper Paper

Data-Juicer 是一个一站式系统,面向大模型的文本及多模态数据处理。我们提供了一个基于 JupyterLab 的 Playground,您可以从浏览器中在线试用 Data-Juicer。 如果Data-Juicer对您的研发有帮助,请支持加星(自动订阅我们的新发布)、以及引用我们的工作

阿里云人工智能平台 PAI 已深度集成Data-Juicer到其数据处理产品中。PAI提供包含数据集管理、算力管理、模型工具链、模型开发、模型训练、模型部署、AI资产管理在内的功能模块,为用户提供高性能、高稳定、企业级的大模型工程化能力。数据处理的使用文档请参考:PAI-大模型数据处理

Data-Juicer正在积极更新和维护中,我们将定期强化和新增更多的功能和数据菜谱。热烈欢迎您加入我们,一起推进大模型的数据-模型协同开发和研究应用!

[Demo Video] DataJuicer-Agent:数据处理,即刻启程!

[Demo Video] DataJuicer-Sandbox: 降本增效,优化数据-模型协同开发!


新消息

History News: >
  • [2024-12-17] 我们提出了 HumanVBench,它包含 16 个以人为中心的任务,使用合成数据,从内在情感和外在表现的角度对22个视频 MLLM 的能力进行基准测试。请参阅我们的 论文 中的更多详细信息,并尝试使用它 评估 您的模型。

  • [2024-11-22] 我们发布 DJ v1.0.0,其中我们重构了 Data-Juicer 的 OperatorDatasetSandbox 和许多其他模块以提高可用性,例如支持容错、FastAPI 和自适应资源管理。

  • [2024-08-25] 我们在 KDD'2024 中提供了有关多模态 LLM 数据处理的教程

  • [2024-08-09] 我们提出了Img-Diff,它通过对比数据合成来增强多模态大型语言模型的性能,在MMVP benchmark中比GPT-4V高出12个点。 更多细节请参阅我们的 论文, 以及从 huggingfacemodelscope下载这份数据集。

  • [2024-07-24] "天池 Better Synth 多模态大模型数据合成赛"——第四届Data-Juicer大模型数据挑战赛已经正式启动!立即访问竞赛官网,了解赛事详情。

  • [2024-07-17] 我们利用Data-Juicer沙盒实验室套件,通过数据与模型间的系统性研发工作流,调优数据和模型,在VBench文生视频排行榜取得了新的榜首。相关成果已经整理发表在论文中,并且模型已在ModelScopeHuggingFace平台发布。

  • [2024-07-12] 我们的MLLM-Data精选列表已经演化为一个模型-数据协同开发的角度系统性综述。欢迎浏览或参与贡献!

  • [2024-06-01] ModelScope-Sora"数据导演"创意竞速——第三届Data-Juicer大模型数据挑战赛已经正式启动!立即访问竞赛官网,了解赛事详情。

  • [2024-03-07] 我们现在发布了 Data-Juicer v0.2.0! 在这个新版本中,我们支持了更多的 多模态数据(包括视频) 相关特性。我们还启动了 DJ-SORA ,为SORA-like大模型构建开放的大规模高质量数据集!

  • [2024-02-20] 我们在积极维护一份关于LLM-Data的精选列表,欢迎访问并参与贡献!

  • [2024-02-05] 我们的论文被SIGMOD'24 industrial track接收!

  • [2024-01-10] 开启"数据混合"新视界——第二届Data-Juicer大模型数据挑战赛已经正式启动!立即访问竞赛官网,了解赛事详情。

  • [2024-01-05] Data-Juicer v0.1.3 版本发布了。 在这个新版本中,我们支持了更多Python版本(3.8-3.10),同时支持了多模态数据集的转换处理(包括文本、图像和音频。更多模态也将会在之后支持)! 此外,我们的论文也更新到了第三版

  • [2023-10-13] 我们的第一届以数据为中心的 LLM 竞赛开始了! 请访问大赛官网,FT-Data Ranker(1B赛道7B赛道 ) ,了解更多信息。

为什么选择 Data-Juicer?

  • 系统化和可重用: 系统化地为用户提供 100 多个核心 算子 和 50 多个可重用的数据菜谱和 专用工具套件,旨在解耦于特定的多模态 LLM 数据集和处理管道运行。支持预训练、后训练、英语、中文等场景中的数据分析、清洗和合成。

  • 易用、可扩展: 简洁灵活,提供快速入门指南和包含丰富使用示例的DJ-Cookbook。您可以灵活实现自己的OP,自定义数据处理工作流。

Data-Juicer 现采用 AI 自动重写和优化算子的 docstring,并生成详细的算子文档,帮助更快理解每个算子的功能及用法。 如需了解该文档增强流程的具体实现,欢迎访问 dj_agents 分支下的 demos/op_doc_enhance_workflow 文件夹

  • 高效、稳定:提供性能优化的并行数据处理能力(Aliyun-PAI\Ray\CUDA\OP Fusion), 更快、更少资源消耗,基于大规模生产环境打磨。

  • 效果验证、沙盒:支持数据模型协同开发,通过沙盒实验室实现快速迭代,提供反馈循环、可视化等功能,让您更好地理解和改进数据和模型。已经有许多基于 DJ 衍生的数据菜谱和模型经过了效用验证,譬如在预训练、文生视频、图文生成等场景。 Data-in-the-loop

文档

开源协议

Data-Juicer 在 Apache License 2.0 协议下发布。

贡献与致谢

Data-Juicer 的发展离不开社区的参与和反馈,非常欢迎各方面的贡献:开发新的算子(无论是简单函数还是现有论文的先进算法)、分享新的数据菜谱和使用场景、提出新功能需求、提升代码效率、修复程序错误、完善项目文档、反馈使用体验等。您可参考开发者指南开启贡献;在社区中宣传本项目,或为我们的代码仓库点亮星标 ⭐,同样是对该项目非常宝贵的支持!

我们由衷感谢所有为本项目做出贡献的代码贡献者,他们是本项目的基石。我们尽力确保以下名单的完整和及时,并期待更多名字的加入(英文字母序排列)。若有疏漏,请随时联系我们。

我们期待您的反馈与合作。如您有合作意向或关于新子项目的提案,欢迎通过 GitHub Issues、Pull Requests、Slack 频道、钉钉群或邮件与我们联系。

参考文献

如果您发现Data-Juicer对您的研发有帮助,请引用以下工作,1.0paper, 2.0paper

@inproceedings{djv1,
  title={Data-Juicer: A One-Stop Data Processing System for Large Language Models},
  author={Daoyuan Chen and Yilun Huang and Zhijian Ma and Hesen Chen and Xuchen Pan and Ce Ge and Dawei Gao and Yuexiang Xie and Zhaoyang Liu and Jinyang Gao and Yaliang Li and Bolin Ding and Jingren Zhou},
  booktitle={International Conference on Management of Data},
  year={2024}
}

@article{djv2,
  title={Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for Foundation Models},
  author={Chen, Daoyuan and Huang, Yilun and Pan, Xuchen and Jiang, Nana and Wang, Haibin and Ge, Ce and Chen, Yushuo and Zhang, Wenhao and Ma, Zhijian and Zhang, Yilei and Huang, Jun and Lin, Wei and Li, Yaliang and Ding, Bolin and Zhou, Jingren},
  journal={arXiv preprint arXiv:2501.14755},
  year={2024}
}
更多Data-Juicer团队关于数据的论文: >