DJ-Cookbook¶
资源合集¶
编写Data-Juicer (DJ) 代码¶
用例与数据菜谱¶
-
Data-Juicer 最小示例配方
复现开源文本数据集
改进开源文本预训练数据集
改进开源文本后处理数据集
合成对比学习图像文本数据集
改进开源图像文本数据集
视频数据的基本示例菜谱
合成以人为中心的视频评测集
改进现有的开源视频数据集
Data-Juicer相关竞赛
Better Synth,在DJ-沙盒实验室和多模态大模型上,探索大模型合成数据对图像理解能力的影响
Modelscope-Sora挑战赛,基于Data-Juicer和EasyAnimate框架,调优文本-视频数据集,在类SORA小模型上训练以生成更好的视频
Better Mixture,针对指定多个候选数据集,仅调整数据混合和采样策略
可图Kolors-LoRA风格故事挑战赛,基于Data-Juicer和DiffSynth-Studio框架,探索Diffusion模型微调
基于Data-Juicer和AgentScope框架,通过智能体调用DJ Filters和调用DJ Mappers
交互类示例¶
Data-Juicer 介绍 [ModelScope] [HuggingFace]
数据可视化:
基础指标统计 [ModelScope] [HuggingFace]
词汇多样性 [ModelScope] [HuggingFace]
算子洞察(单OP) [ModelScope] [HuggingFace]
算子效果(多OP) [ModelScope] [HuggingFace]
数据处理:
科学文献 (例如 arXiv) [ModelScope] [HuggingFace]
编程代码 (例如 TheStack) [ModelScope] [HuggingFace]
中文指令数据 (例如 Alpaca-CoT) [ModelScope] [HuggingFace]
工具池:
按语言分割数据集 [ModelScope] [HuggingFace]
CommonCrawl 质量分类器 [ModelScope] [HuggingFace]
基于 HELM 的自动评测 [ModelScope] [HuggingFace]
数据采样及混合 [ModelScope] [HuggingFace]
数据处理回路 [ModelScope] [HuggingFace]