演示¶

此文件夹包含一些演示样例，帮助用户轻松体验 Data-Juicer 的各种功能和工具。

用法¶

使用 demos 子目录下的 app.py 来执行演示样例。

cd <subdir_of_demos>
streamlit run app.py

可用的演示¶

数据集样例 (data)
- 该文件夹包含一些样例数据集。
初探索 (overview_scan)
- 该示例介绍了 Data-Juicer 的基本概念和功能，例如特性、配置系统，算子等等。
数据处理回路 (data_process_loop)
- 该示例用来分析和处理数据集，并给出处理前后数据集的统计信息比对。
词法多样性可视化 (data_visualization_diversity)
- 该示例可以用来分析 CFT 数据集的动词-名词结构，并绘制成sunburst层级环形图表。
算子效果可视化 (data_visualization_op_effect)
- 该示例可以分析数据集的统计信息，并根据这些统计信息可以显示出每个 Filter 算子在不同阈值下的效果。
统计信息可视化 (data_visualization_statistics)
- 该示例可以分析数据集，并获得多达13种统计信息。
处理 CFT 中文数据 (process_cft_zh_data)
- 以 Alpaca-CoT 的部分中文数据为例，演示了 LLM 中指令跟随微调数据和有监督微调数据的分析和处理流程。
处理预训练科学文献类数据 (process_sci_data)
- 以 arXiv 的部分数据为例，演示了如何处理 LLM 预训练中的科学文献类数据的分析和处理流程。
处理预训练代码类数据 (process_code_data)
- 以 Stack-Exchange 的部分数据为例，演示了如何处理 LLM 预训练中的代码类数据的分析和处理流程。
文本质量打分器 (tool_quality_classifier)
- 该示例提供了3种文本质量打分器，对数据集进行打分评估。
按语言分割数据集 (tool_dataset_splitting_by_language)
- 该示例按照语言将数据集拆分为不同的子数据集。
数据混合 (data_mixture)
- 该示例从多份数据集中进行采样并混合为一个新的数据集。