演示

此文件夹包含一些演示样例,帮助用户轻松体验 Data-Juicer 的各种功能和工具。

用法

使用 demos 子目录下的 app.py 来执行演示样例。

cd <subdir_of_demos>
streamlit run app.py

可用的演示

  • 数据集样例 (data)

    • 该文件夹包含一些样例数据集。

  • 初探索 (overview_scan)

    • 该示例介绍了 Data-Juicer 的基本概念和功能,例如特性、配置系统,算子等等。

  • 数据处理回路 (data_process_loop)

    • 该示例用来分析和处理数据集,并给出处理前后数据集的统计信息比对。

  • 词法多样性可视化 (data_visualization_diversity)

    • 该示例可以用来分析 CFT 数据集的动词-名词结构,并绘制成sunburst层级环形图表。

  • 算子效果可视化 (data_visualization_op_effect)

    • 该示例可以分析数据集的统计信息,并根据这些统计信息可以显示出每个 Filter 算子在不同阈值下的效果。

  • 统计信息可视化 (data_visualization_statistics)

    • 该示例可以分析数据集,并获得多达13种统计信息。

  • 处理 CFT 中文数据 (process_cft_zh_data)

    • 以 Alpaca-CoT 的部分中文数据为例,演示了 LLM 中指令跟随微调数据和有监督微调数据的分析和处理流程。

  • 处理预训练科学文献类数据 (process_sci_data)

    • 以 arXiv 的部分数据为例,演示了如何处理 LLM 预训练中的科学文献类数据的分析和处理流程。

  • 处理预训练代码类数据 (process_code_data)

    • 以 Stack-Exchange 的部分数据为例,演示了如何处理 LLM 预训练中的代码类数据的分析和处理流程。

  • 文本质量打分器 (tool_quality_classifier)

    • 该示例提供了3种文本质量打分器,对数据集进行打分评估。

  • 按语言分割数据集 (tool_dataset_splitting_by_language)

    • 该示例按照语言将数据集拆分为不同的子数据集。

  • 数据混合 (data_mixture)

    • 该示例从多份数据集中进行采样并混合为一个新的数据集。