# 演示 此文件夹包含一些演示样例,帮助用户轻松体验 Data-Juicer 的各种功能和工具。 ## 用法 使用 `demos` 子目录下的 `app.py` 来执行演示样例。 ```shell cd streamlit run app.py ``` ## 可用的演示 - 数据集样例 (`data`) - 该文件夹包含一些样例数据集。 - 初探索 (`overview_scan`) - 该示例介绍了 Data-Juicer 的基本概念和功能,例如特性、配置系统,算子等等。 - 数据处理回路 (`data_process_loop`) - 该示例用来分析和处理数据集,并给出处理前后数据集的统计信息比对。 - 词法多样性可视化 (`data_visualization_diversity`) - 该示例可以用来分析 CFT 数据集的动词-名词结构,并绘制成sunburst层级环形图表。 - 算子效果可视化 (`data_visualization_op_effect`) - 该示例可以分析数据集的统计信息,并根据这些统计信息可以显示出每个 `Filter` 算子在不同阈值下的效果。 - 统计信息可视化 (`data_visualization_statistics`) - 该示例可以分析数据集,并获得多达13种统计信息。 - 处理 CFT 中文数据 (`process_cft_zh_data`) - 以 Alpaca-CoT 的部分中文数据为例,演示了 LLM 中指令跟随微调数据和有监督微调数据的分析和处理流程。 - 处理预训练科学文献类数据 (`process_sci_data`) - 以 arXiv 的部分数据为例,演示了如何处理 LLM 预训练中的科学文献类数据的分析和处理流程。 - 处理预训练代码类数据 (`process_code_data`) - 以 Stack-Exchange 的部分数据为例,演示了如何处理 LLM 预训练中的代码类数据的分析和处理流程。 - 文本质量打分器 (`tool_quality_classifier`) - 该示例提供了3种文本质量打分器,对数据集进行打分评估。 - 按语言分割数据集 (`tool_dataset_splitting_by_language`) - 该示例按照语言将数据集拆分为不同的子数据集。 - 数据混合 (`data_mixture`) - 该示例从多份数据集中进行采样并混合为一个新的数据集。