演示¶
此文件夹包含一些演示样例,帮助用户轻松体验 Data-Juicer 的各种功能和工具。
用法¶
使用 demos
子目录下的 app.py
来执行演示样例。
cd <subdir_of_demos>
streamlit run app.py
可用的演示¶
数据集样例 (
data
)该文件夹包含一些样例数据集。
初探索 (
overview_scan
)该示例介绍了 Data-Juicer 的基本概念和功能,例如特性、配置系统,算子等等。
数据处理回路 (
data_process_loop
)该示例用来分析和处理数据集,并给出处理前后数据集的统计信息比对。
词法多样性可视化 (
data_visualization_diversity
)该示例可以用来分析 CFT 数据集的动词-名词结构,并绘制成sunburst层级环形图表。
算子效果可视化 (
data_visualization_op_effect
)该示例可以分析数据集的统计信息,并根据这些统计信息可以显示出每个
Filter
算子在不同阈值下的效果。
统计信息可视化 (
data_visualization_statistics
)该示例可以分析数据集,并获得多达13种统计信息。
处理 CFT 中文数据 (
process_cft_zh_data
)以 Alpaca-CoT 的部分中文数据为例,演示了 LLM 中指令跟随微调数据和有监督微调数据的分析和处理流程。
处理预训练科学文献类数据 (
process_sci_data
)以 arXiv 的部分数据为例,演示了如何处理 LLM 预训练中的科学文献类数据的分析和处理流程。
处理预训练代码类数据 (
process_code_data
)以 Stack-Exchange 的部分数据为例,演示了如何处理 LLM 预训练中的代码类数据的分析和处理流程。
文本质量打分器 (
tool_quality_classifier
)该示例提供了3种文本质量打分器,对数据集进行打分评估。
按语言分割数据集 (
tool_dataset_splitting_by_language
)该示例按照语言将数据集拆分为不同的子数据集。
数据混合 (
data_mixture
)该示例从多份数据集中进行采样并混合为一个新的数据集。