Alpaca-CoT 完善配置文件¶
该文件夹包含的配置文件能够让用户轻松快速地完善 Alpaca-CoT。
预处理¶
原始数据文件在 HuggingFace 中的 Alpaca-CoT 下载。
将 Alpaca-CoT 转换为 jsonl 文件¶
使用 raw_alpaca_cot_merge_add_meta.py 选择数据集的 instruction
, input
和 output
3个字段,并使用空格将它们合并到 text
,同时在数据集中增加额外的[元信息](https://github.com/modelscope/data-juicer/blob/main/configs/data_juicer_recipes/alpaca_cot/ #meta_info) :
python tools/preprocess/raw_alpaca_cot_merge_add_meta.py \
--src_dir <Alpaca-CoT_src_dir> \
--target_dir <target_dir> \
--num_proc <num_proc>
按照语言将数据集拆分子数据集¶
使用 dataset_split_by_language.py 将数据集拆分为中文和英文:
python tools/preprocess/dataset_split_by_language.py \
--src_dir <src_dir> \
--target_dir <target_dir> \
--suffixes jsonl \
--num_proc <num_proc>
处理¶
在预处理完成之后,修改 alpaca-cot-en-refine.yaml 和 alpaca-cot-zh-refine.yaml 中的数据集路径,然后执行以下命令来复现完善过的 Alpaca-CoT 的处理流程。
# refine English dataset
python tools/process_data.py --config configs/data_juicer_recipes/alpaca_cot/alpaca-cot-en-refine.yaml
# refine Chinese dataset
python tools/process_data.py --config configs/data_juicer_recipes/alpaca_cot/alpaca-cot-zh-refine.yaml
元信息 ¶
在完善后的 Alpaca-CoT 的数据集中每个样本都包含元信息,标签说明如下:
Alpaca-CoT 元信息¶
Language 标签:
EN: 英文数据集
CN: 中文数据集
ML: 多语言数据集
Task 标签:
MT: 多任务数据集
TS: 特定任务数据集
产生方法:
HG: 人工产出数据集
SI: 机器产出数据集
MIX: 人工和机器混合数据集
COL: 从其他数据集合成的数据集
Data-Juicer 元信息¶
Dataset
: Alpaca-CoT 中的数据集名称origin_path
: Alpaca-CoT 中的原始文件路径IFT
:标记为指导(Instruct)微调数据集CFT
:标记为聊天(Chat)微调数据集CFT-SR
:标记为聊天类的单轮对话数据集CFT-MR
:标记为聊天类的多轮对话数据集CFT-P
:标记为偏好数据集
完善的 Alpaca-CoT 数据集元信息¶
任务 |
产生方法 |
语言 |
数据集 |
IFT |
CFT-SR |
CFT-MR |
CFT-P |
|
---|---|---|---|---|---|---|---|---|
Chain-of-Thought |
MT |
HG |
EN/CN |
Chain-of-Thought |
✅ |
|||
GPT4all |
MT |
COL |
EN |
GPT4all |
✅ |
✅ |
||
GPTeacher |
MT |
SI |
EN |
GPTeacher |
✅ |
|||
Guanaco |
MT |
SI |
ML |
Guanaco |
✅ |
|||
HC3 |
TS |
MIX |
EN/CN |
HC3 |
✅ |
✅ |
||
alpaca |
MT |
SI |
EN |
alpaca |
✅ |
|||
Natural-Instructions |
MT |
COL |
ML |
Natural-Instructions |
✅ |
|||
belle_cn |
TS/MT |
SI |
CN |
belle_cn |
✅ |
|||
instinwild |
MT |
SI |
EN/CN |
instinwild |
✅ |
|||
prosocial-dialog |
TS |
MIX |
EN |
prosocial-dialog |
✅ |
|||
finance |
TS |
COL |
EN |
finance |
✅ |
|||
xP3 |
MT |
COL |
ML |
xP3 |
✅ |
|||
firefly |
MT |
COL |
CN |
firefly |
✅ |
|||
instruct |
MT |
COL |
EN |
instruct |
✅ |
|||
CodeAlpaca |
TS |
SI |
EN |
CodeAlpaca |
✅ |
|||
alpacaGPT4 |
MT |
SI |
EN/CN |
alpacaGPT4 |
✅ |
✅ |
||
webGPT |
TS |
MIX |
EN |
webGPT |
✅ |
✅ |
||
dolly |
TS |
HG |
EN |
dolly |
✅ |
|||
baize |
MT |
COL |
EN |
baize |
✅ |
|||
hh-rlhf |
TS |
MIX |
EN |
hh-rlhf |
✅ |
✅ |
✅ |
|
OIG |
MT |
COL |
EN |
OIG |
✅ |
|||
GAOKAO |
MT |
COL |
CN |
GAOKAO |
✅ |
|||
camel |
MT |
SI |
EN |
camel |
✅ |
|||
FLAN-Muffin |
MT |
COL |
EN |
FLAN-Muffin |
✅ |
|||
COIG |
MT |
COL |
CN |
COIG |
✅ |
|||
gpt4tools |
MT |
SI |
EN |
gpt4tools |
✅ |
|||
ShareGPT |
MT |
MIX |
EN |
ShareGPT |
✅ |
✅ |
||
Auto-CoT |
MT |
COL |
EN |
Auto-CoT |
✅ |
|||
MOSS |
TS |
SI |
EN/CN |
MOSS |
✅ |
|||
ultrachat |
TS |
SI |
EN |
ultrachat |
✅ |
|||
Chinese-medical |
TS |
COL |
CN |
Chinese-medical |
✅ |
|||
CSL |
MT |
COL |
CN |
CSL |
✅ |
|||
pCLUE |
MT |
COL |
CN |
pCLUE |
✅ |
|||
news_commentary |
TS |
COL |
CN |
news_commentary |
✅ |
|||
StackExchange |
MT |
COL |
EN |
StackExchange |
✅ |
✅ |
||
ConvAI2 |
TS |
HG |
EN |
ConvAI2 |
✅ |
|||
FastChat |
MT |
SI |
EN |
FastChat |
✅ |
|||
Tabular-LLM-Data |
MT |
COL |
EN/CN |
Tabular-LLM-Data |
✅ |