From f5bdc120e851d5ac178eb59c89f4049f13893ecb Mon Sep 17 00:00:00 2001 From: MING_X <119648793+MING-ZCH@users.noreply.github.com> Date: Thu, 7 Mar 2024 22:40:28 +0800 Subject: [PATCH 1/4] Rename system_prompt.md to system_prompt_v1.md --- scripts/qa_generation/{system_prompt.md => system_prompt_v1.md} | 0 1 file changed, 0 insertions(+), 0 deletions(-) rename scripts/qa_generation/{system_prompt.md => system_prompt_v1.md} (100%) diff --git a/scripts/qa_generation/system_prompt.md b/scripts/qa_generation/system_prompt_v1.md similarity index 100% rename from scripts/qa_generation/system_prompt.md rename to scripts/qa_generation/system_prompt_v1.md From 86f8aaf82ecbd5eb3e7d85933c276965529e482c Mon Sep 17 00:00:00 2001 From: MING_X <119648793+MING-ZCH@users.noreply.github.com> Date: Thu, 7 Mar 2024 22:52:32 +0800 Subject: [PATCH 2/4] Create system_prompt_v2.md --- scripts/qa_generation/system_prompt_v2.md | 26 +++++++++++++++++++++++ 1 file changed, 26 insertions(+) create mode 100644 scripts/qa_generation/system_prompt_v2.md diff --git a/scripts/qa_generation/system_prompt_v2.md b/scripts/qa_generation/system_prompt_v2.md new file mode 100644 index 0000000..0adb229 --- /dev/null +++ b/scripts/qa_generation/system_prompt_v2.md @@ -0,0 +1,26 @@ +你是一名经验丰富的心理咨询师,熟悉心理学相关知识和心理咨询技术。请你请深呼吸并一步一步思考,根据我提供的【心理学文本内容】生成符合标准的 QA 对。 + +标准如下: +- 每段心理学文本生成5-10条 QA 对 +- QA 对应根据心理学文本内容,选择"心理学知识; 具体咨询方法; 心理疾病特征; 心理疾病治疗方法"中最合适的主题生成 +- QA 对内容不能重复,答案不能过长 +- QA 对为简体中文 +- 生成的 QA 对需要用 markdown 格式的 json 代码块包裹起来 + +参考格式如下: + +```json +[ + { + "question": "...", + "answer": "..." + }, + { + "question": "...", + "answer": "..." + }, + ... +] +``` + +以下是给定的心理学文本内容: From 2424d2fcf3aa0673dc0bb9820f67dd77abb532c3 Mon Sep 17 00:00:00 2001 From: MING_X <119648793+MING-ZCH@users.noreply.github.com> Date: Thu, 7 Mar 2024 22:54:32 +0800 Subject: [PATCH 3/4] Update README.md --- scripts/qa_generation/README.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/scripts/qa_generation/README.md b/scripts/qa_generation/README.md index 068b84c..2db17c4 100644 --- a/scripts/qa_generation/README.md +++ b/scripts/qa_generation/README.md @@ -8,7 +8,7 @@ 而后,在 `config/config.py` 配置所需的 API KEY,从 `main.py` 启动即可。生成的 QA 对会以 jsonl 的格式存在 `data/generated` 下。 -可以调整 `system_prompt.md`,增强生成的多样性和稳定性。 +可以调整 `system_prompt`,增强生成的多样性和稳定性。 ### 1.1 API KEY 获取方法 @@ -41,4 +41,4 @@ 1. 支持更多模型(Gemini、GPT、ChatGLM……) 2. 支持多线程调用模型 3. 支持更多文本格式(PDF……) -4. 支持更多切分文本的方式 \ No newline at end of file +4. 支持更多切分文本的方式 From f90745e3860aedf2aa924c2f01ba42917f8fe686 Mon Sep 17 00:00:00 2001 From: MING_X <119648793+MING-ZCH@users.noreply.github.com> Date: Thu, 7 Mar 2024 23:05:30 +0800 Subject: [PATCH 4/4] Update README.md --- scripts/qa_generation/README.md | 10 ++++------ 1 file changed, 4 insertions(+), 6 deletions(-) diff --git a/scripts/qa_generation/README.md b/scripts/qa_generation/README.md index 2db17c4..679c217 100644 --- a/scripts/qa_generation/README.md +++ b/scripts/qa_generation/README.md @@ -1,14 +1,12 @@ # QA Generation Pipeline - - ## 1. 使用方法 -检查 `requirements.txt` 中的依赖是否满足。 - -而后,在 `config/config.py` 配置所需的 API KEY,从 `main.py` 启动即可。生成的 QA 对会以 jsonl 的格式存在 `data/generated` 下。 +1. 检查 `requirements.txt` 中的依赖是否满足。 -可以调整 `system_prompt`,增强生成的多样性和稳定性。 +2. 调整代码中 `system_prompt`,确保与repo最新版本一致,保证生成QA的多样性和稳定性。 + +3. 在 `config/config.py` 配置所需的 API KEY,从 `main.py` 启动即可。生成的 QA 对会以 jsonl 的格式存在 `data/generated` 下。 ### 1.1 API KEY 获取方法