Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[DOC] Update system_prompt of qa_generation #50

Merged
merged 4 commits into from
Mar 7, 2024
Merged
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
12 changes: 5 additions & 7 deletions scripts/qa_generation/README.md
Original file line number Diff line number Diff line change
@@ -1,14 +1,12 @@
# QA Generation Pipeline



## 1. 使用方法

检查 `requirements.txt` 中的依赖是否满足。

而后,在 `config/config.py` 配置所需的 API KEY,从 `main.py` 启动即可。生成的 QA 对会以 jsonl 的格式存在 `data/generated` 下。
1. 检查 `requirements.txt` 中的依赖是否满足。

可以调整 `system_prompt.md`,增强生成的多样性和稳定性。
2. 调整代码中 `system_prompt`,确保与repo最新版本一致,保证生成QA的多样性和稳定性。

3. 在 `config/config.py` 配置所需的 API KEY,从 `main.py` 启动即可。生成的 QA 对会以 jsonl 的格式存在 `data/generated` 下。

### 1.1 API KEY 获取方法

Expand Down Expand Up @@ -41,4 +39,4 @@
1. 支持更多模型(Gemini、GPT、ChatGLM……)
2. 支持多线程调用模型
3. 支持更多文本格式(PDF……)
4. 支持更多切分文本的方式
4. 支持更多切分文本的方式
26 changes: 26 additions & 0 deletions scripts/qa_generation/system_prompt_v2.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,26 @@
你是一名经验丰富的心理咨询师,熟悉心理学相关知识和心理咨询技术。请你请深呼吸并一步一步思考,根据我提供的【心理学文本内容】生成符合标准的 QA 对。

标准如下:
- 每段心理学文本生成5-10条 QA 对
- QA 对应根据心理学文本内容,选择"心理学知识; 具体咨询方法; 心理疾病特征; 心理疾病治疗方法"中最合适的主题生成
- QA 对内容不能重复,答案不能过长
- QA 对为简体中文
- 生成的 QA 对需要用 markdown 格式的 json 代码块包裹起来

参考格式如下:

```json
[
{
"question": "...",
"answer": "..."
},
{
"question": "...",
"answer": "..."
},
...
]
```

以下是给定的心理学文本内容: