Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[飞桨多模态大模型套件PaddleMIX开发大赛] rfc: 使用外部模型API进行数据清洗 #924

Open
wants to merge 2 commits into
base: develop
Choose a base branch
from
Open
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
64 changes: 64 additions & 0 deletions paddlemix/datacopilot/example/外部模型API协同处理.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,64 @@
# 外部模型 API 协同处理

| | |
| ---------- | ------------------------ |
| 提交作者 | drryanhuang |
| 提交时间 | 2024-12-5 |
| RFC 版本号 | v1.0 |
| 文件名 | 外部模型 API 协同处理.md |

# 1. 概述

## 1.1 背景

PaddleMIX 是一款基于飞桨(PaddlePaddle)的多模态大模型开发套件,集成了图像、文本和视频等多种模态,支持视觉语言预训练、微调、多模态生成与理解等任务。它提供简洁的开发体验和灵活的定制选项,助力通用人工智能的发展。

该套件具备强大的多模态理解能力,应用范围广泛,从自然图像摘要到情感识别,覆盖教育、医疗和工业等领域。在多模态生成方面,PaddleMIX 支持从文字生成图像和视频,应用于艺术创作和内容生成。它支持主流算法和预训练模型,提供高性能的分布式训练与推理能力,支持 BF16 混合精度训练和多种优化策略,显著提升预训练和推理性能。用户还可以结合专有数据进行微调,以满足不同领域的需求。

本方案旨在通过调用外部模型 API,判断单样本数据中的“**问题是否合理**”和“**回复是否有幻觉**”,实现数据清洗的目的。通过构建多模态大模型数据领域的工具组件,完善飞桨多模态大模型套件的数据分析和处理能力,降低用户的开发成本。

## 1.2 功能目标

增加调用 ERNIE/OpenAI 等模型系列 API,或在 AppBuilder/AgentBuilder 平台构建智能体进行数据清洗的功能,以判断“**问题是否合理**”和“**回复是否有幻觉**”。

## 1.3 意义

提升训练数据质量,进而提高模型性能和可靠性。

# 2. 方案背景

在自然语言评估领域,特别是对话闲聊场景中,通过精调提示、思维链、少样本学习和多模型集成等手段,大模型已经取得了显著的成果。本方案通过调用多个模型和智能体平台的 API,判断“**问题是否合理**”和“**回复是否有幻觉**”,从而优化数据质量。

# 3. 设计思路与实现方案

利用 ERNIE SDK/OpenAI 的接口,判断数据中的“**问题是否合理**”和“**回复是否有幻觉**”,并清洗掉不符合要求的脏数据。具体步骤如下:

1. **数据输入**:获取待清洗的数据集。
2. **模型调用**:通过 API 调用 ERNIE/OpenAI 模型,对每个数据样本进行评估。
- 判断问题的合理性。
- 检测回复中是否存在幻觉内容。
3. **数据过滤**:根据评估结果,过滤掉不合理的问题和含有幻觉的回复。
4. **数据输出**:生成清洗后的高质量数据集。

# 4. 测试与验收考量

- **实现基本的数据处理算子**:确保数据清洗流程的基本功能可用。
- **数据集验证**:在 LLaVA_v1.5_mix665k 数据集上进行验证。
- **阶段性测试**:在 LLaVA1.5 SFT(监督微调)阶段验证方案的有效性。
- **结果提交**:提交评估结果和相关日志。
- **性能比较**:对比过滤后的数据集所训练的模型与未过滤数据所训练的模型之间的精度差异。

# 5. 可行性分析与排期规划

本方案主要实现两个模型/API 的调用和模型训练与性能比较,预计时间如下:

- **调用 OpenAI 模型的 API**:预计 1 天
- **调用 ERNIE 模型的 API**:预计 1 天
- **在 AppBuilder/AgentBuilder 平台构建智能体**:预计 2 天
- **模型训练与精度比对**:预计 2 天

**总计时间**:6 天

# 6. 影响范围

通过提升训练数据质量,间接提高模型的整体性能和稳定性。该方案对现有的训练流程无直接影响,但能显著提升模型的实际应用效果。