Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[飞桨多模态大模型套件PaddleMIX开发大赛] rfc: 为 PaddleMIX 增加数据处理模块 #909

Open
wants to merge 1 commit into
base: develop
Choose a base branch
from
Open
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
49 changes: 49 additions & 0 deletions paddlemix/datacopilot/example/20241224_paddlemix.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,49 @@
# 为 PaddleMIX 增加数据处理模块

| | |
| ---------- | --------------------- |
| 提交作者 | co63oc |
| 提交时间 | 2024-12-24 |
| RFC 版本号 | v1.0 |
| 文件名 | 20241224_paddlemix.md |

## 1. 概述

### 1.1 相关背景

飞桨多模态大模型套件PaddleMIX整合了业界前沿的多模态大模型与飞桨框架底层高性能技术,全面兼顾高性能算法、便捷开发、高效训练和完备部署,其丰富的多模态模型库覆盖图像、文本、视频、音频模态模型,以及LLaVA系列等理解模型及视频生成能力,适用金融文档多模分析、多模态医疗辅诊、电商智能营销、教育拍照解题等产业场景。

### 1.2 功能目标

为 PaddleMIX 增加数据处理模块

1. 多模态数据分析、过滤、配比
2. 实现基本的数据处理算子,并在llava_v1_5_mix665k数据集上验证

### 1.3 意义

为多模态大模型套件丰富数据分析和处理的能力

## 2. 方案背景

采用开源数据llava_v1_5_mix665k,有效性验证试验在LLaVA1.5 sft阶段进行。

## 3. 目标调研

https://github.com/modelscope/data-juicer 是一个一站式多模态数据处理系统,支持大多数数据格式(如jsonl、parquet、csv等)。支持自定义算子,以执行定制化的数据处理。

## 4. 设计思路与实现方案

将验证有效的数据处理方案合入PaddleMIX套件,包括数据分析和处理功能、单元测试适配、文档适配。

## 5. 测试和验收的考量

使用单元测试测试数据的预处理,过滤等。

## 6. 可行性分析和排期规划

安装 Data-Juicer 运行 demo 查看效果,查看数据分析处理步骤,在 PaddleMIX 中使用类似步骤结合 Paddle 进行数据分析数据。

## 7. 影响面

从多模态大模型数据的领域开展工具组件的建设工作,完善 PaddleMIX 多模态大模型套件数据分析和处理能力,减少用户开发成本。