Split dataset definitions into individual files #145

zqhuang211 · 2024-11-02T03:54:50Z

Separated dataset definitions from ultravox/data/registry.py into individual files for each dataset.
Updated all datasets to use transcription as the default assistant response.
Added the CoVoST2 dataset.
Minor bug fix.

liPatrick

LGTM

ultravox/data/types.py

ultravox/data/configs/commonvoice.py

- Separated dataset definitions from `ultravox/data/registry.py` into individual files for each dataset. - Ensured that `split_type` is set correctly. - Updated all datasets to use transcription as the default assistant response. - Added support for the CoVoST2 dataset. --------- Co-authored-by: Zhongqiang Huang <[email protected]>

* Fix typo in README.md (#128) * [bugfix] Missing enable_fsdp in 70b config (#132) * Update load warnings (#126) * Generic datasets with inheritance (#135) * Switch InterleaveDataset to use weights (e.g., 2.0, 0.5, etc) (#140) * Break up datasets.py (#141) * Update registry with more languages commonvoice (#143) * Split dataset definitions into individual files (#145) * Add whisper masking (#146) * Defining block size in UltravoxConfig, and solving assertions (#157)

Zhongqiang Huang added 3 commits November 1, 2024 23:46

update

d0bf53b

update

b6226f7

update

420fbea

zqhuang211 requested a review from liPatrick November 2, 2024 04:01

Zhongqiang Huang added 4 commits November 2, 2024 00:08

update

60f6757

update

f548cfb

update

b5d5e2e

update

9a57002

liPatrick approved these changes Nov 6, 2024

View reviewed changes

liPatrick reviewed Nov 6, 2024

View reviewed changes

ultravox/data/types.py Outdated Show resolved Hide resolved

liPatrick reviewed Nov 6, 2024

View reviewed changes

ultravox/data/configs/commonvoice.py Show resolved Hide resolved

Zhongqiang Huang added 3 commits November 5, 2024 23:58

update

996b2c0

update

ab44c5c

update

2e6c153

zqhuang211 requested a review from liPatrick November 6, 2024 08:07

Zhongqiang Huang added 3 commits November 6, 2024 00:15

update

367938b

update

f04598f

update

96d58c6

liPatrick approved these changes Nov 6, 2024

View reviewed changes

zqhuang211 merged commit 29a11dc into main Nov 6, 2024
1 check passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Split dataset definitions into individual files #145

Split dataset definitions into individual files #145

zqhuang211 commented Nov 2, 2024

liPatrick left a comment

Split dataset definitions into individual files #145

Split dataset definitions into individual files #145

Conversation

zqhuang211 commented Nov 2, 2024

liPatrick left a comment

Choose a reason for hiding this comment