veya2ztn / sci-bert-finetune Public

Notifications You must be signed in to change notification settings
Fork 0
Star 0

Fineturn your embedding model for science paper

0 stars 0 forks Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
art		art
config		config
finetune		finetune
memory_system		memory_system
models/jinabert		models/jinabert
notebook		notebook
qd_uniem		qd_uniem
qlora		qlora
script		script
uniem-train		uniem-train
.gitignore		.gitignore
README.md		README.md
pyrightconfig.json		pyrightconfig.json
requirement.txt		requirement.txt
start_sensesync.sh		start_sensesync.sh

Repository files navigation

This is the embedding training code for the scientific embedding project: [2405.11461] DocReLM: Mastering Document Retrieval with Language Model (arxiv.org).

The dataset is from the Synthetic data build via veya2ztn/Synthetic-Science: Those script try to create Synthetic Science QA answer-question pair efficiently and reasoning (github.com) based on veya2ztn/uparxive: llm-friendly dataest for the whole arxiv .tex source. (github.com)

llm_train

This repo integrate embedder training method

ART
SGPT
Finetune
- Pipline training
- Tensor Parallel: 1D, 2D and so on
Gradient Cache
Qlora
Uniem

About

Fineturn your embedding model for science paper

Report repository

Releases

No releases published

Packages

No packages published

Languages