softgrep

Code semantic search tool. Uses tree-sitter to quickly parse files in a language-aware manner, and generates embeddings on a remote server over gRPC. Uses embeddings to perform semantic search. Takes full advantage of parallelism to parse files and tokenize semantic chunks. Fully language agnostic with tree-sitter. Aware of git. Caches results for increased performance. Like ripgrep except for semantic search.

At a high level, the flow looks like:

cli -> walk directory -> chunk version controlled files with tree sitter -> tokenize via huggingface fast tokenizer -> generate embeddings remotely via gRPC client -> cosine distance nearest neighbor search on flat index

The embedding service runs remotely on Triton. Right now am using microsoft/codebert-base.

Name		Name	Last commit message	Last commit date
Latest commit History 76 Commits
cmd/softgrep		cmd/softgrep
pb		pb
pkg		pkg
scripts		scripts
test		test
testdata/requests/predict		testdata/requests/predict
tool/generate_ts_import		tool/generate_ts_import
.dockerignore		.dockerignore
.gitignore		.gitignore
Dockerfile		Dockerfile
Makefile		Makefile
README.md		README.md
go.mod		go.mod
go.sum		go.sum
requirements.txt		requirements.txt
shell.nix		shell.nix

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

softgrep

About

Releases

Packages

Languages

skrider/softgrep

Folders and files

Latest commit

History

Repository files navigation

softgrep

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages