refactor: separate dataframe and dataset #865

maartenbreddels · 2020-06-26T14:04:08Z

We're back to Dataset again 😄. An immutable mapping of name to column.

The idea is to abstract away the data part of a DataFrame, which gives us a few advantages.

We can have lazy loading of data, and reading of multiple columns in 1 go
- e.g. SQL from_sql and to_sql would be really helpful features in vaex #864
- Parquet via Arrow Dataset API
Dataset and thus DataFrames can be serialized (e.g. only store the hdf5 or arrow path, not serialize the data), so we can efficiently pickle/serialize/transport them with use of Dask/Ray/Mars.

This also starts with the idea of identifying data with a hash key to quickly compare data, which makes caching easier (e.g. also when using Dask), or when we want to cache complex operations (groupby).

We will not have subclasses of DataFrame anymore (except for DataFrameLocal and DataFrameRemote), all data specific
parts are done in the Dataset.

maartenbreddels · 2020-07-09T14:28:41Z

I can get it to work with both ray and dask, but dask crashes when doing distributed, not sure why. I think we want to ray/dask stuff on a different PR, but for now i keep this together. 2 commits in 1 PR would also be fine I think.

maartenbreddels force-pushed the refactor_dataset branch 2 times, most recently from 39c2f87 to 573c112 Compare July 15, 2020 14:49

This was referenced Jul 15, 2020

Refactor: use Apache Arrow compute for string function #885

Merged

Feat: stream hdf5 files directly from GCS #898

Merged

maartenbreddels force-pushed the refactor_dataset branch 2 times, most recently from 45f3592 to 6a73ce8 Compare August 7, 2020 13:16

maartenbreddels mentioned this pull request Aug 18, 2020

[FEATURE-REQUEST] Support netCDF-4 files #912

Open

maartenbreddels force-pushed the refactor_dataset branch 2 times, most recently from ff53e3c to 3dd9ecb Compare September 2, 2020 07:28

maartenbreddels closed this Sep 2, 2020

maartenbreddels reopened this Sep 2, 2020

maartenbreddels force-pushed the refactor_dataset branch from 3dd9ecb to fb4bedd Compare September 3, 2020 07:13

maartenbreddels mentioned this pull request Sep 4, 2020

Fix: Preserve dtype string after fillna() operation #953

Closed

2 tasks

maartenbreddels force-pushed the refactor_dataset branch 3 times, most recently from 9356088 to 4dd635c Compare September 4, 2020 13:11

fix(core): ast changes in py38 (e.g. NameConstant is gone)

64c8dd6

maartenbreddels force-pushed the refactor_dataset branch 7 times, most recently from 421bbcc to 2b2f178 Compare September 5, 2020 15:05

maartenbreddels added 2 commits September 7, 2020 09:10

refactor: separate dataframe and dataset

a703898

chore(ci): update action/cache to v2 and reset cache

e76f41e

maartenbreddels force-pushed the refactor_dataset branch from f2f00ef to e76f41e Compare September 7, 2020 07:10

maartenbreddels marked this pull request as ready for review September 8, 2020 06:29

maartenbreddels merged commit a21784b into master Sep 8, 2020

maartenbreddels deleted the refactor_dataset branch September 8, 2020 06:30

maartenbreddels mentioned this pull request Sep 21, 2020

fillna func with blank values convert column from sting type to object type #948

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

refactor: separate dataframe and dataset #865

refactor: separate dataframe and dataset #865

maartenbreddels commented Jun 26, 2020

maartenbreddels commented Jul 9, 2020

refactor: separate dataframe and dataset #865

refactor: separate dataframe and dataset #865

Conversation

maartenbreddels commented Jun 26, 2020

maartenbreddels commented Jul 9, 2020