Decrease default cuda architectures to build on cause the limitation of the host compiler. #10415

levi131 · 2024-01-22T14:53:26Z

No description provided.

github-actions · 2024-01-22T15:35:05Z

View latest API docs preview at: https://oneflow-staging.oss-cn-beijing.aliyuncs.com/docs/Oneflow-Inc/oneflow/pr/10415/

jackalcooper · 2024-01-22T15:43:10Z

这是测试还是要合并

github-actions · 2024-01-22T16:16:01Z

Speed stats:

GPU Name: NVIDIA GeForce RTX 3080 Ti 

❌ OneFlow resnet50 time: 43.9ms (= 4386.3ms / 100, input_shape=[16, 3, 224, 224])
PyTorch resnet50 time: 57.4ms (= 5735.5ms / 100, input_shape=[16, 3, 224, 224])
✔️ Relative speed: 1.31 (= 57.4ms / 43.9ms)

OneFlow resnet50 time: 26.2ms (= 2615.5ms / 100, input_shape=[8, 3, 224, 224])
PyTorch resnet50 time: 38.5ms (= 3851.2ms / 100, input_shape=[8, 3, 224, 224])
✔️ Relative speed: 1.47 (= 38.5ms / 26.2ms)

OneFlow resnet50 time: 19.1ms (= 3817.4ms / 200, input_shape=[4, 3, 224, 224])
PyTorch resnet50 time: 36.4ms (= 7278.5ms / 200, input_shape=[4, 3, 224, 224])
✔️ Relative speed: 1.91 (= 36.4ms / 19.1ms)

OneFlow resnet50 time: 17.7ms (= 3537.4ms / 200, input_shape=[2, 3, 224, 224])
PyTorch resnet50 time: 31.6ms (= 6320.6ms / 200, input_shape=[2, 3, 224, 224])
✔️ Relative speed: 1.79 (= 31.6ms / 17.7ms)

OneFlow resnet50 time: 17.3ms (= 3463.8ms / 200, input_shape=[1, 3, 224, 224])
PyTorch resnet50 time: 28.7ms (= 5735.3ms / 200, input_shape=[1, 3, 224, 224])
✔️ Relative speed: 1.66 (= 28.7ms / 17.3ms)

OneFlow swin dataloader time: 0.201s (= 40.154s / 200, num_workers=1)
PyTorch swin dataloader time: 0.128s (= 25.667s / 200, num_workers=1)
Relative speed: 0.639 (= 0.128s / 0.201s)

OneFlow swin dataloader time: 0.054s (= 10.869s / 200, num_workers=4)
PyTorch swin dataloader time: 0.033s (= 6.591s / 200, num_workers=4)
Relative speed: 0.606 (= 0.033s / 0.054s)

OneFlow swin dataloader time: 0.032s (= 6.307s / 200, num_workers=8)
PyTorch swin dataloader time: 0.017s (= 3.318s / 200, num_workers=8)
Relative speed: 0.526 (= 0.017s / 0.032s)

❌ OneFlow resnet50 time: 49.2ms (= 4917.8ms / 100, input_shape=[16, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 64.7ms (= 6465.3ms / 100, input_shape=[16, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.31 (= 64.7ms / 49.2ms)

OneFlow resnet50 time: 37.1ms (= 3708.3ms / 100, input_shape=[8, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 46.0ms (= 4597.5ms / 100, input_shape=[8, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.24 (= 46.0ms / 37.1ms)

OneFlow resnet50 time: 28.3ms (= 5652.6ms / 200, input_shape=[4, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 39.1ms (= 7824.1ms / 200, input_shape=[4, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.38 (= 39.1ms / 28.3ms)

OneFlow resnet50 time: 25.1ms (= 5011.7ms / 200, input_shape=[2, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 38.9ms (= 7775.6ms / 200, input_shape=[2, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.55 (= 38.9ms / 25.1ms)

OneFlow resnet50 time: 24.0ms (= 4799.0ms / 200, input_shape=[1, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 35.9ms (= 7177.8ms / 200, input_shape=[1, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.50 (= 35.9ms / 24.0ms)

levi131 · 2024-01-22T16:21:57Z

这是测试还是要合并

推进合并

….com:Oneflow-Inc/oneflow into lml/decrese_default_CMAKE_CUDA_ARCHITECTURES

github-actions · 2024-01-22T16:51:52Z

CI failed when running job: Build cu116. PR label automerge has been removed

github-actions · 2024-01-22T18:09:23Z

View latest API docs preview at: https://oneflow-staging.oss-cn-beijing.aliyuncs.com/docs/Oneflow-Inc/oneflow/pr/10415/

github-actions · 2024-01-22T18:50:10Z

Speed stats:

GPU Name: NVIDIA GeForce RTX 3080 Ti 

❌ OneFlow resnet50 time: 43.7ms (= 4374.3ms / 100, input_shape=[16, 3, 224, 224])
PyTorch resnet50 time: 57.6ms (= 5757.9ms / 100, input_shape=[16, 3, 224, 224])
✔️ Relative speed: 1.32 (= 57.6ms / 43.7ms)

OneFlow resnet50 time: 26.2ms (= 2617.3ms / 100, input_shape=[8, 3, 224, 224])
PyTorch resnet50 time: 38.0ms (= 3800.6ms / 100, input_shape=[8, 3, 224, 224])
✔️ Relative speed: 1.45 (= 38.0ms / 26.2ms)

OneFlow resnet50 time: 18.9ms (= 3777.2ms / 200, input_shape=[4, 3, 224, 224])
PyTorch resnet50 time: 36.8ms (= 7358.1ms / 200, input_shape=[4, 3, 224, 224])
✔️ Relative speed: 1.95 (= 36.8ms / 18.9ms)

OneFlow resnet50 time: 16.9ms (= 3388.4ms / 200, input_shape=[2, 3, 224, 224])
PyTorch resnet50 time: 34.2ms (= 6843.3ms / 200, input_shape=[2, 3, 224, 224])
✔️ Relative speed: 2.02 (= 34.2ms / 16.9ms)

OneFlow resnet50 time: 15.9ms (= 3178.1ms / 200, input_shape=[1, 3, 224, 224])
PyTorch resnet50 time: 28.9ms (= 5776.0ms / 200, input_shape=[1, 3, 224, 224])
✔️ Relative speed: 1.82 (= 28.9ms / 15.9ms)

OneFlow swin dataloader time: 0.200s (= 40.082s / 200, num_workers=1)
PyTorch swin dataloader time: 0.128s (= 25.599s / 200, num_workers=1)
Relative speed: 0.639 (= 0.128s / 0.200s)

OneFlow swin dataloader time: 0.059s (= 11.848s / 200, num_workers=4)
PyTorch swin dataloader time: 0.032s (= 6.481s / 200, num_workers=4)
Relative speed: 0.547 (= 0.032s / 0.059s)

OneFlow swin dataloader time: 0.032s (= 6.304s / 200, num_workers=8)
PyTorch swin dataloader time: 0.017s (= 3.320s / 200, num_workers=8)
Relative speed: 0.527 (= 0.017s / 0.032s)

❌ OneFlow resnet50 time: 49.2ms (= 4919.7ms / 100, input_shape=[16, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 64.6ms (= 6460.9ms / 100, input_shape=[16, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.31 (= 64.6ms / 49.2ms)

OneFlow resnet50 time: 36.5ms (= 3646.8ms / 100, input_shape=[8, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 45.6ms (= 4560.2ms / 100, input_shape=[8, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.25 (= 45.6ms / 36.5ms)

OneFlow resnet50 time: 28.0ms (= 5607.2ms / 200, input_shape=[4, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 40.0ms (= 8007.9ms / 200, input_shape=[4, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.43 (= 40.0ms / 28.0ms)

OneFlow resnet50 time: 25.3ms (= 5059.9ms / 200, input_shape=[2, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 38.6ms (= 7712.7ms / 200, input_shape=[2, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.52 (= 38.6ms / 25.3ms)

OneFlow resnet50 time: 23.5ms (= 4697.7ms / 200, input_shape=[1, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 37.5ms (= 7493.8ms / 200, input_shape=[1, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.60 (= 37.5ms / 23.5ms)

decrease_default_cuda_archs

Loading
Loading status checks…

63a037d

levi131 requested a review from jackalcooper as a code owner January 22, 2024 14:53

levi131 requested review from mosout and oneflow-ci-bot January 22, 2024 14:53

levi131 added system automerge enhancement labels Jan 22, 2024

Merge branch 'master' into lml/decrese_default_CMAKE_CUDA_ARCHITECTURES

Loading
Loading status checks…

e420ac4

levi131 enabled auto-merge (squash) January 22, 2024 14:58

levi131 requested review from oneflow-ci-bot and removed request for oneflow-ci-bot January 22, 2024 14:59

levi131 disabled auto-merge January 22, 2024 16:21

levi131 added 2 commits January 22, 2024 16:49

rm comments

7791518

Merge branch 'lml/decrese_default_CMAKE_CUDA_ARCHITECTURES' of github…

Loading
Loading status checks…

6e19a36

….com:Oneflow-Inc/oneflow into lml/decrese_default_CMAKE_CUDA_ARCHITECTURES

github-actions bot removed the automerge label Jan 22, 2024

jackalcooper approved these changes Jan 22, 2024

View reviewed changes

levi131 added the automerge label Jan 22, 2024

levi131 enabled auto-merge (squash) January 22, 2024 17:07

levi131 merged commit 06c9ead into master Jan 22, 2024
22 checks passed

levi131 deleted the lml/decrese_default_CMAKE_CUDA_ARCHITECTURES branch January 22, 2024 18:56

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Decrease default cuda architectures to build on cause the limitation of the host compiler. #10415

Decrease default cuda architectures to build on cause the limitation of the host compiler. #10415

levi131 commented Jan 22, 2024

github-actions bot commented Jan 22, 2024

jackalcooper commented Jan 22, 2024

github-actions bot commented Jan 22, 2024

levi131 commented Jan 22, 2024

github-actions bot commented Jan 22, 2024

github-actions bot commented Jan 22, 2024

github-actions bot commented Jan 22, 2024

Decrease default cuda architectures to build on cause the limitation of the host compiler. #10415

Decrease default cuda architectures to build on cause the limitation of the host compiler. #10415

Conversation

levi131 commented Jan 22, 2024

github-actions bot commented Jan 22, 2024

jackalcooper commented Jan 22, 2024

github-actions bot commented Jan 22, 2024

levi131 commented Jan 22, 2024

github-actions bot commented Jan 22, 2024

github-actions bot commented Jan 22, 2024

github-actions bot commented Jan 22, 2024