Fix duplicate service messages during failover/restart when using multiple services #1703

JPWatson · 2024-12-30T18:07:51Z

There is a bug in the Consensus Module where all service messages are appended to the same pending service message queue. The service container sends its service IDs as a session ID whereas the Consensus Module interprets it as a mask.

Where service messages are being sent from multiple services, these can be enqueued in different orders.
This means during failover/restart pending messages can be skipped or duplicated when a new leader is elected.

This change will affect users who are using cluster.offer() from multiple services.

Upgrade procedure
Those affected will need to do a clean shutdown (with a snapshot) and restart the whole cluster with the fix.

Is this upgrade procedure reasonable? How many people who haven't already worked around the duplicate/skipped message behaviour will be affected by this issue?

…g over with uncommitted pending service messages when running with multiple services.

…pending service messages.

JPWatson added 2 commits December 30, 2024 17:52

[Java] Add test to show duplicate messages being received when failin…

bfed84e

…g over with uncommitted pending service messages when running with multiple services.

[Java] Fix consensus module to use correct service ID when enqueuing …

b4bba6e

…pending service messages.

mjpt777 approved these changes Jan 6, 2025

View reviewed changes

vyazelenko merged commit 80a93bb into master Jan 7, 2025
34 checks passed

JPWatson deleted the service-msg-dups branch January 7, 2025 13:46

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Fix duplicate service messages during failover/restart when using multiple services #1703

Fix duplicate service messages during failover/restart when using multiple services #1703

JPWatson commented Dec 30, 2024

Fix duplicate service messages during failover/restart when using multiple services #1703

Fix duplicate service messages during failover/restart when using multiple services #1703

Conversation

JPWatson commented Dec 30, 2024