prometheus · damnever · Jul 15, 2022 · Oct 8, 2022 · damnever · Jul 16, 2022
diff --git a/dispatch/dispatch.go b/dispatch/dispatch.go
@@ -475,8 +475,12 @@ func (ag *aggrGroup) stop() {
 
 // insert inserts the alert into the aggregation group.
 func (ag *aggrGroup) insert(alert *types.Alert) {
-	if err := ag.alerts.Set(alert); err != nil {
-		level.Error(ag.logger).Log("msg", "error on set alert", "err", err)
+	if err := ag.alerts.SetOrReplaceResolved(alert); err != nil {
+		if errors.Is(err, store.ErrNotFound) {
+			level.Warn(ag.logger).Log("msg", "ignore resolved alert since there is no corresponding record in the store")
+		} else {
+			level.Error(ag.logger).Log("msg", "error on set alert", "err", err)
+		}
 	}
 
 	// Immediately trigger a flush if the wait duration for this
@@ -517,17 +521,15 @@ func (ag *aggrGroup) flush(notify func(...*types.Alert) bool) {
 
 	if notify(alertsSlice...) {
 		for _, a := range alertsSlice {
-			// Only delete if the fingerprint has not been inserted
+			// Only delete the resolved alert if the fingerprint has not been active
 			// again since we notified about it.
-			fp := a.Fingerprint()
-			got, err := ag.alerts.Get(fp)
-			if err != nil {
-				// This should never happen.
-				level.Error(ag.logger).Log("msg", "failed to get alert", "err", err, "alert", a.String())
+			if !a.Resolved() {
 				continue
 			}
-			if a.Resolved() && got.UpdatedAt == a.UpdatedAt {
-				if err := ag.alerts.Delete(fp); err != nil {
+			if err := ag.alerts.DeleteIfResolved(a.Fingerprint()); err != nil {
+				if errors.Is(err, store.ErrNotResolved) {
+					level.Debug(ag.logger).Log("msg", "resolved alert has been active again", "alert", a.String())
+				} else {
 					level.Error(ag.logger).Log("msg", "error on delete alert", "err", err, "alert", a.String())
 				}
 			}

diff --git a/dispatch/dispatch_test.go b/dispatch/dispatch_test.go
@@ -601,6 +601,23 @@ func (r *recordStage) Exec(ctx context.Context, l log.Logger, alerts ...*types.A
 	return ctx, nil, nil
 }
 
+type notifyStage struct {
+	C chan struct{}
+}
+
+func newNotifyStage() *notifyStage {
+	return &notifyStage{C: make(chan struct{}, 1)}
+}
+
+func (s *notifyStage) Exec(ctx context.Context, l log.Logger, alerts ...*types.Alert) (context.Context, []*types.Alert, error) {
+	select {
+	case <-ctx.Done():
+		return ctx, nil, ctx.Err()
+	case s.C <- struct{}{}:
+		return ctx, alerts, nil
+	}
+}
+
 var (
 	// Set the start time in the past to trigger a flush immediately.
 	t0 = time.Now().Add(-time.Minute)
@@ -651,7 +668,7 @@ func TestDispatcherRaceOnFirstAlertNotDeliveredWhenGroupWaitIsZero(t *testing.T)
 	route := &Route{
 		RouteOpts: RouteOpts{
 			Receiver:       "default",
-			GroupBy:        map[model.LabelName]struct{}{"alertname": {}},
+			GroupBy:        map[model.LabelName]struct{}{model.AlertNameLabel: {}},
 			GroupWait:      0,
 			GroupInterval:  1 * time.Hour, // Should never hit in this test.
 			RepeatInterval: 1 * time.Hour, // Should never hit in this test.
@@ -666,7 +683,7 @@ func TestDispatcherRaceOnFirstAlertNotDeliveredWhenGroupWaitIsZero(t *testing.T)
 
 	// Push all alerts.
 	for i := 0; i < numAlerts; i++ {
-		alert := newAlert(model.LabelSet{"alertname": model.LabelValue(fmt.Sprintf("Alert_%d", i))})
+		alert := newAlert(model.LabelSet{model.AlertNameLabel: model.LabelValue(fmt.Sprintf("Alert_%d", i))})
 		require.NoError(t, alerts.Put(alert))
 	}
 
@@ -684,6 +701,80 @@ func TestDispatcherRaceOnFirstAlertNotDeliveredWhenGroupWaitIsZero(t *testing.T)
 	require.Len(t, recorder.Alerts(), numAlerts)
 }
 
+func TestDispatcherReceiveAndNotifyRepeatedResolvedAlerts(t *testing.T) {
+	// More information here: https://github.com/prometheus/alertmanager/pull/3006
+
+	logger := log.NewNopLogger()
+	// logger := log.NewLogfmtLogger(os.Stdout)
+	marker := types.NewMarker(prometheus.NewRegistry())
+	alerts, err := mem.NewAlerts(context.Background(), marker, time.Hour, nil, logger, nil)
+	if err != nil {
+		t.Fatal(err)
+	}
+	defer alerts.Close()
+
+	route := &Route{
+		RouteOpts: RouteOpts{
+			Receiver:       "default",
+			GroupBy:        map[model.LabelName]struct{}{model.AlertNameLabel: {}},
+			GroupWait:      0,
+			GroupInterval:  6 * time.Second,
+			RepeatInterval: 6 * time.Second,
+		},
+	}
+
+	recorder := &recordStage{alerts: make(map[string]map[model.Fingerprint]*types.Alert)}
+	notifier := newNotifyStage()
+	dispatcher := NewDispatcher(alerts, route, notify.FanoutStage{recorder, notifier}, marker, nil, nil, logger, NewDispatcherMetrics(false, prometheus.NewRegistry()))
+	go dispatcher.Run()
+	defer dispatcher.Stop()
+
+	// Here we simulate the case when the alertmanager receives resolved alerts
+	// right after the aggrGroup is deleted.
+	t.Run("repeated alerts after aggrGroup deleted", func(t *testing.T) {
+		alert := newAlert(model.LabelSet{model.AlertNameLabel: "test-repeated-resolved-alerts-1"})
+		alert.Alert.EndsAt = alert.StartsAt.Add(time.Second)
+		alert.UpdatedAt = alert.Alert.EndsAt
+		require.True(t, alert.Resolved())
+		require.NoError(t, alerts.Put(alert))
+		select {
+		case <-time.After(20 * time.Second):
+		case <-notifier.C:
+			t.Errorf("unexpected repeated resolved alerts")
+		}
+	})
+
+	// Alertmanager receives repeated resolved alerts after aggrGroup.flush.
+	t.Run("repeated alerts after aggrGroup flush", func(t *testing.T) {
+		alert := newAlert(model.LabelSet{model.AlertNameLabel: "test-repeated-resolved-alerts-2"})
+		require.NoError(t, alerts.Put(alert))
+		select {
+		case <-time.After(20 * time.Second):
+			t.Errorf("wait active alert timed out")
+		case <-notifier.C:
+		}
+
+		alert.Alert.EndsAt = alert.StartsAt.Add(time.Second)
+		alert.UpdatedAt = alert.Alert.EndsAt
+		require.True(t, alert.Resolved())
+		require.NoError(t, alerts.Put(alert))
+		select {
+		case <-time.After(20 * time.Second):
+			t.Errorf("wait resolved alert timed out")
+		case <-notifier.C:
+		}
+
+		alert.UpdatedAt = alert.Alert.EndsAt.Add(time.Second)
+		require.True(t, alert.Resolved())
+		require.NoError(t, alerts.Put(alert))
+		select {
+		case <-time.After(20 * time.Second):
+		case <-notifier.C:
+			t.Errorf("unexpected repeated resolved alerts")
+		}
+	})
+}
+
 type limits struct {
 	groups int
 }

diff --git a/store/store.go b/store/store.go
@@ -24,8 +24,12 @@ import (
 	"github.com/prometheus/alertmanager/types"
 )
 
-// ErrNotFound is returned if a Store cannot find the Alert.
-var ErrNotFound = errors.New("alert not found")
+var (
+	// ErrNotFound is returned if a Store cannot find the Alert.
+	ErrNotFound = errors.New("alert not found")
+	// ErrNotResolved is returned if the alert is not resolved.
+	ErrNotResolved = errors.New("alert is not resolved")
+)
 
 // Alerts provides lock-coordinated to an in-memory map of alerts, keyed by
 // their fingerprint. Resolved alerts are removed from the map based on
@@ -98,10 +102,26 @@ func (a *Alerts) Get(fp model.Fingerprint) (*types.Alert, error) {
 
 // Set unconditionally sets the alert in memory.
 func (a *Alerts) Set(alert *types.Alert) error {
+	fp := alert.Fingerprint()
+
 	a.Lock()
 	defer a.Unlock()
 
-	a.c[alert.Fingerprint()] = alert
+	a.c[fp] = alert
+	return nil
+}
+
+// SetOrReplaceResolved returns ErrNotFound if the alert is resolved and
+// there is no corresponding record in the store.
+func (a *Alerts) SetOrReplaceResolved(alert *types.Alert) error {
+	fp := alert.Fingerprint()
+
+	a.Lock()
+	defer a.Unlock()
+	if _, ok := a.c[fp]; !ok && alert.Resolved() {
+		return ErrNotFound
+	}
+	a.c[fp] = alert
 	return nil
 }
 
@@ -114,6 +134,20 @@ func (a *Alerts) Delete(fp model.Fingerprint) error {
 	return nil
 }
 
+// DeleteIfResolved removes the Alert if it is resolved.
+func (a *Alerts) DeleteIfResolved(fp model.Fingerprint) error {
+	a.Lock()
+	defer a.Unlock()
+
+	if exist, ok := a.c[fp]; !ok {
+		return ErrNotFound
+	} else if !exist.Resolved() {
+		return ErrNotResolved
+	}
+	delete(a.c, fp)
+	return nil
+}
+
 // List returns a slice of Alerts currently held in memory.
 func (a *Alerts) List() []*types.Alert {
 	a.Lock()

diff --git a/store/store_test.go b/store/store_test.go
@@ -54,17 +54,33 @@ func TestDelete(t *testing.T) {
 	require.Equal(t, ErrNotFound, err)
 }
 
+func TestResolved(t *testing.T) {
+	a := NewAlerts()
+
+	now := time.Now()
+	require.NoError(t, a.SetOrReplaceResolved(makeAlert("a", now, -2, 10)))
+	resolved := makeAlert("a", now, -2, -1)
+	require.NoError(t, a.SetOrReplaceResolved(resolved))
+	require.NoError(t, a.SetOrReplaceResolved(resolved))
+	a.gc()
+	require.ErrorIs(t, a.SetOrReplaceResolved(resolved), ErrNotFound)
+
+	require.ErrorIs(t, a.DeleteIfResolved(resolved.Fingerprint()), ErrNotFound)
+	require.NoError(t, a.SetOrReplaceResolved(makeAlert("a", now, -2, 10)))
+	require.ErrorIs(t, a.DeleteIfResolved(resolved.Fingerprint()), ErrNotResolved)
+	require.NoError(t, a.SetOrReplaceResolved(resolved))
+	require.NoError(t, a.DeleteIfResolved(resolved.Fingerprint()))
+	_, err := a.Get(resolved.Fingerprint())
+	require.ErrorIs(t, err, ErrNotFound)
+}
+
 func TestGC(t *testing.T) {
 	now := time.Now()
+
 	newAlert := func(key string, start, end time.Duration) *types.Alert {
-		return &types.Alert{
-			Alert: model.Alert{
-				Labels:   model.LabelSet{model.LabelName(key): "b"},
-				StartsAt: now.Add(start * time.Minute),
-				EndsAt:   now.Add(end * time.Minute),
-			},
-		}
+		return makeAlert(key, now, start, end)
 	}
+
 	active := []*types.Alert{
 		newAlert("b", 10, 20),
 		newAlert("c", -10, 10),
@@ -111,3 +127,13 @@ func TestGC(t *testing.T) {
 	}
 	require.Len(t, resolved, n)
 }
+
+func makeAlert(key string, now time.Time, start, end time.Duration) *types.Alert {
+	return &types.Alert{
+		Alert: model.Alert{
+			Labels:   model.LabelSet{model.LabelName(key): "b"},
+			StartsAt: now.Add(start * time.Minute),
+			EndsAt:   now.Add(end * time.Minute),
+		},
+	}
+}