Storage data exception #16531

liangpeihuahua · 2023-09-04T05:19:48Z

liangpeihuahua
Sep 4, 2023

Bug report criteria

This bug report is not security related, security issues should be disclosed privately via [email protected].
This is not a support request, support requests should be raised in the etcd discussion forums.
You have read the etcd bug reporting guidelines.
Existing open issues along with etcd frequently asked questions have been checked and this is not a duplicate.

What happened?

etcd cluster does not have any data storage

$ etcdctl get --prefix ""
$

When there is no data storage, the size of dbsize is shown to be 919mb.

➜  zuixin kubectl exec -it -n etcd-1 etcd-1-0  sh 
kubectl exec [POD] [COMMAND] is DEPRECATED and will be removed in a future version. Use kubectl exec [POD] -- [COMMAND] instead.
$ etcdctl endpoint status -w table
+----------------+------------------+---------+---------+-----------+------------+-----------+------------+--------------------+--------+
|    ENDPOINT    |        ID        | VERSION | DB SIZE | IS LEADER | IS LEARNER | RAFT TERM | RAFT INDEX | RAFT APPLIED INDEX | ERRORS |
+----------------+------------------+---------+---------+-----------+------------+-----------+------------+--------------------+--------+
| 127.0.0.1:2379 | 67ab9d47c6bb582e |   3.5.4 |  919 MB |      true |      false |         3 |      45122 |              45122 |        |
+----------------+------------------+---------+---------+-----------+------------+-----------+------------+--------------------+--------+

The etcd cluster has stopped all connections, but the memory usage has reached 2GB

➜  aws-foreign git:(main) ✗ kubectl top pod -n etcd-1 etcd-1-0
NAME       CPU(cores)   MEMORY(bytes)   
etcd-1-0   10m          1995Mi

What did you expect to happen?

etcd’s memory usage drops to normal levels
What exactly is the data in etcd 919mb? How can I find out what this part of the data is? And I want to delete it because I confirm that these are useless data.

How can we reproduce it (as minimally and precisely as possible)?

The problem still exists

Anything else we need to know?

No response

Etcd version (please run commands below)

$ etcd --version
# paste output here
$ etcd --version
etcd Version: 3.5.4
Git SHA: 08407ff76
Go Version: go1.16.15
Go OS/Arch: linux/amd64
$ etcdctl version
# paste output here

$ etcdctl version
etcdctl version: 3.5.4
API version: 3.5

Etcd configuration (command line flags or environment variables)

paste your configuration here

Etcd debug information (please run commands below, feel free to obfuscate the IP address or FQDN in the output)

$ etcdctl member list -w table
# paste output here

$ etcdctl --endpoints=<member list> endpoint status -w table
# paste output here

Relevant log output

No response

Answered by ahrtr

Sep 5, 2023

Please follow steps below,

Get the latest revision using command: etcdctl --endpoints=:2379 endpoint status --write-out="json" | egrep -o '"revision":[0-9]*' | egrep -o '[0-9].*')
Execute compaction operation: etcdctl compact ${the_revision_got_at_step_1}
Execute defragmentation: etcdctl defrag
Let's know the db size
If the db size is still that big, can you share the db file?

View full answer

flyingrx · 2023-09-04T09:13:04Z

flyingrx
Sep 4, 2023

It's standard for the DB file to be memory-mapped. And the memory can be largger than db data size because of copy-on-write. Maybe you can try to adjust the compact params to reduce the versions of keys and quicken the frequency of snapshot. And check the big key/value and optimize them.

0 replies

jmhbnz · 2023-09-04T09:13:44Z

jmhbnz
Sep 4, 2023
Maintainer

Hey @liangpeihuahua - Thanks for your question, have you run a defragment recently for etcd? I'm wondering if this 919mb empty database is due to high fragmentation, refer to: https://etcd.io/docs/v3.5/op-guide/maintenance/#defragmentation

0 replies

liangpeihuahua · 2023-09-04T10:15:59Z

liangpeihuahua
Sep 4, 2023
Author

$ etcdctl endpoint status -w table

+----------------+------------------+---------+---------+-----------+------------+-----------+------------+--------------------+--------+
|    ENDPOINT    |        ID        | VERSION | DB SIZE | IS LEADER | IS LEARNER | RAFT TERM | RAFT INDEX | RAFT APPLIED INDEX | ERRORS |
+----------------+------------------+---------+---------+-----------+------------+-----------+------------+--------------------+--------+
| 127.0.0.1:2379 | 67ab9d47c6bb582e |   3.5.4 |  919 MB |      true |      false |         3 |      47593 |              47593 |        |
+----------------+------------------+---------+---------+-----------+------------+-----------+------------+--------------------+--------+

$ etcdctl defrag --cluster

{"level":"warn","ts":"2023-09-04T10:14:50.015Z","logger":"etcd-client","caller":"v3/retry_interceptor.go:62","msg":"retrying of unary invoker failed","target":"etcd-endpoints://0xc0006ac1c0/127.0.0.1:2379","attempt":0,"error":"rpc error: code = DeadlineExceeded desc = context deadline exceeded"}
Failed to defragment etcd member[http://etcd-1-0.etcd-1-headless.etcd-1.svc.cluster.local:2379] (context deadline exceeded)
{"level":"warn","ts":"2023-09-04T10:14:55.019Z","logger":"etcd-client","caller":"v3/retry_interceptor.go:62","msg":"retrying of unary invoker failed","target":"etcd-endpoints://0xc0006ac1c0/127.0.0.1:2379","attempt":0,"error":"rpc error: code = DeadlineExceeded desc = context deadline exceeded"}
Failed to defragment etcd member[http://etcd-1.etcd-1.svc.cluster.local:2379] (context deadline exceeded)

$ etcdctl endpoint status -w table

{"level":"warn","ts":"2023-09-04T10:15:10.971Z","logger":"etcd-client","caller":"v3/retry_interceptor.go:62","msg":"retrying of unary invoker failed","target":"etcd-endpoints://0xc00023c000/127.0.0.1:2379","attempt":0,"error":"rpc error: code = DeadlineExceeded desc = context deadline exceeded"}
Failed to get the status of endpoint 127.0.0.1:2379 (context deadline exceeded)
+----------+----+---------+---------+-----------+------------+-----------+------------+--------------------+--------+
| ENDPOINT | ID | VERSION | DB SIZE | IS LEADER | IS LEARNER | RAFT TERM | RAFT INDEX | RAFT APPLIED INDEX | ERRORS |
+----------+----+---------+---------+-----------+------------+-----------+------------+--------------------+--------+
+----------+----+---------+---------+-----------+------------+-----------+------------+--------------------+--------+

$ etcdctl endpoint status -w table

{"level":"warn","ts":"2023-09-04T10:15:24.727Z","logger":"etcd-client","caller":"v3/retry_interceptor.go:62","msg":"retrying of unary invoker failed","target":"etcd-endpoints://0xc0002eea80/127.0.0.1:2379","attempt":0,"error":"rpc error: code = DeadlineExceeded desc = context deadline exceeded"}
Failed to get the status of endpoint 127.0.0.1:2379 (context deadline exceeded)
+----------+----+---------+---------+-----------+------------+-----------+------------+--------------------+--------+
| ENDPOINT | ID | VERSION | DB SIZE | IS LEADER | IS LEARNER | RAFT TERM | RAFT INDEX | RAFT APPLIED INDEX | ERRORS |
+----------+----+---------+---------+-----------+------------+-----------+------------+--------------------+--------+
+----------+----+---------+---------+-----------+------------+-----------+------------+--------------------+--------+

1 reply

jmhbnz Sep 4, 2023
Maintainer

Please provide the logs for the etcd process so we can try to understand the issue.

liangpeihuahua · 2023-09-04T10:16:32Z

liangpeihuahua
Sep 4, 2023
Author

This seems to be a big problem

0 replies

liangpeihuahua · 2023-09-04T10:42:33Z

liangpeihuahua
Sep 4, 2023
Author

{"level":"info","ts":"2023-09-04T06:20:02.486Z","caller":"v3rpc/maintenance.go:125","msg":"sending database snapshot to client","total-bytes":919449600,"size":"919 MB"}
{"level":"info","ts":"2023-09-04T06:20:09.835Z","caller":"v3rpc/maintenance.go:165","msg":"sending database sha256 checksum to client","total-bytes":919449600,"checksum-size":32}
{"level":"info","ts":"2023-09-04T06:20:09.835Z","caller":"v3rpc/maintenance.go:174","msg":"successfully sent database snapshot to client","total-bytes":919449600,"size":"919 MB","took":"7 seconds ago"}
{"level":"info","ts":"2023-09-04T06:21:02.345Z","caller":"v3rpc/maintenance.go:125","msg":"sending database snapshot to client","total-bytes":919449600,"size":"919 MB"}
{"level":"info","ts":"2023-09-04T06:21:09.592Z","caller":"v3rpc/maintenance.go:165","msg":"sending database sha256 checksum to client","total-bytes":919449600,"checksum-size":32}
{"level":"info","ts":"2023-09-04T06:21:09.592Z","caller":"v3rpc/maintenance.go:174","msg":"successfully sent database snapshot to client","total-bytes":919449600,"size":"919 MB","took":"7 seconds ago"}
{"level":"info","ts":"2023-09-04T06:22:02.639Z","caller":"v3rpc/maintenance.go:125","msg":"sending database snapshot to client","total-bytes":919449600,"size":"919 MB"}
{"level":"info","ts":"2023-09-04T06:22:11.021Z","caller":"v3rpc/maintenance.go:165","msg":"sending database sha256 checksum to client","total-bytes":919449600,"checksum-size":32}
{"level":"info","ts":"2023-09-04T06:22:11.021Z","caller":"v3rpc/maintenance.go:174","msg":"successfully sent database snapshot to client","total-bytes":919449600,"size":"919 MB","took":"8 seconds ago"}
{"level":"info","ts":"2023-09-04T06:23:02.488Z","caller":"v3rpc/maintenance.go:125","msg":"sending database snapshot to client","total-bytes":919449600,"size":"919 MB"}
{"level":"info","ts":"2023-09-04T06:23:09.982Z","caller":"v3rpc/maintenance.go:165","msg":"sending database sha256 checksum to client","total-bytes":919449600,"checksum-size":32}
{"level":"info","ts":"2023-09-04T06:23:09.983Z","caller":"v3rpc/maintenance.go:174","msg":"successfully sent database snapshot to client","total-bytes":919449600,"size":"919 MB","took":"7 seconds ago"}
{"level":"info","ts":"2023-09-04T06:24:02.503Z","caller":"v3rpc/maintenance.go:125","msg":"sending database snapshot to client","total-bytes":919449600,"size":"919 MB"}
{"level":"info","ts":"2023-09-04T06:24:11.670Z","caller":"v3rpc/maintenance.go:165","msg":"sending database sha256 checksum to client","total-bytes":919449600,"checksum-size":32}
{"level":"info","ts":"2023-09-04T06:24:11.670Z","caller":"v3rpc/maintenance.go:174","msg":"successfully sent database snapshot to client","total-bytes":919449600,"size":"919 MB","took":"9 seconds ago"}
{"level":"info","ts":"2023-09-04T06:25:02.646Z","caller":"v3rpc/maintenance.go:125","msg":"sending database snapshot to client","total-bytes":919449600,"size":"919 MB"}
{"level":"info","ts":"2023-09-04T06:25:10.913Z","caller":"v3rpc/maintenance.go:165","msg":"sending database sha256 checksum to client","total-bytes":919449600,"checksum-size":32}
{"level":"info","ts":"2023-09-04T06:25:10.913Z","caller":"v3rpc/maintenance.go:174","msg":"successfully sent database snapshot to client","total-bytes":919449600,"size":"919 MB","took":"8 seconds ago"}
{"level":"info","ts":"2023-09-04T06:26:02.999Z","caller":"v3rpc/maintenance.go:125","msg":"sending database snapshot to client","total-bytes":919449600,"size":"919 MB"}
{"level":"info","ts":"2023-09-04T06:26:11.188Z","caller":"v3rpc/maintenance.go:165","msg":"sending database sha256 checksum to client","total-bytes":919449600,"checksum-size":32}
{"level":"info","ts":"2023-09-04T06:26:11.188Z","caller":"v3rpc/maintenance.go:174","msg":"successfully sent database snapshot to client","total-bytes":919449600,"size":"919 MB","took":"8 seconds ago"}
{"level":"info","ts":"2023-09-04T06:27:02.271Z","caller":"v3rpc/maintenance.go:125","msg":"sending database snapshot to client","total-bytes":919449600,"size":"919 MB"}
{"level":"info","ts":"2023-09-04T06:27:10.431Z","caller":"v3rpc/maintenance.go:165","msg":"sending database sha256 checksum to client","total-bytes":919449600,"checksum-size":32}
{"level":"info","ts":"2023-09-04T06:27:10.431Z","caller":"v3rpc/maintenance.go:174","msg":"successfully sent database snapshot to client","total-bytes":919449600,"size":"919 MB","took":"8 seconds ago"}
{"level":"info","ts":"2023-09-04T06:30:03.011Z","caller":"v3rpc/maintenance.go:125","msg":"sending database snapshot to client","total-bytes":919449600,"size":"919 MB"}
{"level":"info","ts":"2023-09-04T06:30:11.107Z","caller":"v3rpc/maintenance.go:165","msg":"sending database sha256 checksum to client","total-bytes":919449600,"checksum-size":32}
{"level":"info","ts":"2023-09-04T06:30:11.107Z","caller":"v3rpc/maintenance.go:174","msg":"successfully sent database snapshot to client","total-bytes":919449600,"size":"919 MB","took":"8 seconds ago"}
{"level":"info","ts":"2023-09-04T10:14:45.016Z","caller":"v3rpc/maintenance.go:89","msg":"starting defragment"}
{"level":"info","ts":"2023-09-04T10:14:45.018Z","caller":"backend/backend.go:497","msg":"defragmenting","path":"/bitnami/etcd/data/member/snap/db","current-db-size-bytes":919449600,"current-db-size":"919 MB","current-db-size-in-use-bytes":919433216,"current-db-size-in-use":"919 MB"}
{"level":"info","ts":"2023-09-04T10:14:50.116Z","caller":"v3rpc/maintenance.go:89","msg":"starting defragment"}
{"level":"info","ts":"2023-09-04T10:15:15.160Z","caller":"backend/backend.go:549","msg":"finished defragmenting directory","path":"/bitnami/etcd/data/member/snap/db","current-db-size-bytes-diff":0,"current-db-size-bytes":919449600,"current-db-size":"919 MB","current-db-size-in-use-bytes-diff":-4096,"current-db-size-in-use-bytes":919429120,"current-db-size-in-use":"919 MB","took":"30.14422366s"}
{"level":"info","ts":"2023-09-04T10:15:15.160Z","caller":"v3rpc/maintenance.go:95","msg":"finished defragment"}
{"level":"warn","ts":"2023-09-04T10:15:15.160Z","caller":"v3rpc/interceptor.go:197","msg":"request stats","start time":"2023-09-04T10:14:45.016Z","time spent":"30.144418504s","remote":"192.168.89.161:57508","response type":"/etcdserverpb.Maintenance/Defragment","request count":-1,"request size":-1,"response count":-1,"response size":-1,"request content":""}
{"level":"warn","ts":"2023-09-04T10:15:15.160Z","caller":"v3rpc/interceptor.go:197","msg":"request stats","start time":"2023-09-04T10:15:05.981Z","time spent":"9.178693222s","remote":"127.0.0.1:53886","response type":"/etcdserverpb.Maintenance/Status","request count":-1,"request size":-1,"response count":-1,"response size":-1,"request content":""}
{"level":"warn","ts":"2023-09-04T10:15:15.160Z","caller":"etcdserver/util.go:166","msg":"apply request took too long","took":"29.176030157s","expected-duration":"100ms","prefix":"read-only range ","request":"key:"health" ","response":"range_response_count:0 size:7"}
{"level":"info","ts":"2023-09-04T10:15:15.160Z","caller":"traceutil/trace.go:171","msg":"trace[474440617] range","detail":"{range_begin:health; range_end:; response_count:0; response_revision:6957305; }","duration":"29.176075637s","start":"2023-09-04T10:14:45.984Z","end":"2023-09-04T10:15:15.160Z","steps":["trace[474440617] 'range keys from in-memory index tree' (duration: 29.175980016s)"],"step_count":1}
{"level":"warn","ts":"2023-09-04T10:15:15.160Z","caller":"v3rpc/interceptor.go:197","msg":"request stats","start time":"2023-09-04T10:14:45.984Z","time spent":"29.176140088s","remote":"192.168.89.161:57524","response type":"/etcdserverpb.KV/Range","request count":0,"request size":8,"response count":0,"response size":30,"request content":"key:"health" "}
{"level":"warn","ts":"2023-09-04T10:15:15.160Z","caller":"etcdserver/util.go:166","msg":"apply request took too long","took":"19.1576004s","expected-duration":"100ms","prefix":"read-only range ","request":"key:"health" ","response":"range_response_count:0 size:7"}
{"level":"info","ts":"2023-09-04T10:15:15.160Z","caller":"traceutil/trace.go:171","msg":"trace[710593633] range","detail":"{range_begin:health; range_end:; response_count:0; response_revision:6957305; }","duration":"19.15762891s","start":"2023-09-04T10:14:56.003Z","end":"2023-09-04T10:15:15.160Z","steps":["trace[710593633] 'range keys from in-memory index tree' (duration: 19.157503129s)"],"step_count":1}
{"level":"warn","ts":"2023-09-04T10:15:15.160Z","caller":"etcdserver/util.go:166","msg":"apply request took too long","took":"19.10846041s","expected-duration":"100ms","prefix":"read-only range ","request":"key:"health" ","response":"range_response_count:0 size:7"}
{"level":"warn","ts":"2023-09-04T10:15:15.160Z","caller":"v3rpc/interceptor.go:197","msg":"request stats","start time":"2023-09-04T10:14:56.003Z","time spent":"19.157698122s","remote":"192.168.89.161:59224","response type":"/etcdserverpb.KV/Range","request count":0,"request size":8,"response count":0,"response size":30,"request content":"key:"health" "}
{"level":"info","ts":"2023-09-04T10:15:15.160Z","caller":"traceutil/trace.go:171","msg":"trace[682919911] range","detail":"{range_begin:health; range_end:; response_count:0; response_revision:6957305; }","duration":"19.108645393s","start":"2023-09-04T10:14:56.052Z","end":"2023-09-04T10:15:15.160Z","steps":["trace[682919911] 'range keys from in-memory index tree' (duration: 19.108392569s)"],"step_count":1}
{"level":"warn","ts":"2023-09-04T10:15:15.161Z","caller":"v3rpc/interceptor.go:197","msg":"request stats","start time":"2023-09-04T10:14:56.052Z","time spent":"19.108784045s","remote":"192.168.89.161:59230","response type":"/etcdserverpb.KV/Range","request count":0,"request size":8,"response count":0,"response size":30,"request content":"key:"health" "}
{"level":"warn","ts":"2023-09-04T10:15:15.161Z","caller":"etcdserver/util.go:166","msg":"apply request took too long","took":"9.149258071s","expected-duration":"100ms","prefix":"read-only range ","request":"key:"health" ","response":"range_response_count:0 size:7"}
{"level":"info","ts":"2023-09-04T10:15:15.161Z","caller":"traceutil/trace.go:171","msg":"trace[390830555] range","detail":"{range_begin:health; range_end:; response_count:0; response_revision:6957305; }","duration":"9.149293662s","start":"2023-09-04T10:15:06.012Z","end":"2023-09-04T10:15:15.161Z","steps":["trace[390830555] 'range keys from in-memory index tree' (duration: 9.149100729s)"],"step_count":1}
{"level":"warn","ts":"2023-09-04T10:15:15.161Z","caller":"v3rpc/interceptor.go:197","msg":"request stats","start time":"2023-09-04T10:15:06.012Z","time spent":"9.149350993s","remote":"192.168.89.161:45870","response type":"/etcdserverpb.KV/Range","request count":0,"request size":8,"response count":0,"response size":30,"request content":"key:"health" "}
{"level":"info","ts":"2023-09-04T10:15:15.164Z","caller":"backend/backend.go:497","msg":"defragmenting","path":"/bitnami/etcd/data/member/snap/db","current-db-size-bytes":919449600,"current-db-size":"919 MB","current-db-size-in-use-bytes":919429120,"current-db-size-in-use":"919 MB"}
{"level":"info","ts":"2023-09-04T10:15:52.960Z","caller":"backend/backend.go:549","msg":"finished defragmenting directory","path":"/bitnami/etcd/data/member/snap/db","current-db-size-bytes-diff":0,"current-db-size-bytes":919449600,"current-db-size":"919 MB","current-db-size-in-use-bytes-diff":0,"current-db-size-in-use-bytes":919429120,"current-db-size-in-use":"919 MB","took":"1m2.844092593s"}
{"level":"warn","ts":"2023-09-04T10:15:52.961Z","caller":"v3rpc/interceptor.go:197","msg":"request stats","start time":"2023-09-04T10:15:19.729Z","time spent":"33.23139625s","remote":"127.0.0.1:59744","response type":"/etcdserverpb.Maintenance/Status","request count":-1,"request size":-1,"response count":-1,"response size":-1,"request content":""}
{"level":"warn","ts":"2023-09-04T10:15:52.961Z","caller":"etcdserver/util.go:166","msg":"apply request took too long","took":"21.953764959s","expected-duration":"100ms","prefix":"read-only range ","request":"key:"health" ","response":"range_response_count:0 size:7"}
{"level":"info","ts":"2023-09-04T10:15:52.960Z","caller":"v3rpc/maintenance.go:95","msg":"finished defragment"}
{"level":"info","ts":"2023-09-04T10:15:52.961Z","caller":"traceutil/trace.go:171","msg":"trace[1406687290] range","detail":"{range_begin:health; range_end:; response_count:0; response_revision:6957305; }","duration":"21.953803639s","start":"2023-09-04T10:15:31.007Z","end":"2023-09-04T10:15:52.961Z","steps":["trace[1406687290] 'range keys from in-memory index tree' (duration: 21.953642666s)"],"step_count":1}
{"level":"warn","ts":"2023-09-04T10:15:52.961Z","caller":"v3rpc/interceptor.go:197","msg":"request stats","start time":"2023-09-04T10:15:31.007Z","time spent":"21.953972172s","remote":"192.168.89.161:56088","response type":"/etcdserverpb.KV/Range","request count":0,"request size":8,"response count":0,"response size":30,"request content":"key:"health" "}
{"level":"warn","ts":"2023-09-04T10:15:52.961Z","caller":"etcdserver/util.go:166","msg":"apply request took too long","took":"6.905844352s","expected-duration":"100ms","prefix":"read-only range ","request":"key:"health" ","response":"range_response_count:0 size:7"}
{"level":"warn","ts":"2023-09-04T10:15:52.961Z","caller":"v3rpc/interceptor.go:197","msg":"request stats","start time":"2023-09-04T10:14:50.116Z","time spent":"1m2.844611231s","remote":"192.168.85.84:42541","response type":"/etcdserverpb.Maintenance/Defragment","request count":-1,"request size":-1,"response count":-1,"response size":-1,"request content":""}
{"level":"warn","ts":"2023-09-04T10:15:52.961Z","caller":"etcdserver/util.go:166","msg":"apply request took too long","took":"36.964325963s","expected-duration":"100ms","prefix":"read-only range ","request":"key:"health" ","response":"range_response_count:0 size:7"}
{"level":"info","ts":"2023-09-04T10:15:52.961Z","caller":"traceutil/trace.go:171","msg":"trace[827326309] range","detail":"{range_begin:health; range_end:; response_count:0; response_revision:6957305; }","duration":"36.964688098s","start":"2023-09-04T10:15:15.996Z","end":"2023-09-04T10:15:52.961Z","steps":["trace[827326309] 'range keys from in-memory index tree' (duration: 36.963628842s)"],"step_count":1}
{"level":"warn","ts":"2023-09-04T10:15:52.961Z","caller":"v3rpc/interceptor.go:197","msg":"request stats","start time":"2023-09-04T10:15:15.996Z","time spent":"36.964733029s","remote":"192.168.89.161:40226","response type":"/etcdserverpb.KV/Range","request count":0,"request size":8,"response count":0,"response size":30,"request content":"key:"health" "}
{"level":"warn","ts":"2023-09-04T10:15:52.961Z","caller":"etcdserver/util.go:166","msg":"apply request took too long","took":"26.923494711s","expected-duration":"100ms","prefix":"read-only range ","request":"key:"health" ","response":"range_response_count:0 size:7"}
{"level":"info","ts":"2023-09-04T10:15:52.961Z","caller":"traceutil/trace.go:171","msg":"trace[970025868] range","detail":"{range_begin:health; range_end:; response_count:0; response_revision:6957305; }","duration":"26.924178342s","start":"2023-09-04T10:15:26.037Z","end":"2023-09-04T10:15:52.961Z","steps":["trace[970025868] 'range keys from in-memory index tree' (duration: 26.92340569s)"],"step_count":1}
{"level":"warn","ts":"2023-09-04T10:15:52.961Z","caller":"v3rpc/interceptor.go:197","msg":"request stats","start time":"2023-09-04T10:15:26.037Z","time spent":"26.924310084s","remote":"192.168.89.161:33924","response type":"/etcdserverpb.KV/Range","request count":0,"request size":8,"response count":0,"response size":30,"request content":"key:"health" "}
{"level":"warn","ts":"2023-09-04T10:15:52.961Z","caller":"etcdserver/util.go:166","msg":"apply request took too long","took":"26.9247025s","expected-duration":"100ms","prefix":"read-only range ","request":"key:"health" ","response":"range_response_count:0 size:7"}
{"level":"info","ts":"2023-09-04T10:15:52.961Z","caller":"traceutil/trace.go:171","msg":"trace[1036293439] range","detail":"{range_begin:health; range_end:; response_count:0; response_revision:6957305; }","duration":"26.925301979s","start":"2023-09-04T10:15:26.036Z","end":"2023-09-04T10:15:52.961Z","steps":["trace[1036293439] 'range keys from in-memory index tree' (duration: 26.924614909s)"],"step_count":1}
{"level":"warn","ts":"2023-09-04T10:15:52.961Z","caller":"v3rpc/interceptor.go:197","msg":"request stats","start time":"2023-09-04T10:15:26.036Z","time spent":"26.92535433s","remote":"192.168.89.161:33926","response type":"/etcdserverpb.KV/Range","request count":0,"request size":8,"response count":0,"response size":30,"request content":"key:"health" "}
{"level":"info","ts":"2023-09-04T10:15:52.961Z","caller":"traceutil/trace.go:171","msg":"trace[89895875] range","detail":"{range_begin:health; range_end:; response_count:0; response_revision:6957305; }","duration":"6.906131406s","start":"2023-09-04T10:15:46.055Z","end":"2023-09-04T10:15:52.961Z","steps":["trace[89895875] 'range keys from in-memory index tree' (duration: 6.905654649s)"],"step_count":1}
{"level":"warn","ts":"2023-09-04T10:15:52.962Z","caller":"v3rpc/interceptor.go:197","msg":"request stats","start time":"2023-09-04T10:15:46.055Z","time spent":"6.907248084s","remote":"192.168.89.161:45602","response type":"/etcdserverpb.KV/Range","request count":0,"request size":8,"response count":0,"response size":30,"request content":"key:"health" "}
{"level":"warn","ts":"2023-09-04T10:15:52.962Z","caller":"etcdserver/util.go:166","msg":"apply request took too long","took":"16.716701044s","expected-duration":"100ms","prefix":"read-only range ","request":"key:"health" ","response":"range_response_count:0 size:7"}
{"level":"info","ts":"2023-09-04T10:15:52.962Z","caller":"traceutil/trace.go:171","msg":"trace[1355394960] range","detail":"{range_begin:health; range_end:; response_count:0; response_revision:6957305; }","duration":"16.716748485s","start":"2023-09-04T10:15:36.246Z","end":"2023-09-04T10:15:52.962Z","steps":["trace[1355394960] 'range keys from in-memory index tree' (duration: 16.713172978s)"],"step_count":1}
{"level":"warn","ts":"2023-09-04T10:15:52.962Z","caller":"v3rpc/interceptor.go:197","msg":"request stats","start time":"2023-09-04T10:15:36.246Z","time spent":"16.716822766s","remote":"192.168.89.161:56094","response type":"/etcdserverpb.KV/Range","request count":0,"request size":8,"response count":0,"response size":30,"request content":"key:"health" "}
{"level":"info","ts":"2023-09-04T10:27:40.560Z","caller":"v3rpc/maintenance.go:89","msg":"starting defragment"}
{"level":"info","ts":"2023-09-04T10:27:40.563Z","caller":"backend/backend.go:497","msg":"defragmenting","path":"/bitnami/etcd/data/member/snap/db","current-db-size-bytes":919449600,"current-db-size":"919 MB","current-db-size-in-use-bytes":919429120,"current-db-size-in-use":"919 MB"}
{"level":"info","ts":"2023-09-04T10:28:11.264Z","caller":"backend/backend.go:549","msg":"finished defragmenting directory","path":"/bitnami/etcd/data/member/snap/db","current-db-size-bytes-diff":0,"current-db-size-bytes":919449600,"current-db-size":"919 MB","current-db-size-in-use-bytes-diff":0,"current-db-size-in-use-bytes":919429120,"current-db-size-in-use":"919 MB","took":"30.704451413s"}
{"level":"info","ts":"2023-09-04T10:28:11.264Z","caller":"v3rpc/maintenance.go:95","msg":"finished defragment"}
{"level":"warn","ts":"2023-09-04T10:28:11.264Z","caller":"v3rpc/interceptor.go:197","msg":"request stats","start time":"2023-09-04T10:27:40.560Z","time spent":"30.704706927s","remote":"127.0.0.1:51658","response type":"/etcdserverpb.Maintenance/Defragment","request count":-1,"request size":-1,"response count":-1,"response size":-1,"request content":""}
{"level":"warn","ts":"2023-09-04T10:28:11.264Z","caller":"etcdserver/util.go:166","msg":"apply request took too long","took":"25.287193194s","expected-duration":"100ms","prefix":"read-only range ","request":"key:"health" ","response":"range_response_count:0 size:7"}
{"level":"info","ts":"2023-09-04T10:28:11.264Z","caller":"traceutil/trace.go:171","msg":"trace[2015311398] range","detail":"{range_begin:health; range_end:; response_count:0; response_revision:6957305; }","duration":"25.287244044s","start":"2023-09-04T10:27:45.977Z","end":"2023-09-04T10:28:11.264Z","steps":["trace[2015311398] 'range keys from in-memory index tree' (duration: 25.287106113s)"],"step_count":1}
{"level":"warn","ts":"2023-09-04T10:28:11.264Z","caller":"etcdserver/util.go:166","msg":"apply request took too long","took":"15.094772624s","expected-duration":"100ms","prefix":"read-only range ","request":"key:"health" ","response":"range_response_count:0 size:7"}
{"level":"warn","ts":"2023-09-04T10:28:11.264Z","caller":"v3rpc/interceptor.go:197","msg":"request stats","start time":"2023-09-04T10:27:45.977Z","time spent":"25.287295465s","remote":"192.168.89.161:35106","response type":"/etcdserverpb.KV/Range","request count":0,"request size":8,"response count":0,"response size":30,"request content":"key:"health" "}
{"level":"info","ts":"2023-09-04T10:28:11.264Z","caller":"traceutil/trace.go:171","msg":"trace[327478594] range","detail":"{range_begin:health; range_end:; response_count:0; response_revision:6957305; }","duration":"15.094837185s","start":"2023-09-04T10:27:56.170Z","end":"2023-09-04T10:28:11.264Z","steps":["trace[327478594] 'range keys from in-memory index tree' (duration: 15.094549811s)"],"step_count":1}
{"level":"warn","ts":"2023-09-04T10:28:11.264Z","caller":"v3rpc/interceptor.go:197","msg":"request stats","start time":"2023-09-04T10:27:56.170Z","time spent":"15.094973778s","remote":"192.168.89.161:39586","response type":"/etcdserverpb.KV/Range","request count":0,"request size":8,"response count":0,"response size":30,"request content":"key:"health" "}
{"level":"warn","ts":"2023-09-04T10:28:11.264Z","caller":"etcdserver/util.go:166","msg":"apply request took too long","took":"15.210877844s","expected-duration":"100ms","prefix":"read-only range ","request":"key:"health" ","response":"range_response_count:0 size:7"}
{"level":"info","ts":"2023-09-04T10:28:11.265Z","caller":"traceutil/trace.go:171","msg":"trace[1092866620] range","detail":"{range_begin:health; range_end:; response_count:0; response_revision:6957305; }","duration":"15.211179708s","start":"2023-09-04T10:27:56.053Z","end":"2023-09-04T10:28:11.265Z","steps":["trace[1092866620] 'range keys from in-memory index tree' (duration: 15.210801602s)"],"step_count":1}
{"level":"warn","ts":"2023-09-04T10:28:11.265Z","caller":"v3rpc/interceptor.go:197","msg":"request stats","start time":"2023-09-04T10:27:56.053Z","time spent":"15.211286979s","remote":"192.168.89.161:39578","response type":"/etcdserverpb.KV/Range","request count":0,"request size":8,"response count":0,"response size":30,"request content":"key:"health" "}
{"level":"warn","ts":"2023-09-04T10:28:11.264Z","caller":"etcdserver/util.go:166","msg":"apply request took too long","took":"5.288572494s","expected-duration":"100ms","prefix":"read-only range ","request":"key:"health" ","response":"range_response_count:0 size:7"}
{"level":"info","ts":"2023-09-04T10:28:11.265Z","caller":"traceutil/trace.go:171","msg":"trace[1060730828] range","detail":"{range_begin:health; range_end:; response_count:0; response_revision:6957305; }","duration":"5.28894269s","start":"2023-09-04T10:28:05.976Z","end":"2023-09-04T10:28:11.265Z","steps":["trace[1060730828] 'range keys from in-memory index tree' (duration: 5.288463122s)"],"step_count":1}
{"level":"warn","ts":"2023-09-04T10:28:11.265Z","caller":"v3rpc/interceptor.go:197","msg":"request stats","start time":"2023-09-04T10:28:05.976Z","time spent":"5.28899211s","remote":"192.168.89.161:41662","response type":"/etcdserverpb.KV/Range","request count":0,"request size":8,"response count":0,"response size":30,"request content":"key:"health" "}

1 reply

jmhbnz Sep 4, 2023
Maintainer

I can't see anything fatal with the logs. Is the instance running successfully currently?

To dig into the database size issue further refer to https://etcd.io/blog/2023/how_to_debug_large_db_size_issue.

Before the defragmentation have you also run compaction?

liangpeihuahua · 2023-09-05T01:55:18Z

liangpeihuahua
Sep 5, 2023
Author

In fact, the biggest problem now is that in this etcd cluster, all the key values of our business data have been deleted, that is, our business data is gone. But I don't understand why dbsize still has 919MB of storage, and the memory usage will reach 2G. The problem of restarting the etcd cluster still exists.

0 replies

liangpeihuahua · 2023-09-05T02:05:01Z

liangpeihuahua
Sep 5, 2023
Author

The real column is running normally and is not compressed before fragmentation, but etcd should be compressed every 5 minutes by default.

0 replies

liangpeihuahua · 2023-09-05T02:16:43Z

liangpeihuahua
Sep 5, 2023
Author

still failed

0 replies

liangpeihuahua · 2023-09-05T05:39:48Z

liangpeihuahua
Sep 5, 2023
Author

Is there something wrong with this?

Because I can’t query the key of health either

2 replies

fuweid Sep 5, 2023
Maintainer

would you try to use etcdctl get health -w json to get revision?
And you can try to use etcd-dump-db to check the data? Thanks

And please provide the corresponding logs for the command error.

REF: https://etcd.io/blog/2023/how_to_debug_large_db_size_issue/

fuweid Sep 5, 2023
Maintainer

Because I can’t query the key of health either

The health key is not exist. So etcdctl shows nothing

liangpeihuahua · 2023-09-05T07:25:42Z

liangpeihuahua
Sep 5, 2023
Author

I checked the db data in the /bitnami/etcd/data/member/snap directory. It contains our historical data. However, these data can no longer be found through etcdctl get {key name}, but they still exist in the db.
, a total of 7830424 pieces, a total of 818MB of data.

6 replies

liangpeihuahua Sep 5, 2023
Author

There is no output via etcdctl get --prefix "" --keys-only. My key starts with 16, which is a uid

liangpeihuahua Sep 5, 2023
Author

$
$ etcdctl get --prefix "" --keys-only -w json
{"header":{"cluster_id":14060995656550030302,"member_id":7470237338526505006,"revision":6957307,"raft_term":3}}
$
$
$ etcdctl get health -w json
{"header":{"cluster_id":14060995656550030302,"member_id":7470237338526505006,"revision":6957307,"raft_term":3}}
$

fuweid Sep 5, 2023
Maintainer

hmm. do you know which bucket the historical data uses? or provide all the etcd's log from start to now. thanks

liangpeihuahua Sep 5, 2023
Author

This etcd load was deployed using helm. After restarting etcd, the logs are no longer complete. But there is one thing, the historical data of our business scenario is useless, what parameters can be set, if there is no key in use, the key and value will be deleted, do not need to be kept in the db, the main reason is to Free up memory in this way.

fuweid Sep 5, 2023
Maintainer

please follow the @ahrtr suggestions #16531 (comment).

etcdctl compact ----physical=true can wait for the compact finish.

ahrtr · 2023-09-05T08:00:45Z

ahrtr
Sep 5, 2023
Maintainer

Please follow steps below,

Get the latest revision using command: etcdctl --endpoints=:2379 endpoint status --write-out="json" | egrep -o '"revision":[0-9]*' | egrep -o '[0-9].*')
Execute compaction operation: etcdctl compact ${the_revision_got_at_step_1}
Execute defragmentation: etcdctl defrag
Let's know the db size
If the db size is still that big, can you share the db file?

12 replies

fuweid Sep 5, 2023
Maintainer

In ETCD, each change has unique revision. Even if you delete the key, the historical data(old revision) is still in db.
ETCD keeps the history of the key/value. The user needs to compact old revisions. You can set the auto-compaction based on your requirement, please checkout https://etcd.io/docs/v3.5/op-guide/maintenance/#history-compaction-v3-api-key-value-database.

liangpeihuahua Sep 5, 2023
Author

I would like to ask if all the db data of etcd are mapped to memory, that is, how big the db is, how much memory should be used, right?

fuweid Sep 5, 2023
Maintainer

There is two type of memory: file-backend and annoymous. The ETCD mmaps the db file as memory (page-cache). It belongs to file-backend. The short answer to your question is yes. However, it depends on how you use the db. If you just read small set of key/value, the active memory won't be high.

liangpeihuahua Sep 5, 2023
Author

Ok is there any recommended reference document for me to study this etcd memory classification? Thank you, our etcd data and memory problems have been solved.

fuweid Sep 5, 2023
Maintainer

It's just about kernel memory management. I think you can check the cgroup metrics from container.
Just remember that the short answer is yes (how big the db is, how much memory should be used). :) Hope it can help.

https://www.kernel.org/doc/Documentation/cgroup-v1/memory.txt -> 5.2 stat file
https://docs.kernel.org/admin-guide/cgroup-v2.html -> memory.stat

liangpeihuahua · 2023-09-05T10:31:39Z

liangpeihuahua
Sep 5, 2023
Author

thanks

From: "Fu ***@***.***> Date: Tue, Sep 5, 2023, 18:12 Subject: Re: [etcd-io/etcd] Storage data exception (Discussion #16531) To: ***@***.***> Cc: ***@***.***>, ***@***.***> It's just about kernel memory management. I think you can check the cgroup metrics from container.

Just remember that the short answer is yes (how big the db is, how much memory should be used). :) Hope it can help.

…

• https://www.kernel.org/doc/Documentation/cgroup-v1/memory.txt -> 5.2 stat file • https://docs.kernel.org/admin-guide/cgroup-v2.html -> memory.stat — Reply to this email directly, view it on GitHub<#16531 (reply in thread)>, or unsubscribe<https://github.com/notifications/unsubscribe-auth/A4LZB7NHIH25YWMP4AB4BMTXY33IHANCNFSM6AAAAAA4KDLYTE>. You are receiving this because you were mentioned.[image: https://github.com/notifications/beacon/A4LZB7O3P3BZJTXCHQFFD63XY33IHA5CNFSM6AAAAAA4KDLYTGWGG33NNVSW45C7OR4XAZNRIRUXGY3VONZWS33OINXW23LFNZ2KUY3PNVWWK3TUL5UWJTQANF5H4.gif]Message ID: ***@***.***>

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Storage data exception #16531

{{title}}

paste your configuration here

Replies: 12 comments 22 replies

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

Select a reply

Storage data exception #16531

liangpeihuahua Sep 4, 2023

Bug report criteria

What happened?

What did you expect to happen?

How can we reproduce it (as minimally and precisely as possible)?

Anything else we need to know?

Etcd version (please run commands below)

Etcd configuration (command line flags or environment variables)

paste your configuration here

Etcd debug information (please run commands below, feel free to obfuscate the IP address or FQDN in the output)

Relevant log output

Replies: 12 comments · 22 replies

flyingrx Sep 4, 2023

jmhbnz Sep 4, 2023 Maintainer

liangpeihuahua Sep 4, 2023 Author

jmhbnz Sep 4, 2023 Maintainer

liangpeihuahua Sep 4, 2023 Author

liangpeihuahua Sep 4, 2023 Author

jmhbnz Sep 4, 2023 Maintainer

liangpeihuahua Sep 5, 2023 Author

liangpeihuahua Sep 5, 2023 Author

liangpeihuahua Sep 5, 2023 Author

liangpeihuahua Sep 5, 2023 Author

fuweid Sep 5, 2023 Maintainer

fuweid Sep 5, 2023 Maintainer

liangpeihuahua Sep 5, 2023 Author

liangpeihuahua Sep 5, 2023 Author

liangpeihuahua Sep 5, 2023 Author

fuweid Sep 5, 2023 Maintainer

liangpeihuahua Sep 5, 2023 Author

fuweid Sep 5, 2023 Maintainer

ahrtr Sep 5, 2023 Maintainer

fuweid Sep 5, 2023 Maintainer

liangpeihuahua Sep 5, 2023 Author

fuweid Sep 5, 2023 Maintainer

liangpeihuahua Sep 5, 2023 Author

fuweid Sep 5, 2023 Maintainer

liangpeihuahua Sep 5, 2023 Author

liangpeihuahua
Sep 4, 2023

Replies: 12 comments 22 replies

flyingrx
Sep 4, 2023

jmhbnz
Sep 4, 2023
Maintainer

liangpeihuahua
Sep 4, 2023
Author

jmhbnz Sep 4, 2023
Maintainer

liangpeihuahua
Sep 4, 2023
Author

liangpeihuahua
Sep 4, 2023
Author

jmhbnz Sep 4, 2023
Maintainer

liangpeihuahua
Sep 5, 2023
Author

liangpeihuahua
Sep 5, 2023
Author

liangpeihuahua
Sep 5, 2023
Author

liangpeihuahua
Sep 5, 2023
Author

fuweid Sep 5, 2023
Maintainer

fuweid Sep 5, 2023
Maintainer

liangpeihuahua
Sep 5, 2023
Author

liangpeihuahua Sep 5, 2023
Author

liangpeihuahua Sep 5, 2023
Author

fuweid Sep 5, 2023
Maintainer

liangpeihuahua Sep 5, 2023
Author

fuweid Sep 5, 2023
Maintainer

ahrtr
Sep 5, 2023
Maintainer

fuweid Sep 5, 2023
Maintainer

liangpeihuahua Sep 5, 2023
Author

fuweid Sep 5, 2023
Maintainer

liangpeihuahua Sep 5, 2023
Author

fuweid Sep 5, 2023
Maintainer

liangpeihuahua
Sep 5, 2023
Author