Segment和binlog的关系如何？ #39032

ivivi · 2025-01-07T03:24:51Z

ivivi
Jan 7, 2025

Segment是由一个个16MB大小的binlog组成吗？
insertBufSize默认为16MB，那么每16MB就会生成一个binlog，理想情况当数据不断写入，生成多个binlog文件，总binlog文件大于默认的122MB就会sealed这个Segment，进行flush，那么此时flush还需要额外的持久化到对象存储的动作吗，因为binlog都已经持久化到对象存储了？
还是binlog只作为数据恢复使用，Segment flush时会把这122MB的内存数据序列化后持久到对象存储上？
索引的粒度是在binlog级别吗，假如当前Growing Segment下有一个binlog文件写到对象存储后，index node此时会针对这个binlog生成索引文件吗？如果生成了，那么querynode中是如何使用这个新生成的索引文件的？
还是索引要等到Segment flush后，indexnode才针对这个Segment整体进行索引生成？

提前感谢大佬的解惑

Jan 7, 2025

一般用户没必要了解这么仔细，解释起来比较麻烦。

当一个binlog数据量凑齐时，就会把这个binlog往s3里面写。当segment数据量达到一百多兆后，seal的意思是不会再有数据往这个segment里写，此时，其实那一百多兆数据已经全部写入s3。客户端调用的flush其实意思是把当前所有growing segment转为sealed，并且把所有growing segment的当前没落盘的binlog写入s3。

假设某个growing segment写入了3个binlog文件，第4个binlog还没到足够落盘的大小，此时，如果milvus崩了，那么，重启之后，datanode需要去从kafka/pulsa拉取第4个binglog的数据，然后等待达到落盘标准

索引的粒度在segment级别，只有sealed segment才能构建索引，index node把该segemnt的所有binlog全部读进内存，然后构建索引。
一旦某个segment的索引构建完成，querynode会得到通知，去s3上读取该segment的索引文件，把索引数据读进内存。

View full answer

yhmo · 2025-01-07T06:10:04Z

yhmo
Jan 7, 2025
Collaborator

一般用户没必要了解这么仔细，解释起来比较麻烦。

当一个binlog数据量凑齐时，就会把这个binlog往s3里面写。当segment数据量达到一百多兆后，seal的意思是不会再有数据往这个segment里写，此时，其实那一百多兆数据已经全部写入s3。客户端调用的flush其实意思是把当前所有growing segment转为sealed，并且把所有growing segment的当前没落盘的binlog写入s3。

假设某个growing segment写入了3个binlog文件，第4个binlog还没到足够落盘的大小，此时，如果milvus崩了，那么，重启之后，datanode需要去从kafka/pulsa拉取第4个binglog的数据，然后等待达到落盘标准

索引的粒度在segment级别，只有sealed segment才能构建索引，index node把该segemnt的所有binlog全部读进内存，然后构建索引。
一旦某个segment的索引构建完成，querynode会得到通知，去s3上读取该segment的索引文件，把索引数据读进内存。

3 replies

ivivi Jan 7, 2025
Author

感谢大佬的详细解答
还有个相关的小问题
如果数据倾斜，多shard的collection，单个channel数据量非常大，频繁触发auto flush，那么一个channel的segment的auto flush，也会触发其余channel的segment的flush吗

yhmo Jan 7, 2025
Collaborator

不管是哪个channel，谁的binlog满了就落盘。如果datanode内存水位太高，会把数据最大的binlog落盘。就像打地鼠，谁冒头就敲谁，如果一只地鼠老是冒头，那就老是敲它。

ivivi Jan 7, 2025
Author

感谢回答，解决了困扰多周的问题

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Segment和binlog的关系如何？ #39032

{{title}}

Replies: 1 comment 3 replies

{{title}}

{{title}}

{{title}}

{{title}}

Select a reply

Segment和binlog的关系如何？ #39032

ivivi Jan 7, 2025

Replies: 1 comment · 3 replies

yhmo Jan 7, 2025 Collaborator

ivivi Jan 7, 2025 Author

yhmo Jan 7, 2025 Collaborator

ivivi Jan 7, 2025 Author

ivivi
Jan 7, 2025

Replies: 1 comment 3 replies

yhmo
Jan 7, 2025
Collaborator

ivivi Jan 7, 2025
Author

yhmo Jan 7, 2025
Collaborator

ivivi Jan 7, 2025
Author