Skip to content

Commit

Permalink
[typo](docs) some chinese typos,一些中文版的文字小错误 (#1707)
Browse files Browse the repository at this point in the history
  • Loading branch information
daveyyan authored Jan 4, 2025
1 parent 8512da5 commit 9ba07d9
Show file tree
Hide file tree
Showing 13 changed files with 14 additions and 14 deletions.
Original file line number Diff line number Diff line change
Expand Up @@ -31,7 +31,7 @@ under the License.
从 3.0 版本开始,Doris 支持对接 Trino Connector 插件。通过丰富的 Trino Connector 插件以及 Doris 的 `Trino-Connector` Catalog 功能可以让 Doris 支持更多的数据源。

Trino Connector 兼容框架的目的在于帮助 Doris 快速对接更多的数据源,以满足用户需求。
对于 Hive、Iceberg、Hudi、Paimon、JDBC 等数据源,我们仍然建议使用 Doris 内置的 Catalog 进行连接,已获得更好的性能、稳定性和兼容性。
对于 Hive、Iceberg、Hudi、Paimon、JDBC 等数据源,我们仍然建议使用 Doris 内置的 Catalog 进行连接,以获得更好的性能、稳定性和兼容性。

本文主要介绍,如何在 Doris 中适配一个 Trino Connector 插件。

Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -28,7 +28,7 @@ under the License.

## 使用场景

在实际的业务场景中,随着业务数据量越来越大,对数据去重的压力也越来越大,当数据达到一定规模之后,使用精准去重的成本也越来越高。HLL 的特点是具有非常优异的空间复杂度 O(mloglogn) , 时间复杂度为 O(n), 并且计算结果的误差可控制在 1%—2% 左右,误差与数据集大小以及所采用的哈希函数有关。
在实际的业务场景中,随着业务数据量越来越大,对数据去重的压力也越来越大,当数据达到一定规模之后,使用精准去重的成本也越来越高。HLL 的特点是具有非常优异的空间复杂度 O(mloglogn)时间复杂度为 O(n)并且计算结果的误差可控制在 1%—2% 左右,误差与数据集大小以及所采用的哈希函数有关。

在业务可以接受的情况下,通过近似算法来实现快速去重降低计算压力是一个非常好的方式。

Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -33,7 +33,7 @@ SELECT * FROM tablex WHERE xxx ORDER BY c1,c2 ... LIMIT n

## TOPN 查询优化的优化点

1. 执行过程中动态对排序列构建范围过滤条件(比如 c1 >= 10000),读数据时自动带上前面的条件,利用 Zonemap 索引过滤到一些数据甚至文件
1. 执行过程中动态对排序列构建范围过滤条件(比如 c1 >= 10000),读数据时自动带上前面的条件,利用 Zonemap 索引过滤掉一些数据甚至文件

2. 如果排序字段 c1,c2 正好是 Table Key 的前缀,则更进一步优化,读数据的时候只用读数据文件的头部或者尾部 n 行。

Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -28,7 +28,7 @@ under the License.

## 需求场景

未来一个很大的使用场景是类似于es日志存储,日志场景下数据会按照日期来切割数据,很多数据是冷数据,查询很少,需要降低这类数据的存储成本。从节约存储成本角度考虑
未来一个很大的使用场景是类似于es日志存储,日志场景下通常会按照日期来切割数据,很多数据是冷数据,查询很少,需要降低这类数据的存储成本。从节约存储成本角度考虑
1. 各云厂商普通云盘的价格都比对象存储贵
2. 在doris集群实际线上使用中,普通云盘的利用率无法达到100%
3. 云盘不是按需付费,而对象存储可以做到按需付费
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -28,7 +28,7 @@ under the License.

在实际的业务场景中,随着业务数据量越来越大,对数据去重的压力也越来越大,当数据达到一定规模之后,使用精准去重的成本也越来越高,在业务可以接受的情况下,通过近似算法来实现快速去重降低计算压力是一个非常好的方式,本文主要介绍 Doris 提供的 HyperLogLog(简称 HLL)是一种近似去重算法。

HLL 的特点是具有非常优异的空间复杂度 O(mloglogn) , 时间复杂度为 O(n), 并且计算结果的误差可控制在 1%—2% 左右,误差与数据集大小以及所采用的哈希函数有关。
HLL 的特点是具有非常优异的空间复杂度 O(mloglogn)时间复杂度为 O(n)并且计算结果的误差可控制在 1%—2% 左右,误差与数据集大小以及所采用的哈希函数有关。

## 什么是 HyperLogLog

Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -26,7 +26,7 @@ under the License.

## 为什么引入 Broker Load?

Stream Load 是一种推的方式,即导入的数据依靠客户端读取,并推送到 Doris。Broker Load 则是将导入请求发送给 Doris, Doris 主动拉取数据,所以如果数据存储在类似 HDFS 或者 对象存储中,则使用 Broker Load 是最方便的。这样,数据就不需要经过客户端,而有 Doris 直接读取导入。
Stream Load 是一种推的方式,即导入的数据依靠客户端读取,并推送到 Doris。Broker Load 则是将导入请求发送给 Doris, Doris 主动拉取数据,所以如果数据存储在类似 HDFS 或者 对象存储中,则使用 Broker Load 是最方便的。这样,数据就不需要经过客户端,而由 Doris 直接读取导入。

从 HDFS 或者 S3 直接读取,也可以通过 [湖仓一体/TVF](../../lakehouse/file) 中的 HDFS TVF 或者 S3 TVF 进行导入。基于 TVF 的 Insert Into 当前为同步导入,Broker Load 是一个异步的导入方式。

Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -28,7 +28,7 @@ under the License.

在实际的业务场景中,随着业务数据量越来越大,对数据去重的压力也越来越大,当数据达到一定规模之后,使用精准去重的成本也越来越高,在业务可以接受的情况下,通过近似算法来实现快速去重降低计算压力是一个非常好的方式,本文主要介绍 Doris 提供的 HyperLogLog(简称 HLL)是一种近似去重算法。

HLL 的特点是具有非常优异的空间复杂度 O(mloglogn) , 时间复杂度为 O(n), 并且计算结果的误差可控制在 1%—2% 左右,误差与数据集大小以及所采用的哈希函数有关。
HLL 的特点是具有非常优异的空间复杂度 O(mloglogn)时间复杂度为 O(n)并且计算结果的误差可控制在 1%—2% 左右,误差与数据集大小以及所采用的哈希函数有关。

## 什么是 HyperLogLog

Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -33,7 +33,7 @@ SELECT * FROM tablex WHERE xxx ORDER BY c1,c2 ... LIMIT n

## TOPN 查询优化的优化点

1. 执行过程中动态对排序列构建范围过滤条件(比如 c1 >= 10000),读数据时自动带上前面的条件,利用 zonemap 索引过滤到一些数据甚至文件
1. 执行过程中动态对排序列构建范围过滤条件(比如 c1 >= 10000),读数据时自动带上前面的条件,利用 zonemap 索引过滤掉一些数据甚至文件
2. 如果排序字段c1,c2 正好是table key的前缀,则更进一步优化,读数据的时候只用读数据文件的头部或者尾部n行。
3. SELECT * 延迟物化,读数据和排序过程中只读排序列不读其它列,得到符合条件的行号后,再去读那n行需要的全部列数据,大幅减少读取和排序的列。

Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -25,7 +25,7 @@ under the License.
-->
## 需求场景

未来一个很大的使用场景是类似于 ES 日志存储,日志场景下数据会按照日期来切割数据,很多数据是冷数据,查询很少,需要降低这类数据的存储成本。从节约存储成本角度考虑:
未来一个很大的使用场景是类似于 ES 日志存储,日志场景下通常会按照日期来切割数据,很多数据是冷数据,查询很少,需要降低这类数据的存储成本。从节约存储成本角度考虑:

- 各云厂商普通云盘的价格都比对象存储贵

Expand All @@ -39,7 +39,7 @@ under the License.

在 Partition 级别上设置 Freeze time,表示多久这个 Partition 会被 Freeze,并且定义 Freeze 之后存储的 Remote storage 的位置。在 BE 上 daemon 线程会周期性的判断表是否需要 freeze,若 freeze 后会将数据上传到兼容 S3 协议的对象存储和 HDFS 上。

冷热分层支持所有 Doris 功能,只是把部分数据放到对象存储上,以节省成本,不牺牲功能。因此有如下特点:
冷热分层支持几乎所有 Doris 功能,只是把部分数据放到对象存储上,以节省成本,不牺牲功能。因此有如下特点:

- 冷数据放到对象存储上,用户无需担心数据一致性和数据安全性问题
- 灵活的 Freeze 策略,冷却远程存储 Property 可以应用到表和 Partition 级别
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -28,7 +28,7 @@ under the License.

在实际的业务场景中,随着业务数据量越来越大,对数据去重的压力也越来越大,当数据达到一定规模之后,使用精准去重的成本也越来越高,在业务可以接受的情况下,通过近似算法来实现快速去重降低计算压力是一个非常好的方式,本文主要介绍 Doris 提供的 HyperLogLog(简称 HLL)是一种近似去重算法。

HLL 的特点是具有非常优异的空间复杂度 O(mloglogn) , 时间复杂度为 O(n), 并且计算结果的误差可控制在 1%—2% 左右,误差与数据集大小以及所采用的哈希函数有关。
HLL 的特点是具有非常优异的空间复杂度 O(mloglogn)时间复杂度为 O(n)并且计算结果的误差可控制在 1%—2% 左右,误差与数据集大小以及所采用的哈希函数有关。

## 什么是 HyperLogLog

Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -33,7 +33,7 @@ SELECT * FROM tablex WHERE xxx ORDER BY c1,c2 ... LIMIT n

## TOPN 查询优化的优化点

1. 执行过程中动态对排序列构建范围过滤条件(比如 c1 >= 10000),读数据时自动带上前面的条件,利用 Zonemap 索引过滤到一些数据甚至文件
1. 执行过程中动态对排序列构建范围过滤条件(比如 c1 >= 10000),读数据时自动带上前面的条件,利用 Zonemap 索引过滤掉一些数据甚至文件

2. 如果排序字段 c1,c2 正好是 Table Key 的前缀,则更进一步优化,读数据的时候只用读数据文件的头部或者尾部 n 行。

Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -28,7 +28,7 @@ under the License.

在实际的业务场景中,随着业务数据量越来越大,对数据去重的压力也越来越大,当数据达到一定规模之后,使用精准去重的成本也越来越高,在业务可以接受的情况下,通过近似算法来实现快速去重降低计算压力是一个非常好的方式,本文主要介绍 Doris 提供的 HyperLogLog(简称 HLL)是一种近似去重算法。

HLL 的特点是具有非常优异的空间复杂度 O(mloglogn) , 时间复杂度为 O(n), 并且计算结果的误差可控制在 1%—2% 左右,误差与数据集大小以及所采用的哈希函数有关。
HLL 的特点是具有非常优异的空间复杂度 O(mloglogn)时间复杂度为 O(n)并且计算结果的误差可控制在 1%—2% 左右,误差与数据集大小以及所采用的哈希函数有关。

## 什么是 HyperLogLog

Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -33,7 +33,7 @@ SELECT * FROM tablex WHERE xxx ORDER BY c1,c2 ... LIMIT n

## TOPN 查询优化的优化点

1. 执行过程中动态对排序列构建范围过滤条件(比如 c1 >= 10000),读数据时自动带上前面的条件,利用 Zonemap 索引过滤到一些数据甚至文件
1. 执行过程中动态对排序列构建范围过滤条件(比如 c1 >= 10000),读数据时自动带上前面的条件,利用 Zonemap 索引过滤掉一些数据甚至文件

2. 如果排序字段 c1,c2 正好是 Table Key 的前缀,则更进一步优化,读数据的时候只用读数据文件的头部或者尾部 n 行。

Expand Down

0 comments on commit 9ba07d9

Please sign in to comment.