Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

大神您好,有个问题能否解答下 #22

Open
zdkzdk opened this issue Mar 29, 2021 · 4 comments
Open

大神您好,有个问题能否解答下 #22

zdkzdk opened this issue Mar 29, 2021 · 4 comments

Comments

@zdkzdk
Copy link

zdkzdk commented Mar 29, 2021

spark,父子RDD分区是一对多的关系,有没有可能是窄依赖???如果有可能,能否举个例子呢

为啥shuffle必须要落盘,直接在内存中不能进行数据重新分布吗???

@JerryLead
Copy link
Owner

  1. 见图3.2中的ManyToManyDependency,以及书中对应的解释,举例见P71 cartesian()的描述。
  2. 为了避免内存溢出和错误容忍,详见6.2.4节和8.3.2中的(1)。

@zdkzdk
Copy link
Author

zdkzdk commented Mar 30, 2021

  1. 见图3.2中的ManyToManyDependency,以及书中对应的解释,举例见P71 cartesian()的描述。
  2. 为了避免内存溢出和错误容忍,详见6.2.4节和8.3.2中的(1)。
  1. 那个是多对多,单纯的一对多有没有可能是窄依赖呢

@zdkzdk
Copy link
Author

zdkzdk commented Mar 30, 2021

  1. 见图3.2中的ManyToManyDependency,以及书中对应的解释,举例见P71 cartesian()的描述。
  2. 为了避免内存溢出和错误容忍,详见6.2.4节和8.3.2中的(1)。

大神,我发现,即使是1对一的情况下,也有可能是宽依赖,比如使用了coalesce(1,true)。所以我感觉您的那个子RDD的分区不完全依赖父RDD分区的定义也是不严谨的。。。
所以我要问的是,划分宽窄依赖的标准到底是啥啊???头大

@zdkzdk
Copy link
Author

zdkzdk commented Mar 30, 2021

大神,能加你微信吗,想跟您交流一下,有偿的

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants