mapTask并行度的決定機(jī)制
一個(gè)job的map階段并行度由客戶端在提交job時(shí)決定,而客戶端對(duì)map階段并行度的規(guī)劃的基本邏輯為:將待處理數(shù)據(jù)執(zhí)行邏輯切片(即按照一個(gè)特定切片大小,將待處理數(shù)據(jù)劃分成邏輯上的多個(gè)split),然后每一個(gè)split分配一個(gè)mapTask并行實(shí)例處理。
FileInputFormat切片機(jī)制
原文和作者一起討論:http://www.cnblogs.com/intsmaze/p/6733968.html
微信:intsmaze(非誠(chéng)勿擾)
1、默認(rèn)切片定義在InputFormat類中的getSplit()方法
2、FileInputFormat中默認(rèn)的切片機(jī)制:<