Hadoop集群参数配置原则
作者:网络转载 发布时间:[ 2016/3/23 10:10:28 ] 推荐标签:软件测试管理 配置管理
fs.datanode.handler.count
datanode上用于处理RPC的线程数。默认为3,较大集群,可适当调大些,比如8。需要注意的是,每添加一个线程,需要的内存增加。
tasktracker.http.threads
HTTP server上的线程数。运行在每个TaskTracker上,用于处理map task输出。大集群,可以将其设为40~50。
dfs.replication
文件副本数,通常设为3,不推荐修改
dfs.block.size
HDFS中数据block大小,默认为64M,我们是128MB
mapred.local.dir
运行 mapreduce 中间结果存储处
dfs.data.dir
HDFS Block 存储空间
数据 使用 压缩 - LZO (使用更多 map)
FileInputFormat.setMaxInputSplitSize(job, 64 *1024 * 1024);
{map/reduce}.tasks.maximum
同时运行在TaskTracker上的大map/reduce task数,
io.sort.factor
当一个map task执行完之后,本地磁盘上(mapred.local.dir)有若干个spill文件,merge sort 把这些文件合成一个。执行merge sort的时候,每次同时打开多少个spill文件由该参数决定。打开的文件越多,不一定merge sort越快,所以要根据数据情况适当的调整。
mapred.child.java.opts
设置JVM堆的大可用内存,需从应用程序角度进行配置。
io.sort.mb
Map task的输出结果在内存中所占的buffer总大小。
mapred.compress.map.output/ Mapred.output.compress
中间结果和终结果是否要进行压缩,如果是,指定压缩方式(Mapred.compress.map.output.codec/ Mapred.output.compress.codec)。推荐使用LZO压缩。Intel内部测试表明,相比未压缩,使用LZO压缩的 TeraSort作业运行时间减少60%,且明显快于Zlib压缩。
reduce task相关配置
Reduce shuffle阶段copier线程数。默认是5,对于较大集群,可调整为16~25。
相关推荐
更新发布
功能测试和接口测试的区别
2023/3/23 14:23:39如何写好测试用例文档
2023/3/22 16:17:39常用的选择回归测试的方式有哪些?
2022/6/14 16:14:27测试流程中需要重点把关几个过程?
2021/10/18 15:37:44性能测试的七种方法
2021/9/17 15:19:29全链路压测优化思路
2021/9/14 15:42:25性能测试流程浅谈
2021/5/28 17:25:47常见的APP性能测试指标
2021/5/8 17:01:11