Movatterモバイル変換

Hadoop Job Builder型安全なジョブ設定 2011-02-22 Hadoop Conference @miyakawa_taku

要旨• Hadoop MapReduce のジョブ設定って面倒です• 中間データ (map の出力 = reduce の入力) の型を一致させる事がとりわけ面倒です⇒ 簡潔かつ型安全にジョブを設定する Hadoop Job Builder というライブラリを作りました 2

文書中の単語を数える word-count ジョブの mapper と reducerpublic class WordCountMapper ① extends Mapper<LongWritable, Text, Text, IntWritable> { ...}public class WordCountReducer ② extends Reducer<Text, IntWritable, Text, IntWritable> { ...} 3

中間データの型は一致させる必要がある map の出力 = reduce の入力public class WordCountMapper ① ② extends Mapper<LongWritable, Text, Text, IntWritable> { ...}public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> { ... ③ ④} 4

word-count のジョブ設定こんなに書くJob job = new Job( getConf() );job.setJobName( "word-count" );job.setJarByClass( getClass() );job.setMapperClass( WordCountMapper.class );job.setMapOutputKeyClass( Text.class );job.setMapOutputValueClass( IntWritable.class );job.setReducerClass( WordCountReducer.class );job.setOutputKeyClass( Text.class );job.setOutputValueClass( IntWritable.class );job.setInputFormatClass( TextInputFormat.class );FileInputFormat.addInputPath( job , new Path( "wordcount/in" ) );job.setOutputFormatClass( SequenceFileOutputFormat.class );FileOutputFormat.setOutputPath( job , new Path( "wordcount/out" ) ); 5

やっかいな中間データの設定Job job = new Job( getConf() );job.setJobName( "word-count" );job.setJarByClass( getClass() );job.setMapperClass( WordCountMapper.class ); ①job.setMapOutputKeyClass( Text.class ); ②job.setMapOutputValueClass( IntWritable.class ); ③job.setReducerClass( WordCountReducer.class ); ④job.setOutputKeyClass( Text.class );job.setOutputValueClass( IntWritable.class );job.setInputFormatClass( TextInputFormat.class );FileInputFormat.addInputPath( job , new Path( "wordcount/in" ) );job.setOutputFormatClass( SequenceFileOutputFormat.class );FileOutputFormat.setOutputPath( job , new Path( "wordcount/out" ) ); 6

combiner や partitioner を使うとこれらの型も一致させる必要があるJob job = new Job( getConf() );job.setJobName( "word-count" );job.setJarByClass( getClass() );job.setMapperClass( WordCountMapper.class ); ①job.setMapOutputKeyClass( Text.class ); ②job.setMapOutputValueClass( IntWritable.class ); ③job.setReducerClass( WordCountReducer.class ); ④job.setCombinerClass( WordCountCombiner.class ); ⑤job.setPartitionerClass( WordCountPartitioner.class ); ⑥job.setOutputKeyClass( Text.class );job.setOutputValueClass( IntWritable.class );job.setInputFormatClass( TextInputFormat.class );FileInputFormat.addInputPath( job , new Path( "wordcount/in" ) );job.setOutputFormatClass( SequenceFileOutputFormat.class );FileOutputFormat.setOutputPath( job , new Path( "wordcount/out" ) ); 7

ちょっとしたパフォーマンスチューニングでpublic class WordCountMapper ① extends Mapper<LongWritable, Text, Text, IntWritable> { ...}public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> { ... ②} 8

型が一致しなくなるとpublic class WordCountMapper ① extends Mapper<LongWritable, Text, Text, IntWritable> { ...}public class WordCountReducer extends Reducer<Text, VIntWritable, Text, VIntWritable> { ... ②} 9

コンパイルは通ってタスクの処理中に実行時エラー11/02/20 03:07:21 INFO mapred.JobClient: Task Id :attempt_201102200304_0001_r_000000_2, Status : FAILEDjava.lang.ClassCastException: org.apache.hadoop.io.IntWritable cannot be cast toorg.apache.hadoop.io.VIntWritable at org.example.WordCountReducer.reduce(WordCountReducer.java:76) at org.example.WordCountReducer.reduce(WordCountReducer.java:67) at org.apache.hadoop.mapreduce.Reducer.run(Reducer.java:176) at org.apache.hadoop.mapred.ReduceTask.runNewReducer(ReduceTask.java:566) at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:408) at org.apache.hadoop.mapred.Child.main(Child.java:170) 10

MapReduce API は気が利かない• map, reduce のクラス定義に型情報が含まれているのに、別途わざわざ型を指定するのは冗長• 型が一致していなかったらコンパイル時にエラーが出てほしい⇒ 簡潔かつ型安全にジョブを設定したい 11

簡潔かつ型安全にジョブが設定できるライブラリを作りましたJob job = JobBuilder.of( new WordCountMapper() , new WordCountReducer() ) .jobName( "word-count" ) .detectJar() .detectKeyValue() .inputTextFrom( "wordcount/in" ) .outputSequenceFileOn( "wordcount/out" ) .buildJob( getConf() ); 12

中間データの型をクラス定義から推論して設定 ⇒ 型が省略できるJob job = JobBuilder.of( ① ② new WordCountMapper() , new WordCountReducer() ) .jobName( "word-count" ) .detectJar() .detectKeyValue() ③ .inputTextFrom( "wordcount/in" ) .outputSequenceFileOn( "wordcount/out" ) .buildJob( getConf() ); 13

型が一致しないとコンパイルエラー ⇒ 型安全Job job = JobBuilder.of( ① ② new WordCountMapper() , new WordCountReducer() ) .jobName( "word-count" ) .detectJar() .detectKeyValue() .inputTextFrom( "wordcount/in" ) .outputSequenceFileOn( "wordcount/out" ) .buildJob( getConf() ); 14

combiner や partitioner も型安全に設定Job job = JobBuilder.of( ① ② new WordCountMapper() , new WordCountReducer() ) .jobName( "word-count" ) .detectJar() .detectKeyValue() ③ .combiner( new WordCountCombiner() ) ④ .partitioner( new WordCountPartitioner() ) .inputTextFrom( "wordcount/in" ) .outputSequenceFileOn( "wordcount/out" ) .buildJob( getConf() ); 15

出力データの型をクラス定義から推論して設定Job job = JobBuilder.of( new WordCountMapper() , new WordCountReducer() ) .jobName( "word-count" ) .detectJar() .detectKeyValue() .inputTextFrom( "wordcount/in" ) .outputSequenceFileOn( "wordcount/out" ) .buildJob( getConf() ); 17

入力元・出力先を簡潔に設定Job job = JobBuilder.of( new WordCountMapper() , new WordCountReducer() ) .jobName( "word-count" ) .detectJar() .detectKeyValue() .inputTextFrom( "wordcount/in" ) .outputSequenceFileOn( "wordcount/out" ) .buildJob( getConf() ); 18

分散キャッシュを簡潔に設定Job job = JobBuilder.of( new WordCountMapper() , new WordCountReducer() ) .jobName( "word-count" ) .detectJar() .detectKeyValue() .inputTextFrom( "wordcount/in" ) .outputSequenceFileOn( "wordcount/out" ) .cacheFileWithSymlink( "/share/dict.txt" , "dict.txt" ) .buildJob( getConf() ); 19

総括• Hadoop Job Builder は簡潔かつ型安全に Hadoop のジョブを設定するライブラリです• BitBucket に公開しています – https://bitbucket.org/miyakawa_taku/hadoop-jobbuilder/wiki/Home.ja• 感想ください ⇒ @miyakawa_taku ⇒ BitBucket の issue tracker 20

Movatterモバイル変換

Change Language

Hadoop jobbuilder

Embed presentation

Recommended

More Related Content

What's hot

Viewers also liked

Similar to Hadoop jobbuilder

More from Taku Miyakawa

Hadoop jobbuilder