マッパー内で入力ファイルの名前を取得するにはどうすればよいですか?入力ディレクトリに複数の入力ファイルが保存されており、各マッパーが異なるファイルを読み取る場合があり、マッパーが読み取ったファイルを知る必要があります。
まず、入力分割を取得する必要があります。新しいmapreduce APIを使用すると、次のようになります。
context.getInputSplit();
ただし、ファイルパスとファイル名を取得するには、最初に結果をFileSplitに型キャストする必要があります。
したがって、入力ファイルのパスを取得するには、次の操作を実行できます。
Path filePath = ((FileSplit) context.getInputSplit()).getPath();
String filePathString = ((FileSplit) context.getInputSplit()).getPath().toString();
同様に、ファイル名を取得するには、次のようにgetName()を呼び出すだけです。
String fileName = ((FileSplit) context.getInputSplit()).getPath().getName();
これをマッパー内で使用します。
FileSplit fileSplit = (FileSplit)context.getInputSplit();
String filename = fileSplit.getPath().getName();
編集:
configure()を介して古いAPIで実行したい場合は、これを試してください:
String fileName = new String();
public void configure(JobConf job)
{
filename = job.get("map.input.file");
}
Hadoop Streaming を使用している場合は、 ストリーミングジョブのマッパー/リデューサーのJobConf変数 を使用できます。
マッパーの入力ファイル名については、 構成済みパラメーター セクション、map.input.file
変数(マップが読み込んでいるファイル名)は、ジョブを完了させるためのものです。ただし、次のことに注意してください。
注:ストリーミングジョブの実行中に、「マップされた」パラメータの名前が変換されます。ドット(。)は下線(_)になります。たとえば、mapred.job.idはmapred_job_idになり、mapred.jarはmapred_jarになります。ストリーミングジョブのマッパー/リデューサーで値を取得するには、パラメーター名にアンダースコアを使用します。
たとえば、Pythonを使用している場合、次の行をマッパーファイルに追加できます。
import os
file_name = os.getenv('map_input_file')
print file_name
通常のInputFormatを使用している場合、マッパーでこれを使用します。
InputSplit is = context.getInputSplit();
Method method = is.getClass().getMethod("getInputSplit");
method.setAccessible(true);
FileSplit fileSplit = (FileSplit) method.invoke(is);
String currentFileName = fileSplit.getPath().getName()
CombineFileInputFormatを使用している場合、いくつかの小さなファイルを1つの比較的大きなファイルに結合するため、異なるアプローチです(構成によって異なります)。マッパーとRecordReaderは両方とも同じJVMで実行されるため、実行時にデータを渡すことができます。独自のCombineFileRecordReaderWrapperを実装し、次のようにする必要があります。
public class MyCombineFileRecordReaderWrapper<K, V> extends RecordReader<K, V>{
...
private static String mCurrentFilePath;
...
public void initialize(InputSplit combineSplit , TaskAttemptContext context) throws IOException, InterruptedException {
assert this.fileSplitIsValid(context);
mCurrentFilePath = mFileSplit.getPath().toString();
this.mDelegate.initialize(this.mFileSplit, context);
}
...
public static String getCurrentFilePath() {
return mCurrentFilePath;
}
...
次に、マッパーでこれを使用します。
String currentFileName = MyCombineFileRecordReaderWrapper.getCurrentFilePath()
私が助けたことを願っています:-)
Hadoop 2.4以降ではold apiを使用してこのメソッドがnull値を生成することに注意してください
String fileName = new String();
public void configure(JobConf job)
{
fileName = job.get("map.input.file");
}
または、マップ関数に渡されたReporterオブジェクトを使用してInputSplitを取得し、FileSplitにキャストしてファイル名を取得できます。
public void map(LongWritable offset, Text record,
OutputCollector<NullWritable, Text> out, Reporter rptr)
throws IOException {
FileSplit fsplit = (FileSplit) rptr.getInputSplit();
String inputFileName = fsplit.getPath().getName();
....
}
最初に型キャストによってInputSplitに変換し、次にFileSplitにキャストする必要があります。
例:
InputSplit inputSplit= (InputSplit)context.getInputSplit();
Path filePath = ((FileSplit) inputSplit).getPath();
String filePathString = ((FileSplit) context.getInputSplit()).getPath().toString()
これは私を助けました:
String fileName = ((org.Apache.hadoop.mapreduce.lib.input.FileSplit) context.getInputSplit()).getPath().getName();
FileSplit
インスタンスが複数の入力に対して返されなくなるため、FileSplit
へのキャストを推奨する回答は機能しなくなります(したがって、ClassCastException
を取得します)。代わりに、_org.Apache.hadoop.mapreduce.lib.input.TaggedInputSplit
_インスタンスが返されます。残念ながら、TaggedInputSplit
クラスはリフレクションを使用しないとアクセスできません。そのために、私がこのために作成したユーティリティクラスを次に示します。ただやる:
_Path path = MapperUtils.getPath(context.getInputSplit());
_
Mapper.setup(Context context)
メソッドで。
MapperUtils
クラスのソースコードは次のとおりです。
_import org.Apache.hadoop.fs.Path;
import org.Apache.hadoop.mapreduce.InputSplit;
import org.Apache.hadoop.mapreduce.lib.input.FileSplit;
import Java.lang.invoke.MethodHandle;
import Java.lang.invoke.MethodHandles;
import Java.lang.invoke.MethodType;
import Java.lang.reflect.Method;
import Java.util.Optional;
public class MapperUtils {
public static Path getPath(InputSplit split) {
return getFileSplit(split).map(FileSplit::getPath).orElseThrow(() ->
new AssertionError("cannot find path from split " + split.getClass()));
}
public static Optional<FileSplit> getFileSplit(InputSplit split) {
if (split instanceof FileSplit) {
return Optional.of((FileSplit)split);
} else if (TaggedInputSplit.clazz.isInstance(split)) {
return getFileSplit(TaggedInputSplit.getInputSplit(split));
} else {
return Optional.empty();
}
}
private static final class TaggedInputSplit {
private static final Class<?> clazz;
private static final MethodHandle method;
static {
try {
clazz = Class.forName("org.Apache.hadoop.mapreduce.lib.input.TaggedInputSplit");
Method m = clazz.getDeclaredMethod("getInputSplit");
m.setAccessible(true);
method = MethodHandles.lookup().unreflect(m).asType(
MethodType.methodType(InputSplit.class, InputSplit.class));
} catch (ReflectiveOperationException e) {
throw new AssertionError(e);
}
}
static InputSplit getInputSplit(InputSplit o) {
try {
return (InputSplit) method.invokeExact(o);
} catch (Throwable e) {
throw new AssertionError(e);
}
}
}
private MapperUtils() { }
}
_
ために org.Apache.hadood.mapred
パッケージマップ関数のシグネチャは次のとおりである必要があります。
map(Object, Object, OutputCollector, Reporter)
したがって、マップ関数内でファイル名を取得するには、次のようにReporterオブジェクトを使用できます。
String fileName = ((FileSplit) reporter.getInputSplit()).getPath().getName();
package com.foo.bar;
import org.Apache.hadoop.fs.Path;
import org.Apache.hadoop.mapreduce.InputSplit;
import org.Apache.hadoop.mapreduce.lib.input.FileSplit;
import Java.lang.invoke.MethodHandle;
import Java.lang.invoke.MethodHandles;
import Java.lang.invoke.MethodType;
import Java.lang.reflect.Method;
public class MapperUtils {
public static Path getPath(InputSplit split) {
FileSplit fileSplit = getFileSplit(split);
if (fileSplit == null) {
throw new AssertionError("cannot find path from split " + split.getClass());
} else {
return fileSplit.getPath();
}
}
public static FileSplit getFileSplit(InputSplit split) {
if (split instanceof FileSplit) {
return (FileSplit)split;
} else if (TaggedInputSplit.clazz.isInstance(split)) {
return getFileSplit(TaggedInputSplit.getInputSplit(split));
} else {
return null;
}
}
private static final class TaggedInputSplit {
private static final Class<?> clazz;
private static final MethodHandle method;
static {
try {
clazz = Class.forName("org.Apache.hadoop.mapreduce.lib.input.TaggedInputSplit");
Method m = clazz.getDeclaredMethod("getInputSplit");
m.setAccessible(true);
method = MethodHandles.lookup().unreflect(m).asType(
MethodType.methodType(InputSplit.class, InputSplit.class));
} catch (ReflectiveOperationException e) {
throw new AssertionError(e);
}
}
static InputSplit getInputSplit(InputSplit o) {
try {
return (InputSplit) method.invokeExact(o);
} catch (Throwable e) {
throw new AssertionError(e);
}
}
}
private MapperUtils() { }
}
Hans-brendeが提供するコードをJava 7で書き直しました。動作しました。しかし、次の問題があります。
File Input Format Counters Bytes Read = 0 MultipleInputsを使用している場合、Bytes Readはゼロです。