英語の文章にPOStagを付けて、処理を行いたい。 openNLPを使いたいのですが。インストールしました
コマンドを実行すると
I:\Workshop\Programming\nlp\opennlp-tools-1.5.0-bin\opennlp-tools-1.5.0>Java -jar opennlp-tools-1.5.0.jar POSTagger models\en-pos-maxent.bin < Text.txt
Text.txtの入力をPOSTagging出力します
Loading POS Tagger model ... done (4.009s)
My_PRP$ name_NN is_VBZ Shabab_NNP i_FW am_VBP 22_CD years_NNS old._.
Average: 66.7 sent/s
Total: 1 sent
Runtime: 0.015s
正しくインストールされているといいのですが?
Javaアプリケーション内からこのPOStaggingを実行するにはどうすればよいですか?openNLPtools、jwnl、maxent jarをプロジェクトに追加しましたが、POStaggingを呼び出すにはどうすればよいですか?
これが私が一緒に投げたいくつかの(古い)サンプルコードであり、それに続く最新のコードがあります:
_package opennlp;
import opennlp.tools.cmdline.PerformanceMonitor;
import opennlp.tools.cmdline.postag.POSModelLoader;
import opennlp.tools.postag.POSModel;
import opennlp.tools.postag.POSSample;
import opennlp.tools.postag.POSTaggerME;
import opennlp.tools.tokenize.WhitespaceTokenizer;
import opennlp.tools.util.ObjectStream;
import opennlp.tools.util.PlainTextByLineStream;
import Java.io.File;
import Java.io.IOException;
import Java.io.StringReader;
public class OpenNlpTest {
public static void main(String[] args) throws IOException {
POSModel model = new POSModelLoader().load(new File("en-pos-maxent.bin"));
PerformanceMonitor perfMon = new PerformanceMonitor(System.err, "sent");
POSTaggerME tagger = new POSTaggerME(model);
String input = "Can anyone help me Dig through OpenNLP's horrible documentation?";
ObjectStream<String> lineStream =
new PlainTextByLineStream(new StringReader(input));
perfMon.start();
String line;
while ((line = lineStream.read()) != null) {
String whitespaceTokenizerLine[] = WhitespaceTokenizer.INSTANCE.tokenize(line);
String[] tags = tagger.tag(whitespaceTokenizerLine);
POSSample sample = new POSSample(whitespaceTokenizerLine, tags);
System.out.println(sample.toString());
perfMon.incrementCounter();
}
perfMon.stopAndPrintFinalResult();
}
}
_
出力は次のとおりです。
_Loading POS Tagger model ... done (2.045s)
Can_MD anyone_NN help_VB me_PRP Dig_VB through_IN OpenNLP's_NNP horrible_JJ documentation?_NN
Average: 76.9 sent/s
Total: 1 sent
Runtime: 0.013s
_
これは基本的に、OpenNLPの一部として含まれているPOSTaggerToolクラスから機能しています。 sample.getTags()
は、タグタイプ自体を持つString
配列です。
これには、トレーニングデータへの直接ファイルアクセスが必要ですが、これは本当に、本当に不十分です。
このために更新されたコードベースは少し異なります(そしておそらくもっと便利です)。
まず、Maven POM:
_<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.Apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.Apache.org/POM/4.0.0 http://maven.Apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>org.javachannel</groupId>
<artifactId>opennlp-example</artifactId>
<version>1.0-SNAPSHOT</version>
<dependencies>
<dependency>
<groupId>org.Apache.opennlp</groupId>
<artifactId>opennlp-tools</artifactId>
<version>1.6.0</version>
</dependency>
<dependency>
<groupId>org.testng</groupId>
<artifactId>testng</artifactId>
<version>[6.8.21,)</version>
<scope>test</scope>
</dependency>
</dependencies>
<build>
<plugins>
<plugin>
<groupId>org.Apache.maven.plugins</groupId>
<artifactId>maven-compiler-plugin</artifactId>
<version>3.1</version>
<configuration>
<source>1.8</source>
<target>1.8</target>
</configuration>
</plugin>
</plugins>
</build>
</project>
_
そして、これがテストとして書かれたコードで、したがって_./src/test/Java/org/javachannel/opennlp/example
_にあります。
_package org.javachannel.opennlp.example;
import opennlp.tools.cmdline.PerformanceMonitor;
import opennlp.tools.postag.POSModel;
import opennlp.tools.postag.POSSample;
import opennlp.tools.postag.POSTaggerME;
import opennlp.tools.tokenize.WhitespaceTokenizer;
import org.testng.annotations.DataProvider;
import org.testng.annotations.Test;
import Java.io.File;
import Java.io.FileOutputStream;
import Java.io.IOException;
import Java.net.URL;
import Java.nio.channels.Channels;
import Java.nio.channels.ReadableByteChannel;
import Java.util.stream.Stream;
public class POSTest {
private void download(String url, File destination) throws IOException {
URL website = new URL(url);
ReadableByteChannel rbc = Channels.newChannel(website.openStream());
FileOutputStream fos = new FileOutputStream(destination);
fos.getChannel().transferFrom(rbc, 0, Long.MAX_VALUE);
}
@DataProvider
Object[][] getCorpusData() {
return new Object[][][]{{{
"Can anyone help me Dig through OpenNLP's horrible documentation?"
}}};
}
@Test(dataProvider = "getCorpusData")
public void showPOS(Object[] input) throws IOException {
File modelFile = new File("en-pos-maxent.bin");
if (!modelFile.exists()) {
System.out.println("Downloading model.");
download("http://opennlp.sourceforge.net/models-1.5/en-pos-maxent.bin", modelFile);
}
POSModel model = new POSModel(modelFile);
PerformanceMonitor perfMon = new PerformanceMonitor(System.err, "sent");
POSTaggerME tagger = new POSTaggerME(model);
perfMon.start();
Stream.of(input).map(line -> {
String whitespaceTokenizerLine[] = WhitespaceTokenizer.INSTANCE.tokenize(line.toString());
String[] tags = tagger.tag(whitespaceTokenizerLine);
POSSample sample = new POSSample(whitespaceTokenizerLine, tags);
perfMon.incrementCounter();
return sample.toString();
}).forEach(System.out::println);
perfMon.stopAndPrintFinalResult();
}
}
_
このコードは実際にはtest何もありません-どちらかといえばスモークテストです-しかし、それは出発点として役立つはずです。もう1つの(潜在的に)素晴らしいことは、モデルをまだダウンロードしていない場合は、モデルをダウンロードすることです。
URL http://bulba.sdsu.edu/jeanette/thesis/PennTags.html は機能しなくなりました。以下の14番目のスライドの http://www.slideshare.net/gagan1667/opennlp-demo を見つけました。
上記の回答は、OpenNLPの既存のモデルを使用する方法を提供しますが、独自のモデルをトレーニングする必要がある場合は、以下が役立つ可能性があります。
これが完全なコードを含む詳細なチュートリアルです:
https://dataturks.com/blog/opennlp-pos-tagger-training-Java-example.php
ドメインに応じて、データセットを自動または手動で作成できます。このようなデータセットを手動で作成するのは非常に面倒な場合があります。 POS tagger のようなツールを使用すると、プロセスがはるかに簡単になります。
トレーニングデータ形式
トレーニングデータは、各行が1つのデータ項目であるテキストファイルとして渡されます。行内の各Wordには、「Word_LABEL」のような形式でラベルを付ける必要があります。Wordとラベル名は、アンダースコア「_」で区切ります。
anki_Brand overdrive_Brand
just_ModelName dance_ModelName 2018_ModelName
aoc_Brand 27"_ScreenSize monitor_Category
horizon_ModelName zero_ModelName dawn_ModelName
cm_Unknown 700_Unknown modem_Category
computer_Category
列車モデル
ここで重要なクラスは、実際のモデルを保持するPOSModelです。モデルの構築には、クラスPOSTaggerMEを使用します。以下は、トレーニングデータファイルからモデルを構築するためのコードです
public POSModel train(String filepath) {
POSModel model = null;
TrainingParameters parameters = TrainingParameters.defaultParams();
parameters.put(TrainingParameters.ITERATIONS_PARAM, "100");
try {
try (InputStream dataIn = new FileInputStream(filepath)) {
ObjectStream<String> lineStream = new PlainTextByLineStream(new InputStreamFactory() {
@Override
public InputStream createInputStream() throws IOException {
return dataIn;
}
}, StandardCharsets.UTF_8);
ObjectStream<POSSample> sampleStream = new WordTagSampleStream(lineStream);
model = POSTaggerME.train("en", sampleStream, parameters, new POSTaggerFactory());
return model;
}
}
catch (Exception e) {
e.printStackTrace();
}
return null;
}
モデルを使用してタグ付けを行います。
最後に、モデルを使用して、見えないクエリにタグを付ける方法を確認できます。
public void doTagging(POSModel model, String input) {
input = input.trim();
POSTaggerME tagger = new POSTaggerME(model);
Sequence[] sequences = tagger.topKSequences(input.split(" "));
for (Sequence s : sequences) {
List<String> tags = s.getOutcomes();
System.out.println(Arrays.asList(input.split(" ")) +" =>" + tags);
}
}