私は正常に動作し、一部の出力を予測できるシーケンス間学習モデルを持っています。問題は、出力をテキストシーケンスに変換する方法がわからないことです。
これは私のコードです。
from keras.preprocessing.text import Tokenizer,base_filter
from keras.preprocessing.sequence import pad_sequences
from keras.models import Sequential
from keras.layers import Dense
txt1="""What makes this problem difficult is that the sequences can vary in length,
be comprised of a very large vocabulary of input symbols and may require the model
to learn the long term context or dependencies between symbols in the input sequence."""
#txt1 is used for fitting
tk = Tokenizer(nb_words=2000, filters=base_filter(), lower=True, split=" ")
tk.fit_on_texts(txt1)
#convert text to sequence
t= tk.texts_to_sequences(txt1)
#padding to feed the sequence to keras model
t=pad_sequences(t, maxlen=10)
model = Sequential()
model.add(Dense(10,input_dim=10))
model.add(Dense(10,activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam',metrics=['accuracy'])
#predicting new sequcenc
pred=model.predict(t)
#Convert predicted sequence to text
pred=??
これが私が見つけた解決策です:
reverse_Word_map = dict(map(reversed, tokenizer.Word_index.items()))
私は同じ問題を解決しなければならなかったので、ここに私がそれをやった方法があります(@Ben Usemans逆引き辞書に触発されました)。
# Importing library
from keras.preprocessing.text import Tokenizer
# My texts
texts = ['These are two crazy sentences', 'that I want to convert back and forth']
# Creating a tokenizer
tokenizer = Tokenizer(lower=True)
# Building Word indices
tokenizer.fit_on_texts(texts)
# Tokenizing sentences
sentences = tokenizer.texts_to_sequences(texts)
>sentences
>[[1, 2, 3, 4, 5], [6, 7, 8, 9, 10, 11, 12, 13]]
# Creating a reverse dictionary
reverse_Word_map = dict(map(reversed, tokenizer.Word_index.items()))
# Function takes a tokenized sentence and returns the words
def sequence_to_text(list_of_indices):
# Looking up words in dictionary
words = [reverse_Word_map.get(letter) for letter in list_of_indices]
return(words)
# Creating texts
my_texts = list(map(sequence_to_text, sentences))
>my_texts
>[['these', 'are', 'two', 'crazy', 'sentences'], ['that', 'i', 'want', 'to', 'convert', 'back', 'and', 'forth']]
逆_tokenizer.sequences_to_texts
_関数を直接使用できます。
text = tokenizer.sequences_to_texts(<list of the integer equivalent encodings>)
上記をテストしましたが、期待どおりに動作します。
PS .:引数が整数のエンコードのリストであり、One Hotのものではないように、特に注意してください。
インデックスを文字にマッピングする辞書を作成できます。
_index_Word = {v: k for k, v in tk.Word_index.items()} # map back
seqs = tk.texts_to_sequences(txt1)
words = []
for seq in seqs:
if len(seq):
words.append(index_Word.get(seq[0]))
else:
words.append(' ')
print(''.join(words)) # output
>>> 'what makes this problem difficult is that the sequences can vary in length
>>> be comprised of a very large vocabulary of input symbols and may require the model
>>> to learn the long term context or dependencies between symbols in the input sequence '
_
ただし、質問では、文字のシーケンスを使用して、シーケンスモデルではない10個のクラスの出力を予測しようとしています。この場合、予測(またはpred.argmax(axis=1)
)を一連の文字に戻すことはできません。