web-dev-qa-db-ja.com

Pythonで英語以外の文字を含む文字列を検出する

英語の文字と英語の文字が混在していない文字列がいくつかあります。例えば:

w='_1991_اف_جي2'

RegexまたはPythonの他の高速メソッドを使用してこれらのタイプの文字列をどのように認識できますか?

文字列の文字を1つずつ文字のリストと比較するのではなく、1回のショットですばやく比較することを好みます。

26
TJ1

文字列がASCII文字(ラテンアルファベット+他の文字))でのみエンコードできるかどうかを確認できます。エンコードできない場合は、他のアルファベットの文字が含まれます。 。

コメントに注意してください# -*- coding: ....。 pythonファイルの上部にあるはずです(そうしないと、エンコードに関するエラーが発生します)

# -*- coding: utf-8 -*-
def isEnglish(s):
    try:
        s.encode(encoding='utf-8').decode('ascii')
    except UnicodeDecodeError:
        return False
    else:
        return True

assert not isEnglish('slabiky, ale liší se podle významu')
assert isEnglish('English')
assert not isEnglish('ގެ ފުރަތަމަ ދެ އަކުރު ކަ')
assert not isEnglish('how about this one : 通 asfަ')
assert isEnglish('?fd4))45s&')
51
Salvador Dali

文字列(Unicodeオブジェクトではない)を使用する場合は、翻訳でクリーンアップし、isalnum()で確認できます。これは、例外をスローするよりも優れています。

import string

def isEnglish(s):
    return s.translate(None, string.punctuation).isalnum()


print isEnglish('slabiky, ale liší se podle významu')
print isEnglish('English')
print isEnglish('ގެ ފުރަތަމަ ދެ އަކުރު ކަ')
print isEnglish('how about this one : 通 asfަ')
print isEnglish('?fd4))45s&')
print isEnglish('Текст на русском')

> False
> True
> False
> False
> True
> False

また、この関数を使用して、文字列から非ASCII文字をフィルタリングできます。

ascii = set(string.printable)   

def remove_non_ascii(s):
    return filter(lambda x: x in ascii, s)


remove_non_ascii('slabiky, ale liší se podle významu')
> slabiky, ale li se podle vznamu
11
import re

english_check = re.compile(r'[a-z]')

if english_check.match(w):
    print "english",w
else:
    print "other:",w
3
PemaGrg
w.isidentifier()

docs でメソッドを簡単に確認できます。

文字列が言語定義、セクション識別子とキーワードに従って有効な識別子である場合、trueを返します。

0
Furkan