web-dev-qa-db-ja.com

GoogleのVisionAPIが返す可能性のあるラベルの完全なリストはありますか?

さまざまな画像にラベルを付けるために、GoogleのVisionAPIをテストしてきました。

特定の画像について、次のようなものが返されます。

"google_labels": {
            "responses": [{
                "labelAnnotations": [{
                    "score": 0.8966763,
                    "description": "food",
                    "mid": "/m/02wbm"
                }, {
                    "score": 0.80512983,
                    "description": "produce",
                    "mid": "/m/036qh8"
                }, {
                    "score": 0.73635191,
                    "description": "juice",
                    "mid": "/m/01z1kdw"
                }, {
                    "score": 0.69849229,
                    "description": "meal",
                    "mid": "/m/0krfg"
                }, {
                    "score": 0.53875387,
                    "description": "fruit",
                    "mid": "/m/02xwb"
                }]
            }]
        }

->私の質問は次のとおりです。

  1. Googleがラベルの完全なリストを公開したかどうか誰かが知っていますか(['produce', 'meal', ...])そしてどこでそれを見つけることができましたか?
  2. それらのラベルは何らかの方法で構造化されていますか? -例:たとえば、「食品」は「農産物」のスーパーセットであることが知られていますか。

何も見つからなかったので「いいえ」と「いいえ」と推測していますが、おそらくそうではありません。ありがとう!

19
Hillary Sanders

GoogleナレッジグラフAPIと呼ばれるそれらを検索するためのAPIがあります:

https://developers.google.com/knowledge-graph/reference/rest/v1/

Google Vision APIドキュメントの下部にリンクしています:

https://cloud.google.com/vision/docs/labels


編集:詳細

わかりました。/g/で始まるmidはgoogleエンティティで、/ m /で始まるmidはFreebase識別子ですが、google kgraphAPIは常にそれらを返すわけではありません。

このデータは公開されており、ダウンロードできますが、データベース内のレコードが多すぎるため、Googleはそれらのレコードのどれを使用するかを公開していません。

ビジョンAPIとウィキデータのレコードで返されるMIDの例:

{
    desc: "institution",
    mid: "/m/01r28c",
    score: 72.29216694831848,
    confidence: 0,
    locations: [ ],
    properties: [ ]
},

https://www.wikidata.org/wiki/Q178706


最後のフリーベースダンプはここからダウンロードできます:

https://developers.google.com/freebase/

2
Wiliam

データベースの完全性を確認することはできませんが、 Google Open Images プロジェクトには約2万の分類のリストがあります。

download ページを参照すると、 [〜#〜] csv [〜#〜] の説明を含むリストをダウンロードできます。

CloudVision内のいくつかの参照画像を確認したところ、次の結果が得られました。

ID / CloudVision Classification / OpenImages Classification
1. 01ssh5 / Shoulder / Shoulder (Body Part)
2. 09cx8 / Finger / Finger
3. 068jd / Photograph / Photograph
4. 01k74n / Facial expression / Facial expression
5. 04hgtk / Head / Human Head

CSVで同じ意味のすべてのIDを見つけることができたので、基本リストとしてはこれで十分です。若干の変更があるため、分類ではなくIDで常に一致させる必要があることに注意してください。

CloudVisionにIDがあり、リストにない場合は、コメントで知りたいと思います。

0
James Cameron