web-dev-qa-db-ja.com

PythonでCSVをElasticSearchにインデックス付けする

Logstashを使用せずに、CSVファイルをElasticSearchにインデックス付けしようとしています。 elasticsearch-dsl高レベルライブラリを使用しています。

たとえば、ヘッダー付きのCSVを指定します。

name,address,url
adam,hills 32,http://rockit.com
jane,valleys 23,http://popit.com

フィールドごとにすべてのデータにインデックスを付けるための最良の方法は何でしょうか?最終的には、各行を次のように表示することを検討しています

{
"name": "adam",
"address": "hills 32",
"url":  "http://rockit.com"
}
7
bluesummers

この種のタスクは、低レベルのelasticsearch-pyライブラリを使用すると簡単になります。

from elasticsearch import helpers, Elasticsearch
import csv

es = Elasticsearch()

with open('/tmp/x.csv') as f:
    reader = csv.DictReader(f)
    helpers.bulk(es, reader, index='my-index', doc_type='my-type')
32
Honza Král

.tsv/.csvからelasticsearchデータベースを厳密な型とモデルで作成してフィルタリングを改善したい場合は、次のようにすることができます。

class ElementIndex(DocType):
    ROWNAME = Text()
    ROWNAME = Text()

    class Meta:
        index = 'index_name'

def indexing(self):
    obj = ElementIndex(
        ROWNAME=str(self['NAME']),
        ROWNAME=str(self['NAME'])
    )
    obj.save(index="index_name")
    return obj.to_dict(include_meta=True)

def bulk_indexing(args):

    # ElementIndex.init(index="index_name")
    ElementIndex.init()
    es = Elasticsearch()

    //here your result dict with data from source

    r = bulk(client=es, actions=(indexing(c) for c in result))
    es.indices.refresh()
1
Alex