web-dev-qa-db-ja.com

単純なPythonメソッドの実行/実行に時間がかかる

コードがclean_up()MyClass()メソッドでスタックします

my_class.py:

_import os
import pandas as pd
import psycopg2, pymysql, pyodbc
from db_credentials_dict import db_credentials

class MyClass():

    def __init__(self, from_database, to_table_name, report_name):
        ...

    def get_sql(self):
        ...

    def get_connection(self):
        ...

    def query_to_csv(self):
        ...

    def csv_to_postgres(self):
        ...

    def extract_and_load(self):
        self.query_to_csv()
        self.csv_to_postgres()

    def get_final_sql(self):
        ...

    def postgres_to_csv(self):
        ...

    def clean_up(self):
        print('\nTruncating {}...'.format(self.to_table_name), end='')
        with self.postgres_connection.cursor() as cursor:
            cursor.execute("SELECT NOT EXISTS (SELECT 1 FROM %s)" % self.to_table_name)
            empty = cursor.fetchone()[0]
            if not empty:
                cursor.execute("TRUNCATE TABLE %s" % self.to_table_name)
        self.postgres_connection.commit()
        print('DONE')

        print('Removing {}...'.format(self.filename), end='')
        if os.path.exists(self.filepath):
            os.remove(self.filepath)
            print('DONE')
        else:
            print('{} does not exist'.format(self.filename))
_

main.py:

_from my_class import MyClass
from time import sleep

bookings = MyClass(from_database='...',to_table_name='...',report_name='...')
bookings2 = MyClass(from_database='...',to_table_name='...',report_name='...')
channel = MyClass(from_database='...',to_table_name='...',report_name='...')
cost = MyClass(from_database='...',to_table_name='...',report_name='...')

tables = [bookings, bookings2, channel, cost]
for table in tables:
    table.extract_and_load()

daily_report = MyClass(from_database='...',to_table_name='...',report_name='...')
daily_report.postgres_to_csv()
sleep(10)

for table in tables:
    table.clean_up()
_

_main.py_を実行すると、最後のループまですべてが実行されます(つまり、for table in tables: table.clean_up())。エラーや警告は発生せず、そこでスタックするだけです。

そのメソッドを独自に実行すると、正常に機能します。つまり、postgresテーブルが切り捨てられます。これを機能させ、他のすべてのメソッドが実行されても最終メソッドが実行されない理由を理解するのに助けが必要です。

clean_up()を単独で実行した場合の出力:

_Truncating bookings...DONE
Removing bookings.csv...DONE

Truncating bookings2...DONE
Removing bookings2.csv...DONE

Truncating channel...DONE
Removing channel.csv...DONE

Truncating cost...DONE
Removing cost.csv...DONE
_

コード全体の機能:

  1. さまざまなデータベースからデータを抽出してそれらのクエリを実行するSQLクエリを含むファイルを取得します。
  2. それらをcsvにエクスポートする
  3. Csvをpostgresデータベースにインポートする
  4. データをまとめて、データを視覚化するためのBIツールで使用するcsvとしてエクスポートするpostgresクエリを作成する
  5. Postgresのデータを切り捨て、ポイント2でcsvファイルを削除する

あなたはおそらくこれが狂気だと思っているでしょうし、私も同意します。私は現在、私が持っているもので支払いを行っていますが、会社のデータ(したがって、データの切り捨てと削除)のため、自分のコンピューターにデータを保存できません。

8
AK91

PostgresのTRUNCATE句は、関係でACCESS EXCLUSIVEロックを必要とし、一部のBEFORE TRUNCATEトリガーを起動する場合もあります。

私の推測では、問題はPostgres側にあります。 TRUNCATEは、関係のACCESS EXCLUSIVEロックを取得しようとしましたが、すでに他のユーザーによってロックされています。

まず、Postgresログを確認します。

次に、ハングしたTRUNCATE中にPostgresバックエンドが何をしているかを確認します。

SELECT * FROM pg_stat_activity;

次に、次の方法でロックを調査します。

-- View with readable locks info and filtered out locks on system tables
CREATE VIEW active_locks AS
SELECT clock_timestamp(), pg_class.relname, pg_locks.locktype, pg_locks.database,
       pg_locks.relation, pg_locks.page, pg_locks.Tuple, pg_locks.virtualtransaction,
       pg_locks.pid, pg_locks.mode, pg_locks.granted
FROM pg_locks JOIN pg_class ON pg_locks.relation = pg_class.oid
WHERE relname !~ '^pg_' and relname <> 'active_locks';

-- Now when we want to see locks just type
SELECT * FROM active_locks;
5
ololobus

必要なクリーンプロセスをすべて1つのトランザクションで実行することをお勧めします。望ましくない状態を防ぐため。

Information_schemaを使用して、テーブルがデータベースに存在するかどうかを確認します

SELECT EXISTS (
   SELECT 1
   FROM   information_schema.tables 
   WHERE  table_schema = 'schema_name'
   AND    table_name = 'table_name'
   );

存在する場合は、切り捨てコマンドを作成します。

クリーンプロセスをすべて1つのトランザクションで実行します。

2
Frederic