web-dev-qa-db-ja.com

PostgreSQLでのM:N関係の一括挿入

古いデータベースのデータを、構造が少し異なる新しいデータベースにインポートする必要があります。たとえば、古いデータベースには、従業員とその上司を記録するテーブルがあります。

CREATE TABLE employee (ident TEXT PRIMARY KEY, name TEXT, supervisor_name TEXT)

現在、新しいデータベースは次のとおりです。

CREATE TABLE person (id BIGSERIAL PRIMARY KEY, name TEXT, old_ident TEXT);
CREATE TABLE team (id BIGSERIAL PRIMARY KEY);
CREATE TABLE teammember (person_id BIGINT, team_id BIGINT, role CHAR(1));

つまり、上司の名前を持つ従業員のプレーンテーブルの代わりに、新しい(より一般的な)データベースを使用して、人々のチームを作成できます。従業員は'e'の役割を持つメンバー、's'の役割を持つ上司です。

問題は、employeeから新しい構造に、従業員と監督者のペアごとに1つのチームにデータを簡単に移行する方法です。たとえば、従業員

employee: ('abc01', 'John', 'Dave'), ('abc02', 'Kyle', 'Emily')

移行する

person: (1, 'John', 'abc01'), (2, 'Dave', NULL), (3, 'Kyle', 'abc02'), (4, 'Emily', NULL)
team: (1), (2)
teammember: (1, 1, 'e'), (2, 1, 's'), (3, 2, 'e'), (4, 2, 's')

私は、データ変更CTEを使用して、最初に従業員とスーパーバイザを挿入し、次にその中にチームを挿入することを検討します。ただし、CTEは挿入されたテーブル行からのデータのみを返す場合があります。したがって、私は誰が誰の監督者であったかを突き合わせることができません。

私が見ることができる唯一の解決策はplpgsqlを使用することです。これは単にデータを反復処理し、挿入されたチームIDを一時変数に保持してから、適切なteammember行を挿入します。しかし、私はより単純な、またはよりエレガントな解決策があるかどうか知りたいです。

およそ数百人から数千人の従業員がいます。古いIDは*.GM2のような文字列であるため、一般的には良い方法ですが、私の場合、古いIDに基づいて新しいIDを生成したくありません。参照用にold_ident列に保存します。

9
Ondřej Bouda

次の4つの挿入ステートメントを使用して、古いデータベースから新しいデータベースにデータを取り込むために必要なすべての情報があります。

create table team_ids (id serial, name TEXT)

insert into team_ids (name)
select distinct supervisor_name from employee

-- now supervisors have ids assigned by "serial" type

insert into person (id, name, old_ident)
select ident, name, ident from employee
union
select ident, supervisor_name, ident from employee

insert into team (id) -- meh
select id from team_ids

insert into teammember (person_id, team_id, role)
select e.ident, t.id, 'e')
from employee as e, join team_ids as t
on t.name = e.supervisor_name
union -- and, I guess
select t.id, t.id, 'm')
from team_ids as t

好みに合わせて調整する必要があるかもしれません。ここでは、employee.identをperson.idにマップでき、DBMSで値が自動生成された列に割り当てられると想定しています。それを除いて、それは基本的なSQLであり、空想的ではなく、そしてもちろん、ループはありません。

追加の解説:

  • 「チーム」テーブルは(より慣習的に)departmentに名前が変更される場合があります。
  • SERIAL(20億の可能性がある)は十分なはずです。BIGSERIALは必要ありません。
  • マネージャーとチームの1対1のカーディナリティを強制するデータベースメカニズムはないようです。定義により、すべてのチームにリーダーが必要なわけではありませんか? teammember.roleにCHECKまたはFOREIGN KEY制約はありませんか?おそらく、質問によってこれらの詳細が単純化されたのでしょう。
  • 「teammember」テーブル名には、より慣習的に、TeamMemberやteam_memberなどの単語境界があります。
1
James K. Lowden

PL/PgSQLがその仕事をします。

DO $$
DECLARE
  _e record;
  _personid bigint;
  _suppersonid bigint;
  _teamid bigint;
BEGIN
  FOR _e IN
    SELECT ident, name, supervisor_name FROM employee
  LOOP
    -- insert person record for employee
    INSERT INTO person (name, old_ident)
      SELECT _e.name, _e.ident
      RETURNING id INTO _personid;
    -- lookup or insert person record for supervisor
    SELECT id INTO _suppersonid FROM person
      WHERE p.name = _e.supervisor_name;
    IF _suppersonid IS NULL THEN
      INSERT INTO person (name) SELECT _e.supervisor_name
        RETURNING id INTO _suppersonid;
    END IF;
    -- lookup team by supervisor or insert new team
    SELECT team_id INTO _teamid FROM teammember tm
      WHERE tm.person_id = _suppersonid AND tm.role = 's';
    IF _teamid IS NULL THEN
      -- new supervisor: insert new team and supervisor
      INSERT INTO team (id) VALUES(DEFAULT) RETURNING id INTO _teamid;
      INSERT INTO teammember (person_id, team_id, role) SELECT _suppersonid, _teamid, 's';
    END IF;
    -- insert team member (non-supervisor) record
    INSERT INTO teammember (person_id, team_id, role) SELECT _personid, _teamid, 'e';
  END LOOP;
END; $$;
0
filiprem