私は一部のデータセットをローカルでPythonで遊んでいますが、SQLを使用して同じ結果をクラウド環境で複製しようとしています。
3つのテーブルがあり、それぞれに複数の重複IDがあります。たとえば、テーブルAにはID a, b, c, d, ...
が含まれ、テーブルBにはID a, c, e, a1, a2 ...
が含まれ、テーブルCにはID d, f, a2, b1, b2, ...
が含まれます。
私は現在、ID a
のテーブルAとテーブルBに対してpd.merge
を実行しており、ID a2
の最初のマージから得られたテーブルをテーブルCに使用しています。 pd.mergeを使用すると、重複するIDに_x
または_y
が追加されることに気付きました(つまり、テーブルAとテーブルBの最初のpd.merge
で、テーブルAのc
はc_x
になり、テーブルBのc
はc_y
になり、他の重複IDについても同様です。同じことが他のすべてのIDにも当てはまります。結合のIDが重複しています。
このプロセスを複製して、SQLでIDが重複する問題を回避するにはどうすればよいですか?
結合で残りの結合列の名前を新しい名前に変更できると思います。
SELECT table_A.ID_a, table_A.c_ID as c_ID_from_A, table_B.c_ID as c_ID_from_B
FROM table_A
JOIN table_B ON(table_A.ID_a = table_B.ID_a)
あなたがそれが役に立つことを願っています。