web-dev-qa-db-ja.com

SQLクエリの結果をPANDASデータ構造に変換する方法は?

この問題に関するヘルプは大歓迎です。

したがって、基本的には、SQLデータベースに対してクエリを実行し、返されたデータをPandasデータ構造として保存します。

クエリのコードを添付しました。

パンダに関するドキュメントを読んでいますが、クエリの戻り値の型を特定するのに問題があります。

クエリ結果を印刷しようとしましたが、有用な情報が得られません。

ありがとう!!!!

from sqlalchemy import create_engine

engine2 = create_engine('mysql://THE DATABASE I AM ACCESSING')
connection2 = engine2.connect()
dataid = 1022
resoverall = connection2.execute("
  SELECT 
      sum(BLABLA) AS BLA,
      sum(BLABLABLA2) AS BLABLABLA2,
      sum(SOME_INT) AS SOME_INT,
      sum(SOME_INT2) AS SOME_INT2,
      100*sum(SOME_INT2)/sum(SOME_INT) AS ctr,
      sum(SOME_INT2)/sum(SOME_INT) AS cpc
   FROM daily_report_cooked
   WHERE campaign_id = '%s'", %dataid)

したがって、変数「resoverall」のフォーマット/データ型と、PANDASデータ構造でそれを配置する方法を理解したいのです。

88
user1613017

これが仕事をする最短のコードです:

from pandas import DataFrame
df = DataFrame(resoverall.fetchall())
df.columns = resoverall.keys()

ポールの答えのように、より洗練された型を解析できます。

94
Daniel Velkov

編集:2015年3月

以下に示すように、pandasは、データベースからの読み取り( read_sql )とデータベースへの挿入( to_sql )の両方に SQLAlchemy を使用するようになりました。以下が動作するはずです

import pandas as pd

df = pd.read_sql(sql, cnxn)

前の回答:類似の質問 からmikebmassey経由

import pyodbc
import pandas.io.sql as psql

cnxn = pyodbc.connect(connection_info) 
cursor = cnxn.cursor()
sql = "SELECT * FROM TABLE"

df = psql.frame_query(sql, cnxn)
cnxn.close()
113
beardc

式言語ではなくSQLAlchemyのORMを使用している場合、タイプsqlalchemy.orm.query.QueryのオブジェクトをPandasデータフレームに変換したい場合があります。

最もクリーンなアプローチは、生成されたSQLをクエリのステートメント属性から取得し、pandasのread_sql()メソッドで実行することです。たとえば、queryというQueryオブジェクトで始まります:

df = pd.read_sql(query.statement, query.session.bind)
31
Nathan Gould

2014-09-30を編集:

pandasにread_sql関数が追加されました。代わりにそれを使用することは間違いありません。

元の回答:

SQLAlchemyのお手伝いはできません-必要に応じて、常にpyodbc、MySQLdb、またはpsychopg2を使用します。しかし、そうするとき、以下のような単純な関数は私のニーズに合う傾向があります:

import decimal

import pydobc
import numpy as np
import pandas

cnn, cur = myConnectToDBfunction()
cmd = "SELECT * FROM myTable"
cur.execute(cmd)
dataframe = __processCursor(cur, dataframe=True)

def __processCursor(cur, dataframe=False, index=None):
    '''
    Processes a database cursor with data on it into either
    a structured numpy array or a pandas dataframe.

    input:
    cur - a pyodbc cursor that has just received data
    dataframe - bool. if false, a numpy record array is returned
                if true, return a pandas dataframe
    index - list of column(s) to use as index in a pandas dataframe
    '''
    datatypes = []
    colinfo = cur.description
    for col in colinfo:
        if col[1] == unicode:
            datatypes.append((col[0], 'U%d' % col[3]))
        Elif col[1] == str:
            datatypes.append((col[0], 'S%d' % col[3]))
        Elif col[1] in [float, decimal.Decimal]:
            datatypes.append((col[0], 'f4'))
        Elif col[1] == datetime.datetime:
            datatypes.append((col[0], 'O4'))
        Elif col[1] == int:
            datatypes.append((col[0], 'i4'))

    data = []
    for row in cur:
        data.append(Tuple(row))

    array = np.array(data, dtype=datatypes)
    if dataframe:
        output = pandas.DataFrame.from_records(array)

        if index is not None:
            output = output.set_index(index)

    else:
        output = array

    return output
23
Paul H

MySQLコネクタ

Mysqlコネクタで動作するものについては、このコードを開始として使用できます。 (@Daniel Velkovに感謝)

使用された参照:


import pandas as pd
import mysql.connector

# Setup MySQL connection
db = mysql.connector.connect(
    Host="<IP>",              # your Host, usually localhost
    user="<USER>",            # your username
    password="<PASS>",        # your password
    database="<DATABASE>"     # name of the data base
)   

# You must create a Cursor object. It will let you execute all the queries you need
cur = db.cursor()

# Use all the SQL you like
cur.execute("SELECT * FROM <TABLE>")

# Put it all to a data frame
sql_data = pd.DataFrame(cur.fetchall())
sql_data.columns = cur.column_names

# Close the session
db.close()

# Show the data
print(sql_data.head())
9
Thomas Devoogdt

これが私が使用するコードです。お役に立てれば。

import pandas as pd
from sqlalchemy import create_engine

def getData():
  # Parameters
  ServerName = "my_server"
  Database = "my_db"
  UserPwd = "user:pwd"
  Driver = "driver=SQL Server Native Client 11.0"

  # Create the connection
  engine = create_engine('mssql+pyodbc://' + UserPwd + '@' + ServerName + '/' + Database + "?" + Driver)

  sql = "select * from mytable"
  df = pd.read_sql(sql, engine)
  return df

df2 = getData()
print(df2)
9
Murali Bala

これはあなたの問題に対する短くて鮮明な答えです:

from __future__ import print_function
import MySQLdb
import numpy as np
import pandas as pd
import xlrd

# Connecting to MySQL Database
connection = MySQLdb.connect(
             Host="hostname",
             port=0000,
             user="userID",
             passwd="password",
             db="table_documents",
             charset='utf8'
           )
print(connection)
#getting data from database into a dataframe
sql_for_df = 'select * from tabledata'
df_from_database = pd.read_sql(sql_for_df , connection)
5
DeshDeep Singh

resoverallはsqlalchemy ResultProxyオブジェクトです。詳細については sqlalchemy docs を参照してください。後者はエンジンと接続の基本的な使用方法を説明しています。ここで重要なのは、resoverallがdictのようであることです。

Pandasは、データ構造を作成するオブジェクトのようなdictが好きです。 online docs を参照してください

Sqlalchemyとパンダで頑張ってください。

4

pandaspyodbcを一緒に使用するだけです。データベースの仕様に従って、接続文字列(connstr)を変更する必要があります。

import pyodbc
import pandas as pd

# MSSQL Connection String Example
connstr = "Server=myServerAddress;Database=myDB;User Id=myUsername;Password=myPass;"

# Query Database and Create DataFrame Using Results
df = pd.read_sql("select * from myTable", pyodbc.connect(connstr))

pyodbcをいくつかのエンタープライズデータベース(SQL Server、MySQL、MariaDB、IBMなど)で使用しました。

4
openwonk

Nathanのように、sqlalchemyまたはsqlsoupクエリの結果をPandasデータフレームにダンプすることがよくあります。これに対する私自身の解決策は次のとおりです。

query = session.query(tbl.Field1, tbl.Field2)
DataFrame(query.all(), columns=[column['name'] for column in query.column_descriptions])
4
Janak Mayer

この質問は古いですが、2セントを追加したかったのです。 「[my] SQLデータベースにクエリを実行し、返されたデータをPandasデータ構造[DataFrame]として保存したい」という質問を読みました。

コードからは、mysqlデータベースを意味するように見え、pandas DataFrameを意味すると仮定します。

import MySQLdb as mdb
import pandas.io.sql as sql
from pandas import *

conn = mdb.connect('<server>','<user>','<pass>','<db>');
df = sql.read_frame('<query>', conn)

例えば、

conn = mdb.connect('localhost','myname','mypass','testdb');
df = sql.read_frame('select * from testTable', conn)

これにより、testTableのすべての行がDataFrameにインポートされます。

3
joelotz

これが私の「pymysql」を使用している場合に備えて:

import pymysql
from pandas import DataFrame

Host   = 'localhost'
port   = 3306
user   = 'yourUserName'
passwd = 'yourPassword'
db     = 'yourDatabase'

cnx    = pymysql.connect(Host=host, port=port, user=user, passwd=passwd, db=db)
cur    = cnx.cursor()

query  = """ SELECT * FROM yourTable LIMIT 10"""
cur.execute(query)

field_names = [i[0] for i in cur.description]
get_data = [xx for xx in cur]

cur.close()
cnx.close()

df = DataFrame(get_data)
df.columns = field_names
1
kennyut

pandas.io.sql.write_frameは非推奨です。 https://pandas.pydata.org/pandas-docs/version/0.15.2/generated/pandas.io.sql.write_frame.html

Pandas.DataFrame.to_sqlを使用するように変更する必要があります https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_sql.html

別の解決策があります。 PYODBC to Pandas-DataFrame not working-渡された値の形状は(x、y)、インデックスは(w、z)を意味します

Pandas 0.12(私は信じています)の時点で、あなたは次のことができます:

import pandas
import pyodbc

sql = 'select * from table'
cnn = pyodbc.connect(...)

data = pandas.read_sql(sql, cnn)

0.12より前では、次のことができました。

import pandas
from pandas.io.sql import read_frame
import pyodbc

sql = 'select * from table'
cnn = pyodbc.connect(...)

data = read_frame(sql, cnn)
0
江明哲

前回の投稿から長い時間がかかりましたが、誰かの助けになるかもしれません...

ポールHよりも短い方法:

my_dic = session.query(query.all())
my_df = pandas.DataFrame.from_dict(my_dic)
0

1. MySQL-connector-pythonの使用

# pip install mysql-connector-python

import mysql.connector
import pandas as pd

mydb = mysql.connector.connect(
    Host = 'Host',
    user = 'username',
    passwd = 'pass',
    database = 'db_name'
)
query = 'select * from table_name'
df = pd.read_sql(query, con = mydb)
print(df)

2. SQLAlchemyの使用

# pip install pymysql
# pip install sqlalchemy

import pandas as pd
import sqlalchemy

engine = sqlalchemy.create_engine('mysql+pymysql://username:password@localhost:3306/db_name')

query = '''
select * from table_name
'''
df = pd.read_sql_query(query, engine)
print(df)
0
Lintang Wisesa

結果のタイプがResultSetの場合、最初に辞書に変換する必要があります。その後、DataFrame columnsが自動的に収集されます。

これは私の場合に機能します:

df = pd.DataFrame([dict(r) for r in resoverall])
0
tanza9

私がこれを行う最善の方法

db.execute(query) where db=db_class() #database class
    mydata=[x for x in db.fetchall()]
    df=pd.DataFrame(data=mydata)
0
Berto