Pythonで作成されたデータを保存するためにExcelファイルを使用したい。私の問題は、既存のExcelファイルにシートを追加できないことです。ここでは、この問題を解決するために使用するサンプルコードを提案します。
import pandas as pd
import numpy as np
path = r"C:\Users\fedel\Desktop\excelData\PhD_data.xlsx"
x1 = np.random.randn(100, 2)
df1 = pd.DataFrame(x1)
x2 = np.random.randn(100, 2)
df2 = pd.DataFrame(x2)
writer = pd.ExcelWriter(path, engine = 'xlsxwriter')
df1.to_Excel(writer, sheet_name = 'x1')
df2.to_Excel(writer, sheet_name = 'x2')
writer.save()
writer.close()
このコードは、それぞれ「x1」と「x2」という名前の2つのデータフレームを2つのシートに保存します。 2つの新しいDataFrameを作成し、同じコードを使用して2つの新しいシート「x3」と「x4」を追加しようとすると、元のデータが失われます。
import pandas as pd
import numpy as np
path = r"C:\Users\fedel\Desktop\excelData\PhD_data.xlsx"
x3 = np.random.randn(100, 2)
df3 = pd.DataFrame(x3)
x4 = np.random.randn(100, 2)
df4 = pd.DataFrame(x4)
writer = pd.ExcelWriter(path, engine = 'xlsxwriter')
df3.to_Excel(writer, sheet_name = 'x3')
df4.to_Excel(writer, sheet_name = 'x4')
writer.save()
writer.close()
「x1」、「x2」、「x3」、「x4」の4つのシートを含むExcelファイルが必要です。 「xlsxwriter」だけが「エンジン」ではなく、「openpyxl」があることも知っています。また、この問題について書いている他の人々がすでにいるのを見ましたが、それを行う方法を理解することはできません。
ここからこれを取り出したコード link
import pandas
from openpyxl import load_workbook
book = load_workbook('Masterfile.xlsx')
writer = pandas.ExcelWriter('Masterfile.xlsx', engine='openpyxl')
writer.book = book
writer.sheets = dict((ws.title, ws) for ws in book.worksheets)
data_filtered.to_Excel(writer, "Main", cols=['Diff1', 'Diff2'])
writer.save()
彼らはそれが機能すると言いますが、どのように理解するのは難しいです。このコンテキストで「ws.title」、「ws」、および「dict」が何であるかがわかりません。
「x1」と「x2」を保存し、ファイルを閉じて再度開き、「x3」と「x4」を追加する最良の方法はどれですか?
ありがとうございました。完全な例は、同じ問題を抱えている他の誰にとっても良いと信じています:
import pandas as pd
import numpy as np
path = r"C:\Users\fedel\Desktop\excelData\PhD_data.xlsx"
x1 = np.random.randn(100, 2)
df1 = pd.DataFrame(x1)
x2 = np.random.randn(100, 2)
df2 = pd.DataFrame(x2)
writer = pd.ExcelWriter(path, engine = 'xlsxwriter')
df1.to_Excel(writer, sheet_name = 'x1')
df2.to_Excel(writer, sheet_name = 'x2')
writer.save()
writer.close()
ここで、Excelファイルを生成します。私の理解から、それが「xslxwriter」または「openpyxl」エンジンのどちらを介して生成されたかは、実際には問題ではありません。
元のデータを失うことなく書き込みたい場合
import pandas as pd
import numpy as np
from openpyxl import load_workbook
path = r"C:\Users\fedel\Desktop\excelData\PhD_data.xlsx"
book = load_workbook(path)
writer = pd.ExcelWriter(path, engine = 'openpyxl')
writer.book = book
x3 = np.random.randn(100, 2)
df3 = pd.DataFrame(x3)
x4 = np.random.randn(100, 2)
df4 = pd.DataFrame(x4)
df3.to_Excel(writer, sheet_name = 'x3')
df4.to_Excel(writer, sheet_name = 'x4')
writer.save()
writer.close()
このコードは仕事をします!
共有した例では、既存のファイルをbook
にロードし、writer.book
値をbook
に設定しています。 writer.sheets = dict((ws.title, ws) for ws in book.worksheets)
行では、ws
としてワークブックの各シートにアクセスしています。シートのタイトルはws
なので、{sheet_titles: sheet}
キーと値のペアの辞書を作成しています。その後、この辞書はwriter.sheetsに設定されます。 これらの手順は、本質的に'Masterfile.xlsx'
から既存のデータを読み込んで、ライターにそれらを読み込むだけです。
シートとしてx1
とx2
のファイルが既にあるとします。サンプルコードを使用してファイルをロードし、x3
およびx4
を追加するためにこのようなことを行うことができます。
path = r"C:\Users\fedel\Desktop\excelData\PhD_data.xlsx"
writer = pd.ExcelWriter(path, engine='openpyxl')
df3.to_Excel(writer, 'x3', index=False)
df4.to_Excel(writer, 'x4', index=False)
writer.save()
それはあなたが探していることをするはずです。
一度に複数のデータをExcelに書き込む簡単な例。また、書き込まれたExcelファイル(閉じたExcelファイル)のシートにデータを追加する場合。
Excelへの書き込みが初めての場合。 (「df1」と「df2」を「1st_sheet」と「2nd_sheet」に書き込む)
import pandas as pd
from openpyxl import load_workbook
df1 = pd.DataFrame([[1],[1]], columns=['a'])
df2 = pd.DataFrame([[2],[2]], columns=['b'])
df3 = pd.DataFrame([[3],[3]], columns=['c'])
Excel_dir = "my/Excel/dir"
with pd.ExcelWriter(Excel_dir, engine='xlsxwriter') as writer:
df1.to_Excel(writer, '1st_sheet')
df2.to_Excel(writer, '2nd_sheet')
writer.save()
Excelを閉じた後、同じExcelファイルで別のシートにデータを「追加」したい場合、シート名「3rd_sheet」に「df3」と言います。
book = load_workbook(Excel_dir)
with pd.ExcelWriter(Excel_dir, engine='openpyxl') as writer:
writer.book = book
writer.sheets = dict((ws.title, ws) for ws in book.worksheets)
## Your dataframe to append.
df3.to_Excel(writer, '3rd_sheet')
writer.save()
Excel形式はxlsであってはならないことに注意してください。xlsx形式を使用できます。
openpyxlはPandas DataFrames をサポートするようになったため、直接作業することを強くお勧めします。
これにより、関連するExcelおよびPandasコードに集中できます。
これについてもう1つのかなり簡単な方法は、次のようなメソッドを作成することです。
def _write_frame_to_new_sheet(path_to_file=None, sheet_name='sheet', data_frame=None):
book = None
try:
book = load_workbook(path_to_file)
except Exception:
logging.debug('Creating new workbook at %s', path_to_file)
with pd.ExcelWriter(path_to_file, engine='openpyxl') as writer:
if book is not None:
writer.book = book
data_frame.to_Excel(writer, sheet_name, index=False)
ここでのアイデアは、ワークブックをpath_to_fileにロードし、存在する場合はdata_frameをsheet_nameで新しいシートとして追加することです。ワークブックが存在しない場合、作成されます。 openpyxlまたはxlsxwriterのどちらも追加していないようです。上記の@Stefanoの例のように、実際にロードしてから書き換えて追加する必要があります。
興味のある既存のシート、たとえば「x1」、「x2」をメモリに読み込んで、新しいシートを追加する前に「書き戻す」ことができます(ファイル内のシートとメモリ内のシートは異なることに注意してください)あなたがそれらを読まなければ、それらは失われます)。このアプローチは「xlsxwriter」のみを使用し、openpyxlは関与しません。
import pandas as pd
import numpy as np
path = r"C:\Users\fedel\Desktop\excelData\PhD_data.xlsx"
# begin <== read selected sheets and write them back
df1 = pd.read_Excel(path, sheet_name='x1', index_col=0) # or sheet_name=0
df2 = pd.read_Excel(path, sheet_name='x2', index_col=0) # or sheet_name=1
writer = pd.ExcelWriter(path, engine='xlsxwriter')
df1.to_Excel(writer, sheet_name='x1')
df2.to_Excel(writer, sheet_name='x2')
# end ==>
# now create more new sheets
x3 = np.random.randn(100, 2)
df3 = pd.DataFrame(x3)
x4 = np.random.randn(100, 2)
df4 = pd.DataFrame(x4)
df3.to_Excel(writer, sheet_name='x3')
df4.to_Excel(writer, sheet_name='x4')
writer.save()
writer.close()
既存のすべてのシートを保持する場合は、beginとendの間の上記のコードを次のように置き換えることができます。
# read all existing sheets and write them back
writer = pd.ExcelWriter(path, engine='xlsxwriter')
xlsx = pd.ExcelFile(path)
for sheet in xlsx.sheet_names:
df = xlsx.parse(sheet_name=sheet, index_col=0)
df.to_Excel(writer, sheet_name=sheet)
#This program is to read from Excel workbook to fetch only the URL domain names and write to the existing Excel workbook in a different sheet..
#Developer - Nilesh K
import pandas as pd
from openpyxl import load_workbook #for writting to the existing workbook
df = pd.read_Excel("urlsearch_test.xlsx")
#You can use the below for the relative path.
# r"C:\Users\xyz\Desktop\Python\
l = [] #To make a list in for loop
#begin
#loop starts here for fetching http from a string and iterate thru the entire sheet. You can have your own logic here.
for index, row in df.iterrows():
try:
str = (row['TEXT']) #string to read and iterate
y = (index)
str_pos = str.index('http') #fetched the index position for http
str_pos1 = str.index('/', str.index('/')+2) #fetched the second 3rd position of / starting from http
str_op = str[str_pos:str_pos1] #Substring the domain name
l.append(str_op) #append the list with domain names
#Error handling to skip the error rows and continue.
except ValueError:
print('Error!')
print(l)
l = list(dict.fromkeys(l)) #Keep distinct values, you can comment this line to get all the values
df1 = pd.DataFrame(l,columns=['URL']) #Create dataframe using the list
#end
#Write using openpyxl so it can be written to same workbook
book = load_workbook('urlsearch_test.xlsx')
writer = pd.ExcelWriter('urlsearch_test.xlsx',engine = 'openpyxl')
writer.book = book
df1.to_Excel(writer,sheet_name = 'Sheet3')
writer.save()
writer.close()
#The below can be used to write to a different workbook without using openpyxl
#df1.to_Excel(r"C:\Users\xyz\Desktop\Python\urlsearch1_test.xlsx",index='false',sheet_name='sheet1')