私はpythonを介して大学のサーバーにログインしようとしていますが、適切なHTTP POSTの生成方法、キーと証明書の作成方法、および私が慣れていないプロセスの他の部分で、 SAML仕様に準拠します。私はブラウザでうまくログインできますが、Pythonを使用してログインし、サーバー内の他のコンテンツにアクセスできるようにしたいと思います。
参考までに、- ここはサイトです
Mechanize(フォームの選択、フィールドへの入力、mechanize.Broswer.submit()による送信ボタンコントロールのクリックなど)を使用してログインしようとしましたが、役に立ちませんでした。ログインサイトは毎回スパッツを取得します。
この時点で、タスクに最も適した言語でソリューションを実装できるようになりました。基本的に、プログラムでSAML認証サーバーにログインします。
基本的に理解する必要があるのは、SAML認証プロセスの背後にあるワークフローです。残念ながら、PDFはありません。これは、SAMLで保護されたWebサイトにアクセスしたときにブラウザーがどのようなことを行うかを見つけるのに役立つと思われます。
多分あなたはこのようなものを見る必要があります: http://www.docstoc.com/docs/33849977/Workflow-to-Use-Shibboleth-Authentication-to-Sign そして明らかにこれに: http://en.wikipedia.org/wiki/Security_Assertion_Markup_Language 。特に、このスキームに注意を向けてください。
ドキュメントがso悪いため、SAMLの動作方法を理解しようとしたときに私が行ったのは、ブラウザーが最初から最後まで実行していたすべての手順を書き留めていた(はい!最後。私はOperaを使用してnotを設定して自動リダイレクト(300、301、302応答コードなど)を許可し、Javascriptを有効にしませんでした。次に、サーバーから送信されたすべてのCookie、何をしていて、何のために理由を書いたかを書き留めました。
多分それはあまりにも多くの労力でしたが、このようにして、仕事に適しており、信じられないほど高速で効率的なライブラリをJavaで書くことができました。多分いつか私はそれを公開するでしょう...
SAMLログインでは、IDP(IDプロバイダー)とSP(サービスプロバイダー))の2つのアクターが遊んでいることを理解する必要があります。
「保護されたウェブサイトへのアクセス」のようなものをクリックする別のページからあなたの質問であなたが参照するリンクに到達したと確信しています。さらに注意すると、たどったリンクがnotであり、認証フォームが表示されているリンクであることがわかります。これは、IDPからSPへのリンクをクリックすることがSAMLのステップであるためです。最初のステップは、実際には、 IDPは、あなたが誰であり、なぜそのリソースにアクセスしようとしているのかを定義します。したがって、基本的に必要なことは、Webフォームにアクセスするためにたどったリンクにリクエストを送信し、Cookieを取得することです。表示されないのは、リンクの背後にある302リダイレクトにエンコードされたSAMLRequest文字列で、接続を確立するIDPに送信されます。
それがプロセス全体を機械化できない理由だと思います。 IDの識別を行わずに、フォームに接続しました。
これは簡単です。お気をつけください! nowが設定されているCookieは、上記のCookieとは異なります。まったく別のWebサイトに接続しています。これがSAMLが使用される理由です:異なるWebサイト、同じ資格情報。したがって、正常なログインによって提供されるこれらの認証Cookieを別の変数に保存することができます。 IDPは、応答(SAMLRequestの後)、SAMLResponseを送り返します。ログインが終了するWebページのソースコードを取得することを検出する必要があります。実際、このページは応答を含む大きなフォームであり、ページがロードされると、JSのコードによって自動的にサブミットされます。ページのソースコードを取得し、解析して、HTMLの不要なものをすべて削除し、SAMLResponse(暗号化)を取得する必要があります。
これで、手順を終了する準備ができました。前のステップで取得したSAMLResponseを(フォームをエミュレートしているため、POSTを介して)SPに送信する必要があります。このようにして、アクセスしたい保護されたものへのアクセスに必要なCookieを提供します。
ああ、これで完了です。
繰り返しますが、あなたがしなければならない最も貴重なことは、Operaを使用し、SAMLが行うすべてのリダイレクトを分析することです。次に、コード内でそれらを複製します。それほど難しくはありません。 IDPはSPとはまったく異なることに注意してください。
ヘッドレスのPhantomJS Webkitを備えたSeleniumは、CookieやJavaScriptを処理するため、Shibbolethにログインするのに最適です。
_$ pip install Selenium
$ brew install phantomjs
_
_from Selenium import webdriver
from Selenium.webdriver.support.ui import Select # for <SELECT> HTML form
driver = webdriver.PhantomJS()
# On Windows, use: webdriver.PhantomJS('C:\phantomjs-1.9.7-windows\phantomjs.exe')
# Service selection
# Here I had to select my school among others
driver.get("http://ent.unr-runn.fr/uPortal/")
select = Select(driver.find_element_by_name('user_idp'))
select.select_by_visible_text('ENSICAEN')
driver.find_element_by_id('IdPList').submit()
# Login page (https://cas.ensicaen.fr/cas/login?service=https%3A%2F%2Fshibboleth.ensicaen.fr%2Fidp%2FAuthn%2FRemoteUser)
# Fill the login form and submit it
driver.find_element_by_id('username').send_keys("myusername")
driver.find_element_by_id('password').send_keys("mypassword")
driver.find_element_by_id('fm1').submit()
# Now connected to the home page
# Click on 3 links in order to reach the page I want to scrape
driver.find_element_by_id('tabLink_u1240l1s214').click()
driver.find_element_by_id('formMenu:linknotes1').click()
driver.find_element_by_id('_id137Pluto_108_u1240l1n228_50520_:tabledip:0:_id158Pluto_108_u1240l1n228_50520_').click()
# Select and print an interesting element by its ID
page = driver.find_element_by_id('_id111Pluto_108_u1240l1n228_50520_:tableel:tbody_element')
print page.text
_
driver = webdriver.Firefox()
上記のStéphaneBruckertからの回答を拡張すると、Seleniumを使用して認証Cookieを取得した後でも、必要に応じてリクエストに切り替えることができます。
import requests
cook = {i['name']: i['value'] for i in driver.get_cookies()}
driver.quit()
r = requests.get("https://protected.ac.uk", cookies=cook)
Shibboleth認証プロセスの詳細な説明 こちら を見つけることができます。
MechanizeはJavascriptを処理しないことを除いて、同様に作業を行うことができます。認証は成功しましたが、一度ホームページにアクセスすると、そのようなリンクをロードできませんでした。
<a href="#" id="formMenu:linknotes1"
onclick="return oamSubmitForm('formMenu','formMenu:linknotes1');">
Javascriptが必要な場合は、 PhantomJSを使用したSelenium を使用することをお勧めします。それ以外の場合は、このスクリプトからインスピレーションを得られることを願っています。
#!/usr/bin/env python
#coding: utf8
import sys, logging
import mechanize
import cookielib
from BeautifulSoup import BeautifulSoup
import html2text
br = mechanize.Browser() # Browser
cj = cookielib.LWPCookieJar() # Cookie Jar
br.set_cookiejar(cj)
# Browser options
br.set_handle_equiv(True)
br.set_handle_gzip(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)
# Follows refresh 0 but not hangs on refresh > 0
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)
# User-Agent
br.addheaders = [('User-agent', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.114 Safari/537.36')]
br.open('https://ent.unr-runn.fr/uPortal/')
br.select_form(nr=0)
br.submit()
br.select_form(nr=0)
br.form['username'] = 'myusername'
br.form['password'] = 'mypassword'
br.submit()
br.select_form(nr=0)
br.submit()
rs = br.open('https://ent.unr-runn.fr/uPortal/f/u1240l1s214/p/esup-mondossierweb.u1240l1n228/max/render.uP?pP_org.Apache.myfaces.portlet.MyFacesGenericPortlet.VIEW_ID=%2Fstylesheets%2Fetu%2Fdetailnotes.xhtml')
# Eventually comparing the cookies with those on Live HTTP Header:
print "Cookies:"
for cookie in cj:
print cookie
# Displaying page information
print rs.read()
print rs.geturl()
print rs.info();
# And that last line didn't work
rs = br.follow_link(id="formMenu:linknotes1", nr=0)
大学のページのSAML認証でも同様の問題に直面しました。
基本的な考え方は、requests.session
オブジェクトを使用して、ほとんどのhttpリダイレクトとcookieの格納を自動的に処理します。ただし、JavaScriptの両方を使用したリダイレクトも多数あり、これにより、単純な要求ソリューションを使用した場合に複数の問題が発生しました。
私は fiddler を使用して、ブラウザが大学サーバーに対して行ったすべてのリクエストを追跡して、見逃したリダイレクトを埋めました。それは本当にプロセスを簡単にしました。
私の解決策は理想からはほど遠いですが、うまくいくようです。
私は受け入れられた答えに続いてこのコードを書きました。これは2つの別々のプロジェクトで私のために働きました
import mechanize
from bs4 import BeautifulSoup
import urllib2
import cookielib
cj = cookielib.CookieJar()
br = mechanize.Browser()
br.set_handle_robots(False)
br.set_cookiejar(cj)
br.set_handle_equiv(True)
br.set_handle_gzip(True)
br.set_handle_redirect(True)
br.set_handle_refresh(False)
br.set_handle_referer(True)
br.set_handle_robots(False)
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]
br.open("The URL goes here")
br.select_form(nr=0)
br.form['username'] = 'Login Username'
br.form['password'] = 'Login Password'
br.submit()
br.select_form(nr=0)
br.submit()
response = br.response().read()
print response
Shibbolizedページにログインできる簡単なPythonスクリプトを作成しました。
最初に、FirefoxでライブHTTPヘッダーを使用して、ターゲットにした特定のShibbolizedページのリダイレクトを監視しました。
次に、_urllib.request
_(Python 3.4で)を使用して簡単なスクリプトを書きましたが、_urllib2
_ Python 2.x同じ機能です。_urllib.request
_に続くデフォルトのリダイレクトが目的に合っていることがわかりましたが、_urllib.request.HTTPRedirectHandler
_をサブクラス化し、このサブクラス(クラスShibRedirectHandler
)に追加すると便利です。すべてのhttp_error_302イベントのハンドラ。
このサブクラスでは、パラメーターの値を出力しました(デバッグ目的)。デフォルトのリダイレクトフォローを使用するには、ハンドラーをreturn HTTPRedirectHandler.http_error_302(self, args...)
で終了する必要があることに注意してください(つまり、基本クラスのhttp_errror_302ハンドラーへの呼び出し)。
Shibbolized Authenticationでurllib
を機能させるための最も重要なコンポーネントは、Cookie処理が追加されたOpenerDirector
を作成することです。次のようにOpenerDirector
をビルドします。
_cookieprocessor = urllib.request.HTTPCookieProcessor()
opener = urllib.request.build_opener(ShibRedirectHandler, cookieprocessor)
response = opener.open("https://shib.page.org")
_
開始するための完全なスクリプトを次に示します(提供したいくつかの模擬URLを変更し、有効なユーザー名とパスワードを入力する必要があります)。これはPython 3クラスを使用します; Python2でこれを機能させるには、urllib.requestをurllib2に、urlib.parseをurlparseに置き換えます:
_import urllib.request
import urllib.parse
#Subclass of HTTPRedirectHandler. Does not do much, but is very
#verbose. prints out all the redirects. Compaire with what you see
#from looking at your browsers redirects (using live HTTP Headers or similar)
class ShibRedirectHandler (urllib.request.HTTPRedirectHandler):
def http_error_302(self, req, fp, code, msg, headers):
print (req)
print (fp.geturl())
print (code)
print (msg)
print (headers)
#without this return (passing parameters onto baseclass)
#redirect following will not happen automatically for you.
return urllib.request.HTTPRedirectHandler.http_error_302(self,
req,
fp,
code,
msg,
headers)
cookieprocessor = urllib.request.HTTPCookieProcessor()
opener = urllib.request.build_opener(ShibRedirectHandler, cookieprocessor)
#Edit: should be the URL of the site/page you want to load that is protected with Shibboleth
(opener.open("https://shibbolized.site.example").read())
#Inspect the page source of the Shibboleth login form; find the input names for the username
#and password, and edit according to the dictionary keys here to match your input names
loginData = urllib.parse.urlencode({'username':'<your-username>', 'password':'<your-password>'})
bLoginData = loginData.encode('ascii')
#By looking at the source of your Shib login form, find the URL the form action posts back to
#hard code this URL in the mock URL presented below.
#Make sure you include the URL, port number and path
response = opener.open("https://test-idp.server.example", bLoginData)
#See what you got.
print (response.read())
_
すでに回答されていますが、うまくいけばこれが誰かを助けるでしょう。私はSAML Webサイトからファイルをダウンロードするタスクを持っていて、StéphaneBruckertの回答から助けを得ました。
ヘッドレスを使用する場合、ログインのリダイレクトに必要な間隔で待ち時間を指定する必要があります。ブラウザーがログインしたら、私はそこからのCookieを使用し、それをリクエストモジュールと一緒に使用してファイルをダウンロードしました Got help from this 。
これは私のコードがどのように見えるかです-
from Selenium import webdriver
from Selenium.webdriver.chrome.options import Options #imports
things_to_download= [a,b,c,d,e,f] #The values changing in the url
options = Options()
options.headless = False
driver = webdriver.Chrome('D:/chromedriver.exe', options=options)
driver.get('https://website.to.downloadfrom.com/')
driver.find_element_by_id('username').send_keys("Your_username") #the ID would be different for different website/forms
driver.find_element_by_id('password').send_keys("Your_password")
driver.find_element_by_id('logOnForm').submit()
session = requests.Session()
cookies = driver.get_cookies()
for things in things_to_download:
for cookie in cookies:
session.cookies.set(cookie['name'], cookie['value'])
response = session.get('https://website.to.downloadfrom.com/bla/blabla/' + str(things_to_download))
with open('Downloaded_stuff/'+str(things_to_download)+'.pdf', 'wb') as f:
f.write(response.content) # saving the file
driver.close()