Quora RSSフィードを利用するGoogle App Engineを使用した小さなアプリケーションに取り組んでいます。フォームがあり、ユーザーが入力した入力に基づいて、入力に関連するリンクのリストを出力します。現在、アプリケーションは、1文字のクエリと、単語が「-」で区切られている場合、2文字の単語のほとんどに対して正常に動作します。ただし、3文字の単語と2文字の単語の場合、次のエラーが表示されます。
UnicodeDecodeError: 'ascii'コーデックは、位置48のバイト0xe2をデコードできません:順序が範囲外(128)
ここに私のPythonコード:
import os
import webapp2
import jinja2
from google.appengine.ext import db
import urllib2
import re
template_dir = os.path.join(os.path.dirname(__file__), 'templates')
jinja_env = jinja2.Environment(loader = jinja2.FileSystemLoader(template_dir), autoescape=True)
class Handler(webapp2.RequestHandler):
def write(self, *a, **kw):
self.response.out.write(*a, **kw)
def render_str(self, template, **params):
t = jinja_env.get_template(template)
return t.render(params)
def render(self, template, **kw):
self.write(self.render_str(template, **kw))
class MainPage(Handler):
def get(self):
self.render("formrss.html")
def post(self):
x = self.request.get("rssquery")
url = "http://www.quora.com/" + x + "/rss"
content = urllib2.urlopen(url).read()
allTitles = re.compile('<title>(.*?)</title>')
allLinks = re.compile('<link>(.*?)</link>')
list = re.findall(allTitles,content)
linklist = re.findall(allLinks,content)
self.render("frontrss.html", list = list, linklist = linklist)
app = webapp2.WSGIApplication([('/', MainPage)], debug=True)
HTMLコードは次のとおりです。
<h1>Quora Live Feed</h1><br><br><br>
{% extends "rssbase.html" %}
{% block content %}
{% for e in range(1, 19) %}
{{ (list[e]) }} <br>
<a href="{{ linklist[e] }}">{{ linklist[e] }}</a>
<br><br>
{% endfor %}
{% endblock %}
Pythonは可能性が高い ASCII文字列でUnicode文字列を通常のstrにデコードしようとして失敗しています。 Unicodeデータで作業しているときは、デコードする必要があります。
content = content.decode('utf-8')
AppEngineアプリでは、次のように変換します。
content = unicode(content)
より明確で使いやすいと思います。