[[プログラム周り]]
htmlからテキスト文だけ取り出す。webかpython-mlで見つけた。
ありがとう。ななしさん。
ent = {
'nbsp': ' ',
'lt': '<',
'gt': '>',
'amp': '&',
'quot': '"',
'apos': '\''
}
r = re.compile(r"<.*?>", re.DOTALL)
s = r.sub("",open('htmlfile').read())
s = re.sub("&(\w+);",
lambda x:ent.get(x.group(1), x.group()), s)
s=re.sub(r'\n','',s)
print s