htmlからテキスト文だけ取り出す。webかpython-mlで見つけた。 ありがとう。ななしさん。 ent = { 'nbsp': ' ', 'lt': '<', 'gt': '>', 'amp': '&', 'quot': '"', 'apos': '\'' } r = re.compile(r"<.*?>", re.DOTALL) s = r.sub("",open('htmlfile').read()) s = re.sub("&(\w+);", lambda x:ent.get(x.group(1), x.group()), s) s=re.sub(r'\n','',s) print s |