Python小箱

Shiba00

日記/2002-11-09/たこ焼き
日記/2002-11-07/es
日記/2003-12-04
日記/2012-06-24
日記/2003-11-29
日記/2005-06-11
日記/2007-12-23/カウボーイ大会発表してきた
日記/Category/MMO
凍りついた瞳
日記/Category/学校
日記/2005-11-19/祖母が亡くなった
日記/2005-07-04
日記/2013-07-21/Hive-WebInterFaceのShibを導入する
日記/2012-05-31
日記/2012-06-24/ランダムな数値の動きと、累積値
日記/2004-01-11
日記/2004-01-07/草稿を考える
切込隊長と東浩紀の視点の違い
日記/2013-05-05/Cloudera-ImpaladにODBCで接続する-CentOS
日記/2003-12-04/Google API
震災話
日記/2013-10-14
日記/2012-05-31/あのころのはてな
日記/2013-05-04
モーゼの十戒
大学院進学は自殺行為だ。そして、明治時代も、そうだった
日記/2003-12-18
日記/2012-09-08/好きが溢れる動画
日記/2005-08-05
父親と家族療法
日記/2003-01-11
気が付くと３０歳
日記/2003-12-25/論文書き
日記/Category/作品
日記/2003-05-14/映像作品
日記/2002-10-27/ISEA2002
日記/2009-02-16/test2
日記/2004-02-18/Night for Java

htmlからテキスト文だけ取り出す。webかpython-mlで見つけた。ありがとう。ななしさん。

ent = {
  'nbsp': ' ', 
  'lt': '<', 
  'gt': '>', 
  'amp': '&', 
  'quot': '"', 
  'apos': '\''
}
r = re.compile(r"<.*?>", re.DOTALL)
s = r.sub("",open('htmlfile').read())
s = re.sub("&(\w+);", 
lambda x:ent.get(x.group(1), x.group()), s)
s=re.sub(r'\n','',s)
print s

Last-modified: 2015-02-01 (日) 14:38:23 (3820d)

Shiba00

Menu

最新の40件