PythonでWebページからテキストのみを抽出する

またQiitaに投稿しました。

qiita.com

HTML内のテキストのみを取り出すということは結構前からやろうとしていました。以前はjavascript正規表現を使って、タグと特定のタグ(scriptとstyle)で囲まれた文章を取り除くという方法でやっていましたが、今回はそれよりも分かりやすく書けているので割と満足しています。

 

 というか調べても意外と参考になりそうなサイトが少なくて、どうにかならんかと思案していたらふと英語で調べてみるかと思い、英語版のstackoverflowで「python beautifulsoup script style」とか調べたら結構あっさり引っかかりました。英語は大事だなあと思いました(小並感)。

 

Googlewikipediaのトップページでしか確認していないのでミスがありそうではあるけれども。