PythonでWebページからテキストのみを抽出する
またQiitaに投稿しました。
HTML内のテキストのみを取り出すということは結構前からやろうとしていました。以前はjavascriptで正規表現を使って、タグと特定のタグ(scriptとstyle)で囲まれた文章を取り除くという方法でやっていましたが、今回はそれよりも分かりやすく書けているので割と満足しています。
というか調べても意外と参考になりそうなサイトが少なくて、どうにかならんかと思案していたらふと英語で調べてみるかと思い、英語版のstackoverflowで「python beautifulsoup script style」とか調べたら結構あっさり引っかかりました。英語は大事だなあと思いました(小並感)。