Perl HTML::Featureで重要な部分を抽出するモジュール
スポンサーリンク
PerlのHTML::Featureというモジュールは、HTML文書から重要な部分を推測して抽出することができます。
重要な部分は、本文のことです。
ブログやニュースなどの文書から、本文を抽出することができます。
http://search.cpan.org/~miki/HTML-Feature-2.0.2/
インストール方法
実行例
desc()の結果が、なにも出なかった。。。
HTML部分
http://dailynews.yahoo.co.jp/fc/computer/portal_sites/ から抽出したHTML部分。
音楽SNS「Last.fm」日本語版サービス終了
エキサイトは11月5日、音楽SNS「Last.fm」について同社ドメインで運営する日本語版サイトのサービスを終了した。日本語版サイトはLast.fmドメインに統合。エキサイトIDとLast.fmのID連携も終了したが、パスワードを再登録すれば、プロフィールなどを保存したまま引き続きサービスを利用できる。(ITmedia)
[記事全文]
文字コードを自動的に検出してくれるともっと便利ですね。
重要な部分は、本文のことです。
ブログやニュースなどの文書から、本文を抽出することができます。
http://search.cpan.org/~miki/HTML-Feature-2.0.2/
インストール方法
wget
http://search.cpan.org/CPAN/authors/id/M/MI/MIKI/HTML-Feature-2.0.3.tar.gz
tar zfp HTML-Feature-2.0.3.tar.gz
cd HTML-Feature-2.0.3
perl Makefile.PL
make
サンプルプログラム
#!/usr/local/bin/perl use strict; use warnings; use HTML::Feature; my $f = HTML::Feature->new(enc_type=>'euc-jp'); my $result = $f->parse ('http://dailynews.yahoo.co.jp/fc/computer/portal_sites/'); print "Title: ", $result->title (), "\n"; print "Description: ", $result->desc (), "\n"; print "Featured Text: ", $result->text (), "\n"; print "HTML Element: ", $result->element->as_HTML (), "\n";
実行例
desc()の結果が、なにも出なかった。。。
Title: Yahoo!ニュース - ポータルサイト動向 Description: Featured Text: 音楽SNS「Last.fm」日本語版サービス終了 エキサイトは11月5日、音楽SNS「Last.fm」について同社ドメインで運営する日本語版サイトのサービスを終了した。日本語版サイトはLast.fmドメインに統合。エキサイトIDとLast.fmのID連携も終了したが、パスワードを再登録すれば、プロフィールなどを保存したまま引き続きサービスを利用できる。(ITmedia) [記事全文] エキサイト、Last.fmのエキサイトID連携など終了。日本語サイトを1本化 - Impress Watch(2日) Last.fm ソーシャルネットワーキング - Yahoo!トピックス [写真]ITmedia HTML Element: <td colspan="2" valign="top"><img align="right" alt="Photo" border="1" hspace="5" src="http://ca.c.yimg.jp/news/20071105140755/img.news.yahoo.co.jp/images/20071105/zdn_n/20071105-00000029-zdn_n-sci-thum-000.jpg" vspace="5" /><font size="+1"><b><a href="http://headlines.yahoo.co.jp/hl?a=20071105-00000029-zdn_n-sci">音楽SNS「Last.fm」日本語版サービス終了</a></b></font><br />エキサイトは11月5日、音楽SNS「Last.fm」について同社ドメインで運営する日本語版サイトのサービスを終了した。日本語版サイトはLast.fmドメインに統合。エキサイトIDとLast.fmのID連携も終了したが、パスワードを再登録すれば、プロフィールなどを保存したまま引き続きサービスを利用できる。(ITmedia)<br /><a href="http://headlines.yahoo.co.jp/hl?a=20071105-00000029-zdn_n-sci">[記事全文]</a><br /><br /><ul><li><a href="http://headlines.yahoo.co.jp/hl?a=20071102-00000003-imp-sci">エキサイト、Last.fmのエキサイトID連携など終了。日本語サイトを1本化</a> - Impress Watch(2日)<br /><br /><li><a href="http://brd.dailynews.yahoo.co.jp/SIG=118q6dkgl/EXP=1194678164/*http%3A//www.lastfm.jp/">Last.fm</a><br /><br /><li><a href="http://dailynews.yahoo.co.jp/fc/computer/social_networking/">ソーシャルネットワーキング</a> - Yahoo!トピックス<br /><br />[写真]ITmedia</ul></td>
HTML部分
http://dailynews.yahoo.co.jp/fc/computer/portal_sites/ から抽出したHTML部分。
エキサイトは11月5日、音楽SNS「Last.fm」について同社ドメインで運営する日本語版サイトのサービスを終了した。日本語版サイトはLast.fmドメインに統合。エキサイトIDとLast.fmのID連携も終了したが、パスワードを再登録すれば、プロフィールなどを保存したまま引き続きサービスを利用できる。(ITmedia)
[記事全文]
- エキサイト、Last.fmのエキサイトID連携など終了。日本語サイトを1本化 - Impress Watch(2日)
- Last.fm
- ソーシャルネットワーキング - Yahoo!トピックス
[写真]ITmedia
文字コードを自動的に検出してくれるともっと便利ですね。
スポンサーリンク
スポンサーリンク
いつもシェア、ありがとうございます!
もっと情報を探しませんか?
関連記事
最近の記事
- パナソニック ジェットウォッシャードルツ EW-DJ61-Wのホースの修理
- LinuxセキュリティモジュールIntegrity Policy Enforcement
- アマゾンのEcho Show 5を買ったのでレビューします
- アマゾンのサイバーマンデーはAlexa Echo Show 5が安い
- Android スマートフォン OnePlus 7T と OnePlus 7の違い
- Android スマートフォン OnePlus 7 をAndroid10にアップデートしてみた
- クレジットカードのバーチャルカードの比較のまとめ
- 活動量計 Xiaomi Mi Band 4を買ってみたのでレビュー
- Android スマートフォン OnePlus 7 のレビュー
- AliExpressでスマートフォンを買い物してみた
- パソコンのホコリ対策 レンジフードフィルターと養生テープ
- 80PLUS GOLDのPC電源ユニットAntec NeoEco 750 Goldのレビュー
- イギリスの付加価値税 VAT は払い戻しを受けられる
- イギリスのロンドンでスーツケースなど荷物を預けられる場所は
- イギリスのロンドンで地下鉄やバスに乗るならオイスターカードを使おう
- イギリスのヒースロー空港からロンドン市内への行き方
- 航空便でほかの航空会社に乗り継ぎがある場合のオンラインチェックイン
- SFC会員がANA便ではなくベトナム航空のコードシェアを試して解ったこと
- ベトナムの入国審査でeチケットの掲示が必要だった話
- シアトルの交通ICカードはオルカカード(Orca)です
人気のページ
- Windows7 IME 辞書ツールで単語の登録に失敗しました
- C言語 popen()でコマンドを実行して出力を読み込む
- Windows7で休止状態にする方法
- CentOS MySQLの起動、停止、再起動
- loggerコマンドでsyslogにエラーを出力する方法
- パソコンパーツの買取をしてくれる店のまとめ
- Java Mapの使い方 get(),put(),remove(),size(),clear()
- 楽天のRポイントカードを作ってみた
- iPhone 5 から iPhone 6 に乗り換えたのでレビュー
- netstatコマンドのステータスの意味
スポンサーリンク
過去ログ
2020 : 01 02 03 04 05 06 07 08 09 10 11 122019 : 01 02 03 04 05 06 07 08 09 10 11 12
2018 : 01 02 03 04 05 06 07 08 09 10 11 12
2017 : 01 02 03 04 05 06 07 08 09 10 11 12
2016 : 01 02 03 04 05 06 07 08 09 10 11 12
2015 : 01 02 03 04 05 06 07 08 09 10 11 12
2014 : 01 02 03 04 05 06 07 08 09 10 11 12
2013 : 01 02 03 04 05 06 07 08 09 10 11 12
2012 : 01 02 03 04 05 06 07 08 09 10 11 12
2011 : 01 02 03 04 05 06 07 08 09 10 11 12
2010 : 01 02 03 04 05 06 07 08 09 10 11 12
2009 : 01 02 03 04 05 06 07 08 09 10 11 12
2008 : 01 02 03 04 05 06 07 08 09 10 11 12
2007 : 01 02 03 04 05 06 07 08 09 10 11 12
2006 : 01 02 03 04 05 06 07 08 09 10 11 12
2005 : 01 02 03 04 05 06 07 08 09 10 11 12
2004 : 01 02 03 04 05 06 07 08 09 10 11 12
2003 : 01 02 03 04 05 06 07 08 09 10 11 12