ケイビーエス 社員ブログ

多言語『翻訳・DTP・印刷・WEB』 ケイビーエス株式会社 社員のブログです。

ウェブページの文字カウント用ツール: html2txt

Posted by : koh.

html2txt

ウェブサイトの翻訳の見積を依頼されたら、まずそのサイトの文字量をカウントする必要があります。
文字カウントの方法は、カウントする部分を選択してWordやテキストエディタにコピーするわけですが、この方法だと文字が画像化している部分はカウントされません。
そこで、画像部分については目視でカウントするわけですが、ページ数が多くなると結構手間がかかります^^;
一般的には、画像には代替(ALT)テキストというものが設定されており、このALT部分を一緒にカウントできればいいのですが、残念ながら普通にコピーしてもこのALTテキストは含まれません。

うーん、何とかならないか…

いろいろ方法を模索するうち、W3Cのhtml2txtというサービスが目にとまりました。
このサービスは、Lynxなどのテキストブラウザと同じく、画像の代わりにALTテキストを表示して、ウェブページを全てテキスト化するものです。

html2txt: http://www.w3.org/services/html2txt

このページのフォームにテキスト化したいページのアドレスを入力して「Convert」ボタンを押せば、ページがテキスト化されます。
ただし、デフォルトの状態だと、リンク先のURLも一緒に表示されるので、単純に文字をカウントしたい用途には向いていません。

そこで、リンク先のURLを表示させないオプションをつけて、さらにこの一連の作業を自動化したブックマークレットを作りました。

htmlページをテキスト化するブックマークレット: html2txt

ブックマークレットの使用方法
  • Internet Explorerの場合:
    上の「html2txt」の文字の上で右クリックし、「お気に入りに追加」を選ぶ。
  • Google Chromeの場合:
    上の「html2txt」の文字をブックマークバーにドラッグ&ドロップして、ブックマークに追加する。
  • テキスト化したいウェブページを開き、先ほど追加したhtml2txtをクリックする。

これだけの作業で、いとも簡単にウェブページがテキスト化されちゃいます。

Firefoxは説明してくれないの?というFirefoxユーザーの方。
ご心配なく。Firefoxは、このブックマークレットを使わなくとも、普通にウェブページをコピーすればALTテキストも含まれるようになっているんです!

■コメント

コメントはまだありません。

■コメントする

※メールアドレスが公開されることはありません。* が付いている欄は必須項目です。


▲このページのトップへ