Java Apache HttpComponents Clientを使って、HTMLを取得する




今回はサイトからHTMLを読み込んでみます。
読み込みには、Apache HttpComponents Clientを使います。

Apache HttpComponents Clientの入手

mavenを使って入手

pom.xmlは、こんな感じ。

手動で入手

手動で入手するのであれば、以下のjarを入手することになります。
https://mvnrepository.com/repos/central

  • httpclient5-5.2.1.jar
  • httpcore5-5.2.jar
  • httpcore5-h2-5.2.jar
  • slf4j-api-1.7.36.jar

※2023年10月現在です。

ちなみに、Apache License 2.0で提供されています。
・・が、依存関係上、MITライセンスのもの(SLF4J)が含まれます。

Apache HttpComponents Clientを使って、HTMLを取得するサンプル

実行結果

当サイトのトップページから取得したHTMLが出力されます。
ついでに、SLF4Jのライブラリが不足している旨のエラーメッセージが出力されます。

SLF4Jのエラーが気になるようでしたら、slf4j-simpleを追加してください。

サンプルの解説

HttpClients.createDefault()でクライアントを作成。
次に、new HttpGet(“ここにURL”)で、GETのリクエストを作成。
最後にクライアントで実行です。
あとは、クライアントの実行後に、ステータスコード(200)とHTMLを標準出力です。

※このサンプルを動作させるためには、Apache HttpClient(Apache HttpComponents) 5.x系のライブラリが必要です。