NEWS

  • Top
  • News
  • Webクローラーに追加のシードが指定できるようになりました!

Webクローラーに追加のシードが指定できるようになりました!

  

Posted: January 22, 2023

    

皆様、こんにちは!

KandaSearch の「Webクローラー」に「追加のシード」が登録できるようになりましたのでお知らせします。

追加のシードとは?

KandaSearch のプロジェクトビューのメニュー「Webクローラー」からWebクロールを行うクローラージョブを追加できます。このときに必須の入力項目として、下図に示す「シード」があります。これは「Webクロールをどこから始めるか」という、クロール起点となるURLを入力していただく項目で従来から存在していました。

Webクローラージョブのシード入力

今回の機能追加で、下図の赤破線枠の「追加のシード」というオプションの入力項目が新設されました。

追加のシードの入力

「追加のシード」は上限なく設定できますが、必須入力項目である「シード」で指定されたURLで開始するものしか追加できません。そうでないURLを追加しようとすると、下図のようなエラーになります。

追加のシードの入力誤り

上図は、宣言されたシード https://example.com/ に対して、異なるドメインである https://www.example.com/ を追加のシードとして登録しようとしてエラーになっています。

想定するユースケース

Webクローラーは「シード」をクロール起点としてシードに指定されたドメインサイト内のページを、リンクをたどりながらページクロールしていきます。したがって、同じドメインのサイト内のページであっても、シードのリンクからたどれないような、孤立している静的ページや、動的に生成されるページがあると、そのようなページはインデクシングできませんでした。どうしてもインデクシングしたい場合は、そのような孤立したページのURLをシードとして登録するしかありませんでした。しかし、登録できるシード数には上限があり、孤立ページをすべて登録することはできませんでした。

今回、上限なく登録できる「追加のシード」が登場したことにより、リンクからたどれない同一ドメインのページをインデクシングできるようになりました。

今回の新機能と共に、Webクローラーをますますご活用いただけますと幸いです。

今後とも KandaSearch をよろしくお願い申し上げます。

For estimates and details,
please feel free to contact our development team.

Contact Us
TOP