概要
Anansiは、敵対的で不安定なウェブ環境に対応するために設計された自己修復型ウェブスクレイパーです。
サイトのレイアウト変更時にはCSSセレクタを自動で修復し、ボット検出を回避するためにChromeのTLSフィンガープリントを模倣したり、必要に応じてブラウザレンダリングに切り替えたりします。
また、LLMが会話を通じてクローリングを指示できるMCPサーバーを搭載しており、データ抽出時のPydanticによるバリデーション機能も備えています。
ウェブサイトの変更に強く、高度なボット対策が必要なスクレイピングプロジェクトに取り組む開発者や、LLM連携を視野に入れているユーザーに最適です。
互換性・特徴
- Python
- Webスクレイピング
- AI/LLM連携
- ボット対策
- 自己修復
- CLI
基本情報
| ライセンス | Apache-2.0 |
| Stars | 93 |
| Forks | 17 |
| カテゴリ | AIエージェント |
| アクティビティ | low |
GitHub: https://github.com/mdowis/anansi
