概要
「corpus-mill」は、ローカルGPUのみで動作するマルチモーダル動画アノテーションパイプラインです。
長尺動画(人物が映るポッドキャスト、講演など)をインプットとして、音声、映像、OCR、顔認識、ブランド検出、チャット、音楽など、多岐にわたるイベントを時系列で抽出し、統合されたデータ(Parquet+SQLite)として出力します。
全てのAI推論がオフラインで完結するため、機密性の高い動画を外部サービスに送信することなく安全に処理できるのが最大の特徴です。
データのプライバシーとセキュリティを重視しつつ、動画コンテンツの分析や合成データ構築、トレーニングセット作成を行いたい研究者や開発者に最適です。
互換性・特徴
- GPU必須
- CLI
- Python
- オフライン対応
- 動画処理
- プライバシー重視
基本情報
| ライセンス | Apache-2.0 |
| Stars | 1 |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
最新リリース: v0.1.0-alpha — first public release (2026-05-06)
