1,738 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

corpus-mill

★ 1 Apache-2.0 更新: 2026-05-06 GitHubで見る →

概要

「corpus-mill」は、ローカルGPUのみで動作するマルチモーダル動画アノテーションパイプラインです。

長尺動画(人物が映るポッドキャスト、講演など)をインプットとして、音声、映像、OCR、顔認識、ブランド検出、チャット、音楽など、多岐にわたるイベントを時系列で抽出し、統合されたデータ(Parquet+SQLite)として出力します。

全てのAI推論がオフラインで完結するため、機密性の高い動画を外部サービスに送信することなく安全に処理できるのが最大の特徴です。

データのプライバシーとセキュリティを重視しつつ、動画コンテンツの分析や合成データ構築、トレーニングセット作成を行いたい研究者や開発者に最適です。

互換性・特徴

  • GPU必須
  • CLI
  • Python
  • オフライン対応
  • 動画処理
  • プライバシー重視

基本情報

ライセンスApache-2.0
Stars1
カテゴリマルチモーダル
アクティビティlow

最新リリース: v0.1.0-alpha — first public release (2026-05-06)

GitHub: https://github.com/cahlen/corpus-mill