DialoStack

概要

DialoStackは、ROS 2ロボットが目標指向の音声会話を行えるようにするフレームワークです。

ユーザーから構造化データを収集したり、トピックを説明したり、理解度を確認するクイズを実施したりといったタスクを音声のみで実現します。

このシステムの最大の特徴は、対話の流れは決定論的に制御しつつ、ユーザーの意図理解や返答の生成にはLLMを活用する「決定論的制御、確率論的理解」のアプローチです。

これにより、予測可能でデバッグしやすい振る舞いを維持しつつ、自然な会話体験を提供します。

Google GeminiやOllamaをLLMバックエンドとして利用でき、faster-whisperとPiper TTSによる音声入出力、顔の感情認識などのマルチモーダル知覚もサポート。

NAOロボットへの実装も考慮されており、ROS 2を利用するロボット開発者や対話型AIの研究者に最適です。

GitHub: https://github.com/aquintan4/DialoStack