生成AIモデル内部のリスクを、再学習なしで低減する
マシンアンラーニングプラットフォーム
Hirundo
マシンアンラーニングプラットフォーム
生成AI活用における課題
企業で生成AIの活用が広がる一方、もっともらしい誤回答を返すハルシネーション、学習データに由来する機微情報・個人情報の出力、偏った回答、プロンプトインジェクションなどの攻撃は、実運用を妨げる大きな要因です。特に、経営判断支援、顧客対応、製造業の品質管理、研究開発、医療・法務・金融といった高信頼領域では、出力品質と安全性を継続的に担保する仕組みが求められます。
従来のガードレールや出力フィルタリングは重要な対策ですが、モデル内部に残るリスクそのものを取り除くものではありません。また、再学習や再ファインチューニングは有効な場合がある一方で、時間・コスト・検証負荷が大きく、リリース直前や本番運用中に発見された問題へ迅速に対応しにくいケースがあります。
Hirundoはモデルの弱点を評価し、必要なリスクをアンラーニングで低減し、運用時の保護まで支援することで、生成AIの安全性と実用性の両立を支援します。
Hirundoが提供する3つの価値
- Diagnose:モデルのリスクを可視化
組み込み評価やレッドチームテストにより、ハルシネーション、PII、バイアス、プロンプトインジェクションなど、モデルが抱えるリスクを把握します。修正前後の評価結果を比較できるため、改善状況を技術部門・事業部門の双方で確認しやすくなります。
-
Harden:モデル内部の不要な挙動を低減
オープンウェイトモデルでは、リスクの原因となるパラメータや挙動に対してアンラーニングを行い、不要な知識や脆弱な応答傾向を低減します。再学習ではなく、対象を絞った修正を行うため、モデル全体の有用性を維持しながら改善を進めやすい点が特長です。
-
Protect:導入後の継続的な保護を支援
運用中に新たなリスクが見つかった場合にも、長期の再学習を待たずに改善を検討できます。クローズドモデルやAPI型モデルでは、Prismにより推論時のトークン確率を調整し、安全でない生成の抑制を支援します。
主な特長
-
再学習なしでモデル内部のリスクに対処
通常、学習済みAIモデルの問題を抜本的に修正するには、再学習や大規模な再調整が必要になりがちです。Hirundoは、モデルを一から作り直すのではなく、既存モデルに残る不要な知識や望ましくない挙動の影響を低減するアプローチを採用します。リリース前の品質改善や、本番環境で発見された問題への迅速な対処に適しています。
-
ハルシネーション、PII、バイアス、脆弱性に対応
生成AIにおける代表的な課題であるハルシネーション、PII・機密情報の混入、回答バイアス、プロンプトインジェクションやジェイルブレイクなどを評価し、原因となるモデル内部の挙動に働きかけます。Hirundo公開情報では、ジェイルブレイク成功率を最大85%低減、バイアスの最大約70%低減、ファインチューニングされたPIIの除去といった検証結果が示されています。
-
ガードレールと組み合わせて、より多層的なAIセキュリティを実現
Hirundoはガードレールを置き換えるものではなく、外部制御だけでは対処しきれないモデル内部のリスクを低減するための補完的な仕組みです。入力・出力の制御、RAG、監視、権限管理と組み合わせることで、生成AIの安全性を多層的に高められます。
-
評価と改善をセットで実施し、効果を確認可能
修正前後で、対象リスクに対する評価と一般的な有用性ベンチマークを確認します。Hirundoは、リスク低減だけでなく、推論能力や一般知識への影響を抑えることを重視しており、公開情報では主要ベンチマークへの影響を小さく抑えた検証結果も示されています。
-
OEM提供・既存AI基盤への組み込みにも対応
Hirundoは単体ソリューションとしての利用に加え、LLM/SLMやAIアプリケーションへ組み込むアンラーニング基盤としての活用も想定されています。自社開発モデル、国産LLM/SLM、AIサービスの品質・安全性強化を図りたい事業者にも適した選択肢です。
活用シーン
高信頼領域における生成AIの安全性向上
医療、法務、金融など、誤回答や情報漏えいが大きな影響につながる領域では、生成AIの精度と安全性の両立が不可欠です。Hirundoは、モデル内部に残るハルシネーション、PII、バイアス、ジェイルブレイクに対する脆弱性を評価・低減し、高信頼業務での生成AI活用を支援します。
導入前のリスク評価とリリース前の改善
新しいAIサービスのリリース前に、レッドチーム評価や外部検証でリスクが見つかった場合でも、再学習に頼らず改善を進められる選択肢を提供します。リリース直前の品質向上や、公開判断に必要なリスク可視化に有効です。
本番環境で発見された問題への迅速な対応
運用開始後に新たな脆弱性や望ましくない挙動が見つかった場合、Hirundoはモデルの問題箇所を評価し、対象を絞った修正を検討できます。サービス停止や長期の再学習を避けながら、継続的な改善を図りたい場面に適しています。
経営判断支援AI・顧客対応AIの品質向上
取締役会や経営会議向けの分析支援AI、社内外の問い合わせ対応AIでは、もっともらしい誤回答や偏った回答を抑え、安定した応答品質を確保することが重要です。Hirundoは、モデルの弱点評価、不要な挙動の低減、導入後の保護を通じて、より安全なAI運用を支援します。
国産LLM/SLM・AIアプリケーションへの組み込み
品質や安全性が厳しく求められる環境では、外側のガードレールだけでなく、モデル内部に残るリスクへの対策が重要です。Hirundoは、AI基盤やアプリケーションに組み込むアンラーニング基盤として、国内AIエコシステムの信頼性向上にも貢献します。
製造業・研究開発などゼロトレランス環境での活用
品質管理、設計支援、研究開発など、誤回答や情報漏えいが許容されにくい現場では、AIの出力品質を継続的に検証・改善する体制が必要です。Hirundoは、モデル内部のリスク低減と評価結果の可視化により、ミスが許されない業務での生成AI活用を後押しします。