

AIがAIを探しに行く — Factory Radarという仕組み
AIエージェントチームが外部の革新的プロジェクトを自動で発見・評価・導入管理するシステム「Factory Radar」の仕組みを解説します。
新しいツールを見つけては「これ使えるかも」と思って、結局導入まで辿り着かない。そんな経験、ありませんか。
ツール選びって、実は結構なエネルギーが必要です。何がいいのか調べて、試して、他のツールと比較して、環境に組み込んで...。開発者ならなおさら、時間は有限です。
じゃあ、AIに探させたらどうなるか。
これが「Factory Radar」の始まりです。
Factory Radarは、NotionやDiscordを使って日々のタスクを回しているAIエージェントチーム「ai-factory」が導入しているツール発見・評価システムです。週に一度、外部の情報源をスキャンして、面白そうなプロジェクトを勝手に見つけにいきます。
ここでポイントなのが、探し方の姿勢です。「今のチームに足りないものを穴埋めする」のではなく、「次の形を提示してくれるもの」を探します。
例えるなら、スーパーの買い物リスト通りに品物を探しに行くのではなく、新しい料理のインスピレーションを探しに行くような感覚です。目的がはっきりしているわけじゃないけれど、出会った瞬間に「あ、これだ」とわかるものを探す。
6つのフェーズを渡り歩く#
見つけたプロジェクトは、6つのフェーズを順に進んでいきます。
Discovery → Watch → Evaluate → Test → Production → Archived
↓ ↓ ↓ ↓ ↓ ↓
収集した 目についた 評価完了 試している 日常で使う 役目終了textDiscovery — 情報源から収集されたばかりの生データ。この時点ではまだ誰も見ていません。
Watch — 一覧に出てきて「お、これ面白そう」という状態。ここからスコアリングが始まります。
Evaluate — 評価が終わって、導入の可否を判断する段階。ここからは人間の判断が入ります。
Test — 実際に環境に入れて試すフェーズ。ここには大事なルールがあります(後述)。
Production — 本番環境に昇格。チームの日常業務の一部になります。
Archived — 退役。役目を終えたツールはここから外れます。
WatchからEvaluateに進むには、総合スコア5.0以上、革新性4.0以上、補完性が0でないこと、という条件があります。つまり「新しい工夫があって、今のチームとも関係があるもの」だけが次に進めるわけです。
4つの軸で採点する — 革新性に重み3#
スコアリングには4つの軸があります。
| 軸 | 重み | 何を見るか | 評価のイメージ |
|---|---|---|---|
| 補完性 | ×1 | 今のチームに足りないものを埋めてくれるか | 「今足りてる?」「被ってない?」 |
| 革新性 | ×3 | 既存のやり方を根本から変える可能性があるか | 「今まで見たことない?」」「パラダイムシフト級?」 |
| 適合性 | ×1 | 技術スタックや運用スタイルに合うか | 「今の環境に入る?」「学習コスト高くない?」 |
| ワクワク度 | ×2 | 使ってみたいという興奮を感じるか | 「触ってみて楽しそう?」 |
計算式はこうなっています。
総合スコア = (補完性×1 + 革新性×3 + 適合性×1 + ワクワク度×2) ÷ 7
革新性の重みが3と一番高いのが特徴です。「便利かどうか」よりも「新しいかどうか」を優先する設計。安全な選択肢よりも、ちょっと背伸びするような選択肢を好みます。
「ワクワク度」という軸があるのも面白いところです。定量的に測れないけれど、「使ってみたい」という直感的な興味は、実際の導入モチベーションに直結します。数値化できない感覚をあえてスコアに含めることで、冷たい評価だけでは拾えないツールを見逃さないようにしています。
「アンインストールで消える」— Testフェーズの考え方#
面白そうだからといって、すぐに本番環境に入れるのは怖いですよね。
Factory Radarには「Test」というフェーズがあります。新しいツールを実際に環境に入れて使ってみる期間です。ただし、ここには明確なルールがあります。
- 環境内へのインストールはOK
- 人間が自由に触って試すのはOK
- でも、cronの追加、スキルの変更、設定ファイルの書き換え、DBへの書き込みは禁止
何より大事なのが、「削除=アンインストールだけで消える」という条件です。Testフェーズのツールは、環境に根を張らない。アンインストールコマンド一発で痕跡が消える状態を担保します。
Testを始めるときは、3つを決めます。
- 検証仮説 — 「このツールを導入すると〇〇が〇〇になる」という予想
- 測定指標 — 定量指標、定性指標、そして「逆指標」(悪影響がないかの確認)
- 削除手順 — アンインストールの具体的な方法
1ヶ月後に「効能レポート」を作って、Productionに昇格するか、テストを延長するか、それとも消すかを決めます。
3ヶ月に一度の健康診断#
Productionに入ったツールも、ずっと放置ではありません。3ヶ月に一度、全体を見直す仕組みがあります。
- GitHubのアクティビティを確認(メンテナンスされてる?)
- 代替候補がないかチェック(RadarのWatchリストと照合)
- cronやスキルが実際に使われているか確認
- 利用頻度を分析
「このツール、入れてから一度も使ってないな」というのに気づくための仕組みです。ツールの数が増えるほど管理が大変になるので、定期的に整理するのが大事です。
AIが自分で自分をアップデートしていく#
Factory Radarの面白さは、AIが自分で使うツールを自分で探しに行くという点に尽きます。
人間が「こういうツールを探して」と指示するわけでも、ただ勝手にインストールするわけでもありません。見つけて、評価して、人間に提案して、許可があれば試して、結果を報告して。その一連の流れを週単位で回しています。
評価のたびに、「こういうツールは結局使わなかった」という教訓を長期記憶に蓄積して、次回の評価精度を上げていく設計にもなっています。つまり、使うほどに賢くなる。
実はNotionとAIがあれば始められる#
Factory Radarの仕組みを聞いて、「自分のチームでもやりたい」と思ったかもしれません。
実は、必要なものは2つだけです。Notion(ツールの管理DB)と、AIエージェント(週1回のスキャンと評価)。あとは「どんなツールを探すか」「どんな基準で評価するか」を決めるだけです。
最初から6フェーズ全部を用意しなくても、「週に一度AIに新しいツールを探させて、Notionにメモする」ところから始められます。スコアリングも、まずは「面白そうかどうか」の1軸で十分です。
大事なのは、ツール選びの判断基準を言語化して、AIに任せられる形にすること。基準さえ決まれば、あとはAIが勝手に回してくれます。
