AIがAIを探しに行く — Factory Radarという仕組み • Nainaism

新しいツールを見つけては「これ使えるかも」と思って、結局導入まで辿り着かない。そんな経験、ありませんか。

ツール選びって、実は結構なエネルギーが必要です。何がいいのか調べて、試して、他のツールと比較して、環境に組み込んで...。開発者ならなおさら、時間は有限です。

じゃあ、AIに探させたらどうなるか。

これが「Factory Radar」の始まりです。

Factory Radarは、NotionやDiscordを使って日々のタスクを回しているAIエージェントチーム「ai-factory」が導入しているツール発見・評価システムです。週に一度、外部の情報源をスキャンして、面白そうなプロジェクトを勝手に見つけにいきます。

ここでポイントなのが、探し方の姿勢です。「今のチームに足りないものを穴埋めする」のではなく、「次の形を提示してくれるもの」を探します。

例えるなら、スーパーの買い物リスト通りに品物を探しに行くのではなく、新しい料理のインスピレーションを探しに行くような感覚です。目的がはっきりしているわけじゃないけれど、出会った瞬間に「あ、これだ」とわかるものを探す。

6つのフェーズを渡り歩く#

見つけたプロジェクトは、6つのフェーズを順に進んでいきます。

Discovery → Watch → Evaluate → Test → Production → Archived
   ↓            ↓          ↓         ↓          ↓          ↓
  収集した    目についた   評価完了    試している   日常で使う   役目終了

text

Discovery — 情報源から収集されたばかりの生データ。この時点ではまだ誰も見ていません。

Watch — 一覧に出てきて「お、これ面白そう」という状態。ここからスコアリングが始まります。

Evaluate — 評価が終わって、導入の可否を判断する段階。ここからは人間の判断が入ります。

Test — 実際に環境に入れて試すフェーズ。ここには大事なルールがあります（後述）。

Production — 本番環境に昇格。チームの日常業務の一部になります。

Archived — 退役。役目を終えたツールはここから外れます。

WatchからEvaluateに進むには、総合スコア5.0以上、革新性4.0以上、補完性が0でないこと、という条件があります。つまり「新しい工夫があって、今のチームとも関係があるもの」だけが次に進めるわけです。

4つの軸で採点する — 革新性に重み3#

スコアリングには4つの軸があります。

軸	重み	何を見るか	評価のイメージ
補完性	×1	今のチームに足りないものを埋めてくれるか	「今足りてる？」「被ってない？」
革新性	×3	既存のやり方を根本から変える可能性があるか	「今まで見たことない？」」「パラダイムシフト級？」
適合性	×1	技術スタックや運用スタイルに合うか	「今の環境に入る？」「学習コスト高くない？」
ワクワク度	×2	使ってみたいという興奮を感じるか	「触ってみて楽しそう？」

計算式はこうなっています。

総合スコア = (補完性×1 + 革新性×3 + 適合性×1 + ワクワク度×2) ÷ 7

革新性の重みが3と一番高いのが特徴です。「便利かどうか」よりも「新しいかどうか」を優先する設計。安全な選択肢よりも、ちょっと背伸びするような選択肢を好みます。

「ワクワク度」という軸があるのも面白いところです。定量的に測れないけれど、「使ってみたい」という直感的な興味は、実際の導入モチベーションに直結します。数値化できない感覚をあえてスコアに含めることで、冷たい評価だけでは拾えないツールを見逃さないようにしています。

「アンインストールで消える」— Testフェーズの考え方#

面白そうだからといって、すぐに本番環境に入れるのは怖いですよね。

Factory Radarには「Test」というフェーズがあります。新しいツールを実際に環境に入れて使ってみる期間です。ただし、ここには明確なルールがあります。

環境内へのインストールはOK
人間が自由に触って試すのはOK
でも、cronの追加、スキルの変更、設定ファイルの書き換え、DBへの書き込みは禁止

何より大事なのが、「削除＝アンインストールだけで消える」という条件です。Testフェーズのツールは、環境に根を張らない。アンインストールコマンド一発で痕跡が消える状態を担保します。

Testを始めるときは、3つを決めます。

検証仮説 — 「このツールを導入すると〇〇が〇〇になる」という予想
測定指標 — 定量指標、定性指標、そして「逆指標」（悪影響がないかの確認）
削除手順 — アンインストールの具体的な方法

1ヶ月後に「効能レポート」を作って、Productionに昇格するか、テストを延長するか、それとも消すかを決めます。

3ヶ月に一度の健康診断#

Productionに入ったツールも、ずっと放置ではありません。3ヶ月に一度、全体を見直す仕組みがあります。

GitHubのアクティビティを確認（メンテナンスされてる？）
代替候補がないかチェック（RadarのWatchリストと照合）
cronやスキルが実際に使われているか確認
利用頻度を分析

「このツール、入れてから一度も使ってないな」というのに気づくための仕組みです。ツールの数が増えるほど管理が大変になるので、定期的に整理するのが大事です。

AIが自分で自分をアップデートしていく#

Factory Radarの面白さは、AIが自分で使うツールを自分で探しに行くという点に尽きます。

人間が「こういうツールを探して」と指示するわけでも、ただ勝手にインストールするわけでもありません。見つけて、評価して、人間に提案して、許可があれば試して、結果を報告して。その一連の流れを週単位で回しています。

評価のたびに、「こういうツールは結局使わなかった」という教訓を長期記憶に蓄積して、次回の評価精度を上げていく設計にもなっています。つまり、使うほどに賢くなる。

実はNotionとAIがあれば始められる#

Factory Radarの仕組みを聞いて、「自分のチームでもやりたい」と思ったかもしれません。

実は、必要なものは2つだけです。Notion（ツールの管理DB）と、AIエージェント（週1回のスキャンと評価）。あとは「どんなツールを探すか」「どんな基準で評価するか」を決めるだけです。

最初から6フェーズ全部を用意しなくても、「週に一度AIに新しいツールを探させて、Notionにメモする」ところから始められます。スコアリングも、まずは「面白そうかどうか」の1軸で十分です。

大事なのは、ツール選びの判断基準を言語化して、AIに任せられる形にすること。基準さえ決まれば、あとはAIが勝手に回してくれます。