コンテンツにスキップ

Daily Digest - 2026-06-21

  • Cloudflareが自動脆弱性探索ハーネスの作り方を公開し、エージェント分業と対抗レビューでセキュリティ監査を自動化する流れが具体化した。
  • MosaicLeaksとHugging Faceの評価は、deep researchエージェントの情報漏えいや「自前ツールでまともに動くか」という運用上の弱点に焦点を当てている。
  • Hermes Agent、Vercel Connect、GitHubの更新は、いずれもエージェントを実運用するためのチャネル・認証・課金の足場を整える動きだ。

Cloudflareが自動脆弱性探索ハーネスの作り方を公開

Section titled “Cloudflareが自動脆弱性探索ハーネスの作り方を公開”

Cloudflareが、社内で使う自動脆弱性探索ハーネスの作り方を公開した。モデルを入れ替え可能な部品として扱う多段構成で、探索側のVulnerability Discovery Harnessが偵察・攻撃クラス別の探索・検証を回し、別モデルのVulnerability Validation Systemが重複排除や本番文脈での判定、パッチ生成までを独立に担う。誤検知対策として、自分では検出を起票できず「Hunterの仮説をひたすら反証する」対抗レビュー役を置き、各エージェントのコンテキスト使用を全体の25%未満に抑えて、状態をrun IDごとにSQLiteへ書き出す。145リポジトリの13,841件の指摘から重複と文脈で除外し、7,245件を実対応対象に絞り込んだとしており、security-audit-skillとしてGitHubで公開した。

Source: https://blog.cloudflare.com/build-your-own-vulnerability-harness/
Source: https://github.com/cloudflare/security-audit-skill

ServiceNowとHugging Faceがdeep researchエージェントの情報漏えいを測るMosaicLeaksを公開

Section titled “ServiceNowとHugging Faceがdeep researchエージェントの情報漏えいを測るMosaicLeaksを公開”

ServiceNowとHugging Faceが、deep researchエージェントの情報漏えいを測るベンチマークMosaicLeaksを公開した。ローカルの非公開文書とWeb検索などの外部ツールを組み合わせるエージェントでは、外部への問い合わせから機微な情報が漏れるおそれがある。MosaicLeaksは公開情報と非公開情報をまたぐマルチホップの問いを使い、問い合わせ履歴の断片を組み合わせると非公開情報が復元できてしまう「mosaic effect」を評価する。検証したモデルは頻繁に非公開情報を漏らし、タスク性能だけを目標に学習させると悪化したという。漏えいを意識した強化学習手法PA-DRでは、厳密な連鎖の成功率を48.7%から58.7%へ上げつつ、情報漏えいを34.0%から9.9%へ下げたとしている。

Source: https://huggingface.co/blog/ServiceNow/mosaicleaks

Hugging Faceが自前ツールでエージェントを測る「Is it agentic enough?」を公開

Section titled “Hugging Faceが自前ツールでエージェントを測る「Is it agentic enough?」を公開”

Hugging Faceが、自前のツールでエージェントがまともに動くかを測る評価記事「Is it agentic enough?」を公開した。MMLUのような一般ベンチで高得点でも、実際のタスクではループしたり、ツールを誤用したり、うまく終了できないエージェントになりうるという問題意識から、正解できたかだけでなく、そこへ至る過程や手数、モデルやライブラリ改訂による違いまで見る。transformersライブラリを題材に、オープンモデルをpiコーディングエージェントで動かす簡潔な実装を示し、Hugging Face Jobs上で同一ハードウェアに評価を並列展開している。

Source: https://huggingface.co/blog/is-it-agentic-enough

NousResearchがHermes Agent v0.17.0を公開

Section titled “NousResearchがHermes Agent v0.17.0を公開”

NousResearchがHermes Agent v0.17.0を公開した。チャネルがiMessage(Photon経由でMac中継が不要)と公式のWhatsApp Business Cloud APIに広がり、delegate_task(background=true)でsubagentをバックグラウンド実行し、ハンドルをすぐ返せるようになった。image_generateは既存の画像と指示を渡して編集するimage-to-imageに対応し、memoryツールは追加・置換・削除をまとめて原子的に適用する。xAI Grokのサブスク契約者はOAuthからCursorのComposerモデル(grok-composer-2.5-fast)を直接呼べる。デスクトップとダッシュボードも強化された。

Source: https://github.com/NousResearch/hermes-agent/releases/tag/v2026.6.19

Vercel Connectがagent向けに外部サービスへの安全なアクセスを提供

Section titled “Vercel Connectがagent向けに外部サービスへの安全なアクセスを提供”

VercelがVercel Connectをパブリックベータで公開した。アプリやエージェントが長期間有効な秘密情報を保存せずに、Slack、GitHub、Salesforceなどの外部サービスへアクセスするための仕組みだ。connectorを一度登録しておけば、コードは必要なときだけ作用範囲を絞った短命トークンを実行時に取得でき、取得と更新はSDKが自動で行う。トークンは「GitHubの特定リポジトリに読み取りのみ」のように細かく絞れ、開発・プレビュー・本番の環境ごとに分離して、コマンド一つで失効できる。料金はトークンリクエスト1万回あたり3ドルで、Hobbyは月5,000回まで無料だ。

Source: https://vercel.com/changelog/vercel-connect-secure-access-to-external-services-for-your-agents

GitHubがCopilot Maxに200ドル分のクレジットを付与

Section titled “GitHubがCopilot Maxに200ドル分のクレジットを付与”

GitHubが、Copilot Maxのユーザーアカウントに追加で200ドル分のクレジットを付与したと公式Xで告知し、ProとPro+向けの優遇も予告した。あわせてchangelogでは、ユーザーごとに消費したAIクレジットをCopilot usage metrics APIから取得できるようになったと案内している。6月から始まった従量課金に合わせ、利用状況の可視化と組織単位での管理がしやすくなる更新だ。

Source: https://x.com/github/status/2068429622539342276
Source: https://github.blog/changelog/