什么是自定义 AI 代理安全性

概述

自定义 AI 代理允许您在代码中构建 AI 驱动的工作流,并将它们直接连接到内部系统、数据库和第三方服务。 组织通常通过使用 LangChain、OpenAI Agents SDK 或直接 API 调用 LLM 提供商来构建这些代理。 由于这些代理深度集成到业务工作流中,并且通常可以访问敏感数据和工具,因此它们需要运行时可见性和保护。

代理的AI安全性通过在SDK级别与Cato AI 防火墙(AI-FW)直接集成来保护自定义代理。 开发人员可以通过最少的代码更改将自定义代理连接到 AI-FW,通常通过将 LLM 基 URL 重定向到 AI-FW 代理端点,并添加认证头。 然后,AI-FW 透明地位于请求路径中,检查代理与 LLM 之间的流量,同时将请求代理到原始提供商。 这使您可以跟踪代理活动,强制实行运行时保护,而无需更改代理的核心逻辑或添加单独的安全层。

用例

跟踪自定义代理活动

一旦将自定义代理连接到 AI-FW,所有交互都会自动被跟踪,并在仪表板中可见。 每次调用,包括完整的对话历史记录、带有其参数的工具调用、工具响应以及代理的最终输出,都被记录为一个会话。 安全团队可以像对待托管代理或本地代理一样浏览、搜索和调查这些会话。

自定义代理的跟踪尤其有价值,因为这些代理通常是最难以实现可见性的。 AI-FW 集成以最少的开发人员努力提供这些工具,从而将以前不透明的系统转变为完全可观察的系统。

从 AI 攻击中保护运行时

AI-FW 为自定义代理提供主动运行时保护,使用与保护其余代理资产的相同保护措施和策略引擎。 由于 AI-FW 处于自定义代理与 LLM 提供商之间的请求路径中,它可以实时执行策略 - 在到达模型、工具或用户之前拦截或发出违规警报。

这对于自定义代理特别关键,因为它们通常是攻击的重灾区。 自定义代理如果查询外部API、从数据库读取或处理用户上传的文档,则容易受到通过这些数据源进行间接提示注入的攻击。 攻击者可以通过工具返回的内容来影响代理的行为,即使是简简单单的数据库记录中的恶意字段或文档中的恶意字符串。 AI-FW 在内容级别检查工具响应,检测到注入负载,然后在它们到达模型并影响后续工具调用或输出之前采取措施。

对于正在构建生产级自定义代理的组织,AI-FW 集成还提供针对越狱企图、敏感数据泄漏(PII,凭据)和策略违规的保护,而无需修改代理的核心逻辑。 安全团队在仪表板中集中配置策略,这些策略被透明地强制执行在所有已连接的自定义代理之中。

这篇文章有帮助吗?

0 人中有 0 人觉得有帮助

0 条评论