一 出图工具配置
官网文档中案例使用的是 Stablility 工具。
但是免费的额度,我出了几张图就没有了。
所以这里也可以换成豆包的出图工具。
这两个工具,只配置一个就可以了。
1.1 配置 Stablility 工具
如何获取和填入 Stablility API 密钥?
1.1.1 获取 Stablility API 密钥
点击这里,即可跳转至 Stability 的 API 密钥管理页。
如果你尚未注册,会被要求先注册再进入管理页。
进入管理页后,点击复制密钥即可。
1.1.2 在Dify中设置 Stability 工具
接下来,你需要通过以下步骤把密钥填入 Dify – 工具 – Stability 中:
- 登录 Dify
- 进入工具
- 选择 Stability
- 点击授权
- 填入密钥并保存
1.2 或者 Doubao Image and Video Generator 工具
1.2.1 开通火山方舟服务
点击这里,登陆火山引擎方舟概览页。
左侧导航栏,点击开通管理,需要开通火山方舟的服务。这里根据需要进行开通即可。因为要生成图片,就选择视觉大模型。
否则后面生图的时候,会说服务未开通。
1.2.1 获取火山方舟 API 密钥
然后点击左侧导航栏的 API-Key管理,创建API Key,然后复制。
1.2.2 在Dify中设置 Doubao 工具
回到Dify中,在工具中,找到豆包出图工具,Doubao Image and Video Generator。
如果这里没有,可以去Dify市场里搜索。
搜索图像
点击安装
然后点击这个工具,右侧信息栏里,点击授权
其实就是需要填写API Key,我们把刚刚创建的火山方舟
二 配置模型供应商
为了优化交互,我们需要LLM来将用户的指令具体化,也就是让LLM来撰写生成图片的提示词(Prompt)。接下来,我们按照如下的步骤在 Dify 配置模型供应商。
Free 版本的 Dify 提供了免费 200 条 OpenAI 的消息额度。
如果消息额度不够用,你可以参考下图步骤, 自定义其它模型供应商:
点击右上角头像后,选择设置
选择模型供应商:
2.1 获取 groqcloud API 密钥
如果尚未找到合适的模型供应商,groq 平台提供了 Llama 等 LLM 的免费调用额度。
登录 groq API 管理页
点击 Create API Key,设置一个想要的名称并且复制 API Key。
2.2 在Dify中设置groqcloud模型供应商
回到Dify – 模型供应商,选择groqcloud,先安装。
然后去设置 API-KEY
把刚刚创建的key,粘贴进去就行了。
到此,准备工作做完,接下来,我们创建智能体。
这里多说一句,如果这个大模型的免费额度用光了,其实也可以配置其他的大模型,方式是一样的。
三 构建 Agent
回到Dify – 工作室,选择创建空白应用。
在这个案例中, 我们只需要了解 Agent 的基础用法,以及如何在Dify中搭建Agent。
什么是 Agent Agent 是一种模拟人类行为和能力的 AI 系统,它通过自然语言处理与环境交互,能够理解输入信息并生成相应的输出。Agent 还具有 “感知” 能力,可以处理和分析各种形式的数据。此外,Agent 能够调用和使用各种外部工具和 API 来完成任务,扩展其功能范围。这种设计使 Agent 能够更灵活地应对复杂情况,在一定程度上模拟人类的思考和行为模式。 因此,很多人都会将 Agent 称为“智能体”。
3.1 新建Agent
点开新手适用,应用类型选择Agent。
然后填写应用名称,还可以设置图标,然后点击创建。
接下来你会进入到如下图的 Agent 编排界面
3.2 设置模型
首先模型选择:我们选择 LLM,本篇教程中我们使用 groq 提供的 Llama-3.1-70B 为例:
3.3 添加 Stability 绘图工具
在工具中添加 AI 绘图工具 Stability:
或者添加豆包出图工具。(这两个工具,只添加一个即可,不需要都添加)
这里我只添加了文生图工具。
3.4 编写提示词
撰写提示词
提示词(Prompt)是 Agent 的灵魂,直接影响到输出的效果。通常来说越具体的提示词输出的效果越好,但是过冗长的提示词也会导致一些负面效果。
调整提示词的工程,我们称之为提示词工程(Prompt Engineering)
在本次实验中,你不必担心没有掌握提示词工程,我们会在后面循序渐进地学习它。
让我们从最简单的提示词开始:
写清楚调用工具的名称,stability_text2image或者是text2image。
根据用户的提示,使用工具 stability_text2image 绘画指定内容
鼠标悬浮工具上,会有复制名称按钮。
用户每次输入命令的时候,Agent 都会知晓这样的系统级的指令,从而了解要执行用户绘画的任务的时候需要调用一个叫 text2image 的工具 。
3.5 测试
例如:画一个女孩,怀里抱着小猫。
这里大模型免费的资源用完了,所以我换了chatGPT的模型。
换豆包的出图工具试试:
发现换了国内的出图工具,出图的人物是东方面孔了。
3.6 发布
点击右上角的发布按钮,发布后选择运行就可以获得一个在线运行的 Agent 的网页。
