偏好设置
1. 授权文件夹
为了减少噪音干扰,尽量只呈现携带“用户可感知知识”的文件,KF管理文件夹的设计采用白名单和黑名单结合的方式。
黑白名单
-
白名单条目是需要被扫描和监控的文件夹,默认的白名单是macOS操作系统常见文件夹:桌面、文档、下载、图片、音乐、视频这六个。也可以新建白名单条目,指定磁盘上任意文件夹。
-
黑名单是在白名单文件夹下需要被排除掉的文件夹,也就是你不想让KF扫描和关注的文件夹,这样它下面的文件和内容就不会被发现和处理,KF后续的功能中也不会有任何体现。
运行机制
-
启动时全面扫描白名单每一个文件夹,结合扩展名过滤、排除文件夹、bundle过滤、黑名单子文件夹四类规则,最终将符合条件的文件保存到“粗筛文件结果数据表”中,供进一步利用。
-
监控文件夹变动,每当文件夹下有文件变动时(新增、修改、删除),结合扩展名过滤、排除文件夹、bundle过滤、黑名单四类规则进行判定,适当将变动同步到上述数据表中,供进一步利用。
2. 文件扫描规则
a) 文件扩展名
哪些扩展名是携带知识的,需要能被搜索发现和显式利用的。
b) 文件分类
用来帮助管理文件扩展名。
c) 过滤规则
过滤“无用”文件夹名字,如开源项目的.git文件夹,前端项目的node_modules运行库文件夹,这些文件夹内没有用户知识文件。
d) bundle类文件
macOS有一类特殊文件,看起来是文件其实是文件夹,应该将其看待为一个整体——其内部的文件不需要扫描、其内文件变化不应该关注,只关注“外壳”的元数据变化即可。
3. 配置模型参数
a) 关联场景
需要配置每种能力由哪个模型来提供。
- 文件自动打标签依赖模型的结构化数据输出能力。
- 多模态向量化依赖视觉和向量化能力。
- 多模态检索依赖文本和视觉能力。
b) 提供商参数
配置本机第三方软件或在线的商业模型API的连接参数。 注意在中国境内使用某些提供商需要开启“使用代理转发请求”选项,并保证代理服务器本身运行正常。
c) 拉取模型列表
从提供商API拉取当前可提供服务的模型列表,包括能力、上下文窗口等预置参数。
d) 测试模型能力
测试确认上述模型是否有文本问答能力、结构化数据输出能力、视觉能力、向量化能力。 测试成功后模型名字才会出现在“关联场景”的候选条目中。