常见问题
关于 Sirchmunk 的常见问题。
这和传统 RAG 系统有什么不同?
Sirchmunk 采用无索引方法:
- 无需预索引:无需设置向量数据库,直接文件搜索
- 自进化:知识簇基于搜索模式不断演进
- 多级检索:自适应关键词粒度以获得更好的召回率
- 基于证据:蒙特卡洛采样实现精确内容提取
支持哪些 LLM 供应商?
任何 OpenAI 兼容的 API 端点,包括:
- OpenAI(GPT-4、GPT-4o、GPT-3.5)
- 通过 Ollama、llama.cpp、vLLM、SGLang 提供的本地模型
- Claude 通过 API 代理
- 其他任何 OpenAI 兼容供应商
如何添加搜索文档?
只需在搜索查询中指定路径 — 无需预处理或索引:
result = await searcher.search(
query="Your question",
paths=["/path/to/folder", "/path/to/file.pdf"]
)
知识簇存储在哪里?
知识簇以 Parquet 格式持久化在:
{SIRCHMUNK_WORK_PATH}/.cache/knowledge/knowledge_clusters.parquet
您可以使用 DuckDB 或 KnowledgeManager API 查询它们。
如何监控 LLM Token 使用量?
三种方式:
- Web 仪表盘:访问监控页面查看实时统计
- API:
GET /api/v1/monitor/llm返回使用指标 - 代码:搜索完成后访问
searcher.llm_usages
FILENAME_ONLY 模式需要 LLM 吗?
不需要。FILENAME_ONLY 模式执行快速文件名搜索,不进行任何 LLM 调用。只有 DEEP 模式需要配置 LLM API 密钥。
支持哪些文件格式?
Sirchmunk 利用 ripgrep-all 搜索 100 多种文件格式,包括:
- 源代码(Python、JavaScript、Java、Go、Rust 等)
- 文档(PDF、DOCX、XLSX、PPTX)
- 压缩包(ZIP、TAR、GZ)
- 数据文件(JSON、YAML、CSV、XML)
- 纯文本(TXT、MD、RST)
- 以及更多
知识系统如何进化?
知识簇遵循自然生命周期:
- 创建 — 新证据生成新的知识簇
- 复用 — 相似查询匹配并增强现有知识簇
- 成熟 — 经过多次查询验证,知识簇从"萌芽"过渡到"稳定"
- 弃用 — 当底层数据变化且证据不再支持时,知识簇可能过渡到"有争议"或"已弃用"