常见问题

常见问题

关于 Sirchmunk 的常见问题。

这和传统 RAG 系统有什么不同?

Sirchmunk 采用无索引方法

  1. 无需预索引:无需设置向量数据库,直接文件搜索
  2. 自进化:知识簇基于搜索模式不断演进
  3. 多级检索:自适应关键词粒度以获得更好的召回率
  4. 基于证据:蒙特卡洛采样实现精确内容提取

支持哪些 LLM 供应商?

任何 OpenAI 兼容的 API 端点,包括:

  • OpenAI(GPT-4、GPT-4o、GPT-3.5)
  • 通过 Ollama、llama.cpp、vLLM、SGLang 提供的本地模型
  • Claude 通过 API 代理
  • 其他任何 OpenAI 兼容供应商

如何添加搜索文档?

只需在搜索查询中指定路径 — 无需预处理或索引:

result = await searcher.search(
    query="Your question",
    paths=["/path/to/folder", "/path/to/file.pdf"]
)

知识簇存储在哪里?

知识簇以 Parquet 格式持久化在:

{SIRCHMUNK_WORK_PATH}/.cache/knowledge/knowledge_clusters.parquet

您可以使用 DuckDB 或 KnowledgeManager API 查询它们。

如何监控 LLM Token 使用量?

三种方式:

  1. Web 仪表盘:访问监控页面查看实时统计
  2. APIGET /api/v1/monitor/llm 返回使用指标
  3. 代码:搜索完成后访问 searcher.llm_usages

FILENAME_ONLY 模式需要 LLM 吗?

不需要。FILENAME_ONLY 模式执行快速文件名搜索,不进行任何 LLM 调用。只有 DEEP 模式需要配置 LLM API 密钥。

支持哪些文件格式?

Sirchmunk 利用 ripgrep-all 搜索 100 多种文件格式,包括:

  • 源代码(Python、JavaScript、Java、Go、Rust 等)
  • 文档(PDF、DOCX、XLSX、PPTX)
  • 压缩包(ZIP、TAR、GZ)
  • 数据文件(JSON、YAML、CSV、XML)
  • 纯文本(TXT、MD、RST)
  • 以及更多

知识系统如何进化?

知识簇遵循自然生命周期:

  1. 创建 — 新证据生成新的知识簇
  2. 复用 — 相似查询匹配并增强现有知识簇
  3. 成熟 — 经过多次查询验证,知识簇从"萌芽"过渡到"稳定"
  4. 弃用 — 当底层数据变化且证据不再支持时,知识簇可能过渡到"有争议"或"已弃用"
docs