2026/2/17 20:33:01
网站建设
项目流程
如何建立一个网站查询数据,网络营销模式有几种,建立网站的原因,青岛网上注册公司官网本文全面解析微软开源的 GraphRAG 项目#xff0c;从它是什么、怎么用、如何优化运行性能、生成哪些关键文件#xff0c;到如何集成到你自己的业务中。内容深入但通俗#xff0c;适合开发者、数据分析师、AI工程师学习参考。一、什么是 GraphRAG#xff1f;它解决了什么问题…本文全面解析微软开源的 GraphRAG 项目从它是什么、怎么用、如何优化运行性能、生成哪些关键文件到如何集成到你自己的业务中。内容深入但通俗适合开发者、数据分析师、AI工程师学习参考。一、什么是 GraphRAG它解决了什么问题GraphRAGGraph Retrieval-Augmented Generation是微软研究团队发布的开源项目它是一种“图增强的检索生成系统”。与传统的RAG不同GraphRAG不仅仅是“检索生成”它引入了图结构使得RAG具备以下关键能力能力描述结构化理解构建文档内的实体-关系图谱全局洞察对文档中的知识点进行社区聚类和语义总结精确查询提供局部语义搜索与全局知识总结两种方式可解释性强每个结论都可以回溯原始实体、文本、社区使用GraphRAG的典型场景长文档问答文档QA如法律文书、政策文件、财报等结构化摘要生成需要从海量文本中提炼结构化知识知识图谱构建不手写规则、纯靠LLM自动提取关系企业数据洞察对公司资料、项目报告进行结构建模和分析 GraphRAG vs 传统 RAG vs Embedding Search特性传统Embedding Search普通RAGGraphRAG基于向量检索✅✅✅上下文生成❌✅✅知识关系建模❌❌✅社区聚类分析❌❌✅全局结构回答❌❌✅可解释性中低高简言之GraphRAG是对RAG的能力升级不仅可问还能解释“知识是如何构成的”。二、如何跑通 GraphRAG从0到1完整流程1. 安装环境推荐使用虚拟环境pip install graphrag 不再需要 Poetry、源码克隆等繁琐步骤。GraphRAG 已正式发布到 PyPI。2. 初始化项目目录使用官方命令快速初始化graphrag init --root ./ragtest 这一步会生成标准的目录结构 ragtest/ ├── settings.yaml # 主配置文件 ├── prompts/ # 提示词模板 ├── . env # 存放API密钥需手动填入 └── input/ # ❗需要手动创建用来放你要分析的文档3. 配置 API 密钥编辑.env文件填入你的 API Key。例如使用硅基流动 APIGRAPHRAG_API_KEY sk-your-siliconflow-api-key 同时在settings.yaml中设置 API 提供方models: default_chat_model: type: openai_chat api_base: https://api.siliconflow.cn/v1 api_key: ${GRAPHRAG_API_KEY} model: deepseek-ai/DeepSeek-V3 encoding_model: cl100k_base concurrent_requests: 3 requests_per_minute: 30 default_embedding_model: type: openai_embedding api_base: https://api.siliconflow.cn/v1 api_key: ${GRAPHRAG_API_KEY} model: BAAI/bge-large-zh-v1.5 encoding_model: cl100k_base concurrent_requests: 3 requests_per_minute: 304. 添加文档到 input 目录将你需要处理的文档放入ragtest/input/目录中ragtest/ ├── settings.yaml # 配置文件 ├── prompts/ # 提示词模板 ├── input/ # 数据输入目录需手动创建 ├── .env # 存储API密钥 └── output/ # 自动生成的索引结果 支持.txt,.pdf,.docx等多种格式。5. 运行索引构建命令cd ragtest graphrag index --root . 该命令会自动完成以下过程文本分块实体识别与关系提取调用大模型构建实体-关系图谱社区检测Leiden算法生成社区摘要调用大模型嵌入计算 向量索引构建这个过程会花费很长时间6. 运行查询命令# 全局查询问结构化主题 graphrag query --root . --method global 公司的核心项目是什么 # 局部查询问细节语义 graphrag query --root . --method local 张三的职责是什么 需要在包含 settings.yaml 配置文件的目录中运行也就是 ragtest 目录。 cd ragtest # 切换到包含settings.yaml的目录 示例 graphrag query --root . --method global --query 张飞是谁的兄弟 Missing reports for communities: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155, 156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168, 169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 180, 181, 182, 183, 184, 185, 186, 187, 188, 189, 190, 191, 192, 193, 194, 195, 196, 197, 198, 199, 200, 201, 202, 203, 204, 205, 206, 207, 208, 209, 210, 211, 212, 213, 214, 215, 216, 217, 218, 219, 220, 221, 222, 223, 224, 225, 226, 227, 228, 229, 230, 231, 232, 233, 234, 235, 236, 237, 238, 239, 240, 241, 242, 243, 244, 245, 246, 247, 248, 249, 250, 251, 252, 253, 254, 255, 256, 257, 258, 259, 260, 261, 262, 263, 264, 265, 266, 267, 268, 269, 270, 271, 272, 273, 274, 275, 276, 277, 278, 279, 280, 281, 282, 283, 284, 285, 286, 287, 288, 289, 290, 291, 292, 293, 294, 295, 296, 297, 298, 299, 300, 301, 302, 303, 304, 305, 306, 307, 308, 309, 310, 311, 312, 313, 314, 315, 316, 317, 318, 319, 320, 321, 322, 323, 324, 325, 326, 327, 328, 329, 330, 331, 332, 333, 334, 335, 336, 337, 338, 339, 340, 341, 342, 343, 344, 345, 346, 347, 348, 349, 350, 351, 352, 353, 354, 355, 356, 357, 358, 359, 360, 361, 362, 363, 364, 365, 366, 367, 368, 369, 370, 371, 372, 373, 374, 375, 376, 377, 378, 379, 380, 381, 382, 383, 384, 385, 386, 387, 388, 389, 390, 391, 392, 393, 394, 395, 396, 397, 398, 399, 400, 401, 402, 403, 404, 405, 406, 407, 408, 409, 410, 411, 412, 413, 414, 415, 416, 417, 418, 419, 420, 421, 422, 423, 424, 425, 426, 427, 428, 429, 430, 431, 432, 433, 434, 435, 436, 437, 438, 439, 440, 441, 442, 443, 444, 445, 446, 447, 448, 449, 450, 451, 452, 453, 454, 455, 456, 457, 458, 459, 460, 461, 462, 463, 464, 465, 466, 467, 468, 469, 470, 471, 472, 473, 474, 475, 476, 477, 478, 479, 480, 481, 482, 483, 484, 485, 486, 487, 488, 489, 490, 491, 492, 493, 494, 495, 496, 497, 498] SUCCESS: Global Search Response: 张飞是刘备的兄弟。在三国时期张飞与刘备、关羽并称为‘桃园三结义’三人结为异姓兄弟共同参与了三国的诸多历史事件。[Data: Reports (1, 3)]三、ragtest目录结构详解一旦运行完索引命令目录结构如下ragtest/ ├── input/ # 输入数据 │ └── three_kingdomspart.txt # 我们给定的文档比如三国演义 ├── output/ # 主要输出文件 │ ├── documents.parquet # 文档表 │ ├── text_units.parquet # 文本单元表 │ ├── entities.parquet # 实体表 │ ├── relationships.parquet # 关系表 │ ├── communities.parquet # 社区表 │ ├── community_reports.parquet # 社区报告表 │ ├── covariates.parquet # 协变量表可选 │ └── lancedb/ # 向量数据库 │ └── default/ # 存储文本嵌入向量 ├── cache/ # 缓存文件 │ ├── base_text_units.parquet # 基础文本单元缓存 │ ├── extracted_entities.parquet # 提取的实体缓存 │ ├── extracted_relationships.parquet # 提取的关系缓存 │ └── ... (其他中间缓存文件) └── logs/ # 运行日志 └── indexing-engine.log # 索引过程日志四、GraphRAG输出文件详解1️⃣documents.parquet文档表存储原始文档的元信息与全文内容每个文档一个条目记录其title、text、doc_id就是原始文档的条目2️⃣text_units.parquet文本单元表将每个文档分块chunk后的切片内容每一块对应一次LLM调用如实体提取就是切分后的每一个chunk的内容3️⃣entities.parquet实体表所有文档中提取出的人物、组织、地点、事件包含实体名称、类型、频率、描述、出现在哪些块中是知识图谱的节点4️⃣relationships.parquet关系表每对实体之间的语义关系如“张三-管理-产品部”包含描述、关系类型、权重等是知识图谱的边5️⃣communities.parquet社区表基于图谱运行社区检测算法聚出“主题组”每个社区包含一组相关的实体如某产品线团队作用是发现主题集群6️⃣community_reports.parquet社区报告表对每个社区调用LLM生成的结构化摘要包括报告标题、摘要、主要发现面向的是用户用的是自然语言Qwen模型容易失败得换个合适的模型7️⃣lancedb/向量数据库每个文本单元的向量表示用于局部语义搜索五、GraphRAG是否用到GPU用的是API还是本地推理✅ GraphRAG 默认是纯CPU API架构大模型LLM的生成任务 → 调用远程API如OpenAI、DeepSeek、硅基流动向量嵌入 → 调用API返回向量图谱构建与聚类 → 本地CPU完成无需安装本地大模型也不需要GPU。只需配置好API Key即可全流程运行。六、如何让GraphRAG跑得更快性能优化建议虽然GraphRAG不依赖GPU但它对网络和API速率非常敏感。常见导致运行慢的原因文本分块太多默认1200字符一块并发请求太高API服务限速提取的实体种类太多默认4类启用了多轮提取或大社区处理✅ 优化建议清单1. 减小文本块大小降低请求量chunks: size: 600 # 默认1200减小可以减少每次Token量 overlap: 502. 限制实体类型extract_graph: entity_types: [person, organization]3. 降低并发并限速尤其用硅基流动时models: default_chat_model: concurrent_requests: 3 requests_per_minute: 304. 启用缓存cache: type: file base_dir: cache5. 先用小文档测试逐步扩大规模进一步的性能优化清单优化点说明适用场景Chunk Size Overlap 调参• 若供应商按token/min计费/限速减小 chunk可让单次 token-load↓降低被限速概率但请求数会增多。• 若按req/min限速增大 chunk1500-2000 tokensoverlap 50→20可以显著减少调用次数。大文件 / 限速严格停用 Claim 与 Gleanings在settings.yamlclaim_extraction.enabled: falseextract_graph.max_gleanings: 0只想要实体-关系-社区时分阶段执行先跑graphrag index --root . --method embeddings只计算嵌入确认速度 OK 后再跑完整流水线。超长语料试跑本地嵌入模型用api_base: http://localhost:11434 Ollama embeddingnomic-embed可把 60-70 %的 API 调用转本地速度和成本双降。有 GPU / CPU 充裕递增批处理利用parallelization.stagger0.3-0.5让请求批次交错更平滑地利用限额。供应商支持并发高但限速文本预清洗去除页眉页脚、模板重复段可减少 10-30 % 无效 token。PDF 批量导入重用 Prompt 模板把长系统 prompt 写进prompt_template:文件并引用可显著减小每次 token。自定义 prompt 很长时七、我想接入自己项目应该怎么做GraphRAG是标准输出结构自定义配置驱动的系统你只需要✅ 调整配置文件settings.yaml实体类型适配你业务领域分块策略按文档特点调整extract_graph: entity_types: [person, department, project] prompt: prompts/extract_business.txt chunks: size: 1000 overlap: 100✅ 修改提示词模板在prompts/中编写自定义模板如请从以下文本中提取 - PERSON: 员工、客户、合作伙伴 - DEPARTMENT: 公司内部部门 - PROJECT: 项目/产品✅ 使用GraphRAG生成结构化结果并接入你系统你可以将生成的entities.parquetrelationships.parquetcommunity_reports.parquet作为你系统的知识结构、标签源、甚至问答基础。✅ 总结功能GraphRAG文档结构建模✅实体/关系抽取✅社区聚类分析✅多层次问答支持✅无需本地部署大模型✅支持企业定制✅GraphRAG 就像是一个自动化知识工厂帮你从无结构文本中提炼出有结构的图谱和洞察。只要你配置得当它可以无缝集成到你任何AI相关的业务系统中。 项目地址https://github.com/microsoft/graphrag 官方文档https://github.com/microsoft/graphrag?tabreadme-ov-file想入门 AI 大模型却找不到清晰方向备考大厂 AI 岗还在四处搜集零散资料别再浪费时间啦2025 年AI 大模型全套学习资料已整理完毕从学习路线到面试真题从工具教程到行业报告一站式覆盖你的所有需求现在全部免费分享扫码免费领取全部内容一、学习必备100本大模型电子书26 份行业报告 600 套技术PPT帮你看透 AI 趋势想了解大模型的行业动态、商业落地案例大模型电子书这份资料帮你站在 “行业高度” 学 AI1. 100本大模型方向电子书2. 26 份行业研究报告覆盖多领域实践与趋势报告包含阿里、DeepSeek 等权威机构发布的核心内容涵盖职业趋势《AI 职业趋势报告》《中国 AI 人才粮仓模型解析》商业落地《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》领域细分《AGI 在金融领域的应用报告》《AI GC 实践案例集》行业监测《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。3. 600套技术大会 PPT听行业大咖讲实战PPT 整理自 2024-2025 年热门技术大会包含百度、腾讯、字节等企业的一线实践安全方向《端侧大模型的安全建设》《大模型驱动安全升级腾讯代码安全实践》产品与创新《大模型产品如何创新与创收》《AI 时代的新范式构建 AI 产品》多模态与 Agent《Step-Video 开源模型视频生成进展》《Agentic RAG 的现在与未来》工程落地《从原型到生产AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。二、求职必看大厂 AI 岗面试 “弹药库”300 真题 107 道面经直接抱走想冲字节、腾讯、阿里、蔚来等大厂 AI 岗这份面试资料帮你提前 “押题”拒绝临场慌1. 107 道大厂面经覆盖 Prompt、RAG、大模型应用工程师等热门岗位面经整理自 2021-2025 年真实面试场景包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题每道题都附带思路解析2. 102 道 AI 大模型真题直击大模型核心考点针对大模型专属考题从概念到实践全面覆盖帮你理清底层逻辑3. 97 道 LLMs 真题聚焦大型语言模型高频问题专门拆解 LLMs 的核心痛点与解决方案比如让很多人头疼的 “复读机问题”三、路线必明 AI 大模型学习路线图1 张图理清核心内容刚接触 AI 大模型不知道该从哪学起这份「AI大模型 学习路线图」直接帮你划重点不用再盲目摸索路线图涵盖 5 大核心板块从基础到进阶层层递进一步步带你从入门到进阶从理论到实战。L1阶段:启航篇丨极速破界AI新时代L1阶段了解大模型的基础知识以及大模型在各个行业的应用和分析学习理解大模型的核心原理、关键技术以及大模型应用场景。L2阶段攻坚篇丨RAG开发实战工坊L2阶段AI大模型RAG应用开发工程主要学习RAG检索增强生成包括Naive RAG、Advanced-RAG以及RAG性能评估还有GraphRAG在内的多个RAG热门项目的分析。L3阶段跃迁篇丨Agent智能体架构设计L3阶段大模型Agent应用架构进阶实现主要学习LangChain、 LIamaIndex框架也会学习到AutoGPT、 MetaGPT等多Agent系统打造Agent智能体。L4阶段精进篇丨模型微调与私有化部署L4阶段大模型的微调和私有化部署更加深入的探讨Transformer架构学习大模型的微调技术利用DeepSpeed、Lamam Factory等工具快速进行模型微调并通过Ollama、vLLM等推理部署框架实现模型的快速部署。L5阶段专题集丨特训篇 【录播课】四、资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容2025 年想抓住 AI 大模型的风口别犹豫这份免费资料就是你的 “起跑线”