旅游网站开发目的6做企业网站需要自己有公司吗
2026/2/11 12:38:27 网站建设 项目流程
旅游网站开发目的6,做企业网站需要自己有公司吗,品牌网站设计方案,wordpress 执行了两次检索增强生成#xff08;Retrieval-Augmented Generation#xff0c;简称RAG#xff09;的效果在很大程度上取决于我们对数据的分块方式。若想让大语言模型#xff08;LLM#xff09;检索到真正有意义的上下文#xff0c;就必须精心设计数据分块策略。 以下是15种核心的分…检索增强生成Retrieval-Augmented Generation简称RAG的效果在很大程度上取决于我们对数据的分块方式。若想让大语言模型LLM检索到真正有意义的上下文就必须精心设计数据分块策略。以下是15种核心的分块策略每种策略均配有详细解析、真实案例和可落地的分块方案。逐行分块法Line-by-Line Chunking原理以每一行作为分块边界每行独立成为一个分块适用场景聊天记录、文字转录稿等每行代表一个完整想法的数据典型用途客服聊天记录、访谈问答、即时通讯内容示例输入Alice: Hey Bob, are you free for a call at 3 PM today?Bob: Sure, Alice. Do you want to discuss the project updates?Alice: Yes, and we need to talk about the client meeting.Bob: Sounds good! See you at 3.分块输出分块1: Alice: Hey Bob, are you free for a call at 3 PM today?分块2: Bob: Sure, Alice. Do you want to discuss the project updates?分块3: Alice: Yes, and we need to talk about the client meeting.分块4: Bob: Sounds good! See you at 3.优势与注意事项每条信息都是独立的上下文逻辑清晰。支持精细化检索——LLM可精准获取对应的问答对。提升若单行内容过短LLM可能因上下文不足而产生幻觉输出虚假信息。定长分块法Fixed-Size Chunking原理将文本按固定的字数或字符数拆分不考虑内容的语义逻辑。适用场景结构混乱的非结构化文本。典型用途OCR识别结果、网页爬取的原始文本、老旧扫描文档。示例输入Python is a high-level, interpreted programming language. Its simple syntax and dynamic typing make it popular for rapid application development and scripting. Python supports multiple programming paradigms, including structured, object-oriented, and functional programming. It is widely used for web development, data analysis, AI, scientific computing, and more.假设固定大小 20个单词/字分块输出分块1: Python is a high-level, interpreted programming language. Its simple syntax and dynamic typing make it popular for rapid application development分块2: and scripting. Python supports multiple programming paradigms, including structured, object-oriented, and functional programming. It is widely used分块3: for web development, data analysis, AI, scientific computing, and more.优势与注意事项确保分块大小统一便于批量处理。可能割裂完整句子或语义单元影响LLM对内容的理解。提示仅适用于无结构文本且需根据LLM的token限制调整分块大小。滑动窗口分块法Sliding Window Chunking原理通过设定固定字数/token重叠区域来拆分文本以保留上下文连贯性。适用场景语义逻辑跨文本边界的内容如长句、连续论述。典型用途叙事类文本、法律文件、技术文档。示例输入Machine learning models require large datasets for training. The quality and quantity of data significantly affect model performance. Data preprocessing involves cleaning and transforming raw data into usable input.Machine learning models require large datasets for training. The quality and quantity of data significantly affect model performance. Data preprocessing involves cleaning and transforming raw data into usable input.假设窗口大小 15词重叠 5词分块输出分块1: Machine learning models require large datasets for training. The quality and quantity of data分块2: quantity of data significantly affect model performance. Data preprocessing involves cleaning and transforming分块3: transforming raw data into usable input.优势与注意事项保持内容连贯性避免检索时丢失边界处的上下文信息。分块间存在重叠会产生一定冗余增加存储成本但为保留上下文值得投入。句子分块法Sentence-Based Chunking原理以句子为单位拆分每个句子独立成为一个分块。适用场景格式规范、结构清晰的书面文本。典型用途文章、技术文档、教科书。示例输入Deep learning has transformed many fields of technology. Neural networks can now outperform humans in image recognition. Training these models requires substantial computational resources.分块输出分块1: Deep learning has transformed many fields of technology.分块2: Neural networks can now outperform humans in image recognition.分块3: Training these models requires substantial computational resources.优势与注意事项每个分块聚焦一个核心观点语义明确。便于LLM重新组合上下文信息。风险部分句子可能过短或上下文不足此时可将2-3个句子合并为一个分块。段落分块法Paragraph Chunking原理以段落为单位拆分每个段落独立成为一个分块。适用场景格式规范的文档、博客文章、散文。每个段落围绕单一主题或观点展开的文本。示例输入Data science combines domain expertise, programming skills, and knowledge of mathematics and statistics to extract meaningful insights from data.Its an interdisciplinary field that uses techniques from computer science, statistics, machine learning, and data visualization to solve complex problems.Data scientists work with large datasets to identify trends, make predictions, and drive strategic decisions.分块输出分块1: Data science combines domain expertise, programming skills, and knowledge of mathematics and statistics to extract meaningful insights from data.分块2: Its an interdisciplinary field that uses techniques from computer science, statistics, machine learning, and data visualization to solve complex problems.分块3: Data scientists work with large datasets to identify trends, make predictions, and drive strategic decisions.优势保持逻辑连贯与上下文衔接适合检索“完整思想单元”如段落级别的观点阐述页面分块法Page-Based Chunking原理以分页文档的“页”为单位拆分每一页独立成为一个分块。适用场景PDF文件、书籍、扫描文档、法律合同。需要按页码引用内容的场景。示例输入第1页第1节RAG简介检索增强生成RAG系统将大语言模型LLM与信息检索技术相结合。RAG能提升事实准确性并扩展模型的知识范围突破训练数据的限制。第2页第2节RAG架构RAG的核心组件包括检索器用于获取相关文档和生成器基于检索到的上下文合成答案。分块输出分块1第1页第1节RAG简介检索增强生成RAG系统将大语言模型LLM与信息检索技术相结合。RAG能提升事实准确性并扩展模型的知识范围突破训练数据的限制。分块2第2页第2节RAG架构RAG的核心组件包括检索器用于获取相关文档和生成器基于检索到的上下文合成答案。优势当页面结构具有重要意义时如法律证据、合同条款、教科书引用此方法必不可少。基于章节或标题的分块Section or Heading-Based Chunking原理以标题/章节为边界拆分如H1/H2层级标题或“## 章节标题”格式每个章节独立成为一个分块。适用场景具有清晰逻辑章节结构的文档。典型用途技术文档、书籍、白皮书。示例输入# 引言检索增强生成RAG允许语言模型利用外部信息提升答案质量。# RAG的工作原理RAG首先检索相关文档然后结合用户查询和上下文生成响应。# RAG的优势RAG能提升事实准确性并支持使用私有或实时更新的数据。分块输出分块1# 引言检索增强生成RAG允许语言模型利用外部信息提升答案质量。分块2# RAG的工作原理RAG首先检索相关文档然后结合用户查询和上下文生成响应。分块3# RAG的优势RAG能提升事实准确性并支持使用私有或实时更新的数据。优势分块与文本的自然主题边界完全匹配提升检索准确性。用户检索时可获取完整的主题/章节内容。基于关键词的分块Keyword-Based Chunking原理以特定关键词如“步骤”“诊断”“备注”为触发点拆分文本。适用场景表单、日志、包含重复关键词的技术说明。典型用途医疗记录、分步指南。示例输入诊断急性支气管炎。症状持续咳嗽、轻微发热、胸部不适。处方阿莫西林500毫克每日三次连续服用7天。备注建议患者休息并补充水分。关键词“备注”分块输出分块1诊断急性支气管炎。症状持续咳嗽、轻微发热、胸部不适。处方阿莫西林500毫克每日三次连续服用7天。分块2备注建议患者休息并补充水分。优势将相关信息聚合如“备注”之前的内容均为医疗核心信息。完美适配结构化记录的分块需求。基于实体的分块Entity-Based Chunking原理利用命名实体识别Named Entity Recognition简称NER技术将包含同一实体如人物、组织、产品的句子/段落归为一个分块。适用场景新闻、法律文档、产品评论需重点关注实体相关信息的场景。示例输入苹果公司在年度活动上发布了新款iPhone。库克展示了多项新功能重点包括相机升级和续航提升。与此同时三星据传将于下月推出一款竞争产品。NER识别出的实体“苹果公司”“库克”“三星”分块输出分块1苹果公司在年度活动上发布了新款iPhone。库克展示了多项新功能重点包括相机升级和续航提升。分块2与此同时三星据传将于下月推出一款竞争产品。优势支持“基于实体的检索”——例如若用户提问“苹果公司发布了什么”LLM可直接调取所有包含“苹果公司”的分块。基于Token的分块Token-Based Chunking原理按Token数量LLM的处理单元非单纯单词拆分文本。适用场景LLM上下文窗口有限的情况如上下文长度限制为1024、2048个Token。示例输入The rapid growth of generative AI has created a surge in applications for chatbots, document summarization, and data extraction. As models get larger, they require more memory and computation, but also open up new possibilities for automation across industries. Organizations are exploring hybrid systems that combine classic algorithms with large language models for improved performance and cost efficiency.假设每个分块 25个Token模拟说明约10个单词对应10个Token此处为避免拆分句子按句子边界调整分块分块输出分块1: The rapid growth of generative AI has created a surge in applications for chatbots, document summarization, and data extraction.分块2: As models get larger, they require more memory and computation, but also open up new possibilities for automation across industries.分块3: Organizations are exploring hybrid systems that combine classic algorithms with large language models for improved performance and cost efficiency.优势精准控制模型输入大小避免因Token超限导致的截断错误。适用于API驱动的应用场景多数LLM API有明确的Token限制。表格分块Table Chunking原理将每个表格单独提取为一个分块可选择按行拆分或保留完整表格。适用场景包含表格的文档如发票、财务报告、学术论文。示例输入表1季度收入| 季度 | 收入美元 ||--------|--------------|| 2024年Q1 | 100万美元 || 2024年Q2 | 120万美元 |该公司实现了稳定增长Q2季度增长尤为明显。分块输出分块1表1季度收入| 季度 | 收入美元 ||--------|--------------|| 2024年Q1 | 100万美元 || 2024年Q2 | 120万美元 |分块2该公司实现了稳定增长Q2季度增长尤为明显。优势表格可作为结构化数据单独处理便于后续解析。检索时可精准响应特定问题例如“2024年Q2的收入是多少”直接调取表格分块。递归分块Recursive Chunking原理从大粒度如段落或章节开始拆分若分块超出预设大小则进一步按更小粒度如句子、单词拆分直至所有分块符合大小要求。适用场景冗长且结构松散的文本如转录稿、访谈记录、段落长度不均的文档。示例输入访谈转录稿最开始我们主要关注用户体验。我们做了多次调研、收集反馈并快速迭代优化。后来随着产品成熟我们开始解决可扩展性和基础设施问题。这个阶段难度更大因为我们需要在扩展的同时保证系统可用性。假设分块大小上限 20个字分块步骤第一步按段落拆分段落1“最开始我们主要关注用户体验。我们做了多次调研、收集反馈并快速迭代优化。”段落2“后来随着产品成熟我们开始解决可扩展性和基础设施问题。这个阶段难度更大因为我们需要在扩展的同时保证系统可用性。”第二步段落仍超出大小限制 → 按句子拆分分块输出分块1最开始我们主要关注用户体验。分块2我们做了多次调研、收集反馈并快速迭代优化。分块3后来随着产品成熟我们开始解决可扩展性和基础设施问题。分块4这个阶段难度更大因为我们需要在扩展的同时保证系统可用性。优势确保所有分块均符合系统的大小限制避免超限问题。语义分块Semantic Chunking原理利用嵌入embedding技术或AI模型将讨论同一主题的句子/段落归为一个分块。适用场景包含多个主题的混合数据如客服工单、问答文档、常见问题FAQ。示例输入问如何重置密码答进入登录页面点击“忘记密码”即可。问如何修改邮箱地址答访问个人资料设置输入新邮箱即可。问退款政策是什么答购买后30天内可申请退款。假设语义模型识别出“账户管理”和“支付相关”两个主题。分块输出分块1问如何重置密码答进入登录页面点击“忘记密码”即可。问如何修改邮箱地址答访问个人资料设置输入新邮箱即可。分块2问退款政策是什么答购买后30天内可申请退款。优势支持“基于用户意图的检索”可获取所有相关答案。减少检索时的上下文缺失和幻觉问题。14. 层级分块Hierarchical Chunking原理多级分块先按章节拆分再按小节拆分之后按段落拆分以此类推。适用场景篇幅较长且结构完整的文本如书籍、技术文档、法律法规。示例输入第1章引言 1.1节什么是RAG 检索增强生成Retrieval-Augmented Generation简称RAG将大语言模型LLMs与外部数据源相结合以提供最新的答案。1.2节为何使用RAG RAG能扩展模型能力、提升事实准确性并支持处理私有或动态信息。分块输出分块1第1章引言分块21.1节什么是RAG 检索增强生成Retrieval-Augmented Generation简称RAG将大语言模型LLMs与外部数据源相结合以提供最新的答案。分块31.2节为何使用RAG RAG能扩展模型能力、提升事实准确性并支持处理私有或动态信息。优势可让RAG系统灵活检索不同粒度的信息既支持获取宽泛的章节级内容也能精准调取详细的小节级信息。15. 内容类型感知分块Content-Type Aware Chunking原理针对表格、列表、图片和纯文本等不同内容类型采用差异化的分块策略。适用场景包含混合内容的文档如PDF文件、研究论文、报告。示例输入摘要 本研究探讨了适用于RAG流程的分块策略。结果表明分块方法会对答案质量产生影响。表1测试结果| 分块方法 | 准确率 ||----------------|--------------------|| 基于句子Sentence-based | 85% || 滑动窗口Sliding window | 90% |图1流程示意图分块输出分块1摘要 本研究探讨了适用于RAG流程的分块策略。结果表明分块方法会对答案质量产生影响。分块2表1测试结果| 分块方法 | 准确率 ||----------------|--------------------|| 基于句子Sentence-based | 85% || 滑动窗口Sliding window | 90% |分块3图1流程示意图优势确保检索时不会混淆表格、文本和图片等不同类型的内容。支持针对性检索例如可精准响应“显示结果表格”或“调取摘要”等需求。总结不存在适用于所有数据的“万能分块策略”根据文档格式、使用场景和用户提问方式选择分块方法用真实数据测试务必检查大模型输出是否存在上下文偏移和幻觉读者福利如果大家对大模型感兴趣这套大模型学习资料一定对你有用对于0基础小白入门如果你是零基础小白想快速入门大模型是可以考虑的。一方面是学习时间相对较短学习内容更全面更集中。二方面是可以根据这些资料规划好学习计划和方向。作为一名老互联网人看着AI越来越火也总想为大家做点啥。干脆把我这几年整理的AI大模型干货全拿出来了。包括入门指南、学习路径图、精选书籍、视频课还有我录的一些实战讲解。全部免费不搞虚的。学习从来都是自己的事我能做的就是帮你把路铺平一点。资料都放在下面了有需要的直接拿能用到多少就看你自己了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以点击文章最下方的VX名片免费领取【保真100%】

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询