AI_成功案例
某科技公司 & 勤易科技
助力企业开启生成式 AI 技术在网页内容提取与多意图搜索领域的创新实践
某科技公司是一家深耕通用人工智能(AGI)领域的科技企业,围绕全模态大模型研发构建了覆盖文本、语音、视频、图像与音乐的完整模型矩阵,业务遍及全球 200 多个国家和地区,服务数亿个人用户与数十万企业客户。在模型训练与产品迭代过程中,公司需持续从互联网采集处理海量网页数据,将非结构化 HTML 内容转化为可用于分析与训练的结构化信息。随着数据规模快速膨胀,传统数据处理管线已无法满足效率与精度要求,团队决定借助Amazon Bedrock大模型能力,联合 AWS 资深合作伙伴勤易科技,打造一套智能化网页内容提取与多意图搜索增强平台。
核心痛点 解决方案
本方案采用Amazon Bedrock + Claude 3.7 Sonnet模型,结合 AWS 云原生架构,打造端到端智能数据处理与多意图搜索平台
HTML 结构高度异构 不同网站 DOM 结构、标签嵌套、样式命名差异极大,无法用统一规则覆盖全场景;
智能内容提取 基于 Claude 3.7 Sonnet 语义理解能力,自动过滤噪声、提取正文并保留完整语义结构,无需为每个网站定制规则;
有效内容与噪声混杂 导航、广告、侧边栏等噪声干扰严重,传统规则提取算法在复杂页面准确率不足;
多意图智能检索 自然语言查询自动解析单 / 多意图,支持混合维度筛选,实现从 “关键词匹配” 到 “语义理解” 升级;
语义信息严重丢失 简单文本抽取丢失段落层级、表格、列表等语义,影响下游训练与分析;
稳定结构化输出 强制 JSON 格式输出,保障数据一致性,降低后处理异常修复成本;
多语言混排处理困难 支持中、英、日、韩等多语言及混合排版,对工具语言适应性要求极高;  
弹性高可用架构 依托 Amazon S3、批量调度、自动扩缩容,支持日处理数十万页面与万级并发,可用性达 99.9%;
传统方案维护成本爆炸 定制规则随网站数量指数级上升,网站改版后规则频繁失效;开源工具对复杂页面提取质量差;
低代码快速迭代 数据 schema 变更仅需调整 Prompt 模板,无需修改前端与后端逻辑,业务上线周期大幅缩短;
搜索意图理解能力不足 传统关键词搜索无法解析模糊、多维度查询意图,召回率与精准率低;数据结构变更需大量改造代码,迭代成本高;
     
架构图
客户收益
数据处理效率革命性提升
从 “人工定制规则” 升级为 “通用 AI 提取”,规则维护成本大幅下降,日处理数十万页面稳定运行;
数据质量与完整性显著提高
正文提取准确率超 90%,完整保留段落、表格、列表等语义信息,支撑大模型训练效果提升;
搜索体验全面升级
用户用自然语言即可完成复杂多维度检索,使用门槛大幅降低,检索精准度与效率显著提升;
业务迭代速度大幅加快
数据 schema 变更从 “周级” 缩短至 “天级”,仅需更新 Prompt 即可快速适配新业务;
总体成本最优
无需自建 GPU 集群,按需调用 Amazon Bedrock,弹性架构避免资源浪费,大规模场景下成本可控;
技术架构安全稳定
依托 AWS 全球基础设施,高可用、高弹性、高安全,满足全球化业务与海量数据处理需求;
关于合作伙伴
我们是一家深耕于AWS云服务的顶级咨询合作伙伴,持有包括安全、大数据、运维在内的多项AWS专业化认证。我们致力于通过前沿的云技术与深刻的行业洞察,帮助这样的创新企业构建面向未来的数字化基石,加速其全球业务的成功。
关于AWS
亚马逊云科技(AWS)是全球领先的云计算服务提供商,拥有覆盖计算、存储、数据库、物联网、安全合规等领域的全方位云服务。AWS 以灵活的服务模式与丰富的生态资源,帮助企业降低 IT 成本、提升运维效率,为各类企业的数字化转型、全球化拓展提供坚实可靠的技术支撑,是企业实现业务增长与创新的重要合作伙伴。

杭州勤易科技有限公司

Copyright 2024, 杭州勤易科技有限公司   Email:fanghf@qineasy.com

浙ICP备16003578号浙公网安备 33010502002055号