7月4日至7日,2024世界人工智能大会在上海举行。在“百模大战”激烈的竞争中,如何从海量信息中抓取高质量内容,更好地面对中国大模型在发展中面临的语料短缺、数据处理等挑战成为了难题。在大会上,合合信息展示了大模型“加速器”的解决方案,得到广泛关注。
据介绍,在大模型训练的上游阶段,“加速器”中的文档解析引擎将助力大模型突破在书籍、论文、研报等文档中的版面解析障碍,从源头为模型训练与应用输送纯净的“燃料”,助力大模型跑得更快;“加速器”还加载了行业领先的acge文本向量化模型,助力大模型解决“已读乱回”的“幻觉”问题,让大模型在正确的航线上行驶得更远。
在大会现场,合合信息展示了其文档解析引擎的强大能力。该引擎高效地在海量文档中迅速提炼出纯净的“智慧燃料”。据介绍,该引擎最快可在1.5秒内解析百页长文档中的文本、表格、图像等非结构化数据,是当前市场上处理速度最快的同类产品之一。更重要的是,它还具备出色的文档“理解力”,能够智能还原文档的阅读顺序,为模型训练提供了更加精准、有序的语料数据。
在文档解析范畴中,针对图表类素材的识别及内容理解是多数大模型亟待解决的障碍。但合合信息大模型“加速器”则为打通这一障碍提供了帮助:引擎能够深度“洞察”图表内容,“还原”研报、论文等文档中的柱状图、折线图、饼图、雷达图等十余种常见图表,巧妙将其转化为大模型能够理解的格式,充分释放出数据和图表的价值潜能。
在文档解析引擎的帮助下,大模型可以直接获取图表原始的结构化数据,高效地学习理解商业研报和学术论文等专业文档中的论证逻辑,提升语言理解、数据处理、知识推理分析的效率和准确性,满足更高价值的金融和学术等应用场景的需要。在图表不显示具体数值的情况下,合合信息文档解析引擎依然能够做到仅依据坐标轴区间估算具体数值,实现了行业级突破。
目前,大模型“加速器”已被多家大模型厂商应用于金融、医学、财经、媒体等多领域的文档的解析中,助力大模型更顺利地接轨“专业课”,它不仅仅是一套技术工具,更是推动行业专业知识管理革新、提升业务效率的重要基石。
合合信息作为深耕人工智能及大数据技术的领军企业,凭借其在复杂场景文字识别、智能图像处理、自然语言处理等领域的深厚积累,已在全球范围内为众多行业提供了高效解决方案。
内置七大算力神器,第四代英特尔®至强®可扩展处理器让加速无处不在
现代时报网 2023年1月15日 1月11日,以“芯加速 行至远”为主题的第四代英特尔®至强®可扩展处理器新品发布会盛大举行。会上,英特...