微软团队在办公领域有着很强的“AI霸者”的野心。
近日,微软最新公布的研究论文,正在计划为 Excel、谷歌 Sheets 等电子表格应用程序,开发全新的 AI 大语言模型--SpreadsheetLLM。
研究人员表示现有电子表格应用程序具备丰富的功能,在布局和格式方面为用户提供大量的选项,因此传统 AI 大语言模型很难胜任电子表格处理场景。
而 SpreadsheetLLM 就是专门为电子表格应用而设计的 AI 模型,微软还研发了 SheetCompressor(压缩电子表格),让 SpreadsheetLLM 能够更好地理解、处理电子表格数据。
论文摘要部分,SpreadsheetLLM 模型主要由 3 个模块组成:基于结构锚的压缩、反向索引转换和数据格式感知聚合。
SpreadsheetLLM 大大提高了电子表格表检测任务的性能,在 GPT4 的情境学习设置中,比普通方法高出 25.6%;使用词元(token)的成本降低了 96%,并能提供更好的处理结果。
论文指出,这种电子表格LLM框架,显著提高了LLM解释和利用电子表格的方式。但还有很多改进的空间,比如这种方法没有利用电子表格格式的细节,如背景颜色和边框,因为它们需要太多的标记(这些元素通常包含有价值的上下文和视觉线索,可以进一步深化模型对电子表格数据的理解和处理)。
此外,虽然SheetCompressor有效地聚合了数据区域,但它目前没有对包含自然语言的单元格采用复杂的基于语义的压缩方法。例如,将“中国”、“美国”和“法国”等术语归入“国家”等统一标签下,不仅可以提高压缩比,还可以加深LLM对数据的语义理解。探索这些先进的语义压缩技术将是我们持续努力增强SpreadsheetLLM功能的一个关键重点。
目前还没有关于微软计划何时或是否向公众提供 SpreadsheetLLM 的消息