12月31日,在第十九屆中國圖像圖形學會青年科學家會議上,金山辦公技術總監熊龍飛受邀發表主題演講,分享了金山辦公在辦公領域大模型應用的技術路線與形態。

“2023年初大模型火了起來,金山辦公內部經過觀察與討論之后,迅速確定了WPS要做‘大模型應用方’的定位。”熊飛龍表示,成立35年以來,金山辦公一直堅持技術立業,對于文檔底層技術,如排版技術、渲染技術,還有文檔格式解析等形成了深入的理解和技術沉淀,構建了以WPS為代表的一系列辦公產品生態。在大模型時代到來之際, 金山辦公直接選擇與國內優秀的大模型廠商合作,既能避免精力分散,又將發揮自己在辦公領域應用上多年沉淀的優勢,將用戶體驗做得更好。
35年技術沉淀“卷”起大模型應用落地
早在2017年,金山辦公就已經組建了AI團隊,并在CV和NLP兩個方向進行人工智能技術的探索和落地。其中,金山辦公通用圖像文檔識別與理解引擎系統——朱墨,已經在PDF識別、PDF轉word,拍照掃描,文字圖片提取文字,掃描件編輯等線上業務上得到應用。此外WPS也在文檔翻譯、智能輔助寫作和PPT AI模版工廠等方面,早早開啟了探索。
而在確定“大模型應用方“的定位之后,在23年4月份金山辦公首次公布旗下具備大語言模型能力的人工智能應用WPS AI,23年11月WPS AI開啟公測,該應用提供AIGC內容創作、Copilot智慧助理和Insight智慧洞察三大AI能力。
例如,在智能寫作中,WPS AI不僅支持文生文的能力,可以根據用戶需求直接生成文檔內容,還可以生成帶版式的文檔。“AIGC文生文是大模型原生的能力,每家創業公司都可以做,門檻不是很高,WPS的競爭力就在于我們對于word文檔的格式理解,包括版式,排版相關的技術積累更深。”熊飛龍表示。此外,在辦公領域常用的PPT、表格等方面,WPS AI也可以在大模型的加持下,根據用戶需求自動生成素材、PPT內容、演講備注、表格數據公式等。

在PDF文件方面,金山辦公也有自己的差異性優勢,能夠掃描識別用戶受污染的、變形的文件。對于超長文檔,WPS也可以利用文檔識別與理解方面的技術優勢,針對大篇幅的PDF先做文檔的結構化分析,再把相應的內容進行摘取,然后再做后續的功能輸出。

金山辦公之所以能夠快速將自己產品接入大模型,并形成獨特優勢,與長期的文檔技術沉淀與探索是分不開的。熊飛龍舉例,金山辦公利用自己原有的文檔識別與理解的技術,只需要再新增chat engine和向量化數據庫兩個新模塊,就可以快速實現一個基于檢索召回增強的文檔問答系統,大大降低了整體開發工作量。同時,為了應對企業當中文檔形式復雜化、文檔數據海量化、提問方式差異化等復雜情況,金山辦公還可以通過文檔引擎去做文檔解析理解,做到智能切段、切片,打破文件格式的差異化,做到文檔數據的歸一化,再通過意圖識別、關鍵詞識別等技術,幫助企業實現文檔庫問答的需求。
未來屬于多模態,探索更高效交互方式
關于金山辦公未來AI的規劃與想法上,熊飛龍表示,金山辦公堅信未來一定是屬于多模態的。“辦公場景下一般不是純文本,不能通過文字對話的方式解決用戶所有的需求,所以多模態技術在辦公領域是更原生的解決方案。”
目前,金山辦公已經在利用現有技術,疊加實現了類似多模態的能力。例如,移動端“隨手拍”功能可以對著投影屏幕中報告的PPT、紙質合同、書籍等進行拍攝,拍完之后用戶可以讓AI去進行內容總結,也可以對它進行提問。這正是通過已有的技術與LLM的結合,從文檔檢測獲取、文檔矯正、識別解析、切片儲存、文檔問答等流程當中實現最終功能。
但熊飛龍也指出,目前多模態解決方案還處在初級階段,不能解決密集文本和復雜排版問題。對此,金山辦公的關鍵技術思路是利用多年積累的API做好文檔數據的規范化管理,讓數據更便于給大模型理解和使用,這種技術路線現在也更可控和可用。金山辦公多年來積累的版式識別和文檔理解技術依然具有強大的技術價值,尤其是版式識別技術的積累,可以讓其在新的多模態文檔大模型領域具備明顯的底層競爭力。
“現階段許多大模型應用在采用對話框輸入和輸出的交互方式,但是辦公領域好的AI助手一定不是一問一答的,更自然、原生,輕量的交互才會讓大家不厭惡工作。”熊飛龍表示,WPS AI正在進行積極主動探索,盡可能讓AI知道用戶想要干什么,然后用點擊和選擇的方式來代替輸入。“未來金山辦公也還會再挖掘更多、更高效的交互方式,把多模態和更聰明的文檔Al用更自然的方法交付給用戶。”