12月28日,智象未來科技有限公司在安徽人工智能產業先導區啟動儀式中,正式發布智象多模態生成大模型3.0版。
啟動儀式上,智象未來創始人兼首席執行官梅濤總結了2024年人工領域技術發展的五個標志性事件,分別是以Sora為代表的視覺生成物理世界模擬器、以Chat GPT 4o為代表的多模態模型、以GPT-o1為代表的從預訓練到后訓練推理優化、多模態大模型賦能具身智能實現軟硬件結合,以及人工智能學者榮獲諾貝爾化學獎表明AI賦能科研范式變革。可以說,過去一年中,AI技術的未來發展路徑和應用實踐的方向正愈發清晰。
梅濤認為,多模態大模型是通往AGI的必經之路,其能夠比單一模態模型更好地模擬物理世界。而多模態大模型的技術演進是線性的,但是在不同的技術路線中又可以實現跳躍式發展。基于以上判斷,本次智象未來發布的智象多模態生成大模型3.0帶來了圖像和視頻生成能力的全面升級,具體包含了畫面質量與相關性提升、鏡頭運動和畫面運動更可控以及多場景驅動的優化。
同時,智象未來還推出了智象多模態理解大模型1.0版,理解大模型1.0版通過對物體級別的畫面建模以及事件級別的時空建模,實現了更精細、準確的圖像與視頻內容理解。這一理解大模型也進一步服務于理解增強的多模態生成技術,搭配多模態生成大模型實現多模態檢索+多模態內容編輯與生成的二創平臺系統,進一步降低用戶的使用門檻并且大幅提升基于IP的多模態內容生成效果。
在模型升級的基礎上,智象未來旗下多款產品也有了新的體驗提升。例如,智象創作工具平臺秉持“能打字,就能做視頻”的理念,基于智象多模態生成大模型呈現了全新的模型交互體驗。在新版本中,平臺實現了與用戶的自然語言交互,在原有文生視頻的基礎上,增加了對視頻局部進行語音指令輸入的調整。還可以基于用戶上傳的視頻內容,整理成相關的模型輸出指令。這一功能將極大的降低創意工作者使用AIGC工具編輯視頻的學習門檻,從而提升視頻創作的工作效率。
目前,智象未來擁有國內最全的多模態版權語料,包含數十萬小時版權視頻素材和上萬個授權IP,涵蓋國內70%影視數據,已形成上億條AIGC二次創作素材,在影視、文旅、通信、營銷、教育等多場景得到廣泛應用,已累計服務全球一百多個國家和地區的一千多萬用戶和四萬多家企業客戶。
本次活動現場,智象未來與人民網、上海電影集團、彩訊科技、捷成華視網聚、安徽聯通、中國移動咪咕音樂等12家生態伙伴企業代表簽約,共同打造集技術研發、產業化應用、市場推廣于一體的生態體系。