2025 寰宇东谈主工智能大会(WAIC)时代,智象往时(HiDream.ai)辘集创举东谈主兼首席本事官姚霆发表主题演讲,系统阐释了多模态智能体在内容创作限制的本事冲突与贸易化奉行。动作聚焦多模态生成的 AI 创新企业,智象往时期待通过探索多模态大模子的有用落地神情, “让创作追念灵感,让时分忠于故事” ,激动内容创作从用具着力进步向坐褥力翻新逾越。
AI本事的爆发式发展,正从推行室快速走向产业欺诈。智象往时持久以“贬责真的创作痛点”为导向,在贸易化落地中探索出一条“本事筑基、场景破局、价值闭环”的旅途。智象往时以为,真的的AI贸易化不是单点本事的骄傲,而是从模子才智到业绩形态,再到最终效果的全链路赋能。
智象往时握续力争于从本事到价值的产物化念念路,在这一过程中,智象构建了“MaaS-SaaS-RaaS”的递进贸易化体系
MaaS(Model as a Service) 是根基。打造百亿级多模态基础模子,支握图像、视频、音频、文本等多模态的生成与连气儿。
SaaS(Software as a Service) 是桥梁。基于基础模子,劝诱面向垂直场景的产物,树立个东谈主创作家平台和社区,将本事才智滚动为开箱即用的业绩,缩短创作门槛。
RaaS(Result as a Service) 是终局。通过贸易视频营销业绩、新媒体创作智能体,平直为客户委派“可落地的效果”,让AI真的成为创作的“坐褥力用具”而非“本事看法”。
这种 “模子复旧业绩,业绩落地场景” 的逻辑,已在实质欺诈中考据:智象多模态生成平台已业绩于影视制作、产物营销、文旅互娱等限制,末端从本事研发到贸易价值的闭环。
多模态本事冲突:从 “能生成” 到 “生成优”
本事实力是贸易化的底气。智象多模态模子以“高维连气儿、精确生成”为中枢,构建了掩饰图像、视频、编订的全栈才智矩阵。
本事层面,智象多模态基础模子历经三次渊博迭代,构建起 “连气儿深、终结准、画质高” 的中枢上风。模子从 2023 年 8 月的 1.0 版块(扩散模子 DiT,末端多模态对王人),到 2024 年 6 月 2.0 版块(扩散自追念模子 DiT+AR,强化时空建模),再到 2024 年 12 月 3.0 版块(MoE 多场景学习,顾忌增强),握续冲突生成本事瓶颈。
这些才智滚动为三大中枢价值:语义一致性(如 IP 故事活化时保握格调调和)、精确可控性(支握个性化定制与元素目田调理)、影视级画质(4K 分袂率、永劫序寂静输出),为专科创作提供本事保险。
在图像生成限制,HiDream 系列开源模子发扬亮眼,累计下载量超 60 万次,被 Diffusers库、ComfyUI 、Recraft等主流用具集成。智象多模态全系列模子均在国外巨擘榜单名次前哨。HiDream-I1 全面开源后24小时内即登顶 Artificial Analysis 榜单,成为首个问鼎榜首的中国自研模子,Hugging Face及时名次寰球第一,下载量与点赞数握续攀升。此外,智象大模子家眷已末端文本、图像、视频的辘集建模,其视频生成产物支握4K高清画质、全局 / 局部可控及脚本多镜头生成,被行业大师评价为「再行界说 AIGC 的好意思学步调」。同期,结合其开源的交互式编订模子HiDream-E1,用户通过当然话语教唆即可完成图像生成及编订,平直缩短创作门槛,助力寰球劝诱者与创作家末端“所想即所得”。
7月,继问鼎图像生成开源模子竞技场榜单后,最新开源模子HiDream E1.1再次强势置身Artificial Analysis图像编订智能体榜单第一梯队,动作首先的开源图像编订模子,性能全面稀奇Flux.1 Kontext等主流模子,支握当然话语驱动的图像编订 —— 用户通过翰墨教唆即可完成布景替换、神采修改、局部重绘等操作。
在视频生成限制,模子支握文生视频、图生视频、首尾帧生成,可精确复刻国漫、吉卜力等格调,末端镜头通顺与画面通顺的辘集学习。通过扩散自追念模子(DiT+AR),咱们贬责了视频生成中“时空一致性”贫困,让生成内容更面对真的物理寰宇的规章。
在创作用具箱层面,AI口播、视频模板、运下笔刷、捏造换衣、图像超分等功能,变成了“生成-编订-优化”的圆善闭环,傲气从个东谈主创作家到企业客户的全场景需求。
产物形态:agent驱动的“创作翻新”,重构内容创作全经过
在产物形态上,智象以 “智能体” 为中枢形态,构建掩饰图像生成、视频创作、营销传播的用具链。
动作面向短视频二创的智能体,vivago agent以“多模态输入、智能拆解、交互式生成”为中枢上风。用户只需提供图像、视频、音频、文本等素材(举例咖啡馆的logo、像片、宣传语),即可自动分析需求、拆辞退务(分镜蓄意、脚本生成、素材检索),调用图像/视频生成模子补全内容,并通过智能编订用具整合输出。它不仅能连气儿“棕色线条勾画的火焰+波涛logo”的视觉特征,还能捕捉“静谧奢靡的吧台场景”的氛围,让短视频创作从“从零开动”变为“按需生成”。
智象往时行将负责发布长视频编订智能体-HiClip。针对长视频“内容过载、分发低效、答谢周期长”的痛点,HiClip通过多模态语义连气儿,精确解构内容中枢(如提真金不怕火高光片断、生成音频摘记),末端“一次创作、全域适配”的二次传播。无论是影视片断的高光编订,也曾隆重课程的学问点拆解,HiClip都能让长视频内容欣慰新的流量生命力。
产物化落地末端了创作方面的互补:vivago agent 聚焦短视频二创,通过模板检索、智能编订、多模态生成,匡助用户快速制作个性化内容,贬责传统模板化创作的同质化问题;HiClip则针对长视频 “内容过载、分发低效” 的痛点,以多模态语义连气儿解构长视频中枢信息,末端高光片断提真金不怕火、跨平台适配编订,引发长视频二次传播价值。
生态共创:相接全产业链的价值网罗
AI的价值,在于结合与赋能;本事与产物的落地,离不开生态的协同复旧。现在,智象往时正联袂跨境、互联网、影视、新媒体、文旅等多限制伙伴,构建掩饰多限制的生态网罗,变成 “本事-场景-生态” 的共赢样式。
让每个创作家都能更好开释创意后劲,是智象的持久坚握。让AI 真的 “连气儿创作、扶持创作”,让内容产业的坐褥力蜕变正加快到来。智象往时期待以多模态智能体为支点开云体育,与行业伙伴共同探索“本事为笔,创意为墨”的新可能——让每个创作家都能聚焦灵感,让每个故事都能抵达更远的方位。