兔展智能联合北大推出DragonDiffusion！中国领先的以CV为核心的多模态大模型来了

2023-07-28 09:29:36 来源：深圳市创新投资集团有限公司

　　兔展智能是在内容引擎技术和数字营销操作系统领域完全自主创新的行业龙头企业，已发展成中国生成式AI内容引擎与营销云核心平台。公司坚持走国产替代路线，自主研发新一代内容引擎和营销云平台等行业领先产品。基于最新的AI内容与代码智能生成引擎，兔展智能进一步构建了中国新一代数字内容总装生产线，应用范围包括创作Web页面、小程序、互动视频、5G消息、体验式电商、数字人、元宇宙空间、互动教材等领域。

　　公司创始人董少灵毕业于北京大学，一直坚持“以有限生命对社会带来最大正向改变”的人生信条。兔展智能自成立以来就一直保持着和北京大学科研团队的密切联系，在AI领域持续探索，保持对前沿技术的不懈追求以及在实际场景中的创新应用。在双方长期合作基础之上，北京大学深圳研究生院-兔展智能AIGC联合实验室在2023年正式揭牌，目前已经陆续推出了ChatLaw、DragonDiffusion等领先性工作。

　　ChatLaw：

　　但愿世间不纷争，何惜法典卷生尘

　　2022年，全国法院共受理案件3372.3万件，其中由律师办理诉讼案件仅有824.4万件。74%的案件没有律师参与，当事人只能自己写材料、诉讼、协商。这背后是专业律师供给不足。

　　截至2021年底，全国共有57.48万名执业律师，其中具备极高素质与专业能力的律师更少。法律服务市场上，供给远远小于需求，这直接导致了法律服务以被动获客为主的行业结构。相当数量的普通人遭遇社会不公时，找不到律师，也不知道如何运用法律维护权益。

　　大语言模型的出现，给一直关注法律普惠问题的ChatLaw团队带来新的启发。语言模型能让复杂的知识变得好懂，用户通过多轮对话可以无限趋近事实，从模型里获取准确且专业的建议，而这或许能为法律行业带来技术奇点。语言模型无法回避的问题是“幻觉”。表现在模型上，是生成的内容具有偏误信息。例如，对ChatGPT进行法律提问，往往会得到含糊甚至不正确的回答。这是因为ChatGPT数据集中并未包含中国法律，它不具备中国法律知识。

　　ChatLaw团队通过不懈努力，终于基于大量的判例文书原始文本和法律法规、地方政策，构建了法律知识库。同时，通过与北大国际法学院、行业知名律师事务所进行合作，确保知识库能及时更新，同时保证数据的专业性和可靠性。

　　ChatLaw团队首先定义了一套名为“先验知识约束”的技术方案，其能有效确保模型生成法律内容的准确性，让百亿级参数量的模型也能在专业问题上保持较高的准确度。而语言模型的特性，让用户即使用朴素的自然语言提问，也能得到较为智能的回答。这让用户通过多轮对话不断向大语言模型补充事实细节、最终得到具备指导意义的法律建议成为可能。

　　但只是准确还不够。法律咨询是高度复杂的场景，其流程标准化，但当事人事实具有多变性，这意味着模型的智能度是至关重要的要素。为了提升模型智能度，同时增强模型的延展性，项目团队用针对性微调，训练了一个专用调度模型。调度模型通过对用户提问进行语义理解，对子模型和插件进行调度并重组，最终呈现出多个模态的输入和输出。基于这套体系，ChatLaw能够将文件、音频、文字整合在一起，同时支持法律援助、法律文书、思维导图等多样化输出。

　　例如，当模型判断用户的描述不够具体时，它会向用户要求上传文件，并根据用户提供的信息进行归纳和分析。

　　不仅仅是归纳事实，ChatLaw还会基于事实生成具体的法律建议甚至是法律文书。

　　当用户表露出需要人工服务的意图，模型还会向用户推荐周边的法律援助中心。

　　调度模型给予了产品更大的可能性。通过针对性训练，ChatLaw可以接入市场上所有主流LLM，拥有符合规范的业务接口能力。预计将在半年内，覆盖法律行业的主流工作场景和主流业务。

　　ChatLaw项目在知乎发布后3小时内登上知乎热搜，全网累计传播声量已破千万，网站日访问量一度超过300万。而ChatLaw项目的成功离不开背后兔展智能和北京大学在产学研合作模式上坚持不懈的探索和努力。

　　AIGC联合实验室：

　　建设“1+3+N”的原型机工厂

　　如何让先进的科学技术应用于产业？这是学术界、产业界和政府部门都在长期关注和思考的问题。北京大学深圳研究生院-兔展智能AIGC联合实验室尝试为这个问题交出新的答卷。

　　实验室在成立之初就明确，兔展智能立足于“有不顾困难的创业精神”“有完整商业团队”“有科技周期的应对经验和准备”“有成熟的软件收费模式”的“四有基础”，与北京大学顶尖科研团队共建联合实验室，坚持“不离开北京大学”“不当学者也能做企业家，安心做好科学家”“不受困于科技周期”“不受限于走通软件的收费道路”的“四不原则”，通过“1+3+N”原型机工厂的模式，共同探索产学研协同创新发展的新路径。

　　“1+3+N”指的是由具备突破人类知识边界能力的青年科学家、具备热情与创新能力的硕博学生小组和具备成熟落地工程能力和商业化能力的科技公司，共同组成产学研合作项目团队，各展所长，进而构建由科学家指导创新小组学习前沿学术成果，创新小组将原型机交接给工程化团队，工程化团队生产商业产品、形成收入后进一步为青年科学家提供科研经费的完整的交付体系。

　　在这一交付模式的支撑下，联合实验室提出了ChatKnowledge项目，其目标是用大语言模型技术让一切复杂的知识变得好懂，在法律、金融、政务等多个垂直领域开发大语言模型产品，真正解决用户的问题。ChatLaw正是ChatKnowledge系列项目的第一个子项目。除此以外，联合实验室还于近日发布了DragonDiffusion项目。

　　DragonDiffusion：

　　做中国版的StableDiffusion DragonDiffusion是一种在扩散模型上实现拖拽式图像编辑操作的开创性方法，由北京大学张健老师团队VILLA（Visual-Information Intelligent Learning LAB）依托北京大学深圳研究生院-兔展智能AIGC联合实验室，共同合作提出。

　　论文发表后获得了极高的讨论热度，知乎话题“北大兔展联合实验室提出Dragon Diffusion，可一键拖拽编辑图像，效果如何？”也迅速冲上知乎热榜。

　　DragonDiffusion可以支持多种图像编辑模式，比如物体移动、物体缩放、物体外观替换和内容拖拽，具有非常丰富的应用场景。例如，如果用户想移动图像中某个元素的位置，只需要进行框选和拖拽，就可以轻松实现。

　　DragonDiffusion还支持点对点的内容拖动，例如让小猫咪自然转头、让山峰变得高耸、改变画面人物的动作和表情等，图像编辑过程也十分稳定、精细、流畅。

　　DragonDiffusion在GitHub发布之后，在海外学术界受到非常多的关注，出众的效果也引起了热烈讨论。近日，AI领域的知名评论人AK发布一篇关于DragonDiffusion的文章，点击量已破10万。

　　很多博主也纷纷在博客和YououTube上分享自己体验DragonDiffusion的效果。

　　联合实验室也将持续聚焦以CV（计算机视觉）为核心的多模态大模型，努力成为超越StableDiffusion的中国下一代CV与多模态大模型。同时，在语言领域也将继续深挖ChatLaw背后的Chatknowledge大模型，解决法律/金融等垂直领域防幻觉、可私有化、数据安全等问题。

关注同花顺财经（ths518），获取更多机会

0人