TRELLIS.2:微软开源的图生 3D 模型,数秒生成 PBR 资产
微软研究院发布了 TRELLIS.2,一个 40 亿参数的图生 3D 模型,能生成带完整 PBR 材质的纹理化 3D 资产。MIT 许可证,开源,且速度快:在 NVIDIA H100 上,512 立方分辨率约 3 秒,1024 立方约 17 秒,1536 立方约 60 秒。
微软 TRELLIS 把 2D 图像转换为完整纹理 3D 模型
它生成什么
不同于此前那些只输出简单网格、烘焙顶点色的图生 3D 模型,TRELLIS.2 生成完整的 PBR 材质贴图:漫反射、金属度、粗糙度、法线和不透明度。这正是游戏引擎与渲染管线所期望的贴图,意味着生成的资产可以直接进入 Blender、Unreal Engine 或 Unity,而无需手动设置材质。
模型使用 flow-matching transformer 和新的 O-Voxel 表示。O-Voxel 是一种"无场"的稀疏体素结构,16 倍空间压缩,可处理任意拓扑,包括此前等值面方法无法表达的开放表面、非流形几何体和内部结构。
速度与分辨率
生成耗时随分辨率扩展:
| 分辨率 | 时间(H100) |
|---|---|
| 512³ | 约 3 秒 |
| 1024³ | 约 17 秒 |
| 1536³ | 约 60 秒 |
网格到 O-Voxel 的转换在 CPU 上少于 10 秒。O-Voxel 转回网格在 CUDA 加速下少于 100 毫秒。
与 TRELLIS 1 的对比
TRELLIS.2 的参数量从 20 亿翻倍到 40 亿。原版 TRELLIS 能生成不错的几何,但缺乏正经的 PBR 材质。第二版加入了完整材质管线,能处理更复杂的拓扑,并支持更高分辨率。
教程:用 TRELLIS 从 2D 图像创建 3D 模型
如何使用
运行 TRELLIS.2 有几种方式:
Hugging Face 演示。 免费的网页演示,让你上传图像并获得 3D 模型,无需本地部署。
本地部署。 GitHub 仓库提供本地安装的 Docker 镜像。需要至少 24GB 显存的 NVIDIA GPU 才能流畅运行。
ComfyUI 集成。 社区构建的 ComfyUI 节点让你把 TRELLIS.2 接入现有的生成工作流,与其他 AI 工具共同使用。
为什么重要
开源图生 3D 一直在稳步进步,但大多数模型要么几何尚可而贴图差,要么外观漂亮但拓扑经不起细看。TRELLIS.2 同时解决了两个问题:在生产可用的分辨率下,生成几何干净、材质 PBR 完整的资产。MIT 许可证意味着你可以无限制地商用。
对游戏开发者与 3D 美术师来说,这是个好用的原型工具。把概念美术图丢进去,几秒得到纹理化 3D 模型,再细化即可。