đź§Š TRELLIS.2 : Microsoft transforme une photo en objet 3D en 3 secondes

TRELLIS.2, le modèle open source de Microsoft (4B paramètres, licence MIT), génère un asset 3D texturé PBR depuis une simple photo en 3 à 60 secondes. Usages web, e-commerce, impression 3D.

Date : 2026-05-29

Tags : Image IA, Open Source, IA Générative, Automatisation, Innovation

![Trellis 2 sets the new standard for 3D generative modeling](https://images.storychief.com/account_45334/image_516f572fa2e3fd00170f3d03780cb9d2_1200.png) Une photo de chaise. Trois secondes. Un fichier 3D complet, texturé, prêt à charger dans un moteur de rendu ou directement sur un site web. C'est exactement ce que fait TRELLIS.2, le modèle open source publié par Microsoft Research en novembre 2025. Et ce qui rend ce lancement remarquable, ce n'est pas la vitesse, c'est la qualité d'architecture et l'étendue des usages concrets, bien au-delà du jeu vidéo. ## Qu'est-ce qui différencie vraiment TRELLIS.2 des modèles précédents ? La plupart des modèles de génération 3D existants reposent sur des représentations implicites, comme les SDF (Signed Distance Fields) ou les NeRF. Ces approches ont un défaut structurel : elles peinent dès qu'une géométrie devient complexe, avec des surfaces ouvertes, des trous, ou des formes non-manifold comme un vêtrement ou un objet creux. Elles aplatissent, approximent, perdent du détail. TRELLIS.2 rompt avec cette logique en introduisant une représentation native appelée O-Voxel, pour "Omni-Voxel" ou voxel omnidirectionnel. Concrètement, l'espace 3D est découpé en une grille sparse (creuse) de voxels de surface, chaque voxel stockant simultanément la géométrie, les normales de surface, et les attributs PBR complets : couleur de base, rugosité, métal, opacité. Résultat : le modèle peut générer du verre transparent, du tissu, des structures internes fermées, sans approximation destructive. C'est le premier modèle open source à gérer correctement la transparence et la translucidité dans le pipeline de génération lui-même. Le deuxième pilier technique est le SC-VAE, un auto-encodeur à compression sparse avec un ratio de downsampling de 16x. À 1024 voxels de résolution, un asset complet est encodé en environ 9 600 tokens latents, ce qui rend la génération computationnellement tractable sur du matériel courant. Sur un GPU NVIDIA H100, les temps de génération sont de 3 secondes à 512 voxels, 17 secondes à 1024, et 60 secondes à 1536 voxels de résolution maximale. | Résolution | Temps (H100) | Tokens | Usage typique | |---|---|---|---| | 512³ | 3 secondes | ~1,2K | Prototype rapide, prévisualisation | | 1024³ | 17 secondes | ~9,6K | E-commerce, assets de production | | 1536³ | 60 secondes | ~32K | Cinématiques, VFX haute fidélité | Le modèle a été entraîné sur 500 000 assets 3D issus de collections variées (Objaverse, ABO, 3D-FUTURE, HSSD, Toys4k), filtrés par scores esthétiques. Il compte 4 milliards de paramètres, soit deux fois la taille de la version précédente. Licence MIT, usage commercial libre. > "2025 a été l'année où la génération 3D a enfin décollé, passant de démos de recherche à une adoption précoce dans plusieurs industries." — Larsen D'hiet, Datameister (janvier 2026) ## Quels sont les cas d'usage concrets hors jeu vidéo ? ### E-commerce et visualisation produit C'est probablement le cas d'usage le plus immédiat. Un marchand prend une photo catalogue de son produit, la passe dans TRELLIS.2, et obtient un GLB prêt à intégrer dans une page web via Three.js ou Babylon.js. Le visiteur peut faire pivoter le produit, zoomer sur les matières, voir les reflets. Des études sectorielles montrent que les expériences de visualisation 3D réduisent les taux de retour produit de manière significative, car les clients comprennent mieux ce qu'ils commandent. La chaîne est entièrement automatisable : script Python appelant TRELLIS.2 via API, export GLB, upload CDN, rendu WebGL côté client. Pour des catalogues avec des centaines de références, c'est un changement de paradigme par rapport aux shootings photo 360 traditionnels. ![TRELLIS.2 génère des assets 3D avec matériaux PBR complets depuis une seule image](https://www.progressiverobot.com/wp-content/uploads/2026/04/trellis-2-featured-16x9-v1.jpg) ### Web design et expériences interactives Le format GLB est nativement supporté par les navigateurs modernes via `<model-viewer>` (le composant web standard de Google) et par des frameworks comme Three.js, React Three Fiber ou A-Frame. TRELLIS.2 génère également des fichiers USDZ pour l'AR Quick Look d'Apple iOS, ce qui signifie qu'un utilisateur iPhone peut directement poser l'objet 3D dans son salon depuis une fiche produit. Pour les designers web et les développeurs no-code qui construisent des landing pages ou des présentations interactives, cette chaîne photo vers objet 3D interactif sur le web devient accessible sans pipeline de modélisation 3D traditionnel. ### Architecture, design industriel et conception produit Les studios d'architecture et de design industriel utilisent déjà des workflows de visualisation rapide pour présenter des concepts à des clients. TRELLIS.2 permet de partir d'une photo d'inspiration, d'une esquisse photographiée, voire d'un prototype physique, pour obtenir en quelques secondes un asset 3D manipulable, texturé, exportable vers Blender, Maya, ou Cinema 4D. L'aspect génération masquée (masked generation) est particulièrement utile dans ce contexte : il est possible de cibler une zone géométrique précise et de la modifier sans reregénérer l'ensemble du modèle. Géométrie et matériaux sont traités séparément dans le pipeline, ce qui rend les modifications prévisibles et les itérations rapides. ### Impression 3D et prototypage TRELLIS.2 exporte nativement en STL, le format standard de l'impression 3D. Un designer produit peut donc partir d'une photo, obtenir un mesh watertight (fermé, sans trou), et l'envoyer directement à une imprimante ou un service d'impression, après validation des épaisseurs de paroi dans Blender. Le modèle gère correctement les topologies complexes, ce qui élimine une part significative du travail de nettoyage manuel habituellement nécessaire. Pour intégrer ce type de pipeline automatisé dans un workflow métier complet, y compris la logique d'orchestration, les APIs et les agents qui supervisent les étapes de validation, la formation [Automatiser ses workflows et créer des agents IA](https://www.travelearn.fr/formation/automatiser-ses-workflows-et-crer-des-agents-ia) de TraveLearn donne les bases techniques pour concevoir ces chaînes de traitement de bout en bout, sans dépendre d'un prestataire à chaque étape. ## TRELLIS.2 dans le paysage des APIs 3D en 2026 Le marché des APIs de génération 3D a explosé. Valorisé à 2,47 milliards de dollars en 2025, il est projeté à 7,21 milliards d'ici 2029. TRELLIS.2 se positionne dans cet écosystème avec un avantage distinctif : la licence MIT autorise un usage commercial complet, là où des alternatives comme Wonder3D imposent des restrictions non-commerciales (CC-BY-NC). En termes d'intégration API, le modèle est disponible via NVIDIA NIM (build.nvidia.com) pour une inférence cloud, via le [Space Hugging Face officiel](https://huggingface.co/spaces/microsoft/TRELLIS.2) pour tester le modèle directement dans le navigateur sans installation, et via des providers comme 3D AI Studio qui le proposent à environ 15 à 55 crédits par génération selon la résolution et les textures (20 secondes à 4 minutes de temps de génération en cloud). Une communauté a également porté le modèle sur Apple Silicon via PyTorch MPS, permettant une exécution locale sur machines M-series avec 24 Go de mémoire unifiée, en environ 3 minutes 30 sur M4 Pro. | Critère | TRELLIS.2 | Hunyuan3D-2 | Rodin Gen-2 | |---|---|---|---| | Paramètres | 4B | 2B | 10B | | Transparence | Oui | Limitée | Non | | Licence | MIT (commercial) | Tencent | Propriétaire | | Résolution max | 1536³ | 1024³ | N/A | | Export formats | GLB, OBJ, STL, GLTF, USDZ | GLB, OBJ | GLB, OBJ, USDZ | Ce que TRELLIS.2 ne remplace pas : le travail de finition sur des assets héros haute qualité (low-poly optimisé, rigging, animation), le sens esthétique dans la composition des scènes, ou l'expertise architecturale pour des projets de construction réels. C'est un accélérateur de pipeline, pas un remplacement du métier. --- **Sources** - [GitHub microsoft/TRELLIS.2](https://github.com/microsoft/TRELLIS.2) - [HuggingFace — TRELLIS.2-4B](https://huggingface.co/microsoft/TRELLIS.2-4B) - [Datameister — Trellis 2: Scaling 3D Generation with Improved Efficiency and Control](https://blog.datameister.ai/trellis-2-controlled-3d-generation) - [CodeSOTA — TRELLIS.2: Production-Ready 3D Assets in 3 Seconds](https://www.codesota.com/news/trellis-2-3d-generation) - [3D AI Studio — Best 3D Model Generation APIs in 2026](https://www.3daistudio.com/blog/best-3d-model-generation-apis-2026) - [The Agent Times — TRELLIS.2 Mac Port](https://theagenttimes.com/articles/trellis-2-mac-port-frees-3d-asset-generation-from-nvidia-dep-1696b24e) - [NVIDIA NIM — MSFT TRELLIS 3D](https://build.nvidia.com/microsoft/trellis/modelcard)