Rocl Jamez's picture

55

Rocl Jamez

James62

·

AI & ML interests

None yet

Organizations

None yet

James62's activity

upvoted a paper 10 months ago

Masked Audio Generation using a Single Non-Autoregressive Transformer

Paper • 2401.04577 • Published Jan 9 • 41

upvoted 14 papers 11 months ago

SparQ Attention: Bandwidth-Efficient LLM Inference

Paper • 2312.04985 • Published Dec 8, 2023 • 38

Merlin:Empowering Multimodal LLMs with Foresight Minds

Paper • 2312.00589 • Published Nov 30, 2023 • 24

EDMSound: Spectrogram Based Diffusion Models for Efficient and High-Quality Audio Synthesis

Paper • 2311.08667 • Published Nov 15, 2023 • 18

Single-Image 3D Human Digitization with Shape-Guided Diffusion

Paper • 2311.09221 • Published Nov 15, 2023 • 20

DMV3D: Denoising Multi-View Diffusion using 3D Large Reconstruction Model

Paper • 2311.09217 • Published Nov 15, 2023 • 21

Drivable 3D Gaussian Avatars

Paper • 2311.08581 • Published Nov 14, 2023 • 46

One-2-3-45++: Fast Single Image to 3D Objects with Consistent Multi-View Generation and 3D Diffusion

Paper • 2311.07885 • Published Nov 14, 2023 • 39

Story-to-Motion: Synthesizing Infinite and Controllable Character Animation from Long Text

Paper • 2311.07446 • Published Nov 13, 2023 • 28

GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation

Paper • 2311.07562 • Published Nov 13, 2023 • 12

ChatAnything: Facetime Chat with LLM-Enhanced Personas

Paper • 2311.06772 • Published Nov 12, 2023 • 34

Q-Instruct: Improving Low-level Visual Abilities for Multi-modality Foundation Models

Paper • 2311.06783 • Published Nov 12, 2023 • 26

Music ControlNet: Multiple Time-varying Controls for Music Generation

Paper • 2311.07069 • Published Nov 13, 2023 • 43

JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models

Paper • 2311.05997 • Published Nov 10, 2023 • 36

Instant3D: Fast Text-to-3D with Sparse-View Generation and Large Reconstruction Model

Paper • 2311.06214 • Published Nov 10, 2023 • 29

upvoted 18 papers 12 months ago

GPT4All: An Ecosystem of Open Source Compressed Language Models

Paper • 2311.04931 • Published Nov 6, 2023 • 20

u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model

Paper • 2311.05348 • Published Nov 9, 2023 • 11

On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving

Paper • 2311.05332 • Published Nov 9, 2023 • 9

Prompt Cache: Modular Attention Reuse for Low-Latency Inference

Paper • 2311.04934 • Published Nov 7, 2023 • 28

LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

Paper • 2311.05437 • Published Nov 9, 2023 • 45

LCM-LoRA: A Universal Stable-Diffusion Acceleration Module

Paper • 2311.05556 • Published Nov 9, 2023 • 79

3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features

Paper • 2311.04391 • Published Nov 7, 2023 • 9

LRM: Large Reconstruction Model for Single Image to 3D

Paper • 2311.04400 • Published Nov 8, 2023 • 47

I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models

Paper • 2311.04145 • Published Nov 7, 2023 • 32

OtterHD: A High-Resolution Multi-modality Model

Paper • 2311.04219 • Published Nov 7, 2023 • 31

Relax: Composable Abstractions for End-to-End Dynamic Machine Learning

Paper • 2311.02103 • Published Nov 1, 2023 • 16

VR-NeRF: High-Fidelity Virtualized Walkable Spaces

Paper • 2311.02542 • Published Nov 5, 2023 • 14

LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing

Paper • 2311.00571 • Published Nov 1, 2023 • 40

JudgeLM: Fine-tuned Large Language Models are Scalable Judges

Paper • 2310.17631 • Published Oct 26, 2023 • 32

QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models

Paper • 2310.16795 • Published Oct 25, 2023 • 26

A Picture is Worth a Thousand Words: Principled Recaptioning Improves Image Generation

Paper • 2310.16656 • Published Oct 25, 2023 • 40

DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior

Paper • 2310.16818 • Published Oct 25, 2023 • 30

In-Context Learning Creates Task Vectors

Paper • 2310.15916 • Published Oct 24, 2023 • 41

upvoted 22 papers about 1 year ago

Eureka: Human-Level Reward Design via Coding Large Language Models

Paper • 2310.12931 • Published Oct 19, 2023 • 26

Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection

Paper • 2310.11511 • Published Oct 17, 2023 • 74

Progressive3D: Progressively Local Editing for Text-to-3D Content Creation with Complex Semantic Prompts

Paper • 2310.11784 • Published Oct 18, 2023 • 10

Context-Aware Meta-Learning

Paper • 2310.10971 • Published Oct 17, 2023 • 16

BitNet: Scaling 1-bit Transformers for Large Language Models

Paper • 2310.11453 • Published Oct 17, 2023 • 96

Aligning Text-to-Image Diffusion Models with Reward Backpropagation

Paper • 2310.03739 • Published Oct 5, 2023 • 21

How FaR Are Large Language Models From Agents with Theory-of-Mind?

Paper • 2310.03051 • Published Oct 4, 2023 • 34

Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion

Paper • 2310.03502 • Published Oct 5, 2023 • 77

PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis

Paper • 2310.00426 • Published Sep 30, 2023 • 61

Enable Language Models to Implicitly Learn Self-Improvement From Data

Paper • 2310.00898 • Published Oct 2, 2023 • 23

Text-to-3D using Gaussian Splatting

Paper • 2309.16585 • Published Sep 28, 2023 • 31

DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation

Paper • 2309.16653 • Published Sep 28, 2023 • 45

VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning

Paper • 2309.15091 • Published Sep 26, 2023 • 32

CodePlan: Repository-level Coding using LLMs and Planning

Paper • 2309.12499 • Published Sep 21, 2023 • 73

Large Language Model for Science: A Study on P vs. NP

Paper • 2309.05689 • Published Sep 11, 2023 • 20

MVDream: Multi-view Diffusion for 3D Generation

Paper • 2308.16512 • Published Aug 31, 2023 • 102

DragNUWA: Fine-grained Control in Video Generation by Integrating Text, Image, and Trajectory

Paper • 2308.08089 • Published Aug 16, 2023 • 21

Dual-Stream Diffusion Net for Text-to-Video Generation

Paper • 2308.08316 • Published Aug 16, 2023 • 23

Teach LLMs to Personalize -- An Approach inspired by Writing Education

Paper • 2308.07968 • Published Aug 15, 2023 • 25

TeCH: Text-guided Reconstruction of Lifelike Clothed Humans

Paper • 2308.08545 • Published Aug 16, 2023 • 33

Shepherd: A Critic for Language Model Generation

Paper • 2308.04592 • Published Aug 8, 2023 • 29

Seeing through the Brain: Image Reconstruction of Visual Perception from Human Brain Signals

Paper • 2308.02510 • Published Jul 27, 2023 • 21