My Homelab Journal

Unvieling the world of Deep Learning • Kernel Optimization • CUDA • AI Systems

HOME
CATEGORIES
TAGS
ARCHIVES
ABOUT

Home Tags

Tags

Tags

learning-journey6

matrix multiplication1

matrix-multiplication2

memory-optimization4

parallel-computing2

Performance Trade‑off1

structured-data-extraction1

warp-divergence2

Recently Updated

From 30ms to 2ms: My Wild Ride Optimizing GPU Kernels (And Why Memory is Actually Everything)
From Confusion to Colors: My Journey Learning Parallel Image Magic with CUDA Threads
From Matrix Multiplication to Warp Optimizations — My Journey and Insights.
AI Action Item Extractor: Meeting Dialogue to JSON.
My Journey Optimizing Attention: Why My First CUDA Optimization Barely Worked

Trending Tags

learning-journey cuda deep-learning gpu-kernels gpu memory-optimization optimization performance triton profiling

© 2026 Umang Singh. Some rights reserved.

Using the Chirpy theme for Jekyll.

Trending Tags

learning-journey cuda deep-learning gpu-kernels gpu memory-optimization optimization performance triton profiling

A new version of content is available.