Subject description - BE4M36NNO

Summary of Study | Summary of Branches | All Subject Groups | All Subjects | List of Roles | Explanatory Notes               Instructions
BE4M36NNO Non-smooth non-convex optimization for training deep neural networks
Roles:  Extent of teaching:2P+2C
Department:13136 Language of teaching:EN
Guarantors:Mareček J. Completion:Z,ZK
Lecturers:Gehret A., Mareček J. Credits:6
Tutors:Bosák A., Gehret A., Kliachkin A., Mareček J. Semester:Z

Anotation:

Tento kurz představuje nehladkou a nekonvexní optimalizace, která je klíčová pro učení hlubokých neuronových sítí. Paradigma tzv. “krotké geometrie” zajišťuje rigorózní analýzu stochastického subgradientního sestupu a souvisejících algoritmů pro učení neuronových sítí. Předpoklady krotké geometrie (např. definovatelnost aktivačních funkcí v o-minimálních strukturách) umožňují aplikovat řetízkové pravidlo na zobecněné derivace, a tudíž uplatnit neurální zpětné šíření (backpropagation), zaručují existenci derivace na skoro všech bodech, a zároveň vylučují chaotické chování optimalizačních algoritmů. Kurz tak objasňuje, proč metody založené na gradientech konvergují a trénování se stabilizuje, a to i ve vysokých dimenzích. Propojením abstraktní geometrie se strojovým učením se odhaluje, matematické principy, které jsou základem empirického úspěchu hlubokého učení.

Study targets:

Výsledky. Po absolvování tohoto kurzu studenti: • Pochopí principy, na kterých je založen empirický úspěch neuronových sítí. • Budou schopni analyzovat neuronové architektury a dynamiku trénování pomocí principů krotké geometrie (definovatelnosti v o-minimálních strukturách), které propojují definovatelnou regularitu se zárukami konvergence optimalizačních algoritmů a zárukami zobecnění v teorii statistického učení. Aplikovat nástroje jako jsou dekompozice a výběr křivek k analýze nehladké optimalizace. • Vylepší svou schopnost propojit abstraktní teorii s praktickými algoritmy obecněji. Kurz v konečném důsledku vybaví studenty porozuměním o-minimalitě nejen jako teoretického rámce pro nehladkou nekonvexní optimalizaci, ale i jako jazyka pro logiku, geometrii, a učení neuronových sítí.

Content:

Non-smooth non-convex optimization for training deep neural networks Introduction: Practical training of deep neural networks and limits of our understanding thereof. Limits of computability in non-smooth non-convex optimization and the need to limit the function class we consider. Definitions (from variational analysis): Subgradients, subdifferentials. Automated differentiation. Backpropagation. Langevin diffusions. Definitions from model theory: Structures. o-minimal expansions of the real field. Examples. The dimension theorem. Local o-minimality and existence of 1-sided limits. Finiteness: The monotonicity theorem. Cr -monotonicity theorem. Definable choice. Curve selection. Geometry: Manifolds and cells. The definable topology. Cr -cells. Cellular dimension of definable sets. Connectedness of cells. Cells are locally closed. Cell decompositions, dimension, and stratifications. Main stratification theorem: Dimension theory. The small frontier theorem. Dimension and definable Cr -partitions. Dimension and generic cellular properties. Main stratification theorem (cellular properties only and with adjacency). Geometry revisited: Whitney-(a) stratifications. Whitney-(a) stratifications of the graph of a function. Whitney-(b) stratifications of a definable set. Nonsmooth Kurdyka-Łojasiewicz inequality. Looking beyond: Verdier stratification, Thom stratifications, Variational analysis revisited: Clarke subdifferential of a stratifiable function. Generic properties in variational analysis. Projection formula for Fréchet subdifferential. Projection formula for limiting subdifferential. Projection formula for Clarke subdifferential. Projection formula for definable conservative fields. Subdifferential regularity. Deep Learning activation functions are definable: the zoo. Algorithms for Optimization of definable Machine Learning objectives: Stratifiable functions are semismooth and partly smooth. The active strata, proximal aiming, and local behavior of algorithms. Convergence of stochastic subgradient. Autodiff. Theory. PyTorch and TensorFlow contrasted. Bonus lecture: Generalizations. VC dimension and density.

Course outlines:

Exercises outline:

Literature:

Allen Gehret et al., Deep Learning as the Disciplined Construction of Tame Objects, https://arxiv.org/abs/2509.18025 Lou van den Dries, Tame topology and o-minimal structures, London Mathematical Society Lecture Note Series, vol. 248, Cambridge University Press, Cambridge, 1998. Damek Davis, Dmitriy Drusvyatskiy, Sham Kakade, and Jason D Lee, Stochastic subgradient method converges on tame functions, Foundations of computational mathematics 20 (2020), no. 1, 119–154.
A. D. Ioffe, An invitation to tame optimization, SIAM Journal on Optimization 19 (2008), no. 4, 1894–1917.

Requirements:

Subject is included into these academic programs:

Program Branch Role Recommended semester


Page updated 19.4.2026 17:51:07, semester: L/2025-6, L/2029-30, Z/2028-9, Z/2025-6, L/2028-9, Z/2026-7, Z,L/2027-8, L/2026-7, Send comments about the content to the Administrators of the Academic Programs Proposal and Realization: I. Halaška (K336), J. Novák (K336)