Krita s AI Diffusion zdarma: Když se vám Photoshop nevyplatí

Adam Vágner

3 týždne ago

Krita: Otevřený grafický editor s podporou AI

Nástup modelů AI pro generování obsahu byl raketový. Vedle ukázkových aplikací se objevily i scénáře pro praktické využití AI při běžné práci. Ohromily online služby či Photoshop s AI nástroji pro editaci fotografií. Ne každý ale kvůli tomu chce platit předplatné. Ukážeme si, co běžným smrtelníkům umožní otevřený grafický editor Krita s využitím lokálních modelů AI dostupných zdarma a jak je rozběhat na běžné herní grafické kartě.

Tento článek mohl vzniknout díky finanční podpoře společností NVIDIA. Do jeho obsahu nezasahovala, článek vychází z našich poznatků a reprezentuje názory autora.

Generativní modely, jako jsou GPT, DALL·E nebo Stable Diffusion, jsou náročné na výpočetní výkon. Jedním z užitečných nástrojů, které umožňují při práci s modely AI dosáhnout vyšší efektivity, je framework NVIDIA TensorRT určený k zrychlení a optimalizaci inferencí hlubokých neuronových sítí.

TensorRT pomáhá generativním modelům běžet rychleji a s menšími nároky na hardware. Toho dosahuje například slučováním vrstev modelu, optimalizací výpočetní grafiky nebo využitím smíšené přesnosti (např. FP16 nebo INT8). Díky tomu se snižuje latence i spotřeba paměti, což je výhodné při nasazení modelů na serverech, ale také doma na běžných grafických kartách.

V praxi se TensorRT využívá například při zpracování textových nebo obrazových generativních modelů, které mohou být nasazeny jak v cloudu, tak na lokálních nebo přenosných zařízeních. Jeho podpora přispívá k efektivnímu provozu aplikací, aniž by bylo nutné výrazně zvyšovat náklady na hardware.

TensorRT je kompatibilní s frameworky, jako jsou PyTorch nebo TensorFlow, což umožňuje jednoduché nasazení optimalizovaných modelů, takže je pro vývojáře i nadšence snazší začlenit optimalizované modely do svých projektů a nabízet tak přístup k pokročilé generativní AI široké veřejnosti a pracovat s nimi i na běžných grafických kartách v domácích podmínkách.

Využijeme k tomu populární otevřený grafický editor Krita a jeho doplňku AI Diffusion, který propojuje samotný program s platformou ComfyUI, což je grafické rozhraní pro práci s modely AI pro tvorbu obsahu.

Krita: volně dostupná alternativa pro pokročilou editaci obrázků

Krita je bezplatná multiplatformní aplikace typu open source. Oblíbená je hlavně mezi digitálními umělci, ale nabízí i celou řadu nástrojů, které se hodí pro úpravy fotografií. Díky kombinaci pokročilých funkcí a přívětivého uživatelského rozhraní je zajímavou volbou pro ty, kdo hledají efektivní software a nechtějí investovat do placených programů.

Vznikla už v roce 1998 jako součást balíku KOffice a její původní záměr byl konkurovat profesionálním aplikacím pro úpravu obrázků, jako je Photoshop nebo GIMP. V průběhu času však vývojáři zaměřili své úsilí na potřeby digitálních umělců, protože tento segment byl ve světě open-source softwaru výrazně opomíjený.

Její rozhraní i funkce jsou optimalizované právě pro ilustrace, koncepty a další výtvarné techniky. Přestože pro úpravy fotek nabízí ve výchozím stavu méně pokročilé nástroje než zatím nepřekonaný Photoshop či jednodušší Affinity Photo, lze ji využít i pro úpravy fotografií.

Krita umožňuje přizpůsobení pracovního prostoru podle potřeb uživatele. Rozvržení panelů a nástrojů si můžete nastavit tak, aby vám vyhovovalo při práci na fotografiích. Zvládne i práci s bitmapovými obrázky ve vysokém rozlišení, což je ideální pro fotografy, kteří se věnují detailním úpravám. Navíc obsahuje nástroje, které se hodí i pro kreativnější využití, například překreslení fotografií pomocí štětců nebo tvorbu grafických prvků přímo na základě fotek.

V aplikaci nechybí podpora vrstev s transparentními maskami, díky nimž můžete pracovat na jednotlivých částech obrazu samostatně. Podporuje i vrstvy úprav či práci s externími objekty. Můžete tak provádět nedestruktivní úpravy a snadno se vracet k původní verzi fotografie, díky intuitivním posuvníkům a pokročilým funkcím pro správu barev ladit barvy, jas, křivky, úrovně a další vlastnosti dokumentu, aniž byste ovlivnili zbytek snímku. Podpora různých barevných prostorů (včetně HDR) ocení zejména ti, kdo pracují s profesionálními formáty.

Má i širokou podporu filtrů – od zaostření a rozmazání až po stylizované efekty, které mohou dodat fotografiím umělecký nádech.

Díky podpoře skriptování a plug-inů lze schopnosti Krity výrazně rozšířit a zvládne i věci, které Affinity Photo neumí. Silnou stránkou je podpora skriptování v jazyce Python, která umožňuje vývojářům a uživatelům vytvářet vlastní nástroje a automatizovat různé úlohy přímo v prostředí Krita. Právě toho využívá i doplněk pro editaci obrázků s využitím umělé inteligence Krita AI Diffusion, na který se dnes chci zaměřit.

Doplněk využívá modely umělé inteligence, jako je Stable Diffusion, které se v poslední době staly populárními pro generování a úpravy obrázků.

Speciální nástroje, které se pro spouštění modelů AI dnes používají, běží většinou jako webové aplikace na lokálním serveru. Práce s jejich rozhraním a stěhování upravovaných obrázků mezi webovou aplikací a editorem je ale mírně řečeno nekomfortní.

Krita AI Diffusion je naproti tomu integrovaný přímo do uživatelského rozhraní Krita, kde se chová jako další sada nástrojů. S pomocí AI tak můžete generovat a upravovat obsah rovnou uvnitř rozpracovaného dokumentu. Dá se vytušit, že záměrem autora doplňku je přiblížit se funkcím využívajícím AI, které nabízí Photoshop.

K tomu, aby běžela AI lokálně, je doporučená grafická karta s alespoň 6 GB videopaměti. Plugin podporuje grafiky NVIDIA s prostředím CUDA, GPU AMD přes DirectML na Windows a ROCm pod Linuxem, a na Apple M1/M2 využívá MPC na macOS. Můžete ale využít i cloudové služby.

Funkce Krita AI Diffusion

Dá se říct, že doplněk AI Diffusion funguje jako prostředník mezi Kritou a ComfyUI, což je uživatelské rozhraní typu open-source pro generativní umělou inteligenci, které využívá uzlový systém pro tvorbu obrazů, videí a audia. Umožňuje uživatelům navrhovat a provádět pokročilé pracovní postupy pro Stable Diffusion prostřednictvím grafického rozhraní, aniž by bylo nutné programovat. Podporuje různé modely, jako jsou SD1.x, SD2.x, SDXL, a integruje nástroje jako ControlNet a T2I-Adapter. Aplikace je dostupná pro Windows, macOS a Linux.

Samotné AI Diffusion nabízí několik nástrojů pro práci s obrázky:

Generate – Vytváření nových obrázků od nuly na základě textového popisu nebo existujícího obrázku. Výchozí podpora modelů SD1.5 a SDXL.
Upscale – dovolí zvětšování rozlišení obrázků až na rozlišení 4K či 8K a více bez přetížení paměti.
Inpaint – Umožňuje vybrat oblast obrázku a odstranit nebo nahradit její obsah. Generování lze řídit jednoduchými textovými pokyny.
Outpaint – Rozšíření plátna s automatickým doplněním prázdné oblasti tak, aby plynule navazovala na stávající obraz.
Refine – Možnost jemně doladit obsah stávajícího obrázku pomocí posuvníku síly efektu. Skvělé i pro přidávání nových prvků do obrazu pomocí hrubého náčrtu.
Live Painting – AI interpretuje vaše plátno v reálném čase a poskytuje okamžitou zpětnou vazbu.

Kromě toho AI Diffusion umožňuje řízení tvorby obrázků pomocí skic, linek nebo map (hloubkových, normálových). Lze přenášet pozice postav ze snímků nebo ovládat kompozici pomocí segmentačních map.

Pracuje s libovolným rozlišením obrázků, umí automaticky přizpůsobit rozlišení požadavkům AI modelu.

Při práci na svém projektu můžete úlohy zadávat do fronty a dovolí vám i generování obrázků zrušit. Dříve vygenerované obrázky a pokyny lze snadno procházet v historii.

Výchozí přednastavení stylů pokrývá základní scénáře pro jednoduché ovládání, umožní vám ale i vytváření vlastních předvoleb, výběr kontrolních bodů Stable Diffusion, přidání LoRA modelů, úprava samplerů a další.

Kritu můžete stáhnout přímo ze stránek projektu Krita.org. Existuje verze pro platformu Windows (instalátor i přenosný zip), macOS, 64b Linux a na Google Play pro Android. Doplněk AI Diffusion podporuje Windows, Linux a MacOS. Projdeme si postup instalace s přenosnou variantou pro Windows.

Zip s Kritou rozbalíme například do složky C:\programs\. Spustit ji pak lze přes zástupce Krita ze složky programu, nebo otevřít přímo krita.exe z podadresáře bin.

Dále stáhneme plugin Krita AI Diffusion. Ten je ke stažení na githubu. Stažený zip s doplňkem už nainstalujete přímo z Krity. V nabídce vyberete z Nástroje>Skripty>Importuje modul Python ze souboru…, najdeme příslušný stažený zip s doplňkem a potvrdíme, že jej má Krita aktivovat.

Po instalaci je třeba Kritu restartovat. Následně zapněte dok AI Image Generator pro ovládání pluginu (přitom musíte mít otevřený nějaký dokument, jinak je nabídka nepřístupná). Otevře se v postranním panelu. Po instalaci bude na doku svítit žluté upozornění, že se nepodařilo připojit na servery, protože plugin není nakonfigurovaný. Pustíme se do toho.

Jak to nainstalovat?

V panelu Configure Image Diffusion máte na výběr ze tří možností – Local Managed Server, Custom Server a výchozí nastavení Online service. My jej budeme chtít provozovat lokálně, model AI poběží na GPU. V nastavení je možné zvolit i vlastní server v případě, že už používáte Comfy UI, my to necháme na pluginu, který Comfy UI stáhne a zprovozní sám.

Ve výchozím nastavení se instaluje do složky C:\users\%UserProfile%\AppData\Roaming\krita\ai_diffusion\server. Můžete to nechat, jak to je, já jej umístím do stejné složky, v jaké je rozbalená Krita. Je k ní rychlejší přístup, než když je zahrabaná někde v uživatelském profilu v aplikacích a může se to hodit třeba při přidávání dalších modelů.

Dále zvolíme v rozbalovacím seznamu akceleraci přes GPU – Use CUDA (NVIDIA GPU) a přidáme i další položky. Pro začátek je dobré povolit Stable Diffusion XL, který je náročnější na hardware, ale podporuje generování obrázků v rozlišení až 1024×1024 bodů a je na tom lépe s interpretací textového zadání, generováním detailů, anatomie a komplexních scén, zatímco klasický Stable Diffusion 1.5 je trénovaná na obrázky v rozlišení 512×512 bodů.

Mezi jednotlivými položkami jsou různé závislosti, jsou vzájemně provázané a je možné, že pokud nevyberete ty správné, některé funkce nebudou dostupné, nebo nebudou fungovat korektně. Začínal jsem na pár položkách, ale jak jsem postupně zkoušel různé funkce a proklepával možnosti doku AI Image Generation, některé funkce jsem v něm nenacházel a u některých si všímal, že nefungují, jak by měly. Na zjišťování, které komponenty potřebuji na které funkce, jsem čas neměl, takže jsem je nakonec nainstaloval všechny. Počítejte s tím, že v aktuálně poslední verzi pluginu 1.29.0 to znamená stahovat zhruba 46 GB dat.

ComfyUI, který se stará o všechny chytré funkce, má ve své složce i potřebné soubory pro Python, na němž běží a spouští se automaticky s Kritou. Po spuštění Krity můžete funkčnost ComfyUI ověřit tím, že otevřete internetový prohlížeč a v něm do adresního řádku vložíte ip adresu 127.0.0.1:8188. Mělo by se otevřít lokální server a zobrazit grafické rozhraní ComfyUI, kterému pak plugin z Krity podstrkuje pracovní úlohy do fronty.

Přidám ještě stručný orientační popis všech položek ze seznamu komponent tak, jak jej vygeneroval ChatGPT 4o:

Core Components

Python:
- Zajišťuje základní funkce pro spuštění serveru a pluginu v Kritě.
ComfyUI:
- Framework pro spouštění generativní AI. Musí být nainstalován, aby vše fungovalo.
Custom Nodes:
- Umožňuje přidávat vlastní moduly a rozšíření do ComfyUI.
Control Nodes:
- Tyto uzly jsou potřebné pro funkce jako ControlNet nebo jiné vstupně-výstupní funkce.

Workloads

Zde si můžete zvolit, zda chcete používat Stable Diffusion 1.5 nebo Stable Diffusion XL.
- SDXL poskytuje lepší kvalitu výstupu, ale vyžaduje více výpočetního výkonu.
- SD 1.5 je rychlejší a méně náročný, ale kvalita může být o něco nižší.

Recommended Checkpoints

Serenity (SD1.5 – Photography):
- Optimalizovaný pro fotorealistické výstupy.
DreamShaper (SD1.5 – Artwork):
- Vhodný pro umělecké ilustrace.
Flat2D AnimeMerge (SD1.5 – Cartoon/Anime):
- Specializovaný na generování anime a kreslených stylů.
RealVisc (SDXL – Photography):
- Fotorealistické výstupy pro SDXL.
ZavyChroma (SDXL – Artwork):
- Zaměřen na umělecké a stylizované generování.
Pixelwave (SDXL – Artwork):
- Stylizované generování s důrazem na retro nebo pixel art.

Upscalers (Super-Resolution)

HAT GAN Super-Resolution (Quality):
- Zvýšení rozlišení s důrazem na jemné detaily.
Real HAT GAN Super-Resolution (Sharper):
- Vylepšuje ostrost při upscale obrazu.

Control Extensions for SD 1.5

ControlNet Scribble:
- Převádí skici a náčrty na detailní obrazy.
ControlNet Line Art:
- Umožňuje generovat na základě linkových kreseb.
ControlNet Soft Edge:
- Pracuje s rozmazanými okraji pro realističtější výsledky.
ControlNet Canny Edge:
- Využívá detekci hran pro přesné generování.
ControlNet Depth:
- Generování s použitím hloubkových map.
ControlNet Normal:
- Pracuje s normálovými mapami pro textury a povrchy.
ControlNet Pose:
- Generování postav podle konkrétních póz.
ControlNet Segmentation:
- Rozdělení obrázku na části, například pozadí a objekty.
ControlNet Stencil:
- Pro řízení výsledků používá šablony, pomocí nichž můžete generovat tvary a vzory na určité části obrazu
ControlNet Hand Refiner:
- V generovaných obrazech zlepšuje kvalitu rukou, s nimiž mají modely AI problémy
IP-Adapter Face (SD1.5):
- Přenáší rysy obličeje do výstupu.

Control Extensions for SD XL

ControlNet Universal (XL):
- Univerzální podpora různých vstupů (hloubka, linie, skici).
IP-Adapter Face (XL):
- Podobně jako verze pro SD1.5, ale optimalizováno pro SDXL.

Detailnější vysvětlení jednotlivých položek si zvládnete nechat od AI vysvětlit sami, stačí jen zadat dotaz do chatu. Zorientujete se i s pomocí těch volně dostupných, můžete se ještě doptat na detaily a odpověď vás navede i na další zdroje.

Možnosti konfigurace doplňku

Do okna konfigurace se dostanete klepnutím na ikonku ozubeného kolečka v doku doplňku.

Otevře se panel, který známe už z instalace. V postranní nabídce najdete následující položky:

Connection – slouží k nastavení serveru pro AI Diffusion, kde si lze vybrat mezi lokálním, vlastním řešením či online službou. Můžete zvolit adresář instalace serveru a sledovat stav včetně typu GPU akcelerace. Zobrazuje také seznam dostupných modelů, rozšíření a jejich stav instalace.

Styles – umožňuje spravovat a upravovat styly generování obrázků, včetně výběru modelů a jejich konfigurace (např. VAE, rozlišení, SAG). Lze v nich nastavit klíčová slova pro výchozí a negativní výzvy (prompty) a přizpůsobit parametry generování, například jestli chcete spíše fotorealistické výstupy nebo kresby. Nabízí také volbu předvoleb kvality pro různé scénáře, včetně rychlého nebo detailního režimu.

Diffusion – obsahuje nastavení oblasti výběru pro generování obrázků, včetně parametrů jako růst, rozostření pozadí a odsazení výběru. Uživatel může také aktivovat filtr NSFW pro automatické blokování explicitního obsahu. Tyto možnosti umožňují jemné doladění práce s oblastmi výběru a jejich přizpůsobení podle požadavků projektu.

Interface – umožňuje volbu jazyka rozhraní (čeština zatím chybí). Můžete zde ale zapnout překlad promptů, díky kterému lze psát zadání přímo v češtině. Dále lze zapnout automatické doplňování tagů či funkce, jako je automatické zobrazení výsledků na plátně a zobrazení kroků generování. Uživatel může také konfigurovat průběh generování, například ukládání výstupů do logu pro ladění.

Prompt „Červené auto po zeleném městě“ už není po zapnutí překladu promptů problém,
jenom jsme trochu zapomněli na řidiče.

Performance – slouží k nastavení výkonu, včetně velikosti paměti pro historii generovaných obrázků (RAM a disk). Umožňuje optimalizovat generování podle hardwaru pomocí předvoleb a upravit parametry, jako je maximální počet dávkových úloh, rozlišení a maximální počet pixelů. Díky tomu lze dosáhnout rozumného kompromisu mezi kvalitou a rychlostí generování.

Plugin – zobrazuje verzi pluginu, umožňuje nastavení kontroly aktualizací a jejich stažení. A hlavně v ní najdete odkazy na dokumentaci, podporu a komunitní informace na GitHubu, wiki nebo odkaz na diskusní fórum na GitHubu či Discordu.

Detailní snímky jednotlivých záložek, dostupných funkcí a možností nastavení v aktuální verzi jsou na snímcích níže.

Nakolik bude práce s obrázky svižná, záleží především na rozlišení obrázku či velikosti oblastí, v jakých budete obsah generovat i na použitých modelech. S vyšším rozlišením rostou nároky na paměť grafické karty i výkon. Sám jsem Kritu zkoušel na 16GB GeForce RTX 4070 Ti Super, ale ani těch 16 GB videopaměti není nezbytných. S obrázky ve full HD se dalo pracovat bez potíží, většina operací zabrala jednotky či pár desítek sekund. 4K dávalo už systému zabrat víc, na 16GB kartě se generování snímku s modelem Cinematic XL protáhlo o necelou minutu. Ani upscaling obrázků do 4K není problém. Navíc mohou operace běžet ve frontě na pozadí a s Kritou se přitom dá normálně pracovat.

Zkoušejte, není to nuda!

Komplexní dokumentace všech funkcí neexistuje. Jak u modelů pro AI, tak u softwaru je vývoj dost bouřlivý a pár měsíců staré návody, videa, screenshoty a popisky už přesně neodpovídají aktuálnímu rozhraní a nastavením. Také dokumentace teď zaostává za vývojem a pokud se AI nemůžete věnovat na plný úvazek, není lehké sledovat a stíhat vše, co se kolem modelů pro AI děje.

Neměl jsem prostor zkoumat a probírat všechny nástroje v rámci tohoto článku. Ale nebyl to ani záměr, tím bylo dát vědět více lidem, že tu taková možnost je a jak se k ní dá dopracovat. Naučit se, jak všechny nástroje doplňku fungují a jaká nastavení nabízejí, není jen na pár hodin.

Mezi jednotlivými modely můžete přepínat přímo v doku a vyplatí se zkoušet, který dává v dané situaci lepší výsledky.

K dispozici je kromě generování obsahu i upscaling pro zvětšení rozlišení, režimy pro animace či živý náhled, který celkem pohotově reaguje na úpravy, které uděláte ve zdrojovém obrázku.

Ne všechny jsou vždy přístupné při všech činnostech – řada z nich se objeví až při aktivních výběrech, další pracují s již vygenerovaným obsahem, a některé, jako „Pose“ pro uzpůsobení pozice generovaných postav, fungují třeba na vektorových vrstvách, jiné zase na maskách vrstvy a podobně.

Nastavit můžete i váhy jednotlivých funkcí, počty iterací a ovlivnit tak rychlost a náročnost generování obsahu jak po stránce času, tak po stránce systémových prostředků.

Velmi ilustrativní ukázky práce s některými z mnoha funkcí nahrál na Youtube přímo od autor doplňku AI Diffusion.

Celý proces se dá ještě doladit přímo přes server ComfyUI. Jeho prostřednictvím můžete přidat i další modely pro AI, které samotný plugin nativně nepodporuje.

Asi není jiná cesta než si pořádně vyzkoušet, jak to všechno funguje. K dispozici je už teď hromada nástrojů a režimů, s nimiž si můžete vyhrát. Kromě diskuze k projektu na GitHubu vám budou vydatným pomocníkem a rozcestníkem pro další bádání vám i online chatboty s AI, které zvládají procházení webu, filtrování informací a odkazy na zdroje informací.

Počítejte s tím, že ne vždycky se vám podaří dosáhnout dokonalého výsledku, ne vždy bude všechno fungovat a přinejmenším zpočátku ani nedokážete sami vždy přesně definovat, co po AI chcete. A ne vždy si to správně přebere. Podobného výsledku lze dosáhnout více cestami, jen je třeba se tomu chvíli věnovat jako všemu, co se chce člověk trochu naučit.

Continue: Instalace Krita a AI Diffusion