Dne 1. února 2025 oficiálně odstartoval projekt OpenEuroLLM, jehož cílem je vytvořit velké jazykové modely pro všechny evropské jazyka. Projekt bude širokým konsorciem výzkumných institucí, firem a superpočítačových center. Koordinace projektu se ujala Univerzita Karlova pod vedením prof. Jana Hajiče. Posláním OpenEuroLLM je posílit technologickou suverenity Evropy a nabídnout Evropanům nástroje, které budou ctít nejen evropskou legislativu, ale také jazykové a kulturní hodnoty Starého kontinentu.

OpenEuroLLM bude vyvíjet rodinu výkonných, vícejazyčných LLM pro komerční, veřejné i soukromé subjekty, a to sice:
Transparentní modely s otevřeným zdrojovým kódem, vyhovující evropské regulaci, demokratizují přístup k vysoce kvalitním technologiím v oboru umělé inteligence, které posílí schopnost evropských firem konkurovat na globálním trhu a veřejným organizacím umožní poskytovat účinné veřejné služby.
prof. Jan Hajič, hlavní koordinátor OpenEuroLLM
Stěžejní hodnoty OpenEuroLLM
Implicitní princip technologické suverinity Evropy doplňují:
- otevřenost ústící v transparentnost – otevřenost se týká trénovacích dat, dokumentace, testování, vyhodnocování a – jak v open-source dobrým zvykem – zahrnuje i otevřenost vůči příspěvkům vývojářské komunity
- bezproblémová shoda s evropskými předpisy včetně EU AI Act
- jazyková, kulturní a aplikační diverzita
Centra EuroHPC by nám měla pomoci s rozjezdem. Ale nebude to tak jednoduché, každé z těchto center má jinou infrastrukturu. Někde používají karty od Nvidie, jinde od AMD, takže přenositelnost není triviální. Dále obecně máme přislíbeny kapacity z chystaných AI továren.
prof. Jan Hajič, hlavní koordinátor OpenEuroLLM
Hlavní přínosy OpenEuroLLM
- minimální náklady ze strany uživatele
- data neopouštějí území Evropy – nemusíte se bát zcizení svých dat soudruhy z Číny, Sovětského svazu, ani Ameriky
- compliance = snadná implementace – shoda s evropským právem zamezí jakýmkoliv prodlevám ve všech krocích implemtace modelu při kterémkoliv nasazení
- open-source
- model myslí a komunikuje v mateřském jazyce uživatele – nikoliv jen překládá to, co natrénoval na anglických datasetech
Výpočetní infrastruktura poháněná superpočítači
Jazykové modely OpenEuroLLM budou trénovány a provozovány na špičkových evropských superpočítačových centrech, která poskytují nezbytný výpočetní výkon pro zpracování rozsáhlých datových sad a komplexních modelů. Klíčovými partnery jsou členové organizace EuroHPC:
- Barcelona Supercomputing Center (Španělsko): domov superpočítače MareNostrum 5 (poháněného udržitelnou energií)s výkonem 314 petaflopů
- Cineca Interuniversity Consortium (Itálie): provozující superpočítač Leonardo, postavený na 4. generaci procesorů Intel Xeon Scalable a GPU NVIDIA Amper, o výkonu 250 petaflopů
- CSC – IT Center for Science (Finsko): hostující jeden z nejvýkonnější superpočítačů světa LUMI o výkonu přes 550 petaflopů
- SURF (Nizozemí), jedno z center integrace kvantových počítačů do evropské superpočítačové struktury
Ty v budoucnu doplní tzv. AI továrny, což jsou datová centra specializovaná na AI. Disponují:
- infrastrukturou pro přípravu a anýzu – sběr, čištění a předzpracování dat pomocí generativních modelů, strojového učení a specializovaných nástrojů pro zpracování dat
- výkonnými výpočetními systémy – především superpočítači
- softwarem pro trénink AI modelů (platformy a frameworky pro vývoj, trénink a optimalizaci)
- testovacím prostředím simulující nasazení LLM v reálných scénářích.
Stačí to na americké giganty?
Projekt OpenEuroLLM získal 20 mil. EUR z programu Digitální Evropa, celkově má přislíbeno 37,4 milionu EUR – ale počítá se i s dalšími zdroji konfinancování, jako jsou firmy a národní subjekty (např. české MŠMT). I když jde jen o zlomek toho, co investují technologičtí giganti, nepočítá se s tím, že OpenEuroLLM technologicky zaostával.
Výpočetní infrastruktura sice nedosahuje kapacit společností OpenAI, Google či Antropic, ale vytvářejí ji špičkové instituce, které jsou schopny optimalizovat zdroje, rychle implementovat závěry vědeckého výzkumu do aplikační praxe a cíleně specializovat jednotlivé LLM tak, aby dosáhly nadstandardní kvality a relevance výsledků pro evropského uživatele.
OpenEuroLLM je ukázkovým příkladem spolupráce různých sektorů pro vývoj evropských produktů umělé inteligence respektujících hodnoty uznávané v celém evropském technologickém ekosystému.
prof. Milena Králíčková, rektorka Univerzity Karlovy
Posily OpenEuroLLM v podobě výzkumníků a firem
Největší tažnou silou OpenEuroLLM je spolupráce napříč sektory, oblastmi a specializacemi – nikoliv superpočítače samy o sobě.
Univerzity a výzkum
- Charles University – Institute of Formal and Applied Linguistics – koordinátor projektu OpenEuroLLM
- Alliance for Language Technologies EDIC (Francie)
- Eindhoven University of Technology (Holandsko)
- ELLIS Institute Tübingen (Německo)
- Fraunhofer IAIS (Německo)
- Lindholmen Science Park (Švédsko)
- Research Center Juelich (Německo)
- University of Helsinki (Finsko)
- University of Oslo (Norsko)
- University of Turku (Finsko)
- University of Tübingen (Německo)
Společnosti
- Silo GenAI (Finsko) – podílí se na vedení OpenEuroLLM
- Aleph Alpha Research (Německo)
- ellamind (Německo)
- LightOn (Francie)
- Prompsit Language Engineering (Španělsko)
OpenEuroLLM: AI postavená na superpočítačích a HPLT
I když americké komerční AI disponují ohromnými investicemi a masivní infrastrukturou, často se spoléhají na rozsáhlé GPU farmy. Na rozdíl od nich má OpenEuroLLM potenciál využít špičkové evropské superpočítače, jako je MareNostrum 5, Leonardo a LUMI, a v budoucnu i kvantové počítače, což umožní využití výpočetní síly, která není pouze o množství, ale především o kvalitě a optimalizaci zdrojů.
Navíc propojení s projektem High Performance Language Technologies (HPLT) dodává OpenEuroLLM další rozměr – strategii založenou na pokročilých výzkumných metodách a inovacích, která dokáže rychle převádět vědecké poznatky do praxe. Díky HPLT může OpenEuroLLM využít kvalitativně odlišné síly – nejen masivní počet GPU. Jinými slovy: OpenEuroLLM může být zcela jinou umělou inteligencí.