OpenEuroLLM: Evropa nevzdává boj o vlastní AI

Dne 1. února 2025 oficiálně odstartoval projekt OpenEuroLLM, jehož cílem je vytvořit velké jazykové modely pro všechny evropské jazyka. Projekt bude širokým konsorciem výzkumných institucí, firem a superpočítačových center. Koordinace projektu se ujala Univerzita Karlova pod vedením prof. Jana Hajiče. Posláním OpenEuroLLM je posílit technologickou suverenity Evropy a nabídnout Evropanům nástroje, které budou ctít nejen evropskou legislativu, ale také jazykové a kulturní hodnoty Starého kontinentu.

OpenEuroLLM logo

OpenEuroLLM bude vyvíjet rodinu výkonných, vícejazyčných LLM pro komerční, veřejné i soukromé subjekty, a to sice:

Transparentní modely s otevřeným zdrojovým kódem, vyhovující evropské regulaci, demokratizují přístup k vysoce kvalitním technologiím v oboru umělé inteligence, které posílí schopnost evropských firem konkurovat na globálním trhu a veřejným organizacím umožní poskytovat účinné veřejné služby.

prof. Jan Hajič, hlavní koordinátor OpenEuroLLM

Stěžejní hodnoty OpenEuroLLM

Implicitní princip technologické suverinity Evropy doplňují:

  1. otevřenost ústící v transparentnost – otevřenost se týká trénovacích dat, dokumentace, testování, vyhodnocování a – jak v open-source dobrým zvykem – zahrnuje i otevřenost vůči příspěvkům vývojářské komunity
  2. bezproblémová shoda s evropskými předpisy včetně EU AI Act
  3. jazyková, kulturní a aplikační diverzita

Centra EuroHPC by nám měla pomoci s rozjezdem. Ale nebude to tak jednoduché, každé z těchto center má jinou infrastrukturu. Někde používají karty od Nvidie, jinde od AMD, takže přenositelnost není triviální. Dále obecně máme přislíbeny kapacity z chystaných AI továren.

prof. Jan Hajič, hlavní koordinátor OpenEuroLLM

Hlavní přínosy OpenEuroLLM

  • minimální náklady ze strany uživatele
  • data neopouštějí území Evropy – nemusíte se bát zcizení svých dat soudruhy z Číny, Sovětského svazu, ani Ameriky
  • compliance = snadná implementace – shoda s evropským právem zamezí jakýmkoliv prodlevám ve všech krocích implemtace modelu při kterémkoliv nasazení
  • open-source
  • model myslí a komunikuje v mateřském jazyce uživatele – nikoliv jen překládá to, co natrénoval na anglických datasetech

Výpočetní infrastruktura poháněná superpočítači

Jazykové modely OpenEuroLLM budou trénovány a provozovány na špičkových evropských superpočítačových centrech, která poskytují nezbytný výpočetní výkon pro zpracování rozsáhlých datových sad a komplexních modelů. Klíčovými partnery jsou členové organizace EuroHPC:

  • Barcelona Supercomputing Center (Španělsko): domov superpočítače MareNostrum 5 (poháněného udržitelnou energií)s výkonem 314 petaflopů
  • Cineca Interuniversity Consortium (Itálie): provozující superpočítač Leonardo, postavený na 4. generaci procesorů Intel Xeon Scalable a GPU NVIDIA Amper, o výkonu 250 petaflopů
  • CSC – IT Center for Science (Finsko): hostující jeden z nejvýkonnější superpočítačů světa LUMI o výkonu přes 550 petaflopů
  • SURF (Nizozemí), jedno z center integrace kvantových počítačů do evropské superpočítačové struktury

Ty v budoucnu doplní tzv. AI továrny, což jsou datová centra specializovaná na AI. Disponují:

  1. infrastrukturou pro přípravu a anýzu – sběr, čištění a předzpracování dat pomocí generativních modelů, strojového učení a specializovaných nástrojů pro zpracování dat
  2. výkonnými výpočetními systémy – především superpočítači
  3. softwarem pro trénink AI modelů (platformy a frameworky pro vývoj, trénink a optimalizaci)
  4. testovacím prostředím simulující nasazení LLM v reálných scénářích.

Stačí to na americké giganty?

Projekt OpenEuroLLM získal 20 mil. EUR z programu Digitální Evropa, celkově má přislíbeno 37,4 milionu EUR – ale počítá se i s dalšími zdroji konfinancování, jako jsou firmy a národní subjekty (např. české MŠMT). I když jde jen o zlomek toho, co investují technologičtí giganti, nepočítá se s tím, že OpenEuroLLM technologicky zaostával.

Výpočetní infrastruktura sice nedosahuje kapacit společností OpenAI, Google či Antropic, ale vytvářejí ji špičkové instituce, které jsou schopny optimalizovat zdroje, rychle implementovat závěry vědeckého výzkumu do aplikační praxe a cíleně specializovat jednotlivé LLM tak, aby dosáhly nadstandardní kvality a relevance výsledků pro evropského uživatele.

OpenEuroLLM je ukázkovým příkladem spolupráce různých sektorů pro vývoj evropských produktů umělé inteligence respektujících hodnoty uznávané v celém evropském technologickém ekosystému.

prof. Milena Králíčková, rektorka Univerzity Karlovy

Posily OpenEuroLLM v podobě výzkumníků a firem

Největší tažnou silou OpenEuroLLM je spolupráce napříč sektory, oblastmi a specializacemi – nikoliv superpočítače samy o sobě.

Univerzity a výzkum

Společnosti

OpenEuroLLM: AI postavená na superpočítačích a HPLT

I když americké komerční AI disponují ohromnými investicemi a masivní infrastrukturou, často se spoléhají na rozsáhlé GPU farmy. Na rozdíl od nich má OpenEuroLLM potenciál využít špičkové evropské superpočítače, jako je MareNostrum 5, Leonardo a LUMI, a v budoucnu i kvantové počítače, což umožní využití výpočetní síly, která není pouze o množství, ale především o kvalitě a optimalizaci zdrojů.

Navíc propojení s projektem High Performance Language Technologies (HPLT) dodává OpenEuroLLM další rozměr – strategii založenou na pokročilých výzkumných metodách a inovacích, která dokáže rychle převádět vědecké poznatky do praxe. Díky HPLT může OpenEuroLLM využít kvalitativně odlišné síly – nejen masivní počet GPU. Jinými slovy: OpenEuroLLM může být zcela jinou umělou inteligencí.

Zdroje

Co najdete v textu?