Dne 1. února 2025 oficiálně odstartoval projekt OpenEuroLLM, jehož cílem je vytvořit velké jazykové modely pro všechny evropské jazyka. Projekt bude širokým konsorciem výzkumných institucí, firem a superpočítačových center. Koordinace projektu se ujala Univerzita Karlova pod vedením prof. Jana Hajiče. Posláním OpenEuroLLM je posílit technologickou suverenity Evropy a nabídnout Evropanům nástroje, které budou ctít nejen evropskou legislativu, ale také jazykové a kulturní hodnoty Starého kontinentu.
OpenEuroLLM bude vyvíjet rodinu výkonných, vícejazyčných LLM pro komerční, veřejné i soukromé subjekty, a to sice:
Transparentní modely s otevřeným zdrojovým kódem, vyhovující evropské regulaci, demokratizují přístup k vysoce kvalitním technologiím v oboru umělé inteligence, které posílí schopnost evropských firem konkurovat na globálním trhu a veřejným organizacím umožní poskytovat účinné veřejné služby.
prof. Jan Hajič, hlavní koordinátor OpenEuroLLM
Stěžejní hodnoty OpenEuroLLM
Implicitní princip technologické suverinity Evropy doplňují:
- otevřenost ústící v transparentnost – otevřenost se týká trénovacích dat, dokumentace, testování, vyhodnocování a – jak v open-source dobrým zvykem – zahrnuje i otevřenost vůči příspěvkům vývojářské komunity
- bezproblémová shoda s evropskými předpisy včetně EU AI Act
- jazyková, kulturní a aplikační diverzita
Centra EuroHPC by nám měla pomoci s rozjezdem. Ale nebude to tak jednoduché, každé z těchto center má jinou infrastrukturu. Někde používají karty od Nvidie, jinde od AMD, takže přenositelnost není triviální. Dále obecně máme přislíbeny kapacity z chystaných AI továren.
prof. Jan Hajič, hlavní koordinátor OpenEuroLLM
Hlavní přínosy OpenEuroLLM
- minimální náklady ze strany uživatele
- data neopouštějí území Evropy – nemusíte se bát zcizení svých dat soudruhy z Číny, Sovětského svazu, ani Ameriky
- compliance = snadná implementace – shoda s evropským právem zamezí jakýmkoliv prodlevám ve všech krocích implemtace modelu při kterémkoliv nasazení
- open-source
- model myslí a komunikuje v mateřském jazyce uživatele – nikoliv jen překládá to, co natrénoval na anglických datasetech
Výpočetní infrastruktura poháněná superpočítači
Jazykové modely OpenEuroLLM budou trénovány a provozovány na špičkových evropských superpočítačových centrech, která poskytují nezbytný výpočetní výkon pro zpracování rozsáhlých datových sad a komplexních modelů. Klíčovými partnery jsou členové organizace EuroHPC:
- Barcelona Supercomputing Center (Španělsko): domov superpočítače MareNostrum 5 (poháněného udržitelnou energií) s výkonem 314 petaflopů
- Cineca Interuniversity Consortium (Itálie): provozující superpočítač Leonardo, postavený na 4. generaci procesorů Intel Xeon Scalable a GPU NVIDIA Amper, o výkonu 250 petaflopů
- CSC – IT Center for Science (Finsko): hostující jeden z nejvýkonnější superpočítačů světa LUMI o výkonu přes 550 petaflopů
- SURF (Nizozemí), jedno z center integrace kvantových počítačů do evropské superpočítačové struktury
- Juelich Supercomputing Center (JSC), (Německo)
Ty v budoucnu doplní tzv. AI továrny, což jsou datová centra specializovaná na AI. Disponují:
- infrastrukturou pro přípravu a anýzu – sběr, čištění a předzpracování dat pomocí generativních modelů, strojového učení a specializovaných nástrojů pro zpracování dat
- výkonnými výpočetními systémy – především superpočítači
- softwarem pro trénink AI modelů (platformy a frameworky pro vývoj, trénink a optimalizaci)
- testovacím prostředím simulující nasazení LLM v reálných scénářích.
Stačí to na americké giganty?
Projekt OpenEuroLLM získal 20 mil. EUR z programu Digitální Evropa, celkově má přislíbeno 37,4 milionu EUR – ale počítá se i s dalšími zdroji konfinancování, jako jsou firmy a národní subjekty (např. české MŠMT). I když jde jen o zlomek toho, co investují technologičtí giganti, nepočítá se s tím, že OpenEuroLLM technologicky zaostával.
Výpočetní infrastruktura sice nedosahuje kapacit společností OpenAI, Google či Antropic, ale vytvářejí ji špičkové instituce, které jsou schopny optimalizovat zdroje, rychle implementovat závěry vědeckého výzkumu do aplikační praxe a cíleně specializovat jednotlivé LLM tak, aby dosáhly nadstandardní kvality a relevance výsledků pro evropského uživatele.
OpenEuroLLM je ukázkovým příkladem spolupráce různých sektorů pro vývoj evropských produktů umělé inteligence respektujících hodnoty uznávané v celém evropském technologickém ekosystému.
prof. Milena Králíčková, rektorka Univerzity Karlovy
Posily OpenEuroLLM v podobě výzkumníků a firem
Největší tažnou silou OpenEuroLLM je spolupráce napříč sektory, oblastmi a specializacemi – nikoliv superpočítače samy o sobě.
Univerzitní instituty
- Ústav formální a aplikované lingvistiky z Matematicko-fyzikální fakultu Univerzity Karlovy – koordinátor projektu OpenEuroLLM
- Department of Mathematics and Computer Science, Eindhoven University of Technology (Holandsko)
- Department of Computer Science, Faculty of Science University of Helsinki (Finsko)
- Department of Informatics, Faculty of Mathematics and Natural Sciences, University of Oslo (Norsko)
- Department of Future Technologies, Faculty of Science, University of Turku (Finsko)
- Department of Computer Science, Faculty of Science, University of Tübingen (Německo)
Výzkumné instituty
- Alliance for Language Technologies EDIC (Francie)
- Tübingen AI Center na ELLIS Institute Tübingen (Německo)
- Fraunhofer IAIS (Německo)
- AI Sweden v rámci Lindholmen Science Park (Švédsko)
- Research Center Juelich (Německo)
Firmy
- Silo GenAI (Finsko) – podílí se na vedení OpenEuroLLM
- Aleph Alpha Research (Německo)
- ellamind (Německo)
- LightOn (Francie)
- Prompsit Language Engineering (Španělsko)
OpenEuroLLM: AI postavená na superpočítačích a HPLT
I když americké komerční AI disponují ohromnými investicemi a masivní infrastrukturou, často se spoléhají na rozsáhlé GPU farmy. Na rozdíl od nich má OpenEuroLLM potenciál využít špičkové evropské superpočítače, jako je MareNostrum 5, Leonardo a LUMI, a v budoucnu i kvantové počítače, což umožní využití výpočetní síly, která není pouze o množství, ale především o kvalitě a optimalizaci zdrojů.
Navíc propojení s projektem HPLT dodává OpenEuroLLM další rozměr – strategii založenou na pokročilých výzkumných metodách a inovacích, která dokáže rychle převádět vědecké poznatky do každodenní praxe. Díky HPLT může OpenEuroLLM využít kvalitativně odlišné síly – nejen masivní počet GPU. Jinými slovy: OpenEuroLLM může být zcela jinou umělou inteligencí.