OpenEuroLLM: Evropa nevzdává boj o vlastní AI

Dne 1. února 2025 oficiálně odstartoval projekt OpenEuroLLM, jehož cílem je vytvořit velké jazykové modely pro všechny evropské jazyka. Projekt bude širokým konsorciem výzkumných institucí, firem a superpočítačových center. Koordinace projektu se ujala Univerzita Karlova pod vedením prof. Jana Hajiče. Posláním OpenEuroLLM je posílit technologickou suverenitu Evropy a nabídnout Evropanům nástroje, které budou ctít nejen evropskou legislativu, ale také jazykové a kulturní hodnoty Starého kontinentu.

Co najdete v textu?

OpenEuroLLM bude vyvíjet rodinu výkonných, vícejazyčných LLM pro komerční, veřejné i soukromé subjekty, a to sice:

Transparentní modely s otevřeným zdrojovým kódem, vyhovující evropské regulaci, demokratizují přístup k vysoce kvalitním technologiím v oboru umělé inteligence, které posílí schopnost evropských firem konkurovat na globálním trhu a veřejným organizacím umožní poskytovat účinné veřejné služby.

prof. Jan Hajič, hlavní koordinátor OpenEuroLLM

Stěžejní hodnoty OpenEuroLLM

Implicitní princip technologické suverinity Evropy doplňují:

otevřenost ústící v transparentnost – otevřenost se týká trénovacích dat, dokumentace, testování, vyhodnocování a – jak v open-source dobrým zvykem – zahrnuje i otevřenost vůči příspěvkům vývojářské komunity
bezproblémová shoda s evropskými předpisy včetně EU AI Act
jazyková, kulturní a aplikační diverzita

Centra EuroHPC by nám měla pomoci s rozjezdem. Ale nebude to tak jednoduché, každé z těchto center má jinou infrastrukturu. Někde používají karty od Nvidie, jinde od AMD, takže přenositelnost není triviální. Dále obecně máme přislíbeny kapacity z chystaných AI továren.

prof. Jan Hajič, hlavní koordinátor OpenEuroLLM

Hlavní přínosy OpenEuroLLM

minimální náklady ze strany uživatele
data neopouštějí území Evropy – nemusíte se bát zcizení svých dat soudruhy z Číny, Sovětského svazu, ani Ameriky
compliance = snadná implementace – shoda s evropským právem zamezí jakýmkoliv prodlevám ve všech krocích implemtace modelu při kterémkoliv nasazení
open-source
model myslí a komunikuje v mateřském jazyce uživatele – nikoliv jen překládá to, co natrénoval na anglických datasetech

Výpočetní infrastruktura poháněná superpočítači

Jazykové modely OpenEuroLLM budou trénovány a provozovány na špičkových evropských superpočítačových centrech, která poskytují nezbytný výpočetní výkon pro zpracování rozsáhlých datových sad a komplexních modelů. Klíčovými partnery jsou členové organizace EuroHPC:

Barcelona Supercomputing Center (Španělsko): domov superpočítače MareNostrum 5 (poháněného udržitelnou energií) s výkonem 314 petaflopů
Cineca Interuniversity Consortium (Itálie): provozující superpočítač Leonardo, postavený na 4. generaci procesorů Intel Xeon Scalable a GPU NVIDIA Amper, o výkonu 250 petaflopů
CSC – IT Center for Science (Finsko): hostující jeden z nejvýkonnější superpočítačů světa LUMI o výkonu přes 550 petaflopů
SURF (Nizozemí), jedno z center integrace kvantových počítačů do evropské superpočítačové struktury
Juelich Supercomputing Center (JSC), (Německo)

Ty v budoucnu doplní tzv. AI továrny, což jsou datová centra specializovaná na AI. Disponují:

infrastrukturou pro přípravu a anýzu – sběr, čištění a předzpracování dat pomocí generativních modelů, strojového učení a specializovaných nástrojů pro zpracování dat
výkonnými výpočetními systémy – především superpočítači
softwarem pro trénink AI modelů (platformy a frameworky pro vývoj, trénink a optimalizaci)
testovacím prostředím simulující nasazení LLM v reálných scénářích.

Stačí to na americké giganty?

Projekt OpenEuroLLM získal 20 mil. EUR z programu Digitální Evropa, celkově má přislíbeno 37,4 milionu EUR – ale počítá se i s dalšími zdroji konfinancování, jako jsou firmy a národní subjekty (např. české MŠMT). I když jde jen o zlomek toho, co investují technologičtí giganti, nepočítá se s tím, že OpenEuroLLM technologicky zaostával.

Výpočetní infrastruktura sice nedosahuje kapacit společností OpenAI, Google či Antropic, ale vytvářejí ji špičkové instituce, které jsou schopny optimalizovat zdroje, rychle implementovat závěry vědeckého výzkumu do aplikační praxe a cíleně specializovat jednotlivé LLM tak, aby dosáhly nadstandardní kvality a relevance výsledků pro evropského uživatele.

OpenEuroLLM je ukázkovým příkladem spolupráce různých sektorů pro vývoj evropských produktů umělé inteligence respektujících hodnoty uznávané v celém evropském technologickém ekosystému.

prof. Milena Králíčková, rektorka Univerzity Karlovy

Posily OpenEuroLLM v podobě výzkumníků a firem

Největší tažnou silou OpenEuroLLM je spolupráce napříč sektory, oblastmi a specializacemi – nikoliv superpočítače samy o sobě.

Univerzitní instituty

Ústav formální a aplikované lingvistiky z Matematicko-fyzikální fakultu Univerzity Karlovy – koordinátor projektu OpenEuroLLM
Research group TurkuNLP, Department of Computing, Faculty of Technology, University of Turku (Finsko)
Department of Mathematics and Computer Science, Eindhoven University of Technology (Holandsko)
Department of Computer Science, Faculty of Science University of Helsinki (Finsko)
Department of Informatics, Faculty of Mathematics and Natural Sciences, University of Oslo (Norsko)
Department of Computer Science, Faculty of Science, University of Tübingen (Německo)

Výzkumné instituty

Alliance for Language Technologies EDIC (Francie)
Tübingen AI Center na ELLIS Institute Tübingen (Německo)
Fraunhofer IAIS (Německo)
AI Sweden v rámci Lindholmen Science Park (Švédsko)
Research Center Juelich (Německo)

Firmy

Silo GenAI (Finsko) – podílí se na vedení OpenEuroLLM
Aleph Alpha Research (Německo)
ellamind (Německo)
LightOn (Francie)
Prompsit Language Engineering (Španělsko)

OpenEuroLLM: AI postavená na superpočítačích a HPLT

I když americké komerční AI disponují ohromnými investicemi a masivní infrastrukturou, často se spoléhají na rozsáhlé GPU farmy. Na rozdíl od nich má OpenEuroLLM potenciál využít špičkové evropské superpočítače, jako je MareNostrum 5, Leonardo a LUMI, a v budoucnu i kvantové počítače, což umožní využití výpočetní síly, která není pouze o množství, ale především o kvalitě a optimalizaci zdrojů.

Navíc propojení s projektem HPLT dodává OpenEuroLLM další rozměr – strategii založenou na pokročilých výzkumných metodách a inovacích, která dokáže rychle převádět vědecké poznatky do každodenní praxe. Díky HPLT může OpenEuroLLM využít kvalitativně odlišné síly – nejen masivní počet GPU. Jinými slovy: OpenEuroLLM může být zcela jinou umělou inteligencí.

Chcete AI dostat mezi lidi?

Zdroje

SEO specialista a copywriter Daniel Beránek

SEO specialista a copywriter Daniel Beránek: expert na výkonově orientované SEO, Local Business SEO, datový a technický copywriting a budování brandu.

Odborné know-how a zkušenosti:

komunikace a psychologie: Mgr. psychologie, Mgr. žurnalistiky a komunikačních studií, novinářská praxe
SEO, weby, síťařina: vlastní praxe od 2013, každodenní práce s WP aj. CMS, webdesign, technická optimalizace vč. výběru webserverů, úprav .htaccess, výběru hostingu a CDN aj.
IT security: několik let přispívání pro SOOM.cz: portálu o IT security a hackingu + zaměření i na IT security v další novinářské praxi
e-commerce: příprava měsíčníku Novinky e-commerce pro eshop developera Shopsys, vlastní copywriting a SEO pro eshopy
retail: vybudování, provoz, osobní prodej a všechny ostatní aktivity v rámci maloobchodních prodejen pro bratra, vlastní retail: opakovaná účast na vánočních trzích – viz. Vánoční trhy: marže a umění prodat tisíckrát jinak

danielberanek.cz