Kā tiek veidots TildeOpen LLM

Tuvāks ieskats svarīgākajos brīžos, sasniegumos un vēl gaidāmajos notikumos.

Laika josla _uz_tumsa_fona

Piezīmes no laboratorijas

Aizkulišu komentāri, ieskati un atjauninājumi no mūsu pētniecības komanda par TildeOpen attīstību.

8.01.2026.

Nesen publicētie salīdzinošo testu rezultāti apstiprina TildeOpen spēcīgo sniegumu gramatiskajā precizitātē, lasīšanas izpratnē un efektivitātē morfoloģiski bagātās Eiropas valodās. Šie rezultāti apliecina, ka šis modelis ir piemērots pamats daudzvalodu MI lietojumprogrammām. Skatiet rezultātus vietnē Hugging Face un TildeBench.

04.09.2025.

TildeOpen tagad ir pieejams Hugging Face! Pēc gada ilgiem pētījumiem un izstrādes Eiropas ātrākajos superdatoros mūsu komanda beidzot ir publicējusi TildeOpen. Tas ir gatavs izpētei, eksperimentiem un tālākai attīstībai.

16.07.2025.

TildeOpen tuvojas sākotnējās apmācības posma noslēgumam. Pēc 2 triljoniem tokenu apstrādes pamata modelis ir apmācīts, un šobrīd mēs pārejam uz tā pielāgošanu un novērtēšanu. Kad pielāgotie modeļi būs gatavi, tie tiks publicēti Hugging Face platformā.

09.06.2025.

Mēs lepojamies, ka esam viens no pirmajiem uzņēmumiem, kas testē JUPITER, Eiropas pirmo eksaskalu superdatoru! Ar mums piešķirtajām 1,2 miljoniem GPU stundām mēs pielāgosim TildeOpen reāliem lietojumiem – tostarp daudzvalodu informācijas meklēšanai uzņēmuma iekšējos tīklos, kontekstu saprotošiem asistentiem un citiem drošiem MI rīkiem.

27.05.2025.

Lieliskas ziņas! Ar EuroHPC JU starpniecību esam saņēmuši papildu 140 000 GPU stundas uz LUMI. Šie resursi tiks izmantoti, lai pielāgotu modeli konkrētiem uzdevumiem kā daļu no FFplus finansētā projekta, koncentrējoties uz tādiem uzdevumiem kā tulkošanu, kopsavilkumu veidošanu un jautājumu atbildēšanu.

12.05.2025.
Mēs esam jau pusceļā ar priekšapmācību! Viena triljona tokenu apstrāde aizņēma vairāk laika nekā bija plānots, jo tika labotas kļūdas un gaidīta GPU piešķiršana.
05.05.2025
Mēs esam ieviesuši efektīvāku piemēru iepakošanas stratēģiju uzraudzītai instrukciju noskaņošanai EleutherAI GPT‑Neox. Agrīnā profilēšana liecina par aptuveni 90 % iepakošanas efektivitāti, saglabājot LUMI GPU gandrīz tikpat pilnībā izmantotus kā priekšapmācības laikā. Vēl viens uzlabojums ir vairāku pagriezienu instrukciju maskēšanas stratēģija, kas ļauj modelim piedalīties garās vairāku pagriezienu sarunās.
15.04.2025
Tagad esam pabeiguši aptuveni vienu trešdaļu no priekšapmācības. Lai to paveiktu, bija jānovērš virkne dīvainību, kļūdu un jāizmanto īpaši pielāgots EleutherAI GPT-Neox kods – kā arī dažas mūsu pašu kļūdas. Tomēr tas prasīja tikai vienu, ļoti agrīnu pārstartēšanu, tāpēc GPU laiks praktiski netika zaudēts!
15.03.2025

Beidzot esam sākuši ilgi gaidīto TildeOpen priekšapmācību. Aizņemoties citātu no Marka Tvena: “Pārstāt smēķēt ir visvieglākā lieta pasaulē; es to esmu darījis tūkstošiem reižu.” Cerēsim, ka šis mēģinājums nebūs neveiksmīgs starts un sniegs rezultātus, uz kuriem tik ilgi esam gājuši!

Uzziniet, kā īsti LVM darbojas

Mūsu pētnieku izstrādātais TildeBench ir publisks ranžējums, kas uzskaita, kā dažādi lielo valodu modeļi (LVM) veic tādus uzdevumus kā mašīntulkošana, atbilžu sniegšana kontekstā un gramatikas likumiem atbilstošu teksta ģenerēšanu – un to visu valodās, kas bieži vien tiek atstātas novārtā. Laika gaitā tas tiks papildināts ar jauniem uzdevumiem un modeļiem.

Veidojiet MI, kas runā jūsu valodā 

TildeOpen sniedz pamatu droša un suverēna MI izveidei. Izpētiet modeli tagad vai sazinieties ar mums, lai pielāgotu to savām vajadzībām.