Zajímají vás trénovací data nových modelů GPT-OSS od OpenAI? Já jsem byl také. tak jsem vygeneroval 10M příkladů z gpt-oss-20b, provedl nějakou analýzu a výsledky byly... Docela bizarní Je čas na hluboký ponor 🧵
Zde je mapa vložených generací Model miluje matematiku a kód. Vyzývám s ničím a přesto to vždy zdůvodňuje. mluví se tam jen o matematice a kódu, a většinou v angličtině matematika – pravděpodobnost, ML, PDR, topologie, diffeq kód – agentní software, konkurenční programování, data science
První věc, které si všimnete, je, že prakticky žádná z generací se nepodobá přirozenému webtextu. Ale překvapivě ani žádná z nich nevypadá jako běžná interakce s chatbotem tato věc je jasně trénována pomocí RL k přemýšlení a řešení úkolů pro konkrétní benchmarky uvažování. nic jiného.
A je to skutečně zmučený model. Zde model halucinuje programovací problém o dominu a pokouší se jej vyřešit, přičemž utratí více než 30 000 tokenů Zcela bez vyzvání model vygeneroval a pokusil se vyřešit tento dominový problém více než 5 000 samostatných časů
Spustil klasifikátor nad výstupy, aby získal představu o tom, které programovací jazyky GPT-OSS zná Zdá se, že trénovali téměř na všechno, o čem jste kdy slyšeli. zejména hodně Perlu (btw, z mé analýzy by Java a Kotlin měly být mnohem vyšší. klasifikátor se mohl pokazit)
co z mapy nevidíte, je, že mnoho řetězců začíná v angličtině, ale pomalu klesá do neuralštiny řetězce uvažování se naštěstí střídají mezi arabštinou, ruštinou, thajštinou, korejštinou, čínštinou a ukrajinštinou. pak se obvykle vrátí do angličtiny (ale ne vždy)
Domněnka OCR: některé příklady zahrnují artefakty, jako je OCRV ROOT, které indikují, že trénovací data mohla být čtení mezi řádky: OpenAI skenuje knihy (z nějakého důvodu model rád zmiňuje, kolik neslyšících žije v Malajsii)
Jaká jsou vysvětlení pro konstantní přepínání kódu? 1. OpenAI přišla na RL. Modelky již nemluví anglicky 2. problémy s poškozením dat prostřednictvím OCR nebo syntetického školení 3. Nějak jsem donutil model, aby vydával příliš mnoho tokenů a ty se postupně posouvají z distribuce
V celém objektu se prolíná malý počet kreativních výstupů Zde je jeden příklad, kdy modelka začíná psát skicu pro norský scénář 🤷 ♂️
Z tohoto jsem se také hodně naučil. Model je *opravdu* dobrý v používání Unicode ... ale může být špatný ve fyzice. Co je to proboha "funkce Superhalo"
Pokud si chcete data vyzkoušet, tady je, je to na Huggingface: Dejte mi vědět, co jste našli!
BUDOUCÍ PRÁCE – deduplikace I když jsem měnil náhodný seed a použitou teplotu, spousta výstupů je vysoce nadbytečná Bylo by rozumné odstranit duplicitu, vsadím se, že je zde pouze 100 tisíc nebo méně většinou jedinečných příkladů
BUDOUCÍ PRÁCE – popis rozdílů @ZhongRuiqi má neuvěřitelnou práci na metodách pro popis rozdílu mezi dvěma distribucemi textu *v přirozeném jazyce* mohli bychom porovnávat výstupy 20b s modelem 120b, nebo LLAMA, nebo GPT-5...
BUDOUCÍ PRÁCE – přímá extrakce pracujeme na přímé extrakci trénovacích dat z modelů pomocí RL a dalších metod. v COLM představíme naši první práci na toto téma a v tomto prostoru očekáváme další Možná budeme schopni přímo extrahovat data z modelu 120B. jednoho dne 😎
Zobrazit originál
147,62 tis.
1,57 tis.
Obsah na této stránce poskytují třetí strany. Není-li uvedeno jinak, společnost OKX není autorem těchto informací a nenárokuje si u těchto materiálů žádná autorská práva. Obsah je poskytován pouze pro informativní účely a nevyjadřuje názory společnosti OKX. Nejedná se o doporučení jakéhokoli druhu a nemělo by být považováno za investiční poradenství ani nabádání k nákupu nebo prodeji digitálních aktiv. Tam, kde se k poskytování souhrnů a dalších informací používá generativní AI, může být vygenerovaný obsah nepřesný nebo nekonzistentní. Další podrobnosti a informace naleznete v připojeném článku. Společnost OKX neodpovídá za obsah, jehož hostitelem jsou externí weby. Držená digitální aktiva, včetně stablecoinů a tokenů NFT, zahrnují vysokou míru rizika a mohou značně kolísat. Měli byste pečlivě zvážit, zde je pro vás obchodování s digitálními aktivy nebo jejich držení vhodné z hlediska vaší finanční situace.