Testkirina "Smartest li cîhanê" Grok3

Koma Aipu Waton (1)

Pêşkêş

Ma hûn difikirin ku grok3 dê "dawiya" modelên pêş-perwerdekirî be?

Elon Musk û tîmê Xai bi fermî guhertoya herî dawî ya Grok, Groc3, di dema zeviyê de dest pê kir. Berî vê bûyerê, hejmareke girîng a agahdariya têkildar, ku bi hepsên reklamê yên Musk re, ku hêviyên gerdûnî yên gerdûnî ji bo grok3 bi astên nediyar ve hatine girêdan. Tenê hefteyek berê, Musk bi xwebawerî dema ku li ser Depseek R1 şîrove kir, "Xai di derbarê destpêkirina modela ai çêtir de ye." Ji daneyên ku hatine pêşkêş kirin, Groc3 ragihandiye ku ji bo matematîk, zanistî û bernameyê, dê ji bo peywirên mîsyona Misk3-ê, dê di asta xelata Nobel de were bikar anîn, ji sê salan pêşbîn bike. " Lêbelê, ev niha tenê îdîayên Musk in. Piştî destpêkirinê, min guhertoya beta ya herî dawî ya GROK3 ceriband û ji bo modelên mezin pirsa klasîk a klasîk ceriband: "Kîjan mezintir e, 9.11 an 9.9?" Mixabin, bêyî her kalîteyên an nîşangir, bi vî rengî bi navê Grok3-yê Smartest hîn jî nikaribû bersiva vê pirsê rast bikin. GROK3 bi qasî wateya wateya pirsê nas nekir.

 

Ev ceribandin ji gelek hevalên xwe, û bi hevra, ceribandinên cûda, yên li derveyî cuda, bi strog3 re têkoşîn kirine bi fîzîka bingehîn / pirsên matematîkî yên mîna "Kîjan gule ji Tower Tower of Pisa?" Bi vî rengî, bi rûmetî wekî "genimê ku nexwaze bersiv bide pirsên hêsan."

640

Grook3 baş e, lê ji R1 an O1-Pro çêtir e.

Grok3 li ser gelek testên zanyarî yên hevbeş di pratîkê de "têkçûn" ceriband. Di dema destpêka Bûyera XII de, Musk bi karanîna kategoriya karakteran û bandorên ji riya lîstikê ya mestir 2, ku wî îdîa kir ku bi gelemperî play. Musk di dema zindî de ev pirsgirêka eşkere nedît.

 

Ev xeletî ne tenê delîlên din ji bo Netirsî ji bo "Dîtinek li şûna" li ser pêbaweriya grook3-ê di serîlêdanên pratîkî de fikarên girîng zêde kir. Ji bo "genim," bê guman, pêbaweriya wê di senaryoyên serîlêdana zehf de, wek karên lêgerîna Marsê, di guman de dimîne.

 

Niha, gelek ceribandinên ku gihîştina groc3 hefte berê, û yên ku tenê duh ceribandin, hemî xalên ji bo encamek hevbeş - "groc3 baş e, lê ji R1 an O1-Pro çêtir e."

640 (1)

Perspektîfek krîtîk li ser "astengkirina NVIDIA"

Di dema serbestberdanê de, di nav devera chatê de, bi rengek fermî hate pêşwazîkirin, lê ev teknîkên grafîkî yên bi zorê di nav rêza 1400-1300 de, di vê pêşandanê de, di encama encamên orîjînal de têne dîtin.

640

Di encamên tomarkirina modela rastîn de, Grok3 tenê 1-2% li pêşiya kûrahiya R1 û GPT-4.0 e, ku bi gelek ezmûnên bikarhêneran re di ceribandinên pratîkî yên ku "cûdahiyek berbiçav de nehat dîtin." Grok3 tenê ji% 1% ji Serkeftinên xwe derbas dibe.

640

Her çend Grok3 ji ​​hemî modelên ceribandî yên gelemperî bilindtir kir, pir caran vê ciddî nagirin: Wekî ku Rêbernameya Lêkolînê Bi Dirêjiyê Dirêjiyê Dike, encamên ku pir zêde kêm bûn, pêşengiya pîşesaziyê bi gelemperî rexne dikin ku bi gelemperî fenomeniya "lêçûna bilind lê kêmtirîn" rexne bikin.

 

Ka bi navgîniya "manipulasyonê" an sêwiranên sêwiranê di nîşanan de, ew fikra Xai û Musk bi têgihîştina "pêşengiya pakêtê" di kapasîteyên modela de eşkere dikin. Musk ji bo van marginsan bihayek hişk daye: Wî pesnê xwe da ku 200,000 H100 GPU (îdîa "li ser zeviyê bi tevahî 100,000" îdîa bike ". Vê yekê hinek kir ku ew bawer bikin ku ew ji bo pîşesaziya GPU-ê ji bo pîşesaziya GPU nîşan dide û bandora kûr a li ser sektorê wekî "bêaqil" fikirîne. Nemaze, hinekan bawer dikin ku hêza computasyonê ya computasyonê dê pêşeroja perwerdehiya modêl be.

 

Lêbelê, hin Netizens ji du mehan re kêmasiya 2000 H800 Gpus berhev kir ku kûrtir V3 hilberîne, tê hesibandin ku karanîna hêza rastîn a groc3-ê ya hilberîna rastîn 263 caran ji v3 e. Gap di navbera Deepseek V3 de, ku 1402 xalên avêt, û groc3 tenê di bin 100 xalan de ye. Piştî serbestberdana vê daneyê, gelek zû fêm kir ku li pişt sernavê grok3-ê wekî "xurttirîn herî bihêztir e ku bandora mezin a marjînal a zelal dike - mantiqa modelên mezintir ku ji bo vegera kêmbûnê nîşan dide.

640 (2)

Tewra jî bi "Kêmbûna Bilind, lê qeweta kêm," Grocok 2 ji bo piştgirîkirina karanîna du-twitter) Lêbelê, di perwerdehiya Grook3 de, Xai bi xwezayî re rû bi rû "tavilê" re rû bi rû dimîne - nebûna daneya perwerdehiya premium bi lez û bez bi lezgîniya marjînal a kapasîteyên modela vedibêje.

 

Pêşdebirên Grok3 û Musk îhtîmal e ku pêşî li van rastiyan fêm bikin, ku musk bi berdewamî li ser medyaya civakî ye ku niha bi berdewamî tê gotin. " Musk li ser rola Gerînendeyê Grok3 rola girtiye, bikarhênerên pêşniyar li ser pirsgirêkên cûda yên ku di beşa şîroveyan de hatine dîtin re bertek nîşan didin. Ew dibe ku rêveberê hilberê ya herî jêrîn li ser rûyê erdê be.

 

Lêbelê, di nav rojek, performansa groc3 de ji bo kesên ku li ser "masûlkeyên berhevkirî yên girseyî" bi rê ve girêda, li gorî deh carî ji GPT-3 mezinahiya Microsoft. Rumor pêşniyar dikin ku pîvana pîvanê GPT-4.5 dibe ku hê mezintir be.

 

Wekî ku Model Parameter Soar Soar, lêçûnên perwerdehiyê jî skyrîkekirin in. Bi hebûna Grok3 re, konseptersên mîna GPT-4.5 û yên din ên ku dixwazin "bişewitînin" berdewam bikin ku bi mezinahiya parameterê ve dihesibînin ku nuha li ber çavan binihêrin û bifikirin ka meriv çawa wê biqedîne. Di vê gavê de, Zanyarek sereke ya berê ya li Openai, pêşdibistanê ku em bi nîqaşan re hatine diyar kirin, "ku di nîqaşan de ji bo dîtina rêça rastîn ji bo perwerdekirina modelên mezin dîtine.

640 (3)

Nêrîna ilya di pîşesaziyê de alarma bûye. Wî bi rastî biyana nîgaşî ya daneyên nû yên gihîştî dûr dikeve, ku bibe rewşek ku performans nikare bi wergirtina daneyê ve were zêdekirin, biqewimîne ku ew ji bo bîhnfirehiya fosîlên fosîl zêde bibe. Wî destnîşan kir ku "mîna rûn, naveroka hilberîn-mirovî li ser Internetnternetê çavkaniyek sînorkirî ye." Di pêşbîniyên Sutkever de, nifşên din ên modelan, piştî-pêş-pêş-perwerdehiyê, dê xwediyê "xweseriya rastîn" û kapasîteyên sedem "ên mîna mejiyê mirovî."

 

Berevajî modelên pêş-perwerdekirî yên ku di serî de li ser naveroka hevokê (li ser bingeha naveroka modela fêrbûyî ya hînbûyî) dê bikaribin fêr bibin û saz bikin ku pirsgirêkan bi rengek "ramîna" ji mêjiyê mirovan re çareser bikin. Mirov dikare di mijarek bi edebiyata bingehîn a pîşeyî ya bingehîn de bigihîje hevsengiyek bingehîn, dema ku modela mezin a AI-ê hewce dike ku bi mîlyonan xalên daneyê bigire da ku tenê bandoriya têketina têketinê bigihîje. Heya ku peyv hinekî tê guheztin, dibe ku ev pirsên bingehîn neyên fam kirin, ronî kirin ku modela di hişmendiyê de baştir nine: Pirsên bingehîn ên ku di destpêka gotarê de hatine diyarkirin mînakek eşkere ya vê fenomenê ye.

微信图片 _20240614024031.jpg1

Xelasî

Lêbelê, ji derveyî hêzek birêkûpêk, heke groc3 bi rastî biserkeve ku "modelên pêşdibistanê nêzikî wan dibin," ew ê encamên girîng ji bo zeviyê pêk bîne.

Dibe ku piştî ku di derdora Grok3-ê de bi hêdî diqewime, em ê bibin şahidê bêtir rewşan "tunekirina modelên performansa li ser datasetek taybetî ji bo $ 50," di dawiyê de riya rastîn a AGI.

Çareseriya kabloya elv bibînin

Kabloyên kontrolê

Ji bo bms, otobus, pîşesazî, kabloya instrumentation.

Pergala kabloyê ya strukturandî

Torgil û Data, kabloya fiber-optîk, korda patch, modul, rû

2024 Pêşangeh û Bûyer

Avrêl - 18-ê 18-an, 2024 Rojhilata Navîn-Enerjî li Dubai

Avrêl - 18-ê 18-an, 2024 securika li Moskowê

Gulan.9, 2024 Hilberên nû & Teknolojî di Shanghai de bûyerê dest pê dike

Oct.22nd-25th, 2024 Ewlekariya Chinaînê li Pekînê

Nov.19-20, 2024 Cîhan Connect KSA


Demjimêra paşîn: Feb-19-2025